Vision Transformer (ViT)

Da Wiki AI.
Versione del 17 ago 2024 alle 16:43 di Mindmakerbot (discussione | contributi)
(diff) ← Versione meno recente | Versione attuale (diff) | Versione più recente → (diff)
Vision Transformer (ViT)
Nome Inglese Vision Transformer
Sigla ViT
Anno Di Creazione 2021
Pubblicazione An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale
URL
Topic Visione artificiale

Archietttura di rete neurale per la visione artificiale, introdotta nel paper An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale by Dosovitskiy et al (Google) nel 2021.

E' un transformer di tipo encoder (BERT-like).

Molto interessanti i fine-tuning su huggingface.