Vision Transformer (ViT)

Da Wiki AI.
Vision Transformer (ViT)
Nome Inglese Vision Transformer
Sigla ViT
Anno Di Creazione 2021
Pubblicazione An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale
URL
Topic Visione artificiale

Archietttura di rete neurale per la visione artificiale, introdotta nel paper An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale by Dosovitskiy et al (Google) nel 2021.

E' un transformer di tipo encoder (BERT-like).

Molto interessanti i fine-tuning su huggingface.