Vision Transformer (ViT)
Archietttura di rete neurale per la visione artificiale, introdotta nel paper An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale by Dosovitskiy et al (Google) nel 2021.
E' un transformer di tipo encoder (BERT-like).
Molto interessanti i fine-tuning su huggingface.