Vai al contenuto

Vision Transformer (ViT)

Da Wiki AI.

Versione del 17 ago 2024 alle 16:40 di Alesaccoia (discussione | contributi)

(diff) ← Versione meno recente | Versione attuale (diff) | Versione più recente → (diff)

Archietttura di rete neurale per la visione artificiale, introdotta nel paper An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale by Dosovitskiy et al (Google) nel 2021.

E' un transformer di tipo encoder (BERT-like).

Molto interessanti i fine-tuning su huggingface.

Estratto da "https://wiki.mindmaker.it/index.php?title=Vision_Transformer_(ViT)&oldid=2924"

Architettura