Vision Transformer (ViT): differenze tra le versioni
Nessun oggetto della modifica |
Nessun oggetto della modifica |
||
| Riga 1: | Riga 1: | ||
{{Template architettura | |||
|NomeInglese=Vision Transformer | |||
|Sigla=ViT | |||
|AnnoDiCreazione=2021 | |||
|Pubblicazione=An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale | |||
|URLHomePage= | |||
|Topic=Visione artificiale | |||
}} | |||
Archietttura di rete neurale per la visione artificiale, introdotta nel paper An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale by Dosovitskiy et al (Google) nel 2021. | Archietttura di rete neurale per la visione artificiale, introdotta nel paper An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale by Dosovitskiy et al (Google) nel 2021. | ||
| Riga 4: | Riga 12: | ||
Molto interessanti i [https://huggingface.co/models?search=google/vit fine-tuning su huggingface]. | Molto interessanti i [https://huggingface.co/models?search=google/vit fine-tuning su huggingface]. | ||
Versione attuale delle 16:43, 17 ago 2024
| Vision Transformer (ViT) | |
|---|---|
| Nome Inglese | Vision Transformer |
| Sigla | ViT |
| Anno Di Creazione | 2021 |
| Pubblicazione | An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale |
| URL | |
| Topic | Visione artificiale |
Archietttura di rete neurale per la visione artificiale, introdotta nel paper An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale by Dosovitskiy et al (Google) nel 2021.
E' un transformer di tipo encoder (BERT-like).
Molto interessanti i fine-tuning su huggingface.