Vision Transformer (ViT): differenze tra le versioni

Da Wiki AI.
Nessun oggetto della modifica
Nessun oggetto della modifica
 
Riga 1: Riga 1:
{{Template architettura
|NomeInglese=Vision Transformer
|Sigla=ViT
|AnnoDiCreazione=2021
|Pubblicazione=An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale
|URLHomePage=
|Topic=Visione artificiale
}}
Archietttura di rete neurale per la visione artificiale, introdotta nel paper An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale by Dosovitskiy et al (Google) nel 2021.
Archietttura di rete neurale per la visione artificiale, introdotta nel paper An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale by Dosovitskiy et al (Google) nel 2021.


Riga 4: Riga 12:


Molto interessanti i [https://huggingface.co/models?search=google/vit fine-tuning su huggingface].
Molto interessanti i [https://huggingface.co/models?search=google/vit fine-tuning su huggingface].
[[Categoria:Architettura]]

Versione attuale delle 16:43, 17 ago 2024

Vision Transformer (ViT)
Nome Inglese Vision Transformer
Sigla ViT
Anno Di Creazione 2021
Pubblicazione An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale
URL
Topic Visione artificiale

Archietttura di rete neurale per la visione artificiale, introdotta nel paper An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale by Dosovitskiy et al (Google) nel 2021.

E' un transformer di tipo encoder (BERT-like).

Molto interessanti i fine-tuning su huggingface.