Vision Transformer (ViT): differenze tra le versioni

Da Wiki AI.
(Creata pagina con "Archietttura proposta da")
 
Nessun oggetto della modifica
 
(Una versione intermedia di un altro utente non mostrate)
Riga 1: Riga 1:
Archietttura proposta da
{{Template architettura
|NomeInglese=Vision Transformer
|Sigla=ViT
|AnnoDiCreazione=2021
|Pubblicazione=An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale
|URLHomePage=
|Topic=Visione artificiale
}}
Archietttura di rete neurale per la visione artificiale, introdotta nel paper An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale by Dosovitskiy et al (Google) nel 2021.
 
E' un transformer di tipo encoder ([[BERT]]-like).
 
Molto interessanti i [https://huggingface.co/models?search=google/vit fine-tuning su huggingface].

Versione attuale delle 16:43, 17 ago 2024

Vision Transformer (ViT)
Nome Inglese Vision Transformer
Sigla ViT
Anno Di Creazione 2021
Pubblicazione An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale
URL
Topic Visione artificiale

Archietttura di rete neurale per la visione artificiale, introdotta nel paper An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale by Dosovitskiy et al (Google) nel 2021.

E' un transformer di tipo encoder (BERT-like).

Molto interessanti i fine-tuning su huggingface.