Vision Transformer (ViT): differenze tra le versioni

Versione attuale delle 16:43, 17 ago 2024

Vision Transformer (ViT)
Nome Inglese	Vision Transformer
Sigla	ViT
Anno Di Creazione	2021
Pubblicazione	An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale
URL
Topic	Visione artificiale

Archietttura di rete neurale per la visione artificiale, introdotta nel paper An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale by Dosovitskiy et al (Google) nel 2021.

E' un transformer di tipo encoder (BERT-like).

Molto interessanti i fine-tuning su huggingface.

@@ Riga 1: / Riga 1: @@
-Archietttura proposta da
+{{Template architettura
+|NomeInglese=Vision Transformer
+|Sigla=ViT
+|AnnoDiCreazione=2021
+|Pubblicazione=An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale
+|URLHomePage=
+|Topic=Visione artificiale
+}}
+Archietttura di rete neurale per la visione artificiale, introdotta nel paper An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale by Dosovitskiy et al (Google) nel 2021.
+E' un transformer di tipo encoder ([[BERT]]-like).
+Molto interessanti i [https://huggingface.co/models?search=google/vit fine-tuning su huggingface].