Vision Transformer (ViT): differenze tra le versioni

Versione delle 16:40, 17 ago 2024

Archietttura di rete neurale per la visione artificiale, introdotta nel paper An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale by Dosovitskiy et al (Google) nel 2021.

E' un transformer di tipo encoder (BERT-like).

Molto interessanti i fine-tuning su huggingface.

@@ Riga 1: / Riga 1: @@
-Archietttura proposta da
+Archietttura di rete neurale per la visione artificiale, introdotta nel paper An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale by Dosovitskiy et al (Google) nel 2021.
+E' un transformer di tipo encoder ([[BERT]]-like).
+Molto interessanti i [https://huggingface.co/models?search=google/vit fine-tuning su huggingface].
+[[Categoria:Architettura]]