Vision Transformer (ViT): differenze tra le versioni

Da Wiki AI.
(Creata pagina con "Archietttura proposta da")
 
Nessun oggetto della modifica
Riga 1: Riga 1:
Archietttura proposta da
Archietttura di rete neurale per la visione artificiale, introdotta nel paper An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale by Dosovitskiy et al (Google) nel 2021.
 
E' un transformer di tipo encoder ([[BERT]]-like).
 
Molto interessanti i [https://huggingface.co/models?search=google/vit fine-tuning su huggingface].
[[Categoria:Architettura]]

Versione delle 16:40, 17 ago 2024

Archietttura di rete neurale per la visione artificiale, introdotta nel paper An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale by Dosovitskiy et al (Google) nel 2021.

E' un transformer di tipo encoder (BERT-like).

Molto interessanti i fine-tuning su huggingface.