Vision Transformer (ViT): differenze tra le versioni
(Creata pagina con "Archietttura proposta da") |
Nessun oggetto della modifica |
||
Riga 1: | Riga 1: | ||
Archietttura | Archietttura di rete neurale per la visione artificiale, introdotta nel paper An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale by Dosovitskiy et al (Google) nel 2021. | ||
E' un transformer di tipo encoder ([[BERT]]-like). | |||
Molto interessanti i [https://huggingface.co/models?search=google/vit fine-tuning su huggingface]. | |||
[[Categoria:Architettura]] |
Versione delle 16:40, 17 ago 2024
Archietttura di rete neurale per la visione artificiale, introdotta nel paper An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale by Dosovitskiy et al (Google) nel 2021.
E' un transformer di tipo encoder (BERT-like).
Molto interessanti i fine-tuning su huggingface.