Vision Transformers for Dense Prediction
| Vision Transformers for Dense Prediction | |
|---|---|
| Data | 2021 |
| Autori | Rene Ranftl, Alexey Bochkovskiy, V. Koltun |
| URL | https://www.semanticscholar.org/paper/8e33914d6051dd031a5e096962b9398fc1d16067 |
| Topic | Applicazione dei Vision Transformers alla predizione densa |
| Citazioni | 1208 |
Viene presentata un'architettura per la predizione densa che utilizza i Vision Transformer al posto delle reti neurali convoluzionali. I token provenienti da diverse fasi del Vision Transformer vengono assemblati in rappresentazioni simili a immagini a diverse risoluzioni e combinati progressivamente in predizioni a piena risoluzione utilizzando un decoder convoluzionale. Questo approccio consente di ottenere prestazioni migliori rispetto alle reti completamente convoluzionali, in particolare in presenza di grandi quantità di dati di addestramento.