Vision Transformers for Dense Prediction

Vision Transformers for Dense Prediction
Data	2021
Autori	Rene Ranftl, Alexey Bochkovskiy, V. Koltun
URL	https://www.semanticscholar.org/paper/8e33914d6051dd031a5e096962b9398fc1d16067
Topic	Applicazione dei Vision Transformers alla predizione densa
Citazioni	1208

Viene presentata un'architettura per la predizione densa che utilizza i Vision Transformer al posto delle reti neurali convoluzionali. I token provenienti da diverse fasi del Vision Transformer vengono assemblati in rappresentazioni simili a immagini a diverse risoluzioni e combinati progressivamente in predizioni a piena risoluzione utilizzando un decoder convoluzionale. Questo approccio consente di ottenere prestazioni migliori rispetto alle reti completamente convoluzionali, in particolare in presenza di grandi quantità di dati di addestramento.