Vision Transformers for Dense Prediction

Da Wiki AI.
Vision Transformers for Dense Prediction
Data 2021
Autori Rene Ranftl, Alexey Bochkovskiy, V. Koltun
URL https://www.semanticscholar.org/paper/8e33914d6051dd031a5e096962b9398fc1d16067
Topic Applicazione dei Vision Transformers alla predizione densa
Citazioni 1208

Viene presentata un'architettura per la predizione densa che utilizza i Vision Transformer al posto delle reti neurali convoluzionali. I token provenienti da diverse fasi del Vision Transformer vengono assemblati in rappresentazioni simili a immagini a diverse risoluzioni e combinati progressivamente in predizioni a piena risoluzione utilizzando un decoder convoluzionale. Questo approccio consente di ottenere prestazioni migliori rispetto alle reti completamente convoluzionali, in particolare in presenza di grandi quantità di dati di addestramento.