Vision Transformers for Dense Prediction: differenze tra le versioni

Da Wiki AI.
Nessun oggetto della modifica
Nessun oggetto della modifica
 
Riga 1: Riga 1:
Titolo: [[Titolo::Vision Transformers for Dense Prediction]]
{{template pubblicazione
 
|data=2021
Anno di pubblicazione: [[AnnoDiPubblicazione::2021]]
|autori=Rene Ranftl, Alexey Bochkovskiy, V. Koltun
 
|URL=https://www.semanticscholar.org/paper/8e33914d6051dd031a5e096962b9398fc1d16067
Autori: [[Autori::Rene Ranftl]]; [[Autori::Alexey Bochkovskiy]]; [[Autori::Vladlen Koltun]]
|topic=Applicazione dei Vision Transformers alla predizione densa
 
|citazioni=1208
URL: [[URL::https://arxiv.org/pdf/2103.13413.pdf]]
}}
 
Viene presentata un'architettura per la predizione densa che utilizza i Vision Transformer al posto delle reti neurali convoluzionali. I token provenienti da diverse fasi del Vision Transformer vengono assemblati in rappresentazioni simili a immagini a diverse risoluzioni e combinati progressivamente in predizioni a piena risoluzione utilizzando un decoder convoluzionale. Questo approccio consente di ottenere prestazioni migliori rispetto alle reti completamente convoluzionali, in particolare in presenza di grandi quantità di dati di addestramento.
Topic: [[Topic::Applicazione dei Vision Transformers alla predizione densa]]
 
[[Category:pubblicazione]]
 
__SHOWFACTBOX__

Versione attuale delle 10:54, 17 ago 2024

Vision Transformers for Dense Prediction
Data 2021
Autori Rene Ranftl, Alexey Bochkovskiy, V. Koltun
URL https://www.semanticscholar.org/paper/8e33914d6051dd031a5e096962b9398fc1d16067
Topic Applicazione dei Vision Transformers alla predizione densa
Citazioni 1208

Viene presentata un'architettura per la predizione densa che utilizza i Vision Transformer al posto delle reti neurali convoluzionali. I token provenienti da diverse fasi del Vision Transformer vengono assemblati in rappresentazioni simili a immagini a diverse risoluzioni e combinati progressivamente in predizioni a piena risoluzione utilizzando un decoder convoluzionale. Questo approccio consente di ottenere prestazioni migliori rispetto alle reti completamente convoluzionali, in particolare in presenza di grandi quantità di dati di addestramento.