Vision Transformers for Dense Prediction: differenze tra le versioni
(Creata pagina con "Titolo: Titolo::Vision Transformers for Dense Prediction Anno di pubblicazione: AnnoDiPubblicazione::2021 URL: URL::https://arxiv.org/pdf/2103.13413.pdf Topic: Topic::Applicazione dei Vision Transformers alla predizione densa Category:pubblicazione __SHOWFACTBOX__") |
Nessun oggetto della modifica |
||
| (Una versione intermedia di un altro utente non mostrate) | |||
| Riga 1: | Riga 1: | ||
{{template pubblicazione | |||
|data=2021 | |||
|autori=Rene Ranftl, Alexey Bochkovskiy, V. Koltun | |||
|URL=https://www.semanticscholar.org/paper/8e33914d6051dd031a5e096962b9398fc1d16067 | |||
URL | |topic=Applicazione dei Vision Transformers alla predizione densa | ||
|citazioni=1208 | |||
}} | |||
Viene presentata un'architettura per la predizione densa che utilizza i Vision Transformer al posto delle reti neurali convoluzionali. I token provenienti da diverse fasi del Vision Transformer vengono assemblati in rappresentazioni simili a immagini a diverse risoluzioni e combinati progressivamente in predizioni a piena risoluzione utilizzando un decoder convoluzionale. Questo approccio consente di ottenere prestazioni migliori rispetto alle reti completamente convoluzionali, in particolare in presenza di grandi quantità di dati di addestramento. | |||
Versione attuale delle 10:54, 17 ago 2024
| Vision Transformers for Dense Prediction | |
|---|---|
| Data | 2021 |
| Autori | Rene Ranftl, Alexey Bochkovskiy, V. Koltun |
| URL | https://www.semanticscholar.org/paper/8e33914d6051dd031a5e096962b9398fc1d16067 |
| Topic | Applicazione dei Vision Transformers alla predizione densa |
| Citazioni | 1208 |
Viene presentata un'architettura per la predizione densa che utilizza i Vision Transformer al posto delle reti neurali convoluzionali. I token provenienti da diverse fasi del Vision Transformer vengono assemblati in rappresentazioni simili a immagini a diverse risoluzioni e combinati progressivamente in predizioni a piena risoluzione utilizzando un decoder convoluzionale. Questo approccio consente di ottenere prestazioni migliori rispetto alle reti completamente convoluzionali, in particolare in presenza di grandi quantità di dati di addestramento.