MiDaS v3.1 – A Model Zoo for Robust Monocular Relative Depth Estimation
| MiDaS v3.1 – A Model Zoo for Robust Monocular Relative Depth Estimation | |
|---|---|
| Data | 2023 |
| Autori | Reiner Birkl, Diana Wofk, Matthias Muller |
| URL | https://www.semanticscholar.org/paper/133508edc7c4e4ebf95f005a17caf2003f64527f |
| Topic | Stima della profondità |
| Citazioni | 54 |
Il progetto MiDaS v3.1 si concentra sulla stima della profondità monocular, introducendo una serie di nuovi modelli basati su diverse architetture di encoder. L'obiettivo principale è sfruttare le potenzialità dei transformer nella visione artificiale, utilizzandoli come encoder di immagini per migliorare la qualità e la velocità della stima della profondità. Sono stati inclusi anche approcci convoluzionali recenti che offrono prestazioni comparabili ai transformer. I modelli inclusi in MiDaS v3.1, come BEiT, Swin, SwinV2, Next-ViT e LeViT, offrono un compromesso tra prestazioni ed efficienza. Il modello più performante migliora la qualità della stima della profondità del 28%, mentre i modelli più efficienti sono adatti per attività che richiedono frame rate elevati.