MiDaS v3.1 – A Model Zoo for Robust Monocular Relative Depth Estimation
MiDaS v3.1 – A Model Zoo for Robust Monocular Relative Depth Estimation | |
---|---|
Data | 2023 |
Autori | Reiner Birkl, Diana Wofk, Matthias Muller |
URL | https://www.semanticscholar.org/paper/133508edc7c4e4ebf95f005a17caf2003f64527f |
Topic | Stima della profondità |
Citazioni | 54 |
Il progetto MiDaS v3.1 si concentra sulla stima della profondità monocular, introducendo una serie di nuovi modelli basati su diverse architetture di encoder. L'obiettivo principale è sfruttare le potenzialità dei transformer nella visione artificiale, utilizzandoli come encoder di immagini per migliorare la qualità e la velocità della stima della profondità. Sono stati inclusi anche approcci convoluzionali recenti che offrono prestazioni comparabili ai transformer. I modelli inclusi in MiDaS v3.1, come BEiT, Swin, SwinV2, Next-ViT e LeViT, offrono un compromesso tra prestazioni ed efficienza. Il modello più performante migliora la qualità della stima della profondità del 28%, mentre i modelli più efficienti sono adatti per attività che richiedono frame rate elevati.