MiDaS v3.1 – A Model Zoo for Robust Monocular Relative Depth Estimation

Da Wiki AI.
MiDaS v3.1 – A Model Zoo for Robust Monocular Relative Depth Estimation
Data 2023
Autori Reiner Birkl, Diana Wofk, Matthias Muller
URL https://www.semanticscholar.org/paper/133508edc7c4e4ebf95f005a17caf2003f64527f
Topic Stima della profondità
Citazioni 54


Il progetto MiDaS v3.1 si concentra sulla stima della profondità monocular, introducendo una serie di nuovi modelli basati su diverse architetture di encoder. L'obiettivo principale è sfruttare le potenzialità dei transformer nella visione artificiale, utilizzandoli come encoder di immagini per migliorare la qualità e la velocità della stima della profondità. Sono stati inclusi anche approcci convoluzionali recenti che offrono prestazioni comparabili ai transformer. I modelli inclusi in MiDaS v3.1, come BEiT, Swin, SwinV2, Next-ViT e LeViT, offrono un compromesso tra prestazioni ed efficienza. Il modello più performante migliora la qualità della stima della profondità del 28%, mentre i modelli più efficienti sono adatti per attività che richiedono frame rate elevati.