MiDaS v3.1 – A Model Zoo for Robust Monocular Relative Depth Estimation

MiDaS v3.1 – A Model Zoo for Robust Monocular Relative Depth Estimation
Data	2023
Autori	Reiner Birkl, Diana Wofk, Matthias Muller
URL	https://www.semanticscholar.org/paper/133508edc7c4e4ebf95f005a17caf2003f64527f
Topic	Stima della profondità
Citazioni	54

Il progetto MiDaS v3.1 si concentra sulla stima della profondità monocular, introducendo una serie di nuovi modelli basati su diverse architetture di encoder. L'obiettivo principale è sfruttare le potenzialità dei transformer nella visione artificiale, utilizzandoli come encoder di immagini per migliorare la qualità e la velocità della stima della profondità. Sono stati inclusi anche approcci convoluzionali recenti che offrono prestazioni comparabili ai transformer. I modelli inclusi in MiDaS v3.1, come BEiT, Swin, SwinV2, Next-ViT e LeViT, offrono un compromesso tra prestazioni ed efficienza. Il modello più performante migliora la qualità della stima della profondità del 28%, mentre i modelli più efficienti sono adatti per attività che richiedono frame rate elevati.