Towards Robust Monocular Depth Estimation: Mixing Datasets for Zero-shot Cross-dataset Transfer

Da Wiki AI.
Towards Robust Monocular Depth Estimation: Mixing Datasets for Zero-shot Cross-dataset Transfer
Data 2020
Autori Rene Ranftl, Katrin Lasinger, David Hafner, Konrad Schindler, Vladlen Koltun
URL https://www.semanticscholar.org/paper/7bd83b055702bc178aa26def5b6df463f8eab7b9
Topic generalizzazione della stima della profondità monocular attraverso l'addestramento cross-dataset
Citazioni 1268


Il successo della stima della profondità monoculare si basa su set di addestramento ampi e diversificati. A causa delle sfide associate all'acquisizione di una profondità ground-truth densa in diversi ambienti su larga scala, sono emersi numerosi set di dati con caratteristiche e distorsioni distinte. Questo lavoro sviluppa strumenti che consentono di mescolare più set di dati durante l'addestramento, anche se le loro annotazioni sono incompatibili. In particolare, viene proposto un obiettivo di addestramento robusto che è invariante ai cambiamenti nella portata e nella scala della profondità, sostenendo l'uso dell'apprendimento multi-obiettivo per combinare dati provenienti da fonti diverse ed evidenziando l'importanza del pre-addestramento degli encoder su compiti ausiliari. Grazie a questi strumenti, gli autori sperimentano con cinque diversi set di dati di addestramento, tra cui una nuova, massiccia fonte di dati: i film 3D. Per dimostrare il potere di generalizzazione del loro approccio, utilizzano il trasferimento cross-dataset zero-shot, ovvero valutano su set di dati che non sono stati visti durante l'addestramento. Gli esperimenti confermano che mescolare dati provenienti da fonti complementari migliora notevolmente la stima della profondità monoculare. L'approccio proposto supera chiaramente i metodi concorrenti su diversi set di dati, stabilendo un nuovo stato dell'arte per la stima della profondità monoculare.