On the difficulty of training recurrent neural networks

Da Wiki AI.
Versione del 17 set 2024 alle 10:17 di Alesaccoia (discussione | contributi)
(diff) ← Versione meno recente | Versione attuale (diff) | Versione più recente → (diff)
On the difficulty of training recurrent neural networks
Data 2012
Autori Razvan Pascanu, Tomas Mikolov, Yoshua Bengio
URL https://www.semanticscholar.org/paper/84069287da0a6b488b8c933f3cb5be759cb6237e
Topic Reti Neurali Ricorrenti
Citazioni 5031


Questo articolo affronta le difficoltà nell'addestramento delle reti neurali ricorrenti, in particolare i problemi del gradiente che svanisce e del gradiente che esplode. Gli autori analizzano questi problemi da diverse prospettive (analitica, geometrica e dei sistemi dinamici) per fornire una comprensione più approfondita.

Per affrontare queste sfide, l'articolo propone due soluzioni: una strategia di clipping della norma del gradiente per gestire i gradienti che esplodono e un vincolo soft per il problema dei gradienti che svaniscono. L'efficacia di queste soluzioni viene convalidata empiricamente attraverso esperimenti.