On the difficulty of training recurrent neural networks
On the difficulty of training recurrent neural networks | |
---|---|
Data | 2014 |
Autori | Razvan Pascanu, Tomas Mikolov, Yoshua Bengio |
URL | https://www.semanticscholar.org/paper/84069287da0a6b488b8c933f3cb5be759cb6237e |
Topic | Reti Neurali Ricorrenti |
Citazioni | 5031 |
Questo articolo affronta le difficoltà nell'addestramento delle reti neurali ricorrenti, in particolare i problemi del gradiente che svanisce e del gradiente che esplode. Gli autori analizzano questi problemi da diverse prospettive (analitica, geometrica e dei sistemi dinamici) per fornire una comprensione più approfondita.
Per affrontare queste sfide, l'articolo propone due soluzioni: una strategia di clipping della norma del gradiente per gestire i gradienti che esplodono e un vincolo soft per il problema dei gradienti che svaniscono. L'efficacia di queste soluzioni viene convalidata empiricamente attraverso esperimenti.