On the difficulty of training recurrent neural networks: differenze tra le versioni
Nessun oggetto della modifica |
Nessun oggetto della modifica |
||
| Riga 1: | Riga 1: | ||
{{template pubblicazione | {{template pubblicazione | ||
|data= | |data=2012 | ||
|autori=Razvan Pascanu, Tomas Mikolov, Yoshua Bengio | |autori=Razvan Pascanu, Tomas Mikolov, Yoshua Bengio | ||
|URL=https://www.semanticscholar.org/paper/84069287da0a6b488b8c933f3cb5be759cb6237e | |URL=https://www.semanticscholar.org/paper/84069287da0a6b488b8c933f3cb5be759cb6237e | ||
Versione attuale delle 10:17, 17 set 2024
| On the difficulty of training recurrent neural networks | |
|---|---|
| Data | 2012 |
| Autori | Razvan Pascanu, Tomas Mikolov, Yoshua Bengio |
| URL | https://www.semanticscholar.org/paper/84069287da0a6b488b8c933f3cb5be759cb6237e |
| Topic | Reti Neurali Ricorrenti |
| Citazioni | 5031 |
Questo articolo affronta le difficoltà nell'addestramento delle reti neurali ricorrenti, in particolare i problemi del gradiente che svanisce e del gradiente che esplode. Gli autori analizzano questi problemi da diverse prospettive (analitica, geometrica e dei sistemi dinamici) per fornire una comprensione più approfondita.
Per affrontare queste sfide, l'articolo propone due soluzioni: una strategia di clipping della norma del gradiente per gestire i gradienti che esplodono e un vincolo soft per il problema dei gradienti che svaniscono. L'efficacia di queste soluzioni viene convalidata empiricamente attraverso esperimenti.