On the difficulty of training recurrent neural networks: differenze tra le versioni
(Creata pagina con "Categoria:Pubblicazione") |
Nessun oggetto della modifica |
||
Riga 1: | Riga 1: | ||
{{template pubblicazione | |||
|data=2014 | |||
|autori=Razvan Pascanu, Tomas Mikolov, Yoshua Bengio | |||
|URL=https://www.semanticscholar.org/paper/84069287da0a6b488b8c933f3cb5be759cb6237e | |||
|topic=Reti Neurali Ricorrenti | |||
|citazioni=5031 | |||
}} | |||
Questo articolo affronta le difficoltà nell'addestramento delle reti neurali ricorrenti, in particolare i problemi del gradiente che svanisce e del gradiente che esplode. Gli autori analizzano questi problemi da diverse prospettive (analitica, geometrica e dei sistemi dinamici) per fornire una comprensione più approfondita. | |||
Per affrontare queste sfide, l'articolo propone due soluzioni: una strategia di clipping della norma del gradiente per gestire i gradienti che esplodono e un vincolo soft per il problema dei gradienti che svaniscono. L'efficacia di queste soluzioni viene convalidata empiricamente attraverso esperimenti. | |||
{{#seo: | |||
|title=On the difficulty of training recurrent neural networks | |||
|title_mode=append | |||
|keywords=reti neurali, apprendimento profondo, reti neurali ricorrenti, gradiente che svanisce, gradiente che esplode, clipping del gradiente, addestramento, ottimizzazione | |||
|description=Questa pubblicazione esplora le difficoltà nell'addestramento delle reti neurali ricorrenti, analizzando i problemi del gradiente che svanisce e che esplode. Vengono proposte soluzioni come il clipping della norma del gradiente e un vincolo soft, convalidate da esperimenti. | |||
}} |
Versione delle 10:17, 17 set 2024
On the difficulty of training recurrent neural networks | |
---|---|
Data | 2014 |
Autori | Razvan Pascanu, Tomas Mikolov, Yoshua Bengio |
URL | https://www.semanticscholar.org/paper/84069287da0a6b488b8c933f3cb5be759cb6237e |
Topic | Reti Neurali Ricorrenti |
Citazioni | 5031 |
Questo articolo affronta le difficoltà nell'addestramento delle reti neurali ricorrenti, in particolare i problemi del gradiente che svanisce e del gradiente che esplode. Gli autori analizzano questi problemi da diverse prospettive (analitica, geometrica e dei sistemi dinamici) per fornire una comprensione più approfondita.
Per affrontare queste sfide, l'articolo propone due soluzioni: una strategia di clipping della norma del gradiente per gestire i gradienti che esplodono e un vincolo soft per il problema dei gradienti che svaniscono. L'efficacia di queste soluzioni viene convalidata empiricamente attraverso esperimenti.