Learning long-term dependencies with gradient descent is difficult
Learning long-term dependencies with gradient descent is difficult | |
---|---|
Data | 1994 |
Autori | Yoshua Bengio, Patrice Y. Simard, P. Frasconi |
URL | https://www.semanticscholar.org/paper/d0be39ee052d246ae99c082a565aba25b811be2d |
Topic | Recurrent Neural Networks |
Citazioni | 7810 |
Questo articolo esplora le difficoltà nell'addestrare reti neurali ricorrenti (RNN) per apprendere dipendenze a lungo termine utilizzando la discesa del gradiente. Gli autori dimostrano che, all'aumentare della durata delle dipendenze temporali, l'apprendimento basato sul gradiente diventa sempre più problematico. Questo fenomeno evidenzia un compromesso tra l'efficienza dell'apprendimento tramite la discesa del gradiente e la capacità di trattenere informazioni per lunghi periodi. L'articolo analizza le ragioni di questa difficoltà e propone alternative alla discesa del gradiente standard per affrontare questo problema.