Learning long-term dependencies with gradient descent is difficult

Da Wiki AI.
Learning long-term dependencies with gradient descent is difficult
Data 1994
Autori Yoshua Bengio, Patrice Y. Simard, P. Frasconi
URL https://www.semanticscholar.org/paper/d0be39ee052d246ae99c082a565aba25b811be2d
Topic Recurrent Neural Networks, Reti Neurali Ricorrenti
Citazioni 7810

Questo articolo esplora le difficoltà nell'addestrare reti neurali ricorrenti (RNN) per apprendere dipendenze a lungo termine utilizzando la discesa del gradiente. Gli autori dimostrano che, all'aumentare della durata delle dipendenze temporali, l'apprendimento basato sul gradiente diventa sempre più problematico. Questo fenomeno evidenzia un compromesso tra l'efficienza dell'apprendimento tramite la discesa del gradiente e la capacità di trattenere informazioni per lunghi periodi. L'articolo analizza le ragioni di questa difficoltà e propone alternative alla discesa del gradiente standard per affrontare questo problema.