Attention (Machine Learning): differenze tra le versioni
(Creata pagina con " fill me up Category:Concetti") |
Nessun oggetto della modifica |
||
Riga 1: | Riga 1: | ||
L'implementazione della "Bahdanau Attention" è proposta originariamente in "Neural Machine Translation by Jointly Learning to Align and Translate'', 2014":'' essa sorpassa il lavoro di [https://arxiv.org/abs/1406.1078 Cho et al (2014)] e di [https://arxiv.org/abs/1409.3215 Sutskever et al. (2014)], che usavano un framework encoder-decoder basato su [[Recurrent Neural Network (RNN)|RNN]] per il task di traduzione automatica codificando una frase di lunghezza variabile in un vettore di dimensione <u>fissa</u>. | |||
Bahdanau et al. sostengono che questo vettore di lunghezza fissa impoverisca l'informazione presente nella frase di origine, e la performance degradi velocemente all'allungarsi della sequenza di input, proponendo quindi un vettore di lunghezza variabile. | |||
=== Links === | |||
[https://arxiv.org/abs/1409.0473 Paper originale] | |||
[[Category: | https://arxiv.org/abs/1406.1078 | ||
https://arxiv.org/abs/1409.3215 | |||
[[Category:Concetto]] |
Versione delle 11:22, 25 mar 2024
L'implementazione della "Bahdanau Attention" è proposta originariamente in "Neural Machine Translation by Jointly Learning to Align and Translate, 2014": essa sorpassa il lavoro di Cho et al (2014) e di Sutskever et al. (2014), che usavano un framework encoder-decoder basato su RNN per il task di traduzione automatica codificando una frase di lunghezza variabile in un vettore di dimensione fissa.
Bahdanau et al. sostengono che questo vettore di lunghezza fissa impoverisca l'informazione presente nella frase di origine, e la performance degradi velocemente all'allungarsi della sequenza di input, proponendo quindi un vettore di lunghezza variabile.