Attention (Machine Learning) - Cronologia

Alesaccoia il 07:21, 2 dic 2024

2024-12-02T07:21:23Z

← Versione meno recente		Versione delle 07:21, 2 dic 2024
Riga 9:		Riga 9:
	Bahdanau et al., in "[[Neural Machine Translation by Jointly Learning to Align and Translate]]" sostengono che questo vettore di lunghezza fissa spesso non riesca a contenere tutta l'informazione presente nella frase di origine, e la performance degradi velocemente all'allungarsi della sequenza di input, proponendo quindi un vettore di lunghezza variabile.		Bahdanau et al., in "[[Neural Machine Translation by Jointly Learning to Align and Translate]]" sostengono che questo vettore di lunghezza fissa spesso non riesca a contenere tutta l'informazione presente nella frase di origine, e la performance degradi velocemente all'allungarsi della sequenza di input, proponendo quindi un vettore di lunghezza variabile.

	Propongono quindi, nell'encoder, una RNN bi-direzionale che, per ogni token all'interno della frase, codifichi non solo l'interno contenuto della frase, ma soprattutto il significato delle parole vicine al token corrente: gli stati nascosti della rete per quel token vengono quindi concatenati ed utilizzati, nel decoder, per aggiornare il contesto che non è più "statico" come in [https://arxiv.org/abs/1406.1078 Cho et al (2014)] (descritto in [[Sequence to Sequence (seq2seq)]] ) e in [~~https:~~//~~arxiv.org/abs/1409.3215~~ Sutskever et al. (2014)]. Il contesto, a ogni token di output che deve essere prodotto, si confronta quindi con gli "''attention scores''" che indicano quanto ognuno dei token della sequenza di input sia importante per la generazione del token corrente.		Propongono quindi, nell'encoder, una RNN bi-direzionale che, per ogni token all'interno della frase, codifichi non solo l'interno contenuto della frase, ma soprattutto il significato delle parole vicine al token corrente: gli stati nascosti della rete per quel token vengono quindi concatenati ed utilizzati, nel decoder, per aggiornare il contesto che non è più "statico" come in [https://arxiv.org/abs/1406.1078 Cho et al (2014)] (descritto in [[Sequence to Sequence (seq2seq)]] ) e in [[Sequence to Sequence Learning with Neural Networks (12/12/2014)]] (Sutskever et al. 2014). Il contesto, a ogni token di output che deve essere prodotto, si confronta quindi con gli "''attention scores''" che indicano quanto ognuno dei token della sequenza di input sia importante per la generazione del token corrente.

	Viene chiamata "additiva" perché calcola i pesi dell'attenzione attraverso una combinazione additiva della query e delle chiavi, seguita da una funzione di attivazione non lineare. Questo è in contrasto con metodi successivi come l'attenzione a prodotto scalare (moltiplicativa) utilizzata nel modello Transformer, che calcola i pesi dell'attenzione calcolando il prodotto scalare tra la query e le chiavi.		Viene chiamata "additiva" perché calcola i pesi dell'attenzione attraverso una combinazione additiva della query e delle chiavi, seguita da una funzione di attivazione non lineare. Questo è in contrasto con metodi successivi come l'attenzione a prodotto scalare (moltiplicativa) utilizzata nel modello Transformer, che calcola i pesi dell'attenzione calcolando il prodotto scalare tra la query e le chiavi.

Alesaccoia il 10:30, 6 set 2024

2024-09-06T10:30:40Z

← Versione meno recente		Versione delle 10:30, 6 set 2024
Riga 7:		Riga 7:

	=== Bahdanau Attention (Additive Attention) ===		=== Bahdanau Attention (Additive Attention) ===
	Bahdanau et al., in [~~https://arxiv.org/abs/1409.0473 "~~Neural Machine Translation by Jointly Learning to Align and Translate"~~]'',''~~ sostengono che questo vettore di lunghezza fissa spesso non riesca a contenere tutta l'informazione presente nella frase di origine, e la performance degradi velocemente all'allungarsi della sequenza di input, proponendo quindi un vettore di lunghezza variabile.		Bahdanau et al., in "[[Neural Machine Translation by Jointly Learning to Align and Translate]]" sostengono che questo vettore di lunghezza fissa spesso non riesca a contenere tutta l'informazione presente nella frase di origine, e la performance degradi velocemente all'allungarsi della sequenza di input, proponendo quindi un vettore di lunghezza variabile.

	Propongono quindi, nell'encoder, una RNN bi-direzionale che, per ogni token all'interno della frase, codifichi non solo l'interno contenuto della frase, ma soprattutto il significato delle parole vicine al token corrente: gli stati nascosti della rete per quel token vengono quindi concatenati ed utilizzati, nel decoder, per aggiornare il contesto che non è più "statico" come in [https://arxiv.org/abs/1406.1078 Cho et al (2014)] (descritto in [[Sequence to Sequence (seq2seq)]] ) e in [https://arxiv.org/abs/1409.3215 Sutskever et al. (2014)]. Il contesto, a ogni token di output che deve essere prodotto, si confronta quindi con gli "''attention scores''" che indicano quanto ognuno dei token della sequenza di input sia importante per la generazione del token corrente.		Propongono quindi, nell'encoder, una RNN bi-direzionale che, per ogni token all'interno della frase, codifichi non solo l'interno contenuto della frase, ma soprattutto il significato delle parole vicine al token corrente: gli stati nascosti della rete per quel token vengono quindi concatenati ed utilizzati, nel decoder, per aggiornare il contesto che non è più "statico" come in [https://arxiv.org/abs/1406.1078 Cho et al (2014)] (descritto in [[Sequence to Sequence (seq2seq)]] ) e in [https://arxiv.org/abs/1409.3215 Sutskever et al. (2014)]. Il contesto, a ogni token di output che deve essere prodotto, si confronta quindi con gli "''attention scores''" che indicano quanto ognuno dei token della sequenza di input sia importante per la generazione del token corrente.

Mindmakerbot il 13:46, 17 ago 2024

2024-08-17T13:46:54Z

← Versione meno recente		Versione delle 13:46, 17 ago 2024
Riga 92:		Riga 92:
	\|title=Attention		\|title=Attention
	\|title_mode=append		\|title_mode=append
	\|keywords="reti neurali, deep learning, elaborazione del linguaggio naturale, traduzione automatica, attenzione, Bahdanau Attention, codificatore-decodificatore, sequenza, vettore di contesto, punteggio di attenzione, pesi di attenzione"		\|keywords=reti neurali, deep learning, elaborazione del linguaggio naturale, traduzione automatica, attenzione, Bahdanau Attention, codificatore-decodificatore, sequenza, vettore di contesto, punteggio di attenzione, pesi di attenzione
	\|description="Questa pagina descrive il meccanismo di attenzione nelle reti neurali, con particolare attenzione all'implementazione di Bahdanau Attention. L'attenzione consente ai modelli di concentrarsi su parti specifiche dell'input durante l'elaborazione, migliorando le prestazioni in compiti come la traduzione automatica. La pagina spiega come funziona l'attenzione di Bahdanau, incluso il calcolo dei punteggi di attenzione, i pesi di attenzione e il vettore di contesto. Include anche collegamenti a risorse utili come l'articolo originale, tutorial e spiegazioni."		\|description=Questa pagina descrive il meccanismo di attenzione nelle reti neurali, con particolare attenzione all'implementazione di Bahdanau Attention. L'attenzione consente ai modelli di concentrarsi su parti specifiche dell'input durante l'elaborazione, migliorando le prestazioni in compiti come la traduzione automatica. La pagina spiega come funziona l'attenzione di Bahdanau, incluso il calcolo dei punteggi di attenzione, i pesi di attenzione e il vettore di contesto. Include anche collegamenti a risorse utili come l'articolo originale, tutorial e spiegazioni.

	}}		}}

Mindmakerbot il 13:28, 17 ago 2024

2024-08-17T13:28:56Z

← Versione meno recente		Versione delle 13:28, 17 ago 2024
Riga 88:		Riga 88:

	[https://courses.cs.washington.edu/courses/cse543/23wi/schedule/lecture13_live_part1.pdf Presentazione sui vari meccasismi di Attention]		[https://courses.cs.washington.edu/courses/cse543/23wi/schedule/lecture13_live_part1.pdf Presentazione sui vari meccasismi di Attention]

			{{#seo:
			\|title=Attention
			\|title_mode=append
			\|keywords="reti neurali, deep learning, elaborazione del linguaggio naturale, traduzione automatica, attenzione, Bahdanau Attention, codificatore-decodificatore, sequenza, vettore di contesto, punteggio di attenzione, pesi di attenzione"
			\|description="Questa pagina descrive il meccanismo di attenzione nelle reti neurali, con particolare attenzione all'implementazione di Bahdanau Attention. L'attenzione consente ai modelli di concentrarsi su parti specifiche dell'input durante l'elaborazione, migliorando le prestazioni in compiti come la traduzione automatica. La pagina spiega come funziona l'attenzione di Bahdanau, incluso il calcolo dei punteggi di attenzione, i pesi di attenzione e il vettore di contesto. Include anche collegamenti a risorse utili come l'articolo originale, tutorial e spiegazioni."

			}}

Mindmakerbot il 11:16, 17 ago 2024

2024-08-17T11:16:30Z

← Versione meno recente		Versione delle 11:16, 17 ago 2024
Riga 88:		Riga 88:

	[https://courses.cs.washington.edu/courses/cse543/23wi/schedule/lecture13_live_part1.pdf Presentazione sui vari meccasismi di Attention]		[https://courses.cs.washington.edu/courses/cse543/23wi/schedule/lecture13_live_part1.pdf Presentazione sui vari meccasismi di Attention]
	~~[[Category:Concetto]]~~

Alesaccoia il 16:24, 27 mag 2024

2024-05-27T16:24:56Z

← Versione meno recente		Versione delle 16:24, 27 mag 2024
Riga 1:		Riga 1:
	~~Nome: [[Nome::Attenzione]]~~		{{Template concetto
			\|NomeInglese=Attantion
	~~Nome inglese: [[~~NomeInglese~~::Attention]]~~		}}




	Meccanismo implementato nelle architetture di rete neurale che consente a un componente di focalizzarsi su parti specifiche di una sequenza. Inizialmente l'attention viene proposta per migliorare la qualità dell'allineamento e della traduzione nei task di [[Neural Machine Translation]], ma essendo un concetto generale viene presto applicato ad altri compiti come la generazione del testo e ad altri compiti anche relativi al capo delle immagini e del video.		Meccanismo implementato nelle architetture di rete neurale che consente a un componente di focalizzarsi su parti specifiche di una sequenza. Inizialmente l'attention viene proposta per migliorare la qualità dell'allineamento e della traduzione nei task di [[Neural Machine Translation]], ma essendo un concetto generale viene presto applicato ad altri compiti come la generazione del testo e ad altri compiti anche relativi al capo delle immagini e del video.

Riga 93:		Riga 89:
	[https://courses.cs.washington.edu/courses/cse543/23wi/schedule/lecture13_live_part1.pdf Presentazione sui vari meccasismi di Attention]		[https://courses.cs.washington.edu/courses/cse543/23wi/schedule/lecture13_live_part1.pdf Presentazione sui vari meccasismi di Attention]
	[[Category:Concetto]]		[[Category:Concetto]]

	~~__SHOWFACTBOX__~~

Sara Maserati il 09:14, 11 apr 2024

2024-04-11T09:14:35Z

@@ Riga 1: / Riga 1: @@
 Meccanismo implementato nelle architetture di rete neurale che consente a un componente di focalizzarsi su parti specifiche di una sequenza. Inizialmente l'attention viene proposta per migliorare la qualità dell'allineamento e della traduzione nei task di [[Neural Machine Translation]], ma essendo un concetto generale viene presto applicato ad altri compiti come la generazione del testo e ad altri compiti anche relativi al capo delle immagini e del video.
@@ Riga 87: / Riga 93: @@
 [https://courses.cs.washington.edu/courses/cse543/23wi/schedule/lecture13_live_part1.pdf Presentazione sui vari meccasismi di Attention]
 [[Category:Concetto]]

Alesaccoia il 14:10, 4 apr 2024

2024-04-04T14:10:37Z

← Versione meno recente		Versione delle 14:10, 4 apr 2024
Riga 43:		Riga 43:
	==== Cosa viene appreso durante la retropropagazione ====		==== Cosa viene appreso durante la retropropagazione ====

	Durante il processo di apprendimento, il modello regola i pesi delle sue matrici per affinare la qualità della traduzione. ~~In particolare:~~		Durante il processo di apprendimento, il modello regola i pesi delle sue matrici per affinare la qualità della traduzione.

	* '''\mathbf{W}_1 e \mathbf{W}_2~~''': Queste matrici~~ trasformano rispettivamente la query e le chiavi, permettendo al modello di apprendere come rappresentare al meglio sia le informazioni sorgenti che quelle ~~di destinazione. L'apprendimento in queste matrici consente al modello di:~~		In particolare <math display="inline">\mathbf{W}_1</math> e <math display="inline">\mathbf{W}_2</math> trasformano rispettivamente la query e le chiavi, permettendo al modello di apprendere come rappresentare al meglio sia le informazioni sorgenti che quelle di destinazione.
	** Estrarre caratteristiche sintattiche e semantiche rilevanti.
	** Regolare la sensibilità alle diverse tipologie di allineamento tra la sequenza sorgente e quella di destinazione.

	* '''\mathbf{v}_a''': Il vettore di pesi \mathbf{v}_a proietta il risultato dell'attivazione non lineare a un valore scalare, che rappresenta il punteggio di allineamento~~. L~~'apprendimento ~~in \mathbf{v}_a~~ si concentra su:		L'apprendimento in queste matrici consente al modello di:
	** Determinare l'importanza delle caratteristiche estratte, influenzando così la distribuzione dell'attenzione attraverso la sequenza di input.		* Estrarre caratteristiche sintattiche e semantiche rilevanti.
	** Affinare la focalizzazione del modello su parti specifiche dell'input per generare ciascuna parte dell'output.		* Regolare la sensibilità alle diverse tipologie di allineamento tra la sequenza sorgente e quella di destinazione.

			Il vettore di pesi <math display="inline">\mathbf{v}_a</math> invece proietta il risultato dell'attivazione non lineare a un valore scalare, che rappresenta il punteggio di allineamento, l'apprendimento quindi si concentra su:
			* Determinare l'importanza delle caratteristiche estratte, influenzando così la distribuzione dell'attenzione attraverso la sequenza di input.
			* Affinare la focalizzazione del modello su parti specifiche dell'input per generare ciascuna parte dell'output.

	Quindi:		Quindi:
Riga 57:		Riga 59:
	* Il modello generalizza le strategie di allineamento apprese a nuovi testi, migliorando la capacità di tradurre accuratamente tra lingue con strutture diverse.		* Il modello generalizza le strategie di allineamento apprese a nuovi testi, migliorando la capacità di tradurre accuratamente tra lingue con strutture diverse.

			== L'attention come modulo generalizzato ==
	=== L'attention come modulo generalizzato ===
	L'attention è spesso implementata come un modulo generico che:		L'attention è spesso implementata come un modulo generico che:

Alesaccoia il 14:03, 4 apr 2024

2024-04-04T14:03:16Z

@@ Riga 8: / Riga 8: @@
 Propongono quindi, nell'encoder, una RNN bi-direzionale che, per ogni token all'interno della frase, codifichi non solo l'interno contenuto della frase, ma soprattutto il significato delle parole vicine al token corrente: gli stati nascosti della rete per quel token vengono quindi concatenati ed utilizzati, nel decoder, per aggiornare il contesto che non è più "statico" come in  [https://arxiv.org/abs/1406.1078 Cho et al (2014)] (descritto in  [[Sequence to Sequence (seq2seq)]]  ) e in [https://arxiv.org/abs/1409.3215 Sutskever et al. (2014)]. Il contesto, a ogni token di output che deve essere prodotto, si confronta quindi con gli "''attention scores''" che indicano quanto ognuno dei token della sequenza di input sia importante per la generazione del token corrente.
 Il fatto che tutti gli stati nascosti corrispondenti alla sequenza di input vengano utilizzati nell'attention la rende un tipo di '''attention globale''', e ha delle ricadute sulla performance, che verranno migliorate nelle ricerche successive, come nell'attention di Luong.
 [[File:Attention Scores.png|nessuno|miniatura|600x600px|Attention Scores, dal Paper di Bahdanau et al. Gli score vanno letti con sull'asse delle x la lingua sorgente e asse delle y la lingua di destinazione]]
 ==== Cosa viene appreso durante la retropropagazione ====

Alesaccoia il 13:56, 4 apr 2024

2024-04-04T13:56:46Z

← Versione meno recente		Versione delle 13:56, 4 apr 2024
Riga 1:		Riga 1:

	Meccanismo implementato nelle architetture di rete neurale che consente a un componente di focalizzarsi su parti specifiche di una sequenza. Inizialmente l'attention viene proposta per migliorare la qualità dell'allineamento e della traduzione nei task di [[Neural Machine Translation]], ma essendo un concetto generale viene presto applicato ad altri compiti come la generazione del testo e ad altri compiti anche relativi al capo delle immagini e del video.		Meccanismo implementato nelle architetture di rete neurale che consente a un componente di focalizzarsi su parti specifiche di una sequenza. Inizialmente l'attention viene proposta per migliorare la qualità dell'allineamento e della traduzione nei task di [[Neural Machine Translation]], ma essendo un concetto generale viene presto applicato ad altri compiti come la generazione del testo e ad altri compiti anche relativi al capo delle immagini e del video.

	~~<math>\sqrt{2}</math>~~

	L'implementazione della "Bahdanau Attention" è proposta originariamente in "Neural Machine Translation by Jointly Learning to Align and Translate'', 2014":'' essa sorpassa il lavoro di [https://arxiv.org/abs/1406.1078 Cho et al (2014)] e di [https://arxiv.org/abs/1409.3215 Sutskever et al. (2014)], che usavano un framework encoder-decoder basato su [[Recurrent Neural Network (RNN)\|RNN]] per il task di traduzione automatica codificando una frase di lunghezza variabile in un vettore di dimensione <u>fissa</u>.		L'implementazione della "Bahdanau Attention" è proposta originariamente in "Neural Machine Translation by Jointly Learning to Align and Translate'', 2014":'' essa sorpassa il lavoro di [https://arxiv.org/abs/1406.1078 Cho et al (2014)] e di [https://arxiv.org/abs/1409.3215 Sutskever et al. (2014)], che usavano un framework encoder-decoder basato su [[Recurrent Neural Network (RNN)\|RNN]] per il task di traduzione automatica codificando una frase di lunghezza variabile in un vettore di dimensione <u>fissa</u>.