Attention Is All You Need (2017)
Tradizionalmente, nei task di automatic translation, è stato utilizzato il modello Sequence To Sequence, in cui la rappresentazione della frase
Il gatto mangia il topo
viene codificata in una rappresentazione vettoriale - un embedding - attraverso Long Short-Term Memory (LSTM) , prendendo il valore del layer nascosto al termine della codifica della frase.
Ogni token viene quindi, uno alla volta:
- Codificato in Word Embedding
- Passato alla RNN o LSTM che aggiorna lo stato nascosto, anche in base al valore precedente dello stato nascosto H