Transformer (Architettura di Deep Learning): differenze tra le versioni
Nessun oggetto della modifica |
Nessun oggetto della modifica |
||
Riga 7: | Riga 7: | ||
Pubblicazione: [[Pubblicazione::Attention Is All You Need (2017)]] | Pubblicazione: [[Pubblicazione::Attention Is All You Need (2017)]] | ||
Architettura proposta originariamente sul paper [[Attention Is All You Need (2017)]], composta da un Encoder e un Decoder. | Architettura proposta originariamente sul paper [[Attention Is All You Need (2017)]], composta da un Encoder e un Decoder. |
Versione delle 10:03, 10 apr 2024
Nome: Transformer (Architettura di Deep Learning)
Nome Inglese: Transformer (Deep Learning Architecture)
Anno Di Creazione: 2017
Pubblicazione: Attention Is All You Need (2017)
Architettura proposta originariamente sul paper Attention Is All You Need (2017), composta da un Encoder e un Decoder.
- Vengono chiamati "Transformer Encoder" i modelli bidirezionali (Encoder-Only) come BERT, che utilizzando come obiettivo di pre-training il Masked-Language-Modeling (MLM), necessitano che la rappresentazione fonda sia il contesto a destra che quello a sinistra del token che dev'essere predetto, quindi utilizzano una self-attention bidirezionale
- Vengono chiamati "Transformer Decoder" i modelli che usano un' attention "left-to-right" che quindi per la generazione del token successivo hanno a disposizione solo i token passati
Links
https://github.com/karpathy/minGPT
https://github.com/karpathy/nanoGPT
Un'implementazione di GPT2 in 175 linee di codice python