Transformer (Architettura di Deep Learning): differenze tra le versioni
Nessun oggetto della modifica |
Nessun oggetto della modifica |
||
Riga 19: | Riga 19: | ||
[https://github.com/lutzroeder/gpt2/blob/main/gpt2.py Un'implementazione di GPT2 in 175 linee di codice python] | [https://github.com/lutzroeder/gpt2/blob/main/gpt2.py Un'implementazione di GPT2 in 175 linee di codice python] | ||
[https://www.youtube.com/watch?v=wjZofJX0v4M 3B1B - But what is a GPT? Visual intro to transformers] | |||
[https://arxiv.org/pdf/2304.10557.pdf An Introduction to Transformers (Turner)] | |||
[https://www.youtube.com/watch?v=kCc8FmEb1nY&t=0s Coding a GPT with Andrej Karpathy] | |||
[https://web.stanford.edu/class/cs224n/readings/cs224n-self-attention-transformers-2023_draft.pdf Introduction to self-attention by John Hewitt] | |||
History of language models by Brit Cruise | |||
[https://arxiv.org/pdf/1301.3781.pdf Paper about examples like the “woman - man”] | |||
[[Category:Architettura]] | [[Category:Architettura]] | ||
__SHOWFACTBOX__ | __SHOWFACTBOX__ |
Versione delle 12:21, 27 mag 2024
Nome: Transformer
Nome Inglese: Transformer
Anno Di Creazione: 2017
Pubblicazione: Attention Is All You Need (2017)
Architettura proposta originariamente sul paper Attention Is All You Need (2017), composta da un Encoder e un Decoder.
- Vengono chiamati "Transformer Encoder" i modelli bidirezionali (Encoder-Only) come BERT, che utilizzando come obiettivo di pre-training il Masked-Language-Modeling (MLM), necessitano che la rappresentazione fonda sia il contesto a destra che quello a sinistra del token che dev'essere predetto, quindi utilizzano una self-attention bidirezionale
- Vengono chiamati "Transformer Decoder" i modelli che usano un' attention "left-to-right" che quindi per la generazione del token successivo hanno a disposizione solo i token passati
Links
https://github.com/karpathy/minGPT
https://github.com/karpathy/nanoGPT
Un'implementazione di GPT2 in 175 linee di codice python
3B1B - But what is a GPT? Visual intro to transformers
An Introduction to Transformers (Turner)
Coding a GPT with Andrej Karpathy
Introduction to self-attention by John Hewitt
History of language models by Brit Cruise
Paper about examples like the “woman - man”