Transformer (Architettura di Deep Learning): differenze tra le versioni
Nessun oggetto della modifica |
Nessun oggetto della modifica |
||
Riga 1: | Riga 1: | ||
{{template architettura | |||
|NomeInglese=Transformer | |||
|AnnoDiCreazione=2017 | |||
|Pubblicazione=Attention Is All You Need (2017) | |||
|URLHomePage=https://arxiv.org/pdf/1706.03762 | |||
|Topic=Generazione, Reti neurali, Traduzione, Elaborazione del Linguaggio Naturale (NLP), Immagini | |||
Pubblicazione | }} | ||
Architettura proposta originariamente sul paper [[Attention Is All You Need (2017)]], composta da un Encoder e un Decoder. | Architettura proposta originariamente sul paper [[Attention Is All You Need (2017)]], composta da un Encoder e un Decoder. | ||
Riga 35: | Riga 33: | ||
[[Category:Architettura]] | [[Category:Architettura]] | ||
Versione delle 15:21, 27 mag 2024
Transformer (Architettura di Deep Learning) | |
---|---|
Nome Inglese | Transformer |
Sigla | |
Anno Di Creazione | 2017 |
Pubblicazione | Attention Is All You Need (2017) |
URL | https://arxiv.org/pdf/1706.03762 |
Topic | Generazione, Reti neurali, Traduzione, Elaborazione del Linguaggio Naturale (NLP), Immagini |
Architettura proposta originariamente sul paper Attention Is All You Need (2017), composta da un Encoder e un Decoder.
- Vengono chiamati "Transformer Encoder" i modelli bidirezionali (Encoder-Only) come BERT, che utilizzando come obiettivo di pre-training il Masked-Language-Modeling (MLM), necessitano che la rappresentazione fonda sia il contesto a destra che quello a sinistra del token che dev'essere predetto, quindi utilizzano una self-attention bidirezionale
- Vengono chiamati "Transformer Decoder" i modelli che usano un' attention "left-to-right" che quindi per la generazione del token successivo hanno a disposizione solo i token passati
Links
https://github.com/karpathy/minGPT
https://github.com/karpathy/nanoGPT
Un'implementazione di GPT2 in 175 linee di codice python
3B1B - But what is a GPT? Visual intro to transformers
An Introduction to Transformers (Turner)
Coding a GPT with Andrej Karpathy
Introduction to self-attention by John Hewitt
History of language models by Brit Cruise