Transformer (Architettura di Deep Learning): differenze tra le versioni

Da Wiki AI.
Nessun oggetto della modifica
Nessun oggetto della modifica
Riga 1: Riga 1:
Nome: [[Nome::Transformer]]
{{template architettura
 
|NomeInglese=Transformer
Nome Inglese: [[NomeInglese::Transformer]]
|AnnoDiCreazione=2017
 
|Pubblicazione=Attention Is All You Need (2017)
Anno Di Creazione: [[AnnoDiCreazione::2017]]
|URLHomePage=https://arxiv.org/pdf/1706.03762
 
|Topic=Generazione, Reti neurali, Traduzione, Elaborazione del Linguaggio Naturale (NLP), Immagini
Pubblicazione: [[Pubblicazione::Attention Is All You Need (2017)]]
}}
                               
 
Architettura proposta originariamente sul paper [[Attention Is All You Need (2017)]], composta da un Encoder e un Decoder.
Architettura proposta originariamente sul paper [[Attention Is All You Need (2017)]], composta da un Encoder e un Decoder.


Riga 35: Riga 33:


[[Category:Architettura]]
[[Category:Architettura]]
__SHOWFACTBOX__

Versione delle 15:21, 27 mag 2024

Transformer (Architettura di Deep Learning)
Nome Inglese Transformer
Sigla
Anno Di Creazione 2017
Pubblicazione Attention Is All You Need (2017)
URL https://arxiv.org/pdf/1706.03762
Topic Generazione, Reti neurali, Traduzione, Elaborazione del Linguaggio Naturale (NLP), Immagini

Architettura proposta originariamente sul paper Attention Is All You Need (2017), composta da un Encoder e un Decoder.

  • Vengono chiamati "Transformer Encoder" i modelli bidirezionali (Encoder-Only) come BERT, che utilizzando come obiettivo di pre-training il Masked-Language-Modeling (MLM), necessitano che la rappresentazione fonda sia il contesto a destra che quello a sinistra del token che dev'essere predetto, quindi utilizzano una self-attention bidirezionale
  • Vengono chiamati "Transformer Decoder" i modelli che usano un' attention "left-to-right" che quindi per la generazione del token successivo hanno a disposizione solo i token passati

Links

https://github.com/karpathy/minGPT

https://github.com/karpathy/nanoGPT

Un'implementazione di GPT2 in 175 linee di codice python


3B1B - But what is a GPT? Visual intro to transformers

An Introduction to Transformers (Turner)

Coding a GPT with Andrej Karpathy

Introduction to self-attention by John Hewitt

History of language models by Brit Cruise

Paper about examples like the “woman - man”