Transformer (Architettura di Deep Learning): differenze tra le versioni

Da Wiki AI.
Nessun oggetto della modifica
Nessun oggetto della modifica
Riga 5: Riga 5:
Anno Di Creazione: [[AnnoDiCreazione::2017]]
Anno Di Creazione: [[AnnoDiCreazione::2017]]


Pubblicazione: [[Pubblicazione::Attention Is All You Need]]
Pubblicazione: [[Pubblicazione::Attention Is All You Need (2017)]]
                                  
                                  
Topic: [[Topic::Capacità di modellare relazioni a lungo termine in sequenze di dati attraverso l'uso di meccanismi di attenzione]]
Topic: [[Topic::Capacità di modellare relazioni a lungo termine in sequenze di dati attraverso l'uso di meccanismi di attenzione]]

Versione delle 15:02, 9 apr 2024

Nome: Transformer (Architettura di Deep Learning)

Nome Inglese: Transformer (Deep Learning Architecture)

Anno Di Creazione: 2017

Pubblicazione: Attention Is All You Need (2017)

Topic: Capacità di modellare relazioni a lungo termine in sequenze di dati attraverso l'uso di meccanismi di attenzione


Architettura proposta originariamente sul paper Attention Is All You Need (2017), composta da un Encoder e un Decoder.

  • Vengono chiamati "Transformer Encoder" i modelli bidirezionali (Encoder-Only) come BERT, che utilizzando come obiettivo di pre-training il Masked-Language-Modeling (MLM), necessitano che la rappresentazione fonda sia il contesto a destra che quello a sinistra del token che dev'essere predetto, quindi utilizzano una self-attention bidirezionale
  • Vengono chiamati "Transformer Decoder" i modelli che usano un' attention "left-to-right" che quindi per la generazione del token successivo hanno a disposizione solo i token passati

Links

https://github.com/karpathy/minGPT

https://github.com/karpathy/nanoGPT

Un'implementazione di GPT2 in 175 linee di codice python