Transformer (Architettura di Deep Learning): differenze tra le versioni

Da Wiki AI.
m (Alesaccoia ha spostato la pagina Transformer a Transformer (Architettura di Deep Learning))
Nessun oggetto della modifica
Riga 4: Riga 4:
* Vengono chiamati "Transformer Decoder" i modelli che usano un' [[Attention Is All You Need (2017)|attention]] "left-to-right" che quindi per la <u>generazione</u> del token successivo hanno a disposizione solo i token passati
* Vengono chiamati "Transformer Decoder" i modelli che usano un' [[Attention Is All You Need (2017)|attention]] "left-to-right" che quindi per la <u>generazione</u> del token successivo hanno a disposizione solo i token passati


 
=== Links ===
[https://github.com/lutzroeder/gpt2/blob/main/gpt2.py Un'implementazione di GPT2 in 175 linee di codice python]
[[Category:Architettura]]
[[Category:Architettura]]

Versione delle 23:26, 28 mar 2024

Architettura proposta originariamente sul paper Attention Is All You Need (2017), composta da un Encoder e un Decoder.

  • Vengono chiamati "Transformer Encoder" i modelli bidirezionali (Encoder-Only) come BERT, che utilizzando come obiettivo di pre-training il Masked-Language-Modeling (MLM), necessitano che la rappresentazione fonda sia il contesto a destra che quello a sinistra del token che dev'essere predetto, quindi utilizzano una self-attention bidirezionale
  • Vengono chiamati "Transformer Decoder" i modelli che usano un' attention "left-to-right" che quindi per la generazione del token successivo hanno a disposizione solo i token passati

Links

Un'implementazione di GPT2 in 175 linee di codice python