Transformer (Architettura di Deep Learning)

Da Wiki AI.
Versione del 23 mar 2024 alle 20:33 di Alesaccoia (discussione | contributi) (Creata pagina con "Architettura proposta originariamente sul paper Attention Is All You Need (2017), composta da un Encoder e un Decoder. * Vengono chiamati "Transformer Encoder" i modelli bidirezionali (Encoder-Only) come BERT, che utilizzando come obiettivo di pre-training il Masked-Language-Modeling (MLM), necessitano che la rappresentazione fonda sia il contesto a destra che quello a sinistra del token che dev'essere predetto, quindi utilizzano una self-attention bidirezio...")
(diff) ← Versione meno recente | Versione attuale (diff) | Versione più recente → (diff)

Architettura proposta originariamente sul paper Attention Is All You Need (2017), composta da un Encoder e un Decoder.

  • Vengono chiamati "Transformer Encoder" i modelli bidirezionali (Encoder-Only) come BERT, che utilizzando come obiettivo di pre-training il Masked-Language-Modeling (MLM), necessitano che la rappresentazione fonda sia il contesto a destra che quello a sinistra del token che dev'essere predetto, quindi utilizzano una self-attention bidirezionale
  • Vengono chiamati "Transformer Decoder" i modelli che usano un' attention "left-to-right" che quindi per la generazione del token successivo hanno a disposizione solo i token passati