Transformer (Architettura di Deep Learning): differenze tra le versioni

Versione delle 09:12, 14 apr 2024

Nome: Transformer (Architettura di Deep Learning)

Nome Inglese: Transformer

Anno Di Creazione: 2017

Architettura proposta originariamente sul paper Attention Is All You Need (2017), composta da un Encoder e un Decoder.

Vengono chiamati "Transformer Encoder" i modelli bidirezionali (Encoder-Only) come BERT, che utilizzando come obiettivo di pre-training il Masked-Language-Modeling (MLM), necessitano che la rappresentazione fonda sia il contesto a destra che quello a sinistra del token che dev'essere predetto, quindi utilizzano una self-attention bidirezionale
Vengono chiamati "Transformer Decoder" i modelli che usano un' attention "left-to-right" che quindi per la generazione del token successivo hanno a disposizione solo i token passati

@@ Riga 1: / Riga 1: @@
 Nome: [[Nome::Transformer (Architettura di Deep Learning)]]
-Nome Inglese: [[NomeInglese::Transformer (Deep Learning Architecture)]]
+Nome Inglese: [[NomeInglese::Transformer]]
 Anno Di Creazione: [[AnnoDiCreazione::2017]]