Transformer (Architettura di Deep Learning): differenze tra le versioni

Versione delle 15:21, 27 mag 2024

Transformer (Architettura di Deep Learning)
Nome Inglese	Transformer
Sigla
Anno Di Creazione	2017
Pubblicazione	Attention Is All You Need (2017)
URL	https://arxiv.org/pdf/1706.03762
Topic	Generazione, Reti neurali, Traduzione, Elaborazione del Linguaggio Naturale (NLP), Immagini

Architettura proposta originariamente sul paper Attention Is All You Need (2017), composta da un Encoder e un Decoder.

Vengono chiamati "Transformer Encoder" i modelli bidirezionali (Encoder-Only) come BERT, che utilizzando come obiettivo di pre-training il Masked-Language-Modeling (MLM), necessitano che la rappresentazione fonda sia il contesto a destra che quello a sinistra del token che dev'essere predetto, quindi utilizzano una self-attention bidirezionale
Vengono chiamati "Transformer Decoder" i modelli che usano un' attention "left-to-right" che quindi per la generazione del token successivo hanno a disposizione solo i token passati

History of language models by Brit Cruise

@@ Riga 1: / Riga 1: @@
-Nome: [[Nome::Transformer]]
+{{template architettura
+|NomeInglese=Transformer
-Nome Inglese: [[NomeInglese::Transformer]]
+|AnnoDiCreazione=2017
+|Pubblicazione=Attention Is All You Need (2017)
-Anno Di Creazione: [[AnnoDiCreazione::2017]]
+|URLHomePage=https://arxiv.org/pdf/1706.03762
+|Topic=Generazione, Reti neurali, Traduzione, Elaborazione del Linguaggio Naturale (NLP), Immagini
-Pubblicazione: [[Pubblicazione::Attention Is All You Need (2017)]]
+}}
 Architettura proposta originariamente sul paper [[Attention Is All You Need (2017)]], composta da un Encoder e un Decoder.
@@ Riga 35: / Riga 33: @@
 [[Category:Architettura]]
-__SHOWFACTBOX__