BERT - Cronologia

Alesaccoia: /* Il token [CLS] */

2024-12-10T17:04:10Z

Il token [CLS]

@@ Riga 71: / Riga 71: @@
 Quando BERT processa una sequenza di input, include il token speciale [CLS] all'inizio della sequenza. Se il compito è la Predizione della Prossima Frase (NSP), la sequenza di input consiste in due parti (due frasi) separate da un altro token speciale [SEP]. La sequenza ha quindi la forma: '''[CLS] frase1 [SEP] frase2 [SEP]'''.
-Per il compito di NSP, l'output corrispondente al token [CLS] viene passato attraverso un layer denso con attivazione tanh ([https://github.com/google-research/bert/blob/eedf5716ce1268e56f0a50264a88cafad334ac61/modeling.py#L224]), seguito da un '''layer di classificazione''' che decide se la seconda frase segue logicamente la prima o se è una frase casuale. La capacità del token [CLS] di servire a questo scopo deriva dal fatto che la sua rappresentazione nascosta finale incorpora informazioni sull'intera sequenza, inclusa la relazione tra le due frasi.
+Per il compito di NSP, l'output corrispondente al token [CLS] viene passato attraverso un layer denso con attivazione tanh ([https://github.com/google-research/bert/blob/eedf5716ce1268e56f0a50264a88cafad334ac61/modeling.py#L224]), seguito da un '''layer di classificazione''' che decide se la seconda frase segue logicamente la prima o se è una frase casuale. La capacità del token [CLS] di servire a questo scopo deriva dal fatto che la sua rappresentazione nascosta finale incorpora informazioni sull'intera sequenza, inclusa la relazione tra le due frasi (pattern di coerenza o incoerenza tra le due frasi).
 Se BERT venisse addestrato esclusivamente con l'obiettivo di Modello di Lingua Mascherato (MLM) senza l'obiettivo di Predizione della Prossima Frase (NSP), la rappresentazione appresa dal token [CLS] sarebbe diversa. Senza l'obiettivo NSP, il token [CLS] non sarebbe specificamente addestrato per catturare una rappresentazione che comprende il tipo di informazioni necessarie per determinare la relazione tra due frasi.
@@ Riga 78: / Riga 91: @@
 Se l'addestramento venisse condotto utilizzando solo l'obiettivo MLM, il token [CLS] sarebbe ancora presente e attraverserebbe i meccanismi di self-attention del modello, ma senza l'obiettivo NSP, <u>non ci sarebbe una diretta necessità o incentivo per il token [CLS] di catturare e rappresentare le informazioni strutturali o relazionali tra le frasi</u>. In tal caso, l'attenzione del modello si concentrerebbe sull'adattamento ai compiti di predizione dei token mancanti, influenzando così le rappresentazioni apprese da tutti i token, inclusi [CLS], verso gli aspetti rilevanti per tale compito. Senza un addestramento diretto che incoraggi [CLS] a catturare una rappresentazione comprensiva dell'intera sequenza o delle relazioni tra parti della sequenza, il significato specifico contenuto nella sua rappresentazione potrebbe essere limitato o meno definito.
 === Links ===

Alesaccoia il 16:31, 17 ago 2024

2024-08-17T16:31:29Z

@@ Riga 8: / Riga 8: @@
 }}
 Modello bidirezionale, Encoder-only, implementato da Google nel 2019, basato sull'architettura [[transformer]] originale proposta in [[Attention Is All You Need (2017)|Attention Is All You Need.]] E' un modello pensato, by design, per essere '''sempre''' oggetto di un fine-tuning successivo, utilizzando per esempio una "testa" di classificazione o di [[Named Entity Regognition (NER)|named entity recognition]].
 === Dataset di addestramento ===

Mindmakerbot il 16:26, 17 ago 2024

2024-08-17T16:26:49Z

← Versione meno recente		Versione delle 16:26, 17 ago 2024
Riga 85:		Riga 85:
	\|title=BERT		\|title=BERT
	\|title_mode=append		\|title_mode=append
	\|keywords="BERT, Transformer, NLP, Natural Language Processing, Google, Modello Linguistico, Pre-training, Fine-tuning, Encoder, Bidirectional, Masked Language Modeling, Next Sentence Prediction, Sentence Embedding"		\|keywords=BERT, Transformer, NLP, Natural Language Processing, Google, Modello Linguistico, Pre-training, Fine-tuning, Encoder, Bidirectional, Masked Language Modeling, Next Sentence Prediction, Sentence Embedding
	\|description="BERT (Bidirectional Encoder Representations from Transformers) è un modello di linguaggio neurale sviluppato da Google, rilasciato nel 2018. Questo modello ha rivoluzionato il campo dell'elaborazione del linguaggio naturale (NLP) grazie alla sua capacità di comprendere il contesto delle parole in una frase in modo bidirezionale. BERT è pre-addestrato su un enorme set di dati di testo e può essere fine-tuned per diversi compiti NLP come la classificazione del testo, il riconoscimento di entità nominate e la risposta alle domande."		\|description=BERT (Bidirectional Encoder Representations from Transformers) è un modello di linguaggio neurale sviluppato da Google, rilasciato nel 2018. Questo modello ha rivoluzionato il campo dell'elaborazione del linguaggio naturale (NLP) grazie alla sua capacità di comprendere il contesto delle parole in una frase in modo bidirezionale. BERT è pre-addestrato su un enorme set di dati di testo e può essere fine-tuned per diversi compiti NLP come la classificazione del testo, il riconoscimento di entità nominate e la risposta alle domande.
	\|image=BERT ENCODING.png		\|image=BERT ENCODING.png
	}}		}}

Mindmakerbot il 13:35, 17 ago 2024

2024-08-17T13:35:09Z

← Versione meno recente		Versione delle 13:35, 17 ago 2024
Riga 81:		Riga 81:

	[[Category:Modello]]		[[Category:Modello]]

			{{#seo:
			\|title=BERT
			\|title_mode=append
			\|keywords="BERT, Transformer, NLP, Natural Language Processing, Google, Modello Linguistico, Pre-training, Fine-tuning, Encoder, Bidirectional, Masked Language Modeling, Next Sentence Prediction, Sentence Embedding"
			\|description="BERT (Bidirectional Encoder Representations from Transformers) è un modello di linguaggio neurale sviluppato da Google, rilasciato nel 2018. Questo modello ha rivoluzionato il campo dell'elaborazione del linguaggio naturale (NLP) grazie alla sua capacità di comprendere il contesto delle parole in una frase in modo bidirezionale. BERT è pre-addestrato su un enorme set di dati di testo e può essere fine-tuned per diversi compiti NLP come la classificazione del testo, il riconoscimento di entità nominate e la risposta alle domande."
			\|image=BERT ENCODING.png
			}}

Alesaccoia il 17:01, 27 mag 2024

2024-05-27T17:01:30Z

← Versione meno recente		Versione delle 17:01, 27 mag 2024
Riga 5:		Riga 5:
	\|URL=https://github.com/google-research/bert		\|URL=https://github.com/google-research/bert
	\|Pubblicazione=Pre-training of Deep Bidirectional Transformers for Language Understanding		\|Pubblicazione=Pre-training of Deep Bidirectional Transformers for Language Understanding
			\|URLPubblicazione=https://arxiv.org/pdf/1810.04805.pdf
	}}		}}
	Modello bidirezionale, Encoder-only, implementato da Google nel 2019, basato sull'architettura [[transformer]] originale proposta in [[Attention Is All You Need (2017)\|Attention Is All You Need.]] E' un modello pensato, by design, per essere '''sempre''' oggetto di un fine-tuning successivo, utilizzando per esempio una "testa" di classificazione o di [[Named Entity Regognition (NER)\|named entity recognition]].		Modello bidirezionale, Encoder-only, implementato da Google nel 2019, basato sull'architettura [[transformer]] originale proposta in [[Attention Is All You Need (2017)\|Attention Is All You Need.]] E' un modello pensato, by design, per essere '''sempre''' oggetto di un fine-tuning successivo, utilizzando per esempio una "testa" di classificazione o di [[Named Entity Regognition (NER)\|named entity recognition]].

Alesaccoia il 17:01, 27 mag 2024

2024-05-27T17:01:09Z

← Versione meno recente		Versione delle 17:01, 27 mag 2024
Riga 4:		Riga 4:
	\|AnnoDiCreazione=2018		\|AnnoDiCreazione=2018
	\|URL=https://github.com/google-research/bert		\|URL=https://github.com/google-research/bert
	\|Pubblicazione=re-training of Deep Bidirectional Transformers for Language Understanding		\|Pubblicazione=Pre-training of Deep Bidirectional Transformers for Language Understanding
	}}		}}
	Modello bidirezionale, Encoder-only, implementato da Google nel 2019, basato sull'architettura [[transformer]] originale proposta in [[Attention Is All You Need (2017)\|Attention Is All You Need.]] E' un modello pensato, by design, per essere '''sempre''' oggetto di un fine-tuning successivo, utilizzando per esempio una "testa" di classificazione o di [[Named Entity Regognition (NER)\|named entity recognition]].		Modello bidirezionale, Encoder-only, implementato da Google nel 2019, basato sull'architettura [[transformer]] originale proposta in [[Attention Is All You Need (2017)\|Attention Is All You Need.]] E' un modello pensato, by design, per essere '''sempre''' oggetto di un fine-tuning successivo, utilizzando per esempio una "testa" di classificazione o di [[Named Entity Regognition (NER)\|named entity recognition]].

Alesaccoia il 17:01, 27 mag 2024

2024-05-27T17:01:01Z

← Versione meno recente		Versione delle 17:01, 27 mag 2024
Riga 1:		Riga 1:
	~~Nome: [[Nome::~~Bidirectional Encoder Representations from Transformers]]		{{Template modello
			\|NomeInglese=Bidirectional Encoder Representations from Transformers
	Sigla~~: [[Sigla::~~BERT]]		\|Sigla=BERT
			\|AnnoDiCreazione=2018
	~~Anno di creazione: [[~~AnnoDiCreazione::2018]]		\|URL=https://github.com/google-research/bert
			\|Pubblicazione=re-training of Deep Bidirectional Transformers for Language Understanding
	~~URLHomePage: [~~https://github.com/google-research/bert ~~HomePage BERT]~~		}}

	~~Pubblicazioni: [[Pubblicazioni::Pre~~-training of Deep Bidirectional Transformers for Language Understanding]]; [[Pubblicazioni::How to Fine Tune Bert for Sequence Classification?]]; [[Pubblicazioni::Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks]]; [[Pubblicazioni::BERT for Classification: Beyond the Next Sentence Prediction Task]]

	~~Basato su: [[BasatoSu::Transformer (Architettura di Deep Learning)]]~~

	~~Topic: [[Topic::Elaborazione del Linguaggio Naturale (NLP)]]~~


	~~__SHOWFACTBOX__~~


	Modello bidirezionale, Encoder-only, implementato da Google nel 2019, basato sull'architettura [[transformer]] originale proposta in [[Attention Is All You Need (2017)\|Attention Is All You Need.]] E' un modello pensato, by design, per essere '''sempre''' oggetto di un fine-tuning successivo, utilizzando per esempio una "testa" di classificazione o di [[Named Entity Regognition (NER)\|named entity recognition]].		Modello bidirezionale, Encoder-only, implementato da Google nel 2019, basato sull'architettura [[transformer]] originale proposta in [[Attention Is All You Need (2017)\|Attention Is All You Need.]] E' un modello pensato, by design, per essere '''sempre''' oggetto di un fine-tuning successivo, utilizzando per esempio una "testa" di classificazione o di [[Named Entity Regognition (NER)\|named entity recognition]].

Sara Maserati il 14:32, 10 apr 2024

2024-04-10T14:32:37Z

← Versione meno recente		Versione delle 14:32, 10 apr 2024
Riga 5:		Riga 5:
	Anno di creazione: [[AnnoDiCreazione::2018]]		Anno di creazione: [[AnnoDiCreazione::2018]]

	URLHomePage: [~~URLHomePage::~~https://github.com/google-research/bert HomePage BERT]		URLHomePage: [https://github.com/google-research/bert HomePage BERT]

	Pubblicazioni: [[Pubblicazioni::Pre-training of Deep Bidirectional Transformers for Language Understanding]]; [[Pubblicazioni::How to Fine Tune Bert for Sequence Classification?]]; [[Pubblicazioni::Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks]]; [[Pubblicazioni::BERT for Classification: Beyond the Next Sentence Prediction Task]]		Pubblicazioni: [[Pubblicazioni::Pre-training of Deep Bidirectional Transformers for Language Understanding]]; [[Pubblicazioni::How to Fine Tune Bert for Sequence Classification?]]; [[Pubblicazioni::Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks]]; [[Pubblicazioni::BERT for Classification: Beyond the Next Sentence Prediction Task]]

Sara Maserati il 14:32, 10 apr 2024

2024-04-10T14:32:23Z

← Versione meno recente		Versione delle 14:32, 10 apr 2024
Riga 5:		Riga 5:
	Anno di creazione: [[AnnoDiCreazione::2018]]		Anno di creazione: [[AnnoDiCreazione::2018]]

	URLHomePage: [[URLHomePage::https://github.com/google-research/bert]]		URLHomePage: [URLHomePage::https://github.com/google-research/bert HomePage BERT]

	Pubblicazioni: [[Pubblicazioni::Pre-training of Deep Bidirectional Transformers for Language Understanding]]; [[Pubblicazioni::How to Fine Tune Bert for Sequence Classification?]]; [[Pubblicazioni::Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks]]; [[Pubblicazioni::BERT for Classification: Beyond the Next Sentence Prediction Task]]		Pubblicazioni: [[Pubblicazioni::Pre-training of Deep Bidirectional Transformers for Language Understanding]]; [[Pubblicazioni::How to Fine Tune Bert for Sequence Classification?]]; [[Pubblicazioni::Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks]]; [[Pubblicazioni::BERT for Classification: Beyond the Next Sentence Prediction Task]]

Sara Maserati il 14:21, 10 apr 2024

2024-04-10T14:21:48Z

← Versione meno recente		Versione delle 14:21, 10 apr 2024
Riga 9:		Riga 9:
	Pubblicazioni: [[Pubblicazioni::Pre-training of Deep Bidirectional Transformers for Language Understanding]]; [[Pubblicazioni::How to Fine Tune Bert for Sequence Classification?]]; [[Pubblicazioni::Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks]]; [[Pubblicazioni::BERT for Classification: Beyond the Next Sentence Prediction Task]]		Pubblicazioni: [[Pubblicazioni::Pre-training of Deep Bidirectional Transformers for Language Understanding]]; [[Pubblicazioni::How to Fine Tune Bert for Sequence Classification?]]; [[Pubblicazioni::Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks]]; [[Pubblicazioni::BERT for Classification: Beyond the Next Sentence Prediction Task]]

	Basato su: [[BasatoSu::Architettura ~~dei Transformers~~]]		Basato su: [[BasatoSu::Transformer (Architettura di Deep Learning)]]

	Topic: [[Topic::Elaborazione del Linguaggio Naturale (NLP)]]		Topic: [[Topic::Elaborazione del Linguaggio Naturale (NLP)]]