MMLU: differenze tra le versioni

Versione attuale delle 13:47, 17 ago 2024

MMLU
Nome	Massive Multitask Language Understanding
Sigla	MMLU
Anno di creazione	2021
URLHomePage	https://paperswithcode.com/sota/multi-task-language-understanding-on-mmlu
Pubblicazione	Massive Multitask Language Understanding

Dataset ideato per valutare le capacità di comprensione dei modelli di linguaggio di grandi dimensioni. Esso misura la capacità di un modello di linguaggio di applicare la sua conoscenza acquisita durante l'addestramento a una vasta gamma di compiti di comprensione del linguaggio, che vanno dalla risposta a domande di conoscenza generale fino alla soluzione di problemi specifici in vari domini. Questi compiti sono suddivisi in diverse categorie, tra cui scienze umane, scienze sociali, scienze fisiche, matematica, tecnologia, e molte altre.

Esempi

Esempio 1

question

   Trova tutti gli zeri nel campo finito indicato del polinomio dato con coefficienti in tale campo. x^5 + 3x^3 + x^2 + 2x in Z_5

choises

   [ "0", "1", "0,1", "0,4" ]

answers

   3 D (0,4)

Esempio 2

question

   "Trova il prodotto dei polinomi dati nell'anello polinomiale specificato. f(x) = 4x - 5, g(x) = 2x^2 - 4x + 2 in Z_8[x]."

choises

   [ "2x^2 + 5", "6x^2 + 4x + 6", "0", "x^2 + 1" ]

answers

   1 B ("2x^2+5")

Strategie per risposte mirate nei Modelli di Linguaggio

Per testare i modelli di linguaggio su benchmark come il MMLU (Massive Multitask Language Understanding), i ricercatori adottano tecniche specifiche per assicurarsi che i modelli generino solo una label specifica come risposta, senza introdurre contenuto aggiuntivo non richiesto. La capacità di generare una risposta concisa e pertinente, limitandosi a una label specifica, è fondamentale per valutare accuratamente le performance del modello in compiti di comprensione del linguaggio su larga scala.

Preparazione del Prompt

Il prompt o input fornito al modello è formulato con cura per includere tutte le informazioni necessarie affinché il modello comprenda il compito richiesto. Questo può includere:

La domanda o lo scenario da valutare.
Le opzioni di risposta, elencate in modo che il modello possa scegliere tra queste.
Un formato di risposta specifico, che guida il modello a generare la sua risposta in un formato desiderato, come la selezione di una label.

Generazione della Risposta

Per indurre il modello a generare solo una label specifica senza introdurre contesto aggiuntivo:

Limitazione della lunghezza: i ricercatori possono limitare la lunghezza della risposta generata, forzando il modello a produrre output brevi.
Istruzioni esplicite nel prompt: il prompt può includere istruzioni esplicite che chiedono al modello di selezionare solo una delle opzioni fornite, senza aggiungere ulteriori informazioni.
Post-elaborazione: in alcuni casi, l'output del modello può essere post-elaborato per estrarre solo la parte pertinente della risposta, come una specifica label.

Parsing dell'Output

Il parsing dell'output generato dal modello, specialmente quando questo può essere verboso o complesso, richiede metodologie che possono includere:

Analisi sintattica: estrazione della parte rilevante dell'output basandosi sulla sua struttura grammaticale.
Regole di matching: applicazione di regole specifiche o espressioni regolari per identificare e selezionare la risposta corretta dall'output.
Machine Learning: utilizzo di modelli di machine learning secondari per classificare l'output del modello principale e determinare la label corretta.

Link

@@ Riga 1: / Riga 1: @@
+{{Template benchmark
+|Nome=Massive Multitask Language Understanding
+|Sigla=MMLU
+|Anno di creazione=2021
+|URLHomePage=https://paperswithcode.com/sota/multi-task-language-understanding-on-mmlu
+|Pubblicazione=Massive Multitask Language Understanding
+}}
-== Intro ==
+Dataset ideato per valutare le capacità di comprensione dei modelli di linguaggio di grandi dimensioni. Esso misura la capacità di un modello di linguaggio di applicare la sua conoscenza acquisita durante l'addestramento a una vasta gamma di compiti di comprensione del linguaggio, che vanno dalla risposta a domande di conoscenza generale fino alla soluzione di problemi specifici in vari domini. Questi compiti sono suddivisi in diverse categorie, tra cui scienze umane, scienze sociali, scienze fisiche, matematica, tecnologia, e molte altre.
-'''Il benchmark MMLU (Large Language Models Understanding)''' è stato ideato per valutare le capacità di comprensione dei modelli di linguaggio di grandi dimensioni. Questo tipo di benchmark si concentra su vari aspetti della comprensione del linguaggio naturale, inclusa la capacità dei modelli di interpretare, generare testo, e comprendere le sfumature del linguaggio umano.
 == Esempi ==
@@ Riga 28: / Riga 34: @@
 Per testare i modelli di linguaggio su benchmark come il '''MMLU (Massive Multitask Language Understanding)''', i ricercatori adottano tecniche specifiche per assicurarsi che i modelli generino solo una label specifica come risposta, senza introdurre contenuto aggiuntivo non richiesto. La capacità di generare una risposta concisa e pertinente, limitandosi a una label specifica, è fondamentale per valutare accuratamente le performance del modello in compiti di comprensione del linguaggio su larga scala.
-== Preparazione del Prompt ==
+=== Preparazione del Prompt ===
 Il prompt o input fornito al modello è formulato con cura per includere tutte le informazioni necessarie affinché il modello comprenda il compito richiesto. Questo può includere:
@@ Riga 35: / Riga 41: @@
 * '''Un formato di risposta specifico''', che guida il modello a generare la sua risposta in un formato desiderato, come la selezione di una label.
-== Generazione della Risposta ==
+=== Generazione della Risposta ===
 Per indurre il modello a generare solo una label specifica senza introdurre contesto aggiuntivo:
-* '''Limitazione della Lunghezza''': I ricercatori possono limitare la lunghezza della risposta generata, forzando il modello a produrre output brevi.
+* '''Limitazione della lunghezza''': i ricercatori possono limitare la lunghezza della risposta generata, forzando il modello a produrre output brevi.
-* '''Istruzioni Esplicite nel Prompt''': Il prompt può includere istruzioni esplicite che chiedono al modello di selezionare solo una delle opzioni fornite, senza aggiungere ulteriori informazioni.
+* '''Istruzioni esplicite nel prompt''': il prompt può includere istruzioni esplicite che chiedono al modello di selezionare solo una delle opzioni fornite, senza aggiungere ulteriori informazioni.
-* '''Post-elaborazione''': In alcuni casi, l'output del modello può essere post-elaborato per estrarre solo la parte pertinente della risposta, come una specifica label.
+* '''Post-elaborazione''': in alcuni casi, l'output del modello può essere post-elaborato per estrarre solo la parte pertinente della risposta, come una specifica label.
-== Parsing dell'Output ==
+=== Parsing dell'Output ===
 Il parsing dell'output generato dal modello, specialmente quando questo può essere verboso o complesso, richiede metodologie che possono includere:
-* '''Analisi Sintattica''': Estrazione della parte rilevante dell'output basandosi sulla sua struttura grammaticale.
+* '''Analisi sintattica''': estrazione della parte rilevante dell'output basandosi sulla sua struttura grammaticale.
-* '''Regole di Matching''': Applicazione di regole specifiche o espressioni regolari per identificare e selezionare la risposta corretta dall'output.
+* '''Regole di matching''': applicazione di regole specifiche o espressioni regolari per identificare e selezionare la risposta corretta dall'output.
-* '''Machine Learning''': Utilizzo di modelli di machine learning secondari per classificare l'output del modello principale e determinare la label corretta.
+* '''Machine Learning''': utilizzo di modelli di machine learning secondari per classificare l'output del modello principale e determinare la label corretta.
-In sintesi, per far generare al modello solo una label specifica, i ricercatori utilizzano prompt ben progettati, limitano la lunghezza della generazione dell'output, e applicano metodi di post-elaborazione per assicurarsi che l'output sia conforme al formato richiesto. Questo approccio aiuta a valutare in modo accurato le capacità di comprensione e di generazione del testo del modello in contesti controllati.
 == Link ==
 * [https://paperswithcode.com/sota/multi-task-language-understanding-on-mmlu Benchmark]
 * [https://arxiv.org/pdf/2009.03300.pdf Massive Multitask Language Understanding (paper)]
+{{#seo:
+            |title=Massive Multitask Language Understanding - MMLU
+            |title_mode=append
+            |keywords=comprensione del linguaggio, modelli di linguaggio, intelligenza artificiale, elaborazione del linguaggio naturale, apprendimento automatico, benchmark, MMLU, Massive Multitask Language Understanding, dataset, valutazione, compiti di comprensione
+            |description=Il Massive Multitask Language Understanding (MMLU) è un dataset ideato per valutare le capacità di comprensione dei modelli di linguaggio. Scopri come funziona, esempi di compiti e strategie per risposte mirate.
+            |image=
+            }}