MMLU: differenze tra le versioni

Versione delle 09:03, 29 feb 2024

Intro

Il benchmark MMLU (Large Language Models Understanding) è stato ideato per valutare le capacità di comprensione dei modelli di linguaggio di grandi dimensioni. Questo tipo di benchmark si concentra su vari aspetti della comprensione del linguaggio naturale, inclusa la capacità dei modelli di interpretare, generare testo, e comprendere le sfumature del linguaggio umano.

Esempi

Esempio 1

question

   Trova tutti gli zeri nel campo finito indicato del polinomio dato con coefficienti in tale campo. x^5 + 3x^3 + x^2 + 2x in Z_5

choises

   [ "0", "1", "0,1", "0,4" ]

answers

   3 D (0,4)

Esempio 2

question

   "Trova il prodotto dei polinomi dati nell'anello polinomiale specificato. f(x) = 4x - 5, g(x) = 2x^2 - 4x + 2 in Z_8[x]."

choises

   [ "2x^2 + 5", "6x^2 + 4x + 6", "0", "x^2 + 1" ]

answers

   1 B ("2x^2+5")

Strategie per risposte mirate nei Modelli di Linguaggio

Per testare i modelli di linguaggio su benchmark come il MMLU (Massive Multitask Language Understanding), i ricercatori adottano tecniche specifiche per assicurarsi che i modelli generino solo una label specifica come risposta, senza introdurre contenuto aggiuntivo non richiesto. La capacità di generare una risposta concisa e pertinente, limitandosi a una label specifica, è fondamentale per valutare accuratamente le performance del modello in compiti di comprensione del linguaggio su larga scala.

Preparazione del Prompt

Il prompt o input fornito al modello è formulato con cura per includere tutte le informazioni necessarie affinché il modello comprenda il compito richiesto. Questo può includere:

La domanda o lo scenario da valutare.
Le opzioni di risposta, elencate in modo che il modello possa scegliere tra queste.
Un formato di risposta specifico, che guida il modello a generare la sua risposta in un formato desiderato, come la selezione di una label.

Generazione della Risposta

Per indurre il modello a generare solo una label specifica senza introdurre contesto aggiuntivo:

Limitazione della lunghezza: i ricercatori possono limitare la lunghezza della risposta generata, forzando il modello a produrre output brevi.
Istruzioni esplicite nel prompt: il prompt può includere istruzioni esplicite che chiedono al modello di selezionare solo una delle opzioni fornite, senza aggiungere ulteriori informazioni.
Post-elaborazione: in alcuni casi, l'output del modello può essere post-elaborato per estrarre solo la parte pertinente della risposta, come una specifica label.

Parsing dell'Output

Il parsing dell'output generato dal modello, specialmente quando questo può essere verboso o complesso, richiede metodologie che possono includere:

Analisi sintattica: estrazione della parte rilevante dell'output basandosi sulla sua struttura grammaticale.
Regole di matching: applicazione di regole specifiche o espressioni regolari per identificare e selezionare la risposta corretta dall'output.
Machine Learning: utilizzo di modelli di machine learning secondari per classificare l'output del modello principale e determinare la label corretta.

@@ Riga 28: / Riga 28: @@
 Per testare i modelli di linguaggio su benchmark come il '''MMLU (Massive Multitask Language Understanding)''', i ricercatori adottano tecniche specifiche per assicurarsi che i modelli generino solo una label specifica come risposta, senza introdurre contenuto aggiuntivo non richiesto. La capacità di generare una risposta concisa e pertinente, limitandosi a una label specifica, è fondamentale per valutare accuratamente le performance del modello in compiti di comprensione del linguaggio su larga scala.
-== Preparazione del Prompt ==
+=== Preparazione del Prompt ===
 Il prompt o input fornito al modello è formulato con cura per includere tutte le informazioni necessarie affinché il modello comprenda il compito richiesto. Questo può includere:
@@ Riga 35: / Riga 35: @@
 * '''Un formato di risposta specifico''', che guida il modello a generare la sua risposta in un formato desiderato, come la selezione di una label.
-== Generazione della Risposta ==
+=== Generazione della Risposta ===
 Per indurre il modello a generare solo una label specifica senza introdurre contesto aggiuntivo:
@@ Riga 42: / Riga 42: @@
 * '''Post-elaborazione''': in alcuni casi, l'output del modello può essere post-elaborato per estrarre solo la parte pertinente della risposta, come una specifica label.
-== Parsing dell'Output ==
+=== Parsing dell'Output ===
 Il parsing dell'output generato dal modello, specialmente quando questo può essere verboso o complesso, richiede metodologie che possono includere:
@@ Riga 48: / Riga 48: @@
 * '''Regole di matching''': applicazione di regole specifiche o espressioni regolari per identificare e selezionare la risposta corretta dall'output.
 * '''Machine Learning''': utilizzo di modelli di machine learning secondari per classificare l'output del modello principale e determinare la label corretta.
-In sintesi, per far generare al modello solo una label specifica, i ricercatori utilizzano prompt ben progettati, limitano la lunghezza della generazione dell'output, e applicano metodi di post-elaborazione per assicurarsi che l'output sia conforme al formato richiesto. Questo approccio aiuta a valutare in modo accurato le capacità di comprensione e di generazione del testo del modello in contesti controllati.
 == Link ==
 * [https://paperswithcode.com/sota/multi-task-language-understanding-on-mmlu Benchmark]
 * [https://arxiv.org/pdf/2009.03300.pdf Massive Multitask Language Understanding (paper)]