MMLU

MMLU
Nome	Massive Multitask Language Understanding
Sigla	MMLU
Anno di creazione	2021
URLHomePage	https://paperswithcode.com/sota/multi-task-language-understanding-on-mmlu
Pubblicazione	Massive Multitask Language Understanding

Dataset ideato per valutare le capacità di comprensione dei modelli di linguaggio di grandi dimensioni. Esso misura la capacità di un modello di linguaggio di applicare la sua conoscenza acquisita durante l'addestramento a una vasta gamma di compiti di comprensione del linguaggio, che vanno dalla risposta a domande di conoscenza generale fino alla soluzione di problemi specifici in vari domini. Questi compiti sono suddivisi in diverse categorie, tra cui scienze umane, scienze sociali, scienze fisiche, matematica, tecnologia, e molte altre.

Esempi

Esempio 1

question

   Trova tutti gli zeri nel campo finito indicato del polinomio dato con coefficienti in tale campo. x^5 + 3x^3 + x^2 + 2x in Z_5

choises

   [ "0", "1", "0,1", "0,4" ]

answers

   3 D (0,4)

Esempio 2

question

   "Trova il prodotto dei polinomi dati nell'anello polinomiale specificato. f(x) = 4x - 5, g(x) = 2x^2 - 4x + 2 in Z_8[x]."

choises

   [ "2x^2 + 5", "6x^2 + 4x + 6", "0", "x^2 + 1" ]

answers

   1 B ("2x^2+5")

Strategie per risposte mirate nei Modelli di Linguaggio

Per testare i modelli di linguaggio su benchmark come il MMLU (Massive Multitask Language Understanding), i ricercatori adottano tecniche specifiche per assicurarsi che i modelli generino solo una label specifica come risposta, senza introdurre contenuto aggiuntivo non richiesto. La capacità di generare una risposta concisa e pertinente, limitandosi a una label specifica, è fondamentale per valutare accuratamente le performance del modello in compiti di comprensione del linguaggio su larga scala.

Preparazione del Prompt

Il prompt o input fornito al modello è formulato con cura per includere tutte le informazioni necessarie affinché il modello comprenda il compito richiesto. Questo può includere:

La domanda o lo scenario da valutare.
Le opzioni di risposta, elencate in modo che il modello possa scegliere tra queste.
Un formato di risposta specifico, che guida il modello a generare la sua risposta in un formato desiderato, come la selezione di una label.

Generazione della Risposta

Per indurre il modello a generare solo una label specifica senza introdurre contesto aggiuntivo:

Limitazione della lunghezza: i ricercatori possono limitare la lunghezza della risposta generata, forzando il modello a produrre output brevi.
Istruzioni esplicite nel prompt: il prompt può includere istruzioni esplicite che chiedono al modello di selezionare solo una delle opzioni fornite, senza aggiungere ulteriori informazioni.
Post-elaborazione: in alcuni casi, l'output del modello può essere post-elaborato per estrarre solo la parte pertinente della risposta, come una specifica label.

Parsing dell'Output

Il parsing dell'output generato dal modello, specialmente quando questo può essere verboso o complesso, richiede metodologie che possono includere:

Analisi sintattica: estrazione della parte rilevante dell'output basandosi sulla sua struttura grammaticale.
Regole di matching: applicazione di regole specifiche o espressioni regolari per identificare e selezionare la risposta corretta dall'output.
Machine Learning: utilizzo di modelli di machine learning secondari per classificare l'output del modello principale e determinare la label corretta.

Link