MMLU: differenze tra le versioni
Nessun oggetto della modifica |
Nessun oggetto della modifica |
||
(Una versione intermedia di uno stesso utente non è mostrata) | |||
Riga 58: | Riga 58: | ||
* [https://paperswithcode.com/sota/multi-task-language-understanding-on-mmlu Benchmark] | * [https://paperswithcode.com/sota/multi-task-language-understanding-on-mmlu Benchmark] | ||
* [https://arxiv.org/pdf/2009.03300.pdf Massive Multitask Language Understanding (paper)] | * [https://arxiv.org/pdf/2009.03300.pdf Massive Multitask Language Understanding (paper)] | ||
{{#seo: | |||
|title=Massive Multitask Language Understanding - MMLU | |||
|title_mode=append | |||
|keywords=comprensione del linguaggio, modelli di linguaggio, intelligenza artificiale, elaborazione del linguaggio naturale, apprendimento automatico, benchmark, MMLU, Massive Multitask Language Understanding, dataset, valutazione, compiti di comprensione | |||
|description=Il Massive Multitask Language Understanding (MMLU) è un dataset ideato per valutare le capacità di comprensione dei modelli di linguaggio. Scopri come funziona, esempi di compiti e strategie per risposte mirate. | |||
|image= | |||
}} |
Versione attuale delle 13:47, 17 ago 2024
MMLU | |
---|---|
Nome | Massive Multitask Language Understanding |
Sigla | MMLU |
Anno di creazione | 2021 |
URLHomePage | https://paperswithcode.com/sota/multi-task-language-understanding-on-mmlu |
Pubblicazione | Massive Multitask Language Understanding |
Dataset ideato per valutare le capacità di comprensione dei modelli di linguaggio di grandi dimensioni. Esso misura la capacità di un modello di linguaggio di applicare la sua conoscenza acquisita durante l'addestramento a una vasta gamma di compiti di comprensione del linguaggio, che vanno dalla risposta a domande di conoscenza generale fino alla soluzione di problemi specifici in vari domini. Questi compiti sono suddivisi in diverse categorie, tra cui scienze umane, scienze sociali, scienze fisiche, matematica, tecnologia, e molte altre.
Esempi
Esempio 1
- question
Trova tutti gli zeri nel campo finito indicato del polinomio dato con coefficienti in tale campo. x^5 + 3x^3 + x^2 + 2x in Z_5
- choises
[ "0", "1", "0,1", "0,4" ]
- answers
3 D (0,4)
Esempio 2
- question
"Trova il prodotto dei polinomi dati nell'anello polinomiale specificato. f(x) = 4x - 5, g(x) = 2x^2 - 4x + 2 in Z_8[x]."
- choises
[ "2x^2 + 5", "6x^2 + 4x + 6", "0", "x^2 + 1" ]
- answers
1 B ("2x^2+5")
Strategie per risposte mirate nei Modelli di Linguaggio
Per testare i modelli di linguaggio su benchmark come il MMLU (Massive Multitask Language Understanding), i ricercatori adottano tecniche specifiche per assicurarsi che i modelli generino solo una label specifica come risposta, senza introdurre contenuto aggiuntivo non richiesto. La capacità di generare una risposta concisa e pertinente, limitandosi a una label specifica, è fondamentale per valutare accuratamente le performance del modello in compiti di comprensione del linguaggio su larga scala.
Preparazione del Prompt
Il prompt o input fornito al modello è formulato con cura per includere tutte le informazioni necessarie affinché il modello comprenda il compito richiesto. Questo può includere:
- La domanda o lo scenario da valutare.
- Le opzioni di risposta, elencate in modo che il modello possa scegliere tra queste.
- Un formato di risposta specifico, che guida il modello a generare la sua risposta in un formato desiderato, come la selezione di una label.
Generazione della Risposta
Per indurre il modello a generare solo una label specifica senza introdurre contesto aggiuntivo:
- Limitazione della lunghezza: i ricercatori possono limitare la lunghezza della risposta generata, forzando il modello a produrre output brevi.
- Istruzioni esplicite nel prompt: il prompt può includere istruzioni esplicite che chiedono al modello di selezionare solo una delle opzioni fornite, senza aggiungere ulteriori informazioni.
- Post-elaborazione: in alcuni casi, l'output del modello può essere post-elaborato per estrarre solo la parte pertinente della risposta, come una specifica label.
Parsing dell'Output
Il parsing dell'output generato dal modello, specialmente quando questo può essere verboso o complesso, richiede metodologie che possono includere:
- Analisi sintattica: estrazione della parte rilevante dell'output basandosi sulla sua struttura grammaticale.
- Regole di matching: applicazione di regole specifiche o espressioni regolari per identificare e selezionare la risposta corretta dall'output.
- Machine Learning: utilizzo di modelli di machine learning secondari per classificare l'output del modello principale e determinare la label corretta.
Link