Are We Done with MMLU?
Are We Done with MMLU? | |
---|---|
Data | 2023 |
Autori | Aryo Pradipta Gema, Joshua Ong Jun Leang, Giwon Hong, Alessio Devoto, Alberto Carlo Maria Mancino, Rohit Saxena, Xuanli He, Yu Zhao, Xiaotang Du, Mohammad Reza Ghasemi Madani, Claire Barale, R. McHardy, Joshua Harris, Jean Kaddour, Emile van Krieken, Pasquale Minervini |
URL | https://www.semanticscholar.org/paper/181b24b777d60b71d3e496c7181a35fa1003cfd7 |
Topic | MMLU |
Citazioni | 3 |
Questo articolo esamina il popolare benchmark linguistico Massive Multitask Language Understanding (MMLU) e ne identifica diversi errori.
Nonostante MMLU sia ampiamente utilizzato, l'analisi dimostra la presenza di numerosi errori nei dati di riferimento che oscurano le reali capacità degli LLM.
Ad esempio, si è scoperto che il 57% delle domande analizzate nel sottoinsieme di virologia contengono errori. Per affrontare questo problema, gli autori introducono un framework completo per l'identificazione degli errori nei set di dati utilizzando una nuova tassonomia degli errori. Viene quindi creato MMLU-Redux, un sottoinsieme di 3.000 domande riannotate manualmente su 30 argomenti MMLU.
Utilizzando MMLU-Redux, dimostrano discrepanze significative con le metriche di performance del modello originariamente riportate. I risultati suggeriscono fortemente la necessità di rivedere le domande errate di MMLU per migliorarne l'utilità e l'affidabilità futura come benchmark.