Are We Done with MMLU?

Are We Done with MMLU?
Data	2023
Autori	Aryo Pradipta Gema, Joshua Ong Jun Leang, Giwon Hong, Alessio Devoto, Alberto Carlo Maria Mancino, Rohit Saxena, Xuanli He, Yu Zhao, Xiaotang Du, Mohammad Reza Ghasemi Madani, Claire Barale, R. McHardy, Joshua Harris, Jean Kaddour, Emile van Krieken, Pasquale Minervini
URL	https://www.semanticscholar.org/paper/181b24b777d60b71d3e496c7181a35fa1003cfd7
Topic	MMLU
Citazioni	3

Questo articolo esamina il popolare benchmark linguistico Massive Multitask Language Understanding (MMLU) e ne identifica diversi errori.

Nonostante MMLU sia ampiamente utilizzato, l'analisi dimostra la presenza di numerosi errori nei dati di riferimento che oscurano le reali capacità degli LLM.

Ad esempio, si è scoperto che il 57% delle domande analizzate nel sottoinsieme di virologia contengono errori. Per affrontare questo problema, gli autori introducono un framework completo per l'identificazione degli errori nei set di dati utilizzando una nuova tassonomia degli errori. Viene quindi creato MMLU-Redux, un sottoinsieme di 3.000 domande riannotate manualmente su 30 argomenti MMLU.

Utilizzando MMLU-Redux, dimostrano discrepanze significative con le metriche di performance del modello originariamente riportate. I risultati suggeriscono fortemente la necessità di rivedere le domande errate di MMLU per migliorarne l'utilità e l'affidabilità futura come benchmark.