MMLU
Intro
Il benchmark MMLU (Large Language Models Understanding) è stato ideato per valutare le capacità di comprensione dei modelli di linguaggio di grandi dimensioni. Questo tipo di benchmark si concentra su vari aspetti della comprensione del linguaggio naturale, inclusa la capacità dei modelli di interpretare, generare testo, e comprendere le sfumature del linguaggio umano.
Esempi
Esempio 1
- question
Trova tutti gli zeri nel campo finito indicato del polinomio dato con coefficienti in tale campo.
x^5 + 3x^3 + x^2 + 2x in Z_5
- choises
[ "0", "1", "0,1", "0,4" ]
- answers
3 D (0,4)
Esempio 2
- question
"Trova il prodotto dei polinomi dati nell'anello polinomiale specificato.
f(x) = 4x - 5, g(x) = 2x^2 - 4x + 2 in Z_8[x]."
- choises
[ "2x^2 + 5", "6x^2 + 4x + 6", "0", "x^2 + 1" ]
- answers
1 B ("2x^2+5")