MMLU

Intro

Il benchmark MMLU (Large Language Models Understanding) è stato ideato per valutare le capacità di comprensione dei modelli di linguaggio di grandi dimensioni. Questo tipo di benchmark si concentra su vari aspetti della comprensione del linguaggio naturale, inclusa la capacità dei modelli di interpretare, generare testo, e comprendere le sfumature del linguaggio umano.

Esempi

Esempio 1

question

   Trova tutti gli zeri nel campo finito indicato del polinomio dato con coefficienti in tale campo.

x^5 + 3x^3 + x^2 + 2x in Z_5

choises

   [ "0", "1", "0,1", "0,4" ]

answers

   3 D (0,4)

Esempio 2

question

   "Trova il prodotto dei polinomi dati nell'anello polinomiale specificato.

f(x) = 4x - 5, g(x) = 2x^2 - 4x + 2 in Z_8[x]."

choises

   [ "2x^2 + 5", "6x^2 + 4x + 6", "0", "x^2 + 1" ]

answers

   1 B ("2x^2+5")

Intro

Esempi

Link