Un task dei modelli di linguaggio in cui l'accuratezza si misura ponendo domande e anche fornendo un contesto da cui il modello può ricavare la risposta.