WinoGrande
Intro
Winogrande mira a valutare la capacità dei modelli di IA di applicare il senso comune per risolvere enigmi e compiti di comprensione del testo che richiedono più di una semplice analisi linguistica o statistica. Rispetto a set di dati simili come WSC, Winogrande offre una collezione di problemi più ampia e variata, riducendo la possibilità di sfruttare scorciatoie o bias nei dati per risolvere i problemi. Ogni domanda è formulata attorno a una frase o a un piccolo paragrafo che presenta una situazione ambigua o un enigma che richiede la comprensione del contesto e delle relazioni causali o logiche per essere risolto.
Uno degli aspetti innovativi di Winogrande è l'uso dell'Adversarial Filtering (AF) nella generazione del dataset. Questo processo seleziona le domande più difficili eliminando quelle che i modelli di IA possono risolvere facilmente attraverso scorciatoie o bias presenti nei dati. L'AF assicura che solo gli esempi più sfidanti, che richiedono un vero ragionamento di senso comune, siano inclusi nel benchmark.
Esempi
- Esempio 1
Frase:
"John ha spostato il divano dal garage al giardino per creare spazio. Il _ è piccolo".
Opzione 1:
"garage"
Opzione 2:
"giardino"
Risposta:
"1"
- Esempio 2
Frase:
"Il dottore ha diagnosticato a Justin il disturbo bipolare e a Robert l'ansia. _ aveva i nervi a pezzi".
Opzione 1:
"Justin"
Opzione 2:
"Robert"
Risposta:
"2"