WinoGrande

Da Wiki AI.
WinoGrande
Nome WinoGrande
Sigla
Anno di creazione 2019
URLHomePage https://paperswithcode.com/dataset/winogrande
Pubblicazione


Intro

Winogrande mira a valutare la capacità dei modelli di IA di applicare il senso comune per risolvere enigmi e compiti di comprensione del testo che richiedono più di una semplice analisi linguistica o statistica. Rispetto a set di dati simili come WSC, Winogrande offre una collezione di problemi più ampia e variata, riducendo la possibilità di sfruttare scorciatoie o bias nei dati per risolvere i problemi. Ogni domanda è formulata attorno a una frase o a un piccolo paragrafo che presenta una situazione ambigua o un enigma che richiede la comprensione del contesto e delle relazioni causali o logiche per essere risolto.

Uno degli aspetti innovativi di Winogrande è l'uso dell'Adversarial Filtering (AF) nella generazione del dataset. Questo processo seleziona le domande più difficili eliminando quelle che i modelli di IA possono risolvere facilmente attraverso scorciatoie o bias presenti nei dati. L'AF assicura che solo gli esempi più sfidanti, che richiedono un vero ragionamento di senso comune, siano inclusi nel benchmark.

Esempi

  • Esempio 1

Frase:

    "John ha spostato il divano dal garage al giardino per creare spazio. Il _ è piccolo".

Opzione 1:

     "garage"

Opzione 2:

     "giardino"

Risposta:

     "1"



  • Esempio 2

Frase:

    "Il dottore ha diagnosticato a Justin il disturbo bipolare e a Robert l'ansia. _ aveva i nervi a pezzi".

Opzione 1:

    "Justin"

Opzione 2:

    "Robert"

Risposta:

    "2"

Strategie per risposte mirate nei modelli di linguaggio

Procedura di Valutazione su WinoGrande

La valutazione su WinoGrande segue una metodologia specifica per assicurare che il modello affronti correttamente il problema di ragionamento presentato. Ecco i passaggi chiave:

Prompting: Il modello riceve un prompt che consiste in una narrazione breve con una domanda di ragionamento di senso comune. Il prompt può includere anche delle scelte multiple come possibili risposte.

Generazione della Risposta: Il modello deve selezionare la risposta corretta tra le opzioni fornite. Questo richiede una comprensione approfondita del testo e la capacità di applicare il ragionamento di senso comune.

Parsing dell'Output: Dato che l'output del modello può variare in formato, gli sviluppatori devono implementare metodi per interpretare e valutare correttamente la risposta generata, assicurandosi che corrisponda alla selezione corretta tra le opzioni fornite.

Generazione di una Specifica Label

Per indurre il modello a generare una specifica label senza reintrodurre il contesto in ogni risposta, gli sviluppatori possono utilizzare tecniche di addestramento specifiche. Questo può includere l'addestramento del modello con esempi in cui la risposta è limitata a una scelta tra opzioni multiple, rinforzando la capacità del modello di focalizzarsi sulla selezione della risposta corretta basata sul ragionamento di senso comune.

Link