HellaSwag

Da Wiki AI.
HellaSwag
Nome HellaSwag
Sigla HellaSwag
Anno di creazione 2019
URLHomePage https://huggingface.co/datasets/Rowan/hellaswag/viewer/default/train?row=1 Dataset HellaSwag
Pubblicazione HellaSwag: Can a Machine Really Finish Your Sentence?


Acronimo per "Harder Endings, Longer contexts, and Low-shot Activities for Situations With Adversarial Generations".

È stato progettato per testare la capacità di un modello di prevedere la conclusione logica di una narrazione, spesso in contesti che richiedono un'elevata capacità di ragionamento e comprensione del contesto. Il benchmark HellaSwag include due tipi principali di contesti: descrizioni di video e situazioni di tipo Wikipedia. Per ogni contesto, vengono fornite diverse scelte di continuazione, e il compito del modello è selezionare quella più logica e coerente con il contesto fornito. Utilizza il concetto di Adversarial Endings.

Esempi

  • activity_label (Questo campo contiene l'etichetta dell'attività che viene svolta):
    "Fare i biscotti"
  • ctx_a (Il contesto A fornisce il primo pezzo di informazioni o setup per lo scenario):
    "Una chef donna in divisa bianca mostra una pila di teglie da forno in una grande cucina presentandole."
  • ctx_b (Questa frase serve come punto di partenza per la generazione di testo o per la selezione di un finale appropriato):
    "Le teglie"
  • endings (Questo campo contiene una lista di possibili finali per la storia presentata nei contesti A e B. Il modello deve scegliere quale tra questi finali sia il più logico e appropriato):
    0. contengono tuorli d'uovo e bicarbonato di sodio.
    1. poi vengono cosparse di zucchero di canna.
    2. vengono poste in un colino sul bancone.
    3. vengono riempite con dolci e caricate nel forno.
  • label (Indica la risposta corretta o l'etichetta che il modello dovrebbe prevedere):
    In questo caso, il numero "3" si riferisce all'indice del finale corretto nell'array "endings".

Strategie per risposte mirate nei modelli di linguaggio

Procedure di valutazione su HellaSwag

La valutazione su HellaSwag solitamente segue questi passaggi:

Prompting: Il modello riceve un prompt che include il contesto e le opzioni di completamento. Il prompt è formulato in modo da indicare chiaramente al modello che il suo compito è selezionare il completamento più plausibile tra le opzioni fornite.

Generazione della Risposta: Diversamente da altri compiti in cui il modello genera liberamente del testo, in HellaSwag il modello deve selezionare tra le opzioni predefinite. Questo può essere realizzato in diversi modi, come ad esempio chiedendo al modello di generare un'etichetta o un indice che corrisponde alla sua scelta.

Parsing dell'Output: Dato che l'output del modello potrebbe essere verboso o presentare informazioni non direttamente legate alla selezione della risposta, gli sviluppatori devono implementare un metodo per estrarre la risposta pertinente dall'output generale. Questo spesso comporta la mappatura dell'output del modello alle opzioni di scelta fornite nel prompt.

Generazione di una Specifica Label senza Contesto Esplicito

Per far generare al modello solo una label specifica senza introdurre il contesto in ogni risposta, si possono adottare diverse tecniche, come l'addestramento o il fine-tuning del modello con un formato di risposta specifico. Questo può includere l'addestramento del modello per riconoscere che, in contesti come HellaSwag, è richiesto di limitare la sua risposta a una delle etichette predefinite, piuttosto che generare una risposta estesa o un testo libero.

Link