HellaSwag: differenze tra le versioni

Versione delle 14:04, 28 feb 2024

Intro

Acronimo per "Harder Endings, Longer contexts, and Low-shot Activities for Situations With Adversarial Generations".

È stato progettato per testare la capacità di un modello di prevedere la conclusione logica di una narrazione, spesso in contesti che richiedono un'elevata capacità di ragionamento e comprensione del contesto. Il benchmark HellaSwag include due tipi principali di contesti: descrizioni di video e situazioni di tipo Wikipedia. Per ogni contesto, vengono fornite diverse scelte di continuazione, e il compito del modello è selezionare quella più logica e coerente con il contesto fornito. Utilizza il concetto di Adversarial Endings.

Esempi

activity_label (Questo campo contiene l'etichetta dell'attività che viene svolta):

    "Fare i biscotti"

ctx_a (Il contesto A fornisce il primo pezzo di informazioni o setup per lo scenario):

"Una chef donna in divisa bianca mostra una pila di teglie da forno in una grande cucina presentandole."

ctx_b (Questa frase serve come punto di partenza per la generazione di testo o per la selezione di un finale appropriato):

    "Le teglie"

endings (Questo campo contiene una lista di possibili finali per la storia presentata nei contesti A e B. Il modello deve scegliere quale tra questi finali sia il più logico e appropriato):

contengono tuorli d'uovo e bicarbonato di sodio.
poi vengono cosparsi di zucchero di canna.
vengono posti in un colino sul bancone.
vengono riempiti con dolci e caricati nel forno.

label (Indica la risposta corretta o l'etichetta che il modello dovrebbe prevedere):

    In questo caso, il numero "3" si riferisce all'indice del finale corretto nell'array "endings".

@@ Riga 9: / Riga 9: @@
 * '''activity_label''' (Questo campo contiene l'etichetta dell'attività che viene svolta):
-"Fare i biscotti"
+     "Fare i biscotti"
 * '''ctx_a''' (Il contesto A fornisce il primo pezzo di informazioni o setup per lo scenario):
@@ Riga 17: / Riga 17: @@
 * '''ctx_b''' (Questa frase serve come punto di partenza per la generazione di testo o per la selezione di un finale appropriato):
-"Le teglie"
+     "Le teglie"
 * '''endings''' (Questo campo contiene una lista di possibili finali per la storia presentata nei contesti A e B. Il modello deve scegliere quale tra questi finali sia il più logico e appropriato):
@@ Riga 28: / Riga 28: @@
 * '''label''' (Indica la risposta corretta o l'etichetta che il modello dovrebbe prevedere):
-In questo caso, il numero '''"3"''' si riferisce all'indice del finale corretto nell'array "endings".
+     In questo caso, il numero '''"3"''' si riferisce all'indice del finale corretto nell'array "endings".
 == Link ==
 *[https://arxiv.org/abs/1905.07830 HellaSwag: Can a Machine Really Finish Your Sentence?]
 *[https://huggingface.co/datasets/Rowan/hellaswag/viewer/default/train?row=1 Dataset HellaSwag]