HellaSwag: differenze tra le versioni
(→Esempi) |
(→Esempi) |
||
Riga 7: | Riga 7: | ||
== Esempi == | == Esempi == | ||
* '''activity_label''' (Questo campo | * '''activity_label''' (Questo campo contiene l'etichetta dell'attività che viene svolta): | ||
"Fare i biscotti" | "Fare i biscotti" |
Versione delle 13:59, 28 feb 2024
Intro
Acronimo per "Harder Endings, Longer contexts, and Low-shot Activities for Situations With Adversarial Generations".
È stato progettato per testare la capacità di un modello di prevedere la conclusione logica di una narrazione, spesso in contesti che richiedono un'elevata capacità di ragionamento e comprensione del contesto. Il benchmark HellaSwag include due tipi principali di contesti: descrizioni di video e situazioni di tipo Wikipedia. Per ogni contesto, vengono fornite diverse scelte di continuazione, e il compito del modello è selezionare quella più logica e coerente con il contesto fornito. Utilizza il concetto di Adversarial Endings.
Esempi
- activity_label (Questo campo contiene l'etichetta dell'attività che viene svolta):
"Fare i biscotti"
- ctx_a (Il contesto A fornisce il primo pezzo di informazioni o setup per lo scenario):
"Una chef donna in divisa bianca mostra una pila di teglie da forno in una grande cucina presentandole."
- ctx_b (Questa frase serve come punto di partenza per la generazione di testo o per la selezione di un finale appropriato):
"Le teglie"
- endings (Questo campo contiene una lista di possibili finali per la storia presentata nei contesti A e B. Il modello deve scegliere quale tra questi finali sia il più logico e appropriato):
"# contengono tuorli d'uovo e bicarbonato di sodio." "# poi vengono cosparsi di zucchero di canna." "# vengono posti in un colino sul bancone." "# vengono riempiti con dolci e caricati nel forno."
- label (Indica la risposta corretta o l'etichetta che il modello dovrebbe prevedere):
In questo caso, il numero "3" si riferisce all'indice del finale corretto nell'array "endings".