HellaSwag: differenze tra le versioni

Da Wiki AI.
Riga 7: Riga 7:
== Esempi ==
== Esempi ==


* activity_label (Questo campo sembra contenere l'etichetta dell'attività che viene svolta): "Fare i biscotti"
* '''activity_label''' (Questo campo sembra contenere l'etichetta dell'attività che viene svolta): "Fare i biscotti"
* ctx_a (Il contesto A fornisce il primo pezzo di informazioni o setup per lo scenario): "Una chef donna in divisa bianca mostra una pila di teglie da forno in una grande cucina presentandole."
* ctx_a (Il contesto A fornisce il primo pezzo di informazioni o setup per lo scenario): "Una chef donna in divisa bianca mostra una pila di teglie da forno in una grande cucina presentandole."
* ctx_b (Questa frase serve come punto di partenza per la generazione di testo o per la selezione di un finale appropriato): "Le teglie"
* ctx_b (Questa frase serve come punto di partenza per la generazione di testo o per la selezione di un finale appropriato): "Le teglie"
* endings (Questo campo contiene una lista di possibili finali per la storia presentata nei contesti A e B. Il modello deve scegliere quale tra questi finali sia il più logico e appropriato):
* endings (Questo campo contiene una lista di possibili finali per la storia presentata nei contesti A e B. Il modello deve scegliere quale tra questi finali sia il più logico e appropriato):
"1.* contengono tuorli d'uovo e bicarbonato di sodio."
"1. contengono tuorli d'uovo e bicarbonato di sodio."
"2. poi vengono cosparsi di zucchero di canna."
"2. poi vengono cosparsi di zucchero di canna."
"3. vengono posti in un colino sul bancone."
"3. vengono posti in un colino sul bancone."

Versione delle 13:55, 28 feb 2024

Intro

Acronimo per "Harder Endings, Longer contexts, and Low-shot Activities for Situations With Adversarial Generations".

È stato progettato per testare la capacità di un modello di prevedere la conclusione logica di una narrazione, spesso in contesti che richiedono un'elevata capacità di ragionamento e comprensione del contesto. Il benchmark HellaSwag include due tipi principali di contesti: descrizioni di video e situazioni di tipo Wikipedia. Per ogni contesto, vengono fornite diverse scelte di continuazione, e il compito del modello è selezionare quella più logica e coerente con il contesto fornito. Utilizza il concetto di Adversarial Endings.

Esempi

  • activity_label (Questo campo sembra contenere l'etichetta dell'attività che viene svolta): "Fare i biscotti"
  • ctx_a (Il contesto A fornisce il primo pezzo di informazioni o setup per lo scenario): "Una chef donna in divisa bianca mostra una pila di teglie da forno in una grande cucina presentandole."
  • ctx_b (Questa frase serve come punto di partenza per la generazione di testo o per la selezione di un finale appropriato): "Le teglie"
  • endings (Questo campo contiene una lista di possibili finali per la storia presentata nei contesti A e B. Il modello deve scegliere quale tra questi finali sia il più logico e appropriato):

"1. contengono tuorli d'uovo e bicarbonato di sodio." "2. poi vengono cosparsi di zucchero di canna." "3. vengono posti in un colino sul bancone." "4. vengono riempiti con dolci e caricati nel forno."

  • label (Indica la risposta corretta o l'etichetta che il modello dovrebbe prevedere): In questo caso, il numero "3" si riferisce all'indice del finale corretto nell'array "endings".

Link

HellaSwag: Can a Machine Really Finish Your Sentence?