HellaSwag: differenze tra le versioni

Da Wiki AI.
Riga 11: Riga 11:
* '''ctx_b''' (Questa frase serve come punto di partenza per la generazione di testo o per la selezione di un finale appropriato): "Le teglie"
* '''ctx_b''' (Questa frase serve come punto di partenza per la generazione di testo o per la selezione di un finale appropriato): "Le teglie"
* '''endings''' (Questo campo contiene una lista di possibili finali per la storia presentata nei contesti A e B. Il modello deve scegliere quale tra questi finali sia il più logico e appropriato):
* '''endings''' (Questo campo contiene una lista di possibili finali per la storia presentata nei contesti A e B. Il modello deve scegliere quale tra questi finali sia il più logico e appropriato):
"1. contengono tuorli d'uovo e bicarbonato di sodio."
"#contengono tuorli d'uovo e bicarbonato di sodio."
"2. poi vengono cosparsi di zucchero di canna."
"#poi vengono cosparsi di zucchero di canna."
"3. vengono posti in un colino sul bancone."
"#vengono posti in un colino sul bancone."
"4. vengono riempiti con dolci e caricati nel forno."
"#vengono riempiti con dolci e caricati nel forno."
* '''label''' (Indica la risposta corretta o l'etichetta che il modello dovrebbe prevedere): In questo caso, il numero "3" si riferisce all'indice del finale corretto nell'array "endings".
* '''label''' (Indica la risposta corretta o l'etichetta che il modello dovrebbe prevedere): In questo caso, il numero "3" si riferisce all'indice del finale corretto nell'array "endings".


== Link ==
== Link ==
[https://arxiv.org/abs/1905.07830 HellaSwag: Can a Machine Really Finish Your Sentence?]
[https://arxiv.org/abs/1905.07830 HellaSwag: Can a Machine Really Finish Your Sentence?]

Versione delle 13:56, 28 feb 2024

Intro

Acronimo per "Harder Endings, Longer contexts, and Low-shot Activities for Situations With Adversarial Generations".

È stato progettato per testare la capacità di un modello di prevedere la conclusione logica di una narrazione, spesso in contesti che richiedono un'elevata capacità di ragionamento e comprensione del contesto. Il benchmark HellaSwag include due tipi principali di contesti: descrizioni di video e situazioni di tipo Wikipedia. Per ogni contesto, vengono fornite diverse scelte di continuazione, e il compito del modello è selezionare quella più logica e coerente con il contesto fornito. Utilizza il concetto di Adversarial Endings.

Esempi

  • activity_label (Questo campo sembra contenere l'etichetta dell'attività che viene svolta): "Fare i biscotti"
  • ctx_a (Il contesto A fornisce il primo pezzo di informazioni o setup per lo scenario): "Una chef donna in divisa bianca mostra una pila di teglie da forno in una grande cucina presentandole."
  • ctx_b (Questa frase serve come punto di partenza per la generazione di testo o per la selezione di un finale appropriato): "Le teglie"
  • endings (Questo campo contiene una lista di possibili finali per la storia presentata nei contesti A e B. Il modello deve scegliere quale tra questi finali sia il più logico e appropriato):

"#contengono tuorli d'uovo e bicarbonato di sodio." "#poi vengono cosparsi di zucchero di canna." "#vengono posti in un colino sul bancone." "#vengono riempiti con dolci e caricati nel forno."

  • label (Indica la risposta corretta o l'etichetta che il modello dovrebbe prevedere): In questo caso, il numero "3" si riferisce all'indice del finale corretto nell'array "endings".

Link

HellaSwag: Can a Machine Really Finish Your Sentence?