HellaSwag: differenze tra le versioni

Da Wiki AI.
Nessun oggetto della modifica
Nessun oggetto della modifica
 
(37 versioni intermedie di 6 utenti non mostrate)
Riga 1: Riga 1:
== Intro ==
{{Template benchmark
|Nome=HellaSwag
|Sigla=HellaSwag
|Anno di creazione=2019
|URLHomePage=https://huggingface.co/datasets/Rowan/hellaswag/viewer/default/train?row=1 Dataset HellaSwag
|Pubblicazione=HellaSwag: Can a Machine Really Finish Your Sentence?
}}
 
Acronimo per '''"Harder Endings, Longer contexts, and Low-shot Activities for Situations With Adversarial Generations"'''.
 
È stato progettato per testare la capacità di un modello di prevedere la conclusione logica di una narrazione, spesso in contesti che richiedono un'elevata capacità di ragionamento e comprensione del contesto.
È stato progettato per testare la capacità di un modello di prevedere la conclusione logica di una narrazione, spesso in contesti che richiedono un'elevata capacità di ragionamento e comprensione del contesto.
Il benchmark HellaSwag include due tipi principali di contesti: descrizioni di video e situazioni di tipo Wikipedia. Per ogni contesto, vengono fornite diverse scelte di continuazione, e il compito del modello è selezionare quella più logica e coerente con il contesto fornito.
Il benchmark HellaSwag include due tipi principali di contesti: descrizioni di video e situazioni di tipo Wikipedia. Per ogni contesto, vengono fornite diverse scelte di continuazione, e il compito del modello è selezionare quella più logica e coerente con il contesto fornito. Utilizza il concetto di [[Adversarial Endings]].


== Esempi ==
== Esempi ==


[header] How to overcome communication apprehension [title] Pinpoint your fears. [step] Before you can learn to overcome your communication apprehension, you must figure out exactly what it is that is scary or nerve-wrecking. Construct an anxiety hierarchy to help you better understand your fears.
* '''activity_label''' (Questo campo contiene l'etichetta dell'attività che viene svolta):
 
    "Fare i biscotti"
 
* '''ctx_a''' (Il contesto A fornisce il primo pezzo di informazioni o setup per lo scenario):
 
    "Una chef donna in divisa bianca mostra una pila di teglie da forno in una grande cucina presentandole."
 
* '''ctx_b''' (Questa frase serve come punto di partenza per la generazione di testo o per la selezione di un finale appropriato):
 
    "Le teglie"
 
* '''endings''' (Questo campo contiene una lista di possibili finali per la storia presentata nei contesti A e B. Il modello deve scegliere quale tra questi finali sia il più logico e appropriato):
 
    0. contengono tuorli d'uovo e bicarbonato di sodio.
    1. poi vengono cosparse di zucchero di canna.
    2. vengono poste in un colino sul bancone.
    3. vengono riempite con dolci e caricate nel forno.
 
* '''label''' (Indica la risposta corretta o l'etichetta che il modello dovrebbe prevedere):


Possibilità
    In questo caso, il numero '''"3"''' si riferisce all'indice del finale corretto nell'array "endings".


['Consider several factors before making a list of potential fears related to communicating inaccurately. [substeps] You may be scared of being on the receiving end, not being able to talk to someone, being overwhelmed by personal details, not being able to stop worrying, or being loud and demanding in public.' '[substeps] Constructing an anxiety hierarchy starts with a list of situations where the anxiety is felt. After the list is complete, you then rank them from the lowest level of anxiety all the way to the one situation with the highest level of stress.' '[substeps] Your hierarchy might include things like " fear of airplanes " or " fear of the unknown. " oftentimes fear comes from alone or with others.' "[substeps] For example, research has shown that it's perfectly normal to feel nervous when you are getting called back at work or meeting work deadlines. But, anxiety arises when you are feeling afraid or unable to perform the tasks that you need to do."]
==Strategie per risposte mirate nei modelli di linguaggio==
===Procedure di valutazione su HellaSwag===
La valutazione su HellaSwag solitamente segue questi passaggi:


Risposta esatta: 1 (seconda)
'''Prompting''': Il modello riceve un prompt che include il contesto e le opzioni di completamento. Il prompt è formulato in modo da indicare chiaramente al modello che il suo compito è selezionare il completamento più plausibile tra le opzioni fornite.
 
'''Generazione della Risposta''': Diversamente da altri compiti in cui il modello genera liberamente del testo, in HellaSwag il modello deve selezionare tra le opzioni predefinite. Questo può essere realizzato in diversi modi, come ad esempio chiedendo al modello di generare un'etichetta o un indice che corrisponde alla sua scelta.
 
'''Parsing dell'Output''': Dato che l'output del modello potrebbe essere verboso o presentare informazioni non direttamente legate alla selezione della risposta, gli sviluppatori devono implementare un metodo per estrarre la risposta pertinente dall'output generale. Questo spesso comporta la mappatura dell'output del modello alle opzioni di scelta fornite nel prompt.
 
===Generazione di una Specifica Label senza Contesto Esplicito===
Per far generare al modello solo una label specifica senza introdurre il contesto in ogni risposta, si possono adottare diverse tecniche, come l'addestramento o il [[fine-tuning]] del modello con un formato di risposta specifico. Questo può includere l'addestramento del modello per riconoscere che, in contesti come HellaSwag, è richiesto di limitare la sua risposta a una delle etichette predefinite, piuttosto che generare una risposta estesa o un testo libero.


== Link ==
== Link ==
[https://arxiv.org/abs/1905.07830 HellaSwag: Can a Machine Really Finish Your Sentence?]
*[https://arxiv.org/abs/1905.07830 HellaSwag: Can a Machine Really Finish Your Sentence?]
*[https://huggingface.co/datasets/Rowan/hellaswag/viewer/default/train?row=1 Dataset HellaSwag]
 
{{#seo:
            |title=HellaSwag
            |title_mode=append
            |keywords=HellaSwag, linguaggio, modello, intelligenza artificiale, apprendimento automatico, elaborazione del linguaggio naturale, PNL, generazione del testo, ragionamento, comprensione del contesto
            |description=HellaSwag è un benchmark progettato per testare la capacità di un modello di intelligenza artificiale di prevedere la conclusione logica di una narrazione. Include due tipi di contesti: descrizioni video e situazioni simili a Wikipedia, con diverse scelte di continuazione tra cui il modello deve selezionare quella più logica.
            |image=
            }}

Versione attuale delle 13:32, 17 ago 2024

HellaSwag
Nome HellaSwag
Sigla HellaSwag
Anno di creazione 2019
URLHomePage https://huggingface.co/datasets/Rowan/hellaswag/viewer/default/train?row=1 Dataset HellaSwag
Pubblicazione HellaSwag: Can a Machine Really Finish Your Sentence?


Acronimo per "Harder Endings, Longer contexts, and Low-shot Activities for Situations With Adversarial Generations".

È stato progettato per testare la capacità di un modello di prevedere la conclusione logica di una narrazione, spesso in contesti che richiedono un'elevata capacità di ragionamento e comprensione del contesto. Il benchmark HellaSwag include due tipi principali di contesti: descrizioni di video e situazioni di tipo Wikipedia. Per ogni contesto, vengono fornite diverse scelte di continuazione, e il compito del modello è selezionare quella più logica e coerente con il contesto fornito. Utilizza il concetto di Adversarial Endings.

Esempi

  • activity_label (Questo campo contiene l'etichetta dell'attività che viene svolta):
    "Fare i biscotti"
  • ctx_a (Il contesto A fornisce il primo pezzo di informazioni o setup per lo scenario):
    "Una chef donna in divisa bianca mostra una pila di teglie da forno in una grande cucina presentandole."
  • ctx_b (Questa frase serve come punto di partenza per la generazione di testo o per la selezione di un finale appropriato):
    "Le teglie"
  • endings (Questo campo contiene una lista di possibili finali per la storia presentata nei contesti A e B. Il modello deve scegliere quale tra questi finali sia il più logico e appropriato):
    0. contengono tuorli d'uovo e bicarbonato di sodio.
    1. poi vengono cosparse di zucchero di canna.
    2. vengono poste in un colino sul bancone.
    3. vengono riempite con dolci e caricate nel forno.
  • label (Indica la risposta corretta o l'etichetta che il modello dovrebbe prevedere):
    In questo caso, il numero "3" si riferisce all'indice del finale corretto nell'array "endings".

Strategie per risposte mirate nei modelli di linguaggio

Procedure di valutazione su HellaSwag

La valutazione su HellaSwag solitamente segue questi passaggi:

Prompting: Il modello riceve un prompt che include il contesto e le opzioni di completamento. Il prompt è formulato in modo da indicare chiaramente al modello che il suo compito è selezionare il completamento più plausibile tra le opzioni fornite.

Generazione della Risposta: Diversamente da altri compiti in cui il modello genera liberamente del testo, in HellaSwag il modello deve selezionare tra le opzioni predefinite. Questo può essere realizzato in diversi modi, come ad esempio chiedendo al modello di generare un'etichetta o un indice che corrisponde alla sua scelta.

Parsing dell'Output: Dato che l'output del modello potrebbe essere verboso o presentare informazioni non direttamente legate alla selezione della risposta, gli sviluppatori devono implementare un metodo per estrarre la risposta pertinente dall'output generale. Questo spesso comporta la mappatura dell'output del modello alle opzioni di scelta fornite nel prompt.

Generazione di una Specifica Label senza Contesto Esplicito

Per far generare al modello solo una label specifica senza introdurre il contesto in ogni risposta, si possono adottare diverse tecniche, come l'addestramento o il fine-tuning del modello con un formato di risposta specifico. Questo può includere l'addestramento del modello per riconoscere che, in contesti come HellaSwag, è richiesto di limitare la sua risposta a una delle etichette predefinite, piuttosto che generare una risposta estesa o un testo libero.

Link