HellaSwag: differenze tra le versioni
Nessun oggetto della modifica |
Nessun oggetto della modifica |
||
(37 versioni intermedie di 6 utenti non mostrate) | |||
Riga 1: | Riga 1: | ||
== | {{Template benchmark | ||
|Nome=HellaSwag | |||
|Sigla=HellaSwag | |||
|Anno di creazione=2019 | |||
|URLHomePage=https://huggingface.co/datasets/Rowan/hellaswag/viewer/default/train?row=1 Dataset HellaSwag | |||
|Pubblicazione=HellaSwag: Can a Machine Really Finish Your Sentence? | |||
}} | |||
Acronimo per '''"Harder Endings, Longer contexts, and Low-shot Activities for Situations With Adversarial Generations"'''. | |||
È stato progettato per testare la capacità di un modello di prevedere la conclusione logica di una narrazione, spesso in contesti che richiedono un'elevata capacità di ragionamento e comprensione del contesto. | È stato progettato per testare la capacità di un modello di prevedere la conclusione logica di una narrazione, spesso in contesti che richiedono un'elevata capacità di ragionamento e comprensione del contesto. | ||
Il benchmark HellaSwag include due tipi principali di contesti: descrizioni di video e situazioni di tipo Wikipedia. Per ogni contesto, vengono fornite diverse scelte di continuazione, e il compito del modello è selezionare quella più logica e coerente con il contesto fornito. | Il benchmark HellaSwag include due tipi principali di contesti: descrizioni di video e situazioni di tipo Wikipedia. Per ogni contesto, vengono fornite diverse scelte di continuazione, e il compito del modello è selezionare quella più logica e coerente con il contesto fornito. Utilizza il concetto di [[Adversarial Endings]]. | ||
== Esempi == | == Esempi == | ||
* '''activity_label''' (Questo campo contiene l'etichetta dell'attività che viene svolta): | |||
"Fare i biscotti" | |||
* '''ctx_a''' (Il contesto A fornisce il primo pezzo di informazioni o setup per lo scenario): | |||
"Una chef donna in divisa bianca mostra una pila di teglie da forno in una grande cucina presentandole." | |||
* '''ctx_b''' (Questa frase serve come punto di partenza per la generazione di testo o per la selezione di un finale appropriato): | |||
"Le teglie" | |||
* '''endings''' (Questo campo contiene una lista di possibili finali per la storia presentata nei contesti A e B. Il modello deve scegliere quale tra questi finali sia il più logico e appropriato): | |||
0. contengono tuorli d'uovo e bicarbonato di sodio. | |||
1. poi vengono cosparse di zucchero di canna. | |||
2. vengono poste in un colino sul bancone. | |||
3. vengono riempite con dolci e caricate nel forno. | |||
* '''label''' (Indica la risposta corretta o l'etichetta che il modello dovrebbe prevedere): | |||
In questo caso, il numero '''"3"''' si riferisce all'indice del finale corretto nell'array "endings". | |||
==Strategie per risposte mirate nei modelli di linguaggio== | |||
===Procedure di valutazione su HellaSwag=== | |||
La valutazione su HellaSwag solitamente segue questi passaggi: | |||
Risposta | '''Prompting''': Il modello riceve un prompt che include il contesto e le opzioni di completamento. Il prompt è formulato in modo da indicare chiaramente al modello che il suo compito è selezionare il completamento più plausibile tra le opzioni fornite. | ||
'''Generazione della Risposta''': Diversamente da altri compiti in cui il modello genera liberamente del testo, in HellaSwag il modello deve selezionare tra le opzioni predefinite. Questo può essere realizzato in diversi modi, come ad esempio chiedendo al modello di generare un'etichetta o un indice che corrisponde alla sua scelta. | |||
'''Parsing dell'Output''': Dato che l'output del modello potrebbe essere verboso o presentare informazioni non direttamente legate alla selezione della risposta, gli sviluppatori devono implementare un metodo per estrarre la risposta pertinente dall'output generale. Questo spesso comporta la mappatura dell'output del modello alle opzioni di scelta fornite nel prompt. | |||
===Generazione di una Specifica Label senza Contesto Esplicito=== | |||
Per far generare al modello solo una label specifica senza introdurre il contesto in ogni risposta, si possono adottare diverse tecniche, come l'addestramento o il [[fine-tuning]] del modello con un formato di risposta specifico. Questo può includere l'addestramento del modello per riconoscere che, in contesti come HellaSwag, è richiesto di limitare la sua risposta a una delle etichette predefinite, piuttosto che generare una risposta estesa o un testo libero. | |||
== Link == | == Link == | ||
[https://arxiv.org/abs/1905.07830 HellaSwag: Can a Machine Really Finish Your Sentence?] | *[https://arxiv.org/abs/1905.07830 HellaSwag: Can a Machine Really Finish Your Sentence?] | ||
*[https://huggingface.co/datasets/Rowan/hellaswag/viewer/default/train?row=1 Dataset HellaSwag] | |||
{{#seo: | |||
|title=HellaSwag | |||
|title_mode=append | |||
|keywords=HellaSwag, linguaggio, modello, intelligenza artificiale, apprendimento automatico, elaborazione del linguaggio naturale, PNL, generazione del testo, ragionamento, comprensione del contesto | |||
|description=HellaSwag è un benchmark progettato per testare la capacità di un modello di intelligenza artificiale di prevedere la conclusione logica di una narrazione. Include due tipi di contesti: descrizioni video e situazioni simili a Wikipedia, con diverse scelte di continuazione tra cui il modello deve selezionare quella più logica. | |||
|image= | |||
}} |
Versione attuale delle 13:32, 17 ago 2024
HellaSwag | |
---|---|
Nome | HellaSwag |
Sigla | HellaSwag |
Anno di creazione | 2019 |
URLHomePage | https://huggingface.co/datasets/Rowan/hellaswag/viewer/default/train?row=1 Dataset HellaSwag |
Pubblicazione | HellaSwag: Can a Machine Really Finish Your Sentence? |
Acronimo per "Harder Endings, Longer contexts, and Low-shot Activities for Situations With Adversarial Generations".
È stato progettato per testare la capacità di un modello di prevedere la conclusione logica di una narrazione, spesso in contesti che richiedono un'elevata capacità di ragionamento e comprensione del contesto. Il benchmark HellaSwag include due tipi principali di contesti: descrizioni di video e situazioni di tipo Wikipedia. Per ogni contesto, vengono fornite diverse scelte di continuazione, e il compito del modello è selezionare quella più logica e coerente con il contesto fornito. Utilizza il concetto di Adversarial Endings.
Esempi
- activity_label (Questo campo contiene l'etichetta dell'attività che viene svolta):
"Fare i biscotti"
- ctx_a (Il contesto A fornisce il primo pezzo di informazioni o setup per lo scenario):
"Una chef donna in divisa bianca mostra una pila di teglie da forno in una grande cucina presentandole."
- ctx_b (Questa frase serve come punto di partenza per la generazione di testo o per la selezione di un finale appropriato):
"Le teglie"
- endings (Questo campo contiene una lista di possibili finali per la storia presentata nei contesti A e B. Il modello deve scegliere quale tra questi finali sia il più logico e appropriato):
0. contengono tuorli d'uovo e bicarbonato di sodio. 1. poi vengono cosparse di zucchero di canna. 2. vengono poste in un colino sul bancone. 3. vengono riempite con dolci e caricate nel forno.
- label (Indica la risposta corretta o l'etichetta che il modello dovrebbe prevedere):
In questo caso, il numero "3" si riferisce all'indice del finale corretto nell'array "endings".
Strategie per risposte mirate nei modelli di linguaggio
Procedure di valutazione su HellaSwag
La valutazione su HellaSwag solitamente segue questi passaggi:
Prompting: Il modello riceve un prompt che include il contesto e le opzioni di completamento. Il prompt è formulato in modo da indicare chiaramente al modello che il suo compito è selezionare il completamento più plausibile tra le opzioni fornite.
Generazione della Risposta: Diversamente da altri compiti in cui il modello genera liberamente del testo, in HellaSwag il modello deve selezionare tra le opzioni predefinite. Questo può essere realizzato in diversi modi, come ad esempio chiedendo al modello di generare un'etichetta o un indice che corrisponde alla sua scelta.
Parsing dell'Output: Dato che l'output del modello potrebbe essere verboso o presentare informazioni non direttamente legate alla selezione della risposta, gli sviluppatori devono implementare un metodo per estrarre la risposta pertinente dall'output generale. Questo spesso comporta la mappatura dell'output del modello alle opzioni di scelta fornite nel prompt.
Generazione di una Specifica Label senza Contesto Esplicito
Per far generare al modello solo una label specifica senza introdurre il contesto in ogni risposta, si possono adottare diverse tecniche, come l'addestramento o il fine-tuning del modello con un formato di risposta specifico. Questo può includere l'addestramento del modello per riconoscere che, in contesti come HellaSwag, è richiesto di limitare la sua risposta a una delle etichette predefinite, piuttosto che generare una risposta estesa o un testo libero.
Link