AI2 Reasoning Challenge (Arc C): differenze tra le versioni
Nessun oggetto della modifica |
Nessun oggetto della modifica |
||
Riga 1: | Riga 1: | ||
{{ | {{Benchmark | ||
|Nome=AI2 Reasoning Challenge | |Nome=AI2 Reasoning Challenge | ||
|Sigla=Arc C | |Sigla=Arc C |
Versione attuale delle 11:36, 17 ago 2024
Intro
Il benchmark ARC Challenge ("AI2 Reasoning Challenge") è un insieme di test progettato per valutare la capacità dei sistemi di intelligenza artificiale (IA) di eseguire ragionamento complesso e di senso comune. Il benchmark ARC si concentra in particolare sulla capacità dei modelli di AI di rispondere a domande di scienza di livello scolastico, coprendo una vasta gamma di argomenti e richiedendo una comprensione approfondita e il ragionamento oltre la mera capacità di cercare informazioni o utilizzare conoscenze superficiali.
Esempi
- Esempio 1
Domanda:
"George vuole riscaldare le sue mani rapidamente strofinandole. Quale superficie della pelle produrrà più calore?"
Opzioni di risposta:
A) palmi asciutti B) palmi bagnati C) palmi coperti di olio D) palmi coperti di lozione
Risposta:
"A)"
- Esempio 2
Domanda:
"Quale delle seguenti è una caratteristica che un cane NON eredita dai suoi genitori?"
Opzioni di risposta:
A) la lunghezza del suo pelo B) la forma del suo naso C) la grandezza del suo appetito D) il colore del suo pelo
Risposta:
"C)"
Strategie per risposte mirate nei Modelli di Linguaggio
Per testare i modelli di linguaggio di grandi dimensioni (LLM) su benchmark come ARC Challenge (ARC-C), i ricercatori seguono un processo dettagliato che assicura la capacità del modello di generare risposte precise a domande di ragionamento complesso, focalizzandosi sulla generazione di una singola label (risposta) senza introdurre informazioni aggiuntive non necessarie.
Preparazione del Prompt
La preparazione del prompt è cruciale per indirizzare il modello verso la generazione della risposta desiderata. Il prompt per ARC-C include tipicamente:
- La domanda di ragionamento complesso: Una domanda progettata per testare la capacità di ragionamento astratto del modello.
- Opzioni di risposta multiple: Un elenco di possibili risposte tra cui il modello deve scegliere.
- Istruzioni chiare: Direttive che indicano al modello di selezionare la risposta più appropriata senza fornire ulteriori spiegazioni o contesto.
Generazione della Risposta
Per assicurarsi che il modello generi solo una label specifica, i ricercatori utilizzano diverse tecniche:
- Limitazione della Lunghezza dell'Output: Impostano limiti sulla lunghezza dell'output per prevenire risposte prolisse e fuori tema.
- Formato di Risposta Chiuso: Specificano un formato di risposta chiuso nel prompt, chiedendo esplicitamente al modello di scegliere tra le opzioni date (ad esempio, "Seleziona la lettera della risposta corretta: A, B, C, o D").
- Post-elaborazione: In alcuni casi, l'output del modello viene post-elaborato per rimuovere qualsiasi contenuto non pertinente e isolare la label di risposta.
Parsing dell'Output
Il parsing dell'output, specialmente quando potrebbe essere verboso o indiretto, richiede l'uso di metodi specifici per estrarre la risposta corretta:
- Estrazione Basata su Regole: Utilizzo di regole specifiche o espressioni regolari per identificare la label di risposta nell'output.
- Analisi del Testo: Applicazione di tecniche di elaborazione del linguaggio naturale (NLP) per analizzare l'output e determinare la risposta più plausibile basata sul contesto della domanda.