AI2 Reasoning Challenge (Arc C): differenze tra le versioni

Da Wiki AI.
Nessun oggetto della modifica
 
(12 versioni intermedie di 5 utenti non mostrate)
Riga 1: Riga 1:
{{Benchmark
|Nome=AI2 Reasoning Challenge
|Sigla=Arc C
|Anno di creazione=2018
|URLHomePage=https://paperswithcode.com/dataset/arc ARC (AI2 Reasoning Challenge)
}}
== Intro ==
== Intro ==
Il benchmark ARC si concentra in particolare sulla capacità dei modelli di AI di rispondere a domande di scienza di livello scolastico, coprendo una vasta gamma di argomenti e richiedendo una comprensione approfondita e il ragionamento oltre la mera capacità di cercare informazioni o utilizzare conoscenze superficiali.
'''Il benchmark ARC Challenge ("AI2 Reasoning Challenge")''' è un insieme di test progettato per valutare la capacità dei sistemi di intelligenza artificiale (IA) di eseguire ragionamento complesso e di senso comune. Il benchmark ARC si concentra in particolare sulla capacità dei modelli di AI di rispondere a domande di scienza di livello scolastico, coprendo una vasta gamma di argomenti e richiedendo una comprensione approfondita e il ragionamento oltre la mera capacità di cercare informazioni o utilizzare conoscenze superficiali.


== Esempi ==
== Esempi ==
Riga 10: Riga 17:
     "George vuole riscaldare le sue mani rapidamente strofinandole. Quale superficie della pelle produrrà più calore?"
     "George vuole riscaldare le sue mani rapidamente strofinandole. Quale superficie della pelle produrrà più calore?"


'''Opzioni di risposta'''
'''Opzioni di risposta:'''


     A) palmi asciutti
     A) palmi asciutti
Riga 28: Riga 35:
     "Quale delle seguenti è una caratteristica che un cane NON eredita dai suoi genitori?"
     "Quale delle seguenti è una caratteristica che un cane NON eredita dai suoi genitori?"


'''Opzioni di risposta'''
'''Opzioni di risposta:'''


     A) la lunghezza del suo pelo
     A) la lunghezza del suo pelo
Riga 38: Riga 45:


     "C)"
     "C)"
== Strategie per risposte mirate nei Modelli di Linguaggio ==
Per testare i modelli di linguaggio di grandi dimensioni (LLM) su benchmark come '''ARC Challenge''' (ARC-C), i ricercatori seguono un processo dettagliato che assicura la capacità del modello di generare risposte precise a domande di ragionamento complesso, focalizzandosi sulla generazione di una singola label (risposta) senza introdurre informazioni aggiuntive non necessarie.
=== Preparazione del Prompt ===
La preparazione del prompt è cruciale per indirizzare il modello verso la generazione della risposta desiderata. Il prompt per ARC-C include tipicamente:
* '''La domanda di ragionamento complesso''': Una domanda progettata per testare la capacità di ragionamento astratto del modello.
* '''Opzioni di risposta multiple''': Un elenco di possibili risposte tra cui il modello deve scegliere.
* '''Istruzioni chiare''': Direttive che indicano al modello di selezionare la risposta più appropriata senza fornire ulteriori spiegazioni o contesto.
=== Generazione della Risposta ===
Per assicurarsi che il modello generi solo una label specifica, i ricercatori utilizzano diverse tecniche:
* '''Limitazione della Lunghezza dell'Output''': Impostano limiti sulla lunghezza dell'output per prevenire risposte prolisse e fuori tema.
* '''Formato di Risposta Chiuso''': Specificano un formato di risposta chiuso nel prompt, chiedendo esplicitamente al modello di scegliere tra le opzioni date (ad esempio, "Seleziona la lettera della risposta corretta: A, B, C, o D").
* '''Post-elaborazione''': In alcuni casi, l'output del modello viene post-elaborato per rimuovere qualsiasi contenuto non pertinente e isolare la label di risposta.
=== Parsing dell'Output ===
Il parsing dell'output, specialmente quando potrebbe essere verboso o indiretto, richiede l'uso di metodi specifici per estrarre la risposta corretta:
* '''Estrazione Basata su Regole''': Utilizzo di regole specifiche o espressioni regolari per identificare la label di risposta nell'output.
* '''Analisi del Testo''': Applicazione di tecniche di elaborazione del linguaggio naturale (NLP) per analizzare l'output e determinare la risposta più plausibile basata sul contesto della domanda.


== Link ==
== Link ==
* [https://paperswithcode.com/dataset/arc ARC (AI2 Reasoning Challenge)]
* [https://paperswithcode.com/dataset/arc ARC (AI2 Reasoning Challenge)]
* [https://huggingface.co/datasets/allenai/ai2_arc/viewer/ARC-Challenge/train?row=8 Dataset Arc C]

Versione attuale delle 11:36, 17 ago 2024

Template:Benchmark

Intro

Il benchmark ARC Challenge ("AI2 Reasoning Challenge") è un insieme di test progettato per valutare la capacità dei sistemi di intelligenza artificiale (IA) di eseguire ragionamento complesso e di senso comune. Il benchmark ARC si concentra in particolare sulla capacità dei modelli di AI di rispondere a domande di scienza di livello scolastico, coprendo una vasta gamma di argomenti e richiedendo una comprensione approfondita e il ragionamento oltre la mera capacità di cercare informazioni o utilizzare conoscenze superficiali.

Esempi

  • Esempio 1

Domanda:

   "George vuole riscaldare le sue mani rapidamente strofinandole. Quale superficie della pelle produrrà più calore?"

Opzioni di risposta:

   A) palmi asciutti
   B) palmi bagnati
   C) palmi coperti di olio
   D) palmi coperti di lozione

Risposta:

   "A)"


  • Esempio 2

Domanda:

   "Quale delle seguenti è una caratteristica che un cane NON eredita dai suoi genitori?"

Opzioni di risposta:

   A) la lunghezza del suo pelo
   B) la forma del suo naso
   C) la grandezza del suo appetito
   D) il colore del suo pelo

Risposta:

   "C)"

Strategie per risposte mirate nei Modelli di Linguaggio

Per testare i modelli di linguaggio di grandi dimensioni (LLM) su benchmark come ARC Challenge (ARC-C), i ricercatori seguono un processo dettagliato che assicura la capacità del modello di generare risposte precise a domande di ragionamento complesso, focalizzandosi sulla generazione di una singola label (risposta) senza introdurre informazioni aggiuntive non necessarie.

Preparazione del Prompt

La preparazione del prompt è cruciale per indirizzare il modello verso la generazione della risposta desiderata. Il prompt per ARC-C include tipicamente:

  • La domanda di ragionamento complesso: Una domanda progettata per testare la capacità di ragionamento astratto del modello.
  • Opzioni di risposta multiple: Un elenco di possibili risposte tra cui il modello deve scegliere.
  • Istruzioni chiare: Direttive che indicano al modello di selezionare la risposta più appropriata senza fornire ulteriori spiegazioni o contesto.

Generazione della Risposta

Per assicurarsi che il modello generi solo una label specifica, i ricercatori utilizzano diverse tecniche:

  • Limitazione della Lunghezza dell'Output: Impostano limiti sulla lunghezza dell'output per prevenire risposte prolisse e fuori tema.
  • Formato di Risposta Chiuso: Specificano un formato di risposta chiuso nel prompt, chiedendo esplicitamente al modello di scegliere tra le opzioni date (ad esempio, "Seleziona la lettera della risposta corretta: A, B, C, o D").
  • Post-elaborazione: In alcuni casi, l'output del modello viene post-elaborato per rimuovere qualsiasi contenuto non pertinente e isolare la label di risposta.

Parsing dell'Output

Il parsing dell'output, specialmente quando potrebbe essere verboso o indiretto, richiede l'uso di metodi specifici per estrarre la risposta corretta:

  • Estrazione Basata su Regole: Utilizzo di regole specifiche o espressioni regolari per identificare la label di risposta nell'output.
  • Analisi del Testo: Applicazione di tecniche di elaborazione del linguaggio naturale (NLP) per analizzare l'output e determinare la risposta più plausibile basata sul contesto della domanda.

Link