AI2 Reasoning Challenge (Arc C): differenze tra le versioni

Da Wiki AI.
m (Alesaccoia ha spostato la pagina Arc C a AI2 Reasoning Challenge (Arc C))
(Nessuna differenza)

Versione delle 15:16, 18 mar 2024

Intro

Il benchmark ARC Challenge ("AI2 Reasoning Challenge") è un insieme di test progettato per valutare la capacità dei sistemi di intelligenza artificiale (IA) di eseguire ragionamento complesso e di senso comune. Il benchmark ARC si concentra in particolare sulla capacità dei modelli di AI di rispondere a domande di scienza di livello scolastico, coprendo una vasta gamma di argomenti e richiedendo una comprensione approfondita e il ragionamento oltre la mera capacità di cercare informazioni o utilizzare conoscenze superficiali.

Esempi

  • Esempio 1

Domanda:

   "George vuole riscaldare le sue mani rapidamente strofinandole. Quale superficie della pelle produrrà più calore?"

Opzioni di risposta:

   A) palmi asciutti
   B) palmi bagnati
   C) palmi coperti di olio
   D) palmi coperti di lozione

Risposta:

   "A)"


  • Esempio 2

Domanda:

   "Quale delle seguenti è una caratteristica che un cane NON eredita dai suoi genitori?"

Opzioni di risposta:

   A) la lunghezza del suo pelo
   B) la forma del suo naso
   C) la grandezza del suo appetito
   D) il colore del suo pelo

Risposta:

   "C)"

Strategie per risposte mirate nei Modelli di Linguaggio

Per testare i modelli di linguaggio di grandi dimensioni (LLM) su benchmark come ARC Challenge (ARC-C), i ricercatori seguono un processo dettagliato che assicura la capacità del modello di generare risposte precise a domande di ragionamento complesso, focalizzandosi sulla generazione di una singola label (risposta) senza introdurre informazioni aggiuntive non necessarie.

Preparazione del Prompt

La preparazione del prompt è cruciale per indirizzare il modello verso la generazione della risposta desiderata. Il prompt per ARC-C include tipicamente:

  • La domanda di ragionamento complesso: Una domanda progettata per testare la capacità di ragionamento astratto del modello.
  • Opzioni di risposta multiple: Un elenco di possibili risposte tra cui il modello deve scegliere.
  • Istruzioni chiare: Direttive che indicano al modello di selezionare la risposta più appropriata senza fornire ulteriori spiegazioni o contesto.

Generazione della Risposta

Per assicurarsi che il modello generi solo una label specifica, i ricercatori utilizzano diverse tecniche:

  • Limitazione della Lunghezza dell'Output: Impostano limiti sulla lunghezza dell'output per prevenire risposte prolisse e fuori tema.
  • Formato di Risposta Chiuso: Specificano un formato di risposta chiuso nel prompt, chiedendo esplicitamente al modello di scegliere tra le opzioni date (ad esempio, "Seleziona la lettera della risposta corretta: A, B, C, o D").
  • Post-elaborazione: In alcuni casi, l'output del modello viene post-elaborato per rimuovere qualsiasi contenuto non pertinente e isolare la label di risposta.

Parsing dell'Output

Il parsing dell'output, specialmente quando potrebbe essere verboso o indiretto, richiede l'uso di metodi specifici per estrarre la risposta corretta:

  • Estrazione Basata su Regole: Utilizzo di regole specifiche o espressioni regolari per identificare la label di risposta nell'output.
  • Analisi del Testo: Applicazione di tecniche di elaborazione del linguaggio naturale (NLP) per analizzare l'output e determinare la risposta più plausibile basata sul contesto della domanda.

Link