AI2 Reasoning Challenge (Arc C)

Intro

Il benchmark ARC Challenge ("AI2 Reasoning Challenge") è un insieme di test progettato per valutare la capacità dei sistemi di intelligenza artificiale (IA) di eseguire ragionamento complesso e di senso comune. Il benchmark ARC si concentra in particolare sulla capacità dei modelli di AI di rispondere a domande di scienza di livello scolastico, coprendo una vasta gamma di argomenti e richiedendo una comprensione approfondita e il ragionamento oltre la mera capacità di cercare informazioni o utilizzare conoscenze superficiali.

Esempi

Esempio 1

Domanda:

   "George vuole riscaldare le sue mani rapidamente strofinandole. Quale superficie della pelle produrrà più calore?"

Opzioni di risposta:

   A) palmi asciutti
   B) palmi bagnati
   C) palmi coperti di olio
   D) palmi coperti di lozione

Risposta:

   "A)"

Esempio 2

Domanda:

   "Quale delle seguenti è una caratteristica che un cane NON eredita dai suoi genitori?"

Opzioni di risposta:

   A) la lunghezza del suo pelo
   B) la forma del suo naso
   C) la grandezza del suo appetito
   D) il colore del suo pelo

Risposta:

   "C)"

Intro

Esempi

Link