AI2 Reasoning Challenge (Arc C): differenze tra le versioni

Versione delle 14:49, 28 feb 2024

Intro

Il benchmark ARC Challenge ("AI2 Reasoning Challenge") è un insieme di test progettato per valutare la capacità dei sistemi di intelligenza artificiale (IA) di eseguire ragionamento complesso e di senso comune. Il benchmark ARC si concentra in particolare sulla capacità dei modelli di AI di rispondere a domande di scienza di livello scolastico, coprendo una vasta gamma di argomenti e richiedendo una comprensione approfondita e il ragionamento oltre la mera capacità di cercare informazioni o utilizzare conoscenze superficiali.

Esempi

Esempio 1

Domanda:

   "George vuole riscaldare le sue mani rapidamente strofinandole. Quale superficie della pelle produrrà più calore?"

Opzioni di risposta:

   A) palmi asciutti
   B) palmi bagnati
   C) palmi coperti di olio
   D) palmi coperti di lozione

Risposta:

   "A)"

Esempio 2