AI2 Reasoning Challenge (Arc C)
Intro
Il benchmark ARC si concentra in particolare sulla capacità dei modelli di AI di rispondere a domande di scienza di livello scolastico, coprendo una vasta gamma di argomenti e richiedendo una comprensione approfondita e il ragionamento oltre la mera capacità di cercare informazioni o utilizzare conoscenze superficiali.
Esempi
George wants to warm his hands quickly by rubbing them. Which skin surface will produce the most heat?
{ "text": [ "dry palms", "wet palms", "palms covered with oil", "palms covered with lotion" ], "label": [ "A", "B", "C", "D" ] }
Riposta: A
Which of the following statements best explains why magnets usually stick to a refrigerator door?
{ "text": [ "The refrigerator door is smooth.", "The refrigerator door contains iron.", "The refrigerator door is a good conductor.", "The refrigerator door has electric wires in it." ], "label": [ "A", "B", "C", "D" ] }
Risposta: B