Functional Benchmarks for Robust Evaluation of Reasoning Performance, and the Reasoning Gap

Da Wiki AI.
Functional Benchmarks for Robust Evaluation of Reasoning Performance, and the Reasoning Gap
Data 2024
Autori Saurabh Srivastava, B. AnnaroseM, V. AntoP, Shashank Menon, Ajay Sukumar, T. AdwaithSamod, Alan Philipose, Stevin Prince, Sooraj Thomas
URL https://www.semanticscholar.org/paper/3c585441b4607b34f8bf4e352ed6e36753fe21ce
Topic Reasoning
Citazioni 18


Parte dall'assunto che i benchmark correnti per i modelli di linguaggio non misurino la capacità di ragionamento ma solo quella di comprensione del linguaggio.

Interessante il concetto di reasoning gap inteso come la differenza fra il 100% di memorizzazione e la reale capacità di ragionamento. Questo gap è tra il 50 e l'80% tra i modelli SOTA.

Links

Paper