Functional Benchmarks for Robust Evaluation of Reasoning Performance, and the Reasoning Gap
| Functional Benchmarks for Robust Evaluation of Reasoning Performance, and the Reasoning Gap | |
|---|---|
| Data | 2024 |
| Autori | Saurabh Srivastava, B. AnnaroseM, V. AntoP, Shashank Menon, Ajay Sukumar, T. AdwaithSamod, Alan Philipose, Stevin Prince, Sooraj Thomas |
| URL | https://www.semanticscholar.org/paper/3c585441b4607b34f8bf4e352ed6e36753fe21ce |
| Topic | Reasoning |
| Citazioni | 18 |
Parte dall'assunto che i benchmark correnti per i modelli di linguaggio non misurino la capacità di ragionamento ma solo quella di comprensione del linguaggio.
Interessante il concetto di reasoning gap inteso come la differenza fra il 100% di memorizzazione e la reale capacità di ragionamento. Questo gap è tra il 50 e l'80% tra i modelli SOTA.
Links