Contamination Testing: differenze tra le versioni
Nessun oggetto della modifica |
|||
Riga 4: | Riga 4: | ||
* [[Functional Benchmarks for Robust Evaluation of Reasoning Performance, and the Reasoning Gap (29/02/2024)]] | * [[Functional Benchmarks for Robust Evaluation of Reasoning Performance, and the Reasoning Gap (29/02/2024)]] | ||
[[Category: | [[Category:concetto]] |
Versione delle 16:31, 14 mar 2024
Test che permettono di determinare se e quanto un determinato dataset che viene utilizzato per il benchmarking di un modello di linguaggio sia stato "visto" dal modello durante il training, inficiando in questo modo i risultati del benchmark.