Contamination Testing: differenze tra le versioni
(Creata pagina con "Test che permettono di determinare se e quanto un determinato dataset che viene utilizzato per il benchmarking di un modello di linguaggio sia stato "visto" dal modello durante il training, inficiando in questo modo i risultati del benchmark.") |
Nessun oggetto della modifica |
||
Riga 1: | Riga 1: | ||
Test che permettono di determinare se e quanto un determinato dataset che viene utilizzato per il benchmarking di un modello di linguaggio sia stato "visto" dal modello durante il training, inficiando in questo modo i risultati del benchmark. | Test che permettono di determinare se e quanto un determinato dataset che viene utilizzato per il benchmarking di un modello di linguaggio sia stato "visto" dal modello durante il training, inficiando in questo modo i risultati del benchmark. | ||
=== Citato in === | |||
* [[Functional Benchmarks for Robust Evaluation of Reasoning Performance, and the Reasoning Gap (29/02/2024)]] |
Versione delle 13:14, 4 mar 2024
Test che permettono di determinare se e quanto un determinato dataset che viene utilizzato per il benchmarking di un modello di linguaggio sia stato "visto" dal modello durante il training, inficiando in questo modo i risultati del benchmark.