Contamination Testing: differenze tra le versioni

Da Wiki AI.
Nessun oggetto della modifica
Nessun oggetto della modifica
Riga 3: Riga 3:
=== Citato in ===
=== Citato in ===
* [[Functional Benchmarks for Robust Evaluation of Reasoning Performance, and the Reasoning Gap (29/02/2024)]]
* [[Functional Benchmarks for Robust Evaluation of Reasoning Performance, and the Reasoning Gap (29/02/2024)]]
[[Category:concetti]]

Versione delle 10:22, 8 mar 2024

Test che permettono di determinare se e quanto un determinato dataset che viene utilizzato per il benchmarking di un modello di linguaggio sia stato "visto" dal modello durante il training, inficiando in questo modo i risultati del benchmark.

Citato in