Contamination Testing: differenze tra le versioni

Versione delle 13:14, 4 mar 2024

Test che permettono di determinare se e quanto un determinato dataset che viene utilizzato per il benchmarking di un modello di linguaggio sia stato "visto" dal modello durante il training, inficiando in questo modo i risultati del benchmark.

Citato in

Functional Benchmarks for Robust Evaluation of Reasoning Performance, and the Reasoning Gap (29/02/2024)

@@ Riga 1: / Riga 1: @@
 Test che permettono di determinare se e quanto un determinato dataset che viene utilizzato per il benchmarking di un modello di linguaggio sia stato "visto" dal modello durante il training, inficiando in questo modo i risultati del benchmark.
+=== Citato in ===
+* [[Functional Benchmarks for Robust Evaluation of Reasoning Performance, and the Reasoning Gap (29/02/2024)]]