Contamination Testing: differenze tra le versioni

Versione delle 16:31, 14 mar 2024

Test che permettono di determinare se e quanto un determinato dataset che viene utilizzato per il benchmarking di un modello di linguaggio sia stato "visto" dal modello durante il training, inficiando in questo modo i risultati del benchmark.

Citato in

Functional Benchmarks for Robust Evaluation of Reasoning Performance, and the Reasoning Gap (29/02/2024)

Versione delle 10:22, 8 mar 2024 (Visualizza sorgente) Michela (discussione \| contributi) Nessun oggetto della modifica ← Differenza precedente		Versione delle 16:31, 14 mar 2024 (Visualizza sorgente) Michela (discussione \| contributi) (→‎Citato in) Differenza successiva →
Riga 4:		Riga 4:
	* [[Functional Benchmarks for Robust Evaluation of Reasoning Performance, and the Reasoning Gap (29/02/2024)]]		* [[Functional Benchmarks for Robust Evaluation of Reasoning Performance, and the Reasoning Gap (29/02/2024)]]

	[[Category:~~concetti~~]]		[[Category:concetto]]