Dataset di Preferenze: differenze tra le versioni

Versione delle 10:14, 15 mar 2024

Dataset utilizzato per il tuning del Modello di Reward nel contesto del Reinforcement Learning From Human Feedback (RLHF). Per i migliori risultati servono almeno 500 campioni.

Versione delle 16:22, 14 mar 2024 (Visualizza sorgente) Michela (discussione \| contributi) Nessun oggetto della modifica ← Differenza precedente		Versione delle 10:14, 15 mar 2024 (Visualizza sorgente) Michela (discussione \| contributi) Nessun oggetto della modifica Differenza successiva →
Riga 1:		Riga 1:
	Dataset utilizzato per il tuning del [[Modello di Reward]] nel contesto del [[Reinforcement Learning From Human Feedback (RLHF)]]. Per i migliori risultati servono almeno 500 campioni.		Dataset utilizzato per il tuning del [[Modello di Reward]] nel contesto del [[Reinforcement Learning From Human Feedback (RLHF)]]. Per i migliori risultati servono almeno 500 campioni.

	[[Category:~~Dataset~~]]		[[Category:Benchmark]]