Dataset di Preferenze: differenze tra le versioni

Versione delle 22:34, 16 mar 2024

Dataset utilizzato per il tuning del Modello di Reward nel contesto del Reinforcement Learning From Human Feedback (RLHF). Per i migliori risultati servono almeno 500 campioni.

Versione delle 10:14, 15 mar 2024 (Visualizza sorgente) Michela (discussione \| contributi) Nessun oggetto della modifica ← Differenza precedente		Versione delle 22:34, 16 mar 2024 (Visualizza sorgente) Alesaccoia (discussione \| contributi) Nessun oggetto della modifica Differenza successiva →
Riga 1:		Riga 1:
	Dataset utilizzato per il tuning del [[Modello di Reward]] nel contesto del [[Reinforcement Learning From Human Feedback (RLHF)]]. Per i migliori risultati servono almeno 500 campioni.		Dataset utilizzato per il tuning del [[Modello di Reward]] nel contesto del [[Reinforcement Learning From Human Feedback (RLHF)]]. Per i migliori risultati servono almeno 500 campioni.

	[[Category:~~Benchmark~~]]		[[Category:concetto]]