Dataset di Preferenze: differenze tra le versioni

Versione delle 16:22, 14 mar 2024

Dataset utilizzato per il tuning del Modello di Reward nel contesto del Reinforcement Learning From Human Feedback (RLHF). Per i migliori risultati servono almeno 500 campioni.

Versione delle 15:41, 4 mar 2024 (Visualizza sorgente) Alesaccoia (discussione \| contributi) (Creata pagina con "Dataset utilizzato per il tuning del Modello di Reward nel contesto del Reinforcement Learning From Human Feedback (RLHF). Per i migliori risultati servono almeno 500 campioni.")		Versione delle 16:22, 14 mar 2024 (Visualizza sorgente) Michela (discussione \| contributi) Nessun oggetto della modifica Differenza successiva →
Riga 1:		Riga 1:
	Dataset utilizzato per il tuning del [[Modello di Reward]] nel contesto del [[Reinforcement Learning From Human Feedback (RLHF)]]. Per i migliori risultati servono almeno 500 campioni.		Dataset utilizzato per il tuning del [[Modello di Reward]] nel contesto del [[Reinforcement Learning From Human Feedback (RLHF)]]. Per i migliori risultati servono almeno 500 campioni.

			[[Category:Dataset]]