Dataset di Preferenze: differenze tra le versioni

Da Wiki AI.
Nessun oggetto della modifica
Nessun oggetto della modifica
Riga 1: Riga 1:
Dataset utilizzato per il tuning del [[Modello di Reward]] nel contesto del [[Reinforcement Learning From Human Feedback (RLHF)]]. Per i migliori risultati servono almeno 500 campioni.
Dataset utilizzato per il tuning del [[Modello di Reward]] nel contesto del [[Reinforcement Learning From Human Feedback (RLHF)]]. Per i migliori risultati servono almeno 500 campioni.


[[Category:Benchmark]]
[[Category:concetto]]

Versione delle 22:34, 16 mar 2024

Dataset utilizzato per il tuning del Modello di Reward nel contesto del Reinforcement Learning From Human Feedback (RLHF). Per i migliori risultati servono almeno 500 campioni.