Dataset di Preferenze

Da Wiki AI.
Versione del 4 mar 2024 alle 15:41 di Alesaccoia (discussione | contributi) (Creata pagina con "Dataset utilizzato per il tuning del Modello di Reward nel contesto del Reinforcement Learning From Human Feedback (RLHF). Per i migliori risultati servono almeno 500 campioni.")
(diff) ← Versione meno recente | Versione attuale (diff) | Versione più recente → (diff)

Dataset utilizzato per il tuning del Modello di Reward nel contesto del Reinforcement Learning From Human Feedback (RLHF). Per i migliori risultati servono almeno 500 campioni.