Dataset di Preferenze
| Dataset di Preferenze | |
|---|---|
| Nome Inglese | Preferences Dataset |
| Sigla | |
Dataset utilizzato per il tuning del Modello di Reward nel contesto del Reinforcement Learning From Human Feedback (RLHF). Per i migliori risultati servono almeno 500 campioni.