Dataset di Preferenze

Da Wiki AI.

Nome: Dataset di Preferenze

Nome inglese: Preferences Dataset


Dataset utilizzato per il tuning del Modello di Reward nel contesto del Reinforcement Learning From Human Feedback (RLHF). Per i migliori risultati servono almeno 500 campioni.