Dataset di Preferenze: differenze tra le versioni

Versione attuale delle 13:46, 17 ago 2024

Dataset di Preferenze
Nome Inglese	Preferences Dataset
Sigla

Dataset utilizzato per il tuning del Modello di Reward nel contesto del Reinforcement Learning From Human Feedback (RLHF). Per i migliori risultati servono almeno 500 campioni.

@@ Riga 8: / Riga 8: @@
              |title=Preferences Dataset
              |title_mode=append
-             |keywords="dataset, preferenze, modello di reward, reinforcement learning, apprendimento automatico, intelligenza artificiale, RLHF, human feedback"
+             |keywords=dataset, preferenze, modello di reward, reinforcement learning, apprendimento automatico, intelligenza artificiale, RLHF, human feedback
-             |description="Un Preferences Dataset è un insieme di dati utilizzato per ottimizzare il modello di reward nel contesto del Reinforcement Learning From Human Feedback (RLHF). Per ottenere risultati ottimali, sono necessari almeno 500 campioni."
+             |description=Un Preferences Dataset è un insieme di dati utilizzato per ottimizzare il modello di reward nel contesto del Reinforcement Learning From Human Feedback (RLHF). Per ottenere risultati ottimali, sono necessari almeno 500 campioni.
              }}