Dataset di Preferenze: differenze tra le versioni

Versione delle 10:30, 11 apr 2024

Nome: Dataset di Preferenze

Nome inglese: Preferences Dataset

Dataset utilizzato per il tuning del Modello di Reward nel contesto del Reinforcement Learning From Human Feedback (RLHF). Per i migliori risultati servono almeno 500 campioni.

@@ Riga 1: / Riga 1: @@
+Nome: [[Nome::Dataset di Preferenze]]
+Nome inglese: [[NomeInglese::Preferences Dataset]]
 Dataset utilizzato per il tuning del [[Modello di Reward]] nel contesto del [[Reinforcement Learning From Human Feedback (RLHF)]]. Per i migliori risultati servono almeno 500 campioni.
 [[Category:concetto]]
+__SHOWFACTBOX__