Dataset di Preferenze: differenze tra le versioni

Versione delle 11:16, 17 ago 2024

Dataset di Preferenze
Nome Inglese	Preferences Dataset
Sigla

Dataset utilizzato per il tuning del Modello di Reward nel contesto del Reinforcement Learning From Human Feedback (RLHF). Per i migliori risultati servono almeno 500 campioni.

@@ Riga 1: / Riga 1: @@
-Nome: [[Nome::Dataset di Preferenze]]
+{{Template concetto
+|NomeInglese=Preferences Dataset
-Nome inglese: [[NomeInglese::Preferences Dataset]]
+}}
 Dataset utilizzato per il tuning del [[Modello di Reward]] nel contesto del [[Reinforcement Learning From Human Feedback (RLHF)]]. Per i migliori risultati servono almeno 500 campioni.
-[[Category:concetto]]
-__SHOWFACTBOX__