Dataset di Preferenze: differenze tra le versioni

Da Wiki AI.
Nessun oggetto della modifica
Nessun oggetto della modifica
Riga 1: Riga 1:
Nome: [[Nome::Dataset di Preferenze]]
{{Template concetto
 
|NomeInglese=Preferences Dataset
Nome inglese: [[NomeInglese::Preferences Dataset]]
}}
 
 


Dataset utilizzato per il tuning del [[Modello di Reward]] nel contesto del [[Reinforcement Learning From Human Feedback (RLHF)]]. Per i migliori risultati servono almeno 500 campioni.
Dataset utilizzato per il tuning del [[Modello di Reward]] nel contesto del [[Reinforcement Learning From Human Feedback (RLHF)]]. Per i migliori risultati servono almeno 500 campioni.
[[Category:concetto]]
__SHOWFACTBOX__

Versione delle 11:16, 17 ago 2024

Dataset di Preferenze
Nome Inglese Preferences Dataset
Sigla


Dataset utilizzato per il tuning del Modello di Reward nel contesto del Reinforcement Learning From Human Feedback (RLHF). Per i migliori risultati servono almeno 500 campioni.