Dataset di Preferenze: differenze tra le versioni
Nessun oggetto della modifica |
Nessun oggetto della modifica |
||
Riga 1: | Riga 1: | ||
Nome: [[Nome::Dataset di Preferenze]] | |||
Nome inglese: [[NomeInglese::Preferences Dataset]] | |||
Dataset utilizzato per il tuning del [[Modello di Reward]] nel contesto del [[Reinforcement Learning From Human Feedback (RLHF)]]. Per i migliori risultati servono almeno 500 campioni. | Dataset utilizzato per il tuning del [[Modello di Reward]] nel contesto del [[Reinforcement Learning From Human Feedback (RLHF)]]. Per i migliori risultati servono almeno 500 campioni. | ||
[[Category:concetto]] | [[Category:concetto]] | ||
__SHOWFACTBOX__ |
Versione delle 10:30, 11 apr 2024
Nome: Dataset di Preferenze
Nome inglese: Preferences Dataset
Dataset utilizzato per il tuning del Modello di Reward nel contesto del Reinforcement Learning From Human Feedback (RLHF). Per i migliori risultati servono almeno 500 campioni.