Dataset di Preferenze: differenze tra le versioni
Nessun oggetto della modifica |
Nessun oggetto della modifica |
||
Riga 4: | Riga 4: | ||
Dataset utilizzato per il tuning del [[Modello di Reward]] nel contesto del [[Reinforcement Learning From Human Feedback (RLHF)]]. Per i migliori risultati servono almeno 500 campioni. | Dataset utilizzato per il tuning del [[Modello di Reward]] nel contesto del [[Reinforcement Learning From Human Feedback (RLHF)]]. Per i migliori risultati servono almeno 500 campioni. | ||
{{#seo: | |||
|title=Preferences Dataset | |||
|title_mode=append | |||
|keywords="dataset, preferenze, modello di reward, reinforcement learning, apprendimento automatico, intelligenza artificiale, RLHF, human feedback" | |||
|description="Un Preferences Dataset è un insieme di dati utilizzato per ottimizzare il modello di reward nel contesto del Reinforcement Learning From Human Feedback (RLHF). Per ottenere risultati ottimali, sono necessari almeno 500 campioni." | |||
}} |
Versione delle 13:29, 17 ago 2024
Dataset di Preferenze | |
---|---|
Nome Inglese | Preferences Dataset |
Sigla |
Dataset utilizzato per il tuning del Modello di Reward nel contesto del Reinforcement Learning From Human Feedback (RLHF). Per i migliori risultati servono almeno 500 campioni.