Dataset di Preferenze: differenze tra le versioni
Nessun oggetto della modifica |
Nessun oggetto della modifica |
||
(3 versioni intermedie di 2 utenti non mostrate) | |||
Riga 1: | Riga 1: | ||
{{Template concetto | |||
|NomeInglese=Preferences Dataset | |||
}} | |||
Dataset utilizzato per il tuning del [[Modello di Reward]] nel contesto del [[Reinforcement Learning From Human Feedback (RLHF)]]. Per i migliori risultati servono almeno 500 campioni. | Dataset utilizzato per il tuning del [[Modello di Reward]] nel contesto del [[Reinforcement Learning From Human Feedback (RLHF)]]. Per i migliori risultati servono almeno 500 campioni. | ||
{{#seo: | |||
|title=Preferences Dataset | |||
|title_mode=append | |||
|keywords=dataset, preferenze, modello di reward, reinforcement learning, apprendimento automatico, intelligenza artificiale, RLHF, human feedback | |||
|description=Un Preferences Dataset è un insieme di dati utilizzato per ottimizzare il modello di reward nel contesto del Reinforcement Learning From Human Feedback (RLHF). Per ottenere risultati ottimali, sono necessari almeno 500 campioni. | |||
}} |
Versione attuale delle 13:46, 17 ago 2024
Dataset di Preferenze | |
---|---|
Nome Inglese | Preferences Dataset |
Sigla |
Dataset utilizzato per il tuning del Modello di Reward nel contesto del Reinforcement Learning From Human Feedback (RLHF). Per i migliori risultati servono almeno 500 campioni.