Dataset di Preferenze: differenze tra le versioni

Da Wiki AI.
Nessun oggetto della modifica
Nessun oggetto della modifica
 
(3 versioni intermedie di 2 utenti non mostrate)
Riga 1: Riga 1:
{{Template concetto
|NomeInglese=Preferences Dataset
}}
Dataset utilizzato per il tuning del [[Modello di Reward]] nel contesto del [[Reinforcement Learning From Human Feedback (RLHF)]]. Per i migliori risultati servono almeno 500 campioni.
Dataset utilizzato per il tuning del [[Modello di Reward]] nel contesto del [[Reinforcement Learning From Human Feedback (RLHF)]]. Per i migliori risultati servono almeno 500 campioni.


[[Category:concetto]]
{{#seo:
            |title=Preferences Dataset
            |title_mode=append
            |keywords=dataset, preferenze, modello di reward, reinforcement learning, apprendimento automatico, intelligenza artificiale, RLHF, human feedback
            |description=Un Preferences Dataset è un insieme di dati utilizzato per ottimizzare il modello di reward nel contesto del Reinforcement Learning From Human Feedback (RLHF). Per ottenere risultati ottimali, sono necessari almeno 500 campioni.
           
            }}

Versione attuale delle 13:46, 17 ago 2024

Dataset di Preferenze
Nome Inglese Preferences Dataset
Sigla


Dataset utilizzato per il tuning del Modello di Reward nel contesto del Reinforcement Learning From Human Feedback (RLHF). Per i migliori risultati servono almeno 500 campioni.