Dataset di Preferenze: differenze tra le versioni
Nessun oggetto della modifica |
Nessun oggetto della modifica |
||
Riga 8: | Riga 8: | ||
|title=Preferences Dataset | |title=Preferences Dataset | ||
|title_mode=append | |title_mode=append | ||
|keywords= | |keywords=dataset, preferenze, modello di reward, reinforcement learning, apprendimento automatico, intelligenza artificiale, RLHF, human feedback | ||
|description= | |description=Un Preferences Dataset è un insieme di dati utilizzato per ottimizzare il modello di reward nel contesto del Reinforcement Learning From Human Feedback (RLHF). Per ottenere risultati ottimali, sono necessari almeno 500 campioni. | ||
}} | }} |
Versione attuale delle 13:46, 17 ago 2024
Dataset di Preferenze | |
---|---|
Nome Inglese | Preferences Dataset |
Sigla |
Dataset utilizzato per il tuning del Modello di Reward nel contesto del Reinforcement Learning From Human Feedback (RLHF). Per i migliori risultati servono almeno 500 campioni.