Dataset di Preferenze: differenze tra le versioni
Nessun oggetto della modifica |
Nessun oggetto della modifica |
||
| Riga 8: | Riga 8: | ||
|title=Preferences Dataset | |title=Preferences Dataset | ||
|title_mode=append | |title_mode=append | ||
|keywords= | |keywords=dataset, preferenze, modello di reward, reinforcement learning, apprendimento automatico, intelligenza artificiale, RLHF, human feedback | ||
|description= | |description=Un Preferences Dataset è un insieme di dati utilizzato per ottimizzare il modello di reward nel contesto del Reinforcement Learning From Human Feedback (RLHF). Per ottenere risultati ottimali, sono necessari almeno 500 campioni. | ||
}} | }} | ||
Versione attuale delle 13:46, 17 ago 2024
| Dataset di Preferenze | |
|---|---|
| Nome Inglese | Preferences Dataset |
| Sigla | |
Dataset utilizzato per il tuning del Modello di Reward nel contesto del Reinforcement Learning From Human Feedback (RLHF). Per i migliori risultati servono almeno 500 campioni.