Dataset di Preferenze: differenze tra le versioni

Da Wiki AI.
Nessun oggetto della modifica
Nessun oggetto della modifica
 
Riga 8: Riga 8:
             |title=Preferences Dataset
             |title=Preferences Dataset
             |title_mode=append
             |title_mode=append
             |keywords="dataset, preferenze, modello di reward, reinforcement learning, apprendimento automatico, intelligenza artificiale, RLHF, human feedback"
             |keywords=dataset, preferenze, modello di reward, reinforcement learning, apprendimento automatico, intelligenza artificiale, RLHF, human feedback
             |description="Un Preferences Dataset è un insieme di dati utilizzato per ottimizzare il modello di reward nel contesto del Reinforcement Learning From Human Feedback (RLHF). Per ottenere risultati ottimali, sono necessari almeno 500 campioni."
             |description=Un Preferences Dataset è un insieme di dati utilizzato per ottimizzare il modello di reward nel contesto del Reinforcement Learning From Human Feedback (RLHF). Per ottenere risultati ottimali, sono necessari almeno 500 campioni.
              
              
             }}
             }}

Versione attuale delle 13:46, 17 ago 2024

Dataset di Preferenze
Nome Inglese Preferences Dataset
Sigla


Dataset utilizzato per il tuning del Modello di Reward nel contesto del Reinforcement Learning From Human Feedback (RLHF). Per i migliori risultati servono almeno 500 campioni.