Deep Reinforcement Learning from Human Preferences

Deep Reinforcement Learning from Human Preferences
Data	2023
Autori	Paul F Christiano, Jan Leike, Tom B Brown, Miljan Martic, Shane Legg, Dario Amodei
URL	https://www.semanticscholar.org/paper/5bbb6f9a8204eb13070b6f033e61c84ef8ee68dd
Topic	Metodo alternativo che utilizza le preferenze umane come guida per l'apprendimento
Citazioni	2215

Questo articolo esplora l'utilizzo delle preferenze umane come metodo per addestrare sistemi di apprendimento per rinforzo (RL) complessi. Invece di affidarsi a una funzione di ricompensa esplicita, il sistema impara dalle preferenze umane espresse tra coppie di segmenti di traiettoria. Questo approccio si è dimostrato efficace in attività complesse come i giochi Atari e la locomozione di robot simulati, richiedendo feedback umano solo su una piccola percentuale di interazioni dell'agente con l'ambiente. La flessibilità di questo metodo è ulteriormente dimostrata dalla sua capacità di addestrare comportamenti nuovi e complessi con circa un'ora di supervisione umana. I risultati suggeriscono che l'apprendimento dalle preferenze umane può essere una valida alternativa per l'addestramento di sistemi di RL in scenari del mondo reale in cui la definizione di una funzione di ricompensa esplicita è difficile o costosa.