Deep Reinforcement Learning from Human Preferences: differenze tra le versioni

Da Wiki AI.
Nessun oggetto della modifica
Nessun oggetto della modifica
 
Riga 1: Riga 1:
Titolo: [[Titolo::Deep Reinforcement Learning from Human Preferences]]
{{template pubblicazione
|data=2023
|autori=Paul F Christiano, Jan Leike, Tom B Brown, Miljan Martic, Shane Legg, Dario Amodei
|URL=https://www.semanticscholar.org/paper/5bbb6f9a8204eb13070b6f033e61c84ef8ee68dd
|topic=Metodo alternativo che utilizza le preferenze umane come guida per l'apprendimento
|citazioni=2215
}}


Anno di pubblicazione: [[AnnoDiPubblicazione::2023]]
Questo articolo esplora l'utilizzo delle preferenze umane come metodo per addestrare sistemi di apprendimento per rinforzo (RL) complessi. Invece di affidarsi a una funzione di ricompensa esplicita, il sistema impara dalle preferenze umane espresse tra coppie di segmenti di traiettoria. Questo approccio si è dimostrato efficace in attività complesse come i giochi Atari e la locomozione di robot simulati, richiedendo feedback umano solo su una piccola percentuale di interazioni dell'agente con l'ambiente. La flessibilità di questo metodo è ulteriormente dimostrata dalla sua capacità di addestrare comportamenti nuovi e complessi con circa un'ora di supervisione umana. I risultati suggeriscono che l'apprendimento dalle preferenze umane può essere una valida alternativa per l'addestramento di sistemi di RL in scenari del mondo reale in cui la definizione di una funzione di ricompensa esplicita è difficile o costosa.
 
Autori: [[Autori::Paul F Christiano]]; [[Autori::Jan Leike]]; [[Autori::Tom B Brown]]; [[Autori::Miljan Martic]]; [[Autori::Shane Legg]]; [[Autori::Dario Amodei]]
 
URL: [[URL::https://arxiv.org/pdf/1706.03741.pdf]]
 
Topic: [[Topic::Metodo alternativo che utilizza le preferenze umane come guida per l'apprendimento]]
 
[[Category:pubblicazione]]
 
__SHOWFACTBOX__

Versione attuale delle 10:41, 17 ago 2024

Deep Reinforcement Learning from Human Preferences
Data 2023
Autori Paul F Christiano, Jan Leike, Tom B Brown, Miljan Martic, Shane Legg, Dario Amodei
URL https://www.semanticscholar.org/paper/5bbb6f9a8204eb13070b6f033e61c84ef8ee68dd
Topic Metodo alternativo che utilizza le preferenze umane come guida per l'apprendimento
Citazioni 2215


Questo articolo esplora l'utilizzo delle preferenze umane come metodo per addestrare sistemi di apprendimento per rinforzo (RL) complessi. Invece di affidarsi a una funzione di ricompensa esplicita, il sistema impara dalle preferenze umane espresse tra coppie di segmenti di traiettoria. Questo approccio si è dimostrato efficace in attività complesse come i giochi Atari e la locomozione di robot simulati, richiedendo feedback umano solo su una piccola percentuale di interazioni dell'agente con l'ambiente. La flessibilità di questo metodo è ulteriormente dimostrata dalla sua capacità di addestrare comportamenti nuovi e complessi con circa un'ora di supervisione umana. I risultati suggeriscono che l'apprendimento dalle preferenze umane può essere una valida alternativa per l'addestramento di sistemi di RL in scenari del mondo reale in cui la definizione di una funzione di ricompensa esplicita è difficile o costosa.