Deep Reinforcement Learning from Human Preferences: differenze tra le versioni
(Creata pagina con "Titolo: Titolo::Deep Reinforcement Learning from Human Preferences Anno di pubblicazione: AnnoDiPubblicazione::2023 Autori: Autori::Paul F Christiano; Autori::Jan Leike; Autori::Tom B Brown; Autori::Miljan Martic; Autori::Shane Legg; Autori::Dario Amodei URL: URL::https://arxiv.org/pdf/1706.03741.pdf Topic: Topic::Metodo alternativo che utilizza le preferenze umane come guida per l'apprendimento __SHOWFACTBOX__") |
Nessun oggetto della modifica |
||
| (Una versione intermedia di un altro utente non mostrate) | |||
| Riga 1: | Riga 1: | ||
{{template pubblicazione | |||
|data=2023 | |||
|autori=Paul F Christiano, Jan Leike, Tom B Brown, Miljan Martic, Shane Legg, Dario Amodei | |||
|URL=https://www.semanticscholar.org/paper/5bbb6f9a8204eb13070b6f033e61c84ef8ee68dd | |||
|topic=Metodo alternativo che utilizza le preferenze umane come guida per l'apprendimento | |||
|citazioni=2215 | |||
}} | |||
Questo articolo esplora l'utilizzo delle preferenze umane come metodo per addestrare sistemi di apprendimento per rinforzo (RL) complessi. Invece di affidarsi a una funzione di ricompensa esplicita, il sistema impara dalle preferenze umane espresse tra coppie di segmenti di traiettoria. Questo approccio si è dimostrato efficace in attività complesse come i giochi Atari e la locomozione di robot simulati, richiedendo feedback umano solo su una piccola percentuale di interazioni dell'agente con l'ambiente. La flessibilità di questo metodo è ulteriormente dimostrata dalla sua capacità di addestrare comportamenti nuovi e complessi con circa un'ora di supervisione umana. I risultati suggeriscono che l'apprendimento dalle preferenze umane può essere una valida alternativa per l'addestramento di sistemi di RL in scenari del mondo reale in cui la definizione di una funzione di ricompensa esplicita è difficile o costosa. | |||
Versione attuale delle 10:41, 17 ago 2024
| Deep Reinforcement Learning from Human Preferences | |
|---|---|
| Data | 2023 |
| Autori | Paul F Christiano, Jan Leike, Tom B Brown, Miljan Martic, Shane Legg, Dario Amodei |
| URL | https://www.semanticscholar.org/paper/5bbb6f9a8204eb13070b6f033e61c84ef8ee68dd |
| Topic | Metodo alternativo che utilizza le preferenze umane come guida per l'apprendimento |
| Citazioni | 2215 |
Questo articolo esplora l'utilizzo delle preferenze umane come metodo per addestrare sistemi di apprendimento per rinforzo (RL) complessi. Invece di affidarsi a una funzione di ricompensa esplicita, il sistema impara dalle preferenze umane espresse tra coppie di segmenti di traiettoria. Questo approccio si è dimostrato efficace in attività complesse come i giochi Atari e la locomozione di robot simulati, richiedendo feedback umano solo su una piccola percentuale di interazioni dell'agente con l'ambiente. La flessibilità di questo metodo è ulteriormente dimostrata dalla sua capacità di addestrare comportamenti nuovi e complessi con circa un'ora di supervisione umana. I risultati suggeriscono che l'apprendimento dalle preferenze umane può essere una valida alternativa per l'addestramento di sistemi di RL in scenari del mondo reale in cui la definizione di una funzione di ricompensa esplicita è difficile o costosa.