Deep Reinforcement Learning from Human Preferences: differenze tra le versioni
(Creata pagina con "Titolo: Titolo::Deep Reinforcement Learning from Human Preferences Anno di pubblicazione: AnnoDiPubblicazione::2023 Autori: Autori::Paul F Christiano; Autori::Jan Leike; Autori::Tom B Brown; Autori::Miljan Martic; Autori::Shane Legg; Autori::Dario Amodei URL: URL::https://arxiv.org/pdf/1706.03741.pdf Topic: Topic::Metodo alternativo che utilizza le preferenze umane come guida per l'apprendimento __SHOWFACTBOX__") |
Nessun oggetto della modifica |
||
| Riga 8: | Riga 8: | ||
Topic: [[Topic::Metodo alternativo che utilizza le preferenze umane come guida per l'apprendimento]] | Topic: [[Topic::Metodo alternativo che utilizza le preferenze umane come guida per l'apprendimento]] | ||
[[Category:pubblicazione]] | |||
__SHOWFACTBOX__ | __SHOWFACTBOX__ | ||
Versione delle 10:49, 9 apr 2024
Titolo: Deep Reinforcement Learning from Human Preferences
Anno di pubblicazione: 2023
Autori: Paul F Christiano; Jan Leike; Tom B Brown; Miljan Martic; Shane Legg; Dario Amodei
URL: https://arxiv.org/pdf/1706.03741.pdf
Topic: Metodo alternativo che utilizza le preferenze umane come guida per l'apprendimento