Deep Reinforcement Learning from Human Preferences - Cronologia

Mindmakerbot il 10:41, 17 ago 2024

2024-08-17T10:41:41Z

← Versione meno recente		Versione delle 10:41, 17 ago 2024
Riga 1:		Riga 1:
	~~Titolo~~: ~~[[Titolo::Deep Reinforcement Learning from Human Preferences]]~~		{{template pubblicazione
			\|data=2023
			\|autori=Paul F Christiano, Jan Leike, Tom B Brown, Miljan Martic, Shane Legg, Dario Amodei
			\|URL=https://www.semanticscholar.org/paper/5bbb6f9a8204eb13070b6f033e61c84ef8ee68dd
			\|topic=Metodo alternativo che utilizza le preferenze umane come guida per l'apprendimento
			\|citazioni=2215
			}}

	~~Anno~~ di ~~pubblicazione: [[AnnoDiPubblicazione::2023]]~~		Questo articolo esplora l'utilizzo delle preferenze umane come metodo per addestrare sistemi di apprendimento per rinforzo (RL) complessi. Invece di affidarsi a una funzione di ricompensa esplicita, il sistema impara dalle preferenze umane espresse tra coppie di segmenti di traiettoria. Questo approccio si è dimostrato efficace in attività complesse come i giochi Atari e la locomozione di robot simulati, richiedendo feedback umano solo su una piccola percentuale di interazioni dell'agente con l'ambiente. La flessibilità di questo metodo è ulteriormente dimostrata dalla sua capacità di addestrare comportamenti nuovi e complessi con circa un'ora di supervisione umana. I risultati suggeriscono che l'apprendimento dalle preferenze umane può essere una valida alternativa per l'addestramento di sistemi di RL in scenari del mondo reale in cui la definizione di una funzione di ricompensa esplicita è difficile o costosa.

	~~Autori: [[Autori::Paul F Christiano]]; [[Autori::Jan Leike]]; [[Autori::Tom B Brown]]; [[Autori::Miljan Martic]]; [[Autori::Shane Legg]]; [[Autori::Dario Amodei]]~~

	~~URL: [[URL::https://arxiv~~.~~org/pdf/1706~~.~~03741~~.~~pdf]]~~

	~~Topic: [[Topic::Metodo alternativo~~ che ~~utilizza le~~ preferenze umane ~~come guida~~ per l'~~apprendimento]]~~

	~~[[Category:pubblicazione]]~~

	~~__SHOWFACTBOX__~~

Sara Maserati il 10:49, 9 apr 2024

2024-04-09T10:49:51Z

← Versione meno recente		Versione delle 10:49, 9 apr 2024
Riga 8:		Riga 8:

	Topic: [[Topic::Metodo alternativo che utilizza le preferenze umane come guida per l'apprendimento]]		Topic: [[Topic::Metodo alternativo che utilizza le preferenze umane come guida per l'apprendimento]]

			[[Category:pubblicazione]]

	__SHOWFACTBOX__		__SHOWFACTBOX__

Sara Maserati: Creata pagina con "Titolo: Titolo::Deep Reinforcement Learning from Human Preferences Anno di pubblicazione: AnnoDiPubblicazione::2023 Autori: Autori::Paul F Christiano; Autori::Jan Leike; Autori::Tom B Brown; Autori::Miljan Martic; Autori::Shane Legg; Autori::Dario Amodei URL: URL::https://arxiv.org/pdf/1706.03741.pdf Topic: Topic::Metodo alternativo che utilizza le preferenze umane come guida per l'apprendimento SHOWFACTBOX"

2024-04-09T09:53:44Z

Creata pagina con "Titolo: Titolo::Deep Reinforcement Learning from Human Preferences Anno di pubblicazione: AnnoDiPubblicazione::2023 Autori: Autori::Paul F Christiano; Autori::Jan Leike; Autori::Tom B Brown; Autori::Miljan Martic; Autori::Shane Legg; Autori::Dario Amodei URL: URL::https://arxiv.org/pdf/1706.03741.pdf Topic: Topic::Metodo alternativo che utilizza le preferenze umane come guida per l'apprendimento __SHOWFACTBOX__"

Nuova pagina

Titolo: [[Titolo::Deep Reinforcement Learning from Human Preferences]]

Anno di pubblicazione: [[AnnoDiPubblicazione::2023]]

Autori: [[Autori::Paul F Christiano]]; [[Autori::Jan Leike]]; [[Autori::Tom B Brown]]; [[Autori::Miljan Martic]]; [[Autori::Shane Legg]]; [[Autori::Dario Amodei]]

URL: [[URL::https://arxiv.org/pdf/1706.03741.pdf]]

Topic: [[Topic::Metodo alternativo che utilizza le preferenze umane come guida per l'apprendimento]]

__SHOWFACTBOX__