Apprendimento per rinforzo da feedback umano - Cronologia

Alesaccoia il 14:03, 7 feb 2025

2025-02-07T14:03:56Z

← Versione meno recente		Versione delle 14:03, 7 feb 2025
Riga 27:		Riga 27:
	# Un annotatore umano valuta gli output generati, indicando la sua preferenza. Questo passaggio è cruciale per garantire che il modello sia allineato con i valori e le preferenze desiderati.		# Un annotatore umano valuta gli output generati, indicando la sua preferenza. Questo passaggio è cruciale per garantire che il modello sia allineato con i valori e le preferenze desiderati.
	# Si allena un ''Modello di Reward'' utilizzando i dati raccolti, configurandolo per minimizzare la funzione di perdita e predire accuratamente le preferenze umane.		# Si allena un ''Modello di Reward'' utilizzando i dati raccolti, configurandolo per minimizzare la funzione di perdita e predire accuratamente le preferenze umane.
	# Il fine-tuning del modello di linguaggio avviene attraverso un loop di RL, impiegando la tecnica [[Proximal Policy Optimization (PPO)]] per ottimizzare le scelte del modello in base al feedback ricevuto.		# Il fine-tuning del modello di linguaggio avviene attraverso un loop di RL, impiegando la tecnica [[Proximal Policy Optimization (PPO)]] (oppure [[GRPO]] come in [[Deepseek\|per Deepseek]]) ottimizzare le scelte del modello in base al feedback ricevuto.

	RLHF è particolarmente efficace in scenari dove non esiste una risposta univocamente ''corretta'', ma è desiderabile orientare le risposte del modello di linguaggio secondo determinate preferenze o valori.		RLHF è particolarmente efficace in scenari dove non esiste una risposta univocamente ''corretta'', ma è desiderabile orientare le risposte del modello di linguaggio secondo determinate preferenze o valori.

Mindmakerbot il 13:46, 17 ago 2024

2024-08-17T13:46:54Z

← Versione meno recente		Versione delle 13:46, 17 ago 2024
Riga 49:		Riga 49:
	\|title=Reinforcement Learning From Human Feedback (RLHF)		\|title=Reinforcement Learning From Human Feedback (RLHF)
	\|title_mode=append		\|title_mode=append
	\|keywords="apprendimento automatico, modelli linguistici, intelligenza artificiale, elaborazione del linguaggio naturale, RLHF, feedback umano, PPO, ottimizzazione, modelli di ricompensa, dataset di preferenze"		\|keywords=apprendimento automatico, modelli linguistici, intelligenza artificiale, elaborazione del linguaggio naturale, RLHF, feedback umano, PPO, ottimizzazione, modelli di ricompensa, dataset di preferenze
	\|description="RLHF, o Reinforcement Learning from Human Feedback, è una tecnica per addestrare modelli di linguaggio come Llama a generare output in linea con le preferenze umane. Questo processo prevede la creazione di un dataset di preferenze, l'addestramento di un modello di ricompensa e l'ottimizzazione del modello linguistico tramite RL."		\|description=RLHF, o Reinforcement Learning from Human Feedback, è una tecnica per addestrare modelli di linguaggio come Llama a generare output in linea con le preferenze umane. Questo processo prevede la creazione di un dataset di preferenze, l'addestramento di un modello di ricompensa e l'ottimizzazione del modello linguistico tramite RL.
	\|image=RLHF.png		\|image=RLHF.png
	}}		}}

Mindmakerbot il 13:28, 17 ago 2024

2024-08-17T13:28:51Z

← Versione meno recente		Versione delle 13:28, 17 ago 2024
Riga 45:		Riga 45:
	* [https://arxiv.org/abs/1706.03741 Deep Reinforcement Learning from Human Preferences]		* [https://arxiv.org/abs/1706.03741 Deep Reinforcement Learning from Human Preferences]
	* [https://arxiv.org/abs/2203.02155 Training language models to follow instructions with human feedback]		* [https://arxiv.org/abs/2203.02155 Training language models to follow instructions with human feedback]

			{{#seo:
			\|title=Reinforcement Learning From Human Feedback (RLHF)
			\|title_mode=append
			\|keywords="apprendimento automatico, modelli linguistici, intelligenza artificiale, elaborazione del linguaggio naturale, RLHF, feedback umano, PPO, ottimizzazione, modelli di ricompensa, dataset di preferenze"
			\|description="RLHF, o Reinforcement Learning from Human Feedback, è una tecnica per addestrare modelli di linguaggio come Llama a generare output in linea con le preferenze umane. Questo processo prevede la creazione di un dataset di preferenze, l'addestramento di un modello di ricompensa e l'ottimizzazione del modello linguistico tramite RL."
			\|image=RLHF.png
			}}

Mindmakerbot il 11:15, 17 ago 2024

2024-08-17T11:15:46Z

← Versione meno recente		Versione delle 11:15, 17 ago 2024
Riga 45:		Riga 45:
	* [https://arxiv.org/abs/1706.03741 Deep Reinforcement Learning from Human Preferences]		* [https://arxiv.org/abs/1706.03741 Deep Reinforcement Learning from Human Preferences]
	* [https://arxiv.org/abs/2203.02155 Training language models to follow instructions with human feedback]		* [https://arxiv.org/abs/2203.02155 Training language models to follow instructions with human feedback]

	~~[[Category:concetto]]~~


	~~__SHOWFACTBOX__~~

Alesaccoia il 16:54, 8 ago 2024

2024-08-08T16:54:24Z

← Versione meno recente		Versione delle 16:54, 8 ago 2024
Riga 32:		Riga 32:

	[[File:RLHF.png]]		[[File:RLHF.png]]

			[[File:Reinforcement Learning via PPO.png\|miniatura\|https://huggingface.co/docs/trl/main/en/ppo_trainer]]

	== Links ==		== Links ==
Riga 38:		Riga 40:
	* [https://huyenchip.com/2023/05/02/rlhf.html RLHF: Reinforcement Learning from Human Feedback]		* [https://huyenchip.com/2023/05/02/rlhf.html RLHF: Reinforcement Learning from Human Feedback]
	* https://openai.com/index/instruction-following/		* https://openai.com/index/instruction-following/
			* https://huggingface.co/docs/trl/main/en/ppo_trainer

	=== Paper ===		=== Paper ===

Alesaccoia il 16:36, 8 ago 2024

2024-08-08T16:36:33Z

← Versione meno recente		Versione delle 16:36, 8 ago 2024
Riga 37:		Riga 37:
	* [https://learn.deeplearning.ai/courses/reinforcement-learning-from-human-feedback/lesson/1/introduction Tutorial su Deeplearning.ai]		* [https://learn.deeplearning.ai/courses/reinforcement-learning-from-human-feedback/lesson/1/introduction Tutorial su Deeplearning.ai]
	* [https://huyenchip.com/2023/05/02/rlhf.html RLHF: Reinforcement Learning from Human Feedback]		* [https://huyenchip.com/2023/05/02/rlhf.html RLHF: Reinforcement Learning from Human Feedback]
			* https://openai.com/index/instruction-following/

	=== Paper ===		=== Paper ===

Alesaccoia il 16:35, 8 ago 2024

2024-08-08T16:35:40Z

@@ Riga 3: / Riga 3: @@
 |Sigla=RLHF
 }}
 Pronunciato Ar-El-Eic-Ef, RLHF è una tecnica avanzata per allineare gli output di un Modello di Linguaggio (Language Model, LM) alle intenzioni e alle preferenze degli utenti. Questo metodo è particolarmente utile per affinare i modelli di linguaggio su compiti specifici, come il riassunto di testi, garantendo che gli output siano non solo accurati ma anche allineati con le preferenze umane.

Alesaccoia: /* Tutorial */

2024-08-08T09:24:56Z

Tutorial

← Versione meno recente		Versione delle 09:24, 8 ago 2024
Riga 49:		Riga 49:
	=== Tutorial ===		=== Tutorial ===
	* [https://learn.deeplearning.ai/courses/reinforcement-learning-from-human-feedback/lesson/1/introduction Tutorial su Deeplearning.ai]		* [https://learn.deeplearning.ai/courses/reinforcement-learning-from-human-feedback/lesson/1/introduction Tutorial su Deeplearning.ai]
			* [https://huyenchip.com/2023/05/02/rlhf.html RLHF: Reinforcement Learning from Human Feedback]

	=== Paper ===		=== Paper ===

Alesaccoia: Alesaccoia ha spostato la pagina Reinforcement Learning From Human Feedback (RLHF) a Apprendimento per rinforzo da feedback umano

2024-08-08T08:28:12Z

Alesaccoia ha spostato la pagina Reinforcement Learning From Human Feedback (RLHF) a Apprendimento per rinforzo da feedback umano

← Versione meno recente	Versione delle 08:28, 8 ago 2024
(Nessuna differenza)

Alesaccoia il 08:27, 8 ago 2024

2024-08-08T08:27:42Z

← Versione meno recente		Versione delle 08:27, 8 ago 2024
Riga 1:		Riga 1:
			{{Template concetto
			\|NomeInglese=Reinforcement Learning From Human Feedback
			\|Sigla=RLHF
			}}
	Nome: [[Nome::Apprendimento per rinforzo da feedback umano]]		Nome: [[Nome::Apprendimento per rinforzo da feedback umano]]