Apprendimento Per Rinforzo - Cronologia

Alesaccoia il 17:00, 5 feb 2025

2025-02-05T17:00:04Z

Alesaccoia il 07:50, 8 mag 2024

2024-05-08T07:50:59Z

← Versione meno recente		Versione delle 07:50, 8 mag 2024
Riga 38:		Riga 38:

	https://web.archive.org/web/20190213141053/https://neuro.cs.ut.ee/demystifying-deep-reinforcement-learning/		https://web.archive.org/web/20190213141053/https://neuro.cs.ut.ee/demystifying-deep-reinforcement-learning/

			https://www.kdnuggets.com/2017/01/eat-melon-deep-q-reinforcement-learning-demo.html

Alesaccoia il 07:48, 8 mag 2024

2024-05-08T07:48:55Z

← Versione meno recente		Versione delle 07:48, 8 mag 2024
Riga 36:		Riga 36:
	=== Links ===		=== Links ===
	https://web.archive.org/web/20090806064734/http://www.cs.ualberta.ca/~sutton/book/ebook/node7.html		https://web.archive.org/web/20090806064734/http://www.cs.ualberta.ca/~sutton/book/ebook/node7.html

			https://web.archive.org/web/20190213141053/https://neuro.cs.ut.ee/demystifying-deep-reinforcement-learning/

Alesaccoia il 09:45, 1 mag 2024

2024-05-01T09:45:20Z

← Versione meno recente		Versione delle 09:45, 1 mag 2024
Riga 13:		Riga 13:

	=== Gli elementi di un modello di apprendimento per rinforzo ===		=== Gli elementi di un modello di apprendimento per rinforzo ===
	~~GlPossiamo~~ identificare:		Possiamo identificare le seguenti componenti:

	* Un '''agente'''		* Un '''agente'''

Alesaccoia il 09:42, 1 mag 2024

2024-05-01T09:42:30Z

@@ Riga 11: / Riga 11: @@
 * Un tipo di ricerca delle azioni corrette da intraprendere in una data situazione di tipo ''trial and error'' (sbagliando s'impara)
 * Una ricompensa non solo immediata, ma anche ritardata (''delayed reward'')
 === Il compromesso tra esplorazione e azione ===

Alesaccoia il 09:23, 1 mag 2024

2024-05-01T09:23:27Z

← Versione meno recente		Versione delle 09:23, 1 mag 2024
Riga 1:		Riga 1:
	In inglese ''Reinforcement Learning'', e' uno dei tre paradigmi principali dell'apprendimento automatico, insieme all'apprendimento supervisionato e a quello non supervisionato.		In inglese ''Reinforcement Learning'', e' uno dei tre paradigmi principali dell'apprendimento automatico, insieme all'apprendimento supervisionato e a quello non supervisionato.

	Essenzialmente, è costituito dall'apprendimento di come eseguire un determinato compito, mappando dalle '''situazioni''' alle '''azioni''', '''massimizzando una ricompensa (reward)'''. Esempi di ricompensa sono il punteggio (''score'') in un videogame, oppure i chilometri percorsi senza fare incidenti in un sistema di guida autonomo. Esempi di azioni sono invece la pressione dei pulsanti su un joypad, l'accelerazione, la frenata, o lo sterzo di un veicolo.		Essenzialmente, è costituito dall'apprendimento, da parte di un '''agente''', di come eseguire un determinato compito, mappando dalle '''situazioni''' alle '''azioni''', '''massimizzando una ricompensa (reward)'''. Esempi di ricompensa sono il punteggio (''score'') in un videogame, oppure i chilometri percorsi senza fare incidenti in un sistema di guida autonomo. Esempi di azioni sono invece la pressione dei pulsanti su un joypad, l'accelerazione, la frenata, o lo sterzo di un veicolo.

	A differenza dell'apprendimento supervisionato, in cui al modello viene data un'etichetta che rappresenta, in una determinata situazione, qual'è l'azione da intraprendere (quindi un problema di classificazione), nell'apprendimento per rinforzo il modello deve scoprire da sè quali sono le azioni che portano a una maggiore ricompensa, '''provandole:''' questi modelli infatti apprendono '''interagendo''' con l'ambiente.		A differenza dell'apprendimento supervisionato, in cui al modello viene data un'etichetta che rappresenta, in una determinata situazione, qual'è l'azione da intraprendere (quindi un problema di classificazione), nell'apprendimento per rinforzo il modello deve scoprire da sè quali sono le azioni che portano a una maggiore ricompensa, '''provandole:''' questi modelli infatti apprendono '''interagendo''' con l'ambiente.
Riga 12:		Riga 12:
	* Una ricompensa non solo immediata, ma anche ritardata (''delayed reward'')		* Una ricompensa non solo immediata, ma anche ritardata (''delayed reward'')

			=== Il compromesso tra esplorazione e azione ===
			Una delle sfide principali in questo campo è il compromesso tra esplorazione e utilizzo della conoscenza del mondo acquisita fino a un dato istante. Da un lato, infatti, l'agente è portato a preferire delle azioni che ha imparato portare una ricompensa. Dall'altro lato, invece, per scoprirle, l'agente deve anche provare delle azioni che non ha mai provato prima: il dilemma sta nel fatto che nè la pura esplorazione, nè lo sfruttamento della conoscenza (''exploitation''), possono essere usate esclusivamente senza fallire nel task; Per quest l'agente deve provare una varietà di azioni e poi '''progressivamente''' preferire quelle che si rivelano essere le migliori per l'obiettivo di massimizzazione della ricompensa.

			=== Esempi di apprendimento per rinforzo ===
			Alcuni esempi possono essere utili nel comprendere l'apprendimento per rinforzo:

			* Un giocatore di scacchi che effettua una mossa: la sua scelta dipende dalla pianificazione del gioco, a breve e lungo termine, e dall'anticipazione di possibili mosse di risposta da parte dell'opponente
			* Un controller industriale che aggiusta i parametri di una raffineria di petrolio in tempo reale, ottimizzando il compromesso fra resa, costo e qualità sulla base di specifici costi marginali, senza aderire strettamente a dei valori preimpostati
			* Un cucciolo di gazzella, che quando nasce fatica a mettersi in piedi, e che dopo mezz'ora riesce già a camminare
			* Una persona che prepara la colazione, un task apparentemente semplice ma che rivela la complessità di obiettivi e sotto-obiettivi: camminare fino allo scaffale della cucina, scegliere dei cereali, raggiungerli con la mano, prenderli; ottenere un cucchiaio, un recipiente, il latte. Tutti questi task coinvolgono il coordinamento del segnale visivo dall'occhio umano, per ottenere informazione dell'ambiente, e una serie di velocissimi giudizi su pesi e distanze degli oggetti trasporrtati.<br />

	=== Links ===		=== Links ===
	https://web.archive.org/web/20090806064734/http://www.cs.ualberta.ca/~sutton/book/ebook/node7.html		https://web.archive.org/web/20090806064734/http://www.cs.ualberta.ca/~sutton/book/ebook/node7.html

Alesaccoia: Creata pagina con "In inglese ''Reinforcement Learning'', e' uno dei tre paradigmi principali dell'apprendimento automatico, insieme all'apprendimento supervisionato e a quello non supervisionato. Essenzialmente, è costituito dall'apprendimento di come eseguire un determinato compito, mappando dalle '''situazioni''' alle '''azioni''', '''massimizzando una ricompensa (reward)'''. Esempi di ricompensa sono il punteggio (''score'') in un videogame, oppure i chilometri percorsi senza fare in..."

2024-05-01T09:04:30Z

Creata pagina con "In inglese ''Reinforcement Learning'', e' uno dei tre paradigmi principali dell'apprendimento automatico, insieme all'apprendimento supervisionato e a quello non supervisionato. Essenzialmente, è costituito dall'apprendimento di come eseguire un determinato compito, mappando dalle '''situazioni''' alle '''azioni''', '''massimizzando una ricompensa (reward)'''. Esempi di ricompensa sono il punteggio (''score'') in un videogame, oppure i chilometri percorsi senza fare in..."

Nuova pagina

In inglese ''Reinforcement Learning'', e' uno dei tre paradigmi principali dell'apprendimento automatico, insieme all'apprendimento supervisionato e a quello non supervisionato.

Essenzialmente, è costituito dall'apprendimento di come eseguire un determinato compito, mappando dalle '''situazioni''' alle '''azioni''', '''massimizzando una ricompensa (reward)'''. Esempi di ricompensa sono il punteggio (''score'') in un videogame, oppure i chilometri percorsi senza fare incidenti in un sistema di guida autonomo. Esempi di azioni sono invece la pressione dei pulsanti su un joypad, l'accelerazione, la frenata, o lo sterzo di un veicolo.

A differenza dell'apprendimento supervisionato, in cui al modello viene data un'etichetta che rappresenta, in una determinata situazione, qual'è l'azione da intraprendere (quindi un problema di classificazione), nell'apprendimento per rinforzo il modello deve scoprire da sè quali sono le azioni che portano a una maggiore ricompensa, '''provandole:''' questi modelli infatti apprendono '''interagendo''' con l'ambiente.

In molti problemi affrontati da questi modelli, le azioni intraprese in un determinato istante influenzano non solo la ricompensa immediata, ma anche quella futura, influenzando quindi tutte le ricompense successive.

Le due caratteristiche distintive dei sistemi di apprendimento per rinforzo sono, quindi:

* Un tipo di ricerca delle azioni corrette da intraprendere in una data situazione di tipo ''trial and error'' (sbagliando s'impara)
* Una ricompensa non solo immediata, ma anche ritardata (''delayed reward'')

=== Links ===
https://web.archive.org/web/20090806064734/http://www.cs.ualberta.ca/~sutton/book/ebook/node7.html

← Versione meno recente		Versione delle 17:00, 5 feb 2025
Riga 5:		Riga 5:
	A differenza dell'apprendimento supervisionato, in cui al modello viene data un'etichetta che rappresenta, in una determinata situazione, qual'è l'azione da intraprendere (quindi un problema di classificazione), nell'apprendimento per rinforzo il modello deve scoprire da sè quali sono le azioni che portano a una maggiore ricompensa, '''provandole:''' questi modelli infatti apprendono '''interagendo''' con l'ambiente.		A differenza dell'apprendimento supervisionato, in cui al modello viene data un'etichetta che rappresenta, in una determinata situazione, qual'è l'azione da intraprendere (quindi un problema di classificazione), nell'apprendimento per rinforzo il modello deve scoprire da sè quali sono le azioni che portano a una maggiore ricompensa, '''provandole:''' questi modelli infatti apprendono '''interagendo''' con l'ambiente.

	In molti problemi affrontati da questi modelli, le azioni intraprese in un determinato istante influenzano non solo la ricompensa immediata, ma anche quella futura, influenzando quindi tutte le ricompense successive.		In molti problemi affrontati da questi modelli, le azioni intraprese in un determinato istante influenzano non solo la ricompensa immediata, ma anche quella futura, influenzando quindi tutte le '''ricompense successive'''.

	Le due caratteristiche distintive dei sistemi di apprendimento per rinforzo sono, quindi:		Le due caratteristiche distintive dei sistemi di apprendimento per rinforzo sono, quindi:

	* Un tipo di ricerca delle azioni corrette da intraprendere in una data situazione di tipo ''trial and error'' (sbagliando s'impara)		* Un tipo di ricerca delle azioni corrette da intraprendere in una data situazione di tipo '''''trial and error''''' (sbagliando s'impara)
	* Una ricompensa non solo immediata, ma anche ritardata (''delayed reward'')		* Una ricompensa non solo immediata, ma anche ritardata ('''''delayed reward''''')

	=== Gli elementi di un modello di apprendimento per rinforzo ===		=== Gli elementi di un modello di apprendimento per rinforzo ===
Riga 18:		Riga 18:
	* L''''ambiente''' in cui l'agente si muove		* L''''ambiente''' in cui l'agente si muove
	* Una serie di '''azioni''' possibili		* Una serie di '''azioni''' possibili
	* Una '''policy''' (o politica), che definisce il modo in cui l'agente deve comportarsi in una determinata situazione. Essa è una '''mappatura''' dagli stati percepiti dall'ambiente alle azioni da intraprendere in quegli stati, e corrisponde a quello che in psicologia sono le associazioni stimolo-risposta		* Una '''''policy''''' (o '''politica'''), che definisce il modo in cui l'agente deve comportarsi in una determinata situazione. Essa è una '''mappatura''' dagli stati percepiti dall'ambiente alle azioni da intraprendere in quegli stati, e corrisponde a quello che '''in psicologia sono le associazioni stimolo-risposta'''
	* Una '''funzione di ricompensa''' che mappa ogni stato percepito dall'ambiente a un singolo '''numero''', una ricompensa, indicando in questo modo la desiderabilità intrinseca di quello stato: in pratica definisce quali sono gli eventi buoni o cattivi per l'agente. Essa viene utilizzata come base per aggiornare la politica.		* Una '''funzione di ricompensa''' ('''''reward''''') che mappa ogni stato percepito dall'ambiente a un singolo '''numero''', una ricompensa, indicando in questo modo la desiderabilità intrinseca di quello stato: in pratica definisce quali sono gli eventi buoni o cattivi per l'agente. Essa viene utilizzata come '''base per aggiornare la politica'''.
	* Una '''funzione di valore''' che specifica cosa è buono o cattivo '''nel lungo termine''': il valore di un determinato stato è la ricompensa che un agente può aspettarsi di accumulare in futuro, partendo da quello stato, e non corrisponde quindi solamente alla ricompensa immediata.		* Una '''funzione di valore''' che specifica cosa è buono o cattivo '''nel lungo termine''': il valore di un determinato stato è la ricompensa che un agente può aspettarsi di accumulare in futuro, partendo da quello stato, e non corrisponde quindi solamente alla ricompensa immediata.
	* Opzionalmente, l'agente può avere a disposizione un '''modello''' dell'ambiente, che viene utilizzato per simulare, dato lo stato corrente e le possibili azioni, quale possa essere lo stato successivo. In questo senso, il modello viene utilizzato per '''pianificare''' le azioni successive.		* Opzionalmente, l'agente può avere a disposizione un '''modello''' dell'ambiente, che viene utilizzato per simulare, dato lo stato corrente e le possibili azioni, quale possa essere lo stato successivo. In questo senso, il modello viene utilizzato per '''pianificare''' le azioni successive.

	=== Il compromesso tra esplorazione e azione ===		=== Il compromesso tra esplorazione e azione ===
	Una delle sfide principali in questo campo è il compromesso tra esplorazione e utilizzo della conoscenza del mondo acquisita fino a un dato istante. Da un lato, infatti, l'agente è portato a preferire delle azioni che ha imparato portare una ricompensa. Dall'altro lato, invece, per scoprirle, l'agente deve anche provare delle azioni che non ha mai provato prima: il dilemma sta nel fatto che nè la pura esplorazione, nè lo sfruttamento della conoscenza (''exploitation''), possono essere usate esclusivamente senza fallire nel task; Per quest l'agente deve provare una varietà di azioni e poi '''progressivamente''' preferire quelle che si rivelano essere le migliori per l'obiettivo di massimizzazione della ricompensa.		Una delle sfide principali in questo campo è il compromesso tra esplorazione e utilizzo della conoscenza del mondo acquisita fino a un dato istante. Da un lato, infatti, l'agente è portato a preferire delle azioni che ha imparato portare una ricompensa.

			Dall'altro lato, invece, per scoprirle, l'agente deve anche provare delle azioni che non ha mai provato prima: il dilemma sta nel fatto che nè la pura esplorazione, nè lo ''sfruttamento della conoscenza'' (''exploitation''), possono essere usate esclusivamente senza fallire nel task.

			Per quest l'agente deve provare una varietà di azioni e poi '''progressivamente''' preferire quelle che si rivelano essere le migliori per l'obiettivo di massimizzazione della ricompensa.

	=== Esempi di apprendimento per rinforzo ===		=== Esempi di apprendimento per rinforzo ===