Apprendimento Per Rinforzo

Da Wiki AI.
Versione del 1 mag 2024 alle 09:04 di Alesaccoia (discussione | contributi) (Creata pagina con "In inglese ''Reinforcement Learning'', e' uno dei tre paradigmi principali dell'apprendimento automatico, insieme all'apprendimento supervisionato e a quello non supervisionato. Essenzialmente, è costituito dall'apprendimento di come eseguire un determinato compito, mappando dalle '''situazioni''' alle '''azioni''', '''massimizzando una ricompensa (reward)'''. Esempi di ricompensa sono il punteggio (''score'') in un videogame, oppure i chilometri percorsi senza fare in...")
(diff) ← Versione meno recente | Versione attuale (diff) | Versione più recente → (diff)

In inglese Reinforcement Learning, e' uno dei tre paradigmi principali dell'apprendimento automatico, insieme all'apprendimento supervisionato e a quello non supervisionato.

Essenzialmente, è costituito dall'apprendimento di come eseguire un determinato compito, mappando dalle situazioni alle azioni, massimizzando una ricompensa (reward). Esempi di ricompensa sono il punteggio (score) in un videogame, oppure i chilometri percorsi senza fare incidenti in un sistema di guida autonomo. Esempi di azioni sono invece la pressione dei pulsanti su un joypad, l'accelerazione, la frenata, o lo sterzo di un veicolo.

A differenza dell'apprendimento supervisionato, in cui al modello viene data un'etichetta che rappresenta, in una determinata situazione, qual'è l'azione da intraprendere (quindi un problema di classificazione), nell'apprendimento per rinforzo il modello deve scoprire da sè quali sono le azioni che portano a una maggiore ricompensa, provandole: questi modelli infatti apprendono interagendo con l'ambiente.

In molti problemi affrontati da questi modelli, le azioni intraprese in un determinato istante influenzano non solo la ricompensa immediata, ma anche quella futura, influenzando quindi tutte le ricompense successive.

Le due caratteristiche distintive dei sistemi di apprendimento per rinforzo sono, quindi:

  • Un tipo di ricerca delle azioni corrette da intraprendere in una data situazione di tipo trial and error (sbagliando s'impara)
  • Una ricompensa non solo immediata, ma anche ritardata (delayed reward)


Links

https://web.archive.org/web/20090806064734/http://www.cs.ualberta.ca/~sutton/book/ebook/node7.html