Apprendimento per rinforzo da feedback umano: differenze tra le versioni
(Creata pagina con "Pronunciato Ar-El-Eic-Ef === Links === [https://learn.deeplearning.ai/courses/reinforcement-learning-from-human-feedback/lesson/1/introduction Tutorial su Deeplearning.ai]") |
Nessun oggetto della modifica |
||
Riga 1: | Riga 1: | ||
Pronunciato Ar-El-Eic-Ef | Pronunciato Ar-El-Eic-Ef. | ||
Tecnica usata per meglio allineare l'output di un Modello di Linguaggio con le intenzioni e le preferenze degli utenti. | |||
== Esempio == | |||
Si immagini di voler effettuare il [[fine-tuning]] di un modello di linguaggio sul task di "summarization", per cui si preparano le coppie | |||
{testo, riassunto} | |||
Alcuni riassunti possono essere egualmente corretti, ma si vuole registrare la preferenza. Meglio il riassunti 1 o il riassunto 2? | |||
RHFL: {input text, summary 1, summary 2, human preference} | |||
== Come Funziona == | |||
* Si parte da un dataset di "preferenze" | |||
* Si fa un [[allenamento supervisionato]] di un modello di reward | |||
* Si esegue RL in loop fra il modello di reward e il modello LLM | |||
* Si parte dal modello di Base, per esempio [[Llama]]. Esempio: "summarize the following text:...." | |||
** Si fa generare al modello molteplici output: summary 1, summary 2, etc. | |||
** Si fa annotare a un annotatore umano quale sia il suo output preferito. Questa parte è molto importante perché, a seconda dei valori ai quali si vuole allineare il modello, bisognerà fornire delle regole agli annotatori umani {prompt, candidate 1, candidate 2} | |||
* Si allena un modello di reward ([[Reward Model]]), che normalmente è un altro modello di linguaggio: | |||
** Si prende il dataset di preferenze creato in precedenza, che per ogni prompt indica quali delle due candidati ha | |||
** | |||
E' utilizzato per risolvere problemi in cui non esiste veramente una risposta "corretta", ma si vuole orientare il tipo di risposte dal Modello di Linguaggio. | |||
=== Tuning Llama === | |||
=== Links === | === Links === | ||
[https://learn.deeplearning.ai/courses/reinforcement-learning-from-human-feedback/lesson/1/introduction Tutorial su Deeplearning.ai] | [https://learn.deeplearning.ai/courses/reinforcement-learning-from-human-feedback/lesson/1/introduction Tutorial su Deeplearning.ai] |
Versione delle 14:49, 4 mar 2024
Pronunciato Ar-El-Eic-Ef.
Tecnica usata per meglio allineare l'output di un Modello di Linguaggio con le intenzioni e le preferenze degli utenti.
Esempio
Si immagini di voler effettuare il fine-tuning di un modello di linguaggio sul task di "summarization", per cui si preparano le coppie
{testo, riassunto}
Alcuni riassunti possono essere egualmente corretti, ma si vuole registrare la preferenza. Meglio il riassunti 1 o il riassunto 2?
RHFL: {input text, summary 1, summary 2, human preference}
Come Funziona
- Si parte da un dataset di "preferenze"
- Si fa un allenamento supervisionato di un modello di reward
- Si esegue RL in loop fra il modello di reward e il modello LLM
- Si parte dal modello di Base, per esempio Llama. Esempio: "summarize the following text:...."
- Si fa generare al modello molteplici output: summary 1, summary 2, etc.
- Si fa annotare a un annotatore umano quale sia il suo output preferito. Questa parte è molto importante perché, a seconda dei valori ai quali si vuole allineare il modello, bisognerà fornire delle regole agli annotatori umani {prompt, candidate 1, candidate 2}
- Si allena un modello di reward (Reward Model), che normalmente è un altro modello di linguaggio:
- Si prende il dataset di preferenze creato in precedenza, che per ogni prompt indica quali delle due candidati ha
E' utilizzato per risolvere problemi in cui non esiste veramente una risposta "corretta", ma si vuole orientare il tipo di risposte dal Modello di Linguaggio.