Metodi di Decoding: differenze tra le versioni
(→Links) |
mNessun oggetto della modifica |
||
Riga 4: | Riga 4: | ||
* [[Greedy Search]], che sceglie sempre la parola con la probabilità più alta | * [[Greedy Search]], che sceglie sempre la parola con la probabilità più alta | ||
* [[Beam search]], che calcola il prodotto delle probabilità fino alla profondità K, e ritorna la prima parola della sequenza con probabilità più alta | * [[Beam search]], che calcola il prodotto delle probabilità fino alla profondità K, e ritorna la prima parola della sequenza con probabilità più alta | ||
* [[Campionamento (decoding)]]: introduce della variabilità, scegliendo in maniera casuale dalla distribuzione di probabilità delle seguenti N parole, data quella corrente - viene spesso utilizzando abbassando la [[temperatura]] del softmax per rendere più alta la probabilità delle parole più "probabili" | * [[Campionamento (decoding)]]: introduce della variabilità, scegliendo in maniera casuale dalla distribuzione di probabilità delle seguenti N parole, data quella corrente - viene spesso utilizzando abbassando la [[Temperatura (Apprendimento Automatico)|temperatura]] del softmax per rendere più alta la probabilità delle parole più "probabili" | ||
** Top-K Sampling, introdotta nel 2018, redistribuisce la probabilità lasciando solo le K parole più probabili | ** Top-K Sampling, introdotta nel 2018, redistribuisce la probabilità lasciando solo le K parole più probabili | ||
** Top-p (nucleus) sampling (2019) mantiene nel set di parole candidate solo quelle la cui probabilità cumulativa eccede una certa soglia, tipicamente 0.9 | ** Top-p (nucleus) sampling (2019) mantiene nel set di parole candidate solo quelle la cui probabilità cumulativa eccede una certa soglia, tipicamente 0.9 |
Versione delle 12:49, 18 mar 2024
Sono le possibili strategie di scelta della parola seguente nei modelli di linguaggio autoregressivi, ovvero quei modelli che generano il seguente token o parola successiva considerando la probabilità dell'intera sequenza come prodotto delle probabilità delle singole parole successive.
Vi sono tre tipi principali:
- Greedy Search, che sceglie sempre la parola con la probabilità più alta
- Beam search, che calcola il prodotto delle probabilità fino alla profondità K, e ritorna la prima parola della sequenza con probabilità più alta
- Campionamento (decoding): introduce della variabilità, scegliendo in maniera casuale dalla distribuzione di probabilità delle seguenti N parole, data quella corrente - viene spesso utilizzando abbassando la temperatura del softmax per rendere più alta la probabilità delle parole più "probabili"
- Top-K Sampling, introdotta nel 2018, redistribuisce la probabilità lasciando solo le K parole più probabili
- Top-p (nucleus) sampling (2019) mantiene nel set di parole candidate solo quelle la cui probabilità cumulativa eccede una certa soglia, tipicamente 0.9