Metodi di Decoding: differenze tra le versioni

Da Wiki AI.
Nessun oggetto della modifica
 
(4 versioni intermedie di 3 utenti non mostrate)
Riga 1: Riga 1:
{{Template concetto
|NomeInglese=Decoding Methods
}}
Sono le possibili strategie di scelta della parola seguente nei modelli di linguaggio [[autoregressivi]], ovvero quei modelli che generano il seguente [[token]] o parola successiva considerando la probabilità dell'intera sequenza come prodotto delle probabilità delle singole parole successive.
Sono le possibili strategie di scelta della parola seguente nei modelli di linguaggio [[autoregressivi]], ovvero quei modelli che generano il seguente [[token]] o parola successiva considerando la probabilità dell'intera sequenza come prodotto delle probabilità delle singole parole successive.


Riga 4: Riga 7:
* [[Greedy Search]], che sceglie sempre la parola con la probabilità più alta
* [[Greedy Search]], che sceglie sempre la parola con la probabilità più alta
* [[Beam search]], che calcola il prodotto delle probabilità fino alla profondità K, e ritorna la prima parola della sequenza con probabilità più alta
* [[Beam search]], che calcola il prodotto delle probabilità fino alla profondità K, e ritorna la prima parola della sequenza con probabilità più alta
* [[Campionamento (decoding)]]: introduce della variabilità, scegliendo in maniera casuale dalla distribuzione di probabilità delle seguenti N parole, data quella corrente - viene spesso utilizzando abbassando la [[temperatura]] del softmax per rendere più alta la probabilità delle parole più "probabili"
* [[Campionamento (decoding)]]: introduce della variabilità, scegliendo in maniera casuale dalla distribuzione di probabilità delle seguenti N parole, data quella corrente - viene spesso utilizzando abbassando la [[Temperatura (Apprendimento Automatico)|temperatura]] del softmax per rendere più alta la probabilità delle parole più "probabili"
** Top-K Sampling, introdotta nel 2018, redistribuisce la probabilità lasciando solo le K parole più probabili
** Top-K Sampling, introdotta nel 2018, redistribuisce la probabilità lasciando solo le K parole più probabili
** Top-p (nucleus) sampling (2019) mantiene nel set di parole candidate solo quelle la cui probabilità cumulativa eccede una certa soglia, tipicamente 0.9
** Top-p (nucleus) sampling (2019) mantiene nel set di parole candidate solo quelle la cui probabilità cumulativa eccede una certa soglia, tipicamente 0.9
Riga 12: Riga 15:
[https://huggingface.co/blog/how-to-generate Articolo su hugggingface con esempi di tutte le strategie]
[https://huggingface.co/blog/how-to-generate Articolo su hugggingface con esempi di tutte le strategie]


[[Category:concetto]]
{{#seo:
            |title=Decoding Methods
            |title_mode=append
            |keywords=modelli di linguaggio, autoregressivi, token, Greedy Search, Beam search, Campionamento, Temperatura (Apprendimento Automatico), softmax, Top-K Sampling, Top-p, nucleus sampling
            |description=I metodi di decodifica sono strategie per scegliere la parola successiva nei modelli di linguaggio autoregressivi. Questi modelli generano testo considerando la probabilità dell'intera sequenza. Esistono tre tipi principali: Greedy Search, Beam Search e Campionamento, ognuno con i suoi vantaggi e svantaggi. Scopri di più su questi metodi e su come influenzano la generazione del testo.
            }}

Versione attuale delle 13:47, 17 ago 2024

Metodi di Decoding
Nome Inglese Decoding Methods
Sigla

Sono le possibili strategie di scelta della parola seguente nei modelli di linguaggio autoregressivi, ovvero quei modelli che generano il seguente token o parola successiva considerando la probabilità dell'intera sequenza come prodotto delle probabilità delle singole parole successive.

Vi sono tre tipi principali:

  • Greedy Search, che sceglie sempre la parola con la probabilità più alta
  • Beam search, che calcola il prodotto delle probabilità fino alla profondità K, e ritorna la prima parola della sequenza con probabilità più alta
  • Campionamento (decoding): introduce della variabilità, scegliendo in maniera casuale dalla distribuzione di probabilità delle seguenti N parole, data quella corrente - viene spesso utilizzando abbassando la temperatura del softmax per rendere più alta la probabilità delle parole più "probabili"
    • Top-K Sampling, introdotta nel 2018, redistribuisce la probabilità lasciando solo le K parole più probabili
    • Top-p (nucleus) sampling (2019) mantiene nel set di parole candidate solo quelle la cui probabilità cumulativa eccede una certa soglia, tipicamente 0.9


Links

Articolo su hugggingface con esempi di tutte le strategie