Metodi di Decoding: differenze tra le versioni

Da Wiki AI.
mNessun oggetto della modifica
Nessun oggetto della modifica
Riga 1: Riga 1:
Nome: [[Nome::Metodi di Decoding]]
Nome inglese: [[NomeInglese::Decoding Methods]]
Sono le possibili strategie di scelta della parola seguente nei modelli di linguaggio [[autoregressivi]], ovvero quei modelli che generano il seguente [[token]] o parola successiva considerando la probabilità dell'intera sequenza come prodotto delle probabilità delle singole parole successive.
Sono le possibili strategie di scelta della parola seguente nei modelli di linguaggio [[autoregressivi]], ovvero quei modelli che generano il seguente [[token]] o parola successiva considerando la probabilità dell'intera sequenza come prodotto delle probabilità delle singole parole successive.


Riga 13: Riga 18:


[[Category:concetto]]
[[Category:concetto]]
__SHOWFACTBOX__

Versione delle 10:50, 11 apr 2024

Nome: Metodi di Decoding

Nome inglese: Decoding Methods


Sono le possibili strategie di scelta della parola seguente nei modelli di linguaggio autoregressivi, ovvero quei modelli che generano il seguente token o parola successiva considerando la probabilità dell'intera sequenza come prodotto delle probabilità delle singole parole successive.

Vi sono tre tipi principali:

  • Greedy Search, che sceglie sempre la parola con la probabilità più alta
  • Beam search, che calcola il prodotto delle probabilità fino alla profondità K, e ritorna la prima parola della sequenza con probabilità più alta
  • Campionamento (decoding): introduce della variabilità, scegliendo in maniera casuale dalla distribuzione di probabilità delle seguenti N parole, data quella corrente - viene spesso utilizzando abbassando la temperatura del softmax per rendere più alta la probabilità delle parole più "probabili"
    • Top-K Sampling, introdotta nel 2018, redistribuisce la probabilità lasciando solo le K parole più probabili
    • Top-p (nucleus) sampling (2019) mantiene nel set di parole candidate solo quelle la cui probabilità cumulativa eccede una certa soglia, tipicamente 0.9


Links

Articolo su hugggingface con esempi di tutte le strategie