Metodi di Decoding: differenze tra le versioni

Versione delle 11:18, 17 ago 2024

Metodi di Decoding
Nome Inglese	Decoding Methods
Sigla

Sono le possibili strategie di scelta della parola seguente nei modelli di linguaggio autoregressivi, ovvero quei modelli che generano il seguente token o parola successiva considerando la probabilità dell'intera sequenza come prodotto delle probabilità delle singole parole successive.

Vi sono tre tipi principali:

Greedy Search, che sceglie sempre la parola con la probabilità più alta
Beam search, che calcola il prodotto delle probabilità fino alla profondità K, e ritorna la prima parola della sequenza con probabilità più alta
Campionamento (decoding): introduce della variabilità, scegliendo in maniera casuale dalla distribuzione di probabilità delle seguenti N parole, data quella corrente - viene spesso utilizzando abbassando la temperatura del softmax per rendere più alta la probabilità delle parole più "probabili"
- Top-K Sampling, introdotta nel 2018, redistribuisce la probabilità lasciando solo le K parole più probabili
- Top-p (nucleus) sampling (2019) mantiene nel set di parole candidate solo quelle la cui probabilità cumulativa eccede una certa soglia, tipicamente 0.9

Links

Articolo su hugggingface con esempi di tutte le strategie

@@ Riga 1: / Riga 1: @@
-Nome: [[Nome::Metodi di Decoding]]
+{{Template concetto
+|NomeInglese=Decoding Methods
-Nome inglese: [[NomeInglese::Decoding Methods]]
+}}
 Sono le possibili strategie di scelta della parola seguente nei modelli di linguaggio [[autoregressivi]], ovvero quei modelli che generano il seguente [[token]] o parola successiva considerando la probabilità dell'intera sequenza come prodotto delle probabilità delle singole parole successive.
@@ Riga 16: / Riga 14: @@
 == Links ==
 [https://huggingface.co/blog/how-to-generate Articolo su hugggingface con esempi di tutte le strategie]
-[[Category:concetto]]
-__SHOWFACTBOX__