Metodi di Decoding: differenze tra le versioni

Versione delle 16:32, 14 mar 2024

Sono le possibili strategie di scelta della parola seguente nei modelli di linguaggio autoregressivi, ovvero quei modelli che generano il seguente token o parola successiva considerando la probabilità dell'intera sequenza come prodotto delle probabilità delle singole parole successive.

Vi sono tre tipi principali:

Greedy Search, che sceglie sempre la parola con la probabilità più alta
Beam search, che calcola il prodotto delle probabilità fino alla profondità K, e ritorna la prima parola della sequenza con probabilità più alta
Campionamento (decoding): introduce della variabilità, scegliendo in maniera casuale dalla distribuzione di probabilità delle seguenti N parole, data quella corrente - viene spesso utilizzando abbassando la temperatura del softmax per rendere più alta la probabilità delle parole più "probabili"
- Top-K Sampling, introdotta nel 2018, redistribuisce la probabilità lasciando solo le K parole più probabili
- Top-p (nucleus) sampling (2019) mantiene nel set di parole candidate solo quelle la cui probabilità cumulativa eccede una certa soglia, tipicamente 0.9

Links

Articolo su hugggingface con esempi di tutte le strategie

Versione delle 10:22, 8 mar 2024 (Visualizza sorgente) Michela (discussione \| contributi) Nessun oggetto della modifica ← Differenza precedente		Versione delle 16:32, 14 mar 2024 (Visualizza sorgente) Michela (discussione \| contributi) (→‎Links) Differenza successiva →
Riga 12:		Riga 12:
	[https://huggingface.co/blog/how-to-generate Articolo su hugggingface con esempi di tutte le strategie]		[https://huggingface.co/blog/how-to-generate Articolo su hugggingface con esempi di tutte le strategie]

	[[Category:~~concetti~~]]		[[Category:concetto]]