Temperatura (Apprendimento Automatico): differenze tra le versioni
Nessun oggetto della modifica |
Nessun oggetto della modifica |
||
Riga 14: | Riga 14: | ||
|title=Temperatura | |title=Temperatura | ||
|title_mode=append | |title_mode=append | ||
|keywords= | |keywords=temperatura, apprendimento automatico, modelli sequenziali, RNN, Recurrent Neural Network, transformer, generazione di testo, distribuzione di probabilità, decodifica Greedy, decodifica a campionamento, logit, layer totalmente connesso, softmax | ||
|description= | |description=Questo articolo esplora il concetto di 'temperatura' nell'ambito dell'apprendimento automatico, con particolare riferimento al suo utilizzo nei modelli sequenziali come le RNN e i transformer. Viene descritto come questo parametro influenzi la selezione dei token durante la generazione di testo, modulando la distribuzione di probabilità e offrendo un compromesso tra diversità e precisione nei risultati. | ||
}} | }} |
Versione attuale delle 13:47, 17 ago 2024
Temperatura (Apprendimento Automatico) | |
---|---|
Nome Inglese | Temperature |
Sigla |
La temperatura è un parametro nell'ambito dell'apprendimento automatico, specialmente nei modelli sequenziali come le RNN e i transformer. Questo parametro è un numero strettamente maggiore di zero e normalmente inferiore a 2 o 3, con impatti diretti sulla selezione del token successivo durante il processo di generazione del testo.
La temperatura è utilizzata per modulare la distribuzione di probabilità dei token generati dai modelli. Invece di optare per una decodifica Greedy, che seleziona sempre il token con la massima probabilità calcolata tramite log-likelihood, l'introduzione della temperatura agisce sul risultato della decodifica a campionamento: questo approccio estrae un token casuale basandosi sulla distribuzione di probabilità (modificata dalla temperatura) dei possibili token successivi.
Durante il processo di generazione, la temperatura agisce sui logit, i quali sono i valori emessi dall'ultimo layer totalmente connesso del modello prima dell'applicazione della funzione softmax per ottenere le probabilità. La modifica consiste nel dividere i logit per il valore della temperatura prima di calcolare la distribuzione di probabilità finale. Un valore di temperatura più alto genera una distribuzione più uniforme, aumentando così la varietà e la casualità nella scelta dei token. Al contrario, una temperatura più bassa rende la distribuzione più "affilata", favorendo la scelta dei token con probabilità più alta e riducendo la varietà, e dando più spesso il token che "ci si aspetta di più" avere nella generazione autoregressiva.
In pratica, l'uso della temperatura permette agli sviluppatori e ai ricercatori di bilanciare tra diversità e precisione nelle generazioni testuali dei modelli. Una temperatura vicina a 1 tende a mantenere un buon equilibrio, mentre valori superiori o inferiori possono essere sperimentati per ottenere risultati più creativi o più conservativi, rispettivamente.