Temperatura (Apprendimento Automatico): differenze tra le versioni

Da Wiki AI.
Nessun oggetto della modifica
Nessun oggetto della modifica
 
Riga 2: Riga 2:
|NomeInglese=Temperature
|NomeInglese=Temperature
}}
}}
La '''temperatura''' è un parametro nell'ambito dell'apprendimento automatico, specialmente nei modelli sequenziali come le [[Recurrent Neural Network (RNN)|RNN]] e i [[transformer]]. Questo parametro è un numero strettamente maggiore di zero e normalmente inferiore a 2 o 3, con impatti diretti sulla selezione del token successivo durante il processo di generazione del testo.


La temperatura è un parametro nell'ambito dell'apprendimento automatico, specialmente nei modelli sequenziali come le [[Recurrent Neural Network (RNN)|RNN]] e i [[transformer]]. Questo parametro è un numero strettamente maggiore di zero e normalmente inferiore a 2 o 3, con impatti diretti sulla selezione del token successivo durante il processo di generazione del testo.
== Funzionamento ==


La temperatura è utilizzata per modulare la distribuzione di probabilità dei token generati dai modelli. Invece di optare per una [[Metodi di Decoding|decodifica Greedy]], che seleziona sempre il token con la massima probabilità calcolata tramite [[Negative log-likelihood|log-likelihood]], l'introduzione della temperatura agisce sul risultato della [[Metodi di Decoding|decodifica a campionamento]]: questo approccio estrae un token casuale basandosi sulla distribuzione di probabilità (modificata dalla temperatura) dei possibili token successivi.
La temperatura è utilizzata per modulare la distribuzione di probabilità dei token generati dai modelli. Invece di optare per una [[Metodi di Decoding|decodifica Greedy]], che seleziona sempre il token con la massima probabilità, l'introduzione della temperatura agisce sul risultato della [[Metodi di Decoding|decodifica a campionamento]]: questo approccio estrae un token casuale basandosi sulla distribuzione di probabilità (modificata dalla temperatura) dei possibili token successivi.


Durante il processo di generazione, la temperatura agisce sui [[Logit (Reti Neurali)|logit]], i quali sono i valori emessi dall'ultimo [[layer totalmente connesso]] del modello prima dell'applicazione della funzione softmax per ottenere le probabilità. La modifica consiste nel dividere i logit per il valore della temperatura prima di calcolare la distribuzione di probabilità finale. Un valore di temperatura più alto genera una distribuzione più uniforme, aumentando così la varietà e la casualità nella scelta dei token. Al contrario, una temperatura più bassa rende la distribuzione più "affilata", favorendo la scelta dei token con probabilità più alta e riducendo la varietà, e dando più spesso il token che "ci si aspetta di più" avere nella generazione autoregressiva.
Durante il processo di generazione, la temperatura agisce sui [[Logit (Reti Neurali)|logit]], i valori emessi dall'ultimo [[layer totalmente connesso]] del modello prima dell'applicazione della funzione [[Softmax]] per ottenere le probabilità.  


In pratica, l'uso della temperatura permette agli sviluppatori e ai ricercatori di bilanciare tra diversità e precisione nelle generazioni testuali dei modelli. Una temperatura vicina a 1 tende a mantenere un buon equilibrio, mentre valori superiori o inferiori possono essere sperimentati per ottenere risultati più creativi o più conservativi, rispettivamente.
=== Formula ===
 
La funzione '''softmax standard''' (senza temperatura) è definita come:
 
<math>softmax(z_i) = \frac{e^{z_i}}{\sum_{j=1}^K e^{z_j}}</math>
 
Dove <math>z_i</math> è il logit del token ''i'' e ''K'' è il numero totale di token nel vocabolario.
 
Con l'introduzione della '''temperatura T''', la formula diventa:
 
<math>softmax(z_i, T) = \frac{e^{z_i/T}}{\sum_{j=1}^K e^{z_j/T}}</math>
 
La modifica consiste nel '''dividere i logit per il valore della temperatura''' prima di calcolare la distribuzione di probabilità finale.
 
== Effetti della Temperatura ==
 
* '''Temperatura alta (T > 1)''': Genera una distribuzione più uniforme, aumentando la varietà e la casualità nella scelta dei token. I token meno probabili hanno maggiori chance di essere selezionati.
 
* '''Temperatura bassa (T < 1)''': Rende la distribuzione più "affilata", favorendo la scelta dei token con probabilità più alta e riducendo la varietà. Il modello tende a selezionare più spesso il token più probabile.
 
* '''Temperatura = 1''': Mantiene la distribuzione originale calcolata dal modello.
 
== Applicazioni Pratiche ==
 
L'uso della temperatura permette agli sviluppatori e ai ricercatori di bilanciare tra '''diversità''' e '''precisione''' nelle generazioni testuali dei modelli. Una temperatura vicina a 1 tende a mantenere un buon equilibrio, mentre valori superiori possono essere sperimentati per ottenere risultati più creativi, e valori inferiori per risultati più conservativi e prevedibili.


{{#seo:
{{#seo:
            |title=Temperatura
|title=Temperatura
            |title_mode=append
|title_mode=append
            |keywords=temperatura, apprendimento automatico, modelli sequenziali, RNN, Recurrent Neural Network, transformer, generazione di testo, distribuzione di probabilità, decodifica Greedy, decodifica a campionamento, logit, layer totalmente connesso, softmax
|keywords=temperatura, apprendimento automatico, modelli sequenziali, RNN, Recurrent Neural Network, transformer, generazione di testo, distribuzione di probabilità, decodifica Greedy, decodifica a campionamento, logit, layer totalmente connesso, softmax, sampling
            |description=Questo articolo esplora il concetto di 'temperatura' nell'ambito dell'apprendimento automatico, con particolare riferimento al suo utilizzo nei modelli sequenziali come le RNN e i transformer. Viene descritto come questo parametro influenzi la selezione dei token durante la generazione di testo, modulando la distribuzione di probabilità e offrendo un compromesso tra diversità e precisione nei risultati.
|description=Questo articolo esplora il concetto di 'temperatura' nell'ambito dell'apprendimento automatico, con particolare riferimento al suo utilizzo nei modelli sequenziali come le RNN e i transformer. Viene descritto come questo parametro influenzi la selezione dei token durante la generazione di testo, modulando la distribuzione di probabilità tramite la funzione softmax e offrendo un compromesso tra diversità e precisione nei risultati.
           
}}
            }}

Versione attuale delle 07:22, 8 nov 2025

Temperatura (Apprendimento Automatico)
Nome Inglese Temperature
Sigla

La temperatura è un parametro nell'ambito dell'apprendimento automatico, specialmente nei modelli sequenziali come le RNN e i transformer. Questo parametro è un numero strettamente maggiore di zero e normalmente inferiore a 2 o 3, con impatti diretti sulla selezione del token successivo durante il processo di generazione del testo.

Funzionamento

La temperatura è utilizzata per modulare la distribuzione di probabilità dei token generati dai modelli. Invece di optare per una decodifica Greedy, che seleziona sempre il token con la massima probabilità, l'introduzione della temperatura agisce sul risultato della decodifica a campionamento: questo approccio estrae un token casuale basandosi sulla distribuzione di probabilità (modificata dalla temperatura) dei possibili token successivi.

Durante il processo di generazione, la temperatura agisce sui logit, i valori emessi dall'ultimo layer totalmente connesso del modello prima dell'applicazione della funzione Softmax per ottenere le probabilità.

Formula

La funzione softmax standard (senza temperatura) è definita come:

Dove è il logit del token i e K è il numero totale di token nel vocabolario.

Con l'introduzione della temperatura T, la formula diventa:

La modifica consiste nel dividere i logit per il valore della temperatura prima di calcolare la distribuzione di probabilità finale.

Effetti della Temperatura

  • Temperatura alta (T > 1): Genera una distribuzione più uniforme, aumentando la varietà e la casualità nella scelta dei token. I token meno probabili hanno maggiori chance di essere selezionati.
  • Temperatura bassa (T < 1): Rende la distribuzione più "affilata", favorendo la scelta dei token con probabilità più alta e riducendo la varietà. Il modello tende a selezionare più spesso il token più probabile.
  • Temperatura = 1: Mantiene la distribuzione originale calcolata dal modello.

Applicazioni Pratiche

L'uso della temperatura permette agli sviluppatori e ai ricercatori di bilanciare tra diversità e precisione nelle generazioni testuali dei modelli. Una temperatura vicina a 1 tende a mantenere un buon equilibrio, mentre valori superiori possono essere sperimentati per ottenere risultati più creativi, e valori inferiori per risultati più conservativi e prevedibili.