Modello di Diffusione Latente (LDM)

Nome: Modello di Diffusione Latente

Nome Inglese: Latent Diffusion Model

Sigla: LDM

Anno Di Creazione: 2021

Pubblicazione: The Theory of Stochastic Processes, with Particular Reference to Applications; Deep Unsupervised Learning using Nonequilibrium Thermodynamics; Diffusion Models Beat GANs on Image Synthesis; Classifier-Free Diffusion Guidance

Classe di modelli di rete neurale utilizzate per la generazione di immagini e video, iniziata con Ho et al., 2020.

Aggiunta di Rumore Gaussiano ad un'Immagine

L'aggiunta di rumore gaussiano ad un'immagine comporta l'introduzione di variazioni casuali nei valori dei pixel di un'immagine, seguendo una distribuzione gaussiana. Il rumore gaussiano è caratterizzato dalla sua funzione di densità di probabilità, che segue una distribuzione gaussiana o normale. In parole semplici, ciò significa che i valori del rumore sono più probabili di raggrupparsi intorno al valore medio, con meno occorrenze di valori estremi più lontani dal valore medio.

Quando si aggiunge rumore gaussiano ad un'immagine in un processo di diffusione, l'intensità di ogni pixel viene modificata aggiungendo un valore casuale campionato da una distribuzione gaussiana. I parametri della distribuzione gaussiana, come media e deviazione standard, determinano le caratteristiche del rumore aggiunto all'immagine.

Il processo di diffusione si riferisce alla propagazione di questo rumore in tutta l'immagine, influenzando l'intensità di ogni pixel in modo casualizzato.

Esempio Numerico

Supponiamo di avere un'immagine in scala di grigi rappresentata da una griglia di pixel 3x3 per semplicità. Ogni pixel ha un valore compreso tra 0 e 255, dove 0 rappresenta il nero e 255 il bianco.

Supponiamo inoltre che vogliamo aggiungere rumore gaussiano a questa immagine con una varianza $\beta$ .

Consideriamo un pixel con un valore originale normalizzato tra -1 e 1 di $x=0.6$ , e di avere $\beta =0.1$ (noise schedule parameter).

Media e Varianza della Distribuzione

La media della distribuzione gaussiana rappresentante il rumore da aggiungere è calcolata come $x\times {\sqrt {1-\beta }}$ . Questo valore viene moltiplicato per la radice quadrata di $1-\beta$ , che rappresenta la quantità di rumore aggiunta al valore originale del pixel.

La varianza della distribuzione gaussiana rappresentante il rumore è determinata dal parametro $\beta$ .

Ora, calcoliamo questi valori:

Media della Distribuzione

La media $\mu$ è $0.6\times {\sqrt {1-0.1}}\approx 0.6\times {\sqrt {0.9}}\approx 0.5692$ .

Varianza della Distribuzione

Supponiamo $C=1$ per semplicità. $\sigma ^{2}=\beta \times C=0.1\times 1=0.1$ .

Quindi, in questo esempio, la media della distribuzione gaussiana rappresentante il rumore da aggiungere al pixel è approssimativamente $0.5692$ , e la varianza della distribuzione è $0.1$ .

Links

On the Theory of Stochastic Processes, with Particular Reference to Applications (1949) Deep Unsupervised Learning using Nonequilibrium Thermodynamics (2015) Diffusion Models Beat GANs on Image Synthesis (2021) Classifier-Free Diffusion Guidance (2022)