Modello di Diffusione Latente (LDM): differenze tra le versioni
Nessun oggetto della modifica |
Nessun oggetto della modifica |
||
(9 versioni intermedie di 3 utenti non mostrate) | |||
Riga 1: | Riga 1: | ||
Classe di modelli di rete neurale utilizzate per la generazione di immagini e video | {{template architettura | ||
|NomeInglese=Latent Diffusion Model | |||
|Sigla=LDM | |||
|AnnoDiCreazione=2021 | |||
|Pubblicazione=The Theory of Stochastic Processes, with Particular Reference to Applications | |||
|Topic=immagini,video | |||
}} | |||
Classe di modelli di rete neurale utilizzate per la generazione di immagini e video, iniziata con Ho et al., 2020. | |||
== Aggiunta di Rumore Gaussiano ad un'Immagine == | |||
L'aggiunta di rumore gaussiano ad un'immagine comporta l'introduzione di variazioni casuali nei valori dei pixel di un'immagine, seguendo una distribuzione gaussiana. Il rumore gaussiano è caratterizzato dalla sua funzione di densità di probabilità, che segue una distribuzione gaussiana o normale. In parole semplici, ciò significa che i valori del rumore sono più probabili di raggrupparsi intorno al valore medio, con meno occorrenze di valori estremi più lontani dal valore medio. | |||
Quando si aggiunge rumore gaussiano ad un'immagine in un processo di diffusione, l'intensità di ogni pixel viene modificata aggiungendo un valore casuale campionato da una distribuzione gaussiana. I parametri della distribuzione gaussiana, come media e deviazione standard, determinano le caratteristiche del rumore aggiunto all'immagine. | |||
Il processo di diffusione si riferisce alla propagazione di questo rumore in tutta l'immagine, influenzando l'intensità di ogni pixel in modo casualizzato. | |||
== Esempio Numerico == | |||
Supponiamo di avere un'immagine in scala di grigi rappresentata da una griglia di pixel 3x3 per semplicità. Ogni pixel ha un valore compreso tra 0 e 255, dove 0 rappresenta il nero e 255 il bianco. | |||
Supponiamo inoltre che vogliamo aggiungere rumore gaussiano a questa immagine con una varianza <math>\beta</math>. | |||
Consideriamo un pixel con un valore originale normalizzato tra -1 e 1 di <math>x = 0.6</math>, e di avere <math>\beta = 0.1</math> (noise schedule parameter). | |||
=== Media e Varianza della Distribuzione === | |||
La media della distribuzione gaussiana rappresentante il rumore da aggiungere è calcolata come <math>x \times \sqrt{1 - \beta}</math>. Questo valore viene moltiplicato per la radice quadrata di <math>1 - \beta</math>, che rappresenta la quantità di rumore aggiunta al valore originale del pixel. | |||
La varianza della distribuzione gaussiana rappresentante il rumore è determinata dal parametro <math>\beta</math>. | |||
Ora, calcoliamo questi valori: | |||
==== Media della Distribuzione ==== | |||
La media <math>\mu</math> è <math>0.6 \times \sqrt{1 - 0.1} \approx 0.6 \times \sqrt{0.9} \approx 0.5692</math>. | |||
==== Varianza della Distribuzione ==== | |||
Supponiamo <math>C = 1</math> per semplicità. | |||
<math>\sigma^2 = \beta \times C = 0.1 \times 1 = 0.1</math>. | |||
Quindi, in questo esempio, la media della distribuzione gaussiana rappresentante il rumore da aggiungere al pixel è approssimativamente <math>0.5692</math>, e la varianza della distribuzione è <math>0.1</math>. | |||
[[File:Diffusion Models.png|miniatura|nessuno|600x600px|Diffusion Models]] | |||
=== Links === | === Links === | ||
[https://www.semanticscholar.org/paper/On-the-Theory-of-Stochastic-Processes%2C-with-to-Feller/4cdcf495232f3ec44183dc74cd8eca4b44c2de64 On the Theory of Stochastic Processes, with Particular Reference to Applications (1949)] | [https://www.semanticscholar.org/paper/On-the-Theory-of-Stochastic-Processes%2C-with-to-Feller/4cdcf495232f3ec44183dc74cd8eca4b44c2de64 On the Theory of Stochastic Processes, with Particular Reference to Applications (1949)] | ||
[https://arxiv.org/pdf/1503.03585.pdf | [https://arxiv.org/pdf/1503.03585.pdf Deep Unsupervised Learning using Nonequilibrium Thermodynamics (2015)] | ||
[https://arxiv.org/abs/2105.05233 Diffusion Models Beat GANs on Image Synthesis (2021)] | [https://arxiv.org/abs/2105.05233 Diffusion Models Beat GANs on Image Synthesis (2021)] | ||
[https://arxiv.org/abs/2207.12598 Classifier-Free Diffusion Guidance (2022)] | [https://arxiv.org/abs/2207.12598 Classifier-Free Diffusion Guidance (2022)] | ||
[[Category:architettura]] | [[Category:architettura]] | ||
__SHOWFACTBOX__ | |||
{{#seo: | |||
|title=Latent Diffusion Model | |||
|title_mode=append | |||
|keywords=intelligenza artificiale, apprendimento automatico, modelli generativi, reti neurali, generazione di immagini, generazione di video, rumore gaussiano, processo di diffusione, distribuzione gaussiana, deviazione standard, varianza | |||
|description=Questo articolo esplora il modello di diffusione latente (LDM), una classe di reti neurali utilizzate per generare immagini e video. Viene approfondito il processo di aggiunta di rumore gaussiano a un'immagine e la sua propagazione, con esempi numerici per illustrare i concetti di media e varianza della distribuzione gaussiana. L'articolo fornisce anche collegamenti a risorse pertinenti per ulteriori approfondimenti. | |||
|image=Diffusion Models.png | |||
}} |
Versione attuale delle 13:34, 17 ago 2024
Modello di Diffusione Latente (LDM) | |
---|---|
Nome Inglese | Latent Diffusion Model |
Sigla | LDM |
Anno Di Creazione | 2021 |
Pubblicazione | The Theory of Stochastic Processes, with Particular Reference to Applications |
URL | |
Topic | immagini, video |
Classe di modelli di rete neurale utilizzate per la generazione di immagini e video, iniziata con Ho et al., 2020.
Aggiunta di Rumore Gaussiano ad un'Immagine
L'aggiunta di rumore gaussiano ad un'immagine comporta l'introduzione di variazioni casuali nei valori dei pixel di un'immagine, seguendo una distribuzione gaussiana. Il rumore gaussiano è caratterizzato dalla sua funzione di densità di probabilità, che segue una distribuzione gaussiana o normale. In parole semplici, ciò significa che i valori del rumore sono più probabili di raggrupparsi intorno al valore medio, con meno occorrenze di valori estremi più lontani dal valore medio.
Quando si aggiunge rumore gaussiano ad un'immagine in un processo di diffusione, l'intensità di ogni pixel viene modificata aggiungendo un valore casuale campionato da una distribuzione gaussiana. I parametri della distribuzione gaussiana, come media e deviazione standard, determinano le caratteristiche del rumore aggiunto all'immagine.
Il processo di diffusione si riferisce alla propagazione di questo rumore in tutta l'immagine, influenzando l'intensità di ogni pixel in modo casualizzato.
Esempio Numerico
Supponiamo di avere un'immagine in scala di grigi rappresentata da una griglia di pixel 3x3 per semplicità. Ogni pixel ha un valore compreso tra 0 e 255, dove 0 rappresenta il nero e 255 il bianco.
Supponiamo inoltre che vogliamo aggiungere rumore gaussiano a questa immagine con una varianza .
Consideriamo un pixel con un valore originale normalizzato tra -1 e 1 di , e di avere (noise schedule parameter).
Media e Varianza della Distribuzione
La media della distribuzione gaussiana rappresentante il rumore da aggiungere è calcolata come . Questo valore viene moltiplicato per la radice quadrata di , che rappresenta la quantità di rumore aggiunta al valore originale del pixel.
La varianza della distribuzione gaussiana rappresentante il rumore è determinata dal parametro .
Ora, calcoliamo questi valori:
Media della Distribuzione
La media è .
Varianza della Distribuzione
Supponiamo per semplicità. .
Quindi, in questo esempio, la media della distribuzione gaussiana rappresentante il rumore da aggiungere al pixel è approssimativamente , e la varianza della distribuzione è .

Links
On the Theory of Stochastic Processes, with Particular Reference to Applications (1949) Deep Unsupervised Learning using Nonequilibrium Thermodynamics (2015) Diffusion Models Beat GANs on Image Synthesis (2021) Classifier-Free Diffusion Guidance (2022)