Stable Diffusion: differenze tra le versioni
(Creata pagina con "Nella sua forma più semplice è un modello text-to-image, dato un prompt testuale, genera un'immagine corrispondente. E' stato finanziato da Stability AI, ed è stato rilasciato nel 2022. == Architettura == Utilizza un tipo di [[Modello Di Diffusione], anche chiamato LDM (Modello di Diffusione Latente, che consiste di tre parti. Durante il processo di codifica, o Forward Diffusion, un VAE - Variational Autoencoder comprime l'immagine dallo spazio d...") |
Nessun oggetto della modifica |
||
Riga 3: | Riga 3: | ||
== Architettura == | == Architettura == | ||
Utilizza un tipo di [[Modello Di Diffusione], anche chiamato [[LDM (Modello di Diffusione Latente]], che consiste di tre parti. | Utilizza un tipo di [[Modello Di Diffusione]], anche chiamato [[LDM (Modello di Diffusione Latente]], che consiste di tre parti. | ||
Durante il processo di codifica, o [[Forward Diffusion]], un [[VAE - Variational Autoencoder]] comprime l'immagine dallo spazio dei pixel a uno spazio latente con meno dimensioni, catturando il significato semantico dell'immagine, da cui il termine [[LDM (Modello di Diffusione Latente]]. | Durante il processo di codifica, o [[Forward Diffusion]], un [[VAE - Variational Autoencoder]] comprime l'immagine dallo spazio dei pixel a uno spazio latente con meno dimensioni, catturando il significato semantico dell'immagine, da cui il termine [[LDM (Modello di Diffusione Latente]]. |
Versione delle 13:48, 3 mar 2024
Nella sua forma più semplice è un modello text-to-image, dato un prompt testuale, genera un'immagine corrispondente. E' stato finanziato da Stability AI, ed è stato rilasciato nel 2022.
Architettura
Utilizza un tipo di Modello Di Diffusione, anche chiamato LDM (Modello di Diffusione Latente, che consiste di tre parti.
Durante il processo di codifica, o Forward Diffusion, un VAE - Variational Autoencoder comprime l'immagine dallo spazio dei pixel a uno spazio latente con meno dimensioni, catturando il significato semantico dell'immagine, da cui il termine LDM (Modello di Diffusione Latente.
In maniera iterativa viene poi aggiunto del rumore gaussiano alle rappresentazioni delle immagini come vettori in questo spazio latente.
- Una rete U-Net, che rimuove il rumore
Addestramento
Addestramento
Inizialmente introdotto nel paper Taming Transformers for High-Resolution Image Synthesis (23/06/2021).
Taming Transformers for High-Resolution Image Synthesis