Stable Diffusion
Nella sua forma più semplice è un modello text-to-image, dato un prompt testuale, genera un'immagine corrispondente. E' stato finanziato da Stability AI, ed è stato rilasciato nel 2022.
Architettura
Utilizza un tipo di Modello Di Diffusione, anche chiamato LDM (Modello di Diffusione Latente, che consiste di tre parti.
- Durante il processo di codifica, o Forward Diffusion, un VAE - Variational Autoencoder comprime l'immagine dallo spazio dei pixel a uno spazio latente con meno dimensioni, catturando il significato semantico dell'immagine, da cui il termine LDM (Modello di Diffusione Latente.
[File:forward-diffusion.png|500px]
In maniera iterativa viene poi aggiunto del rumore gaussiano alle rappresentazioni delle immagini come vettori in questo spazio latente.
- Una rete U-Net, che rimuove il rumore
Addestramento
Addestramento
Inizialmente introdotto nel paper Taming Transformers for High-Resolution Image Synthesis (23/06/2021).
Taming Transformers for High-Resolution Image Synthesis