Stable Diffusion

Nella sua forma più semplice è un modello text-to-image, dato un prompt testuale, genera un'immagine corrispondente. E' stato finanziato da Stability AI, ed è stato rilasciato nel 2022.

Architettura

Utilizza un tipo di Modello Di Diffusione, anche chiamato LDM (Modello di Diffusione Latente, che consiste di tre parti.

Durante il processo di codifica, o Forward Diffusion, un VAE - Variational Autoencoder comprime l'immagine dallo spazio dei pixel a uno spazio latente con meno dimensioni, catturando il significato semantico dell'immagine, da cui il termine LDM (Modello di Diffusione Latente.

[File:forward-diffusion.png|500px]

In maniera iterativa viene poi aggiunto del rumore gaussiano alle rappresentazioni delle immagini come vettori in questo spazio latente.

Una rete U-Net, che rimuove il rumore

Addestramento

Inizialmente introdotto nel paper Taming Transformers for High-Resolution Image Synthesis (23/06/2021).

Taming Transformers for High-Resolution Image Synthesis

Architettura

Addestramento

Links