Stable Diffusion

Da Wiki AI.

Nella sua forma più semplice è un modello text-to-image, dato un prompt testuale, genera un'immagine corrispondente. E' stato finanziato da Stability AI, ed è stato rilasciato nel 2022.

Architettura

Utilizza un tipo di Modello Di Diffusione, anche chiamato LDM (Modello di Diffusione Latente, che consiste di tre parti.

[File:forward-diffusion.png|500px]

In maniera iterativa viene poi aggiunto del rumore gaussiano alle rappresentazioni delle immagini come vettori in questo spazio latente.

  • Una rete U-Net, che rimuove il rumore


Addestramento

Addestramento


Inizialmente introdotto nel paper Taming Transformers for High-Resolution Image Synthesis (23/06/2021).


Taming Transformers for High-Resolution Image Synthesis

Links