Txt2img (Stable Diffusion)
Txt2img è un tool di Stable Diffusion che, come intuibile, genera un'immagine .png basata su un prompt testuale. Il suo ultimo aggiornamento risale al 28 Ottobre 2022.
I parametri di Txt2img non verranno descritti con massimo dettaglio dal momento che la finalità di questa Wiki entry è di fornire delle linee guida comprovate da sperimentazione diretta.
- Il primo obiettivo è ricondurre con praticità il livello di performance riscontrato nel modello alle relative combinazioni di parametri.
- Il secondo obiettivo è creare collegamenti tra ciascun parametro e la corrispondente sezione dell'architettura.
Link di approfondimento
Nel caso si voglia approfondire i setting si può visitare il github relativo alla UI: [1]
Nel caso si voglia approfondire l'architettura generale si può visitare il repository: [2]
Overview dell'interfaccia
- Sampling method:
- Sampling steps:
-Tra l'1 e i 15 step: l'immagine è relativamente sfocata.
-Tra i 15 e i 25 step: L'immagine è abbastanza chiara e di buona qualità.
-Tra i 25 e i 45: La qualità dell'immagine è molto alta e comprende la texture.
-Dai 45 in poi: La loss function si stabilizza e si osserva una variazione minima nella risoluzione.
- Upscaler:
L'upscaling è il processo di aumentare la risoluzione di un'immagine, cioè di ingrandirla, mantenendo al contempo la qualità visiva il più alta possibile. Questo può essere ottenuto mediante algoritmi di interpolazione e tecniche avanzate di elaborazione delle immagini, che aggiungono dettagli artificiali per migliorare l'aspetto dell'immagine.
- Hires Steps:
- Denoising strenght
- Upscale by
- Width/Height: Dimensioni
- Batch count
- Batch size
- CFG Scale (Classifier Free Guidance Scale)
- Seed
Sperimentazioni
Per effettuare un'analisi bilanciata utilizzeremo gli stessi due metri di giudizio per valutare gli output:
- Inception Score
- Visual Inspection by GPT4
Sperimentazione: Denoising Strength
- Parametri Statici:
- Prompt = "A man cooking a steak, he is in the kitchen, the stoves are on"
- Sampling Method: DPM++2M SDE SGMUniform
- Sampling Steps: 30
- Upscaler : Latent (nearest-exact)
- Hires Step: 0
- Batch count : 1
- Batch size: 1
- CFG : 15
- Denoising Strength = 0,1 (le sperimentazioni iniziano dopo il valore 0, poiché non si sta fornendo al modello l'opportunità di "pulire" o trasformare il rumore in un'immagine coerente basata sul prompt fornito)
![]() |
![]() |
![]() |
Sperimentazione: CFG Scale
- Parametri Statici:
- Prompt = "A man cooking a steak, he is in the kitchen, the stoves are on"
- Sampling Method: DPM++2M SDE SGMUniform
- Sampling Steps: 30
- Upscaler : Latent (nearest-exact)
- Hires Step: 0
- Batch count : 1
- Batch size: 1
- CFG : 1
- Denoising Strength = 0,7
![]() |
![]() |
![]() |
Il parametro "Share attention in batch" è una funzionalità dove l'attenzione del modello, ovvero la parte che il modello "considera" più importante durante la generazione dell'immagine, viene condivisa o sincronizzata tra le immagini in un batch. Quando si generano più immagini contemporaneamente (un batch), questo parametro fa in modo che tutte le immagini nel batch diano priorità a parti simili dell'input, o che le caratteristiche stilistiche siano coerenti tra di loro. Per esempio, se si stanno generando immagini di volti e si vuole che l'attenzione sia focalizzata sugli occhi per tutti i volti nel batch, attivare questa opzione potrebbe aiutare a garantire che tutti i volti generati abbiano occhi ben definiti e uno stile simile. Questo può essere particolarmente utile quando l'obiettivo è creare una serie di immagini che devono essere visivamente coerenti l'una con l'altra.
- Parametri Statici:
- Prompt = "A man cooking a steak, he is in the kitchen, the stoves are on"
- Sampling Method: DPM++2M SDE SGMUniform
- Sampling Steps: 30
- Upscaler : Latent (nearest-exact)
- Hires Step: 0
- Batch count : 1
- Batch size: 1
- CFG : 15
- Denoising Strength = 0,7
![]() |
![]() |
Sperimentazione: Hire steps
- Parametri Statici:
- Prompt = "A man cooking a steak, he is in the kitchen, the stoves are on, the steak is being cooked on a pan"
- Sampling Method: DPM++2M SDE SGMUniform
- Sampling Steps: 30
- Upscaler : Latent (nearest-exact)
- Hires Step: 0
- Batch count : 1
- Batch size: 1
- CFG : 15
- Denoising Strength = 0,7
![]() |
![]() |