Txt2img (Stable Diffusion): differenze tra le versioni

Da Wiki AI.
Riga 119: Riga 119:


= Sperimentazione: Hire steps =
= Sperimentazione: Hire steps =
Questo parametro si riferisce ai passaggi aggiuntivi di elaborazione che vengono eseguiti per rifinire l'immagine dopo la sua creazione iniziale. Impostare "Hires steps" a zero significa che verrà utilizzato lo stesso numero di passaggi dei "sampling steps" durante la generazione dell'immagine. Aumentare i "Hires steps" può migliorare la qualità dell'immagine, ma rallenta anche il processo.
Questo parametro si riferisce ai '''passaggi aggiuntivi''' di elaborazione che vengono eseguiti per '''rifinire''' l'immagine dopo la sua creazione iniziale. Aumentare i "Hires steps" può migliorare la qualità dell'immagine, ma '''rallenterà''' anche il processo.


* Parametri Statici:
* Parametri Statici:

Versione delle 09:35, 14 mar 2024

Txt2img è un tool di Stable Diffusion che, come intuibile, genera un'immagine .png basata su un prompt testuale. Il suo ultimo aggiornamento risale al 28 Ottobre 2022.

I parametri di Txt2img non verranno descritti con massimo dettaglio dal momento che la finalità di questa Wiki entry è di fornire delle linee guida comprovate da sperimentazione diretta.

  • Il primo obiettivo è ricondurre con praticità il livello di performance riscontrato nel modello alle relative combinazioni di parametri.
  • Il secondo obiettivo è creare collegamenti tra ciascun parametro e la corrispondente sezione dell'architettura.

Link di approfondimento

Nel caso si voglia approfondire i setting si può visitare il github relativo alla UI: [1]

Nel caso si voglia approfondire l'architettura generale si può visitare il repository: [2]

Overview dell'interfaccia

  • Sampling method:
  • Sampling steps:

-Tra l'1 e i 15 step: l'immagine è relativamente sfocata.

-Tra i 15 e i 25 step: L'immagine è abbastanza chiara e di buona qualità.

-Tra i 25 e i 45: La qualità dell'immagine è molto alta e comprende la texture.

-Dai 45 in poi: La loss function si stabilizza e si osserva una variazione minima nella risoluzione.

  • Upscaler:

L'upscaling è il processo di aumentare la risoluzione di un'immagine, cioè di ingrandirla, mantenendo al contempo la qualità visiva il più alta possibile. Questo può essere ottenuto mediante algoritmi di interpolazione e tecniche avanzate di elaborazione delle immagini, che aggiungono dettagli artificiali per migliorare l'aspetto dell'immagine.

  • Hires Steps:
  • Denoising strenght
  • Upscale by
  • Width/Height: Dimensioni
  • Batch count
  • Batch size
  • CFG Scale (Classifier Free Guidance Scale)
  • Seed

Sperimentazioni

Per effettuare un'analisi bilanciata utilizzeremo gli stessi due metri di giudizio per valutare gli output:

  • Inception Score
  • Visual Inspection by GPT4

Sperimentazione: Denoising Strength

Questo parametro si riferisce all'intensità della riduzione del rumore applicata a un'immagine. Il "rumore" è il termine usato per descrivere variazioni casuali e non desiderate nei livelli di luminosità o colore di un'immagine, che possono renderla granulosa o offuscata e possono distorcere i dettagli.

  • Parametri Statici:
    • Prompt = "A man cooking a steak, he is in the kitchen, the stoves are on"
    • Clip skip = 1
    • Sampling Method: DPM++2M SDE SGMUniform
    • Sampling Steps: 30
    • Upscaler : Latent (nearest-exact)
    • Hires Step: 0
    • Batch count : 1
    • Batch size: 1
    • CFG : 15
    • Denoising Strength = 0,1 (le sperimentazioni iniziano dopo il valore 0, poiché non si sta fornendo al modello l'opportunità di "pulire" o trasformare il rumore in un'immagine coerente basata sul prompt fornito)
Denoising Strength = 0,1
Denoising Strength = 0,3
Denoising Strength = 0,7

Sperimentazione: CFG Scale

Questo parametro controlla quanto fedelmente il processo di generazione delle immagini segue il prompt di testo fornito. Un valore più alto del CFG Scale significa che l'immagine generata sarà più aderente al testo di input, ossia seguirà più strettamente le indicazioni date. In contrasto, un valore più basso dà al modello più libertà di inventare o di essere creativo, portando a risultati che possono deviare di più dal prompt originale.

  • Parametri Statici:
    • Prompt = "A man cooking a steak, he is in the kitchen, the stoves are on"
    • Clip skip = 1
    • Sampling Method: DPM++2M SDE SGMUniform
    • Sampling Steps: 30
    • Upscaler : Latent (nearest-exact)
    • Hires Step: 0
    • Batch count : 1
    • Batch size: 1
    • CFG : 1
    • Denoising Strength = 0,7
CFG = 1
CFG = 3
CFG = 15

Sperimentazione: Share Attention in Batch

Il parametro "Share attention in batch" è una funzionalità dove l'attenzione del modello, ovvero la parte che il modello "considera" più importante durante la generazione dell'immagine, viene condivisa o sincronizzata tra le immagini in un batch. Quando si generano più immagini contemporaneamente (un batch), questo parametro fa in modo che tutte le immagini nel batch diano priorità a parti simili dell'input, o che le caratteristiche stilistiche siano coerenti tra di loro. Per esempio, se si stanno generando immagini di volti e si vuole che l'attenzione sia focalizzata sugli occhi per tutti i volti nel batch, attivare questa opzione potrebbe aiutare a garantire che tutti i volti generati abbiano occhi ben definiti e uno stile simile. Questo può essere particolarmente utile quando l'obiettivo è creare una serie di immagini che devono essere visivamente coerenti l'una con l'altra.

  • Parametri Statici:
    • Prompt = "A man cooking a steak, he is in the kitchen, the stoves are on"
    • Clip skip = 1
    • Sampling Method: DPM++2M SDE SGMUniform
    • Sampling Steps: 30
    • Upscaler : Latent (nearest-exact)
    • Hires Step: 0
    • Batch count : 1
    • Batch size: 1
    • CFG : 15
    • Denoising Strength = 0,7
SAIB = off
SAIB = on

Sperimentazione: Hire steps

Questo parametro si riferisce ai passaggi aggiuntivi di elaborazione che vengono eseguiti per rifinire l'immagine dopo la sua creazione iniziale. Aumentare i "Hires steps" può migliorare la qualità dell'immagine, ma rallenterà anche il processo.

  • Parametri Statici:
    • Prompt = "A man cooking a steak, he is in the kitchen, the stoves are on, the steak is being cooked on a pan"
    • Clip skip = 1
    • Sampling Method: DPM++2M SDE SGMUniform
    • Sampling Steps: 30
    • Upscaler : Latent (nearest-exact)
    • Hires Step: 0
    • Batch count : 1
    • Batch size: 1
    • CFG : 15
    • Denoising Strength = 0,7
Hire steps = 0
Hire steps = 100