Txt2img (Stable Diffusion): differenze tra le versioni
| Riga 143: | Riga 143: | ||
Il termine "'''Scale'''" si riferisce all'intensità con cui la guida basata sull'auto-attenzione viene applicata durante il processo di generazione. Una "Scale" maggiore implica '''un'adesione più forte al prompt testuale''' e può portare a immagini più '''dettagliate e coerenti con l'input''', anche se potrebbe ridurre la diversità delle immagini generate. | Il termine "'''Scale'''" si riferisce all'intensità con cui la guida basata sull'auto-attenzione viene applicata durante il processo di generazione. Una "Scale" maggiore implica '''un'adesione più forte al prompt testuale''' e può portare a immagini più '''dettagliate e coerenti con l'input''', anche se potrebbe ridurre la diversità delle immagini generate. | ||
Il parametro "'''Blur Sigma'''", invece, è associato al '''grado di sfocatura''' che viene applicato alle regioni selezionate di un'immagine. Questo processo agisce dove le aree con maggiore auto-attenzione — ovvero quelle parti dell'immagine che il modello riconosce come più importanti o informative — vengono '''sfocate''' leggermente. L'idea è che '''enfatizzando''' il lavoro del modello su queste aree sfocate, il modello può generare risultati migliori, migliorando le parti '''più significative''' dell'immagine e '''riducendo''' potenzialmente il '''rumore''' o i '''dettagli superflui''' nelle regioni meno importanti. | Il parametro "'''Blur Sigma'''", invece, è associato al '''grado di sfocatura''' che viene applicato alle regioni selezionate di un'immagine. Questo processo agisce dove le aree con maggiore auto-attenzione — ovvero quelle parti dell'immagine che il modello riconosce come più importanti o informative — vengono '''sfocate''' leggermente. L'idea è che '''enfatizzando''' il lavoro del modello su queste aree sfocate, il modello può generare risultati migliori, migliorando le parti '''più significative''' dell'immagine e '''riducendo''' potenzialmente il '''rumore''' o i '''dettagli superflui''' nelle regioni meno importanti. | ||
I valori di default sono i seguenti: <<Scale = 0,5>> - <<Blur sigma = 2>> | I valori di default sono i seguenti: <<'''Scale = 0,5'''>> - <<'''Blur sigma = 2'''>> | ||
* Parametri Statici: | * Parametri Statici: | ||
Versione delle 10:35, 14 mar 2024
Txt2img è un tool di Stable Diffusion che, come intuibile, genera un'immagine .png basata su un prompt testuale. Il suo ultimo aggiornamento risale al 28 Ottobre 2022.
I parametri di Txt2img non verranno descritti con massimo dettaglio dal momento che la finalità di questa Wiki entry è di fornire delle linee guida comprovate da sperimentazione diretta.
- Il primo obiettivo è ricondurre con praticità il livello di performance riscontrato nel modello alle relative combinazioni di parametri.
- Il secondo obiettivo è creare collegamenti tra ciascun parametro e la corrispondente sezione dell'architettura.
Link di approfondimento
Nel caso si voglia approfondire i setting si può visitare il github relativo alla UI: [1]
Nel caso si voglia approfondire l'architettura generale si può visitare il repository: [2]
Overview dell'interfaccia
- Sampling method:
- Sampling steps:
-Tra l'1 e i 15 step: l'immagine è relativamente sfocata.
-Tra i 15 e i 25 step: L'immagine è abbastanza chiara e di buona qualità.
-Tra i 25 e i 45: La qualità dell'immagine è molto alta e comprende la texture.
-Dai 45 in poi: La loss function si stabilizza e si osserva una variazione minima nella risoluzione.
- Upscaler:
L'upscaling è il processo di aumentare la risoluzione di un'immagine, cioè di ingrandirla, mantenendo al contempo la qualità visiva il più alta possibile. Questo può essere ottenuto mediante algoritmi di interpolazione e tecniche avanzate di elaborazione delle immagini, che aggiungono dettagli artificiali per migliorare l'aspetto dell'immagine.
- Hires Steps:
- Denoising strenght
- Upscale by
- Width/Height: Dimensioni
- Batch count
- Batch size
- CFG Scale (Classifier Free Guidance Scale)
- Seed
Sperimentazioni
Per effettuare un'analisi bilanciata utilizzeremo gli stessi due metri di giudizio per valutare gli output:
- Inception Score
- Visual Inspection by GPT4
Sperimentazione: Denoising Strength
Questo parametro si riferisce all'intensità della riduzione del rumore applicata a un'immagine. Il "rumore" è il termine usato per descrivere variazioni casuali e non desiderate nei livelli di luminosità o colore di un'immagine, che possono renderla granulosa o offuscata e possono distorcere i dettagli.
- Parametri Statici:
- Prompt = "A man cooking a steak, he is in the kitchen, the stoves are on"
- Clip skip = 1
- Sampling Method: DPM++2M SDE SGMUniform
- Sampling Steps: 30
- Upscaler : Latent (nearest-exact)
- Hires Step: 0
- Batch count : 1
- Batch size: 1
- CFG : 15
- Denoising Strength = 0,1 (le sperimentazioni iniziano dopo il valore 0, poiché non si sta fornendo al modello l'opportunità di "pulire" o trasformare il rumore in un'immagine coerente basata sul prompt fornito)
Sperimentazione: CFG Scale
Questo parametro controlla quanto fedelmente il processo di generazione delle immagini segue il prompt di testo fornito. Un valore più alto del CFG Scale significa che l'immagine generata sarà più aderente al testo di input, ossia seguirà più strettamente le indicazioni date. In contrasto, un valore più basso dà al modello più libertà di inventare o di essere creativo, portando a risultati che possono deviare di più dal prompt originale.
- Parametri Statici:
- Prompt = "A man cooking a steak, he is in the kitchen, the stoves are on"
- Clip skip = 1
- Sampling Method: DPM++2M SDE SGMUniform
- Sampling Steps: 30
- Upscaler : Latent (nearest-exact)
- Hires Step: 0
- Batch count : 1
- Batch size: 1
- CFG : 1
- Denoising Strength = 0,7
Il parametro "Share attention in batch" è una funzionalità dove l'attenzione del modello, ovvero la parte che il modello "considera" più importante durante la generazione dell'immagine, viene condivisa o sincronizzata tra le immagini in un batch. Quando si generano più immagini contemporaneamente (un batch), questo parametro fa in modo che tutte le immagini nel batch diano priorità a parti simili dell'input, o che le caratteristiche stilistiche siano coerenti tra di loro. Per esempio, se si stanno generando immagini di volti e si vuole che l'attenzione sia focalizzata sugli occhi per tutti i volti nel batch, attivare questa opzione potrebbe aiutare a garantire che tutti i volti generati abbiano occhi ben definiti e uno stile simile. Questo può essere particolarmente utile quando l'obiettivo è creare una serie di immagini che devono essere visivamente coerenti l'una con l'altra.
- Parametri Statici:
- Prompt = "A man cooking a steak, he is in the kitchen, the stoves are on"
- Clip skip = 1
- Sampling Method: DPM++2M SDE SGMUniform
- Sampling Steps: 30
- Upscaler : Latent (nearest-exact)
- Hires Step: 0
- Batch count : 1
- Batch size: 1
- CFG : 15
- Denoising Strength = 0,7
Sperimentazione: Hire steps
Questo parametro si riferisce ai passaggi aggiuntivi di elaborazione che vengono eseguiti per rifinire l'immagine dopo la sua creazione iniziale. Aumentare l'Hires steps può migliorare la qualità dell'immagine, ma rallenterà anche il processo.
- Parametri Statici:
- Prompt = "A man cooking a steak, he is in the kitchen, the stoves are on, the steak is being cooked on a pan"
- Clip skip = 1
- Sampling Method: DPM++2M SDE SGMUniform
- Sampling Steps: 30
- Upscaler : Latent (nearest-exact)
- Hires Step: 0
- Batch count : 1
- Batch size: 1
- CFG : 15
- Denoising Strength = 0,7
Sperimentazione: SelfAttentionGuidance Integrated
Questa tecnica è progettata per rendere il processo di generazione delle immagini più semplice e veloce per l'utente, migliorando allo stesso tempo la qualità delle immagini prodotte. La funzionalità integrata della "self attention guidance" può aiutare a creare immagini che appaiono più realistiche e con oggetti meglio definiti senza che l'utente debba effettuare configurazioni complesse o passaggi supplementari. Il termine "Scale" si riferisce all'intensità con cui la guida basata sull'auto-attenzione viene applicata durante il processo di generazione. Una "Scale" maggiore implica un'adesione più forte al prompt testuale e può portare a immagini più dettagliate e coerenti con l'input, anche se potrebbe ridurre la diversità delle immagini generate. Il parametro "Blur Sigma", invece, è associato al grado di sfocatura che viene applicato alle regioni selezionate di un'immagine. Questo processo agisce dove le aree con maggiore auto-attenzione — ovvero quelle parti dell'immagine che il modello riconosce come più importanti o informative — vengono sfocate leggermente. L'idea è che enfatizzando il lavoro del modello su queste aree sfocate, il modello può generare risultati migliori, migliorando le parti più significative dell'immagine e riducendo potenzialmente il rumore o i dettagli superflui nelle regioni meno importanti. I valori di default sono i seguenti: <<Scale = 0,5>> - <<Blur sigma = 2>>
- Parametri Statici:
- Prompt = "A man cooking a steak, he is in the kitchen, the stoves are on, the steak is being cooked on a pan"
- Clip skip = 1
- Sampling Method: DPM++2M SDE SGMUniform
- Sampling Steps: 30
- Upscaler : Latent (nearest-exact)
- Hires Step: 0
- Batch count : 1
- Batch size: 1
- CFG : 15
- Denoising Strength = 0,7








