Wiki AI - Contributi dell'utente [it]

Stable Diffusion

2024-03-27T13:34:48Z

Stefano: /* Architettura */

Nella sua forma più semplice è un modello [[text-to-image]], dato un [[prompt]] testuale, genera un'immagine corrispondente.
E' stato finanziato da Stability AI, ed è stato rilasciato nel 2022. Il paper originale è [[High-Resolution Image Synthesis with Latent Diffusion Models (Giugno 2022)]].

== Versioni ==
* Versione 1: immagini 512x512
* Versione 2: immagini 768x768 (09/2022)
* [https://huggingface.co/stabilityai/stable-diffusion-xl-base-1.0 Versione XL (SDXL)]: immagini 1024x1024 (07/2023)

== Principale differenza rispetto agli altri modelli di generazione di immagini ==
Diversamente da [[VAE]] e [[Generative Adversarial Networks (GAN)]], che generano le immagini in un solo passaggio, Stable Diffusion genera le immagini iterativamente.

== Architettura ==
Utilizza un tipo di [[Modello Di Diffusione]], anche chiamato [[LDM (Modello di Diffusione Latente)]].
Durante il processo di codifica, o [[Forward Diffusion]], un [[VAE - Variational Autoencoder]] comprime l'immagine dallo spazio dei pixel a uno spazio latente con meno dimensioni, catturando il significato semantico dell'immagine, da cui il termine [[LDM (Modello di Diffusione Latente)]]. Lo spazio latente di Stable Diffusion è di dimensioni 4x64x64 per immagini di dimensioni 512x512, 48 volte più piccolo dello spazio originale dei pixel.

[[File:forward-diffusion.png|500px]]

In maniera iterativa viene poi aggiunto del rumore gaussiano alle rappresentazioni delle immagini come vettori in questo spazio latente, in step, finchè non diventa rumore bianco. Un tipico numero di iterazioni è 1000.
Il processo di [[Reverse Diffusion]] rimuove poi il rumore, attraverso l'utilizzo di un modello [[U-Net]] a cui si insegna a predire quanto rumore è stato aggiunto ad ogni passo. Infine, la parte Decoder del [[VAE - Variational Autoencoder]] viene utilizzata per creare i valori dei pixel dallo spazio latente.

La parte di condizionamento, derivante dal prompt, utilizza la codifica dei token - creta utilizzando il tokenizer [[CLIP]] di [[OpenAI]] in [[embedding]] (dimensione 768 per AUTOMATIC1111), fino a un numero massimo di 75 token. Questi embedding vengono poi utilizzati per "indirizzare" il modello di [[Reverse Diffusion]] verso immagini che contengono ciò che viene richiesto nel prompt.

Stable Diffusion è quindi un modello di diffusione '''latente'''. Invece di operare nello spazio vettoriale dell'immagine (che per un'immagine 512 x 512 con tre canali colore richiederebbe uno spazio composto da 786,432 dimensioni!), comprime l'immagine rappresentandola in uno spazio latente. Lo spazio latente risulta 48 volte più piccolo e per questo il calcolo è alleggerito e molto più veloce di quello di altri modelli come Imagen di Google e [[Dall-e 3 (2023)]] di [[OpenAI]].

== Addestramento ==
L'addestramento, secondo Wikipedia, è stato eseguito utilizzanto [[LAION-5B]].

== Dove provarlo ==

*[[Stable Diffusion WebUI]]

== Tool ==
* [[Txt2img (Stable Diffusion)]]
* [[img2img]]
* [[Extras]]
* [[PNG Info]]
* [[Checkpoint Merger]]
* [[Train]]
* [[SVD]]
* [[Z123]]

== Links ==

=== Papers ===
* [[High-Resolution Image Synthesis with Latent Diffusion Models (Giugno 2022)]]: paper originale
* [https://arxiv.org/abs/2012.09841 Taming Transformers for High-Resolution Image Synthesis]

=== Github ===
* [https://github.com/layerdiffusion/LayerDiffusion Transparent Image Layer Diffusion using Latent Transparency]
* [https://github.com/layerdiffusion/sd-forge-layerdiffusion?tab=readme-ov-file Transparent Image Layer Diffusion using Latent Transparency (WIP extension for SD WebUI)]
* [https://github.com/lllyasviel/stable-diffusion-webui-forge Platform built on top of Stable Diffusion WebUI (based on Gradio)]
* [https://github.com/AUTOMATIC1111/stable-diffusion-webui?tab=readme-ov-file A web interface for Stable Diffusion, implemented using Gradio library]
* [https://github.com/Stability-AI/stablediffusion Official repo contains Stable Diffusion models trained from scratch and will be continuously updated with new checkpoints]
* [https://github.com/CompVis/taming-transformers Taming Transformers for High-Resolution Image Synthesis]

=== Tutorial ===
* [https://stable-diffusion-art.com/how-stable-diffusion-work/ How Stable Diffusion Work]
* [https://pub.towardsai.net/diffusion-models-vs-gans-vs-vaes-comparison-of-deep-generative-models-67ab93e0d9ae Diffusion Models vs. GANs vs. VAEs: Comparison of Deep Generative Models]
* [https://www.youtube.com/watch?v=MXmacOUJUaw&t=1s Stable Diffusion Illustrated]

[[Category:Architettura]]

Txt2img (Stable Diffusion)

2024-03-22T14:44:55Z

Stefano: /* Script */

Txt2img è un tool di [[Stable Diffusion]] che, come intuibile, genera un'immagine .png basata su un prompt testuale. Il suo ultimo aggiornamento risale al 28 Ottobre 2022.

I parametri di Txt2img non verranno descritti con massimo dettaglio dal momento che la finalità di questa Wiki entry è di fornire delle linee guida comprovate da sperimentazione diretta.

* Il primo obiettivo è ricondurre con praticità il livello di performance riscontrato nel modello alle relative combinazioni di parametri.

* Il secondo obiettivo è creare collegamenti tra ciascun parametro e la corrispondente sezione dell'architettura.

= Link di approfondimento =
Nel caso si voglia approfondire i setting si può visitare il github relativo alla UI: [https://github.com/AUTOMATIC1111/stable-diffusion-webui]

Nel caso si voglia approfondire l'architettura generale si può visitare il repository: [https://github.com/Stability-AI/stablediffusion]

= Overview dell'interfaccia =
[[File:Overview_diffusion.png|700x700px]]

* [[Sampling method (Stable Diffusion)|Sampling method]]

* Sampling steps:

-Tra l'1 e i 15 step: l'immagine è relativamente sfocata.

-Tra i 15 e i 25 step: L'immagine è abbastanza chiara e di buona qualità.

-Tra i 25 e i 45: La qualità dell'immagine è molto alta e comprende la texture.

-Dai 45 in poi: La loss function si stabilizza e si osserva una variazione minima nella risoluzione.
{| class="wikitable"
|+
![[File:Sampling step 5.png|miniatura|5 step]]
![[File:10 step.png|miniatura|10 step]]
![[File:15 step.png|miniatura|15 step]]
|}
{| class="wikitable"
|+
![[File:25 step.png|miniatura|25 step]]
![[File:40 step.png|miniatura|40 step]]
![[File:60 step.png|miniatura|60 step]]
|}
{| class="wikitable"
|+
![[File:1 step.png|miniatura|1 step]]
![[File:150 step.png|miniatura|150 step]]
|}

====== Upscaler: ======
L'upscaling è il processo di aumentare la risoluzione di un'immagine, cioè di ingrandirla, mantenendo al contempo la qualità visiva il più alta possibile e può essere ottenuto mediante algoritmi di interpolazione e tecniche avanzate di elaborazione delle immagini, che aggiungono dettagli artificiali per migliorare l'aspetto dell'immagine.

- Hires Steps: migliorano la qualità dell'immagine attraverso iterazioni aggiuntive durante il processo di generazione

- Denoising strenght

- Upscale by: L'upscale di solito avviene dopo che l'immagine è stata completamente generata. L'immagine viene resa più grande senza perdere significativamente in qualità o dettaglio. Si esprime come un multiplier delle dimensioni dell'immagine generata, da 1 a 4.

* Width/Height: Dimensioni

* Batch count: il numero di gruppi in cui i dati vengono divisi durante l'elaborazione. Più batch count può significare una maggiore divisione dei dati durante il processo.

* Batch size: quanti dati vengono elaborati contemporaneamente in ciascun gruppo. Un batch size più grande può accelerare il processo ma richiedere più memoria, mentre un batch size più piccolo può richiedere più tempo ma portare a risultati più precisi.

* CFG Scale (Classifier Free Guidance Scale)

* Seed: Un numero che inizializza il generatore di numeri casuali. Utilizzare lo stesso seed con gli stessi parametri di input produrrà sempre la stessa immagine. È utile per la riproducibilità o per fare piccoli aggiustamenti su un'immagine esistente.
=Tecniche=
*[[TextualInversion]]
*[[Hypernetworks]]
*[[LoRA]]
[[File:Screenshot (378).png|nessuno|miniatura|868x868px|Confronto tra le varie tecniche di personalizzazione]]

= Sperimentazioni =
Per effettuare un'analisi bilanciata utilizzeremo gli stessi due metri di giudizio per valutare gli output:

* Inception Score
* Visual Inspection by GPT4

= Sperimentazione: Denoising Strength =
Questo parametro si riferisce all'intensità della '''riduzione del rumore''' applicata a un'immagine. Il "rumore" è il termine usato per descrivere '''variazioni casuali e non desiderate''' nei livelli di luminosità o colore di un'immagine, che possono renderla '''granulosa''' o '''offuscata''' e possono distorcere i dettagli.

* Parametri Statici:
** Prompt = "A man cooking a steak, he is in the kitchen, the stoves are on"
** Clip skip = 1
** Sampling Method: DPM++2M SDE SGMUniform
** Sampling Steps: 30
** Upscaler : Latent (nearest-exact)
** Hires Step: 0
** Batch count : 1
** Batch size: 1
** CFG : 15
(Le sperimentazioni iniziano dopo il valore 0, poiché non si sta fornendo al modello l'opportunità di "pulire" o trasformare il rumore in un'immagine coerente basata sul prompt fornito)
{| class="wikitable"
|+
|[[File:Cooking_1.png|miniatura|200x200px|Denoising Strength = 0,1]]
|[[File:Cooking_2.png|miniatura|200x200px|Denoising Strength = 0,3]]
|[[File:Cooking_3.png|miniatura|200x200px|Denoising Strength = 0,7]]
|}

==Osservazioni==
Impostando il Denoising Strenght a "0,1", si nota un'elevata quantità di rumore che rende indefiniti sia i dettagli che le sagome degli elementi a schermo. Aumentando de facto il valore del parametro si può osservare nettamente la differenza e l'efficacia fra il valore intermedio (0,3) e quello iniziale, fino ad arrivare ad una qualità più che sufficiente impostando il parametro a "0,7".

==Visual inspection by ChatGPT4==
Qui di seguito ci sarà una descrizione di ChatGPT4 sulla qualità delle immagini, in modo da comprendere se il modello riesca a individuare rumore e artefatti.

<<Le tre immagini mostrano una sequenza di azioni in una cucina, con un uomo che sembra impegnato nella preparazione di un piatto di carne. Nella prima immagine, il cuoco sta flambando la carne, creando un effetto visivo spettacolare con le fiamme che si alzano dalla padella. Nella seconda, appare concentrato nel girare o condire la carne, mentre nella terza è intento a cucinare, forse verificando la cottura o aggiungendo altri ingredienti.
Ogni immagine ha una qualità elevata, con dettagli nitidi e colori vivaci che catturano bene la scena della cucina. L'illuminazione è ben gestita, evidenziando le azioni del cuoco e dando vita agli alimenti in preparazione. La composizione è dinamica e sembra che ci sia stata attenzione nel posizionare ogni elemento per creare una scena armoniosa che guida l'occhio verso il soggetto principale senza distrazioni superflue.
Non si notano artefatti che suggeriscono una manipolazione digitale e le immagini trasmettono un senso di autenticità e professionalità. Ciò suggerisce che probabilmente sono state scattate durante una vera sessione di cucina e che fanno parte di una serie tematica ben pianificata. In sintesi, si tratta di una rappresentazione coerente e accattivante del processo culinario in azione.>>

Dalla descrizione fornita, si nota come ChatGPT4 non riesca ad individuare le differenze sostanziali presenti fra le tre immagini, dimostrando comunque la capacità di saper descrivere il contesto in modo eccellente.

= Sperimentazione: CFG Scale =
Questo parametro controlla quanto fedelmente il processo di generazione delle immagini '''segue''' il prompt di testo fornito. Un valore più alto del CFG Scale significa che l'immagine generata sarà più '''aderente''' al testo di input, ossia seguirà più strettamente le indicazioni date. In contrasto, un valore più basso dà al modello più libertà di '''inventare''' o di essere '''creativo''', portando a risultati che possono '''deviare''' di più dal prompt originale.

* Parametri Statici:
** Prompt = "A man cooking a steak, he is in the kitchen, the stoves are on"
** Clip skip = 1
** Sampling Method: DPM++2M SDE SGMUniform
** Sampling Steps: 30
** Upscaler : Latent (nearest-exact)
** Hires Step: 0
** Batch count : 1
** Batch size: 1
** Denoising Strength = 0,7

{| class="wikitable"
|+
|[[File:CookingCFG2.png|miniatura|200x200px|CFG = 1]]
|[[File:CookingCFG1.png|miniatura|200x200px|CFG = 3]]
|[[File:Cooking_3.png|miniatura|200x200px|CFG = 15]]
|}

==Osservazioni==
Impostando il parametro al suo valore minimo si nota come il modello segua ben poco il prompt fornito. Viene presentato un ragazzo e non un uomo, situato in un posto che ricorda appena una cucina, mentre sta cucinando del cibo che ricorda vagamente la carne. Con un valore pari a "3", il setting è già interamente riconoscibile. In questo caso sono solo le azioni che vengono rappresentate a schermo ad essere poco chiare, poiché si nota un uomo che ha messo una fetta di carne in un forno a legna. L'ultima immagine mostra un contesto totalmente credibile: sia l'ambiente che le azioni sono coerenti con il prompt fornito, benché gli unici difetti facilmente visibili sono gli oggetti che l'uomo tiene in mano per cucinare, essendo poco definiti.

= Sperimentazione: Share Attention in Batch =
Il parametro "'''Share attention in batch'''" è una funzionalità dove l'attenzione del modello, ovvero la parte che il modello "considera" più importante durante la generazione dell'immagine, viene '''condivisa''' o '''sincronizzata''' tra le immagini in un batch. Quando si generano '''più immagini contemporaneamente (un batch)''', questo parametro fa in modo che tutte le immagini nel batch diano priorità a parti simili dell'input, o che le caratteristiche stilistiche siano '''coerenti''' tra di loro. Per esempio, se si stanno generando immagini di volti e si vuole che l'attenzione sia focalizzata sugli occhi per tutti i volti nel batch, attivare questa opzione potrebbe aiutare a garantire che tutti i volti generati abbiano occhi ben definiti e uno stile simile. Questo può essere particolarmente utile quando l'obiettivo è creare una serie di immagini che devono essere visivamente coerenti l'una con l'altra.

* Parametri Statici:
** Prompt = "A man cooking a steak, he is in the kitchen, the stoves are on"
** Clip skip = 1
** Sampling Method: DPM++2M SDE SGMUniform
** Sampling Steps: 30
** Upscaler : Latent (nearest-exact)
** Hires Step: 0
** Batch count : 1
** Batch size: 1
** CFG : 15
** Denoising Strength = 0,7

{| class="wikitable"
|+
|[[File:Cookingstyle1.png|miniatura|200x200px|SAIB = off]]
|[[File:Cookingstyle2.png|miniatura|200x200px|SAIB = on]]
|}

= Sperimentazione: Hires steps =
Questo parametro si riferisce ai '''passaggi aggiuntivi''' di elaborazione che vengono eseguiti per '''rifinire''' l'immagine dopo la sua creazione iniziale. Aumentare l'Hire ssteps può migliorare la qualità dell'immagine, ma '''rallenterà''' anche il processo di generazione.

* Parametri Statici:
** Prompt = "A man cooking a steak, he is in the kitchen, the stoves are on, '''the steak is being cooked on a pan'''"
** Clip skip = 1
** Sampling Method: DPM++2M SDE SGMUniform
** Sampling Steps: 30
** Upscaler : Latent (nearest-exact)
** Batch count : 1
** Batch size: 1
** CFG : 15
** Denoising Strength = 0,7

{| class="wikitable"
|+
|[[File:CookingHS1.png|miniatura|200x200px|Hire steps = 0]]
|[[File:CookingHS3.png|miniatura|200x200px|Hire steps = 100]]
|}

==Osservazioni==
In questa sperimentazione si notano poche differenze fra un'immagine e l'altra; fra l'assenza del parametro e il suo valore massimo. L'unico difetto individuabile si trova nella prima immagine dove l'uomo sta cercando di cuocere la carne senza una padella.

= Sperimentazione: SelfAttentionGuidance Integrated =
Questa tecnica è progettata per rendere il processo di generazione delle immagini '''più semplice e veloce''' per l'utente, migliorando allo stesso tempo la '''qualità''' delle immagini prodotte. La funzionalità integrata della "self attention guidance" può aiutare a creare immagini che appaiono '''più realistiche''' e con oggetti '''meglio definiti''' senza che l'utente debba effettuare configurazioni complesse o '''passaggi supplementari'''.
Il termine "'''Scale'''" si riferisce all'intensità con cui la guida basata sull'auto-attenzione viene applicata durante il processo di generazione. Una "Scale" maggiore implica '''un'adesione più forte al prompt testuale''' e può portare a immagini più '''dettagliate e coerenti con l'input''', anche se potrebbe ridurre la diversità delle immagini generate.
Il parametro "'''Blur Sigma'''", invece, è associato al '''grado di sfocatura''' che viene applicato alle regioni selezionate di un'immagine. Questo processo agisce dove le aree con maggiore auto-attenzione — ovvero quelle parti dell'immagine che il modello riconosce come più importanti o informative — vengono '''sfocate''' leggermente. L'idea è che '''enfatizzando''' il lavoro del modello su queste aree sfocate, il modello può generare risultati migliori, perfezionando le parti '''più significative''' dell'immagine e '''riducendo''' potenzialmente il '''rumore''' o i '''dettagli superflui''' nelle regioni meno importanti.
I valori di default sono i seguenti: <<'''Scale = 0,5'''>> - <<'''Blur sigma = 2'''>>

* Parametri Statici:
** Prompt = "A man cooking a steak, he is in the kitchen, the stoves are on, '''the steak is being cooked on a pan'''"
** Clip skip = 1
** Sampling Method: DPM++2M SDE SGMUniform
** Sampling Steps: 30
** Upscaler : Latent (nearest-exact)
** Hires Step: 0
** Batch count : 1
** Batch size: 1
** CFG : 15
** Denoising Strength = 0,7

{| class="wikitable"
|+
|[[File:SAG_none_-_default.jpg|miniatura|200x200px|Tecnica omessa e valori default]]
|[[File:SAG_Scale.jpg|miniatura|200x200px|SAG Scale (da sinistra): -2; 1; 5]]
|[[File:SAG_BS.jpg|miniatura|200x200px|SAG BS (da sinistra): 0,1; 5; 10]]
|}

==Osservazioni==
Nella prima immagine si osserva il confronto tra l'immagine generata senza la tecnica del SAG e quella generata con quest'ultima. Si evidenzia come l'immagine generata con la tecnica con valori impostati di default sia di qualità inferiore alla prima, suggerendo che bisogna regolare i parametri di "scale" e di "blur sigma". Per quanto riguarda le immagini generate variando solo il parametro di scale, si nota come si ottengano dei pessimi risultati impostando dei valori sia troppo bassi che troppo alti, e che quindi sia necessario lavorare nei valori intermedi (i risultati cambiano in base alla complessità del prompt). Relativamente al parametro di Blur sigma, si notano poche differenze fra le tre immagini, benché ci siano errori evidenti sul modo in cui l'uomo tenga in mano degli oggetti difficilmente identificabili, soprattutto nei valori "0,1" e "10".

=Altri componenti=
{| class="wikitable"
|+
|[[File:altrefunzioni.png|miniatura|500x500px|Tecniche]]
|}
=='''ControlNet'''==
Un modello di '''rete neurale''' progettato per controllare i modelli di Stable Diffusion, fornendo agli utenti un '''controllo dettagliato''' sugli output dei modelli di diffusione nelle attività di generazione di testo in immagine. ControlNet è una struttura di rete neurale che consente '''l'aggiunta di condizioni aggiuntive''' per influenzare l'output dei modelli di diffusione. Queste condizioni possono assumere molte forme, come [[Edge maps]], [[Depth maps]], e [[Semantic segmentations]]. L'uso di ControlNet su Stable Diffusion offre numerosi vantaggi. Consente un controllo preciso sulla semantica e sulle caratteristiche del contenuto generato, consentendo la generazione di output più '''accurati''' e '''personalizzati'''.

[[File:Controlnet2.png|600px]]

=='''DynamicThresholding (CFG-Fix)'''==
è un '''filtro''' per migliorare le immagini. Aiuta a risolvere '''problemi di colore''' quando si usano '''impostazioni più alte'''. Queste ultime, si riferiscono a valori maggiori o livelli superiori, significa utilizzare valori più grandi per '''migliorare''' l’immagine. Ad esempio, se un’immagine è leggermente sbiadita e la si vuole rendere più nitida, è possibile aumentare determinati parametri. Tuttavia, a volte, quando si usano valori troppo alti, potrebbero verificarsi problemi di colore. Ecco dove entra in gioco CFG-Fix: risolve questi problemi di colore quando si utilizzano impostazioni elevate.

=='''FreeU'''==
Un componente aggiuntivo di Stable Diffusion che migliora la qualità dell'immagine modificando il '''denoiser''' del modello. Il miglioramento avviene senza costi: nessun addestramento, nessun parametro aggiuntivo introdotto e nessun aumento della memoria o del tempo di campionamento.

'''Prompt: A 25 year old mage, dress, full body, magic, lightning, rim light, moon, night'''

(Da sinistra) Generazione neutra e utilizzo FreeU.

[[File:maga.png|300px]] [[File:magaFreeU.png|300px]]

=='''HyperTile'''==
è un '''metodo''' che ottimizza il livello di '''auto-attenzione''' all’interno dei modelli Stable-Diffusion. Questo porta a una '''riduzione del tempo di calcolo''' che varia da 1 a 4 volte, a seconda della '''risoluzione iniziale'''.

'''Prompt: A man eating pasta'''

(Da sinistra) Generazione neutra ('''15 sec''') e utilizzo di Hypertile ('''7 sec''')

[[File:Uomopasta1.png|400px]] [[File:Uomopasta2.png|400px]]

=='''Kohya HRFix'''==
è un’'''estensione''' utilizzata nei modelli Stable-Diffusion per migliorare la risoluzione delle immagini generate. Questa estensione è stata sviluppata da Kohya e ha lo scopo di '''limitare i problemi di clonazione/crollo''' nelle immagini ad alta risoluzione. Tuttavia, l’uso di Kohya HRFix può ridurre la varietà delle immagini generate, rendendole più identiche tra loro. Le impostazioni ottimali per Kohya HRFix possono variare a seconda delle esigenze specifiche dell’utente.

'''Prompt: A potrait of a white cat, cozy house'''

(Da sinistra) Generazione neutra e utilizzo Kohya HRFix.

[[File:Gattobianco1.png|300px]] [[File:Gattokoya.png|500px]]

Possiamo notare che nonostante presenti risultati migliori per quanto riguarda la risoluzione e dei dettagli, Kohya ha anche il contro di alterare leggermente l'interpretazione del prompt il che, per artisti dedicati e che curano ogni dettaglio della generazione, può essere un grosso dealbreaker.
[[File:Kohya.png|centro|miniatura|923x923px|Confronto di tempistiche e risultati con e senza Kohya XRFix. fonte: https://www.reddit.com/r/StableDiffusion/comments/17z951a/kohyas_deepshrink_highres_fix_is_amazing_produces/]]

=='''LatentModifier'''==
è un '''componente''' che '''modifica i valori latenti''' durante il '''processo di diffusione''' in un modello di generazione di immagini. Queste modifiche possono influenzare vari aspetti dell’immagine finale, come la '''nitidezza''', il '''contrasto''' e il '''rumore'''. Ci sono parametri

'''Prompt: A potrait of a white cat, cozy house'''

(Da sinistra) Generazione neutra e utilizzo LatentModifier.

[[File:Gattobianco1.png|300px]] [[File:Latentgatto.png|300px]]

=== Sharpness Multiplier: ===
'''Prompt: a cute kitten smoking a cigar'''[[File:Image (3).png|miniatura|321x321px|[[File:Image (4).png|miniatura|341x341px|+100]]-100|nessuno]]

=== Tonemap Multiplier: ===
[[File:Screenshot (367).png|miniatura|851x851px|Tonemap Multiplier: 100|sinistra]]
[[File:Screenshot (368).png|miniatura|852x852px|Miglior risultato ottenuto dalla sperimentazione e relativi parametri|nessuno]]
=='''MultiDiffusion'''==

è un '''framework''' unificato che consente la generazione di immagini '''versatili''' e '''controllabili''', utilizzando un modello di diffusione text-to-image pre-addestrato. Al centro dell’approccio c’è un nuovo processo di generazione, basato su un compito di '''ottimizzazione''' che lega insieme '''più processi''' di generazione di diffusione con un '''insieme condiviso di parametri o vincoli'''. Quindi, invece di utilizzare un'unica immagine di riferimento (prompt), la multidiffusion combina le informazioni da più immagini per creare un'immagine finale più ricca e complessa.
[[File:Screenshot (377).png|nessuno|miniatura|860x860px]]

=='''Never OOM'''==
Parametro puramente tecnico che permette di scaricare sempre i modelli dalla '''VRAM'''. Questo può essere utile se si utilizzano '''più software insieme''' e si desidera che Stable Diffusion utilizzi meno VRAM e ne dia '''una parte ad altri software''', o quando si utilizzano vecchie estensioni che competono con la VRAM di Stable Diffusion. Non ha impatto sulla generazione. [[Category:strumento]]

=='''Script'''==
[[File:script.png|900px]]
Questa funzione è utilizzata per implementare '''script personalizzati''' che possono modificare il '''comportamento''' del processo di generazione di immagini.
*'''None''': Questa è l’opzione predefinita che significa che non viene eseguito alcuno script.
*'''Prompt matrix''': permette di testare e confrontare le modifiche che i prompt apportano alle immagini generate. Si possono strutturare i prompt in modo che ogni immagine nella matrice abbia un prompt che inizia con una frase comune.Per esempio, una immagine avrà il prompt “una ciotola di frutta, mele”, un’altra avrà “una ciotola di frutta, mele, pere” e così via.
*'''Prompts from file or textbox''': permette di caricare i prompt da un file o da un textbox. Si può creare un prompt a piacimento, creare un numero x di variazioni su di esso, copiare quel file di testo, e ripetere fino a quando non hai centinaia di mini file di testo.
*'''X/Y/Z plot''': permette di eseguire test sui propri prompt e impostazioni per vedere i risultati, senza impegnarsi in una generazione di immagini completa. Utilizzando un grafico, si possono confrontare i risultati per vedere quale combinazione di impostazioni funziona meglio.

File:Script.png

2024-03-22T14:43:49Z

Stefano:

Txt2img (Stable Diffusion)

2024-03-22T14:28:31Z

Stefano: /* ControlNet */

Txt2img è un tool di [[Stable Diffusion]] che, come intuibile, genera un'immagine .png basata su un prompt testuale. Il suo ultimo aggiornamento risale al 28 Ottobre 2022.

I parametri di Txt2img non verranno descritti con massimo dettaglio dal momento che la finalità di questa Wiki entry è di fornire delle linee guida comprovate da sperimentazione diretta.

* Il primo obiettivo è ricondurre con praticità il livello di performance riscontrato nel modello alle relative combinazioni di parametri.

* Il secondo obiettivo è creare collegamenti tra ciascun parametro e la corrispondente sezione dell'architettura.

= Link di approfondimento =
Nel caso si voglia approfondire i setting si può visitare il github relativo alla UI: [https://github.com/AUTOMATIC1111/stable-diffusion-webui]

Nel caso si voglia approfondire l'architettura generale si può visitare il repository: [https://github.com/Stability-AI/stablediffusion]

= Overview dell'interfaccia =
[[File:Overview_diffusion.png|700x700px]]

* [[Sampling method (Stable Diffusion)|Sampling method]]

* Sampling steps:

-Tra l'1 e i 15 step: l'immagine è relativamente sfocata.

-Tra i 15 e i 25 step: L'immagine è abbastanza chiara e di buona qualità.

-Tra i 25 e i 45: La qualità dell'immagine è molto alta e comprende la texture.

-Dai 45 in poi: La loss function si stabilizza e si osserva una variazione minima nella risoluzione.
{| class="wikitable"
|+
![[File:Sampling step 5.png|miniatura|5 step]]
![[File:10 step.png|miniatura|10 step]]
![[File:15 step.png|miniatura|15 step]]
|}
{| class="wikitable"
|+
![[File:25 step.png|miniatura|25 step]]
![[File:40 step.png|miniatura|40 step]]
![[File:60 step.png|miniatura|60 step]]
|}
{| class="wikitable"
|+
![[File:1 step.png|miniatura|1 step]]
![[File:150 step.png|miniatura|150 step]]
|}

====== Upscaler: ======
L'upscaling è il processo di aumentare la risoluzione di un'immagine, cioè di ingrandirla, mantenendo al contempo la qualità visiva il più alta possibile e può essere ottenuto mediante algoritmi di interpolazione e tecniche avanzate di elaborazione delle immagini, che aggiungono dettagli artificiali per migliorare l'aspetto dell'immagine.

- Hires Steps: migliorano la qualità dell'immagine attraverso iterazioni aggiuntive durante il processo di generazione

- Denoising strenght

- Upscale by: L'upscale di solito avviene dopo che l'immagine è stata completamente generata. L'immagine viene resa più grande senza perdere significativamente in qualità o dettaglio. Si esprime come un multiplier delle dimensioni dell'immagine generata, da 1 a 4.

* Width/Height: Dimensioni

* Batch count: il numero di gruppi in cui i dati vengono divisi durante l'elaborazione. Più batch count può significare una maggiore divisione dei dati durante il processo.

* Batch size: quanti dati vengono elaborati contemporaneamente in ciascun gruppo. Un batch size più grande può accelerare il processo ma richiedere più memoria, mentre un batch size più piccolo può richiedere più tempo ma portare a risultati più precisi.

* CFG Scale (Classifier Free Guidance Scale)

* Seed: Un numero che inizializza il generatore di numeri casuali. Utilizzare lo stesso seed con gli stessi parametri di input produrrà sempre la stessa immagine. È utile per la riproducibilità o per fare piccoli aggiustamenti su un'immagine esistente.
=Tecniche=
*[[TextualInversion]]
*[[Hypernetworks]]
*[[LoRA]]

= Sperimentazioni =
Per effettuare un'analisi bilanciata utilizzeremo gli stessi due metri di giudizio per valutare gli output:

* Inception Score
* Visual Inspection by GPT4

= Sperimentazione: Denoising Strength =
Questo parametro si riferisce all'intensità della '''riduzione del rumore''' applicata a un'immagine. Il "rumore" è il termine usato per descrivere '''variazioni casuali e non desiderate''' nei livelli di luminosità o colore di un'immagine, che possono renderla '''granulosa''' o '''offuscata''' e possono distorcere i dettagli.

* Parametri Statici:
** Prompt = "A man cooking a steak, he is in the kitchen, the stoves are on"
** Clip skip = 1
** Sampling Method: DPM++2M SDE SGMUniform
** Sampling Steps: 30
** Upscaler : Latent (nearest-exact)
** Hires Step: 0
** Batch count : 1
** Batch size: 1
** CFG : 15
(Le sperimentazioni iniziano dopo il valore 0, poiché non si sta fornendo al modello l'opportunità di "pulire" o trasformare il rumore in un'immagine coerente basata sul prompt fornito)
{| class="wikitable"
|+
|[[File:Cooking_1.png|miniatura|200x200px|Denoising Strength = 0,1]]
|[[File:Cooking_2.png|miniatura|200x200px|Denoising Strength = 0,3]]
|[[File:Cooking_3.png|miniatura|200x200px|Denoising Strength = 0,7]]
|}

==Osservazioni==
Impostando il Denoising Strenght a "0,1", si nota un'elevata quantità di rumore che rende indefiniti sia i dettagli che le sagome degli elementi a schermo. Aumentando de facto il valore del parametro si può osservare nettamente la differenza e l'efficacia fra il valore intermedio (0,3) e quello iniziale, fino ad arrivare ad una qualità più che sufficiente impostando il parametro a "0,7".

==Visual inspection by ChatGPT4==
Qui di seguito ci sarà una descrizione di ChatGPT4 sulla qualità delle immagini, in modo da comprendere se il modello riesca a individuare rumore e artefatti.

<<Le tre immagini mostrano una sequenza di azioni in una cucina, con un uomo che sembra impegnato nella preparazione di un piatto di carne. Nella prima immagine, il cuoco sta flambando la carne, creando un effetto visivo spettacolare con le fiamme che si alzano dalla padella. Nella seconda, appare concentrato nel girare o condire la carne, mentre nella terza è intento a cucinare, forse verificando la cottura o aggiungendo altri ingredienti.
Ogni immagine ha una qualità elevata, con dettagli nitidi e colori vivaci che catturano bene la scena della cucina. L'illuminazione è ben gestita, evidenziando le azioni del cuoco e dando vita agli alimenti in preparazione. La composizione è dinamica e sembra che ci sia stata attenzione nel posizionare ogni elemento per creare una scena armoniosa che guida l'occhio verso il soggetto principale senza distrazioni superflue.
Non si notano artefatti che suggeriscono una manipolazione digitale e le immagini trasmettono un senso di autenticità e professionalità. Ciò suggerisce che probabilmente sono state scattate durante una vera sessione di cucina e che fanno parte di una serie tematica ben pianificata. In sintesi, si tratta di una rappresentazione coerente e accattivante del processo culinario in azione.>>

Dalla descrizione fornita, si nota come ChatGPT4 non riesca ad individuare le differenze sostanziali presenti fra le tre immagini, dimostrando comunque la capacità di saper descrivere il contesto in modo eccellente.

= Sperimentazione: CFG Scale =
Questo parametro controlla quanto fedelmente il processo di generazione delle immagini '''segue''' il prompt di testo fornito. Un valore più alto del CFG Scale significa che l'immagine generata sarà più '''aderente''' al testo di input, ossia seguirà più strettamente le indicazioni date. In contrasto, un valore più basso dà al modello più libertà di '''inventare''' o di essere '''creativo''', portando a risultati che possono '''deviare''' di più dal prompt originale.

* Parametri Statici:
** Prompt = "A man cooking a steak, he is in the kitchen, the stoves are on"
** Clip skip = 1
** Sampling Method: DPM++2M SDE SGMUniform
** Sampling Steps: 30
** Upscaler : Latent (nearest-exact)
** Hires Step: 0
** Batch count : 1
** Batch size: 1
** Denoising Strength = 0,7

{| class="wikitable"
|+
|[[File:CookingCFG2.png|miniatura|200x200px|CFG = 1]]
|[[File:CookingCFG1.png|miniatura|200x200px|CFG = 3]]
|[[File:Cooking_3.png|miniatura|200x200px|CFG = 15]]
|}

==Osservazioni==
Impostando il parametro al suo valore minimo si nota come il modello segua ben poco il prompt fornito. Viene presentato un ragazzo e non un uomo, situato in un posto che ricorda appena una cucina, mentre sta cucinando del cibo che ricorda vagamente la carne. Con un valore pari a "3", il setting è già interamente riconoscibile. In questo caso sono solo le azioni che vengono rappresentate a schermo ad essere poco chiare, poiché si nota un uomo che ha messo una fetta di carne in un forno a legna. L'ultima immagine mostra un contesto totalmente credibile: sia l'ambiente che le azioni sono coerenti con il prompt fornito, benché gli unici difetti facilmente visibili sono gli oggetti che l'uomo tiene in mano per cucinare, essendo poco definiti.

= Sperimentazione: Share Attention in Batch =
Il parametro "'''Share attention in batch'''" è una funzionalità dove l'attenzione del modello, ovvero la parte che il modello "considera" più importante durante la generazione dell'immagine, viene '''condivisa''' o '''sincronizzata''' tra le immagini in un batch. Quando si generano '''più immagini contemporaneamente (un batch)''', questo parametro fa in modo che tutte le immagini nel batch diano priorità a parti simili dell'input, o che le caratteristiche stilistiche siano '''coerenti''' tra di loro. Per esempio, se si stanno generando immagini di volti e si vuole che l'attenzione sia focalizzata sugli occhi per tutti i volti nel batch, attivare questa opzione potrebbe aiutare a garantire che tutti i volti generati abbiano occhi ben definiti e uno stile simile. Questo può essere particolarmente utile quando l'obiettivo è creare una serie di immagini che devono essere visivamente coerenti l'una con l'altra.

* Parametri Statici:
** Prompt = "A man cooking a steak, he is in the kitchen, the stoves are on"
** Clip skip = 1
** Sampling Method: DPM++2M SDE SGMUniform
** Sampling Steps: 30
** Upscaler : Latent (nearest-exact)
** Hires Step: 0
** Batch count : 1
** Batch size: 1
** CFG : 15
** Denoising Strength = 0,7

{| class="wikitable"
|+
|[[File:Cookingstyle1.png|miniatura|200x200px|SAIB = off]]
|[[File:Cookingstyle2.png|miniatura|200x200px|SAIB = on]]
|}

= Sperimentazione: Hires steps =
Questo parametro si riferisce ai '''passaggi aggiuntivi''' di elaborazione che vengono eseguiti per '''rifinire''' l'immagine dopo la sua creazione iniziale. Aumentare l'Hire ssteps può migliorare la qualità dell'immagine, ma '''rallenterà''' anche il processo di generazione.

* Parametri Statici:
** Prompt = "A man cooking a steak, he is in the kitchen, the stoves are on, '''the steak is being cooked on a pan'''"
** Clip skip = 1
** Sampling Method: DPM++2M SDE SGMUniform
** Sampling Steps: 30
** Upscaler : Latent (nearest-exact)
** Batch count : 1
** Batch size: 1
** CFG : 15
** Denoising Strength = 0,7

{| class="wikitable"
|+
|[[File:CookingHS1.png|miniatura|200x200px|Hire steps = 0]]
|[[File:CookingHS3.png|miniatura|200x200px|Hire steps = 100]]
|}

==Osservazioni==
In questa sperimentazione si notano poche differenze fra un'immagine e l'altra; fra l'assenza del parametro e il suo valore massimo. L'unico difetto individuabile si trova nella prima immagine dove l'uomo sta cercando di cuocere la carne senza una padella.

= Sperimentazione: SelfAttentionGuidance Integrated =
Questa tecnica è progettata per rendere il processo di generazione delle immagini '''più semplice e veloce''' per l'utente, migliorando allo stesso tempo la '''qualità''' delle immagini prodotte. La funzionalità integrata della "self attention guidance" può aiutare a creare immagini che appaiono '''più realistiche''' e con oggetti '''meglio definiti''' senza che l'utente debba effettuare configurazioni complesse o '''passaggi supplementari'''.
Il termine "'''Scale'''" si riferisce all'intensità con cui la guida basata sull'auto-attenzione viene applicata durante il processo di generazione. Una "Scale" maggiore implica '''un'adesione più forte al prompt testuale''' e può portare a immagini più '''dettagliate e coerenti con l'input''', anche se potrebbe ridurre la diversità delle immagini generate.
Il parametro "'''Blur Sigma'''", invece, è associato al '''grado di sfocatura''' che viene applicato alle regioni selezionate di un'immagine. Questo processo agisce dove le aree con maggiore auto-attenzione — ovvero quelle parti dell'immagine che il modello riconosce come più importanti o informative — vengono '''sfocate''' leggermente. L'idea è che '''enfatizzando''' il lavoro del modello su queste aree sfocate, il modello può generare risultati migliori, perfezionando le parti '''più significative''' dell'immagine e '''riducendo''' potenzialmente il '''rumore''' o i '''dettagli superflui''' nelle regioni meno importanti.
I valori di default sono i seguenti: <<'''Scale = 0,5'''>> - <<'''Blur sigma = 2'''>>

* Parametri Statici:
** Prompt = "A man cooking a steak, he is in the kitchen, the stoves are on, '''the steak is being cooked on a pan'''"
** Clip skip = 1
** Sampling Method: DPM++2M SDE SGMUniform
** Sampling Steps: 30
** Upscaler : Latent (nearest-exact)
** Hires Step: 0
** Batch count : 1
** Batch size: 1
** CFG : 15
** Denoising Strength = 0,7

{| class="wikitable"
|+
|[[File:SAG_none_-_default.jpg|miniatura|200x200px|Tecnica omessa e valori default]]
|[[File:SAG_Scale.jpg|miniatura|200x200px|SAG Scale (da sinistra): -2; 1; 5]]
|[[File:SAG_BS.jpg|miniatura|200x200px|SAG BS (da sinistra): 0,1; 5; 10]]
|}

==Osservazioni==
Nella prima immagine si osserva il confronto tra l'immagine generata senza la tecnica del SAG e quella generata con quest'ultima. Si evidenzia come l'immagine generata con la tecnica con valori impostati di default sia di qualità inferiore alla prima, suggerendo che bisogna regolare i parametri di "scale" e di "blur sigma". Per quanto riguarda le immagini generate variando solo il parametro di scale, si nota come si ottengano dei pessimi risultati impostando dei valori sia troppo bassi che troppo alti, e che quindi sia necessario lavorare nei valori intermedi (i risultati cambiano in base alla complessità del prompt). Relativamente al parametro di Blur sigma, si notano poche differenze fra le tre immagini, benché ci siano errori evidenti sul modo in cui l'uomo tenga in mano degli oggetti difficilmente identificabili, soprattutto nei valori "0,1" e "10".

=Altri componenti=
{| class="wikitable"
|+
|[[File:altrefunzioni.png|miniatura|500x500px|Tecniche]]
|}
=='''ControlNet'''==
Un modello di '''rete neurale''' progettato per controllare i modelli di Stable Diffusion, fornendo agli utenti un '''controllo dettagliato''' sugli output dei modelli di diffusione nelle attività di generazione di testo in immagine. ControlNet è una struttura di rete neurale che consente '''l'aggiunta di condizioni aggiuntive''' per influenzare l'output dei modelli di diffusione. Queste condizioni possono assumere molte forme, come [[Edge maps]], [[Depth maps]], e [[Semantic segmentations]]. L'uso di ControlNet su Stable Diffusion offre numerosi vantaggi. Consente un controllo preciso sulla semantica e sulle caratteristiche del contenuto generato, consentendo la generazione di output più '''accurati''' e '''personalizzati'''.

[[File:Controlnet2.png|600px]]

=='''DynamicThresholding (CFG-Fix)'''==
è un '''filtro''' per migliorare le immagini. Aiuta a risolvere '''problemi di colore''' quando si usano '''impostazioni più alte'''. Queste ultime, si riferiscono a valori maggiori o livelli superiori, significa utilizzare valori più grandi per '''migliorare''' l’immagine. Ad esempio, se un’immagine è leggermente sbiadita e la si vuole rendere più nitida, è possibile aumentare determinati parametri. Tuttavia, a volte, quando si usano valori troppo alti, potrebbero verificarsi problemi di colore. Ecco dove entra in gioco CFG-Fix: risolve questi problemi di colore quando si utilizzano impostazioni elevate.

=='''FreeU'''==
Un componente aggiuntivo di Stable Diffusion che migliora la qualità dell'immagine modificando il '''denoiser''' del modello. Il miglioramento avviene senza costi: nessun addestramento, nessun parametro aggiuntivo introdotto e nessun aumento della memoria o del tempo di campionamento.

'''Prompt: A 25 year old mage, dress, full body, magic, lightning, rim light, moon, night'''

(Da sinistra) Generazione neutra e utilizzo FreeU.

[[File:maga.png|300px]] [[File:magaFreeU.png|300px]]

=='''HyperTile'''==
è un '''metodo''' che ottimizza il livello di '''auto-attenzione''' all’interno dei modelli Stable-Diffusion. Questo porta a una '''riduzione del tempo di calcolo''' che varia da 1 a 4 volte, a seconda della '''risoluzione iniziale'''.

'''Prompt: A man eating pasta'''

(Da sinistra) Generazione neutra ('''15 sec''') e utilizzo di Hypertile ('''7 sec''')

[[File:Uomopasta1.png|400px]] [[File:Uomopasta2.png|400px]]

=='''Kohya HRFix'''==
è un’'''estensione''' utilizzata nei modelli Stable-Diffusion per migliorare la risoluzione delle immagini generate. Questa estensione è stata sviluppata da Kohya e ha lo scopo di '''limitare i problemi di clonazione/crollo''' nelle immagini ad alta risoluzione. Tuttavia, l’uso di Kohya HRFix può ridurre la varietà delle immagini generate, rendendole più identiche tra loro. Le impostazioni ottimali per Kohya HRFix possono variare a seconda delle esigenze specifiche dell’utente.

'''Prompt: A potrait of a white cat, cozy house'''

(Da sinistra) Generazione neutra e utilizzo Kohya HRFix.

[[File:Gattobianco1.png|300px]] [[File:Gattokoya.png|500px]]

Possiamo notare che nonostante presenti risultati migliori per quanto riguarda la risoluzione e dei dettagli, Kohya ha anche il contro di alterare leggermente l'interpretazione del prompt il che, per artisti dedicati e che curano ogni dettaglio della generazione, può essere un grosso dealbreaker.
[[File:Kohya.png|centro|miniatura|923x923px|Confronto di tempistiche e risultati con e senza Kohya XRFix. fonte: https://www.reddit.com/r/StableDiffusion/comments/17z951a/kohyas_deepshrink_highres_fix_is_amazing_produces/]]

=='''LatentModifier'''==
è un '''componente''' che '''modifica i valori latenti''' durante il '''processo di diffusione''' in un modello di generazione di immagini. Queste modifiche possono influenzare vari aspetti dell’immagine finale, come la '''nitidezza''', il '''contrasto''' e il '''rumore'''. Ci sono parametri

'''Prompt: A potrait of a white cat, cozy house'''

(Da sinistra) Generazione neutra e utilizzo LatentModifier.

[[File:Gattobianco1.png|300px]] [[File:Latentgatto.png|300px]]
'''Prompt: a cute kitten smoking a cigar'''

'''Prompt: a cute kitten smoking a cigar'''

=== Sharpness Multiplier: ===
[[File:Image (3).png|sinistra|miniatura|313x313px|-100]]
[[File:Image (4).png|miniatura|326x326px|+100|centro]]
[[File:Screenshot (367).png|miniatura|851x851px|Tonemap Multiplier: 100|sinistra]]
[[File:Screenshot (368).png|miniatura|852x852px|Miglior risultato ottenuto dalla sperimentazione e relativi parametri|nessuno]]
=='''MultiDiffusion'''==

è un '''framework''' unificato che consente la generazione di immagini '''versatili''' e '''controllabili''', utilizzando un modello di diffusione text-to-image pre-addestrato. Al centro dell’approccio c’è un nuovo processo di generazione, basato su un compito di '''ottimizzazione''' che lega insieme '''più processi''' di generazione di diffusione con un '''insieme condiviso di parametri o vincoli'''. Quindi, invece di utilizzare un'unica immagine di riferimento (prompt), la multidiffusion combina le informazioni da più immagini per creare un'immagine finale più ricca e complessa.

=='''Never OOM'''==
Parametro puramente tecnico che permette di scaricare sempre i modelli dalla '''VRAM'''. Questo può essere utile se si utilizzano '''più software insieme''' e si desidera che Stable Diffusion utilizzi meno VRAM e ne dia '''una parte ad altri software''', o quando si utilizzano vecchie estensioni che competono con la VRAM di Stable Diffusion. Non ha impatto sulla generazione. [[Category:strumento]]

=='''Script'''==
Questa funzione è utilizzata per implementare '''script personalizzati''' che possono modificare il '''comportamento''' del processo di generazione di immagini.
*'''None''': Questa è l’opzione predefinita che significa che non viene eseguito alcuno script.
*'''Prompt matrix''': permette di testare e confrontare le modifiche che i prompt apportano alle immagini generate. Si possono strutturare i prompt in modo che ogni immagine nella matrice abbia un prompt che inizia con una frase comune.Per esempio, una immagine avrà il prompt “una ciotola di frutta, mele”, un’altra avrà “una ciotola di frutta, mele, pere” e così via.
*'''Prompts from file or textbox''': permette di caricare i prompt da un file o da un textbox. Si può creare un prompt a piacimento, creare un numero x di variazioni su di esso, copiare quel file di testo, e ripetere fino a quando non hai centinaia di mini file di testo.
*'''X/Y/Z plot''': permette di eseguire test sui propri prompt e impostazioni per vedere i risultati, senza impegnarsi in una generazione di immagini completa. Utilizzando un grafico, si possono confrontare i risultati per vedere quale combinazione di impostazioni funziona meglio.

File:Controlnet2.png

2024-03-22T14:28:06Z

Stefano:

Txt2img (Stable Diffusion)

2024-03-22T14:26:07Z

Stefano: /* MultiDiffusion */

Txt2img è un tool di [[Stable Diffusion]] che, come intuibile, genera un'immagine .png basata su un prompt testuale. Il suo ultimo aggiornamento risale al 28 Ottobre 2022.

I parametri di Txt2img non verranno descritti con massimo dettaglio dal momento che la finalità di questa Wiki entry è di fornire delle linee guida comprovate da sperimentazione diretta.

* Il primo obiettivo è ricondurre con praticità il livello di performance riscontrato nel modello alle relative combinazioni di parametri.

* Il secondo obiettivo è creare collegamenti tra ciascun parametro e la corrispondente sezione dell'architettura.

= Link di approfondimento =
Nel caso si voglia approfondire i setting si può visitare il github relativo alla UI: [https://github.com/AUTOMATIC1111/stable-diffusion-webui]

Nel caso si voglia approfondire l'architettura generale si può visitare il repository: [https://github.com/Stability-AI/stablediffusion]

= Overview dell'interfaccia =
[[File:Overview_diffusion.png|700x700px]]

* [[Sampling method (Stable Diffusion)|Sampling method]]

* Sampling steps:

-Tra l'1 e i 15 step: l'immagine è relativamente sfocata.

-Tra i 15 e i 25 step: L'immagine è abbastanza chiara e di buona qualità.

-Tra i 25 e i 45: La qualità dell'immagine è molto alta e comprende la texture.

-Dai 45 in poi: La loss function si stabilizza e si osserva una variazione minima nella risoluzione.
{| class="wikitable"
|+
![[File:Sampling step 5.png|miniatura|5 step]]
![[File:10 step.png|miniatura|10 step]]
![[File:15 step.png|miniatura|15 step]]
|}
{| class="wikitable"
|+
![[File:25 step.png|miniatura|25 step]]
![[File:40 step.png|miniatura|40 step]]
![[File:60 step.png|miniatura|60 step]]
|}
{| class="wikitable"
|+
![[File:1 step.png|miniatura|1 step]]
![[File:150 step.png|miniatura|150 step]]
|}

====== Upscaler: ======
L'upscaling è il processo di aumentare la risoluzione di un'immagine, cioè di ingrandirla, mantenendo al contempo la qualità visiva il più alta possibile e può essere ottenuto mediante algoritmi di interpolazione e tecniche avanzate di elaborazione delle immagini, che aggiungono dettagli artificiali per migliorare l'aspetto dell'immagine.

- Hires Steps: migliorano la qualità dell'immagine attraverso iterazioni aggiuntive durante il processo di generazione

- Denoising strenght

- Upscale by: L'upscale di solito avviene dopo che l'immagine è stata completamente generata. L'immagine viene resa più grande senza perdere significativamente in qualità o dettaglio. Si esprime come un multiplier delle dimensioni dell'immagine generata, da 1 a 4.

* Width/Height: Dimensioni

* Batch count: il numero di gruppi in cui i dati vengono divisi durante l'elaborazione. Più batch count può significare una maggiore divisione dei dati durante il processo.

* Batch size: quanti dati vengono elaborati contemporaneamente in ciascun gruppo. Un batch size più grande può accelerare il processo ma richiedere più memoria, mentre un batch size più piccolo può richiedere più tempo ma portare a risultati più precisi.

* CFG Scale (Classifier Free Guidance Scale)

* Seed: Un numero che inizializza il generatore di numeri casuali. Utilizzare lo stesso seed con gli stessi parametri di input produrrà sempre la stessa immagine. È utile per la riproducibilità o per fare piccoli aggiustamenti su un'immagine esistente.
=Tecniche=
*[[TextualInversion]]
*[[Hypernetworks]]
*[[LoRA]]

= Sperimentazioni =
Per effettuare un'analisi bilanciata utilizzeremo gli stessi due metri di giudizio per valutare gli output:

* Inception Score
* Visual Inspection by GPT4

= Sperimentazione: Denoising Strength =
Questo parametro si riferisce all'intensità della '''riduzione del rumore''' applicata a un'immagine. Il "rumore" è il termine usato per descrivere '''variazioni casuali e non desiderate''' nei livelli di luminosità o colore di un'immagine, che possono renderla '''granulosa''' o '''offuscata''' e possono distorcere i dettagli.

* Parametri Statici:
** Prompt = "A man cooking a steak, he is in the kitchen, the stoves are on"
** Clip skip = 1
** Sampling Method: DPM++2M SDE SGMUniform
** Sampling Steps: 30
** Upscaler : Latent (nearest-exact)
** Hires Step: 0
** Batch count : 1
** Batch size: 1
** CFG : 15
(Le sperimentazioni iniziano dopo il valore 0, poiché non si sta fornendo al modello l'opportunità di "pulire" o trasformare il rumore in un'immagine coerente basata sul prompt fornito)
{| class="wikitable"
|+
|[[File:Cooking_1.png|miniatura|200x200px|Denoising Strength = 0,1]]
|[[File:Cooking_2.png|miniatura|200x200px|Denoising Strength = 0,3]]
|[[File:Cooking_3.png|miniatura|200x200px|Denoising Strength = 0,7]]
|}

==Osservazioni==
Impostando il Denoising Strenght a "0,1", si nota un'elevata quantità di rumore che rende indefiniti sia i dettagli che le sagome degli elementi a schermo. Aumentando de facto il valore del parametro si può osservare nettamente la differenza e l'efficacia fra il valore intermedio (0,3) e quello iniziale, fino ad arrivare ad una qualità più che sufficiente impostando il parametro a "0,7".

==Visual inspection by ChatGPT4==
Qui di seguito ci sarà una descrizione di ChatGPT4 sulla qualità delle immagini, in modo da comprendere se il modello riesca a individuare rumore e artefatti.

<<Le tre immagini mostrano una sequenza di azioni in una cucina, con un uomo che sembra impegnato nella preparazione di un piatto di carne. Nella prima immagine, il cuoco sta flambando la carne, creando un effetto visivo spettacolare con le fiamme che si alzano dalla padella. Nella seconda, appare concentrato nel girare o condire la carne, mentre nella terza è intento a cucinare, forse verificando la cottura o aggiungendo altri ingredienti.
Ogni immagine ha una qualità elevata, con dettagli nitidi e colori vivaci che catturano bene la scena della cucina. L'illuminazione è ben gestita, evidenziando le azioni del cuoco e dando vita agli alimenti in preparazione. La composizione è dinamica e sembra che ci sia stata attenzione nel posizionare ogni elemento per creare una scena armoniosa che guida l'occhio verso il soggetto principale senza distrazioni superflue.
Non si notano artefatti che suggeriscono una manipolazione digitale e le immagini trasmettono un senso di autenticità e professionalità. Ciò suggerisce che probabilmente sono state scattate durante una vera sessione di cucina e che fanno parte di una serie tematica ben pianificata. In sintesi, si tratta di una rappresentazione coerente e accattivante del processo culinario in azione.>>

Dalla descrizione fornita, si nota come ChatGPT4 non riesca ad individuare le differenze sostanziali presenti fra le tre immagini, dimostrando comunque la capacità di saper descrivere il contesto in modo eccellente.

= Sperimentazione: CFG Scale =
Questo parametro controlla quanto fedelmente il processo di generazione delle immagini '''segue''' il prompt di testo fornito. Un valore più alto del CFG Scale significa che l'immagine generata sarà più '''aderente''' al testo di input, ossia seguirà più strettamente le indicazioni date. In contrasto, un valore più basso dà al modello più libertà di '''inventare''' o di essere '''creativo''', portando a risultati che possono '''deviare''' di più dal prompt originale.

* Parametri Statici:
** Prompt = "A man cooking a steak, he is in the kitchen, the stoves are on"
** Clip skip = 1
** Sampling Method: DPM++2M SDE SGMUniform
** Sampling Steps: 30
** Upscaler : Latent (nearest-exact)
** Hires Step: 0
** Batch count : 1
** Batch size: 1
** Denoising Strength = 0,7

{| class="wikitable"
|+
|[[File:CookingCFG2.png|miniatura|200x200px|CFG = 1]]
|[[File:CookingCFG1.png|miniatura|200x200px|CFG = 3]]
|[[File:Cooking_3.png|miniatura|200x200px|CFG = 15]]
|}

==Osservazioni==
Impostando il parametro al suo valore minimo si nota come il modello segua ben poco il prompt fornito. Viene presentato un ragazzo e non un uomo, situato in un posto che ricorda appena una cucina, mentre sta cucinando del cibo che ricorda vagamente la carne. Con un valore pari a "3", il setting è già interamente riconoscibile. In questo caso sono solo le azioni che vengono rappresentate a schermo ad essere poco chiare, poiché si nota un uomo che ha messo una fetta di carne in un forno a legna. L'ultima immagine mostra un contesto totalmente credibile: sia l'ambiente che le azioni sono coerenti con il prompt fornito, benché gli unici difetti facilmente visibili sono gli oggetti che l'uomo tiene in mano per cucinare, essendo poco definiti.

= Sperimentazione: Share Attention in Batch =
Il parametro "'''Share attention in batch'''" è una funzionalità dove l'attenzione del modello, ovvero la parte che il modello "considera" più importante durante la generazione dell'immagine, viene '''condivisa''' o '''sincronizzata''' tra le immagini in un batch. Quando si generano '''più immagini contemporaneamente (un batch)''', questo parametro fa in modo che tutte le immagini nel batch diano priorità a parti simili dell'input, o che le caratteristiche stilistiche siano '''coerenti''' tra di loro. Per esempio, se si stanno generando immagini di volti e si vuole che l'attenzione sia focalizzata sugli occhi per tutti i volti nel batch, attivare questa opzione potrebbe aiutare a garantire che tutti i volti generati abbiano occhi ben definiti e uno stile simile. Questo può essere particolarmente utile quando l'obiettivo è creare una serie di immagini che devono essere visivamente coerenti l'una con l'altra.

* Parametri Statici:
** Prompt = "A man cooking a steak, he is in the kitchen, the stoves are on"
** Clip skip = 1
** Sampling Method: DPM++2M SDE SGMUniform
** Sampling Steps: 30
** Upscaler : Latent (nearest-exact)
** Hires Step: 0
** Batch count : 1
** Batch size: 1
** CFG : 15
** Denoising Strength = 0,7

{| class="wikitable"
|+
|[[File:Cookingstyle1.png|miniatura|200x200px|SAIB = off]]
|[[File:Cookingstyle2.png|miniatura|200x200px|SAIB = on]]
|}

= Sperimentazione: Hires steps =
Questo parametro si riferisce ai '''passaggi aggiuntivi''' di elaborazione che vengono eseguiti per '''rifinire''' l'immagine dopo la sua creazione iniziale. Aumentare l'Hire ssteps può migliorare la qualità dell'immagine, ma '''rallenterà''' anche il processo di generazione.

* Parametri Statici:
** Prompt = "A man cooking a steak, he is in the kitchen, the stoves are on, '''the steak is being cooked on a pan'''"
** Clip skip = 1
** Sampling Method: DPM++2M SDE SGMUniform
** Sampling Steps: 30
** Upscaler : Latent (nearest-exact)
** Batch count : 1
** Batch size: 1
** CFG : 15
** Denoising Strength = 0,7

{| class="wikitable"
|+
|[[File:CookingHS1.png|miniatura|200x200px|Hire steps = 0]]
|[[File:CookingHS3.png|miniatura|200x200px|Hire steps = 100]]
|}

==Osservazioni==
In questa sperimentazione si notano poche differenze fra un'immagine e l'altra; fra l'assenza del parametro e il suo valore massimo. L'unico difetto individuabile si trova nella prima immagine dove l'uomo sta cercando di cuocere la carne senza una padella.

= Sperimentazione: SelfAttentionGuidance Integrated =
Questa tecnica è progettata per rendere il processo di generazione delle immagini '''più semplice e veloce''' per l'utente, migliorando allo stesso tempo la '''qualità''' delle immagini prodotte. La funzionalità integrata della "self attention guidance" può aiutare a creare immagini che appaiono '''più realistiche''' e con oggetti '''meglio definiti''' senza che l'utente debba effettuare configurazioni complesse o '''passaggi supplementari'''.
Il termine "'''Scale'''" si riferisce all'intensità con cui la guida basata sull'auto-attenzione viene applicata durante il processo di generazione. Una "Scale" maggiore implica '''un'adesione più forte al prompt testuale''' e può portare a immagini più '''dettagliate e coerenti con l'input''', anche se potrebbe ridurre la diversità delle immagini generate.
Il parametro "'''Blur Sigma'''", invece, è associato al '''grado di sfocatura''' che viene applicato alle regioni selezionate di un'immagine. Questo processo agisce dove le aree con maggiore auto-attenzione — ovvero quelle parti dell'immagine che il modello riconosce come più importanti o informative — vengono '''sfocate''' leggermente. L'idea è che '''enfatizzando''' il lavoro del modello su queste aree sfocate, il modello può generare risultati migliori, perfezionando le parti '''più significative''' dell'immagine e '''riducendo''' potenzialmente il '''rumore''' o i '''dettagli superflui''' nelle regioni meno importanti.
I valori di default sono i seguenti: <<'''Scale = 0,5'''>> - <<'''Blur sigma = 2'''>>

* Parametri Statici:
** Prompt = "A man cooking a steak, he is in the kitchen, the stoves are on, '''the steak is being cooked on a pan'''"
** Clip skip = 1
** Sampling Method: DPM++2M SDE SGMUniform
** Sampling Steps: 30
** Upscaler : Latent (nearest-exact)
** Hires Step: 0
** Batch count : 1
** Batch size: 1
** CFG : 15
** Denoising Strength = 0,7

{| class="wikitable"
|+
|[[File:SAG_none_-_default.jpg|miniatura|200x200px|Tecnica omessa e valori default]]
|[[File:SAG_Scale.jpg|miniatura|200x200px|SAG Scale (da sinistra): -2; 1; 5]]
|[[File:SAG_BS.jpg|miniatura|200x200px|SAG BS (da sinistra): 0,1; 5; 10]]
|}

==Osservazioni==
Nella prima immagine si osserva il confronto tra l'immagine generata senza la tecnica del SAG e quella generata con quest'ultima. Si evidenzia come l'immagine generata con la tecnica con valori impostati di default sia di qualità inferiore alla prima, suggerendo che bisogna regolare i parametri di "scale" e di "blur sigma". Per quanto riguarda le immagini generate variando solo il parametro di scale, si nota come si ottengano dei pessimi risultati impostando dei valori sia troppo bassi che troppo alti, e che quindi sia necessario lavorare nei valori intermedi (i risultati cambiano in base alla complessità del prompt). Relativamente al parametro di Blur sigma, si notano poche differenze fra le tre immagini, benché ci siano errori evidenti sul modo in cui l'uomo tenga in mano degli oggetti difficilmente identificabili, soprattutto nei valori "0,1" e "10".

=Altri componenti=
{| class="wikitable"
|+
|[[File:altrefunzioni.png|miniatura|500x500px|Tecniche]]
|}
=='''ControlNet'''==
Un modello di '''rete neurale''' progettato per controllare i modelli di Stable Diffusion, fornendo agli utenti un '''controllo dettagliato''' sugli output dei modelli di diffusione nelle attività di generazione di testo in immagine. ControlNet è una struttura di rete neurale che consente '''l'aggiunta di condizioni aggiuntive''' per influenzare l'output dei modelli di diffusione. Queste condizioni possono assumere molte forme, come [[Edge maps]], [[Depth maps]], e [[Semantic segmentations]]. L'uso di ControlNet su Stable Diffusion offre numerosi vantaggi. Consente un controllo preciso sulla semantica e sulle caratteristiche del contenuto generato, consentendo la generazione di output più '''accurati''' e '''personalizzati'''.

[[File:Controlnet.png|600px]]

=='''DynamicThresholding (CFG-Fix)'''==
è un '''filtro''' per migliorare le immagini. Aiuta a risolvere '''problemi di colore''' quando si usano '''impostazioni più alte'''. Queste ultime, si riferiscono a valori maggiori o livelli superiori, significa utilizzare valori più grandi per '''migliorare''' l’immagine. Ad esempio, se un’immagine è leggermente sbiadita e la si vuole rendere più nitida, è possibile aumentare determinati parametri. Tuttavia, a volte, quando si usano valori troppo alti, potrebbero verificarsi problemi di colore. Ecco dove entra in gioco CFG-Fix: risolve questi problemi di colore quando si utilizzano impostazioni elevate.

=='''FreeU'''==
Un componente aggiuntivo di Stable Diffusion che migliora la qualità dell'immagine modificando il '''denoiser''' del modello. Il miglioramento avviene senza costi: nessun addestramento, nessun parametro aggiuntivo introdotto e nessun aumento della memoria o del tempo di campionamento.

'''Prompt: A 25 year old mage, dress, full body, magic, lightning, rim light, moon, night'''

(Da sinistra) Generazione neutra e utilizzo FreeU.

[[File:maga.png|300px]] [[File:magaFreeU.png|300px]]

=='''HyperTile'''==
è un '''metodo''' che ottimizza il livello di '''auto-attenzione''' all’interno dei modelli Stable-Diffusion. Questo porta a una '''riduzione del tempo di calcolo''' che varia da 1 a 4 volte, a seconda della '''risoluzione iniziale'''.

'''Prompt: A man eating pasta'''

(Da sinistra) Generazione neutra ('''15 sec''') e utilizzo di Hypertile ('''7 sec''')

[[File:Uomopasta1.png|400px]] [[File:Uomopasta2.png|400px]]

=='''Kohya HRFix'''==
è un’'''estensione''' utilizzata nei modelli Stable-Diffusion per migliorare la risoluzione delle immagini generate. Questa estensione è stata sviluppata da Kohya e ha lo scopo di '''limitare i problemi di clonazione/crollo''' nelle immagini ad alta risoluzione. Tuttavia, l’uso di Kohya HRFix può ridurre la varietà delle immagini generate, rendendole più identiche tra loro. Le impostazioni ottimali per Kohya HRFix possono variare a seconda delle esigenze specifiche dell’utente.

'''Prompt: A potrait of a white cat, cozy house'''

(Da sinistra) Generazione neutra e utilizzo Kohya HRFix.

[[File:Gattobianco1.png|300px]] [[File:Gattokoya.png|500px]]

Possiamo notare che nonostante presenti risultati migliori per quanto riguarda la risoluzione e dei dettagli, Kohya ha anche il contro di alterare leggermente l'interpretazione del prompt il che, per artisti dedicati e che curano ogni dettaglio della generazione, può essere un grosso dealbreaker.
[[File:Kohya.png|centro|miniatura|923x923px|Confronto di tempistiche e risultati con e senza Kohya XRFix. fonte: https://www.reddit.com/r/StableDiffusion/comments/17z951a/kohyas_deepshrink_highres_fix_is_amazing_produces/]]

=='''LatentModifier'''==
è un '''componente''' che '''modifica i valori latenti''' durante il '''processo di diffusione''' in un modello di generazione di immagini. Queste modifiche possono influenzare vari aspetti dell’immagine finale, come la '''nitidezza''', il '''contrasto''' e il '''rumore'''. Ci sono parametri

'''Prompt: A potrait of a white cat, cozy house'''

(Da sinistra) Generazione neutra e utilizzo LatentModifier.

[[File:Gattobianco1.png|300px]] [[File:Latentgatto.png|300px]]
'''Prompt: a cute kitten smoking a cigar'''

'''Prompt: a cute kitten smoking a cigar'''

=== Sharpness Multiplier: ===
[[File:Image (3).png|sinistra|miniatura|313x313px|-100]]
[[File:Image (4).png|miniatura|326x326px|+100|centro]]
[[File:Screenshot (367).png|miniatura|851x851px|Tonemap Multiplier: 100|sinistra]]
[[File:Screenshot (368).png|miniatura|852x852px|Miglior risultato ottenuto dalla sperimentazione e relativi parametri|nessuno]]
=='''MultiDiffusion'''==

è un '''framework''' unificato che consente la generazione di immagini '''versatili''' e '''controllabili''', utilizzando un modello di diffusione text-to-image pre-addestrato. Al centro dell’approccio c’è un nuovo processo di generazione, basato su un compito di '''ottimizzazione''' che lega insieme '''più processi''' di generazione di diffusione con un '''insieme condiviso di parametri o vincoli'''. Quindi, invece di utilizzare un'unica immagine di riferimento (prompt), la multidiffusion combina le informazioni da più immagini per creare un'immagine finale più ricca e complessa.

=='''Never OOM'''==
Parametro puramente tecnico che permette di scaricare sempre i modelli dalla '''VRAM'''. Questo può essere utile se si utilizzano '''più software insieme''' e si desidera che Stable Diffusion utilizzi meno VRAM e ne dia '''una parte ad altri software''', o quando si utilizzano vecchie estensioni che competono con la VRAM di Stable Diffusion. Non ha impatto sulla generazione. [[Category:strumento]]

=='''Script'''==
Questa funzione è utilizzata per implementare '''script personalizzati''' che possono modificare il '''comportamento''' del processo di generazione di immagini.
*'''None''': Questa è l’opzione predefinita che significa che non viene eseguito alcuno script.
*'''Prompt matrix''': permette di testare e confrontare le modifiche che i prompt apportano alle immagini generate. Si possono strutturare i prompt in modo che ogni immagine nella matrice abbia un prompt che inizia con una frase comune.Per esempio, una immagine avrà il prompt “una ciotola di frutta, mele”, un’altra avrà “una ciotola di frutta, mele, pere” e così via.
*'''Prompts from file or textbox''': permette di caricare i prompt da un file o da un textbox. Si può creare un prompt a piacimento, creare un numero x di variazioni su di esso, copiare quel file di testo, e ripetere fino a quando non hai centinaia di mini file di testo.
*'''X/Y/Z plot''': permette di eseguire test sui propri prompt e impostazioni per vedere i risultati, senza impegnarsi in una generazione di immagini completa. Utilizzando un grafico, si possono confrontare i risultati per vedere quale combinazione di impostazioni funziona meglio.

Txt2img (Stable Diffusion)

2024-03-22T14:19:49Z

Stefano: /* LatentModifier */

Txt2img è un tool di [[Stable Diffusion]] che, come intuibile, genera un'immagine .png basata su un prompt testuale. Il suo ultimo aggiornamento risale al 28 Ottobre 2022.

I parametri di Txt2img non verranno descritti con massimo dettaglio dal momento che la finalità di questa Wiki entry è di fornire delle linee guida comprovate da sperimentazione diretta.

* Il primo obiettivo è ricondurre con praticità il livello di performance riscontrato nel modello alle relative combinazioni di parametri.

* Il secondo obiettivo è creare collegamenti tra ciascun parametro e la corrispondente sezione dell'architettura.

= Link di approfondimento =
Nel caso si voglia approfondire i setting si può visitare il github relativo alla UI: [https://github.com/AUTOMATIC1111/stable-diffusion-webui]

Nel caso si voglia approfondire l'architettura generale si può visitare il repository: [https://github.com/Stability-AI/stablediffusion]

= Overview dell'interfaccia =
[[File:Overview_diffusion.png|700x700px]]

* [[Sampling method (Stable Diffusion)|Sampling method]]

* Sampling steps:

-Tra l'1 e i 15 step: l'immagine è relativamente sfocata.

-Tra i 15 e i 25 step: L'immagine è abbastanza chiara e di buona qualità.

-Tra i 25 e i 45: La qualità dell'immagine è molto alta e comprende la texture.

-Dai 45 in poi: La loss function si stabilizza e si osserva una variazione minima nella risoluzione.
{| class="wikitable"
|+
![[File:Sampling step 5.png|miniatura|5 step]]
![[File:10 step.png|miniatura|10 step]]
![[File:15 step.png|miniatura|15 step]]
|}
{| class="wikitable"
|+
![[File:25 step.png|miniatura|25 step]]
![[File:40 step.png|miniatura|40 step]]
![[File:60 step.png|miniatura|60 step]]
|}
{| class="wikitable"
|+
![[File:1 step.png|miniatura|1 step]]
![[File:150 step.png|miniatura|150 step]]
|}

====== Upscaler: ======
L'upscaling è il processo di aumentare la risoluzione di un'immagine, cioè di ingrandirla, mantenendo al contempo la qualità visiva il più alta possibile e può essere ottenuto mediante algoritmi di interpolazione e tecniche avanzate di elaborazione delle immagini, che aggiungono dettagli artificiali per migliorare l'aspetto dell'immagine.

- Hires Steps: migliorano la qualità dell'immagine attraverso iterazioni aggiuntive durante il processo di generazione

- Denoising strenght

- Upscale by: L'upscale di solito avviene dopo che l'immagine è stata completamente generata. L'immagine viene resa più grande senza perdere significativamente in qualità o dettaglio. Si esprime come un multiplier delle dimensioni dell'immagine generata, da 1 a 4.

* Width/Height: Dimensioni

* Batch count: il numero di gruppi in cui i dati vengono divisi durante l'elaborazione. Più batch count può significare una maggiore divisione dei dati durante il processo.

* Batch size: quanti dati vengono elaborati contemporaneamente in ciascun gruppo. Un batch size più grande può accelerare il processo ma richiedere più memoria, mentre un batch size più piccolo può richiedere più tempo ma portare a risultati più precisi.

* CFG Scale (Classifier Free Guidance Scale)

* Seed: Un numero che inizializza il generatore di numeri casuali. Utilizzare lo stesso seed con gli stessi parametri di input produrrà sempre la stessa immagine. È utile per la riproducibilità o per fare piccoli aggiustamenti su un'immagine esistente.
=Tecniche=
*[[TextualInversion]]
*[[Hypernetworks]]
*[[LoRA]]

= Sperimentazioni =
Per effettuare un'analisi bilanciata utilizzeremo gli stessi due metri di giudizio per valutare gli output:

* Inception Score
* Visual Inspection by GPT4

= Sperimentazione: Denoising Strength =
Questo parametro si riferisce all'intensità della '''riduzione del rumore''' applicata a un'immagine. Il "rumore" è il termine usato per descrivere '''variazioni casuali e non desiderate''' nei livelli di luminosità o colore di un'immagine, che possono renderla '''granulosa''' o '''offuscata''' e possono distorcere i dettagli.

* Parametri Statici:
** Prompt = "A man cooking a steak, he is in the kitchen, the stoves are on"
** Clip skip = 1
** Sampling Method: DPM++2M SDE SGMUniform
** Sampling Steps: 30
** Upscaler : Latent (nearest-exact)
** Hires Step: 0
** Batch count : 1
** Batch size: 1
** CFG : 15
(Le sperimentazioni iniziano dopo il valore 0, poiché non si sta fornendo al modello l'opportunità di "pulire" o trasformare il rumore in un'immagine coerente basata sul prompt fornito)
{| class="wikitable"
|+
|[[File:Cooking_1.png|miniatura|200x200px|Denoising Strength = 0,1]]
|[[File:Cooking_2.png|miniatura|200x200px|Denoising Strength = 0,3]]
|[[File:Cooking_3.png|miniatura|200x200px|Denoising Strength = 0,7]]
|}

==Osservazioni==
Impostando il Denoising Strenght a "0,1", si nota un'elevata quantità di rumore che rende indefiniti sia i dettagli che le sagome degli elementi a schermo. Aumentando de facto il valore del parametro si può osservare nettamente la differenza e l'efficacia fra il valore intermedio (0,3) e quello iniziale, fino ad arrivare ad una qualità più che sufficiente impostando il parametro a "0,7".

==Visual inspection by ChatGPT4==
Qui di seguito ci sarà una descrizione di ChatGPT4 sulla qualità delle immagini, in modo da comprendere se il modello riesca a individuare rumore e artefatti.

<<Le tre immagini mostrano una sequenza di azioni in una cucina, con un uomo che sembra impegnato nella preparazione di un piatto di carne. Nella prima immagine, il cuoco sta flambando la carne, creando un effetto visivo spettacolare con le fiamme che si alzano dalla padella. Nella seconda, appare concentrato nel girare o condire la carne, mentre nella terza è intento a cucinare, forse verificando la cottura o aggiungendo altri ingredienti.
Ogni immagine ha una qualità elevata, con dettagli nitidi e colori vivaci che catturano bene la scena della cucina. L'illuminazione è ben gestita, evidenziando le azioni del cuoco e dando vita agli alimenti in preparazione. La composizione è dinamica e sembra che ci sia stata attenzione nel posizionare ogni elemento per creare una scena armoniosa che guida l'occhio verso il soggetto principale senza distrazioni superflue.
Non si notano artefatti che suggeriscono una manipolazione digitale e le immagini trasmettono un senso di autenticità e professionalità. Ciò suggerisce che probabilmente sono state scattate durante una vera sessione di cucina e che fanno parte di una serie tematica ben pianificata. In sintesi, si tratta di una rappresentazione coerente e accattivante del processo culinario in azione.>>

Dalla descrizione fornita, si nota come ChatGPT4 non riesca ad individuare le differenze sostanziali presenti fra le tre immagini, dimostrando comunque la capacità di saper descrivere il contesto in modo eccellente.

= Sperimentazione: CFG Scale =
Questo parametro controlla quanto fedelmente il processo di generazione delle immagini '''segue''' il prompt di testo fornito. Un valore più alto del CFG Scale significa che l'immagine generata sarà più '''aderente''' al testo di input, ossia seguirà più strettamente le indicazioni date. In contrasto, un valore più basso dà al modello più libertà di '''inventare''' o di essere '''creativo''', portando a risultati che possono '''deviare''' di più dal prompt originale.

* Parametri Statici:
** Prompt = "A man cooking a steak, he is in the kitchen, the stoves are on"
** Clip skip = 1
** Sampling Method: DPM++2M SDE SGMUniform
** Sampling Steps: 30
** Upscaler : Latent (nearest-exact)
** Hires Step: 0
** Batch count : 1
** Batch size: 1
** Denoising Strength = 0,7

{| class="wikitable"
|+
|[[File:CookingCFG2.png|miniatura|200x200px|CFG = 1]]
|[[File:CookingCFG1.png|miniatura|200x200px|CFG = 3]]
|[[File:Cooking_3.png|miniatura|200x200px|CFG = 15]]
|}

==Osservazioni==
Impostando il parametro al suo valore minimo si nota come il modello segua ben poco il prompt fornito. Viene presentato un ragazzo e non un uomo, situato in un posto che ricorda appena una cucina, mentre sta cucinando del cibo che ricorda vagamente la carne. Con un valore pari a "3", il setting è già interamente riconoscibile. In questo caso sono solo le azioni che vengono rappresentate a schermo ad essere poco chiare, poiché si nota un uomo che ha messo una fetta di carne in un forno a legna. L'ultima immagine mostra un contesto totalmente credibile: sia l'ambiente che le azioni sono coerenti con il prompt fornito, benché gli unici difetti facilmente visibili sono gli oggetti che l'uomo tiene in mano per cucinare, essendo poco definiti.

= Sperimentazione: Share Attention in Batch =
Il parametro "'''Share attention in batch'''" è una funzionalità dove l'attenzione del modello, ovvero la parte che il modello "considera" più importante durante la generazione dell'immagine, viene '''condivisa''' o '''sincronizzata''' tra le immagini in un batch. Quando si generano '''più immagini contemporaneamente (un batch)''', questo parametro fa in modo che tutte le immagini nel batch diano priorità a parti simili dell'input, o che le caratteristiche stilistiche siano '''coerenti''' tra di loro. Per esempio, se si stanno generando immagini di volti e si vuole che l'attenzione sia focalizzata sugli occhi per tutti i volti nel batch, attivare questa opzione potrebbe aiutare a garantire che tutti i volti generati abbiano occhi ben definiti e uno stile simile. Questo può essere particolarmente utile quando l'obiettivo è creare una serie di immagini che devono essere visivamente coerenti l'una con l'altra.

* Parametri Statici:
** Prompt = "A man cooking a steak, he is in the kitchen, the stoves are on"
** Clip skip = 1
** Sampling Method: DPM++2M SDE SGMUniform
** Sampling Steps: 30
** Upscaler : Latent (nearest-exact)
** Hires Step: 0
** Batch count : 1
** Batch size: 1
** CFG : 15
** Denoising Strength = 0,7

{| class="wikitable"
|+
|[[File:Cookingstyle1.png|miniatura|200x200px|SAIB = off]]
|[[File:Cookingstyle2.png|miniatura|200x200px|SAIB = on]]
|}

= Sperimentazione: Hires steps =
Questo parametro si riferisce ai '''passaggi aggiuntivi''' di elaborazione che vengono eseguiti per '''rifinire''' l'immagine dopo la sua creazione iniziale. Aumentare l'Hire ssteps può migliorare la qualità dell'immagine, ma '''rallenterà''' anche il processo di generazione.

* Parametri Statici:
** Prompt = "A man cooking a steak, he is in the kitchen, the stoves are on, '''the steak is being cooked on a pan'''"
** Clip skip = 1
** Sampling Method: DPM++2M SDE SGMUniform
** Sampling Steps: 30
** Upscaler : Latent (nearest-exact)
** Batch count : 1
** Batch size: 1
** CFG : 15
** Denoising Strength = 0,7

{| class="wikitable"
|+
|[[File:CookingHS1.png|miniatura|200x200px|Hire steps = 0]]
|[[File:CookingHS3.png|miniatura|200x200px|Hire steps = 100]]
|}

==Osservazioni==
In questa sperimentazione si notano poche differenze fra un'immagine e l'altra; fra l'assenza del parametro e il suo valore massimo. L'unico difetto individuabile si trova nella prima immagine dove l'uomo sta cercando di cuocere la carne senza una padella.

= Sperimentazione: SelfAttentionGuidance Integrated =
Questa tecnica è progettata per rendere il processo di generazione delle immagini '''più semplice e veloce''' per l'utente, migliorando allo stesso tempo la '''qualità''' delle immagini prodotte. La funzionalità integrata della "self attention guidance" può aiutare a creare immagini che appaiono '''più realistiche''' e con oggetti '''meglio definiti''' senza che l'utente debba effettuare configurazioni complesse o '''passaggi supplementari'''.
Il termine "'''Scale'''" si riferisce all'intensità con cui la guida basata sull'auto-attenzione viene applicata durante il processo di generazione. Una "Scale" maggiore implica '''un'adesione più forte al prompt testuale''' e può portare a immagini più '''dettagliate e coerenti con l'input''', anche se potrebbe ridurre la diversità delle immagini generate.
Il parametro "'''Blur Sigma'''", invece, è associato al '''grado di sfocatura''' che viene applicato alle regioni selezionate di un'immagine. Questo processo agisce dove le aree con maggiore auto-attenzione — ovvero quelle parti dell'immagine che il modello riconosce come più importanti o informative — vengono '''sfocate''' leggermente. L'idea è che '''enfatizzando''' il lavoro del modello su queste aree sfocate, il modello può generare risultati migliori, perfezionando le parti '''più significative''' dell'immagine e '''riducendo''' potenzialmente il '''rumore''' o i '''dettagli superflui''' nelle regioni meno importanti.
I valori di default sono i seguenti: <<'''Scale = 0,5'''>> - <<'''Blur sigma = 2'''>>

* Parametri Statici:
** Prompt = "A man cooking a steak, he is in the kitchen, the stoves are on, '''the steak is being cooked on a pan'''"
** Clip skip = 1
** Sampling Method: DPM++2M SDE SGMUniform
** Sampling Steps: 30
** Upscaler : Latent (nearest-exact)
** Hires Step: 0
** Batch count : 1
** Batch size: 1
** CFG : 15
** Denoising Strength = 0,7

{| class="wikitable"
|+
|[[File:SAG_none_-_default.jpg|miniatura|200x200px|Tecnica omessa e valori default]]
|[[File:SAG_Scale.jpg|miniatura|200x200px|SAG Scale (da sinistra): -2; 1; 5]]
|[[File:SAG_BS.jpg|miniatura|200x200px|SAG BS (da sinistra): 0,1; 5; 10]]
|}

==Osservazioni==
Nella prima immagine si osserva il confronto tra l'immagine generata senza la tecnica del SAG e quella generata con quest'ultima. Si evidenzia come l'immagine generata con la tecnica con valori impostati di default sia di qualità inferiore alla prima, suggerendo che bisogna regolare i parametri di "scale" e di "blur sigma". Per quanto riguarda le immagini generate variando solo il parametro di scale, si nota come si ottengano dei pessimi risultati impostando dei valori sia troppo bassi che troppo alti, e che quindi sia necessario lavorare nei valori intermedi (i risultati cambiano in base alla complessità del prompt). Relativamente al parametro di Blur sigma, si notano poche differenze fra le tre immagini, benché ci siano errori evidenti sul modo in cui l'uomo tenga in mano degli oggetti difficilmente identificabili, soprattutto nei valori "0,1" e "10".

=Altri componenti=
{| class="wikitable"
|+
|[[File:altrefunzioni.png|miniatura|500x500px|Tecniche]]
|}
=='''ControlNet'''==
Un modello di '''rete neurale''' progettato per controllare i modelli di Stable Diffusion, fornendo agli utenti un '''controllo dettagliato''' sugli output dei modelli di diffusione nelle attività di generazione di testo in immagine. ControlNet è una struttura di rete neurale che consente '''l'aggiunta di condizioni aggiuntive''' per influenzare l'output dei modelli di diffusione. Queste condizioni possono assumere molte forme, come [[Edge maps]], [[Depth maps]], e [[Semantic segmentations]]. L'uso di ControlNet su Stable Diffusion offre numerosi vantaggi. Consente un controllo preciso sulla semantica e sulle caratteristiche del contenuto generato, consentendo la generazione di output più '''accurati''' e '''personalizzati'''.

[[File:Controlnet.png|600px]]

=='''DynamicThresholding (CFG-Fix)'''==
è un '''filtro''' per migliorare le immagini. Aiuta a risolvere '''problemi di colore''' quando si usano '''impostazioni più alte'''. Queste ultime, si riferiscono a valori maggiori o livelli superiori, significa utilizzare valori più grandi per '''migliorare''' l’immagine. Ad esempio, se un’immagine è leggermente sbiadita e la si vuole rendere più nitida, è possibile aumentare determinati parametri. Tuttavia, a volte, quando si usano valori troppo alti, potrebbero verificarsi problemi di colore. Ecco dove entra in gioco CFG-Fix: risolve questi problemi di colore quando si utilizzano impostazioni elevate.

=='''FreeU'''==
Un componente aggiuntivo di Stable Diffusion che migliora la qualità dell'immagine modificando il '''denoiser''' del modello. Il miglioramento avviene senza costi: nessun addestramento, nessun parametro aggiuntivo introdotto e nessun aumento della memoria o del tempo di campionamento.

'''Prompt: A 25 year old mage, dress, full body, magic, lightning, rim light, moon, night'''

(Da sinistra) Generazione neutra e utilizzo FreeU.

[[File:maga.png|300px]] [[File:magaFreeU.png|300px]]

=='''HyperTile'''==
è un '''metodo''' che ottimizza il livello di '''auto-attenzione''' all’interno dei modelli Stable-Diffusion. Questo porta a una '''riduzione del tempo di calcolo''' che varia da 1 a 4 volte, a seconda della '''risoluzione iniziale'''.

'''Prompt: A man eating pasta'''

(Da sinistra) Generazione neutra ('''15 sec''') e utilizzo di Hypertile ('''7 sec''')

[[File:Uomopasta1.png|400px]] [[File:Uomopasta2.png|400px]]

=='''Kohya HRFix'''==
è un’'''estensione''' utilizzata nei modelli Stable-Diffusion per migliorare la risoluzione delle immagini generate. Questa estensione è stata sviluppata da Kohya e ha lo scopo di '''limitare i problemi di clonazione/crollo''' nelle immagini ad alta risoluzione. Tuttavia, l’uso di Kohya HRFix può ridurre la varietà delle immagini generate, rendendole più identiche tra loro. Le impostazioni ottimali per Kohya HRFix possono variare a seconda delle esigenze specifiche dell’utente.

'''Prompt: A potrait of a white cat, cozy house'''

(Da sinistra) Generazione neutra e utilizzo Kohya HRFix.

[[File:Gattobianco1.png|300px]] [[File:Gattokoya.png|500px]]

Possiamo notare che nonostante presenti risultati migliori per quanto riguarda la risoluzione e dei dettagli, Kohya ha anche il contro di alterare leggermente l'interpretazione del prompt il che, per artisti dedicati e che curano ogni dettaglio della generazione, può essere un grosso dealbreaker.
[[File:Kohya.png|centro|miniatura|923x923px|Confronto di tempistiche e risultati con e senza Kohya XRFix. fonte: https://www.reddit.com/r/StableDiffusion/comments/17z951a/kohyas_deepshrink_highres_fix_is_amazing_produces/]]

=='''LatentModifier'''==
è un '''componente''' che '''modifica i valori latenti''' durante il '''processo di diffusione''' in un modello di generazione di immagini. Queste modifiche possono influenzare vari aspetti dell’immagine finale, come la '''nitidezza''', il '''contrasto''' e il '''rumore'''. Ci sono parametri

'''Prompt: A potrait of a white cat, cozy house'''

(Da sinistra) Generazione neutra e utilizzo LatentModifier.

[[File:Gattobianco1.png|300px]] [[File:Latentgatto.png|300px]]
'''Prompt: a cute kitten smoking a cigar'''

'''Prompt: a cute kitten smoking a cigar'''

=== Sharpness Multiplier: ===
[[File:Image (3).png|sinistra|miniatura|313x313px|-100]]
[[File:Image (4).png|miniatura|326x326px|+100|centro]]
[[File:Screenshot (367).png|miniatura|851x851px|Tonemap Multiplier: 100|sinistra]]
[[File:Screenshot (368).png|miniatura|852x852px|Miglior risultato ottenuto dalla sperimentazione e relativi parametri|nessuno]]
=='''MultiDiffusion'''==

è un '''framework''' unificato che consente la generazione di immagini '''versatili''' e '''controllabili''', utilizzando un modello di diffusione text-to-image pre-addestrato. Al centro dell’approccio c’è un nuovo processo di generazione, basato su un compito di '''ottimizzazione''' che lega insieme '''più processi''' di generazione di diffusione con un '''insieme condiviso di parametri o vincoli'''

=='''Never OOM'''==
Parametro puramente tecnico che permette di scaricare sempre i modelli dalla '''VRAM'''. Questo può essere utile se si utilizzano '''più software insieme''' e si desidera che Stable Diffusion utilizzi meno VRAM e ne dia '''una parte ad altri software''', o quando si utilizzano vecchie estensioni che competono con la VRAM di Stable Diffusion. Non ha impatto sulla generazione. [[Category:strumento]]

=='''Script'''==
Questa funzione è utilizzata per implementare '''script personalizzati''' che possono modificare il '''comportamento''' del processo di generazione di immagini.
*'''None''': Questa è l’opzione predefinita che significa che non viene eseguito alcuno script.
*'''Prompt matrix''': permette di testare e confrontare le modifiche che i prompt apportano alle immagini generate. Si possono strutturare i prompt in modo che ogni immagine nella matrice abbia un prompt che inizia con una frase comune.Per esempio, una immagine avrà il prompt “una ciotola di frutta, mele”, un’altra avrà “una ciotola di frutta, mele, pere” e così via.
*'''Prompts from file or textbox''': permette di caricare i prompt da un file o da un textbox. Si può creare un prompt a piacimento, creare un numero x di variazioni su di esso, copiare quel file di testo, e ripetere fino a quando non hai centinaia di mini file di testo.
*'''X/Y/Z plot''': permette di eseguire test sui propri prompt e impostazioni per vedere i risultati, senza impegnarsi in una generazione di immagini completa. Utilizzando un grafico, si possono confrontare i risultati per vedere quale combinazione di impostazioni funziona meglio.

Txt2img (Stable Diffusion)

2024-03-22T14:15:58Z

Stefano: /* ControlNet */

Txt2img è un tool di [[Stable Diffusion]] che, come intuibile, genera un'immagine .png basata su un prompt testuale. Il suo ultimo aggiornamento risale al 28 Ottobre 2022.

I parametri di Txt2img non verranno descritti con massimo dettaglio dal momento che la finalità di questa Wiki entry è di fornire delle linee guida comprovate da sperimentazione diretta.

* Il primo obiettivo è ricondurre con praticità il livello di performance riscontrato nel modello alle relative combinazioni di parametri.

* Il secondo obiettivo è creare collegamenti tra ciascun parametro e la corrispondente sezione dell'architettura.

= Link di approfondimento =
Nel caso si voglia approfondire i setting si può visitare il github relativo alla UI: [https://github.com/AUTOMATIC1111/stable-diffusion-webui]

Nel caso si voglia approfondire l'architettura generale si può visitare il repository: [https://github.com/Stability-AI/stablediffusion]

= Overview dell'interfaccia =
[[File:Overview_diffusion.png|700x700px]]

* [[Sampling method (Stable Diffusion)|Sampling method]]

* Sampling steps:

-Tra l'1 e i 15 step: l'immagine è relativamente sfocata.

-Tra i 15 e i 25 step: L'immagine è abbastanza chiara e di buona qualità.

-Tra i 25 e i 45: La qualità dell'immagine è molto alta e comprende la texture.

-Dai 45 in poi: La loss function si stabilizza e si osserva una variazione minima nella risoluzione.
{| class="wikitable"
|+
![[File:Sampling step 5.png|miniatura|5 step]]
![[File:10 step.png|miniatura|10 step]]
![[File:15 step.png|miniatura|15 step]]
|}
{| class="wikitable"
|+
![[File:25 step.png|miniatura|25 step]]
![[File:40 step.png|miniatura|40 step]]
![[File:60 step.png|miniatura|60 step]]
|}
{| class="wikitable"
|+
![[File:1 step.png|miniatura|1 step]]
![[File:150 step.png|miniatura|150 step]]
|}

====== Upscaler: ======
L'upscaling è il processo di aumentare la risoluzione di un'immagine, cioè di ingrandirla, mantenendo al contempo la qualità visiva il più alta possibile e può essere ottenuto mediante algoritmi di interpolazione e tecniche avanzate di elaborazione delle immagini, che aggiungono dettagli artificiali per migliorare l'aspetto dell'immagine.

- Hires Steps: migliorano la qualità dell'immagine attraverso iterazioni aggiuntive durante il processo di generazione

- Denoising strenght

- Upscale by: L'upscale di solito avviene dopo che l'immagine è stata completamente generata. L'immagine viene resa più grande senza perdere significativamente in qualità o dettaglio. Si esprime come un multiplier delle dimensioni dell'immagine generata, da 1 a 4.

* Width/Height: Dimensioni

* Batch count: il numero di gruppi in cui i dati vengono divisi durante l'elaborazione. Più batch count può significare una maggiore divisione dei dati durante il processo.

* Batch size: quanti dati vengono elaborati contemporaneamente in ciascun gruppo. Un batch size più grande può accelerare il processo ma richiedere più memoria, mentre un batch size più piccolo può richiedere più tempo ma portare a risultati più precisi.

* CFG Scale (Classifier Free Guidance Scale)

* Seed: Un numero che inizializza il generatore di numeri casuali. Utilizzare lo stesso seed con gli stessi parametri di input produrrà sempre la stessa immagine. È utile per la riproducibilità o per fare piccoli aggiustamenti su un'immagine esistente.
=Tecniche=
*[[TextualInversion]]
*[[Hypernetworks]]
*[[LoRA]]

= Sperimentazioni =
Per effettuare un'analisi bilanciata utilizzeremo gli stessi due metri di giudizio per valutare gli output:

* Inception Score
* Visual Inspection by GPT4

= Sperimentazione: Denoising Strength =
Questo parametro si riferisce all'intensità della '''riduzione del rumore''' applicata a un'immagine. Il "rumore" è il termine usato per descrivere '''variazioni casuali e non desiderate''' nei livelli di luminosità o colore di un'immagine, che possono renderla '''granulosa''' o '''offuscata''' e possono distorcere i dettagli.

* Parametri Statici:
** Prompt = "A man cooking a steak, he is in the kitchen, the stoves are on"
** Clip skip = 1
** Sampling Method: DPM++2M SDE SGMUniform
** Sampling Steps: 30
** Upscaler : Latent (nearest-exact)
** Hires Step: 0
** Batch count : 1
** Batch size: 1
** CFG : 15
(Le sperimentazioni iniziano dopo il valore 0, poiché non si sta fornendo al modello l'opportunità di "pulire" o trasformare il rumore in un'immagine coerente basata sul prompt fornito)
{| class="wikitable"
|+
|[[File:Cooking_1.png|miniatura|200x200px|Denoising Strength = 0,1]]
|[[File:Cooking_2.png|miniatura|200x200px|Denoising Strength = 0,3]]
|[[File:Cooking_3.png|miniatura|200x200px|Denoising Strength = 0,7]]
|}

==Osservazioni==
Impostando il Denoising Strenght a "0,1", si nota un'elevata quantità di rumore che rende indefiniti sia i dettagli che le sagome degli elementi a schermo. Aumentando de facto il valore del parametro si può osservare nettamente la differenza e l'efficacia fra il valore intermedio (0,3) e quello iniziale, fino ad arrivare ad una qualità più che sufficiente impostando il parametro a "0,7".

==Visual inspection by ChatGPT4==
Qui di seguito ci sarà una descrizione di ChatGPT4 sulla qualità delle immagini, in modo da comprendere se il modello riesca a individuare rumore e artefatti.

<<Le tre immagini mostrano una sequenza di azioni in una cucina, con un uomo che sembra impegnato nella preparazione di un piatto di carne. Nella prima immagine, il cuoco sta flambando la carne, creando un effetto visivo spettacolare con le fiamme che si alzano dalla padella. Nella seconda, appare concentrato nel girare o condire la carne, mentre nella terza è intento a cucinare, forse verificando la cottura o aggiungendo altri ingredienti.
Ogni immagine ha una qualità elevata, con dettagli nitidi e colori vivaci che catturano bene la scena della cucina. L'illuminazione è ben gestita, evidenziando le azioni del cuoco e dando vita agli alimenti in preparazione. La composizione è dinamica e sembra che ci sia stata attenzione nel posizionare ogni elemento per creare una scena armoniosa che guida l'occhio verso il soggetto principale senza distrazioni superflue.
Non si notano artefatti che suggeriscono una manipolazione digitale e le immagini trasmettono un senso di autenticità e professionalità. Ciò suggerisce che probabilmente sono state scattate durante una vera sessione di cucina e che fanno parte di una serie tematica ben pianificata. In sintesi, si tratta di una rappresentazione coerente e accattivante del processo culinario in azione.>>

Dalla descrizione fornita, si nota come ChatGPT4 non riesca ad individuare le differenze sostanziali presenti fra le tre immagini, dimostrando comunque la capacità di saper descrivere il contesto in modo eccellente.

= Sperimentazione: CFG Scale =
Questo parametro controlla quanto fedelmente il processo di generazione delle immagini '''segue''' il prompt di testo fornito. Un valore più alto del CFG Scale significa che l'immagine generata sarà più '''aderente''' al testo di input, ossia seguirà più strettamente le indicazioni date. In contrasto, un valore più basso dà al modello più libertà di '''inventare''' o di essere '''creativo''', portando a risultati che possono '''deviare''' di più dal prompt originale.

* Parametri Statici:
** Prompt = "A man cooking a steak, he is in the kitchen, the stoves are on"
** Clip skip = 1
** Sampling Method: DPM++2M SDE SGMUniform
** Sampling Steps: 30
** Upscaler : Latent (nearest-exact)
** Hires Step: 0
** Batch count : 1
** Batch size: 1
** Denoising Strength = 0,7

{| class="wikitable"
|+
|[[File:CookingCFG2.png|miniatura|200x200px|CFG = 1]]
|[[File:CookingCFG1.png|miniatura|200x200px|CFG = 3]]
|[[File:Cooking_3.png|miniatura|200x200px|CFG = 15]]
|}

==Osservazioni==
Impostando il parametro al suo valore minimo si nota come il modello segua ben poco il prompt fornito. Viene presentato un ragazzo e non un uomo, situato in un posto che ricorda appena una cucina, mentre sta cucinando del cibo che ricorda vagamente la carne. Con un valore pari a "3", il setting è già interamente riconoscibile. In questo caso sono solo le azioni che vengono rappresentate a schermo ad essere poco chiare, poiché si nota un uomo che ha messo una fetta di carne in un forno a legna. L'ultima immagine mostra un contesto totalmente credibile: sia l'ambiente che le azioni sono coerenti con il prompt fornito, benché gli unici difetti facilmente visibili sono gli oggetti che l'uomo tiene in mano per cucinare, essendo poco definiti.

= Sperimentazione: Share Attention in Batch =
Il parametro "'''Share attention in batch'''" è una funzionalità dove l'attenzione del modello, ovvero la parte che il modello "considera" più importante durante la generazione dell'immagine, viene '''condivisa''' o '''sincronizzata''' tra le immagini in un batch. Quando si generano '''più immagini contemporaneamente (un batch)''', questo parametro fa in modo che tutte le immagini nel batch diano priorità a parti simili dell'input, o che le caratteristiche stilistiche siano '''coerenti''' tra di loro. Per esempio, se si stanno generando immagini di volti e si vuole che l'attenzione sia focalizzata sugli occhi per tutti i volti nel batch, attivare questa opzione potrebbe aiutare a garantire che tutti i volti generati abbiano occhi ben definiti e uno stile simile. Questo può essere particolarmente utile quando l'obiettivo è creare una serie di immagini che devono essere visivamente coerenti l'una con l'altra.

* Parametri Statici:
** Prompt = "A man cooking a steak, he is in the kitchen, the stoves are on"
** Clip skip = 1
** Sampling Method: DPM++2M SDE SGMUniform
** Sampling Steps: 30
** Upscaler : Latent (nearest-exact)
** Hires Step: 0
** Batch count : 1
** Batch size: 1
** CFG : 15
** Denoising Strength = 0,7

{| class="wikitable"
|+
|[[File:Cookingstyle1.png|miniatura|200x200px|SAIB = off]]
|[[File:Cookingstyle2.png|miniatura|200x200px|SAIB = on]]
|}

= Sperimentazione: Hires steps =
Questo parametro si riferisce ai '''passaggi aggiuntivi''' di elaborazione che vengono eseguiti per '''rifinire''' l'immagine dopo la sua creazione iniziale. Aumentare l'Hire ssteps può migliorare la qualità dell'immagine, ma '''rallenterà''' anche il processo di generazione.

* Parametri Statici:
** Prompt = "A man cooking a steak, he is in the kitchen, the stoves are on, '''the steak is being cooked on a pan'''"
** Clip skip = 1
** Sampling Method: DPM++2M SDE SGMUniform
** Sampling Steps: 30
** Upscaler : Latent (nearest-exact)
** Batch count : 1
** Batch size: 1
** CFG : 15
** Denoising Strength = 0,7

{| class="wikitable"
|+
|[[File:CookingHS1.png|miniatura|200x200px|Hire steps = 0]]
|[[File:CookingHS3.png|miniatura|200x200px|Hire steps = 100]]
|}

==Osservazioni==
In questa sperimentazione si notano poche differenze fra un'immagine e l'altra; fra l'assenza del parametro e il suo valore massimo. L'unico difetto individuabile si trova nella prima immagine dove l'uomo sta cercando di cuocere la carne senza una padella.

= Sperimentazione: SelfAttentionGuidance Integrated =
Questa tecnica è progettata per rendere il processo di generazione delle immagini '''più semplice e veloce''' per l'utente, migliorando allo stesso tempo la '''qualità''' delle immagini prodotte. La funzionalità integrata della "self attention guidance" può aiutare a creare immagini che appaiono '''più realistiche''' e con oggetti '''meglio definiti''' senza che l'utente debba effettuare configurazioni complesse o '''passaggi supplementari'''.
Il termine "'''Scale'''" si riferisce all'intensità con cui la guida basata sull'auto-attenzione viene applicata durante il processo di generazione. Una "Scale" maggiore implica '''un'adesione più forte al prompt testuale''' e può portare a immagini più '''dettagliate e coerenti con l'input''', anche se potrebbe ridurre la diversità delle immagini generate.
Il parametro "'''Blur Sigma'''", invece, è associato al '''grado di sfocatura''' che viene applicato alle regioni selezionate di un'immagine. Questo processo agisce dove le aree con maggiore auto-attenzione — ovvero quelle parti dell'immagine che il modello riconosce come più importanti o informative — vengono '''sfocate''' leggermente. L'idea è che '''enfatizzando''' il lavoro del modello su queste aree sfocate, il modello può generare risultati migliori, perfezionando le parti '''più significative''' dell'immagine e '''riducendo''' potenzialmente il '''rumore''' o i '''dettagli superflui''' nelle regioni meno importanti.
I valori di default sono i seguenti: <<'''Scale = 0,5'''>> - <<'''Blur sigma = 2'''>>

* Parametri Statici:
** Prompt = "A man cooking a steak, he is in the kitchen, the stoves are on, '''the steak is being cooked on a pan'''"
** Clip skip = 1
** Sampling Method: DPM++2M SDE SGMUniform
** Sampling Steps: 30
** Upscaler : Latent (nearest-exact)
** Hires Step: 0
** Batch count : 1
** Batch size: 1
** CFG : 15
** Denoising Strength = 0,7

{| class="wikitable"
|+
|[[File:SAG_none_-_default.jpg|miniatura|200x200px|Tecnica omessa e valori default]]
|[[File:SAG_Scale.jpg|miniatura|200x200px|SAG Scale (da sinistra): -2; 1; 5]]
|[[File:SAG_BS.jpg|miniatura|200x200px|SAG BS (da sinistra): 0,1; 5; 10]]
|}

==Osservazioni==
Nella prima immagine si osserva il confronto tra l'immagine generata senza la tecnica del SAG e quella generata con quest'ultima. Si evidenzia come l'immagine generata con la tecnica con valori impostati di default sia di qualità inferiore alla prima, suggerendo che bisogna regolare i parametri di "scale" e di "blur sigma". Per quanto riguarda le immagini generate variando solo il parametro di scale, si nota come si ottengano dei pessimi risultati impostando dei valori sia troppo bassi che troppo alti, e che quindi sia necessario lavorare nei valori intermedi (i risultati cambiano in base alla complessità del prompt). Relativamente al parametro di Blur sigma, si notano poche differenze fra le tre immagini, benché ci siano errori evidenti sul modo in cui l'uomo tenga in mano degli oggetti difficilmente identificabili, soprattutto nei valori "0,1" e "10".

=Altri componenti=
{| class="wikitable"
|+
|[[File:altrefunzioni.png|miniatura|500x500px|Tecniche]]
|}
=='''ControlNet'''==
Un modello di '''rete neurale''' progettato per controllare i modelli di Stable Diffusion, fornendo agli utenti un '''controllo dettagliato''' sugli output dei modelli di diffusione nelle attività di generazione di testo in immagine. ControlNet è una struttura di rete neurale che consente '''l'aggiunta di condizioni aggiuntive''' per influenzare l'output dei modelli di diffusione. Queste condizioni possono assumere molte forme, come [[Edge maps]], [[Depth maps]], e [[Semantic segmentations]]. L'uso di ControlNet su Stable Diffusion offre numerosi vantaggi. Consente un controllo preciso sulla semantica e sulle caratteristiche del contenuto generato, consentendo la generazione di output più '''accurati''' e '''personalizzati'''.

[[File:Controlnet.png|600px]]

=='''DynamicThresholding (CFG-Fix)'''==
è un '''filtro''' per migliorare le immagini. Aiuta a risolvere '''problemi di colore''' quando si usano '''impostazioni più alte'''. Queste ultime, si riferiscono a valori maggiori o livelli superiori, significa utilizzare valori più grandi per '''migliorare''' l’immagine. Ad esempio, se un’immagine è leggermente sbiadita e la si vuole rendere più nitida, è possibile aumentare determinati parametri. Tuttavia, a volte, quando si usano valori troppo alti, potrebbero verificarsi problemi di colore. Ecco dove entra in gioco CFG-Fix: risolve questi problemi di colore quando si utilizzano impostazioni elevate.

=='''FreeU'''==
Un componente aggiuntivo di Stable Diffusion che migliora la qualità dell'immagine modificando il '''denoiser''' del modello. Il miglioramento avviene senza costi: nessun addestramento, nessun parametro aggiuntivo introdotto e nessun aumento della memoria o del tempo di campionamento.

'''Prompt: A 25 year old mage, dress, full body, magic, lightning, rim light, moon, night'''

(Da sinistra) Generazione neutra e utilizzo FreeU.

[[File:maga.png|300px]] [[File:magaFreeU.png|300px]]

=='''HyperTile'''==
è un '''metodo''' che ottimizza il livello di '''auto-attenzione''' all’interno dei modelli Stable-Diffusion. Questo porta a una '''riduzione del tempo di calcolo''' che varia da 1 a 4 volte, a seconda della '''risoluzione iniziale'''.

'''Prompt: A man eating pasta'''

(Da sinistra) Generazione neutra ('''15 sec''') e utilizzo di Hypertile ('''7 sec''')

[[File:Uomopasta1.png|400px]] [[File:Uomopasta2.png|400px]]

=='''Kohya HRFix'''==
è un’'''estensione''' utilizzata nei modelli Stable-Diffusion per migliorare la risoluzione delle immagini generate. Questa estensione è stata sviluppata da Kohya e ha lo scopo di '''limitare i problemi di clonazione/crollo''' nelle immagini ad alta risoluzione. Tuttavia, l’uso di Kohya HRFix può ridurre la varietà delle immagini generate, rendendole più identiche tra loro. Le impostazioni ottimali per Kohya HRFix possono variare a seconda delle esigenze specifiche dell’utente.

'''Prompt: A potrait of a white cat, cozy house'''

(Da sinistra) Generazione neutra e utilizzo Kohya HRFix.

[[File:Gattobianco1.png|300px]] [[File:Gattokoya.png|500px]]

Possiamo notare che nonostante presenti risultati migliori per quanto riguarda la risoluzione e dei dettagli, Kohya ha anche il contro di alterare leggermente l'interpretazione del prompt il che, per artisti dedicati e che curano ogni dettaglio della generazione, può essere un grosso dealbreaker.
[[File:Kohya.png|centro|miniatura|923x923px|Confronto di tempistiche e risultati con e senza Kohya XRFix. fonte: https://www.reddit.com/r/StableDiffusion/comments/17z951a/kohyas_deepshrink_highres_fix_is_amazing_produces/]]

=='''LatentModifier'''==
è un '''componente''' che '''modifica i valori latenti''' durante il '''processo di diffusione''' in un modello di generazione di immagini. Queste modifiche possono influenzare vari aspetti dell’immagine finale, come la '''nitidezza''', il '''contrasto''' e il '''rumore'''. Ci sono parametri

'''Prompt: A potrait of a white cat, cozy house'''

(Da sinistra) Generazione neutra e utilizzo LatentModifier.

[[File:Gattobianco1.png|300px]] [[File:Latentgatto.png|300px]]

'''Prompt: a cute kitten smoking a cigar'''

Sharpness Multiplier:
[[File:Image (3).png|sinistra|miniatura|423x423px|-100]]
[[File:Image (4).png|miniatura|421x421px|+100]]
[[File:Screenshot (367).png|miniatura|969x969px|Tonemap Multiplier: 100]]
[[File:Screenshot (368).png|miniatura|971x971px|Miglior risultato ottenuto dalla sperimentazione e relativi parametri]]

=='''MultiDiffusion'''==

è un '''framework''' unificato che consente la generazione di immagini '''versatili''' e '''controllabili''', utilizzando un modello di diffusione text-to-image pre-addestrato. Al centro dell’approccio c’è un nuovo processo di generazione, basato su un compito di '''ottimizzazione''' che lega insieme '''più processi''' di generazione di diffusione con un '''insieme condiviso di parametri o vincoli'''

=='''Never OOM'''==
Parametro puramente tecnico che permette di scaricare sempre i modelli dalla '''VRAM'''. Questo può essere utile se si utilizzano '''più software insieme''' e si desidera che Stable Diffusion utilizzi meno VRAM e ne dia '''una parte ad altri software''', o quando si utilizzano vecchie estensioni che competono con la VRAM di Stable Diffusion. Non ha impatto sulla generazione. [[Category:strumento]]

=='''Script'''==
Questa funzione è utilizzata per implementare '''script personalizzati''' che possono modificare il '''comportamento''' del processo di generazione di immagini.
*'''None''': Questa è l’opzione predefinita che significa che non viene eseguito alcuno script.
*'''Prompt matrix''': permette di testare e confrontare le modifiche che i prompt apportano alle immagini generate. Si possono strutturare i prompt in modo che ogni immagine nella matrice abbia un prompt che inizia con una frase comune.Per esempio, una immagine avrà il prompt “una ciotola di frutta, mele”, un’altra avrà “una ciotola di frutta, mele, pere” e così via.
*'''Prompts from file or textbox''': permette di caricare i prompt da un file o da un textbox. Si può creare un prompt a piacimento, creare un numero x di variazioni su di esso, copiare quel file di testo, e ripetere fino a quando non hai centinaia di mini file di testo.
*'''X/Y/Z plot''': permette di eseguire test sui propri prompt e impostazioni per vedere i risultati, senza impegnarsi in una generazione di immagini completa. Utilizzando un grafico, si possono confrontare i risultati per vedere quale combinazione di impostazioni funziona meglio.

File:Controlnet.png

2024-03-22T14:14:34Z

Stefano:

Txt2img (Stable Diffusion)

2024-03-22T14:10:41Z

Stefano: /* HyperTile */

Txt2img è un tool di [[Stable Diffusion]] che, come intuibile, genera un'immagine .png basata su un prompt testuale. Il suo ultimo aggiornamento risale al 28 Ottobre 2022.

I parametri di Txt2img non verranno descritti con massimo dettaglio dal momento che la finalità di questa Wiki entry è di fornire delle linee guida comprovate da sperimentazione diretta.

* Il primo obiettivo è ricondurre con praticità il livello di performance riscontrato nel modello alle relative combinazioni di parametri.

* Il secondo obiettivo è creare collegamenti tra ciascun parametro e la corrispondente sezione dell'architettura.

= Link di approfondimento =
Nel caso si voglia approfondire i setting si può visitare il github relativo alla UI: [https://github.com/AUTOMATIC1111/stable-diffusion-webui]

Nel caso si voglia approfondire l'architettura generale si può visitare il repository: [https://github.com/Stability-AI/stablediffusion]

= Overview dell'interfaccia =
[[File:Overview_diffusion.png|700x700px]]

* [[Sampling method (Stable Diffusion)|Sampling method]]

* Sampling steps:

-Tra l'1 e i 15 step: l'immagine è relativamente sfocata.

-Tra i 15 e i 25 step: L'immagine è abbastanza chiara e di buona qualità.

-Tra i 25 e i 45: La qualità dell'immagine è molto alta e comprende la texture.

-Dai 45 in poi: La loss function si stabilizza e si osserva una variazione minima nella risoluzione.
{| class="wikitable"
|+
![[File:Sampling step 5.png|miniatura|5 step]]
![[File:10 step.png|miniatura|10 step]]
![[File:15 step.png|miniatura|15 step]]
|}
{| class="wikitable"
|+
![[File:25 step.png|miniatura|25 step]]
![[File:40 step.png|miniatura|40 step]]
![[File:60 step.png|miniatura|60 step]]
|}
{| class="wikitable"
|+
![[File:1 step.png|miniatura|1 step]]
![[File:150 step.png|miniatura|150 step]]
|}

====== Upscaler: ======
L'upscaling è il processo di aumentare la risoluzione di un'immagine, cioè di ingrandirla, mantenendo al contempo la qualità visiva il più alta possibile e può essere ottenuto mediante algoritmi di interpolazione e tecniche avanzate di elaborazione delle immagini, che aggiungono dettagli artificiali per migliorare l'aspetto dell'immagine.

- Hires Steps: migliorano la qualità dell'immagine attraverso iterazioni aggiuntive durante il processo di generazione

- Denoising strenght

- Upscale by: L'upscale di solito avviene dopo che l'immagine è stata completamente generata. L'immagine viene resa più grande senza perdere significativamente in qualità o dettaglio. Si esprime come un multiplier delle dimensioni dell'immagine generata, da 1 a 4.

* Width/Height: Dimensioni

* Batch count: il numero di gruppi in cui i dati vengono divisi durante l'elaborazione. Più batch count può significare una maggiore divisione dei dati durante il processo.

* Batch size: quanti dati vengono elaborati contemporaneamente in ciascun gruppo. Un batch size più grande può accelerare il processo ma richiedere più memoria, mentre un batch size più piccolo può richiedere più tempo ma portare a risultati più precisi.

* CFG Scale (Classifier Free Guidance Scale)

* Seed: Un numero che inizializza il generatore di numeri casuali. Utilizzare lo stesso seed con gli stessi parametri di input produrrà sempre la stessa immagine. È utile per la riproducibilità o per fare piccoli aggiustamenti su un'immagine esistente.
=Tecniche=
*[[TextualInversion]]
*[[Hypernetworks]]
*[[LoRA]]

= Sperimentazioni =
Per effettuare un'analisi bilanciata utilizzeremo gli stessi due metri di giudizio per valutare gli output:

* Inception Score
* Visual Inspection by GPT4

= Sperimentazione: Denoising Strength =
Questo parametro si riferisce all'intensità della '''riduzione del rumore''' applicata a un'immagine. Il "rumore" è il termine usato per descrivere '''variazioni casuali e non desiderate''' nei livelli di luminosità o colore di un'immagine, che possono renderla '''granulosa''' o '''offuscata''' e possono distorcere i dettagli.

* Parametri Statici:
** Prompt = "A man cooking a steak, he is in the kitchen, the stoves are on"
** Clip skip = 1
** Sampling Method: DPM++2M SDE SGMUniform
** Sampling Steps: 30
** Upscaler : Latent (nearest-exact)
** Hires Step: 0
** Batch count : 1
** Batch size: 1
** CFG : 15
(Le sperimentazioni iniziano dopo il valore 0, poiché non si sta fornendo al modello l'opportunità di "pulire" o trasformare il rumore in un'immagine coerente basata sul prompt fornito)
{| class="wikitable"
|+
|[[File:Cooking_1.png|miniatura|200x200px|Denoising Strength = 0,1]]
|[[File:Cooking_2.png|miniatura|200x200px|Denoising Strength = 0,3]]
|[[File:Cooking_3.png|miniatura|200x200px|Denoising Strength = 0,7]]
|}

==Osservazioni==
Impostando il Denoising Strenght a "0,1", si nota un'elevata quantità di rumore che rende indefiniti sia i dettagli che le sagome degli elementi a schermo. Aumentando de facto il valore del parametro si può osservare nettamente la differenza e l'efficacia fra il valore intermedio (0,3) e quello iniziale, fino ad arrivare ad una qualità più che sufficiente impostando il parametro a "0,7".

==Visual inspection by ChatGPT4==
Qui di seguito ci sarà una descrizione di ChatGPT4 sulla qualità delle immagini, in modo da comprendere se il modello riesca a individuare rumore e artefatti.

<<Le tre immagini mostrano una sequenza di azioni in una cucina, con un uomo che sembra impegnato nella preparazione di un piatto di carne. Nella prima immagine, il cuoco sta flambando la carne, creando un effetto visivo spettacolare con le fiamme che si alzano dalla padella. Nella seconda, appare concentrato nel girare o condire la carne, mentre nella terza è intento a cucinare, forse verificando la cottura o aggiungendo altri ingredienti.
Ogni immagine ha una qualità elevata, con dettagli nitidi e colori vivaci che catturano bene la scena della cucina. L'illuminazione è ben gestita, evidenziando le azioni del cuoco e dando vita agli alimenti in preparazione. La composizione è dinamica e sembra che ci sia stata attenzione nel posizionare ogni elemento per creare una scena armoniosa che guida l'occhio verso il soggetto principale senza distrazioni superflue.
Non si notano artefatti che suggeriscono una manipolazione digitale e le immagini trasmettono un senso di autenticità e professionalità. Ciò suggerisce che probabilmente sono state scattate durante una vera sessione di cucina e che fanno parte di una serie tematica ben pianificata. In sintesi, si tratta di una rappresentazione coerente e accattivante del processo culinario in azione.>>

Dalla descrizione fornita, si nota come ChatGPT4 non riesca ad individuare le differenze sostanziali presenti fra le tre immagini, dimostrando comunque la capacità di saper descrivere il contesto in modo eccellente.

= Sperimentazione: CFG Scale =
Questo parametro controlla quanto fedelmente il processo di generazione delle immagini '''segue''' il prompt di testo fornito. Un valore più alto del CFG Scale significa che l'immagine generata sarà più '''aderente''' al testo di input, ossia seguirà più strettamente le indicazioni date. In contrasto, un valore più basso dà al modello più libertà di '''inventare''' o di essere '''creativo''', portando a risultati che possono '''deviare''' di più dal prompt originale.

* Parametri Statici:
** Prompt = "A man cooking a steak, he is in the kitchen, the stoves are on"
** Clip skip = 1
** Sampling Method: DPM++2M SDE SGMUniform
** Sampling Steps: 30
** Upscaler : Latent (nearest-exact)
** Hires Step: 0
** Batch count : 1
** Batch size: 1
** Denoising Strength = 0,7

{| class="wikitable"
|+
|[[File:CookingCFG2.png|miniatura|200x200px|CFG = 1]]
|[[File:CookingCFG1.png|miniatura|200x200px|CFG = 3]]
|[[File:Cooking_3.png|miniatura|200x200px|CFG = 15]]
|}

==Osservazioni==
Impostando il parametro al suo valore minimo si nota come il modello segua ben poco il prompt fornito. Viene presentato un ragazzo e non un uomo, situato in un posto che ricorda appena una cucina, mentre sta cucinando del cibo che ricorda vagamente la carne. Con un valore pari a "3", il setting è già interamente riconoscibile. In questo caso sono solo le azioni che vengono rappresentate a schermo ad essere poco chiare, poiché si nota un uomo che ha messo una fetta di carne in un forno a legna. L'ultima immagine mostra un contesto totalmente credibile: sia l'ambiente che le azioni sono coerenti con il prompt fornito, benché gli unici difetti facilmente visibili sono gli oggetti che l'uomo tiene in mano per cucinare, essendo poco definiti.

= Sperimentazione: Share Attention in Batch =
Il parametro "'''Share attention in batch'''" è una funzionalità dove l'attenzione del modello, ovvero la parte che il modello "considera" più importante durante la generazione dell'immagine, viene '''condivisa''' o '''sincronizzata''' tra le immagini in un batch. Quando si generano '''più immagini contemporaneamente (un batch)''', questo parametro fa in modo che tutte le immagini nel batch diano priorità a parti simili dell'input, o che le caratteristiche stilistiche siano '''coerenti''' tra di loro. Per esempio, se si stanno generando immagini di volti e si vuole che l'attenzione sia focalizzata sugli occhi per tutti i volti nel batch, attivare questa opzione potrebbe aiutare a garantire che tutti i volti generati abbiano occhi ben definiti e uno stile simile. Questo può essere particolarmente utile quando l'obiettivo è creare una serie di immagini che devono essere visivamente coerenti l'una con l'altra.

* Parametri Statici:
** Prompt = "A man cooking a steak, he is in the kitchen, the stoves are on"
** Clip skip = 1
** Sampling Method: DPM++2M SDE SGMUniform
** Sampling Steps: 30
** Upscaler : Latent (nearest-exact)
** Hires Step: 0
** Batch count : 1
** Batch size: 1
** CFG : 15
** Denoising Strength = 0,7

{| class="wikitable"
|+
|[[File:Cookingstyle1.png|miniatura|200x200px|SAIB = off]]
|[[File:Cookingstyle2.png|miniatura|200x200px|SAIB = on]]
|}

= Sperimentazione: Hires steps =
Questo parametro si riferisce ai '''passaggi aggiuntivi''' di elaborazione che vengono eseguiti per '''rifinire''' l'immagine dopo la sua creazione iniziale. Aumentare l'Hire ssteps può migliorare la qualità dell'immagine, ma '''rallenterà''' anche il processo di generazione.

* Parametri Statici:
** Prompt = "A man cooking a steak, he is in the kitchen, the stoves are on, '''the steak is being cooked on a pan'''"
** Clip skip = 1
** Sampling Method: DPM++2M SDE SGMUniform
** Sampling Steps: 30
** Upscaler : Latent (nearest-exact)
** Batch count : 1
** Batch size: 1
** CFG : 15
** Denoising Strength = 0,7

{| class="wikitable"
|+
|[[File:CookingHS1.png|miniatura|200x200px|Hire steps = 0]]
|[[File:CookingHS3.png|miniatura|200x200px|Hire steps = 100]]
|}

==Osservazioni==
In questa sperimentazione si notano poche differenze fra un'immagine e l'altra; fra l'assenza del parametro e il suo valore massimo. L'unico difetto individuabile si trova nella prima immagine dove l'uomo sta cercando di cuocere la carne senza una padella.

= Sperimentazione: SelfAttentionGuidance Integrated =
Questa tecnica è progettata per rendere il processo di generazione delle immagini '''più semplice e veloce''' per l'utente, migliorando allo stesso tempo la '''qualità''' delle immagini prodotte. La funzionalità integrata della "self attention guidance" può aiutare a creare immagini che appaiono '''più realistiche''' e con oggetti '''meglio definiti''' senza che l'utente debba effettuare configurazioni complesse o '''passaggi supplementari'''.
Il termine "'''Scale'''" si riferisce all'intensità con cui la guida basata sull'auto-attenzione viene applicata durante il processo di generazione. Una "Scale" maggiore implica '''un'adesione più forte al prompt testuale''' e può portare a immagini più '''dettagliate e coerenti con l'input''', anche se potrebbe ridurre la diversità delle immagini generate.
Il parametro "'''Blur Sigma'''", invece, è associato al '''grado di sfocatura''' che viene applicato alle regioni selezionate di un'immagine. Questo processo agisce dove le aree con maggiore auto-attenzione — ovvero quelle parti dell'immagine che il modello riconosce come più importanti o informative — vengono '''sfocate''' leggermente. L'idea è che '''enfatizzando''' il lavoro del modello su queste aree sfocate, il modello può generare risultati migliori, perfezionando le parti '''più significative''' dell'immagine e '''riducendo''' potenzialmente il '''rumore''' o i '''dettagli superflui''' nelle regioni meno importanti.
I valori di default sono i seguenti: <<'''Scale = 0,5'''>> - <<'''Blur sigma = 2'''>>

* Parametri Statici:
** Prompt = "A man cooking a steak, he is in the kitchen, the stoves are on, '''the steak is being cooked on a pan'''"
** Clip skip = 1
** Sampling Method: DPM++2M SDE SGMUniform
** Sampling Steps: 30
** Upscaler : Latent (nearest-exact)
** Hires Step: 0
** Batch count : 1
** Batch size: 1
** CFG : 15
** Denoising Strength = 0,7

{| class="wikitable"
|+
|[[File:SAG_none_-_default.jpg|miniatura|200x200px|Tecnica omessa e valori default]]
|[[File:SAG_Scale.jpg|miniatura|200x200px|SAG Scale (da sinistra): -2; 1; 5]]
|[[File:SAG_BS.jpg|miniatura|200x200px|SAG BS (da sinistra): 0,1; 5; 10]]
|}

==Osservazioni==
Nella prima immagine si osserva il confronto tra l'immagine generata senza la tecnica del SAG e quella generata con quest'ultima. Si evidenzia come l'immagine generata con la tecnica con valori impostati di default sia di qualità inferiore alla prima, suggerendo che bisogna regolare i parametri di "scale" e di "blur sigma". Per quanto riguarda le immagini generate variando solo il parametro di scale, si nota come si ottengano dei pessimi risultati impostando dei valori sia troppo bassi che troppo alti, e che quindi sia necessario lavorare nei valori intermedi (i risultati cambiano in base alla complessità del prompt). Relativamente al parametro di Blur sigma, si notano poche differenze fra le tre immagini, benché ci siano errori evidenti sul modo in cui l'uomo tenga in mano degli oggetti difficilmente identificabili, soprattutto nei valori "0,1" e "10".

=Altri componenti=
{| class="wikitable"
|+
|[[File:altrefunzioni.png|miniatura|500x500px|Tecniche]]
|}
=='''ControlNet'''==
Un modello di '''rete neurale''' progettato per controllare i modelli di Stable Diffusion, fornendo agli utenti un '''controllo dettagliato''' sugli output dei modelli di diffusione nelle attività di generazione di testo in immagine. ControlNet è una struttura di rete neurale che consente '''l'aggiunta di condizioni aggiuntive''' per influenzare l'output dei modelli di diffusione. Queste condizioni possono assumere molte forme, come [[Edge maps]], [[Depth maps]], e [[Semantic segmentations]]. L'uso di ControlNet su Stable Diffusion offre numerosi vantaggi. Consente un controllo preciso sulla semantica e sulle caratteristiche del contenuto generato, consentendo la generazione di output più '''accurati''' e '''personalizzati'''.

=='''DynamicThresholding (CFG-Fix)'''==
è un '''filtro''' per migliorare le immagini. Aiuta a risolvere '''problemi di colore''' quando si usano '''impostazioni più alte'''. Queste ultime, si riferiscono a valori maggiori o livelli superiori, significa utilizzare valori più grandi per '''migliorare''' l’immagine. Ad esempio, se un’immagine è leggermente sbiadita e la si vuole rendere più nitida, è possibile aumentare determinati parametri. Tuttavia, a volte, quando si usano valori troppo alti, potrebbero verificarsi problemi di colore. Ecco dove entra in gioco CFG-Fix: risolve questi problemi di colore quando si utilizzano impostazioni elevate.

=='''FreeU'''==
Un componente aggiuntivo di Stable Diffusion che migliora la qualità dell'immagine modificando il '''denoiser''' del modello. Il miglioramento avviene senza costi: nessun addestramento, nessun parametro aggiuntivo introdotto e nessun aumento della memoria o del tempo di campionamento.

'''Prompt: A 25 year old mage, dress, full body, magic, lightning, rim light, moon, night'''

(Da sinistra) Generazione neutra e utilizzo FreeU.

[[File:maga.png|300px]] [[File:magaFreeU.png|300px]]

=='''HyperTile'''==
è un '''metodo''' che ottimizza il livello di '''auto-attenzione''' all’interno dei modelli Stable-Diffusion. Questo porta a una '''riduzione del tempo di calcolo''' che varia da 1 a 4 volte, a seconda della '''risoluzione iniziale'''.

'''Prompt: A man eating pasta'''

(Da sinistra) Generazione neutra ('''15 sec''') e utilizzo di Hypertile ('''7 sec''')

[[File:Uomopasta1.png|400px]] [[File:Uomopasta2.png|400px]]

=='''Kohya HRFix'''==
è un’'''estensione''' utilizzata nei modelli Stable-Diffusion per migliorare la risoluzione delle immagini generate. Questa estensione è stata sviluppata da Kohya e ha lo scopo di '''limitare i problemi di clonazione/crollo''' nelle immagini ad alta risoluzione. Tuttavia, l’uso di Kohya HRFix può ridurre la varietà delle immagini generate, rendendole più identiche tra loro. Le impostazioni ottimali per Kohya HRFix possono variare a seconda delle esigenze specifiche dell’utente.

'''Prompt: A potrait of a white cat, cozy house'''

(Da sinistra) Generazione neutra e utilizzo Kohya HRFix.

[[File:Gattobianco1.png|300px]] [[File:Gattokoya.png|500px]]

Possiamo notare che nonostante presenti risultati migliori per quanto riguarda la risoluzione e dei dettagli, Kohya ha anche il contro di alterare leggermente l'interpretazione del prompt il che, per artisti dedicati e che curano ogni dettaglio della generazione, può essere un grosso dealbreaker.
[[File:Kohya.png|centro|miniatura|923x923px|Confronto di tempistiche e risultati con e senza Kohya XRFix. fonte: https://www.reddit.com/r/StableDiffusion/comments/17z951a/kohyas_deepshrink_highres_fix_is_amazing_produces/]]

=='''LatentModifier'''==
è un '''componente''' che '''modifica i valori latenti''' durante il '''processo di diffusione''' in un modello di generazione di immagini. Queste modifiche possono influenzare vari aspetti dell’immagine finale, come la '''nitidezza''', il '''contrasto''' e il '''rumore'''. Ci sono parametri

'''Prompt: A potrait of a white cat, cozy house'''

(Da sinistra) Generazione neutra e utilizzo LatentModifier.

[[File:Gattobianco1.png|300px]] [[File:Latentgatto.png|300px]]

'''Prompt: a cute kitten smoking a cigar'''

Sharpness Multiplier:
[[File:Image (3).png|sinistra|miniatura|423x423px|-100]]
[[File:Image (4).png|miniatura|421x421px|+100]]

[[File:Screenshot (367).png|miniatura|969x969px|Tonemap Multiplier: 100]]
[[File:Screenshot (368).png|miniatura|971x971px|Miglior risultato ottenuto dalla sperimentazione e relativi parametri]]

=='''MultiDiffusion'''==

== Extra Noise Settings ==
[[File:Screenshot (372).png|miniatura|996x996px]]
[[File:Screenshot (371).png|miniatura|997x997px]]
[[File:Screenshot (369).png|miniatura|999x999px]]
[[File:Screenshot (370).png|miniatura|1003x1003px]]

è un '''framework''' unificato che consente la generazione di immagini '''versatili''' e '''controllabili''', utilizzando un modello di diffusione text-to-image pre-

addestrato. Al centro dell’approccio c’è un nuovo processo di generazione, basato su un compito di '''ottimizzazione''' che lega insieme '''più processi''' di generazione di diffusione con un '''insieme condiviso di parametri o vincoli'''

=='''Never OOM'''==
Parametro puramente tecnico che permette di scaricare sempre i modelli dalla '''VRAM'''. Questo può essere utile se si utilizzano '''più software insieme''' e si desidera che Stable Diffusion utilizzi meno VRAM e ne dia '''una parte ad altri software''', o quando si utilizzano vecchie estensioni che competono con la VRAM di Stable Diffusion. Non ha impatto sulla generazione. [[Category:strumento]]

=='''Script'''==
Questa funzione è utilizzata per implementare '''script personalizzati''' che possono modificare il '''comportamento''' del processo di generazione di immagini.
*'''None''': Questa è l’opzione predefinita che significa che non viene eseguito alcuno script.
*'''Prompt matrix''': permette di testare e confrontare le modifiche che i prompt apportano alle immagini generate. Si possono strutturare i prompt in modo che ogni immagine nella matrice abbia un prompt che inizia con una frase comune.Per esempio, una immagine avrà il prompt “una ciotola di frutta, mele”, un’altra avrà “una ciotola di frutta, mele, pere” e così via.
*'''Prompts from file or textbox''': permette di caricare i prompt da un file o da un textbox. Si può creare un prompt a piacimento, creare un numero x di variazioni su di esso, copiare quel file di testo, e ripetere fino a quando non hai centinaia di mini file di testo.
*'''X/Y/Z plot''': permette di eseguire test sui propri prompt e impostazioni per vedere i risultati, senza impegnarsi in una generazione di immagini completa. Utilizzando un grafico, si possono confrontare i risultati per vedere quale combinazione di impostazioni funziona meglio.

Txt2img (Stable Diffusion)

2024-03-22T12:15:53Z

Stefano: /* HyperTile */

Txt2img è un tool di [[Stable Diffusion]] che, come intuibile, genera un'immagine .png basata su un prompt testuale. Il suo ultimo aggiornamento risale al 28 Ottobre 2022.

I parametri di Txt2img non verranno descritti con massimo dettaglio dal momento che la finalità di questa Wiki entry è di fornire delle linee guida comprovate da sperimentazione diretta.

* Il primo obiettivo è ricondurre con praticità il livello di performance riscontrato nel modello alle relative combinazioni di parametri.

* Il secondo obiettivo è creare collegamenti tra ciascun parametro e la corrispondente sezione dell'architettura.

= Link di approfondimento =
Nel caso si voglia approfondire i setting si può visitare il github relativo alla UI: [https://github.com/AUTOMATIC1111/stable-diffusion-webui]

Nel caso si voglia approfondire l'architettura generale si può visitare il repository: [https://github.com/Stability-AI/stablediffusion]

= Overview dell'interfaccia =
[[File:Overview_diffusion.png|700x700px]]

* [[Sampling method (Stable Diffusion)|Sampling method]]

* Sampling steps:

-Tra l'1 e i 15 step: l'immagine è relativamente sfocata.

-Tra i 15 e i 25 step: L'immagine è abbastanza chiara e di buona qualità.

-Tra i 25 e i 45: La qualità dell'immagine è molto alta e comprende la texture.

-Dai 45 in poi: La loss function si stabilizza e si osserva una variazione minima nella risoluzione.
{| class="wikitable"
|+
![[File:Sampling step 5.png|miniatura|5 step]]
![[File:10 step.png|miniatura|10 step]]
![[File:15 step.png|miniatura|15 step]]
|}
{| class="wikitable"
|+
![[File:25 step.png|miniatura|25 step]]
![[File:40 step.png|miniatura|40 step]]
![[File:60 step.png|miniatura|60 step]]
|}
{| class="wikitable"
|+
![[File:1 step.png|miniatura|1 step]]
![[File:150 step.png|miniatura|150 step]]
|}

====== Upscaler: ======
L'upscaling è il processo di aumentare la risoluzione di un'immagine, cioè di ingrandirla, mantenendo al contempo la qualità visiva il più alta possibile e può essere ottenuto mediante algoritmi di interpolazione e tecniche avanzate di elaborazione delle immagini, che aggiungono dettagli artificiali per migliorare l'aspetto dell'immagine.

- Hires Steps: migliorano la qualità dell'immagine attraverso iterazioni aggiuntive durante il processo di generazione

- Denoising strenght

- Upscale by: L'upscale di solito avviene dopo che l'immagine è stata completamente generata. L'immagine viene resa più grande senza perdere significativamente in qualità o dettaglio. Si esprime come un multiplier delle dimensioni dell'immagine generata, da 1 a 4.

* Width/Height: Dimensioni

* Batch count: il numero di gruppi in cui i dati vengono divisi durante l'elaborazione. Più batch count può significare una maggiore divisione dei dati durante il processo.

* Batch size: quanti dati vengono elaborati contemporaneamente in ciascun gruppo. Un batch size più grande può accelerare il processo ma richiedere più memoria, mentre un batch size più piccolo può richiedere più tempo ma portare a risultati più precisi.

* CFG Scale (Classifier Free Guidance Scale)

* Seed: Un numero che inizializza il generatore di numeri casuali. Utilizzare lo stesso seed con gli stessi parametri di input produrrà sempre la stessa immagine. È utile per la riproducibilità o per fare piccoli aggiustamenti su un'immagine esistente.
=Tecniche=
*[[TextualInversion]]
*[[Hypernetworks]]
*[[LoRA]]

= Sperimentazioni =
Per effettuare un'analisi bilanciata utilizzeremo gli stessi due metri di giudizio per valutare gli output:

* Inception Score
* Visual Inspection by GPT4

= Sperimentazione: Denoising Strength =
Questo parametro si riferisce all'intensità della '''riduzione del rumore''' applicata a un'immagine. Il "rumore" è il termine usato per descrivere '''variazioni casuali e non desiderate''' nei livelli di luminosità o colore di un'immagine, che possono renderla '''granulosa''' o '''offuscata''' e possono distorcere i dettagli.

* Parametri Statici:
** Prompt = "A man cooking a steak, he is in the kitchen, the stoves are on"
** Clip skip = 1
** Sampling Method: DPM++2M SDE SGMUniform
** Sampling Steps: 30
** Upscaler : Latent (nearest-exact)
** Hires Step: 0
** Batch count : 1
** Batch size: 1
** CFG : 15
(Le sperimentazioni iniziano dopo il valore 0, poiché non si sta fornendo al modello l'opportunità di "pulire" o trasformare il rumore in un'immagine coerente basata sul prompt fornito)
{| class="wikitable"
|+
|[[File:Cooking_1.png|miniatura|200x200px|Denoising Strength = 0,1]]
|[[File:Cooking_2.png|miniatura|200x200px|Denoising Strength = 0,3]]
|[[File:Cooking_3.png|miniatura|200x200px|Denoising Strength = 0,7]]
|}

==Osservazioni==
Impostando il Denoising Strenght a "0,1", si nota un'elevata quantità di rumore che rende indefiniti sia i dettagli che le sagome degli elementi a schermo. Aumentando de facto il valore del parametro si può osservare nettamente la differenza e l'efficacia fra il valore intermedio (0,3) e quello iniziale, fino ad arrivare ad una qualità più che sufficiente impostando il parametro a "0,7".

==Visual inspection by ChatGPT4==
Qui di seguito ci sarà una descrizione di ChatGPT4 sulla qualità delle immagini, in modo da comprendere se il modello riesca a individuare rumore e artefatti.

<<Le tre immagini mostrano una sequenza di azioni in una cucina, con un uomo che sembra impegnato nella preparazione di un piatto di carne. Nella prima immagine, il cuoco sta flambando la carne, creando un effetto visivo spettacolare con le fiamme che si alzano dalla padella. Nella seconda, appare concentrato nel girare o condire la carne, mentre nella terza è intento a cucinare, forse verificando la cottura o aggiungendo altri ingredienti.
Ogni immagine ha una qualità elevata, con dettagli nitidi e colori vivaci che catturano bene la scena della cucina. L'illuminazione è ben gestita, evidenziando le azioni del cuoco e dando vita agli alimenti in preparazione. La composizione è dinamica e sembra che ci sia stata attenzione nel posizionare ogni elemento per creare una scena armoniosa che guida l'occhio verso il soggetto principale senza distrazioni superflue.
Non si notano artefatti che suggeriscono una manipolazione digitale e le immagini trasmettono un senso di autenticità e professionalità. Ciò suggerisce che probabilmente sono state scattate durante una vera sessione di cucina e che fanno parte di una serie tematica ben pianificata. In sintesi, si tratta di una rappresentazione coerente e accattivante del processo culinario in azione.>>

Dalla descrizione fornita, si nota come ChatGPT4 non riesca ad individuare le differenze sostanziali presenti fra le tre immagini, dimostrando comunque la capacità di saper descrivere il contesto in modo eccellente.

= Sperimentazione: CFG Scale =
Questo parametro controlla quanto fedelmente il processo di generazione delle immagini '''segue''' il prompt di testo fornito. Un valore più alto del CFG Scale significa che l'immagine generata sarà più '''aderente''' al testo di input, ossia seguirà più strettamente le indicazioni date. In contrasto, un valore più basso dà al modello più libertà di '''inventare''' o di essere '''creativo''', portando a risultati che possono '''deviare''' di più dal prompt originale.

* Parametri Statici:
** Prompt = "A man cooking a steak, he is in the kitchen, the stoves are on"
** Clip skip = 1
** Sampling Method: DPM++2M SDE SGMUniform
** Sampling Steps: 30
** Upscaler : Latent (nearest-exact)
** Hires Step: 0
** Batch count : 1
** Batch size: 1
** Denoising Strength = 0,7

{| class="wikitable"
|+
|[[File:CookingCFG2.png|miniatura|200x200px|CFG = 1]]
|[[File:CookingCFG1.png|miniatura|200x200px|CFG = 3]]
|[[File:Cooking_3.png|miniatura|200x200px|CFG = 15]]
|}

==Osservazioni==
Impostando il parametro al suo valore minimo si nota come il modello segua ben poco il prompt fornito. Viene presentato un ragazzo e non un uomo, situato in un posto che ricorda appena una cucina, mentre sta cucinando del cibo che ricorda vagamente la carne. Con un valore pari a "3", il setting è già interamente riconoscibile. In questo caso sono solo le azioni che vengono rappresentate a schermo ad essere poco chiare, poiché si nota un uomo che ha messo una fetta di carne in un forno a legna. L'ultima immagine mostra un contesto totalmente credibile: sia l'ambiente che le azioni sono coerenti con il prompt fornito, benché gli unici difetti facilmente visibili sono gli oggetti che l'uomo tiene in mano per cucinare, essendo poco definiti.

= Sperimentazione: Share Attention in Batch =
Il parametro "'''Share attention in batch'''" è una funzionalità dove l'attenzione del modello, ovvero la parte che il modello "considera" più importante durante la generazione dell'immagine, viene '''condivisa''' o '''sincronizzata''' tra le immagini in un batch. Quando si generano '''più immagini contemporaneamente (un batch)''', questo parametro fa in modo che tutte le immagini nel batch diano priorità a parti simili dell'input, o che le caratteristiche stilistiche siano '''coerenti''' tra di loro. Per esempio, se si stanno generando immagini di volti e si vuole che l'attenzione sia focalizzata sugli occhi per tutti i volti nel batch, attivare questa opzione potrebbe aiutare a garantire che tutti i volti generati abbiano occhi ben definiti e uno stile simile. Questo può essere particolarmente utile quando l'obiettivo è creare una serie di immagini che devono essere visivamente coerenti l'una con l'altra.

* Parametri Statici:
** Prompt = "A man cooking a steak, he is in the kitchen, the stoves are on"
** Clip skip = 1
** Sampling Method: DPM++2M SDE SGMUniform
** Sampling Steps: 30
** Upscaler : Latent (nearest-exact)
** Hires Step: 0
** Batch count : 1
** Batch size: 1
** CFG : 15
** Denoising Strength = 0,7

{| class="wikitable"
|+
|[[File:Cookingstyle1.png|miniatura|200x200px|SAIB = off]]
|[[File:Cookingstyle2.png|miniatura|200x200px|SAIB = on]]
|}

= Sperimentazione: Hires steps =
Questo parametro si riferisce ai '''passaggi aggiuntivi''' di elaborazione che vengono eseguiti per '''rifinire''' l'immagine dopo la sua creazione iniziale. Aumentare l'Hire ssteps può migliorare la qualità dell'immagine, ma '''rallenterà''' anche il processo di generazione.

* Parametri Statici:
** Prompt = "A man cooking a steak, he is in the kitchen, the stoves are on, '''the steak is being cooked on a pan'''"
** Clip skip = 1
** Sampling Method: DPM++2M SDE SGMUniform
** Sampling Steps: 30
** Upscaler : Latent (nearest-exact)
** Batch count : 1
** Batch size: 1
** CFG : 15
** Denoising Strength = 0,7

{| class="wikitable"
|+
|[[File:CookingHS1.png|miniatura|200x200px|Hire steps = 0]]
|[[File:CookingHS3.png|miniatura|200x200px|Hire steps = 100]]
|}

==Osservazioni==
In questa sperimentazione si notano poche differenze fra un'immagine e l'altra; fra l'assenza del parametro e il suo valore massimo. L'unico difetto individuabile si trova nella prima immagine dove l'uomo sta cercando di cuocere la carne senza una padella.

= Sperimentazione: SelfAttentionGuidance Integrated =
Questa tecnica è progettata per rendere il processo di generazione delle immagini '''più semplice e veloce''' per l'utente, migliorando allo stesso tempo la '''qualità''' delle immagini prodotte. La funzionalità integrata della "self attention guidance" può aiutare a creare immagini che appaiono '''più realistiche''' e con oggetti '''meglio definiti''' senza che l'utente debba effettuare configurazioni complesse o '''passaggi supplementari'''.
Il termine "'''Scale'''" si riferisce all'intensità con cui la guida basata sull'auto-attenzione viene applicata durante il processo di generazione. Una "Scale" maggiore implica '''un'adesione più forte al prompt testuale''' e può portare a immagini più '''dettagliate e coerenti con l'input''', anche se potrebbe ridurre la diversità delle immagini generate.
Il parametro "'''Blur Sigma'''", invece, è associato al '''grado di sfocatura''' che viene applicato alle regioni selezionate di un'immagine. Questo processo agisce dove le aree con maggiore auto-attenzione — ovvero quelle parti dell'immagine che il modello riconosce come più importanti o informative — vengono '''sfocate''' leggermente. L'idea è che '''enfatizzando''' il lavoro del modello su queste aree sfocate, il modello può generare risultati migliori, perfezionando le parti '''più significative''' dell'immagine e '''riducendo''' potenzialmente il '''rumore''' o i '''dettagli superflui''' nelle regioni meno importanti.
I valori di default sono i seguenti: <<'''Scale = 0,5'''>> - <<'''Blur sigma = 2'''>>

* Parametri Statici:
** Prompt = "A man cooking a steak, he is in the kitchen, the stoves are on, '''the steak is being cooked on a pan'''"
** Clip skip = 1
** Sampling Method: DPM++2M SDE SGMUniform
** Sampling Steps: 30
** Upscaler : Latent (nearest-exact)
** Hires Step: 0
** Batch count : 1
** Batch size: 1
** CFG : 15
** Denoising Strength = 0,7

{| class="wikitable"
|+
|[[File:SAG_none_-_default.jpg|miniatura|200x200px|Tecnica omessa e valori default]]
|[[File:SAG_Scale.jpg|miniatura|200x200px|SAG Scale (da sinistra): -2; 1; 5]]
|[[File:SAG_BS.jpg|miniatura|200x200px|SAG BS (da sinistra): 0,1; 5; 10]]
|}

==Osservazioni==
Nella prima immagine si osserva il confronto tra l'immagine generata senza la tecnica del SAG e quella generata con quest'ultima. Si evidenzia come l'immagine generata con la tecnica con valori impostati di default sia di qualità inferiore alla prima, suggerendo che bisogna regolare i parametri di "scale" e di "blur sigma". Per quanto riguarda le immagini generate variando solo il parametro di scale, si nota come si ottengano dei pessimi risultati impostando dei valori sia troppo bassi che troppo alti, e che quindi sia necessario lavorare nei valori intermedi (i risultati cambiano in base alla complessità del prompt). Relativamente al parametro di Blur sigma, si notano poche differenze fra le tre immagini, benché ci siano errori evidenti sul modo in cui l'uomo tenga in mano degli oggetti difficilmente identificabili, soprattutto nei valori "0,1" e "10".

=Altri componenti=
{| class="wikitable"
|+
|[[File:altrefunzioni.png|miniatura|500x500px|Tecniche]]
|}
=='''ControlNet'''==
Un modello di '''rete neurale''' progettato per controllare i modelli di Stable Diffusion, fornendo agli utenti un '''controllo dettagliato''' sugli output dei modelli di diffusione nelle attività di generazione di testo in immagine. ControlNet è una struttura di rete neurale che consente '''l'aggiunta di condizioni aggiuntive''' per influenzare l'output dei modelli di diffusione. Queste condizioni possono assumere molte forme, come [[Edge maps]], [[Depth maps]], e [[Semantic segmentations]]. L'uso di ControlNet su Stable Diffusion offre numerosi vantaggi. Consente un controllo preciso sulla semantica e sulle caratteristiche del contenuto generato, consentendo la generazione di output più '''accurati''' e '''personalizzati'''.

=='''DynamicThresholding (CFG-Fix)'''==
è un '''filtro''' per migliorare le immagini. Aiuta a risolvere '''problemi di colore''' quando si usano '''impostazioni più alte'''. Queste ultime, si riferiscono a valori maggiori o livelli superiori, significa utilizzare valori più grandi per '''migliorare''' l’immagine. Ad esempio, se un’immagine è leggermente sbiadita e la si vuole rendere più nitida, è possibile aumentare determinati parametri. Tuttavia, a volte, quando si usano valori troppo alti, potrebbero verificarsi problemi di colore. Ecco dove entra in gioco CFG-Fix: risolve questi problemi di colore quando si utilizzano impostazioni elevate.

=='''FreeU'''==
Un componente aggiuntivo di Stable Diffusion che migliora la qualità dell'immagine modificando il '''denoiser''' del modello. Il miglioramento avviene senza costi: nessun addestramento, nessun parametro aggiuntivo introdotto e nessun aumento della memoria o del tempo di campionamento.

'''Prompt: A 25 year old mage, dress, full body, magic, lightning, rim light, moon, night'''

(Da sinistra) Generazione neutra e utilizzo FreeU.

[[File:maga.png|300px]] [[File:magaFreeU.png|300px]]

=='''HyperTile'''==
è un '''metodo''' che ottimizza il livello di '''auto-attenzione''' all’interno dei modelli Stable-Diffusion. Questo porta a una '''riduzione del tempo di calcolo''' che varia da 1 a 4 volte, a seconda della '''risoluzione iniziale'''.

'''Prompt: A man eating pasta'''

(Da sinistra) Generazione neutra e utilizzo di Hypertile.

[[File:Uomopasta1.png|400px]] [[File:Uomopasta2.png|400px]]

=='''Kohya HRFix'''==
è un’'''estensione''' utilizzata nei modelli Stable-Diffusion per migliorare la risoluzione delle immagini generate. Questa estensione è stata sviluppata da Kohya e ha lo scopo di '''limitare i problemi di clonazione/crollo''' nelle immagini ad alta risoluzione. Tuttavia, l’uso di Kohya HRFix può ridurre la varietà delle immagini generate, rendendole più identiche tra loro. Le impostazioni ottimali per Kohya HRFix possono variare a seconda delle esigenze specifiche dell’utente.

'''Prompt: A potrait of a white cat, cozy house'''

(Da sinistra) Generazione neutra e utilizzo Kohya HRFix.

[[File:Gattobianco1.png|300px]] [[File:Gattokoya.png|500px]]

Possiamo notare che nonostante presenti risultati migliori per quanto riguarda la risoluzione e dei dettagli, Kohya ha anche il contro di alterare leggermente l'interpretazione del prompt il che, per artisti dedicati e che curano ogni dettaglio della generazione, può essere un grosso dealbreaker.
[[File:Kohya.png|centro|miniatura|923x923px|Confronto di tempistiche e risultati con e senza Kohya XRFix. fonte: https://www.reddit.com/r/StableDiffusion/comments/17z951a/kohyas_deepshrink_highres_fix_is_amazing_produces/]]

=='''LatentModifier'''==
è un '''componente''' che '''modifica i valori latenti''' durante il '''processo di diffusione''' in un modello di generazione di immagini. Queste modifiche possono influenzare vari aspetti dell’immagine finale, come la '''nitidezza''', il '''contrasto''' e il '''rumore'''.

'''Prompt: A potrait of a white cat, cozy house'''

(Da sinistra) Generazione neutra e utilizzo LatentModifier.

[[File:Gattobianco1.png|300px]] [[File:Latentgatto.png|300px]]

=='''MultiDiffusion'''==
è un '''framework''' unificato che consente la generazione di immagini '''versatili''' e '''controllabili''', utilizzando un modello di diffusione text-to-image pre-addestrato. Al centro dell’approccio c’è un nuovo processo di generazione, basato su un compito di '''ottimizzazione''' che lega insieme '''più processi''' di generazione di diffusione con un '''insieme condiviso di parametri o vincoli'''.

=='''Never OOM'''==
è un’'''opzione''' che permette di scaricare sempre i modelli dalla '''VRAM'''. Questo può essere utile se si utilizzano '''più software insieme''' e si desidera che Stable Diffusion utilizzi meno VRAM e ne dia '''una parte ad altri software''', o quando si utilizzano vecchie estensioni che competono con la VRAM di Stable Diffusion. [[Category:strumento]]

=='''Script'''==
Questa funzione è utilizzata per implementare '''script personalizzati''' che possono modificare il '''comportamento''' del processo di generazione di immagini.
*'''None''': Questa è l’opzione predefinita che significa che non viene eseguito alcuno script.
*'''Prompt matrix''': permette di testare e confrontare le modifiche che i prompt apportano alle immagini generate. Si possono strutturare i prompt in modo che ogni immagine nella matrice abbia un prompt che inizia con una frase comune.Per esempio, una immagine avrà il prompt “una ciotola di frutta, mele”, un’altra avrà “una ciotola di frutta, mele, pere” e così via.
*'''Prompts from file or textbox''': permette di caricare i prompt da un file o da un textbox. Si può creare un prompt a piacimento, creare un numero x di variazioni su di esso, copiare quel file di testo, e ripetere fino a quando non hai centinaia di mini file di testo.
*'''X/Y/Z plot''': permette di eseguire test sui propri prompt e impostazioni per vedere i risultati, senza impegnarsi in una generazione di immagini completa. Utilizzando un grafico, si possono confrontare i risultati per vedere quale combinazione di impostazioni funziona meglio.

Txt2img (Stable Diffusion)

2024-03-22T12:12:46Z

Stefano: /* Altri componenti */

Txt2img è un tool di [[Stable Diffusion]] che, come intuibile, genera un'immagine .png basata su un prompt testuale. Il suo ultimo aggiornamento risale al 28 Ottobre 2022.

I parametri di Txt2img non verranno descritti con massimo dettaglio dal momento che la finalità di questa Wiki entry è di fornire delle linee guida comprovate da sperimentazione diretta.

* Il primo obiettivo è ricondurre con praticità il livello di performance riscontrato nel modello alle relative combinazioni di parametri.

* Il secondo obiettivo è creare collegamenti tra ciascun parametro e la corrispondente sezione dell'architettura.

= Link di approfondimento =
Nel caso si voglia approfondire i setting si può visitare il github relativo alla UI: [https://github.com/AUTOMATIC1111/stable-diffusion-webui]

Nel caso si voglia approfondire l'architettura generale si può visitare il repository: [https://github.com/Stability-AI/stablediffusion]

= Overview dell'interfaccia =
[[File:Overview_diffusion.png|700x700px]]

* [[Sampling method (Stable Diffusion)|Sampling method]]

* Sampling steps:

-Tra l'1 e i 15 step: l'immagine è relativamente sfocata.

-Tra i 15 e i 25 step: L'immagine è abbastanza chiara e di buona qualità.

-Tra i 25 e i 45: La qualità dell'immagine è molto alta e comprende la texture.

-Dai 45 in poi: La loss function si stabilizza e si osserva una variazione minima nella risoluzione.
{| class="wikitable"
|+
![[File:Sampling step 5.png|miniatura|5 step]]
![[File:10 step.png|miniatura|10 step]]
![[File:15 step.png|miniatura|15 step]]
|}
{| class="wikitable"
|+
![[File:25 step.png|miniatura|25 step]]
![[File:40 step.png|miniatura|40 step]]
![[File:60 step.png|miniatura|60 step]]
|}
{| class="wikitable"
|+
![[File:1 step.png|miniatura|1 step]]
![[File:150 step.png|miniatura|150 step]]
|}

====== Upscaler: ======
L'upscaling è il processo di aumentare la risoluzione di un'immagine, cioè di ingrandirla, mantenendo al contempo la qualità visiva il più alta possibile e può essere ottenuto mediante algoritmi di interpolazione e tecniche avanzate di elaborazione delle immagini, che aggiungono dettagli artificiali per migliorare l'aspetto dell'immagine.

- Hires Steps: migliorano la qualità dell'immagine attraverso iterazioni aggiuntive durante il processo di generazione

- Denoising strenght

- Upscale by: L'upscale di solito avviene dopo che l'immagine è stata completamente generata. L'immagine viene resa più grande senza perdere significativamente in qualità o dettaglio. Si esprime come un multiplier delle dimensioni dell'immagine generata, da 1 a 4.

* Width/Height: Dimensioni

* Batch count: il numero di gruppi in cui i dati vengono divisi durante l'elaborazione. Più batch count può significare una maggiore divisione dei dati durante il processo.

* Batch size: quanti dati vengono elaborati contemporaneamente in ciascun gruppo. Un batch size più grande può accelerare il processo ma richiedere più memoria, mentre un batch size più piccolo può richiedere più tempo ma portare a risultati più precisi.

* CFG Scale (Classifier Free Guidance Scale)

* Seed: Un numero che inizializza il generatore di numeri casuali. Utilizzare lo stesso seed con gli stessi parametri di input produrrà sempre la stessa immagine. È utile per la riproducibilità o per fare piccoli aggiustamenti su un'immagine esistente.
=Tecniche=
*[[TextualInversion]]
*[[Hypernetworks]]
*[[LoRA]]

= Sperimentazioni =
Per effettuare un'analisi bilanciata utilizzeremo gli stessi due metri di giudizio per valutare gli output:

* Inception Score
* Visual Inspection by GPT4

= Sperimentazione: Denoising Strength =
Questo parametro si riferisce all'intensità della '''riduzione del rumore''' applicata a un'immagine. Il "rumore" è il termine usato per descrivere '''variazioni casuali e non desiderate''' nei livelli di luminosità o colore di un'immagine, che possono renderla '''granulosa''' o '''offuscata''' e possono distorcere i dettagli.

* Parametri Statici:
** Prompt = "A man cooking a steak, he is in the kitchen, the stoves are on"
** Clip skip = 1
** Sampling Method: DPM++2M SDE SGMUniform
** Sampling Steps: 30
** Upscaler : Latent (nearest-exact)
** Hires Step: 0
** Batch count : 1
** Batch size: 1
** CFG : 15
(Le sperimentazioni iniziano dopo il valore 0, poiché non si sta fornendo al modello l'opportunità di "pulire" o trasformare il rumore in un'immagine coerente basata sul prompt fornito)
{| class="wikitable"
|+
|[[File:Cooking_1.png|miniatura|200x200px|Denoising Strength = 0,1]]
|[[File:Cooking_2.png|miniatura|200x200px|Denoising Strength = 0,3]]
|[[File:Cooking_3.png|miniatura|200x200px|Denoising Strength = 0,7]]
|}

==Osservazioni==
Impostando il Denoising Strenght a "0,1", si nota un'elevata quantità di rumore che rende indefiniti sia i dettagli che le sagome degli elementi a schermo. Aumentando de facto il valore del parametro si può osservare nettamente la differenza e l'efficacia fra il valore intermedio (0,3) e quello iniziale, fino ad arrivare ad una qualità più che sufficiente impostando il parametro a "0,7".

==Visual inspection by ChatGPT4==
Qui di seguito ci sarà una descrizione di ChatGPT4 sulla qualità delle immagini, in modo da comprendere se il modello riesca a individuare rumore e artefatti.

<<Le tre immagini mostrano una sequenza di azioni in una cucina, con un uomo che sembra impegnato nella preparazione di un piatto di carne. Nella prima immagine, il cuoco sta flambando la carne, creando un effetto visivo spettacolare con le fiamme che si alzano dalla padella. Nella seconda, appare concentrato nel girare o condire la carne, mentre nella terza è intento a cucinare, forse verificando la cottura o aggiungendo altri ingredienti.
Ogni immagine ha una qualità elevata, con dettagli nitidi e colori vivaci che catturano bene la scena della cucina. L'illuminazione è ben gestita, evidenziando le azioni del cuoco e dando vita agli alimenti in preparazione. La composizione è dinamica e sembra che ci sia stata attenzione nel posizionare ogni elemento per creare una scena armoniosa che guida l'occhio verso il soggetto principale senza distrazioni superflue.
Non si notano artefatti che suggeriscono una manipolazione digitale e le immagini trasmettono un senso di autenticità e professionalità. Ciò suggerisce che probabilmente sono state scattate durante una vera sessione di cucina e che fanno parte di una serie tematica ben pianificata. In sintesi, si tratta di una rappresentazione coerente e accattivante del processo culinario in azione.>>

Dalla descrizione fornita, si nota come ChatGPT4 non riesca ad individuare le differenze sostanziali presenti fra le tre immagini, dimostrando comunque la capacità di saper descrivere il contesto in modo eccellente.

= Sperimentazione: CFG Scale =
Questo parametro controlla quanto fedelmente il processo di generazione delle immagini '''segue''' il prompt di testo fornito. Un valore più alto del CFG Scale significa che l'immagine generata sarà più '''aderente''' al testo di input, ossia seguirà più strettamente le indicazioni date. In contrasto, un valore più basso dà al modello più libertà di '''inventare''' o di essere '''creativo''', portando a risultati che possono '''deviare''' di più dal prompt originale.

* Parametri Statici:
** Prompt = "A man cooking a steak, he is in the kitchen, the stoves are on"
** Clip skip = 1
** Sampling Method: DPM++2M SDE SGMUniform
** Sampling Steps: 30
** Upscaler : Latent (nearest-exact)
** Hires Step: 0
** Batch count : 1
** Batch size: 1
** Denoising Strength = 0,7

{| class="wikitable"
|+
|[[File:CookingCFG2.png|miniatura|200x200px|CFG = 1]]
|[[File:CookingCFG1.png|miniatura|200x200px|CFG = 3]]
|[[File:Cooking_3.png|miniatura|200x200px|CFG = 15]]
|}

==Osservazioni==
Impostando il parametro al suo valore minimo si nota come il modello segua ben poco il prompt fornito. Viene presentato un ragazzo e non un uomo, situato in un posto che ricorda appena una cucina, mentre sta cucinando del cibo che ricorda vagamente la carne. Con un valore pari a "3", il setting è già interamente riconoscibile. In questo caso sono solo le azioni che vengono rappresentate a schermo ad essere poco chiare, poiché si nota un uomo che ha messo una fetta di carne in un forno a legna. L'ultima immagine mostra un contesto totalmente credibile: sia l'ambiente che le azioni sono coerenti con il prompt fornito, benché gli unici difetti facilmente visibili sono gli oggetti che l'uomo tiene in mano per cucinare, essendo poco definiti.

= Sperimentazione: Share Attention in Batch =
Il parametro "'''Share attention in batch'''" è una funzionalità dove l'attenzione del modello, ovvero la parte che il modello "considera" più importante durante la generazione dell'immagine, viene '''condivisa''' o '''sincronizzata''' tra le immagini in un batch. Quando si generano '''più immagini contemporaneamente (un batch)''', questo parametro fa in modo che tutte le immagini nel batch diano priorità a parti simili dell'input, o che le caratteristiche stilistiche siano '''coerenti''' tra di loro. Per esempio, se si stanno generando immagini di volti e si vuole che l'attenzione sia focalizzata sugli occhi per tutti i volti nel batch, attivare questa opzione potrebbe aiutare a garantire che tutti i volti generati abbiano occhi ben definiti e uno stile simile. Questo può essere particolarmente utile quando l'obiettivo è creare una serie di immagini che devono essere visivamente coerenti l'una con l'altra.

* Parametri Statici:
** Prompt = "A man cooking a steak, he is in the kitchen, the stoves are on"
** Clip skip = 1
** Sampling Method: DPM++2M SDE SGMUniform
** Sampling Steps: 30
** Upscaler : Latent (nearest-exact)
** Hires Step: 0
** Batch count : 1
** Batch size: 1
** CFG : 15
** Denoising Strength = 0,7

{| class="wikitable"
|+
|[[File:Cookingstyle1.png|miniatura|200x200px|SAIB = off]]
|[[File:Cookingstyle2.png|miniatura|200x200px|SAIB = on]]
|}

= Sperimentazione: Hires steps =
Questo parametro si riferisce ai '''passaggi aggiuntivi''' di elaborazione che vengono eseguiti per '''rifinire''' l'immagine dopo la sua creazione iniziale. Aumentare l'Hire ssteps può migliorare la qualità dell'immagine, ma '''rallenterà''' anche il processo di generazione.

* Parametri Statici:
** Prompt = "A man cooking a steak, he is in the kitchen, the stoves are on, '''the steak is being cooked on a pan'''"
** Clip skip = 1
** Sampling Method: DPM++2M SDE SGMUniform
** Sampling Steps: 30
** Upscaler : Latent (nearest-exact)
** Batch count : 1
** Batch size: 1
** CFG : 15
** Denoising Strength = 0,7

{| class="wikitable"
|+
|[[File:CookingHS1.png|miniatura|200x200px|Hire steps = 0]]
|[[File:CookingHS3.png|miniatura|200x200px|Hire steps = 100]]
|}

==Osservazioni==
In questa sperimentazione si notano poche differenze fra un'immagine e l'altra; fra l'assenza del parametro e il suo valore massimo. L'unico difetto individuabile si trova nella prima immagine dove l'uomo sta cercando di cuocere la carne senza una padella.

= Sperimentazione: SelfAttentionGuidance Integrated =
Questa tecnica è progettata per rendere il processo di generazione delle immagini '''più semplice e veloce''' per l'utente, migliorando allo stesso tempo la '''qualità''' delle immagini prodotte. La funzionalità integrata della "self attention guidance" può aiutare a creare immagini che appaiono '''più realistiche''' e con oggetti '''meglio definiti''' senza che l'utente debba effettuare configurazioni complesse o '''passaggi supplementari'''.
Il termine "'''Scale'''" si riferisce all'intensità con cui la guida basata sull'auto-attenzione viene applicata durante il processo di generazione. Una "Scale" maggiore implica '''un'adesione più forte al prompt testuale''' e può portare a immagini più '''dettagliate e coerenti con l'input''', anche se potrebbe ridurre la diversità delle immagini generate.
Il parametro "'''Blur Sigma'''", invece, è associato al '''grado di sfocatura''' che viene applicato alle regioni selezionate di un'immagine. Questo processo agisce dove le aree con maggiore auto-attenzione — ovvero quelle parti dell'immagine che il modello riconosce come più importanti o informative — vengono '''sfocate''' leggermente. L'idea è che '''enfatizzando''' il lavoro del modello su queste aree sfocate, il modello può generare risultati migliori, perfezionando le parti '''più significative''' dell'immagine e '''riducendo''' potenzialmente il '''rumore''' o i '''dettagli superflui''' nelle regioni meno importanti.
I valori di default sono i seguenti: <<'''Scale = 0,5'''>> - <<'''Blur sigma = 2'''>>

* Parametri Statici:
** Prompt = "A man cooking a steak, he is in the kitchen, the stoves are on, '''the steak is being cooked on a pan'''"
** Clip skip = 1
** Sampling Method: DPM++2M SDE SGMUniform
** Sampling Steps: 30
** Upscaler : Latent (nearest-exact)
** Hires Step: 0
** Batch count : 1
** Batch size: 1
** CFG : 15
** Denoising Strength = 0,7

{| class="wikitable"
|+
|[[File:SAG_none_-_default.jpg|miniatura|200x200px|Tecnica omessa e valori default]]
|[[File:SAG_Scale.jpg|miniatura|200x200px|SAG Scale (da sinistra): -2; 1; 5]]
|[[File:SAG_BS.jpg|miniatura|200x200px|SAG BS (da sinistra): 0,1; 5; 10]]
|}

==Osservazioni==
Nella prima immagine si osserva il confronto tra l'immagine generata senza la tecnica del SAG e quella generata con quest'ultima. Si evidenzia come l'immagine generata con la tecnica con valori impostati di default sia di qualità inferiore alla prima, suggerendo che bisogna regolare i parametri di "scale" e di "blur sigma". Per quanto riguarda le immagini generate variando solo il parametro di scale, si nota come si ottengano dei pessimi risultati impostando dei valori sia troppo bassi che troppo alti, e che quindi sia necessario lavorare nei valori intermedi (i risultati cambiano in base alla complessità del prompt). Relativamente al parametro di Blur sigma, si notano poche differenze fra le tre immagini, benché ci siano errori evidenti sul modo in cui l'uomo tenga in mano degli oggetti difficilmente identificabili, soprattutto nei valori "0,1" e "10".

=Altri componenti=
{| class="wikitable"
|+
|[[File:altrefunzioni.png|miniatura|500x500px|Tecniche]]
|}
=='''ControlNet'''==
Un modello di '''rete neurale''' progettato per controllare i modelli di Stable Diffusion, fornendo agli utenti un '''controllo dettagliato''' sugli output dei modelli di diffusione nelle attività di generazione di testo in immagine. ControlNet è una struttura di rete neurale che consente '''l'aggiunta di condizioni aggiuntive''' per influenzare l'output dei modelli di diffusione. Queste condizioni possono assumere molte forme, come [[Edge maps]], [[Depth maps]], e [[Semantic segmentations]]. L'uso di ControlNet su Stable Diffusion offre numerosi vantaggi. Consente un controllo preciso sulla semantica e sulle caratteristiche del contenuto generato, consentendo la generazione di output più '''accurati''' e '''personalizzati'''.

=='''DynamicThresholding (CFG-Fix)'''==
è un '''filtro''' per migliorare le immagini. Aiuta a risolvere '''problemi di colore''' quando si usano '''impostazioni più alte'''. Queste ultime, si riferiscono a valori maggiori o livelli superiori, significa utilizzare valori più grandi per '''migliorare''' l’immagine. Ad esempio, se un’immagine è leggermente sbiadita e la si vuole rendere più nitida, è possibile aumentare determinati parametri. Tuttavia, a volte, quando si usano valori troppo alti, potrebbero verificarsi problemi di colore. Ecco dove entra in gioco CFG-Fix: risolve questi problemi di colore quando si utilizzano impostazioni elevate.

=='''FreeU'''==
Un componente aggiuntivo di Stable Diffusion che migliora la qualità dell'immagine modificando il '''denoiser''' del modello. Il miglioramento avviene senza costi: nessun addestramento, nessun parametro aggiuntivo introdotto e nessun aumento della memoria o del tempo di campionamento.

'''Prompt: A 25 year old mage, dress, full body, magic, lightning, rim light, moon, night'''

(Da sinistra) Generazione neutra e utilizzo FreeU.

[[File:maga.png|300px]] [[File:magaFreeU.png|300px]]

=='''HyperTile'''==
è un '''metodo''' che ottimizza il livello di '''auto-attenzione''' all’interno dei modelli Stable-Diffusion. Questo porta a una '''riduzione del tempo di calcolo''' che varia da 1 a 4 volte, a seconda della '''risoluzione iniziale'''.
=='''Kohya HRFix'''==
è un’'''estensione''' utilizzata nei modelli Stable-Diffusion per migliorare la risoluzione delle immagini generate. Questa estensione è stata sviluppata da Kohya e ha lo scopo di '''limitare i problemi di clonazione/crollo''' nelle immagini ad alta risoluzione. Tuttavia, l’uso di Kohya HRFix può ridurre la varietà delle immagini generate, rendendole più identiche tra loro. Le impostazioni ottimali per Kohya HRFix possono variare a seconda delle esigenze specifiche dell’utente.

'''Prompt: A potrait of a white cat, cozy house'''

(Da sinistra) Generazione neutra e utilizzo Kohya HRFix.

[[File:Gattobianco1.png|300px]] [[File:Gattokoya.png|500px]]

=='''LatentModifier'''==
è un '''componente''' che '''modifica i valori latenti''' durante il '''processo di diffusione''' in un modello di generazione di immagini. Queste modifiche possono influenzare vari aspetti dell’immagine finale, come la '''nitidezza''', il '''contrasto''' e il '''rumore'''.

'''Prompt: A potrait of a white cat, cozy house'''

(Da sinistra) Generazione neutra e utilizzo LatentModifier.

[[File:Gattobianco1.png|300px]] [[File:Latentgatto.png|300px]]

=='''MultiDiffusion'''==
è un '''framework''' unificato che consente la generazione di immagini '''versatili''' e '''controllabili''', utilizzando un modello di diffusione text-to-image pre-addestrato. Al centro dell’approccio c’è un nuovo processo di generazione, basato su un compito di '''ottimizzazione''' che lega insieme '''più processi''' di generazione di diffusione con un '''insieme condiviso di parametri o vincoli'''.

=='''Never OOM'''==
è un’'''opzione''' che permette di scaricare sempre i modelli dalla '''VRAM'''. Questo può essere utile se si utilizzano '''più software insieme''' e si desidera che Stable Diffusion utilizzi meno VRAM e ne dia '''una parte ad altri software''', o quando si utilizzano vecchie estensioni che competono con la VRAM di Stable Diffusion. [[Category:strumento]]

=='''Script'''==
Questa funzione è utilizzata per implementare '''script personalizzati''' che possono modificare il '''comportamento''' del processo di generazione di immagini.
*'''None''': Questa è l’opzione predefinita che significa che non viene eseguito alcuno script.
*'''Prompt matrix''': permette di testare e confrontare le modifiche che i prompt apportano alle immagini generate. Si possono strutturare i prompt in modo che ogni immagine nella matrice abbia un prompt che inizia con una frase comune.Per esempio, una immagine avrà il prompt “una ciotola di frutta, mele”, un’altra avrà “una ciotola di frutta, mele, pere” e così via.
*'''Prompts from file or textbox''': permette di caricare i prompt da un file o da un textbox. Si può creare un prompt a piacimento, creare un numero x di variazioni su di esso, copiare quel file di testo, e ripetere fino a quando non hai centinaia di mini file di testo.
*'''X/Y/Z plot''': permette di eseguire test sui propri prompt e impostazioni per vedere i risultati, senza impegnarsi in una generazione di immagini completa. Utilizzando un grafico, si possono confrontare i risultati per vedere quale combinazione di impostazioni funziona meglio.

File:Gattokoya.png

2024-03-22T12:09:44Z

Stefano:

Txt2img (Stable Diffusion)

2024-03-22T12:08:22Z

Stefano:

Txt2img è un tool di [[Stable Diffusion]] che, come intuibile, genera un'immagine .png basata su un prompt testuale. Il suo ultimo aggiornamento risale al 28 Ottobre 2022.

I parametri di Txt2img non verranno descritti con massimo dettaglio dal momento che la finalità di questa Wiki entry è di fornire delle linee guida comprovate da sperimentazione diretta.

* Il primo obiettivo è ricondurre con praticità il livello di performance riscontrato nel modello alle relative combinazioni di parametri.

* Il secondo obiettivo è creare collegamenti tra ciascun parametro e la corrispondente sezione dell'architettura.

= Link di approfondimento =
Nel caso si voglia approfondire i setting si può visitare il github relativo alla UI: [https://github.com/AUTOMATIC1111/stable-diffusion-webui]

Nel caso si voglia approfondire l'architettura generale si può visitare il repository: [https://github.com/Stability-AI/stablediffusion]

= Overview dell'interfaccia =
[[File:Overview_diffusion.png|700x700px]]

* [[Sampling method (Stable Diffusion)|Sampling method]]

* Sampling steps:

-Tra l'1 e i 15 step: l'immagine è relativamente sfocata.

-Tra i 15 e i 25 step: L'immagine è abbastanza chiara e di buona qualità.

-Tra i 25 e i 45: La qualità dell'immagine è molto alta e comprende la texture.

-Dai 45 in poi: La loss function si stabilizza e si osserva una variazione minima nella risoluzione.
{| class="wikitable"
|+
![[File:Sampling step 5.png|miniatura|5 step]]
![[File:10 step.png|miniatura|10 step]]
![[File:15 step.png|miniatura|15 step]]
|}
{| class="wikitable"
|+
![[File:25 step.png|miniatura|25 step]]
![[File:40 step.png|miniatura|40 step]]
![[File:60 step.png|miniatura|60 step]]
|}
{| class="wikitable"
|+
![[File:1 step.png|miniatura|1 step]]
![[File:150 step.png|miniatura|150 step]]
|}

====== Upscaler: ======
L'upscaling è il processo di aumentare la risoluzione di un'immagine, cioè di ingrandirla, mantenendo al contempo la qualità visiva il più alta possibile e può essere ottenuto mediante algoritmi di interpolazione e tecniche avanzate di elaborazione delle immagini, che aggiungono dettagli artificiali per migliorare l'aspetto dell'immagine.

- Hires Steps: migliorano la qualità dell'immagine attraverso iterazioni aggiuntive durante il processo di generazione

- Denoising strenght

- Upscale by: L'upscale di solito avviene dopo che l'immagine è stata completamente generata. L'immagine viene resa più grande senza perdere significativamente in qualità o dettaglio. Si esprime come un multiplier delle dimensioni dell'immagine generata, da 1 a 4.

* Width/Height: Dimensioni

* Batch count: il numero di gruppi in cui i dati vengono divisi durante l'elaborazione. Più batch count può significare una maggiore divisione dei dati durante il processo.

* Batch size: quanti dati vengono elaborati contemporaneamente in ciascun gruppo. Un batch size più grande può accelerare il processo ma richiedere più memoria, mentre un batch size più piccolo può richiedere più tempo ma portare a risultati più precisi.

* CFG Scale (Classifier Free Guidance Scale)

* Seed: Un numero che inizializza il generatore di numeri casuali. Utilizzare lo stesso seed con gli stessi parametri di input produrrà sempre la stessa immagine. È utile per la riproducibilità o per fare piccoli aggiustamenti su un'immagine esistente.
=Tecniche=
*[[TextualInversion]]
*[[Hypernetworks]]
*[[LoRA]]

= Sperimentazioni =
Per effettuare un'analisi bilanciata utilizzeremo gli stessi due metri di giudizio per valutare gli output:

* Inception Score
* Visual Inspection by GPT4

= Sperimentazione: Denoising Strength =
Questo parametro si riferisce all'intensità della '''riduzione del rumore''' applicata a un'immagine. Il "rumore" è il termine usato per descrivere '''variazioni casuali e non desiderate''' nei livelli di luminosità o colore di un'immagine, che possono renderla '''granulosa''' o '''offuscata''' e possono distorcere i dettagli.

* Parametri Statici:
** Prompt = "A man cooking a steak, he is in the kitchen, the stoves are on"
** Clip skip = 1
** Sampling Method: DPM++2M SDE SGMUniform
** Sampling Steps: 30
** Upscaler : Latent (nearest-exact)
** Hires Step: 0
** Batch count : 1
** Batch size: 1
** CFG : 15
(Le sperimentazioni iniziano dopo il valore 0, poiché non si sta fornendo al modello l'opportunità di "pulire" o trasformare il rumore in un'immagine coerente basata sul prompt fornito)
{| class="wikitable"
|+
|[[File:Cooking_1.png|miniatura|200x200px|Denoising Strength = 0,1]]
|[[File:Cooking_2.png|miniatura|200x200px|Denoising Strength = 0,3]]
|[[File:Cooking_3.png|miniatura|200x200px|Denoising Strength = 0,7]]
|}

==Osservazioni==
Impostando il Denoising Strenght a "0,1", si nota un'elevata quantità di rumore che rende indefiniti sia i dettagli che le sagome degli elementi a schermo. Aumentando de facto il valore del parametro si può osservare nettamente la differenza e l'efficacia fra il valore intermedio (0,3) e quello iniziale, fino ad arrivare ad una qualità più che sufficiente impostando il parametro a "0,7".

==Visual inspection by ChatGPT4==
Qui di seguito ci sarà una descrizione di ChatGPT4 sulla qualità delle immagini, in modo da comprendere se il modello riesca a individuare rumore e artefatti.

<<Le tre immagini mostrano una sequenza di azioni in una cucina, con un uomo che sembra impegnato nella preparazione di un piatto di carne. Nella prima immagine, il cuoco sta flambando la carne, creando un effetto visivo spettacolare con le fiamme che si alzano dalla padella. Nella seconda, appare concentrato nel girare o condire la carne, mentre nella terza è intento a cucinare, forse verificando la cottura o aggiungendo altri ingredienti.
Ogni immagine ha una qualità elevata, con dettagli nitidi e colori vivaci che catturano bene la scena della cucina. L'illuminazione è ben gestita, evidenziando le azioni del cuoco e dando vita agli alimenti in preparazione. La composizione è dinamica e sembra che ci sia stata attenzione nel posizionare ogni elemento per creare una scena armoniosa che guida l'occhio verso il soggetto principale senza distrazioni superflue.
Non si notano artefatti che suggeriscono una manipolazione digitale e le immagini trasmettono un senso di autenticità e professionalità. Ciò suggerisce che probabilmente sono state scattate durante una vera sessione di cucina e che fanno parte di una serie tematica ben pianificata. In sintesi, si tratta di una rappresentazione coerente e accattivante del processo culinario in azione.>>

Dalla descrizione fornita, si nota come ChatGPT4 non riesca ad individuare le differenze sostanziali presenti fra le tre immagini, dimostrando comunque la capacità di saper descrivere il contesto in modo eccellente.

= Sperimentazione: CFG Scale =
Questo parametro controlla quanto fedelmente il processo di generazione delle immagini '''segue''' il prompt di testo fornito. Un valore più alto del CFG Scale significa che l'immagine generata sarà più '''aderente''' al testo di input, ossia seguirà più strettamente le indicazioni date. In contrasto, un valore più basso dà al modello più libertà di '''inventare''' o di essere '''creativo''', portando a risultati che possono '''deviare''' di più dal prompt originale.

* Parametri Statici:
** Prompt = "A man cooking a steak, he is in the kitchen, the stoves are on"
** Clip skip = 1
** Sampling Method: DPM++2M SDE SGMUniform
** Sampling Steps: 30
** Upscaler : Latent (nearest-exact)
** Hires Step: 0
** Batch count : 1
** Batch size: 1
** Denoising Strength = 0,7

{| class="wikitable"
|+
|[[File:CookingCFG2.png|miniatura|200x200px|CFG = 1]]
|[[File:CookingCFG1.png|miniatura|200x200px|CFG = 3]]
|[[File:Cooking_3.png|miniatura|200x200px|CFG = 15]]
|}

==Osservazioni==
Impostando il parametro al suo valore minimo si nota come il modello segua ben poco il prompt fornito. Viene presentato un ragazzo e non un uomo, situato in un posto che ricorda appena una cucina, mentre sta cucinando del cibo che ricorda vagamente la carne. Con un valore pari a "3", il setting è già interamente riconoscibile. In questo caso sono solo le azioni che vengono rappresentate a schermo ad essere poco chiare, poiché si nota un uomo che ha messo una fetta di carne in un forno a legna. L'ultima immagine mostra un contesto totalmente credibile: sia l'ambiente che le azioni sono coerenti con il prompt fornito, benché gli unici difetti facilmente visibili sono gli oggetti che l'uomo tiene in mano per cucinare, essendo poco definiti.

= Sperimentazione: Share Attention in Batch =
Il parametro "'''Share attention in batch'''" è una funzionalità dove l'attenzione del modello, ovvero la parte che il modello "considera" più importante durante la generazione dell'immagine, viene '''condivisa''' o '''sincronizzata''' tra le immagini in un batch. Quando si generano '''più immagini contemporaneamente (un batch)''', questo parametro fa in modo che tutte le immagini nel batch diano priorità a parti simili dell'input, o che le caratteristiche stilistiche siano '''coerenti''' tra di loro. Per esempio, se si stanno generando immagini di volti e si vuole che l'attenzione sia focalizzata sugli occhi per tutti i volti nel batch, attivare questa opzione potrebbe aiutare a garantire che tutti i volti generati abbiano occhi ben definiti e uno stile simile. Questo può essere particolarmente utile quando l'obiettivo è creare una serie di immagini che devono essere visivamente coerenti l'una con l'altra.

* Parametri Statici:
** Prompt = "A man cooking a steak, he is in the kitchen, the stoves are on"
** Clip skip = 1
** Sampling Method: DPM++2M SDE SGMUniform
** Sampling Steps: 30
** Upscaler : Latent (nearest-exact)
** Hires Step: 0
** Batch count : 1
** Batch size: 1
** CFG : 15
** Denoising Strength = 0,7

{| class="wikitable"
|+
|[[File:Cookingstyle1.png|miniatura|200x200px|SAIB = off]]
|[[File:Cookingstyle2.png|miniatura|200x200px|SAIB = on]]
|}

= Sperimentazione: Hires steps =
Questo parametro si riferisce ai '''passaggi aggiuntivi''' di elaborazione che vengono eseguiti per '''rifinire''' l'immagine dopo la sua creazione iniziale. Aumentare l'Hire ssteps può migliorare la qualità dell'immagine, ma '''rallenterà''' anche il processo di generazione.

* Parametri Statici:
** Prompt = "A man cooking a steak, he is in the kitchen, the stoves are on, '''the steak is being cooked on a pan'''"
** Clip skip = 1
** Sampling Method: DPM++2M SDE SGMUniform
** Sampling Steps: 30
** Upscaler : Latent (nearest-exact)
** Batch count : 1
** Batch size: 1
** CFG : 15
** Denoising Strength = 0,7

{| class="wikitable"
|+
|[[File:CookingHS1.png|miniatura|200x200px|Hire steps = 0]]
|[[File:CookingHS3.png|miniatura|200x200px|Hire steps = 100]]
|}

==Osservazioni==
In questa sperimentazione si notano poche differenze fra un'immagine e l'altra; fra l'assenza del parametro e il suo valore massimo. L'unico difetto individuabile si trova nella prima immagine dove l'uomo sta cercando di cuocere la carne senza una padella.

= Sperimentazione: SelfAttentionGuidance Integrated =
Questa tecnica è progettata per rendere il processo di generazione delle immagini '''più semplice e veloce''' per l'utente, migliorando allo stesso tempo la '''qualità''' delle immagini prodotte. La funzionalità integrata della "self attention guidance" può aiutare a creare immagini che appaiono '''più realistiche''' e con oggetti '''meglio definiti''' senza che l'utente debba effettuare configurazioni complesse o '''passaggi supplementari'''.
Il termine "'''Scale'''" si riferisce all'intensità con cui la guida basata sull'auto-attenzione viene applicata durante il processo di generazione. Una "Scale" maggiore implica '''un'adesione più forte al prompt testuale''' e può portare a immagini più '''dettagliate e coerenti con l'input''', anche se potrebbe ridurre la diversità delle immagini generate.
Il parametro "'''Blur Sigma'''", invece, è associato al '''grado di sfocatura''' che viene applicato alle regioni selezionate di un'immagine. Questo processo agisce dove le aree con maggiore auto-attenzione — ovvero quelle parti dell'immagine che il modello riconosce come più importanti o informative — vengono '''sfocate''' leggermente. L'idea è che '''enfatizzando''' il lavoro del modello su queste aree sfocate, il modello può generare risultati migliori, perfezionando le parti '''più significative''' dell'immagine e '''riducendo''' potenzialmente il '''rumore''' o i '''dettagli superflui''' nelle regioni meno importanti.
I valori di default sono i seguenti: <<'''Scale = 0,5'''>> - <<'''Blur sigma = 2'''>>

* Parametri Statici:
** Prompt = "A man cooking a steak, he is in the kitchen, the stoves are on, '''the steak is being cooked on a pan'''"
** Clip skip = 1
** Sampling Method: DPM++2M SDE SGMUniform
** Sampling Steps: 30
** Upscaler : Latent (nearest-exact)
** Hires Step: 0
** Batch count : 1
** Batch size: 1
** CFG : 15
** Denoising Strength = 0,7

{| class="wikitable"
|+
|[[File:SAG_none_-_default.jpg|miniatura|200x200px|Tecnica omessa e valori default]]
|[[File:SAG_Scale.jpg|miniatura|200x200px|SAG Scale (da sinistra): -2; 1; 5]]
|[[File:SAG_BS.jpg|miniatura|200x200px|SAG BS (da sinistra): 0,1; 5; 10]]
|}

==Osservazioni==
Nella prima immagine si osserva il confronto tra l'immagine generata senza la tecnica del SAG e quella generata con quest'ultima. Si evidenzia come l'immagine generata con la tecnica con valori impostati di default sia di qualità inferiore alla prima, suggerendo che bisogna regolare i parametri di "scale" e di "blur sigma". Per quanto riguarda le immagini generate variando solo il parametro di scale, si nota come si ottengano dei pessimi risultati impostando dei valori sia troppo bassi che troppo alti, e che quindi sia necessario lavorare nei valori intermedi (i risultati cambiano in base alla complessità del prompt). Relativamente al parametro di Blur sigma, si notano poche differenze fra le tre immagini, benché ci siano errori evidenti sul modo in cui l'uomo tenga in mano degli oggetti difficilmente identificabili, soprattutto nei valori "0,1" e "10".

=Altri componenti=
{| class="wikitable"
|+
|[[File:altrefunzioni.png|miniatura|500x500px|Tecniche]]
|}
=='''ControlNet'''==
Un modello di '''rete neurale''' progettato per controllare i modelli di Stable Diffusion, fornendo agli utenti un '''controllo dettagliato''' sugli output dei modelli di diffusione nelle attività di generazione di testo in immagine. ControlNet è una struttura di rete neurale che consente '''l'aggiunta di condizioni aggiuntive''' per influenzare l'output dei modelli di diffusione. Queste condizioni possono assumere molte forme, come [[Edge maps]], [[Depth maps]], e [[Semantic segmentations]]. L'uso di ControlNet su Stable Diffusion offre numerosi vantaggi. Consente un controllo preciso sulla semantica e sulle caratteristiche del contenuto generato, consentendo la generazione di output più '''accurati''' e '''personalizzati'''.

=='''DynamicThresholding (CFG-Fix)'''==
è un '''filtro''' per migliorare le immagini. Aiuta a risolvere '''problemi di colore''' quando si usano '''impostazioni più alte'''. Queste ultime, si riferiscono a valori maggiori o livelli superiori, significa utilizzare valori più grandi per '''migliorare''' l’immagine. Ad esempio, se un’immagine è leggermente sbiadita e la si vuole rendere più nitida, è possibile aumentare determinati parametri. Tuttavia, a volte, quando si usano valori troppo alti, potrebbero verificarsi problemi di colore. Ecco dove entra in gioco CFG-Fix: risolve questi problemi di colore quando si utilizzano impostazioni elevate.

=='''FreeU'''==
Un componente aggiuntivo di Stable Diffusion che migliora la qualità dell'immagine modificando il '''denoiser''' del modello. Il miglioramento avviene senza costi: nessun addestramento, nessun parametro aggiuntivo introdotto e nessun aumento della memoria o del tempo di campionamento.

'''Prompt: A 25 year old mage, dress, full body, magic, lightning, rim light, moon, night'''

(Da sinistra) Generazione neutra e utilizzo FreeU.

[[File:maga.png|300px]] [[File:magaFreeU.png|300px]]

=='''HyperTile'''==
è un '''metodo''' che ottimizza il livello di '''auto-attenzione''' all’interno dei modelli Stable-Diffusion. Questo porta a una '''riduzione del tempo di calcolo''' che varia da 1 a 4 volte, a seconda della '''risoluzione iniziale'''.
=='''Kohya HRFix'''==
è un’'''estensione''' utilizzata nei modelli Stable-Diffusion per migliorare la risoluzione delle immagini generate. Questa estensione è stata sviluppata da Kohya e ha lo scopo di '''limitare i problemi di clonazione/crollo''' nelle immagini ad alta risoluzione. Tuttavia, l’uso di Kohya HRFix può ridurre la varietà delle immagini generate, rendendole più identiche tra loro. Le impostazioni ottimali per Kohya HRFix possono variare a seconda delle esigenze specifiche dell’utente.

=='''LatentModifier'''==
è un '''componente''' che '''modifica i valori latenti''' durante il '''processo di diffusione''' in un modello di generazione di immagini. Queste modifiche possono influenzare vari aspetti dell’immagine finale, come la '''nitidezza''', il '''contrasto''' e il '''rumore'''.

'''Prompt: A potrait of a white cat, cozy house'''

(Da sinistra) Generazione neutra e utilizzo LatentModifier.

[[File:Gattobianco1.png|300px]] [[File:Latentgatto.png|300px]]

=='''MultiDiffusion'''==
è un '''framework''' unificato che consente la generazione di immagini '''versatili''' e '''controllabili''', utilizzando un modello di diffusione text-to-image pre-addestrato. Al centro dell’approccio c’è un nuovo processo di generazione, basato su un compito di '''ottimizzazione''' che lega insieme '''più processi''' di generazione di diffusione con un '''insieme condiviso di parametri o vincoli'''.

=='''Never OOM'''==
è un’'''opzione''' che permette di scaricare sempre i modelli dalla '''VRAM'''. Questo può essere utile se si utilizzano '''più software insieme''' e si desidera che Stable Diffusion utilizzi meno VRAM e ne dia '''una parte ad altri software''', o quando si utilizzano vecchie estensioni che competono con la VRAM di Stable Diffusion. [[Category:strumento]]

=='''Script'''==
Questa funzione è utilizzata per implementare '''script personalizzati''' che possono modificare il '''comportamento''' del processo di generazione di immagini.
*'''None''': Questa è l’opzione predefinita che significa che non viene eseguito alcuno script.
*'''Prompt matrix''': permette di testare e confrontare le modifiche che i prompt apportano alle immagini generate. Si possono strutturare i prompt in modo che ogni immagine nella matrice abbia un prompt che inizia con una frase comune.Per esempio, una immagine avrà il prompt “una ciotola di frutta, mele”, un’altra avrà “una ciotola di frutta, mele, pere” e così via.
*'''Prompts from file or textbox''': permette di caricare i prompt da un file o da un textbox. Si può creare un prompt a piacimento, creare un numero x di variazioni su di esso, copiare quel file di testo, e ripetere fino a quando non hai centinaia di mini file di testo.
*'''X/Y/Z plot''': permette di eseguire test sui propri prompt e impostazioni per vedere i risultati, senza impegnarsi in una generazione di immagini completa. Utilizzando un grafico, si possono confrontare i risultati per vedere quale combinazione di impostazioni funziona meglio.

Txt2img (Stable Diffusion)

2024-03-22T11:50:04Z

Stefano: /* LatentModifier */

Txt2img è un tool di [[Stable Diffusion]] che, come intuibile, genera un'immagine .png basata su un prompt testuale. Il suo ultimo aggiornamento risale al 28 Ottobre 2022.

I parametri di Txt2img non verranno descritti con massimo dettaglio dal momento che la finalità di questa Wiki entry è di fornire delle linee guida comprovate da sperimentazione diretta.

* Il primo obiettivo è ricondurre con praticità il livello di performance riscontrato nel modello alle relative combinazioni di parametri.

* Il secondo obiettivo è creare collegamenti tra ciascun parametro e la corrispondente sezione dell'architettura.

= Link di approfondimento =
Nel caso si voglia approfondire i setting si può visitare il github relativo alla UI: [https://github.com/AUTOMATIC1111/stable-diffusion-webui]

Nel caso si voglia approfondire l'architettura generale si può visitare il repository: [https://github.com/Stability-AI/stablediffusion]

= Overview dell'interfaccia =
[[File:Overview_diffusion.png|700x700px]]

* [[Sampling method (Stable Diffusion)|Sampling method]]

* Sampling steps:

-Tra l'1 e i 15 step: l'immagine è relativamente sfocata.

-Tra i 15 e i 25 step: L'immagine è abbastanza chiara e di buona qualità.

-Tra i 25 e i 45: La qualità dell'immagine è molto alta e comprende la texture.

-Dai 45 in poi: La loss function si stabilizza e si osserva una variazione minima nella risoluzione.
{| class="wikitable"
|+
![[File:Sampling step 5.png|miniatura|5 step]]
![[File:10 step.png|miniatura|10 step]]
![[File:15 step.png|miniatura|15 step]]
|}
{| class="wikitable"
|+
![[File:25 step.png|miniatura|25 step]]
![[File:40 step.png|miniatura|40 step]]
![[File:60 step.png|miniatura|60 step]]
|}
{| class="wikitable"
|+
![[File:1 step.png|miniatura|1 step]]
![[File:150 step.png|miniatura|150 step]]
|}

====== Upscaler: ======
L'upscaling è il processo di aumentare la risoluzione di un'immagine, cioè di ingrandirla, mantenendo al contempo la qualità visiva il più alta possibile e può essere ottenuto mediante algoritmi di interpolazione e tecniche avanzate di elaborazione delle immagini, che aggiungono dettagli artificiali per migliorare l'aspetto dell'immagine.

- Hires Steps: migliorano la qualità dell'immagine attraverso iterazioni aggiuntive durante il processo di generazione

- Denoising strenght

- Upscale by: L'upscale di solito avviene dopo che l'immagine è stata completamente generata. L'immagine viene resa più grande senza perdere significativamente in qualità o dettaglio. Si esprime come un multiplier delle dimensioni dell'immagine generata, da 1 a 4.

* Width/Height: Dimensioni

* Batch count: il numero di gruppi in cui i dati vengono divisi durante l'elaborazione. Più batch count può significare una maggiore divisione dei dati durante il processo.

* Batch size: quanti dati vengono elaborati contemporaneamente in ciascun gruppo. Un batch size più grande può accelerare il processo ma richiedere più memoria, mentre un batch size più piccolo può richiedere più tempo ma portare a risultati più precisi.

* CFG Scale (Classifier Free Guidance Scale)

* Seed: Un numero che inizializza il generatore di numeri casuali. Utilizzare lo stesso seed con gli stessi parametri di input produrrà sempre la stessa immagine. È utile per la riproducibilità o per fare piccoli aggiustamenti su un'immagine esistente.
=Tecniche=
*[[TextualInversion]]
*[[Hypernetworks]]
*[[LoRA]]

= Sperimentazioni =
Per effettuare un'analisi bilanciata utilizzeremo gli stessi due metri di giudizio per valutare gli output:

* Inception Score
* Visual Inspection by GPT4

= Sperimentazione: Denoising Strength =
Questo parametro si riferisce all'intensità della '''riduzione del rumore''' applicata a un'immagine. Il "rumore" è il termine usato per descrivere '''variazioni casuali e non desiderate''' nei livelli di luminosità o colore di un'immagine, che possono renderla '''granulosa''' o '''offuscata''' e possono distorcere i dettagli.

* Parametri Statici:
** Prompt = "A man cooking a steak, he is in the kitchen, the stoves are on"
** Clip skip = 1
** Sampling Method: DPM++2M SDE SGMUniform
** Sampling Steps: 30
** Upscaler : Latent (nearest-exact)
** Hires Step: 0
** Batch count : 1
** Batch size: 1
** CFG : 15
(Le sperimentazioni iniziano dopo il valore 0, poiché non si sta fornendo al modello l'opportunità di "pulire" o trasformare il rumore in un'immagine coerente basata sul prompt fornito)
{| class="wikitable"
|+
|[[File:Cooking_1.png|miniatura|200x200px|Denoising Strength = 0,1]]
|[[File:Cooking_2.png|miniatura|200x200px|Denoising Strength = 0,3]]
|[[File:Cooking_3.png|miniatura|200x200px|Denoising Strength = 0,7]]
|}

==Osservazioni==
Impostando il Denoising Strenght a "0,1", si nota un'elevata quantità di rumore che rende indefiniti sia i dettagli che le sagome degli elementi a schermo. Aumentando de facto il valore del parametro si può osservare nettamente la differenza e l'efficacia fra il valore intermedio (0,3) e quello iniziale, fino ad arrivare ad una qualità più che sufficiente impostando il parametro a "0,7".

==Visual inspection by ChatGPT4==
Qui di seguito ci sarà una descrizione di ChatGPT4 sulla qualità delle immagini, in modo da comprendere se il modello riesca a individuare rumore e artefatti.

<<Le tre immagini mostrano una sequenza di azioni in una cucina, con un uomo che sembra impegnato nella preparazione di un piatto di carne. Nella prima immagine, il cuoco sta flambando la carne, creando un effetto visivo spettacolare con le fiamme che si alzano dalla padella. Nella seconda, appare concentrato nel girare o condire la carne, mentre nella terza è intento a cucinare, forse verificando la cottura o aggiungendo altri ingredienti.
Ogni immagine ha una qualità elevata, con dettagli nitidi e colori vivaci che catturano bene la scena della cucina. L'illuminazione è ben gestita, evidenziando le azioni del cuoco e dando vita agli alimenti in preparazione. La composizione è dinamica e sembra che ci sia stata attenzione nel posizionare ogni elemento per creare una scena armoniosa che guida l'occhio verso il soggetto principale senza distrazioni superflue.
Non si notano artefatti che suggeriscono una manipolazione digitale e le immagini trasmettono un senso di autenticità e professionalità. Ciò suggerisce che probabilmente sono state scattate durante una vera sessione di cucina e che fanno parte di una serie tematica ben pianificata. In sintesi, si tratta di una rappresentazione coerente e accattivante del processo culinario in azione.>>

Dalla descrizione fornita, si nota come ChatGPT4 non riesca ad individuare le differenze sostanziali presenti fra le tre immagini, dimostrando comunque la capacità di saper descrivere il contesto in modo eccellente.

= Sperimentazione: CFG Scale =
Questo parametro controlla quanto fedelmente il processo di generazione delle immagini '''segue''' il prompt di testo fornito. Un valore più alto del CFG Scale significa che l'immagine generata sarà più '''aderente''' al testo di input, ossia seguirà più strettamente le indicazioni date. In contrasto, un valore più basso dà al modello più libertà di '''inventare''' o di essere '''creativo''', portando a risultati che possono '''deviare''' di più dal prompt originale.

* Parametri Statici:
** Prompt = "A man cooking a steak, he is in the kitchen, the stoves are on"
** Clip skip = 1
** Sampling Method: DPM++2M SDE SGMUniform
** Sampling Steps: 30
** Upscaler : Latent (nearest-exact)
** Hires Step: 0
** Batch count : 1
** Batch size: 1
** Denoising Strength = 0,7

{| class="wikitable"
|+
|[[File:CookingCFG2.png|miniatura|200x200px|CFG = 1]]
|[[File:CookingCFG1.png|miniatura|200x200px|CFG = 3]]
|[[File:Cooking_3.png|miniatura|200x200px|CFG = 15]]
|}

==Osservazioni==
Impostando il parametro al suo valore minimo si nota come il modello segua ben poco il prompt fornito. Viene presentato un ragazzo e non un uomo, situato in un posto che ricorda appena una cucina, mentre sta cucinando del cibo che ricorda vagamente la carne. Con un valore pari a "3", il setting è già interamente riconoscibile. In questo caso sono solo le azioni che vengono rappresentate a schermo ad essere poco chiare, poiché si nota un uomo che ha messo una fetta di carne in un forno a legna. L'ultima immagine mostra un contesto totalmente credibile: sia l'ambiente che le azioni sono coerenti con il prompt fornito, benché gli unici difetti facilmente visibili sono gli oggetti che l'uomo tiene in mano per cucinare, essendo poco definiti.

= Sperimentazione: Share Attention in Batch =
Il parametro "'''Share attention in batch'''" è una funzionalità dove l'attenzione del modello, ovvero la parte che il modello "considera" più importante durante la generazione dell'immagine, viene '''condivisa''' o '''sincronizzata''' tra le immagini in un batch. Quando si generano '''più immagini contemporaneamente (un batch)''', questo parametro fa in modo che tutte le immagini nel batch diano priorità a parti simili dell'input, o che le caratteristiche stilistiche siano '''coerenti''' tra di loro. Per esempio, se si stanno generando immagini di volti e si vuole che l'attenzione sia focalizzata sugli occhi per tutti i volti nel batch, attivare questa opzione potrebbe aiutare a garantire che tutti i volti generati abbiano occhi ben definiti e uno stile simile. Questo può essere particolarmente utile quando l'obiettivo è creare una serie di immagini che devono essere visivamente coerenti l'una con l'altra.

* Parametri Statici:
** Prompt = "A man cooking a steak, he is in the kitchen, the stoves are on"
** Clip skip = 1
** Sampling Method: DPM++2M SDE SGMUniform
** Sampling Steps: 30
** Upscaler : Latent (nearest-exact)
** Hires Step: 0
** Batch count : 1
** Batch size: 1
** CFG : 15
** Denoising Strength = 0,7

{| class="wikitable"
|+
|[[File:Cookingstyle1.png|miniatura|200x200px|SAIB = off]]
|[[File:Cookingstyle2.png|miniatura|200x200px|SAIB = on]]
|}

= Sperimentazione: Hires steps =
Questo parametro si riferisce ai '''passaggi aggiuntivi''' di elaborazione che vengono eseguiti per '''rifinire''' l'immagine dopo la sua creazione iniziale. Aumentare l'Hire ssteps può migliorare la qualità dell'immagine, ma '''rallenterà''' anche il processo di generazione.

* Parametri Statici:
** Prompt = "A man cooking a steak, he is in the kitchen, the stoves are on, '''the steak is being cooked on a pan'''"
** Clip skip = 1
** Sampling Method: DPM++2M SDE SGMUniform
** Sampling Steps: 30
** Upscaler : Latent (nearest-exact)
** Batch count : 1
** Batch size: 1
** CFG : 15
** Denoising Strength = 0,7

{| class="wikitable"
|+
|[[File:CookingHS1.png|miniatura|200x200px|Hire steps = 0]]
|[[File:CookingHS3.png|miniatura|200x200px|Hire steps = 100]]
|}

==Osservazioni==
In questa sperimentazione si notano poche differenze fra un'immagine e l'altra; fra l'assenza del parametro e il suo valore massimo. L'unico difetto individuabile si trova nella prima immagine dove l'uomo sta cercando di cuocere la carne senza una padella.

= Sperimentazione: SelfAttentionGuidance Integrated =
Questa tecnica è progettata per rendere il processo di generazione delle immagini '''più semplice e veloce''' per l'utente, migliorando allo stesso tempo la '''qualità''' delle immagini prodotte. La funzionalità integrata della "self attention guidance" può aiutare a creare immagini che appaiono '''più realistiche''' e con oggetti '''meglio definiti''' senza che l'utente debba effettuare configurazioni complesse o '''passaggi supplementari'''.
Il termine "'''Scale'''" si riferisce all'intensità con cui la guida basata sull'auto-attenzione viene applicata durante il processo di generazione. Una "Scale" maggiore implica '''un'adesione più forte al prompt testuale''' e può portare a immagini più '''dettagliate e coerenti con l'input''', anche se potrebbe ridurre la diversità delle immagini generate.
Il parametro "'''Blur Sigma'''", invece, è associato al '''grado di sfocatura''' che viene applicato alle regioni selezionate di un'immagine. Questo processo agisce dove le aree con maggiore auto-attenzione — ovvero quelle parti dell'immagine che il modello riconosce come più importanti o informative — vengono '''sfocate''' leggermente. L'idea è che '''enfatizzando''' il lavoro del modello su queste aree sfocate, il modello può generare risultati migliori, perfezionando le parti '''più significative''' dell'immagine e '''riducendo''' potenzialmente il '''rumore''' o i '''dettagli superflui''' nelle regioni meno importanti.
I valori di default sono i seguenti: <<'''Scale = 0,5'''>> - <<'''Blur sigma = 2'''>>

* Parametri Statici:
** Prompt = "A man cooking a steak, he is in the kitchen, the stoves are on, '''the steak is being cooked on a pan'''"
** Clip skip = 1
** Sampling Method: DPM++2M SDE SGMUniform
** Sampling Steps: 30
** Upscaler : Latent (nearest-exact)
** Hires Step: 0
** Batch count : 1
** Batch size: 1
** CFG : 15
** Denoising Strength = 0,7

{| class="wikitable"
|+
|[[File:SAG_none_-_default.jpg|miniatura|200x200px|Tecnica omessa e valori default]]
|[[File:SAG_Scale.jpg|miniatura|200x200px|SAG Scale (da sinistra): -2; 1; 5]]
|[[File:SAG_BS.jpg|miniatura|200x200px|SAG BS (da sinistra): 0,1; 5; 10]]
|}

==Osservazioni==
Nella prima immagine si osserva il confronto tra l'immagine generata senza la tecnica del SAG e quella generata con quest'ultima. Si evidenzia come l'immagine generata con la tecnica con valori impostati di default sia di qualità inferiore alla prima, suggerendo che bisogna regolare i parametri di "scale" e di "blur sigma". Per quanto riguarda le immagini generate variando solo il parametro di scale, si nota come si ottengano dei pessimi risultati impostando dei valori sia troppo bassi che troppo alti, e che quindi sia necessario lavorare nei valori intermedi (i risultati cambiano in base alla complessità del prompt). Relativamente al parametro di Blur sigma, si notano poche differenze fra le tre immagini, benché ci siano errori evidenti sul modo in cui l'uomo tenga in mano degli oggetti difficilmente identificabili, soprattutto nei valori "0,1" e "10".

=Altri componenti=
{| class="wikitable"
|+
|[[File:altrefunzioni.png|miniatura|500x500px|Tecniche]]
|}
=='''ControlNet'''==
Un modello di '''rete neurale''' progettato per controllare i modelli di Stable Diffusion, fornendo agli utenti un '''controllo dettagliato''' sugli output dei modelli di diffusione nelle attività di generazione di testo in immagine. ControlNet è una struttura di rete neurale che consente '''l'aggiunta di condizioni aggiuntive''' per influenzare l'output dei modelli di diffusione. Queste condizioni possono assumere molte forme, come [[Edge maps]], [[Depth maps]], e [[Semantic segmentations]]. L'uso di ControlNet su Stable Diffusion offre numerosi vantaggi. Consente un controllo preciso sulla semantica e sulle caratteristiche del contenuto generato, consentendo la generazione di output più '''accurati''' e '''personalizzati'''.

=='''DynamicThresholding (CFG-Fix)'''==
è un '''filtro''' per migliorare le immagini. Aiuta a risolvere '''problemi di colore''' quando si usano '''impostazioni più alte'''. Queste ultime, si riferiscono a valori maggiori o livelli superiori, significa utilizzare valori più grandi per '''migliorare''' l’immagine. Ad esempio, se un’immagine è leggermente sbiadita e la si vuole rendere più nitida, è possibile aumentare determinati parametri. Tuttavia, a volte, quando si usano valori troppo alti, potrebbero verificarsi problemi di colore. Ecco dove entra in gioco CFG-Fix: risolve questi problemi di colore quando si utilizzano impostazioni elevate.

=='''FreeU'''==
Un componente aggiuntivo di Stable Diffusion che migliora la qualità dell'immagine modificando il '''denoiser''' del modello. Il miglioramento avviene senza costi: nessun addestramento, nessun parametro aggiuntivo introdotto e nessun aumento della memoria o del tempo di campionamento.

'''Prompt: A 25 year old mage, dress, full body, magic, lightning, rim light, moon, night'''

(Da sinistra) Generazione neutra e utilizzo FreeU.

[[File:maga.png|300px]] [[File:magaFreeU.png|300px]]

=='''HyperTile'''==
è un '''metodo''' che ottimizza il livello di '''auto-attenzione''' all’interno dei modelli Stable-Diffusion. Questo porta a una '''riduzione del tempo di calcolo''' che varia da 1 a 4 volte, a seconda della '''risoluzione iniziale'''.
=='''Kohya HRFix'''==
è un’'''estensione''' utilizzata nei modelli Stable-Diffusion per migliorare la risoluzione delle immagini generate. Questa estensione è stata sviluppata da Kohya e ha lo scopo di '''limitare i problemi di clonazione/crollo''' nelle immagini ad alta risoluzione. Tuttavia, l’uso di Kohya HRFix può ridurre la varietà delle immagini generate, rendendole più identiche tra loro. Le impostazioni ottimali per Kohya HRFix possono variare a seconda delle esigenze specifiche dell’utente.

=='''LatentModifier'''==
è un '''componente''' che '''modifica i valori latenti''' durante il '''processo di diffusione''' in un modello di generazione di immagini. Queste modifiche possono influenzare vari aspetti dell’immagine finale, come la '''nitidezza''', il '''contrasto''' e il '''rumore'''.

'''Prompt: A potrait of a white cat, cozy house'''

(Da sinistra) Generazione neutra e utilizzo LatentModifier.

[[File:Gattobianco1.png|300px]] [[File:Latentgatto.png|300px]]

=='''MultiDiffusion'''==
è un '''framework''' unificato che consente la generazione di immagini '''versatili''' e '''controllabili''', utilizzando un modello di diffusione text-to-image pre-addestrato. Al centro dell’approccio c’è un nuovo processo di generazione, basato su un compito di '''ottimizzazione''' che lega insieme '''più processi''' di generazione di diffusione con un '''insieme condiviso di parametri o vincoli'''.

=='''Never OOM'''==
è un’'''opzione''' che permette di scaricare sempre i modelli dalla '''VRAM'''. Questo può essere utile se si utilizzano '''più software insieme''' e si desidera che Stable Diffusion utilizzi meno VRAM e ne dia '''una parte ad altri software''', o quando si utilizzano vecchie estensioni che competono con la VRAM di Stable Diffusion. [[Category:strumento]]

Txt2img (Stable Diffusion)

2024-03-22T11:45:50Z

Stefano: /* LatentModifier */

Txt2img è un tool di [[Stable Diffusion]] che, come intuibile, genera un'immagine .png basata su un prompt testuale. Il suo ultimo aggiornamento risale al 28 Ottobre 2022.

I parametri di Txt2img non verranno descritti con massimo dettaglio dal momento che la finalità di questa Wiki entry è di fornire delle linee guida comprovate da sperimentazione diretta.

* Il primo obiettivo è ricondurre con praticità il livello di performance riscontrato nel modello alle relative combinazioni di parametri.

* Il secondo obiettivo è creare collegamenti tra ciascun parametro e la corrispondente sezione dell'architettura.

= Link di approfondimento =
Nel caso si voglia approfondire i setting si può visitare il github relativo alla UI: [https://github.com/AUTOMATIC1111/stable-diffusion-webui]

Nel caso si voglia approfondire l'architettura generale si può visitare il repository: [https://github.com/Stability-AI/stablediffusion]

= Overview dell'interfaccia =
[[File:Overview_diffusion.png|700x700px]]

* [[Sampling method (Stable Diffusion)|Sampling method]]

* Sampling steps:

-Tra l'1 e i 15 step: l'immagine è relativamente sfocata.

-Tra i 15 e i 25 step: L'immagine è abbastanza chiara e di buona qualità.

-Tra i 25 e i 45: La qualità dell'immagine è molto alta e comprende la texture.

-Dai 45 in poi: La loss function si stabilizza e si osserva una variazione minima nella risoluzione.
{| class="wikitable"
|+
![[File:Sampling step 5.png|miniatura|5 step]]
![[File:10 step.png|miniatura|10 step]]
![[File:15 step.png|miniatura|15 step]]
|}
{| class="wikitable"
|+
![[File:25 step.png|miniatura|25 step]]
![[File:40 step.png|miniatura|40 step]]
![[File:60 step.png|miniatura|60 step]]
|}
{| class="wikitable"
|+
![[File:1 step.png|miniatura|1 step]]
![[File:150 step.png|miniatura|150 step]]
|}

====== Upscaler: ======
L'upscaling è il processo di aumentare la risoluzione di un'immagine, cioè di ingrandirla, mantenendo al contempo la qualità visiva il più alta possibile e può essere ottenuto mediante algoritmi di interpolazione e tecniche avanzate di elaborazione delle immagini, che aggiungono dettagli artificiali per migliorare l'aspetto dell'immagine.

- Hires Steps: migliorano la qualità dell'immagine attraverso iterazioni aggiuntive durante il processo di generazione

- Denoising strenght

- Upscale by: L'upscale di solito avviene dopo che l'immagine è stata completamente generata. L'immagine viene resa più grande senza perdere significativamente in qualità o dettaglio. Si esprime come un multiplier delle dimensioni dell'immagine generata, da 1 a 4.

* Width/Height: Dimensioni

* Batch count: il numero di gruppi in cui i dati vengono divisi durante l'elaborazione. Più batch count può significare una maggiore divisione dei dati durante il processo.

* Batch size: quanti dati vengono elaborati contemporaneamente in ciascun gruppo. Un batch size più grande può accelerare il processo ma richiedere più memoria, mentre un batch size più piccolo può richiedere più tempo ma portare a risultati più precisi.

* CFG Scale (Classifier Free Guidance Scale)

* Seed: Un numero che inizializza il generatore di numeri casuali. Utilizzare lo stesso seed con gli stessi parametri di input produrrà sempre la stessa immagine. È utile per la riproducibilità o per fare piccoli aggiustamenti su un'immagine esistente.
=Tecniche=
*[[TextualInversion]]
*[[Hypernetworks]]
*[[LoRA]]

= Sperimentazioni =
Per effettuare un'analisi bilanciata utilizzeremo gli stessi due metri di giudizio per valutare gli output:

* Inception Score
* Visual Inspection by GPT4

= Sperimentazione: Denoising Strength =
Questo parametro si riferisce all'intensità della '''riduzione del rumore''' applicata a un'immagine. Il "rumore" è il termine usato per descrivere '''variazioni casuali e non desiderate''' nei livelli di luminosità o colore di un'immagine, che possono renderla '''granulosa''' o '''offuscata''' e possono distorcere i dettagli.

* Parametri Statici:
** Prompt = "A man cooking a steak, he is in the kitchen, the stoves are on"
** Clip skip = 1
** Sampling Method: DPM++2M SDE SGMUniform
** Sampling Steps: 30
** Upscaler : Latent (nearest-exact)
** Hires Step: 0
** Batch count : 1
** Batch size: 1
** CFG : 15
(Le sperimentazioni iniziano dopo il valore 0, poiché non si sta fornendo al modello l'opportunità di "pulire" o trasformare il rumore in un'immagine coerente basata sul prompt fornito)
{| class="wikitable"
|+
|[[File:Cooking_1.png|miniatura|200x200px|Denoising Strength = 0,1]]
|[[File:Cooking_2.png|miniatura|200x200px|Denoising Strength = 0,3]]
|[[File:Cooking_3.png|miniatura|200x200px|Denoising Strength = 0,7]]
|}

==Osservazioni==
Impostando il Denoising Strenght a "0,1", si nota un'elevata quantità di rumore che rende indefiniti sia i dettagli che le sagome degli elementi a schermo. Aumentando de facto il valore del parametro si può osservare nettamente la differenza e l'efficacia fra il valore intermedio (0,3) e quello iniziale, fino ad arrivare ad una qualità più che sufficiente impostando il parametro a "0,7".

==Visual inspection by ChatGPT4==
Qui di seguito ci sarà una descrizione di ChatGPT4 sulla qualità delle immagini, in modo da comprendere se il modello riesca a individuare rumore e artefatti.

<<Le tre immagini mostrano una sequenza di azioni in una cucina, con un uomo che sembra impegnato nella preparazione di un piatto di carne. Nella prima immagine, il cuoco sta flambando la carne, creando un effetto visivo spettacolare con le fiamme che si alzano dalla padella. Nella seconda, appare concentrato nel girare o condire la carne, mentre nella terza è intento a cucinare, forse verificando la cottura o aggiungendo altri ingredienti.
Ogni immagine ha una qualità elevata, con dettagli nitidi e colori vivaci che catturano bene la scena della cucina. L'illuminazione è ben gestita, evidenziando le azioni del cuoco e dando vita agli alimenti in preparazione. La composizione è dinamica e sembra che ci sia stata attenzione nel posizionare ogni elemento per creare una scena armoniosa che guida l'occhio verso il soggetto principale senza distrazioni superflue.
Non si notano artefatti che suggeriscono una manipolazione digitale e le immagini trasmettono un senso di autenticità e professionalità. Ciò suggerisce che probabilmente sono state scattate durante una vera sessione di cucina e che fanno parte di una serie tematica ben pianificata. In sintesi, si tratta di una rappresentazione coerente e accattivante del processo culinario in azione.>>

Dalla descrizione fornita, si nota come ChatGPT4 non riesca ad individuare le differenze sostanziali presenti fra le tre immagini, dimostrando comunque la capacità di saper descrivere il contesto in modo eccellente.

= Sperimentazione: CFG Scale =
Questo parametro controlla quanto fedelmente il processo di generazione delle immagini '''segue''' il prompt di testo fornito. Un valore più alto del CFG Scale significa che l'immagine generata sarà più '''aderente''' al testo di input, ossia seguirà più strettamente le indicazioni date. In contrasto, un valore più basso dà al modello più libertà di '''inventare''' o di essere '''creativo''', portando a risultati che possono '''deviare''' di più dal prompt originale.

* Parametri Statici:
** Prompt = "A man cooking a steak, he is in the kitchen, the stoves are on"
** Clip skip = 1
** Sampling Method: DPM++2M SDE SGMUniform
** Sampling Steps: 30
** Upscaler : Latent (nearest-exact)
** Hires Step: 0
** Batch count : 1
** Batch size: 1
** Denoising Strength = 0,7

{| class="wikitable"
|+
|[[File:CookingCFG2.png|miniatura|200x200px|CFG = 1]]
|[[File:CookingCFG1.png|miniatura|200x200px|CFG = 3]]
|[[File:Cooking_3.png|miniatura|200x200px|CFG = 15]]
|}

==Osservazioni==
Impostando il parametro al suo valore minimo si nota come il modello segua ben poco il prompt fornito. Viene presentato un ragazzo e non un uomo, situato in un posto che ricorda appena una cucina, mentre sta cucinando del cibo che ricorda vagamente la carne. Con un valore pari a "3", il setting è già interamente riconoscibile. In questo caso sono solo le azioni che vengono rappresentate a schermo ad essere poco chiare, poiché si nota un uomo che ha messo una fetta di carne in un forno a legna. L'ultima immagine mostra un contesto totalmente credibile: sia l'ambiente che le azioni sono coerenti con il prompt fornito, benché gli unici difetti facilmente visibili sono gli oggetti che l'uomo tiene in mano per cucinare, essendo poco definiti.

= Sperimentazione: Share Attention in Batch =
Il parametro "'''Share attention in batch'''" è una funzionalità dove l'attenzione del modello, ovvero la parte che il modello "considera" più importante durante la generazione dell'immagine, viene '''condivisa''' o '''sincronizzata''' tra le immagini in un batch. Quando si generano '''più immagini contemporaneamente (un batch)''', questo parametro fa in modo che tutte le immagini nel batch diano priorità a parti simili dell'input, o che le caratteristiche stilistiche siano '''coerenti''' tra di loro. Per esempio, se si stanno generando immagini di volti e si vuole che l'attenzione sia focalizzata sugli occhi per tutti i volti nel batch, attivare questa opzione potrebbe aiutare a garantire che tutti i volti generati abbiano occhi ben definiti e uno stile simile. Questo può essere particolarmente utile quando l'obiettivo è creare una serie di immagini che devono essere visivamente coerenti l'una con l'altra.

* Parametri Statici:
** Prompt = "A man cooking a steak, he is in the kitchen, the stoves are on"
** Clip skip = 1
** Sampling Method: DPM++2M SDE SGMUniform
** Sampling Steps: 30
** Upscaler : Latent (nearest-exact)
** Hires Step: 0
** Batch count : 1
** Batch size: 1
** CFG : 15
** Denoising Strength = 0,7

{| class="wikitable"
|+
|[[File:Cookingstyle1.png|miniatura|200x200px|SAIB = off]]
|[[File:Cookingstyle2.png|miniatura|200x200px|SAIB = on]]
|}

= Sperimentazione: Hires steps =
Questo parametro si riferisce ai '''passaggi aggiuntivi''' di elaborazione che vengono eseguiti per '''rifinire''' l'immagine dopo la sua creazione iniziale. Aumentare l'Hire ssteps può migliorare la qualità dell'immagine, ma '''rallenterà''' anche il processo di generazione.

* Parametri Statici:
** Prompt = "A man cooking a steak, he is in the kitchen, the stoves are on, '''the steak is being cooked on a pan'''"
** Clip skip = 1
** Sampling Method: DPM++2M SDE SGMUniform
** Sampling Steps: 30
** Upscaler : Latent (nearest-exact)
** Batch count : 1
** Batch size: 1
** CFG : 15
** Denoising Strength = 0,7

{| class="wikitable"
|+
|[[File:CookingHS1.png|miniatura|200x200px|Hire steps = 0]]
|[[File:CookingHS3.png|miniatura|200x200px|Hire steps = 100]]
|}

==Osservazioni==
In questa sperimentazione si notano poche differenze fra un'immagine e l'altra; fra l'assenza del parametro e il suo valore massimo. L'unico difetto individuabile si trova nella prima immagine dove l'uomo sta cercando di cuocere la carne senza una padella.

= Sperimentazione: SelfAttentionGuidance Integrated =
Questa tecnica è progettata per rendere il processo di generazione delle immagini '''più semplice e veloce''' per l'utente, migliorando allo stesso tempo la '''qualità''' delle immagini prodotte. La funzionalità integrata della "self attention guidance" può aiutare a creare immagini che appaiono '''più realistiche''' e con oggetti '''meglio definiti''' senza che l'utente debba effettuare configurazioni complesse o '''passaggi supplementari'''.
Il termine "'''Scale'''" si riferisce all'intensità con cui la guida basata sull'auto-attenzione viene applicata durante il processo di generazione. Una "Scale" maggiore implica '''un'adesione più forte al prompt testuale''' e può portare a immagini più '''dettagliate e coerenti con l'input''', anche se potrebbe ridurre la diversità delle immagini generate.
Il parametro "'''Blur Sigma'''", invece, è associato al '''grado di sfocatura''' che viene applicato alle regioni selezionate di un'immagine. Questo processo agisce dove le aree con maggiore auto-attenzione — ovvero quelle parti dell'immagine che il modello riconosce come più importanti o informative — vengono '''sfocate''' leggermente. L'idea è che '''enfatizzando''' il lavoro del modello su queste aree sfocate, il modello può generare risultati migliori, perfezionando le parti '''più significative''' dell'immagine e '''riducendo''' potenzialmente il '''rumore''' o i '''dettagli superflui''' nelle regioni meno importanti.
I valori di default sono i seguenti: <<'''Scale = 0,5'''>> - <<'''Blur sigma = 2'''>>

* Parametri Statici:
** Prompt = "A man cooking a steak, he is in the kitchen, the stoves are on, '''the steak is being cooked on a pan'''"
** Clip skip = 1
** Sampling Method: DPM++2M SDE SGMUniform
** Sampling Steps: 30
** Upscaler : Latent (nearest-exact)
** Hires Step: 0
** Batch count : 1
** Batch size: 1
** CFG : 15
** Denoising Strength = 0,7

{| class="wikitable"
|+
|[[File:SAG_none_-_default.jpg|miniatura|200x200px|Tecnica omessa e valori default]]
|[[File:SAG_Scale.jpg|miniatura|200x200px|SAG Scale (da sinistra): -2; 1; 5]]
|[[File:SAG_BS.jpg|miniatura|200x200px|SAG BS (da sinistra): 0,1; 5; 10]]
|}

==Osservazioni==
Nella prima immagine si osserva il confronto tra l'immagine generata senza la tecnica del SAG e quella generata con quest'ultima. Si evidenzia come l'immagine generata con la tecnica con valori impostati di default sia di qualità inferiore alla prima, suggerendo che bisogna regolare i parametri di "scale" e di "blur sigma". Per quanto riguarda le immagini generate variando solo il parametro di scale, si nota come si ottengano dei pessimi risultati impostando dei valori sia troppo bassi che troppo alti, e che quindi sia necessario lavorare nei valori intermedi (i risultati cambiano in base alla complessità del prompt). Relativamente al parametro di Blur sigma, si notano poche differenze fra le tre immagini, benché ci siano errori evidenti sul modo in cui l'uomo tenga in mano degli oggetti difficilmente identificabili, soprattutto nei valori "0,1" e "10".

=Altri componenti=
{| class="wikitable"
|+
|[[File:altrefunzioni.png|miniatura|500x500px|Tecniche]]
|}
=='''ControlNet'''==
Un modello di '''rete neurale''' progettato per controllare i modelli di Stable Diffusion, fornendo agli utenti un '''controllo dettagliato''' sugli output dei modelli di diffusione nelle attività di generazione di testo in immagine. ControlNet è una struttura di rete neurale che consente '''l'aggiunta di condizioni aggiuntive''' per influenzare l'output dei modelli di diffusione. Queste condizioni possono assumere molte forme, come [[Edge maps]], [[Depth maps]], e [[Semantic segmentations]]. L'uso di ControlNet su Stable Diffusion offre numerosi vantaggi. Consente un controllo preciso sulla semantica e sulle caratteristiche del contenuto generato, consentendo la generazione di output più '''accurati''' e '''personalizzati'''.

=='''DynamicThresholding (CFG-Fix)'''==
è un '''filtro''' per migliorare le immagini. Aiuta a risolvere '''problemi di colore''' quando si usano '''impostazioni più alte'''. Queste ultime, si riferiscono a valori maggiori o livelli superiori, significa utilizzare valori più grandi per '''migliorare''' l’immagine. Ad esempio, se un’immagine è leggermente sbiadita e la si vuole rendere più nitida, è possibile aumentare determinati parametri. Tuttavia, a volte, quando si usano valori troppo alti, potrebbero verificarsi problemi di colore. Ecco dove entra in gioco CFG-Fix: risolve questi problemi di colore quando si utilizzano impostazioni elevate.

=='''FreeU'''==
Un componente aggiuntivo di Stable Diffusion che migliora la qualità dell'immagine modificando il '''denoiser''' del modello. Il miglioramento avviene senza costi: nessun addestramento, nessun parametro aggiuntivo introdotto e nessun aumento della memoria o del tempo di campionamento.

'''Prompt: A 25 year old mage, dress, full body, magic, lightning, rim light, moon, night'''

(Da sinistra) Generazione neutra e utilizzo FreeU.

[[File:maga.png|300px]] [[File:magaFreeU.png|300px]]

=='''HyperTile'''==
è un '''metodo''' che ottimizza il livello di '''auto-attenzione''' all’interno dei modelli Stable-Diffusion. Questo porta a una '''riduzione del tempo di calcolo''' che varia da 1 a 4 volte, a seconda della '''risoluzione iniziale'''.
=='''Kohya HRFix'''==
è un’'''estensione''' utilizzata nei modelli Stable-Diffusion per migliorare la risoluzione delle immagini generate. Questa estensione è stata sviluppata da Kohya e ha lo scopo di '''limitare i problemi di clonazione/crollo''' nelle immagini ad alta risoluzione. Tuttavia, l’uso di Kohya HRFix può ridurre la varietà delle immagini generate, rendendole più identiche tra loro. Le impostazioni ottimali per Kohya HRFix possono variare a seconda delle esigenze specifiche dell’utente.

=='''LatentModifier'''==
è un '''componente''' che '''modifica i valori latenti''' durante il '''processo di diffusione''' in un modello di generazione di immagini. Queste modifiche possono influenzare vari aspetti dell’immagine finale, come la '''nitidezza''', il '''contrasto''' e il '''rumore'''.

'''Prompt: A potrait of a white cat, cozy house'''

(Da sinistra) Generazione neutra e utilizzo LatentModifier.

=='''MultiDiffusion'''==
è un '''framework''' unificato che consente la generazione di immagini '''versatili''' e '''controllabili''', utilizzando un modello di diffusione text-to-image pre-addestrato. Al centro dell’approccio c’è un nuovo processo di generazione, basato su un compito di '''ottimizzazione''' che lega insieme '''più processi''' di generazione di diffusione con un '''insieme condiviso di parametri o vincoli'''.

=='''Never OOM'''==
è un’'''opzione''' che permette di scaricare sempre i modelli dalla '''VRAM'''. Questo può essere utile se si utilizzano '''più software insieme''' e si desidera che Stable Diffusion utilizzi meno VRAM e ne dia '''una parte ad altri software''', o quando si utilizzano vecchie estensioni che competono con la VRAM di Stable Diffusion. [[Category:strumento]]

Txt2img (Stable Diffusion)

2024-03-22T11:43:16Z

Stefano: /* FreeU */

Txt2img è un tool di [[Stable Diffusion]] che, come intuibile, genera un'immagine .png basata su un prompt testuale. Il suo ultimo aggiornamento risale al 28 Ottobre 2022.

I parametri di Txt2img non verranno descritti con massimo dettaglio dal momento che la finalità di questa Wiki entry è di fornire delle linee guida comprovate da sperimentazione diretta.

* Il primo obiettivo è ricondurre con praticità il livello di performance riscontrato nel modello alle relative combinazioni di parametri.

* Il secondo obiettivo è creare collegamenti tra ciascun parametro e la corrispondente sezione dell'architettura.

= Link di approfondimento =
Nel caso si voglia approfondire i setting si può visitare il github relativo alla UI: [https://github.com/AUTOMATIC1111/stable-diffusion-webui]

Nel caso si voglia approfondire l'architettura generale si può visitare il repository: [https://github.com/Stability-AI/stablediffusion]

= Overview dell'interfaccia =
[[File:Overview_diffusion.png|700x700px]]

* [[Sampling method (Stable Diffusion)|Sampling method]]

* Sampling steps:

-Tra l'1 e i 15 step: l'immagine è relativamente sfocata.

-Tra i 15 e i 25 step: L'immagine è abbastanza chiara e di buona qualità.

-Tra i 25 e i 45: La qualità dell'immagine è molto alta e comprende la texture.

-Dai 45 in poi: La loss function si stabilizza e si osserva una variazione minima nella risoluzione.
{| class="wikitable"
|+
![[File:Sampling step 5.png|miniatura|5 step]]
![[File:10 step.png|miniatura|10 step]]
![[File:15 step.png|miniatura|15 step]]
|}
{| class="wikitable"
|+
![[File:25 step.png|miniatura|25 step]]
![[File:40 step.png|miniatura|40 step]]
![[File:60 step.png|miniatura|60 step]]
|}
{| class="wikitable"
|+
![[File:1 step.png|miniatura|1 step]]
![[File:150 step.png|miniatura|150 step]]
|}

====== Upscaler: ======
L'upscaling è il processo di aumentare la risoluzione di un'immagine, cioè di ingrandirla, mantenendo al contempo la qualità visiva il più alta possibile e può essere ottenuto mediante algoritmi di interpolazione e tecniche avanzate di elaborazione delle immagini, che aggiungono dettagli artificiali per migliorare l'aspetto dell'immagine.

- Hires Steps: migliorano la qualità dell'immagine attraverso iterazioni aggiuntive durante il processo di generazione

- Denoising strenght

- Upscale by: L'upscale di solito avviene dopo che l'immagine è stata completamente generata. L'immagine viene resa più grande senza perdere significativamente in qualità o dettaglio. Si esprime come un multiplier delle dimensioni dell'immagine generata, da 1 a 4.

* Width/Height: Dimensioni

* Batch count: il numero di gruppi in cui i dati vengono divisi durante l'elaborazione. Più batch count può significare una maggiore divisione dei dati durante il processo.

* Batch size: quanti dati vengono elaborati contemporaneamente in ciascun gruppo. Un batch size più grande può accelerare il processo ma richiedere più memoria, mentre un batch size più piccolo può richiedere più tempo ma portare a risultati più precisi.

* CFG Scale (Classifier Free Guidance Scale)

* Seed: Un numero che inizializza il generatore di numeri casuali. Utilizzare lo stesso seed con gli stessi parametri di input produrrà sempre la stessa immagine. È utile per la riproducibilità o per fare piccoli aggiustamenti su un'immagine esistente.
=Tecniche=
*[[TextualInversion]]
*[[Hypernetworks]]
*[[LoRA]]

= Sperimentazioni =
Per effettuare un'analisi bilanciata utilizzeremo gli stessi due metri di giudizio per valutare gli output:

* Inception Score
* Visual Inspection by GPT4

= Sperimentazione: Denoising Strength =
Questo parametro si riferisce all'intensità della '''riduzione del rumore''' applicata a un'immagine. Il "rumore" è il termine usato per descrivere '''variazioni casuali e non desiderate''' nei livelli di luminosità o colore di un'immagine, che possono renderla '''granulosa''' o '''offuscata''' e possono distorcere i dettagli.

* Parametri Statici:
** Prompt = "A man cooking a steak, he is in the kitchen, the stoves are on"
** Clip skip = 1
** Sampling Method: DPM++2M SDE SGMUniform
** Sampling Steps: 30
** Upscaler : Latent (nearest-exact)
** Hires Step: 0
** Batch count : 1
** Batch size: 1
** CFG : 15
(Le sperimentazioni iniziano dopo il valore 0, poiché non si sta fornendo al modello l'opportunità di "pulire" o trasformare il rumore in un'immagine coerente basata sul prompt fornito)
{| class="wikitable"
|+
|[[File:Cooking_1.png|miniatura|200x200px|Denoising Strength = 0,1]]
|[[File:Cooking_2.png|miniatura|200x200px|Denoising Strength = 0,3]]
|[[File:Cooking_3.png|miniatura|200x200px|Denoising Strength = 0,7]]
|}

==Osservazioni==
Impostando il Denoising Strenght a "0,1", si nota un'elevata quantità di rumore che rende indefiniti sia i dettagli che le sagome degli elementi a schermo. Aumentando de facto il valore del parametro si può osservare nettamente la differenza e l'efficacia fra il valore intermedio (0,3) e quello iniziale, fino ad arrivare ad una qualità più che sufficiente impostando il parametro a "0,7".

==Visual inspection by ChatGPT4==
Qui di seguito ci sarà una descrizione di ChatGPT4 sulla qualità delle immagini, in modo da comprendere se il modello riesca a individuare rumore e artefatti.

<<Le tre immagini mostrano una sequenza di azioni in una cucina, con un uomo che sembra impegnato nella preparazione di un piatto di carne. Nella prima immagine, il cuoco sta flambando la carne, creando un effetto visivo spettacolare con le fiamme che si alzano dalla padella. Nella seconda, appare concentrato nel girare o condire la carne, mentre nella terza è intento a cucinare, forse verificando la cottura o aggiungendo altri ingredienti.
Ogni immagine ha una qualità elevata, con dettagli nitidi e colori vivaci che catturano bene la scena della cucina. L'illuminazione è ben gestita, evidenziando le azioni del cuoco e dando vita agli alimenti in preparazione. La composizione è dinamica e sembra che ci sia stata attenzione nel posizionare ogni elemento per creare una scena armoniosa che guida l'occhio verso il soggetto principale senza distrazioni superflue.
Non si notano artefatti che suggeriscono una manipolazione digitale e le immagini trasmettono un senso di autenticità e professionalità. Ciò suggerisce che probabilmente sono state scattate durante una vera sessione di cucina e che fanno parte di una serie tematica ben pianificata. In sintesi, si tratta di una rappresentazione coerente e accattivante del processo culinario in azione.>>

Dalla descrizione fornita, si nota come ChatGPT4 non riesca ad individuare le differenze sostanziali presenti fra le tre immagini, dimostrando comunque la capacità di saper descrivere il contesto in modo eccellente.

= Sperimentazione: CFG Scale =
Questo parametro controlla quanto fedelmente il processo di generazione delle immagini '''segue''' il prompt di testo fornito. Un valore più alto del CFG Scale significa che l'immagine generata sarà più '''aderente''' al testo di input, ossia seguirà più strettamente le indicazioni date. In contrasto, un valore più basso dà al modello più libertà di '''inventare''' o di essere '''creativo''', portando a risultati che possono '''deviare''' di più dal prompt originale.

* Parametri Statici:
** Prompt = "A man cooking a steak, he is in the kitchen, the stoves are on"
** Clip skip = 1
** Sampling Method: DPM++2M SDE SGMUniform
** Sampling Steps: 30
** Upscaler : Latent (nearest-exact)
** Hires Step: 0
** Batch count : 1
** Batch size: 1
** Denoising Strength = 0,7

{| class="wikitable"
|+
|[[File:CookingCFG2.png|miniatura|200x200px|CFG = 1]]
|[[File:CookingCFG1.png|miniatura|200x200px|CFG = 3]]
|[[File:Cooking_3.png|miniatura|200x200px|CFG = 15]]
|}

==Osservazioni==
Impostando il parametro al suo valore minimo si nota come il modello segua ben poco il prompt fornito. Viene presentato un ragazzo e non un uomo, situato in un posto che ricorda appena una cucina, mentre sta cucinando del cibo che ricorda vagamente la carne. Con un valore pari a "3", il setting è già interamente riconoscibile. In questo caso sono solo le azioni che vengono rappresentate a schermo ad essere poco chiare, poiché si nota un uomo che ha messo una fetta di carne in un forno a legna. L'ultima immagine mostra un contesto totalmente credibile: sia l'ambiente che le azioni sono coerenti con il prompt fornito, benché gli unici difetti facilmente visibili sono gli oggetti che l'uomo tiene in mano per cucinare, essendo poco definiti.

= Sperimentazione: Share Attention in Batch =
Il parametro "'''Share attention in batch'''" è una funzionalità dove l'attenzione del modello, ovvero la parte che il modello "considera" più importante durante la generazione dell'immagine, viene '''condivisa''' o '''sincronizzata''' tra le immagini in un batch. Quando si generano '''più immagini contemporaneamente (un batch)''', questo parametro fa in modo che tutte le immagini nel batch diano priorità a parti simili dell'input, o che le caratteristiche stilistiche siano '''coerenti''' tra di loro. Per esempio, se si stanno generando immagini di volti e si vuole che l'attenzione sia focalizzata sugli occhi per tutti i volti nel batch, attivare questa opzione potrebbe aiutare a garantire che tutti i volti generati abbiano occhi ben definiti e uno stile simile. Questo può essere particolarmente utile quando l'obiettivo è creare una serie di immagini che devono essere visivamente coerenti l'una con l'altra.

* Parametri Statici:
** Prompt = "A man cooking a steak, he is in the kitchen, the stoves are on"
** Clip skip = 1
** Sampling Method: DPM++2M SDE SGMUniform
** Sampling Steps: 30
** Upscaler : Latent (nearest-exact)
** Hires Step: 0
** Batch count : 1
** Batch size: 1
** CFG : 15
** Denoising Strength = 0,7

{| class="wikitable"
|+
|[[File:Cookingstyle1.png|miniatura|200x200px|SAIB = off]]
|[[File:Cookingstyle2.png|miniatura|200x200px|SAIB = on]]
|}

= Sperimentazione: Hires steps =
Questo parametro si riferisce ai '''passaggi aggiuntivi''' di elaborazione che vengono eseguiti per '''rifinire''' l'immagine dopo la sua creazione iniziale. Aumentare l'Hire ssteps può migliorare la qualità dell'immagine, ma '''rallenterà''' anche il processo di generazione.

* Parametri Statici:
** Prompt = "A man cooking a steak, he is in the kitchen, the stoves are on, '''the steak is being cooked on a pan'''"
** Clip skip = 1
** Sampling Method: DPM++2M SDE SGMUniform
** Sampling Steps: 30
** Upscaler : Latent (nearest-exact)
** Batch count : 1
** Batch size: 1
** CFG : 15
** Denoising Strength = 0,7

{| class="wikitable"
|+
|[[File:CookingHS1.png|miniatura|200x200px|Hire steps = 0]]
|[[File:CookingHS3.png|miniatura|200x200px|Hire steps = 100]]
|}

==Osservazioni==
In questa sperimentazione si notano poche differenze fra un'immagine e l'altra; fra l'assenza del parametro e il suo valore massimo. L'unico difetto individuabile si trova nella prima immagine dove l'uomo sta cercando di cuocere la carne senza una padella.

= Sperimentazione: SelfAttentionGuidance Integrated =
Questa tecnica è progettata per rendere il processo di generazione delle immagini '''più semplice e veloce''' per l'utente, migliorando allo stesso tempo la '''qualità''' delle immagini prodotte. La funzionalità integrata della "self attention guidance" può aiutare a creare immagini che appaiono '''più realistiche''' e con oggetti '''meglio definiti''' senza che l'utente debba effettuare configurazioni complesse o '''passaggi supplementari'''.
Il termine "'''Scale'''" si riferisce all'intensità con cui la guida basata sull'auto-attenzione viene applicata durante il processo di generazione. Una "Scale" maggiore implica '''un'adesione più forte al prompt testuale''' e può portare a immagini più '''dettagliate e coerenti con l'input''', anche se potrebbe ridurre la diversità delle immagini generate.
Il parametro "'''Blur Sigma'''", invece, è associato al '''grado di sfocatura''' che viene applicato alle regioni selezionate di un'immagine. Questo processo agisce dove le aree con maggiore auto-attenzione — ovvero quelle parti dell'immagine che il modello riconosce come più importanti o informative — vengono '''sfocate''' leggermente. L'idea è che '''enfatizzando''' il lavoro del modello su queste aree sfocate, il modello può generare risultati migliori, perfezionando le parti '''più significative''' dell'immagine e '''riducendo''' potenzialmente il '''rumore''' o i '''dettagli superflui''' nelle regioni meno importanti.
I valori di default sono i seguenti: <<'''Scale = 0,5'''>> - <<'''Blur sigma = 2'''>>

* Parametri Statici:
** Prompt = "A man cooking a steak, he is in the kitchen, the stoves are on, '''the steak is being cooked on a pan'''"
** Clip skip = 1
** Sampling Method: DPM++2M SDE SGMUniform
** Sampling Steps: 30
** Upscaler : Latent (nearest-exact)
** Hires Step: 0
** Batch count : 1
** Batch size: 1
** CFG : 15
** Denoising Strength = 0,7

{| class="wikitable"
|+
|[[File:SAG_none_-_default.jpg|miniatura|200x200px|Tecnica omessa e valori default]]
|[[File:SAG_Scale.jpg|miniatura|200x200px|SAG Scale (da sinistra): -2; 1; 5]]
|[[File:SAG_BS.jpg|miniatura|200x200px|SAG BS (da sinistra): 0,1; 5; 10]]
|}

==Osservazioni==
Nella prima immagine si osserva il confronto tra l'immagine generata senza la tecnica del SAG e quella generata con quest'ultima. Si evidenzia come l'immagine generata con la tecnica con valori impostati di default sia di qualità inferiore alla prima, suggerendo che bisogna regolare i parametri di "scale" e di "blur sigma". Per quanto riguarda le immagini generate variando solo il parametro di scale, si nota come si ottengano dei pessimi risultati impostando dei valori sia troppo bassi che troppo alti, e che quindi sia necessario lavorare nei valori intermedi (i risultati cambiano in base alla complessità del prompt). Relativamente al parametro di Blur sigma, si notano poche differenze fra le tre immagini, benché ci siano errori evidenti sul modo in cui l'uomo tenga in mano degli oggetti difficilmente identificabili, soprattutto nei valori "0,1" e "10".

=Altri componenti=
{| class="wikitable"
|+
|[[File:altrefunzioni.png|miniatura|500x500px|Tecniche]]
|}
=='''ControlNet'''==
Un modello di '''rete neurale''' progettato per controllare i modelli di Stable Diffusion, fornendo agli utenti un '''controllo dettagliato''' sugli output dei modelli di diffusione nelle attività di generazione di testo in immagine. ControlNet è una struttura di rete neurale che consente '''l'aggiunta di condizioni aggiuntive''' per influenzare l'output dei modelli di diffusione. Queste condizioni possono assumere molte forme, come [[Edge maps]], [[Depth maps]], e [[Semantic segmentations]]. L'uso di ControlNet su Stable Diffusion offre numerosi vantaggi. Consente un controllo preciso sulla semantica e sulle caratteristiche del contenuto generato, consentendo la generazione di output più '''accurati''' e '''personalizzati'''.

=='''DynamicThresholding (CFG-Fix)'''==
è un '''filtro''' per migliorare le immagini. Aiuta a risolvere '''problemi di colore''' quando si usano '''impostazioni più alte'''. Queste ultime, si riferiscono a valori maggiori o livelli superiori, significa utilizzare valori più grandi per '''migliorare''' l’immagine. Ad esempio, se un’immagine è leggermente sbiadita e la si vuole rendere più nitida, è possibile aumentare determinati parametri. Tuttavia, a volte, quando si usano valori troppo alti, potrebbero verificarsi problemi di colore. Ecco dove entra in gioco CFG-Fix: risolve questi problemi di colore quando si utilizzano impostazioni elevate.

=='''FreeU'''==
Un componente aggiuntivo di Stable Diffusion che migliora la qualità dell'immagine modificando il '''denoiser''' del modello. Il miglioramento avviene senza costi: nessun addestramento, nessun parametro aggiuntivo introdotto e nessun aumento della memoria o del tempo di campionamento.

'''Prompt: A 25 year old mage, dress, full body, magic, lightning, rim light, moon, night'''

(Da sinistra) Generazione neutra e utilizzo FreeU.

[[File:maga.png|300px]] [[File:magaFreeU.png|300px]]

=='''HyperTile'''==
è un '''metodo''' che ottimizza il livello di '''auto-attenzione''' all’interno dei modelli Stable-Diffusion. Questo porta a una '''riduzione del tempo di calcolo''' che varia da 1 a 4 volte, a seconda della '''risoluzione iniziale'''.
=='''Kohya HRFix'''==
è un’'''estensione''' utilizzata nei modelli Stable-Diffusion per migliorare la risoluzione delle immagini generate. Questa estensione è stata sviluppata da Kohya e ha lo scopo di '''limitare i problemi di clonazione/crollo''' nelle immagini ad alta risoluzione. Tuttavia, l’uso di Kohya HRFix può ridurre la varietà delle immagini generate, rendendole più identiche tra loro. Le impostazioni ottimali per Kohya HRFix possono variare a seconda delle esigenze specifiche dell’utente.

=='''LatentModifier'''==
è un '''componente''' che '''modifica i valori latenti''' durante il '''processo di diffusione''' in un modello di generazione di immagini. Queste modifiche possono influenzare vari aspetti dell’immagine finale, come la '''nitidezza''', il '''contrasto''' e il '''rumore'''.

=='''MultiDiffusion'''==
è un '''framework''' unificato che consente la generazione di immagini '''versatili''' e '''controllabili''', utilizzando un modello di diffusione text-to-image pre-addestrato. Al centro dell’approccio c’è un nuovo processo di generazione, basato su un compito di '''ottimizzazione''' che lega insieme '''più processi''' di generazione di diffusione con un '''insieme condiviso di parametri o vincoli'''.

=='''Never OOM'''==
è un’'''opzione''' che permette di scaricare sempre i modelli dalla '''VRAM'''. Questo può essere utile se si utilizzano '''più software insieme''' e si desidera che Stable Diffusion utilizzi meno VRAM e ne dia '''una parte ad altri software''', o quando si utilizzano vecchie estensioni che competono con la VRAM di Stable Diffusion. [[Category:strumento]]

File:Latentgatto.png

2024-03-22T11:35:57Z

Stefano:

File:Gattobianco1.png

2024-03-22T11:35:39Z

Stefano:

File:MagaFreeU.png

2024-03-22T11:35:18Z

Stefano:

File:Maga.png

2024-03-22T11:34:57Z

Stefano:

File:Uomopasta2.png

2024-03-22T11:34:37Z

Stefano:

File:Uomopasta1.png

2024-03-22T11:34:24Z

Stefano:

Txt2img (Stable Diffusion)

2024-03-22T11:21:51Z

Stefano: /* Altri componenti */

Txt2img è un tool di [[Stable Diffusion]] che, come intuibile, genera un'immagine .png basata su un prompt testuale. Il suo ultimo aggiornamento risale al 28 Ottobre 2022.

I parametri di Txt2img non verranno descritti con massimo dettaglio dal momento che la finalità di questa Wiki entry è di fornire delle linee guida comprovate da sperimentazione diretta.

* Il primo obiettivo è ricondurre con praticità il livello di performance riscontrato nel modello alle relative combinazioni di parametri.

* Il secondo obiettivo è creare collegamenti tra ciascun parametro e la corrispondente sezione dell'architettura.

= Link di approfondimento =
Nel caso si voglia approfondire i setting si può visitare il github relativo alla UI: [https://github.com/AUTOMATIC1111/stable-diffusion-webui]

Nel caso si voglia approfondire l'architettura generale si può visitare il repository: [https://github.com/Stability-AI/stablediffusion]

= Overview dell'interfaccia =
[[File:Overview_diffusion.png|700x700px]]

* [[Sampling method (Stable Diffusion)|Sampling method]]

* Sampling steps:

-Tra l'1 e i 15 step: l'immagine è relativamente sfocata.

-Tra i 15 e i 25 step: L'immagine è abbastanza chiara e di buona qualità.

-Tra i 25 e i 45: La qualità dell'immagine è molto alta e comprende la texture.

-Dai 45 in poi: La loss function si stabilizza e si osserva una variazione minima nella risoluzione.
{| class="wikitable"
|+
![[File:Sampling step 5.png|miniatura|5 step]]
![[File:10 step.png|miniatura|10 step]]
![[File:15 step.png|miniatura|15 step]]
|}
{| class="wikitable"
|+
![[File:25 step.png|miniatura|25 step]]
![[File:40 step.png|miniatura|40 step]]
![[File:60 step.png|miniatura|60 step]]
|}
{| class="wikitable"
|+
![[File:1 step.png|miniatura|1 step]]
![[File:150 step.png|miniatura|150 step]]
|}

====== Upscaler: ======
L'upscaling è il processo di aumentare la risoluzione di un'immagine, cioè di ingrandirla, mantenendo al contempo la qualità visiva il più alta possibile e può essere ottenuto mediante algoritmi di interpolazione e tecniche avanzate di elaborazione delle immagini, che aggiungono dettagli artificiali per migliorare l'aspetto dell'immagine.

- Hires Steps: migliorano la qualità dell'immagine attraverso iterazioni aggiuntive durante il processo di generazione

- Denoising strenght

- Upscale by: L'upscale di solito avviene dopo che l'immagine è stata completamente generata. L'immagine viene resa più grande senza perdere significativamente in qualità o dettaglio. Si esprime come un multiplier delle dimensioni dell'immagine generata, da 1 a 4.

* Width/Height: Dimensioni

* Batch count: il numero di gruppi in cui i dati vengono divisi durante l'elaborazione. Più batch count può significare una maggiore divisione dei dati durante il processo.

* Batch size: quanti dati vengono elaborati contemporaneamente in ciascun gruppo. Un batch size più grande può accelerare il processo ma richiedere più memoria, mentre un batch size più piccolo può richiedere più tempo ma portare a risultati più precisi.

* CFG Scale (Classifier Free Guidance Scale)

* Seed: Un numero che inizializza il generatore di numeri casuali. Utilizzare lo stesso seed con gli stessi parametri di input produrrà sempre la stessa immagine. È utile per la riproducibilità o per fare piccoli aggiustamenti su un'immagine esistente.
=Tecniche=
*[[TextualInversion]]
*[[Hypernetworks]]
*[[LoRA]]

= Sperimentazioni =
Per effettuare un'analisi bilanciata utilizzeremo gli stessi due metri di giudizio per valutare gli output:

* Inception Score
* Visual Inspection by GPT4

= Sperimentazione: Denoising Strength =
Questo parametro si riferisce all'intensità della '''riduzione del rumore''' applicata a un'immagine. Il "rumore" è il termine usato per descrivere '''variazioni casuali e non desiderate''' nei livelli di luminosità o colore di un'immagine, che possono renderla '''granulosa''' o '''offuscata''' e possono distorcere i dettagli.

* Parametri Statici:
** Prompt = "A man cooking a steak, he is in the kitchen, the stoves are on"
** Clip skip = 1
** Sampling Method: DPM++2M SDE SGMUniform
** Sampling Steps: 30
** Upscaler : Latent (nearest-exact)
** Hires Step: 0
** Batch count : 1
** Batch size: 1
** CFG : 15
(Le sperimentazioni iniziano dopo il valore 0, poiché non si sta fornendo al modello l'opportunità di "pulire" o trasformare il rumore in un'immagine coerente basata sul prompt fornito)
{| class="wikitable"
|+
|[[File:Cooking_1.png|miniatura|200x200px|Denoising Strength = 0,1]]
|[[File:Cooking_2.png|miniatura|200x200px|Denoising Strength = 0,3]]
|[[File:Cooking_3.png|miniatura|200x200px|Denoising Strength = 0,7]]
|}

==Osservazioni==
Impostando il Denoising Strenght a "0,1", si nota un'elevata quantità di rumore che rende indefiniti sia i dettagli che le sagome degli elementi a schermo. Aumentando de facto il valore del parametro si può osservare nettamente la differenza e l'efficacia fra il valore intermedio (0,3) e quello iniziale, fino ad arrivare ad una qualità più che sufficiente impostando il parametro a "0,7".

==Visual inspection by ChatGPT4==
Qui di seguito ci sarà una descrizione di ChatGPT4 sulla qualità delle immagini, in modo da comprendere se il modello riesca a individuare rumore e artefatti.

<<Le tre immagini mostrano una sequenza di azioni in una cucina, con un uomo che sembra impegnato nella preparazione di un piatto di carne. Nella prima immagine, il cuoco sta flambando la carne, creando un effetto visivo spettacolare con le fiamme che si alzano dalla padella. Nella seconda, appare concentrato nel girare o condire la carne, mentre nella terza è intento a cucinare, forse verificando la cottura o aggiungendo altri ingredienti.
Ogni immagine ha una qualità elevata, con dettagli nitidi e colori vivaci che catturano bene la scena della cucina. L'illuminazione è ben gestita, evidenziando le azioni del cuoco e dando vita agli alimenti in preparazione. La composizione è dinamica e sembra che ci sia stata attenzione nel posizionare ogni elemento per creare una scena armoniosa che guida l'occhio verso il soggetto principale senza distrazioni superflue.
Non si notano artefatti che suggeriscono una manipolazione digitale e le immagini trasmettono un senso di autenticità e professionalità. Ciò suggerisce che probabilmente sono state scattate durante una vera sessione di cucina e che fanno parte di una serie tematica ben pianificata. In sintesi, si tratta di una rappresentazione coerente e accattivante del processo culinario in azione.>>

Dalla descrizione fornita, si nota come ChatGPT4 non riesca ad individuare le differenze sostanziali presenti fra le tre immagini, dimostrando comunque la capacità di saper descrivere il contesto in modo eccellente.

= Sperimentazione: CFG Scale =
Questo parametro controlla quanto fedelmente il processo di generazione delle immagini '''segue''' il prompt di testo fornito. Un valore più alto del CFG Scale significa che l'immagine generata sarà più '''aderente''' al testo di input, ossia seguirà più strettamente le indicazioni date. In contrasto, un valore più basso dà al modello più libertà di '''inventare''' o di essere '''creativo''', portando a risultati che possono '''deviare''' di più dal prompt originale.

* Parametri Statici:
** Prompt = "A man cooking a steak, he is in the kitchen, the stoves are on"
** Clip skip = 1
** Sampling Method: DPM++2M SDE SGMUniform
** Sampling Steps: 30
** Upscaler : Latent (nearest-exact)
** Hires Step: 0
** Batch count : 1
** Batch size: 1
** Denoising Strength = 0,7

{| class="wikitable"
|+
|[[File:CookingCFG2.png|miniatura|200x200px|CFG = 1]]
|[[File:CookingCFG1.png|miniatura|200x200px|CFG = 3]]
|[[File:Cooking_3.png|miniatura|200x200px|CFG = 15]]
|}

==Osservazioni==
Impostando il parametro al suo valore minimo si nota come il modello segua ben poco il prompt fornito. Viene presentato un ragazzo e non un uomo, situato in un posto che ricorda appena una cucina, mentre sta cucinando del cibo che ricorda vagamente la carne. Con un valore pari a "3", il setting è già interamente riconoscibile. In questo caso sono solo le azioni che vengono rappresentate a schermo ad essere poco chiare, poiché si nota un uomo che ha messo una fetta di carne in un forno a legna. L'ultima immagine mostra un contesto totalmente credibile: sia l'ambiente che le azioni sono coerenti con il prompt fornito, benché gli unici difetti facilmente visibili sono gli oggetti che l'uomo tiene in mano per cucinare, essendo poco definiti.

= Sperimentazione: Share Attention in Batch =
Il parametro "'''Share attention in batch'''" è una funzionalità dove l'attenzione del modello, ovvero la parte che il modello "considera" più importante durante la generazione dell'immagine, viene '''condivisa''' o '''sincronizzata''' tra le immagini in un batch. Quando si generano '''più immagini contemporaneamente (un batch)''', questo parametro fa in modo che tutte le immagini nel batch diano priorità a parti simili dell'input, o che le caratteristiche stilistiche siano '''coerenti''' tra di loro. Per esempio, se si stanno generando immagini di volti e si vuole che l'attenzione sia focalizzata sugli occhi per tutti i volti nel batch, attivare questa opzione potrebbe aiutare a garantire che tutti i volti generati abbiano occhi ben definiti e uno stile simile. Questo può essere particolarmente utile quando l'obiettivo è creare una serie di immagini che devono essere visivamente coerenti l'una con l'altra.

* Parametri Statici:
** Prompt = "A man cooking a steak, he is in the kitchen, the stoves are on"
** Clip skip = 1
** Sampling Method: DPM++2M SDE SGMUniform
** Sampling Steps: 30
** Upscaler : Latent (nearest-exact)
** Hires Step: 0
** Batch count : 1
** Batch size: 1
** CFG : 15
** Denoising Strength = 0,7

{| class="wikitable"
|+
|[[File:Cookingstyle1.png|miniatura|200x200px|SAIB = off]]
|[[File:Cookingstyle2.png|miniatura|200x200px|SAIB = on]]
|}

= Sperimentazione: Hires steps =
Questo parametro si riferisce ai '''passaggi aggiuntivi''' di elaborazione che vengono eseguiti per '''rifinire''' l'immagine dopo la sua creazione iniziale. Aumentare l'Hire ssteps può migliorare la qualità dell'immagine, ma '''rallenterà''' anche il processo di generazione.

* Parametri Statici:
** Prompt = "A man cooking a steak, he is in the kitchen, the stoves are on, '''the steak is being cooked on a pan'''"
** Clip skip = 1
** Sampling Method: DPM++2M SDE SGMUniform
** Sampling Steps: 30
** Upscaler : Latent (nearest-exact)
** Batch count : 1
** Batch size: 1
** CFG : 15
** Denoising Strength = 0,7

{| class="wikitable"
|+
|[[File:CookingHS1.png|miniatura|200x200px|Hire steps = 0]]
|[[File:CookingHS3.png|miniatura|200x200px|Hire steps = 100]]
|}

==Osservazioni==
In questa sperimentazione si notano poche differenze fra un'immagine e l'altra; fra l'assenza del parametro e il suo valore massimo. L'unico difetto individuabile si trova nella prima immagine dove l'uomo sta cercando di cuocere la carne senza una padella.

= Sperimentazione: SelfAttentionGuidance Integrated =
Questa tecnica è progettata per rendere il processo di generazione delle immagini '''più semplice e veloce''' per l'utente, migliorando allo stesso tempo la '''qualità''' delle immagini prodotte. La funzionalità integrata della "self attention guidance" può aiutare a creare immagini che appaiono '''più realistiche''' e con oggetti '''meglio definiti''' senza che l'utente debba effettuare configurazioni complesse o '''passaggi supplementari'''.
Il termine "'''Scale'''" si riferisce all'intensità con cui la guida basata sull'auto-attenzione viene applicata durante il processo di generazione. Una "Scale" maggiore implica '''un'adesione più forte al prompt testuale''' e può portare a immagini più '''dettagliate e coerenti con l'input''', anche se potrebbe ridurre la diversità delle immagini generate.
Il parametro "'''Blur Sigma'''", invece, è associato al '''grado di sfocatura''' che viene applicato alle regioni selezionate di un'immagine. Questo processo agisce dove le aree con maggiore auto-attenzione — ovvero quelle parti dell'immagine che il modello riconosce come più importanti o informative — vengono '''sfocate''' leggermente. L'idea è che '''enfatizzando''' il lavoro del modello su queste aree sfocate, il modello può generare risultati migliori, perfezionando le parti '''più significative''' dell'immagine e '''riducendo''' potenzialmente il '''rumore''' o i '''dettagli superflui''' nelle regioni meno importanti.
I valori di default sono i seguenti: <<'''Scale = 0,5'''>> - <<'''Blur sigma = 2'''>>

* Parametri Statici:
** Prompt = "A man cooking a steak, he is in the kitchen, the stoves are on, '''the steak is being cooked on a pan'''"
** Clip skip = 1
** Sampling Method: DPM++2M SDE SGMUniform
** Sampling Steps: 30
** Upscaler : Latent (nearest-exact)
** Hires Step: 0
** Batch count : 1
** Batch size: 1
** CFG : 15
** Denoising Strength = 0,7

{| class="wikitable"
|+
|[[File:SAG_none_-_default.jpg|miniatura|200x200px|Tecnica omessa e valori default]]
|[[File:SAG_Scale.jpg|miniatura|200x200px|SAG Scale (da sinistra): -2; 1; 5]]
|[[File:SAG_BS.jpg|miniatura|200x200px|SAG BS (da sinistra): 0,1; 5; 10]]
|}

==Osservazioni==
Nella prima immagine si osserva il confronto tra l'immagine generata senza la tecnica del SAG e quella generata con quest'ultima. Si evidenzia come l'immagine generata con la tecnica con valori impostati di default sia di qualità inferiore alla prima, suggerendo che bisogna regolare i parametri di "scale" e di "blur sigma". Per quanto riguarda le immagini generate variando solo il parametro di scale, si nota come si ottengano dei pessimi risultati impostando dei valori sia troppo bassi che troppo alti, e che quindi sia necessario lavorare nei valori intermedi (i risultati cambiano in base alla complessità del prompt). Relativamente al parametro di Blur sigma, si notano poche differenze fra le tre immagini, benché ci siano errori evidenti sul modo in cui l'uomo tenga in mano degli oggetti difficilmente identificabili, soprattutto nei valori "0,1" e "10".

=Altri componenti=
{| class="wikitable"
|+
|[[File:altrefunzioni.png|miniatura|500x500px|Tecniche]]
|}
=='''ControlNet'''==
Un modello di '''rete neurale''' progettato per controllare i modelli di Stable Diffusion, fornendo agli utenti un '''controllo dettagliato''' sugli output dei modelli di diffusione nelle attività di generazione di testo in immagine. ControlNet è una struttura di rete neurale che consente '''l'aggiunta di condizioni aggiuntive''' per influenzare l'output dei modelli di diffusione. Queste condizioni possono assumere molte forme, come [[Edge maps]], [[Depth maps]], e [[Semantic segmentations]]. L'uso di ControlNet su Stable Diffusion offre numerosi vantaggi. Consente un controllo preciso sulla semantica e sulle caratteristiche del contenuto generato, consentendo la generazione di output più '''accurati''' e '''personalizzati'''.

=='''DynamicThresholding (CFG-Fix)'''==
è un '''filtro''' per migliorare le immagini. Aiuta a risolvere '''problemi di colore''' quando si usano '''impostazioni più alte'''. Queste ultime, si riferiscono a valori maggiori o livelli superiori, significa utilizzare valori più grandi per '''migliorare''' l’immagine. Ad esempio, se un’immagine è leggermente sbiadita e la si vuole rendere più nitida, è possibile aumentare determinati parametri. Tuttavia, a volte, quando si usano valori troppo alti, potrebbero verificarsi problemi di colore. Ecco dove entra in gioco CFG-Fix: risolve questi problemi di colore quando si utilizzano impostazioni elevate.

=='''FreeU'''==
Un componente aggiuntivo di Stable Diffusion che migliora la qualità dell'immagine modificando il '''denoiser''' del modello. Il miglioramento avviene senza costi: nessun addestramento, nessun parametro aggiuntivo introdotto e nessun aumento della memoria o del tempo di campionamento.

=='''HyperTile'''==
è un '''metodo''' che ottimizza il livello di '''auto-attenzione''' all’interno dei modelli Stable-Diffusion. Questo porta a una '''riduzione del tempo di calcolo''' che varia da 1 a 4 volte, a seconda della '''risoluzione iniziale'''.
=='''Kohya HRFix'''==
è un’'''estensione''' utilizzata nei modelli Stable-Diffusion per migliorare la risoluzione delle immagini generate. Questa estensione è stata sviluppata da Kohya e ha lo scopo di '''limitare i problemi di clonazione/crollo''' nelle immagini ad alta risoluzione. Tuttavia, l’uso di Kohya HRFix può ridurre la varietà delle immagini generate, rendendole più identiche tra loro. Le impostazioni ottimali per Kohya HRFix possono variare a seconda delle esigenze specifiche dell’utente.

=='''LatentModifier'''==
è un '''componente''' che '''modifica i valori latenti''' durante il '''processo di diffusione''' in un modello di generazione di immagini. Queste modifiche possono influenzare vari aspetti dell’immagine finale, come la '''nitidezza''', il '''contrasto''' e il '''rumore'''.

=='''MultiDiffusion'''==
è un '''framework''' unificato che consente la generazione di immagini '''versatili''' e '''controllabili''', utilizzando un modello di diffusione text-to-image pre-addestrato. Al centro dell’approccio c’è un nuovo processo di generazione, basato su un compito di '''ottimizzazione''' che lega insieme '''più processi''' di generazione di diffusione con un '''insieme condiviso di parametri o vincoli'''.

=='''Never OOM'''==
è un’'''opzione''' che permette di scaricare sempre i modelli dalla '''VRAM'''. Questo può essere utile se si utilizzano '''più software insieme''' e si desidera che Stable Diffusion utilizzi meno VRAM e ne dia '''una parte ad altri software''', o quando si utilizzano vecchie estensioni che competono con la VRAM di Stable Diffusion. [[Category:strumento]]

File:Png.png

2024-03-21T14:30:34Z

Stefano:

Extras

2024-03-21T14:04:20Z

Stefano: /* Risultato */

La funzione "Extras" permette principalmente di applicare da uno a due upscaler di diverso tipo per '''migliorare''' la '''qualità''' dell'immagine e i '''dettagli'''.
=Overview dell'interfaccia=
[[File:Extras.png|600x600px]]
*'''Upscaler 1 - 2''': Sono strumenti che permettono di applicare diversi tipi di upscaler all'immagine inserita nella dashboard.
*'''Upscaler 2 visibility''': è un parametro che permette di modificare la visibilità del secondo upscaler.
*'''Resize''': Permette di modificare la dimensione dell'immagine originale.
*'''Scale to - Scale by''': "Scale By" permette di ridimensionare l'immagine moltiplicando le sue dimensioni originali per un fattore specifico. Nell'immagine il fattore è pari a 4, quindi l'immagine sarà ingrandita quattro volte. "Scale to", d'altra parte, permette di impostare una dimensione specifica alla quale si desidera che l'immagine sia ridimensionata. Questo può essere utile se si carica un'immagine di dimensioni specifiche che vogliono raggiungere. Ad esempio, Per avere l'immagine esattamente 500 pixel per 500 pixel, si può utilizzare l'opzione "Scale to" per farlo.

==Risultato==
Il risultato dell'upscaling mostra come non solo l'immagine si sia ingrandita, ma non abbia perso nemmeno qualità e dettagli grazie alla combinazione dei due upscaler.

[[File:risultato.png|600x600px]]

Extras

2024-03-21T14:03:46Z

Stefano: /* Risultato */

La funzione "Extras" permette principalmente di applicare da uno a due upscaler di diverso tipo per '''migliorare''' la '''qualità''' dell'immagine e i '''dettagli'''.
=Overview dell'interfaccia=
[[File:Extras.png|600x600px]]
*'''Upscaler 1 - 2''': Sono strumenti che permettono di applicare diversi tipi di upscaler all'immagine inserita nella dashboard.
*'''Upscaler 2 visibility''': è un parametro che permette di modificare la visibilità del secondo upscaler.
*'''Resize''': Permette di modificare la dimensione dell'immagine originale.
*'''Scale to - Scale by''': "Scale By" permette di ridimensionare l'immagine moltiplicando le sue dimensioni originali per un fattore specifico. Nell'immagine il fattore è pari a 4, quindi l'immagine sarà ingrandita quattro volte. "Scale to", d'altra parte, permette di impostare una dimensione specifica alla quale si desidera che l'immagine sia ridimensionata. Questo può essere utile se si carica un'immagine di dimensioni specifiche che vogliono raggiungere. Ad esempio, Per avere l'immagine esattamente 500 pixel per 500 pixel, si può utilizzare l'opzione "Scale to" per farlo.

==Risultato==
[[File:risultato.png|600x600px]]

Il risultato dell'upscaling mostra come non solo l'immagine si sia ingrandita, ma non abbia perso nemmeno qualità e dettagli grazie alla combinazione dei due upscaler.

Extras

2024-03-21T14:03:30Z

Stefano: /* Risultato */

La funzione "Extras" permette principalmente di applicare da uno a due upscaler di diverso tipo per '''migliorare''' la '''qualità''' dell'immagine e i '''dettagli'''.
=Overview dell'interfaccia=
[[File:Extras.png|600x600px]]
*'''Upscaler 1 - 2''': Sono strumenti che permettono di applicare diversi tipi di upscaler all'immagine inserita nella dashboard.
*'''Upscaler 2 visibility''': è un parametro che permette di modificare la visibilità del secondo upscaler.
*'''Resize''': Permette di modificare la dimensione dell'immagine originale.
*'''Scale to - Scale by''': "Scale By" permette di ridimensionare l'immagine moltiplicando le sue dimensioni originali per un fattore specifico. Nell'immagine il fattore è pari a 4, quindi l'immagine sarà ingrandita quattro volte. "Scale to", d'altra parte, permette di impostare una dimensione specifica alla quale si desidera che l'immagine sia ridimensionata. Questo può essere utile se si carica un'immagine di dimensioni specifiche che vogliono raggiungere. Ad esempio, Per avere l'immagine esattamente 500 pixel per 500 pixel, si può utilizzare l'opzione "Scale to" per farlo.

==Risultato==
[[File:risultato.png|600x600px]]
Il risultato dell'upscaling mostra come non solo l'immagine si sia ingrandita, ma non abbia perso nemmeno qualità e dettagli grazie alla combinazione dei due upscaler.

Extras

2024-03-21T14:01:21Z

Stefano:

File:Risultato.png

2024-03-21T14:00:18Z

Stefano:

Extras

2024-03-21T09:43:54Z

Stefano:

Extras

2024-03-21T09:41:32Z

Stefano: /* Overview dell'interfaccia */

La funzione "Extras" permette principalmente di applicare da uno a due upscaler di diverso tipo per migliorare la qualità dell'immagine e i dettagli.
=Overview dell'interfaccia=
[[File:Extras.png|600x600px]]
*'''Upscaler 1 - 2''': Sono strumenti che permettono di applicare diversi tipi di upscaler all'immagine inserita nella dashboard.
*'''Upscaler 2 visibility''': è un parametro che permette di modificare la visibilità del secondo upscaler.
*'''Resize''': Permette di modificare la dimensione dell'immagine originale.
*'''Scale to - Scale by''': "Scale By" permette di ridimensionare l'immagine moltiplicando le sue dimensioni originali per un fattore specifico. Nell'immagine il fattore è pari a 4, quindi l'immagine sarà ingrandita quattro volte. "Scale to", d'altra parte, permette di impostare una dimensione specifica alla quale si desidera che l'immagine sia ridimensionata. Questo può essere utile se si carica un'immagine di dimensioni specifiche che vogliono raggiungere. Ad esempio, Per avere l'immagine esattamente 500 pixel per 500 pixel, si può utilizzare l'opzione "Scale to" per farlo.

Extras

2024-03-21T09:32:37Z

Stefano: /* Overview dell'interfaccia */

Extras

2024-03-21T09:27:40Z

Stefano:

Extras

2024-03-21T09:14:46Z

Stefano: Creata pagina con "600x600px"

[[File:Extras.png|600x600px]]

File:Extras.png

2024-03-21T09:13:54Z

Stefano:

Img2img

2024-03-21T08:58:12Z

Stefano: /* Funzionalità aggiuntive */

Img2img è uno strumento in [[Stable Diffusion]] che genera nuove immagini a partire da '''un’immagine di input e un prompt di testo corrispondente'''. L’immagine di output conserva il '''colore originale''' e la '''composizione''' dell’immagine di input. Questo strumento può trasformare i disegni più semplici in capolavori visivamente sorprendenti.

=Overview dell'interfaccia=
[[File:img2img.png|700px]]

* '''Sketch''': è un’opzione che permette di disegnare direttamente sul canvas dell’interfaccia utente. Questo può essere particolarmente utile quando si utilizza la funzione img2img, poiché consente di creare un’immagine di input personalizzata per la generazione dell’immagine. Si può caricare un’immagine di sfondo sul canvas e poi utilizzare lo strumento "Sketch" per disegnare o aggiungere dettagli.
* '''Inpaint''': è una funzione che consente di correggere piccoli difetti in un’immagine. Questo processo, implica l’uso di un modello di diffusione per rigenerare parti specifiche dell’immagine. Utilizzando lo strumento “pennello” si crea una maschera sull’area che si desidera rigenerare. Questa funzione può essere particolarmente utile per correggere specifiche aree senza dover rigenerare l’intera immagine.
* '''Inpaint sketch''': è una funzione che combina le funzionalità di “Sketch” e “Inpaint”. Permette di disegnare o schizzare direttamente sull’immagine di input e poi utilizzare la funzione “Inpaint” per rigenerare le parti dell’immagine che sono state modificate dallo schizzo. Per esempio, può servire quando si desidera fare piccole modifiche a un’immagine esistente senza dover rigenerarla.
* '''Inpaint''' '''upload''': è una funzione che permette di caricare una maschera di "inpainting" personalizzata, piuttosto che disegnarla direttamente nell’interfaccia utente. Questa può essere utile per creare una maschera più complessa o dettagliata per l’inpainting. Dopo aver caricato la maschera, Stable Diffusion la utilizzerà per determinare quali parti dell’immagine rigenerare.
* '''Batch''': è una funzione che permette di processare più immagini contemporaneamente. Può essere d'aiuto quando si desidera applicare la stessa operazione, come img2img, a un intero set di immagini.
* '''Copy image to''': Questa opzione permette di scegliere dove si desidera copiare l'immagine processata tra le diverse funzioni disponibili.
* '''Soft inpainting''': è una funzione che consente di rigenerare parti di un’immagine in modo più fluido e naturale. A differenza dell’inpainting standard, che utilizza una maschera binaria per determinare quali parti dell’immagine rigenerare, Soft Inpainting utilizza una maschera in scala di grigi per creare una transizione più morbida tra le aree rigenerate e il resto dell’immagine. Questo può portare a risultati più naturali, soprattutto quando si rigenerano aree complesse o dettagliate.
* '''Resize mode'''
** '''Just resize''': Cambia solo le dimensioni dell'immagine senza modificarne le proporzioni.
** '''Crop and resize''': Ritaglia e cambia le dimensioni dell'immagine per adattarla a specifiche proporzioni.
** '''Resize and fill''': Cambia le dimensioni dell'immagine e riempie lo spazio aggiuntivo per mantenere le proporzioni originali.
** '''Just resize (latent upscale)''': Modifica le dimensioni dell'immagine utilizzando una tecnica di upscaling che mantiene la qualità dell'immagine originale.

=Funzionalità aggiuntive=

[[File:Funzagg.png|600x600px]]

'''Inpaint masked''': Questa opzione significa che la funzione lavorerà per riempire o “dipingere” le aree mascherate dell’immagine. In altre parole, le aree mascherate dell’immagine saranno sostituite con nuovi pixel generati dall’algoritmo di inpainting.
'''Inpaint not masked''': Questa opzione indica che la funzione lavorerà sulle aree non mascherate, lasciando intatte le parti mascherate. Quindi, solo i pixel non mascherati dell’immagine saranno modificati dall’algoritmo di inpainting.
'''Mask blur''': Questo parametro consente di regolare il livello di sfocatura applicato alla maschera di un'immagine, sfumandola, e creando una transizione più morbida e naturale tra le aree mascherate e non mascherate. Un valore di Mask blur più alto corrisponde a una transizione più morbida (o sfocata) tra le aree, mentre un valore più basso produce una transizione più netta.

'''Masked content''': Controlla in quale modo l'area mascherata viene inizializzata. Di seguito vengono elencate le diverse opzioni di inizializzazione.
*'''Fill''': inizializza con un'immagine molto sfocata dell'originale.
*'''Original''': Non modificato.
*'''Latent noise''': l'area mascherata inizializzata con "fill" e rumore casuale viene aggiunta allo spazio latente.
*'''Latent nothing''': come il latent noise, tranne che non viene aggiunto rumore allo spazio latente.
'''Inpaint area''': permette di scegliere l’area dell’immagine su cui l’algoritmo di inpainting dovrà lavorare. Di seguito vengono elencati i vari parametri relativi.
*'''Whole picture''': Selezionando questa opzione, l’algoritmo di inpainting lavorerà su tutta l’immagine, indipendentemente dalla maschera.
*'''Only masked''': l’algoritmo di inpainting lavorerà solo sulle aree mascherate dell’immagine.
*'''Only masked padding, pixels''': permette di specificare un numero di pixel intorno all’area mascherata che l’algoritmo di inpainting dovrebbe considerare. Ad esempio, se si imposta il parametro a 10 pixel, l’algoritmo lavorerà sull’area mascherata più un contorno di 10 pixel attorno ad essa.
'''Soft inpainting''': aggiunge in modo naturale e fluido nuovi contenuti che si fondono con l'immagine originale.

=Sperimentazioni=
==Img2img==
In questo caso, bisognerà inserire un'immagine all'interno dell'interfaccia. In seguito, si inserirà un prompt per determinare in che modo si vuole modificare l'immagine originale. In più, si possono cambiare i parametri che ritroviamo anche nella dashboard di [[Txt2img (Stable Diffusion)]]. Sotto l'immagine che verrà generata apparirà un riassunto dei valori dei parametri inseriti.

[[File:Robotic_cat1.png|600x600px]]
Prompt: Robotic cat made of Glass

==Sketch==
In questo esperimento gli occhi del gatto sono stati colorati di azzurro per far comprendere al modello che l'immagine richiesta dovrà presentare non solo un gatto robotico di vetro, ma anche degli occhi luminosi con quel determinato colore.

[[File:Robotic_cat2.png|600x600px]]
Prompt: Robotic cat made of Glass

==Inpaint==
In questo caso, l'immagine originale viene rigenerata soltanto con le aree che si vogliono modificare/correggere. Inoltre, sarà necessario comporre un prompt con il risultato desiderato.

[[File:Cat_ears.png|600x600px]]
Prompt: Cat ears made of metal

==Inpaint sketch==
Questa funzione è servita per modificare il risultato generato dalla funzione "Inpaint". In questo caso, è stata disegnata sopra l'immagine una sciarpa rossa che dovrà fondersi al risultato precedente.

[[File:Cat_scarf.png|600x600px]]
prompt: Red scarf

[[Category:strumento]]

Img2img

2024-03-21T08:57:42Z

Stefano: /* Funzionalità aggiuntive */

Img2img è uno strumento in [[Stable Diffusion]] che genera nuove immagini a partire da '''un’immagine di input e un prompt di testo corrispondente'''. L’immagine di output conserva il '''colore originale''' e la '''composizione''' dell’immagine di input. Questo strumento può trasformare i disegni più semplici in capolavori visivamente sorprendenti.

=Overview dell'interfaccia=
[[File:img2img.png|700px]]

* '''Sketch''': è un’opzione che permette di disegnare direttamente sul canvas dell’interfaccia utente. Questo può essere particolarmente utile quando si utilizza la funzione img2img, poiché consente di creare un’immagine di input personalizzata per la generazione dell’immagine. Si può caricare un’immagine di sfondo sul canvas e poi utilizzare lo strumento "Sketch" per disegnare o aggiungere dettagli.
* '''Inpaint''': è una funzione che consente di correggere piccoli difetti in un’immagine. Questo processo, implica l’uso di un modello di diffusione per rigenerare parti specifiche dell’immagine. Utilizzando lo strumento “pennello” si crea una maschera sull’area che si desidera rigenerare. Questa funzione può essere particolarmente utile per correggere specifiche aree senza dover rigenerare l’intera immagine.
* '''Inpaint sketch''': è una funzione che combina le funzionalità di “Sketch” e “Inpaint”. Permette di disegnare o schizzare direttamente sull’immagine di input e poi utilizzare la funzione “Inpaint” per rigenerare le parti dell’immagine che sono state modificate dallo schizzo. Per esempio, può servire quando si desidera fare piccole modifiche a un’immagine esistente senza dover rigenerarla.
* '''Inpaint''' '''upload''': è una funzione che permette di caricare una maschera di "inpainting" personalizzata, piuttosto che disegnarla direttamente nell’interfaccia utente. Questa può essere utile per creare una maschera più complessa o dettagliata per l’inpainting. Dopo aver caricato la maschera, Stable Diffusion la utilizzerà per determinare quali parti dell’immagine rigenerare.
* '''Batch''': è una funzione che permette di processare più immagini contemporaneamente. Può essere d'aiuto quando si desidera applicare la stessa operazione, come img2img, a un intero set di immagini.
* '''Copy image to''': Questa opzione permette di scegliere dove si desidera copiare l'immagine processata tra le diverse funzioni disponibili.
* '''Soft inpainting''': è una funzione che consente di rigenerare parti di un’immagine in modo più fluido e naturale. A differenza dell’inpainting standard, che utilizza una maschera binaria per determinare quali parti dell’immagine rigenerare, Soft Inpainting utilizza una maschera in scala di grigi per creare una transizione più morbida tra le aree rigenerate e il resto dell’immagine. Questo può portare a risultati più naturali, soprattutto quando si rigenerano aree complesse o dettagliate.
* '''Resize mode'''
** '''Just resize''': Cambia solo le dimensioni dell'immagine senza modificarne le proporzioni.
** '''Crop and resize''': Ritaglia e cambia le dimensioni dell'immagine per adattarla a specifiche proporzioni.
** '''Resize and fill''': Cambia le dimensioni dell'immagine e riempie lo spazio aggiuntivo per mantenere le proporzioni originali.
** '''Just resize (latent upscale)''': Modifica le dimensioni dell'immagine utilizzando una tecnica di upscaling che mantiene la qualità dell'immagine originale.

=Funzionalità aggiuntive=

[[File:Funzagg.png|600x600px]]

'''Inpaint masked''': Questa opzione significa che la funzione lavorerà per riempire o “dipingere” le aree mascherate dell’immagine. In altre parole, le aree mascherate dell’immagine saranno sostituite con nuovi pixel generati dall’algoritmo di inpainting.
'''Inpaint not masked''': Questa opzione indica che la funzione lavorerà sulle aree non mascherate, lasciando intatte le parti mascherate. Quindi, solo i pixel non mascherati dell’immagine saranno modificati dall’algoritmo di inpainting.
'''Masked blur''': Questo parametro consente di regolare il livello di sfocatura applicato alla maschera di un'immagine, sfumandola, e creando una transizione più morbida e naturale tra le aree mascherate e non mascherate. Un valore di Mask blur più alto corrisponde a una transizione più morbida (o sfocata) tra le aree, mentre un valore più basso produce una transizione più netta.

'''Masked content''': Controlla in quale modo l'area mascherata viene inizializzata. Di seguito vengono elencate le diverse opzioni di inizializzazione.
*'''Fill''': inizializza con un'immagine molto sfocata dell'originale.
*'''Original''': Non modificato.
*'''Latent noise''': l'area mascherata inizializzata con "fill" e rumore casuale viene aggiunta allo spazio latente.
*'''Latent nothing''': come il latent noise, tranne che non viene aggiunto rumore allo spazio latente.
'''Inpaint area''': permette di scegliere l’area dell’immagine su cui l’algoritmo di inpainting dovrà lavorare. Di seguito vengono elencati i vari parametri relativi.
*'''Whole picture''': Selezionando questa opzione, l’algoritmo di inpainting lavorerà su tutta l’immagine, indipendentemente dalla maschera.
*'''Only masked''': l’algoritmo di inpainting lavorerà solo sulle aree mascherate dell’immagine.
*'''Only masked padding, pixels''': permette di specificare un numero di pixel intorno all’area mascherata che l’algoritmo di inpainting dovrebbe considerare. Ad esempio, se si imposta il parametro a 10 pixel, l’algoritmo lavorerà sull’area mascherata più un contorno di 10 pixel attorno ad essa.
'''Soft inpainting''': aggiunge in modo naturale e fluido nuovi contenuti che si fondono con l'immagine originale.

=Sperimentazioni=
==Img2img==
In questo caso, bisognerà inserire un'immagine all'interno dell'interfaccia. In seguito, si inserirà un prompt per determinare in che modo si vuole modificare l'immagine originale. In più, si possono cambiare i parametri che ritroviamo anche nella dashboard di [[Txt2img (Stable Diffusion)]]. Sotto l'immagine che verrà generata apparirà un riassunto dei valori dei parametri inseriti.

[[File:Robotic_cat1.png|600x600px]]
Prompt: Robotic cat made of Glass

==Sketch==
In questo esperimento gli occhi del gatto sono stati colorati di azzurro per far comprendere al modello che l'immagine richiesta dovrà presentare non solo un gatto robotico di vetro, ma anche degli occhi luminosi con quel determinato colore.

[[File:Robotic_cat2.png|600x600px]]
Prompt: Robotic cat made of Glass

==Inpaint==
In questo caso, l'immagine originale viene rigenerata soltanto con le aree che si vogliono modificare/correggere. Inoltre, sarà necessario comporre un prompt con il risultato desiderato.

[[File:Cat_ears.png|600x600px]]
Prompt: Cat ears made of metal

==Inpaint sketch==
Questa funzione è servita per modificare il risultato generato dalla funzione "Inpaint". In questo caso, è stata disegnata sopra l'immagine una sciarpa rossa che dovrà fondersi al risultato precedente.

[[File:Cat_scarf.png|600x600px]]
prompt: Red scarf

[[Category:strumento]]

File:Funzagg.png

2024-03-21T08:56:41Z

Stefano:

Img2img

2024-03-20T14:30:14Z

Stefano: /* Overview dell'interfaccia */

Img2img è uno strumento in [[Stable Diffusion]] che genera nuove immagini a partire da '''un’immagine di input e un prompt di testo corrispondente'''. L’immagine di output conserva il '''colore originale''' e la '''composizione''' dell’immagine di input. Questo strumento può trasformare i disegni più semplici in capolavori visivamente sorprendenti.

=Overview dell'interfaccia=
[[File:img2img.png|700px]]

* '''Sketch''': è un’opzione che permette di disegnare direttamente sul canvas dell’interfaccia utente. Questo può essere particolarmente utile quando si utilizza la funzione img2img, poiché consente di creare un’immagine di input personalizzata per la generazione dell’immagine. Si può caricare un’immagine di sfondo sul canvas e poi utilizzare lo strumento "Sketch" per disegnare o aggiungere dettagli.
* '''Inpaint''': è una funzione che consente di correggere piccoli difetti in un’immagine. Questo processo, implica l’uso di un modello di diffusione per rigenerare parti specifiche dell’immagine. Utilizzando lo strumento “pennello” si crea una maschera sull’area che si desidera rigenerare. Questa funzione può essere particolarmente utile per correggere specifiche aree senza dover rigenerare l’intera immagine.
* '''Inpaint sketch''': è una funzione che combina le funzionalità di “Sketch” e “Inpaint”. Permette di disegnare o schizzare direttamente sull’immagine di input e poi utilizzare la funzione “Inpaint” per rigenerare le parti dell’immagine che sono state modificate dallo schizzo. Per esempio, può servire quando si desidera fare piccole modifiche a un’immagine esistente senza dover rigenerarla.
* '''Inpaint''' '''upload''': è una funzione che permette di caricare una maschera di "inpainting" personalizzata, piuttosto che disegnarla direttamente nell’interfaccia utente. Questa può essere utile per creare una maschera più complessa o dettagliata per l’inpainting. Dopo aver caricato la maschera, Stable Diffusion la utilizzerà per determinare quali parti dell’immagine rigenerare.
* '''Batch''': è una funzione che permette di processare più immagini contemporaneamente. Può essere d'aiuto quando si desidera applicare la stessa operazione, come img2img, a un intero set di immagini.
* '''Copy image to''': Questa opzione permette di scegliere dove si desidera copiare l'immagine processata tra le diverse funzioni disponibili.
* '''Soft inpainting''': è una funzione che consente di rigenerare parti di un’immagine in modo più fluido e naturale. A differenza dell’inpainting standard, che utilizza una maschera binaria per determinare quali parti dell’immagine rigenerare, Soft Inpainting utilizza una maschera in scala di grigi per creare una transizione più morbida tra le aree rigenerate e il resto dell’immagine. Questo può portare a risultati più naturali, soprattutto quando si rigenerano aree complesse o dettagliate.
* '''Resize mode'''
** '''Just resize''': Cambia solo le dimensioni dell'immagine senza modificarne le proporzioni.
** '''Crop and resize''': Ritaglia e cambia le dimensioni dell'immagine per adattarla a specifiche proporzioni.
** '''Resize and fill''': Cambia le dimensioni dell'immagine e riempie lo spazio aggiuntivo per mantenere le proporzioni originali.
** '''Just resize (latent upscale)''': Modifica le dimensioni dell'immagine utilizzando una tecnica di upscaling che mantiene la qualità dell'immagine originale.

=Funzionalità aggiuntive=
'''Inpaint masked''': Questa opzione significa che la funzione lavorerà per riempire o “dipingere” le aree mascherate dell’immagine. In altre parole, le aree mascherate dell’immagine saranno sostituite con nuovi pixel generati dall’algoritmo di inpainting.
'''Inpaint not masked''': Questa opzione indica che la funzione lavorerà sulle aree non mascherate, lasciando intatte le parti mascherate. Quindi, solo i pixel non mascherati dell’immagine saranno modificati dall’algoritmo di inpainting.
'''Masked blur''': Questo parametro consente di regolare il livello di sfocatura applicato alla maschera di un'immagine, sfumandola, e creando una transizione più morbida e naturale tra le aree mascherate e non mascherate. Un valore di Mask blur più alto corrisponde a una transizione più morbida (o sfocata) tra le aree, mentre un valore più basso produce una transizione più netta.

'''Masked content''': Controlla in quale modo l'area mascherata viene inizializzata. Di seguito vengono elencate le diverse opzioni di inizializzazione.
*'''Fill''': inizializza con un'immagine molto sfocata dell'originale.
*'''Original''': Non modificato.
*'''Latent noise''': l'area mascherata inizializzata con "fill" e rumore casuale viene aggiunta allo spazio latente.
*'''Latent nothing''': come il latent noise, tranne che non viene aggiunto rumore allo spazio latente.
'''Inpaint area''': permette di scegliere l’area dell’immagine su cui l’algoritmo di inpainting dovrà lavorare. Di seguito vengono elencati i vari parametri relativi.
*'''Whole picture''': Selezionando questa opzione, l’algoritmo di inpainting lavorerà su tutta l’immagine, indipendentemente dalla maschera.
*'''Only masked''': l’algoritmo di inpainting lavorerà solo sulle aree mascherate dell’immagine.
*'''Only masked padding, pixels''': permette di specificare un numero di pixel intorno all’area mascherata che l’algoritmo di inpainting dovrebbe considerare. Ad esempio, se si imposta il parametro a 10 pixel, l’algoritmo lavorerà sull’area mascherata più un contorno di 10 pixel attorno ad essa.
'''Soft inpainting''': aggiunge in modo naturale e fluido nuovi contenuti che si fondono con l'immagine originale.

=Sperimentazioni=
==Img2img==
In questo caso, bisognerà inserire un'immagine all'interno dell'interfaccia. In seguito, si inserirà un prompt per determinare in che modo si vuole modificare l'immagine originale. In più, si possono cambiare i parametri che ritroviamo anche nella dashboard di [[Txt2img (Stable Diffusion)]]. Sotto l'immagine che verrà generata apparirà un riassunto dei valori dei parametri inseriti.

[[File:Robotic_cat1.png|600x600px]]
Prompt: Robotic cat made of Glass

==Sketch==
In questo esperimento gli occhi del gatto sono stati colorati di azzurro per far comprendere al modello che l'immagine richiesta dovrà presentare non solo un gatto robotico di vetro, ma anche degli occhi luminosi con quel determinato colore.

[[File:Robotic_cat2.png|600x600px]]
Prompt: Robotic cat made of Glass

==Inpaint==
In questo caso, l'immagine originale viene rigenerata soltanto con le aree che si vogliono modificare/correggere. Inoltre, sarà necessario comporre un prompt con il risultato desiderato.

[[File:Cat_ears.png|600x600px]]
Prompt: Cat ears made of metal

==Inpaint sketch==
Questa funzione è servita per modificare il risultato generato dalla funzione "Inpaint". In questo caso, è stata disegnata sopra l'immagine una sciarpa rossa che dovrà fondersi al risultato precedente.

[[File:Cat_scarf.png|600x600px]]
prompt: Red scarf

[[Category:strumento]]

Img2img

2024-03-20T14:13:44Z

Stefano: /* Funzionalità aggiuntive */

Img2img è uno strumento in [[Stable Diffusion]] che genera nuove immagini a partire da '''un’immagine di input e un prompt di testo corrispondente'''. L’immagine di output conserva il '''colore originale''' e la '''composizione''' dell’immagine di input. Questo strumento può trasformare i disegni più semplici in capolavori visivamente sorprendenti.

=Overview dell'interfaccia=
[[File:img2img.png|700px]]

* '''Sketch''': è un’opzione che permette di disegnare direttamente sul canvas dell’interfaccia utente. Questo può essere particolarmente utile quando si utilizza la funzione img2img, poiché consente di creare un’immagine di input personalizzata per la generazione dell’immagine. Si può caricare un’immagine di sfondo sul canvas e poi utilizzare lo strumento "Sketch" per disegnare o aggiungere dettagli.
* '''Inpaint''': è una funzione che consente di correggere piccoli difetti in un’immagine. Questo processo, implica l’uso di un modello di diffusione per rigenerare parti specifiche dell’immagine. Utilizzando lo strumento “pennello” si crea una maschera sull’area che si desidera rigenerare. Questa funzione può essere particolarmente utile per correggere specifiche aree senza dover rigenerare l’intera immagine.
* '''Inpaintsketch''': è una funzione che combina le funzionalità di “Sketch” e “Inpaint”. Permette di disegnare o schizzare direttamente sull’immagine di input e poi utilizzare la funzione “Inpaint” per rigenerare le parti dell’immagine che sono state modificate dallo schizzo. Per esempio, può servire quando si desidera fare piccole modifiche a un’immagine esistente senza dover rigenerarla.
* '''Inpaint''' '''upload''': è una funzione che permette di caricare una maschera di "inpainting" personalizzata, piuttosto che disegnarla direttamente nell’interfaccia utente. Questa può essere utile per creare una maschera più complessa o dettagliata per l’inpainting. Dopo aver caricato la maschera, Stable Diffusion la utilizzerà per determinare quali parti dell’immagine rigenerare.
* '''Batch''': è una funzione che permette di processare più immagini contemporaneamente. Può essere d'aiuto quando si desidera applicare la stessa operazione, come img2img, a un intero set di immagini.
* '''Copy image to''': Questa opzione permette di scegliere dove si desidera copiare l'immagine processata tra le diverse funzioni disponibili.
* '''Soft inpainting''': è una funzione che consente di rigenerare parti di un’immagine in modo più fluido e naturale. A differenza dell’inpainting standard, che utilizza una maschera binaria per determinare quali parti dell’immagine rigenerare, Soft Inpainting utilizza una maschera in scala di grigi per creare una transizione più morbida tra le aree rigenerate e il resto dell’immagine. Questo può portare a risultati più naturali, soprattutto quando si rigenerano aree complesse o dettagliate.
* '''Resize mode'''
** '''Just resize''': Cambia solo le dimensioni dell'immagine senza modificarne le proporzioni.
** '''Crop and resize''': Ritaglia e cambia le dimensioni dell'immagine per adattarla a specifiche proporzioni.
** '''Resize and fill''': Cambia le dimensioni dell'immagine e riempie lo spazio aggiuntivo per mantenere le proporzioni originali.
** '''Just resize (latent upscale)''': Modifica le dimensioni dell'immagine utilizzando una tecnica di upscaling che mantiene la qualità dell'immagine originale.

=Funzionalità aggiuntive=
'''Inpaint masked''': Questa opzione significa che la funzione lavorerà per riempire o “dipingere” le aree mascherate dell’immagine. In altre parole, le aree mascherate dell’immagine saranno sostituite con nuovi pixel generati dall’algoritmo di inpainting.
'''Inpaint not masked''': Questa opzione indica che la funzione lavorerà sulle aree non mascherate, lasciando intatte le parti mascherate. Quindi, solo i pixel non mascherati dell’immagine saranno modificati dall’algoritmo di inpainting.
'''Masked blur''': Questo parametro consente di regolare il livello di sfocatura applicato alla maschera di un'immagine, sfumandola, e creando una transizione più morbida e naturale tra le aree mascherate e non mascherate. Un valore di Mask blur più alto corrisponde a una transizione più morbida (o sfocata) tra le aree, mentre un valore più basso produce una transizione più netta.

'''Masked content''': Controlla in quale modo l'area mascherata viene inizializzata. Di seguito vengono elencate le diverse opzioni di inizializzazione.
*'''Fill''': inizializza con un'immagine molto sfocata dell'originale.
*'''Original''': Non modificato.
*'''Latent noise''': l'area mascherata inizializzata con "fill" e rumore casuale viene aggiunta allo spazio latente.
*'''Latent nothing''': come il latent noise, tranne che non viene aggiunto rumore allo spazio latente.
'''Inpaint area''': permette di scegliere l’area dell’immagine su cui l’algoritmo di inpainting dovrà lavorare. Di seguito vengono elencati i vari parametri relativi.
*'''Whole picture''': Selezionando questa opzione, l’algoritmo di inpainting lavorerà su tutta l’immagine, indipendentemente dalla maschera.
*'''Only masked''': l’algoritmo di inpainting lavorerà solo sulle aree mascherate dell’immagine.
*'''Only masked padding, pixels''': permette di specificare un numero di pixel intorno all’area mascherata che l’algoritmo di inpainting dovrebbe considerare. Ad esempio, se si imposta il parametro a 10 pixel, l’algoritmo lavorerà sull’area mascherata più un contorno di 10 pixel attorno ad essa.
'''Soft inpainting''': aggiunge in modo naturale e fluido nuovi contenuti che si fondono con l'immagine originale.

=Sperimentazioni=
==Img2img==
In questo caso, bisognerà inserire un'immagine all'interno dell'interfaccia. In seguito, si inserirà un prompt per determinare in che modo si vuole modificare l'immagine originale. In più, si possono cambiare i parametri che ritroviamo anche nella dashboard di [[Txt2img (Stable Diffusion)]]. Sotto l'immagine che verrà generata apparirà un riassunto dei valori dei parametri inseriti.

[[File:Robotic_cat1.png|600x600px]]
Prompt: Robotic cat made of Glass

==Sketch==
In questo esperimento gli occhi del gatto sono stati colorati di azzurro per far comprendere al modello che l'immagine richiesta dovrà presentare non solo un gatto robotico di vetro, ma anche degli occhi luminosi con quel determinato colore.

[[File:Robotic_cat2.png|600x600px]]
Prompt: Robotic cat made of Glass

==Inpaint==
In questo caso, l'immagine originale viene rigenerata soltanto con le aree che si vogliono modificare/correggere. Inoltre, sarà necessario comporre un prompt con il risultato desiderato.

[[File:Cat_ears.png|600x600px]]
Prompt: Cat ears made of metal

==Inpaint sketch==
Questa funzione è servita per modificare il risultato generato dalla funzione "Inpaint". In questo caso, è stata disegnata sopra l'immagine una sciarpa rossa che dovrà fondersi al risultato precedente.

[[File:Cat_scarf.png|600x600px]]
prompt: Red scarf

[[Category:strumento]]

Img2img

2024-03-20T14:07:45Z

Stefano: /* Funzionalità aggiuntive */

Img2img è uno strumento in [[Stable Diffusion]] che genera nuove immagini a partire da '''un’immagine di input e un prompt di testo corrispondente'''. L’immagine di output conserva il '''colore originale''' e la '''composizione''' dell’immagine di input. Questo strumento può trasformare i disegni più semplici in capolavori visivamente sorprendenti.

=Overview dell'interfaccia=
[[File:img2img.png|700px]]

* '''Sketch''': è un’opzione che permette di disegnare direttamente sul canvas dell’interfaccia utente. Questo può essere particolarmente utile quando si utilizza la funzione img2img, poiché consente di creare un’immagine di input personalizzata per la generazione dell’immagine. Si può caricare un’immagine di sfondo sul canvas e poi utilizzare lo strumento "Sketch" per disegnare o aggiungere dettagli.
* '''Inpaint''': è una funzione che consente di correggere piccoli difetti in un’immagine. Questo processo, implica l’uso di un modello di diffusione per rigenerare parti specifiche dell’immagine. Utilizzando lo strumento “pennello” si crea una maschera sull’area che si desidera rigenerare. Questa funzione può essere particolarmente utile per correggere specifiche aree senza dover rigenerare l’intera immagine.
* '''Inpaintsketch''': è una funzione che combina le funzionalità di “Sketch” e “Inpaint”. Permette di disegnare o schizzare direttamente sull’immagine di input e poi utilizzare la funzione “Inpaint” per rigenerare le parti dell’immagine che sono state modificate dallo schizzo. Per esempio, può servire quando si desidera fare piccole modifiche a un’immagine esistente senza dover rigenerarla.
* '''Inpaint''' '''upload''': è una funzione che permette di caricare una maschera di "inpainting" personalizzata, piuttosto che disegnarla direttamente nell’interfaccia utente. Questa può essere utile per creare una maschera più complessa o dettagliata per l’inpainting. Dopo aver caricato la maschera, Stable Diffusion la utilizzerà per determinare quali parti dell’immagine rigenerare.
* '''Batch''': è una funzione che permette di processare più immagini contemporaneamente. Può essere d'aiuto quando si desidera applicare la stessa operazione, come img2img, a un intero set di immagini.
* '''Copy image to''': Questa opzione permette di scegliere dove si desidera copiare l'immagine processata tra le diverse funzioni disponibili.
* '''Soft inpainting''': è una funzione che consente di rigenerare parti di un’immagine in modo più fluido e naturale. A differenza dell’inpainting standard, che utilizza una maschera binaria per determinare quali parti dell’immagine rigenerare, Soft Inpainting utilizza una maschera in scala di grigi per creare una transizione più morbida tra le aree rigenerate e il resto dell’immagine. Questo può portare a risultati più naturali, soprattutto quando si rigenerano aree complesse o dettagliate.
* '''Resize mode'''
** '''Just resize''': Cambia solo le dimensioni dell'immagine senza modificarne le proporzioni.
** '''Crop and resize''': Ritaglia e cambia le dimensioni dell'immagine per adattarla a specifiche proporzioni.
** '''Resize and fill''': Cambia le dimensioni dell'immagine e riempie lo spazio aggiuntivo per mantenere le proporzioni originali.
** '''Just resize (latent upscale)''': Modifica le dimensioni dell'immagine utilizzando una tecnica di upscaling che mantiene la qualità dell'immagine originale.

=Funzionalità aggiuntive=
'''Inpaint masked''': Questa opzione significa che la funzione lavorerà per riempire o “dipingere” le aree mascherate dell’immagine. In altre parole, le aree mascherate dell’immagine saranno sostituite con nuovi pixel generati dall’algoritmo di inpainting.
'''Inpaint not masked''': Questa opzione indica che la funzione lavorerà sulle aree non mascherate, lasciando intatte le parti mascherate. Quindi, solo i pixel non mascherati dell’immagine saranno modificati dall’algoritmo di inpainting.
'''Masked blur''': Questo parametro consente di regolare il livello di sfocatura applicato alla maschera di un'immagine, sfumandola, e creando una transizione più morbida e naturale tra le aree mascherate e non mascherate. Un valore di Mask blur più alto corrisponde a una transizione più morbida (o sfocata) tra le aree, mentre un valore più basso produce una transizione più netta.

'''Masked content''': Controlla in quale modo l'area mascherata viene inizializzata. Di seguito vengono elencate le diverse opzioni di inizializzazione.
*'''Fill''': inizializza con un'immagine molto sfocata dell'originale.
*'''Original''': Non modificato.
*'''Latent noise''': l'area mascherata inizializzata con "fill" e rumore casuale viene aggiunta allo spazio latente.
*'''Latent nothing''': come il latent noise, tranne che non viene aggiunto rumore allo spazio latente.
'''Inpaint area''': permette di scegliere l’area dell’immagine su cui l’algoritmo di inpainting dovrà lavorare. Di seguito vengono elencati i vari parametri relativi.
*'''Whole picture''': Selezionando questa opzione, l’algoritmo di inpainting lavorerà su tutta l’immagine, indipendentemente dalla maschera.
*'''Only masked''': l’algoritmo di inpainting lavorerà solo sulle aree mascherate dell’immagine.
*'''Only masked padding, pixels''': permette di specificare un numero di pixel intorno all’area mascherata che l’algoritmo di inpainting dovrebbe considerare. Ad esempio, se si imposta il parametro a 10 pixel, l’algoritmo lavorerà sull’area mascherata più un contorno di 10 pixel attorno ad essa.

=Sperimentazioni=
==Img2img==
In questo caso, bisognerà inserire un'immagine all'interno dell'interfaccia. In seguito, si inserirà un prompt per determinare in che modo si vuole modificare l'immagine originale. In più, si possono cambiare i parametri che ritroviamo anche nella dashboard di [[Txt2img (Stable Diffusion)]]. Sotto l'immagine che verrà generata apparirà un riassunto dei valori dei parametri inseriti.

[[File:Robotic_cat1.png|600x600px]]
Prompt: Robotic cat made of Glass

==Sketch==
In questo esperimento gli occhi del gatto sono stati colorati di azzurro per far comprendere al modello che l'immagine richiesta dovrà presentare non solo un gatto robotico di vetro, ma anche degli occhi luminosi con quel determinato colore.

[[File:Robotic_cat2.png|600x600px]]
Prompt: Robotic cat made of Glass

==Inpaint==
In questo caso, l'immagine originale viene rigenerata soltanto con le aree che si vogliono modificare/correggere. Inoltre, sarà necessario comporre un prompt con il risultato desiderato.

[[File:Cat_ears.png|600x600px]]
Prompt: Cat ears made of metal

==Inpaint sketch==
Questa funzione è servita per modificare il risultato generato dalla funzione "Inpaint". In questo caso, è stata disegnata sopra l'immagine una sciarpa rossa che dovrà fondersi al risultato precedente.

[[File:Cat_scarf.png|600x600px]]
prompt: Red scarf

[[Category:strumento]]

Img2img

2024-03-20T14:07:25Z

Stefano: /* Funzionalità aggiuntive */

Img2img è uno strumento in [[Stable Diffusion]] che genera nuove immagini a partire da '''un’immagine di input e un prompt di testo corrispondente'''. L’immagine di output conserva il '''colore originale''' e la '''composizione''' dell’immagine di input. Questo strumento può trasformare i disegni più semplici in capolavori visivamente sorprendenti.

=Overview dell'interfaccia=
[[File:img2img.png|700px]]

* '''Sketch''': è un’opzione che permette di disegnare direttamente sul canvas dell’interfaccia utente. Questo può essere particolarmente utile quando si utilizza la funzione img2img, poiché consente di creare un’immagine di input personalizzata per la generazione dell’immagine. Si può caricare un’immagine di sfondo sul canvas e poi utilizzare lo strumento "Sketch" per disegnare o aggiungere dettagli.
* '''Inpaint''': è una funzione che consente di correggere piccoli difetti in un’immagine. Questo processo, implica l’uso di un modello di diffusione per rigenerare parti specifiche dell’immagine. Utilizzando lo strumento “pennello” si crea una maschera sull’area che si desidera rigenerare. Questa funzione può essere particolarmente utile per correggere specifiche aree senza dover rigenerare l’intera immagine.
* '''Inpaintsketch''': è una funzione che combina le funzionalità di “Sketch” e “Inpaint”. Permette di disegnare o schizzare direttamente sull’immagine di input e poi utilizzare la funzione “Inpaint” per rigenerare le parti dell’immagine che sono state modificate dallo schizzo. Per esempio, può servire quando si desidera fare piccole modifiche a un’immagine esistente senza dover rigenerarla.
* '''Inpaint''' '''upload''': è una funzione che permette di caricare una maschera di "inpainting" personalizzata, piuttosto che disegnarla direttamente nell’interfaccia utente. Questa può essere utile per creare una maschera più complessa o dettagliata per l’inpainting. Dopo aver caricato la maschera, Stable Diffusion la utilizzerà per determinare quali parti dell’immagine rigenerare.
* '''Batch''': è una funzione che permette di processare più immagini contemporaneamente. Può essere d'aiuto quando si desidera applicare la stessa operazione, come img2img, a un intero set di immagini.
* '''Copy image to''': Questa opzione permette di scegliere dove si desidera copiare l'immagine processata tra le diverse funzioni disponibili.
* '''Soft inpainting''': è una funzione che consente di rigenerare parti di un’immagine in modo più fluido e naturale. A differenza dell’inpainting standard, che utilizza una maschera binaria per determinare quali parti dell’immagine rigenerare, Soft Inpainting utilizza una maschera in scala di grigi per creare una transizione più morbida tra le aree rigenerate e il resto dell’immagine. Questo può portare a risultati più naturali, soprattutto quando si rigenerano aree complesse o dettagliate.
* '''Resize mode'''
** '''Just resize''': Cambia solo le dimensioni dell'immagine senza modificarne le proporzioni.
** '''Crop and resize''': Ritaglia e cambia le dimensioni dell'immagine per adattarla a specifiche proporzioni.
** '''Resize and fill''': Cambia le dimensioni dell'immagine e riempie lo spazio aggiuntivo per mantenere le proporzioni originali.
** '''Just resize (latent upscale)''': Modifica le dimensioni dell'immagine utilizzando una tecnica di upscaling che mantiene la qualità dell'immagine originale.

=Funzionalità aggiuntive=
'''Inpaint masked''': Questa opzione significa che la funzione lavorerà per riempire o “dipingere” le aree mascherate dell’immagine. In altre parole, le aree mascherate dell’immagine saranno sostituite con nuovi pixel generati dall’algoritmo di inpainting.
'''Inpaint not masked''': Questa opzione indica che la funzione lavorerà sulle aree non mascherate, lasciando intatte le parti mascherate. Quindi, solo i pixel non mascherati dell’immagine saranno modificati dall’algoritmo di inpainting.
'''Masked blur''': Questo parametro consente di regolare il livello di sfocatura applicato alla maschera di un'immagine, sfumandola, e creando una transizione più morbida e naturale tra le aree mascherate e non mascherate. Un valore di Mask blur più alto corrisponde a una transizione più morbida (o sfocata) tra le aree, mentre un valore più basso produce una transizione più netta.
'''Masked content''': Controlla in quale modo l'area mascherata viene inizializzata. Di seguito vengono elencate le diverse opzioni di inizializzazione.
*'''Fill''': inizializza con un'immagine molto sfocata dell'originale.
*'''Original''': Non modificato.
*'''Latent noise''': l'area mascherata inizializzata con "fill" e rumore casuale viene aggiunta allo spazio latente.
*'''Latent nothing''': come il latent noise, tranne che non viene aggiunto rumore allo spazio latente.
'''Inpaint area''': permette di scegliere l’area dell’immagine su cui l’algoritmo di inpainting dovrà lavorare. Di seguito vengono elencati i vari parametri relativi.
*'''Whole picture''': Selezionando questa opzione, l’algoritmo di inpainting lavorerà su tutta l’immagine, indipendentemente dalla maschera.
*'''Only masked''': l’algoritmo di inpainting lavorerà solo sulle aree mascherate dell’immagine.
*'''Only masked padding, pixels''': permette di specificare un numero di pixel intorno all’area mascherata che l’algoritmo di inpainting dovrebbe considerare. Ad esempio, se si imposta il parametro a 10 pixel, l’algoritmo lavorerà sull’area mascherata più un contorno di 10 pixel attorno ad essa.

=Sperimentazioni=
==Img2img==
In questo caso, bisognerà inserire un'immagine all'interno dell'interfaccia. In seguito, si inserirà un prompt per determinare in che modo si vuole modificare l'immagine originale. In più, si possono cambiare i parametri che ritroviamo anche nella dashboard di [[Txt2img (Stable Diffusion)]]. Sotto l'immagine che verrà generata apparirà un riassunto dei valori dei parametri inseriti.

[[File:Robotic_cat1.png|600x600px]]
Prompt: Robotic cat made of Glass

==Sketch==
In questo esperimento gli occhi del gatto sono stati colorati di azzurro per far comprendere al modello che l'immagine richiesta dovrà presentare non solo un gatto robotico di vetro, ma anche degli occhi luminosi con quel determinato colore.

[[File:Robotic_cat2.png|600x600px]]
Prompt: Robotic cat made of Glass

==Inpaint==
In questo caso, l'immagine originale viene rigenerata soltanto con le aree che si vogliono modificare/correggere. Inoltre, sarà necessario comporre un prompt con il risultato desiderato.

[[File:Cat_ears.png|600x600px]]
Prompt: Cat ears made of metal

==Inpaint sketch==
Questa funzione è servita per modificare il risultato generato dalla funzione "Inpaint". In questo caso, è stata disegnata sopra l'immagine una sciarpa rossa che dovrà fondersi al risultato precedente.

[[File:Cat_scarf.png|600x600px]]
prompt: Red scarf

[[Category:strumento]]

Img2img

2024-03-20T13:15:01Z

Stefano:

Img2img è uno strumento in [[Stable Diffusion]] che genera nuove immagini a partire da '''un’immagine di input e un prompt di testo corrispondente'''. L’immagine di output conserva il '''colore originale''' e la '''composizione''' dell’immagine di input. Questo strumento può trasformare i disegni più semplici in capolavori visivamente sorprendenti.

=Overview dell'interfaccia=
[[File:img2img.png|700px]]

* '''Sketch''': è un’opzione che permette di disegnare direttamente sul canvas dell’interfaccia utente. Questo può essere particolarmente utile quando si utilizza la funzione img2img, poiché consente di creare un’immagine di input personalizzata per la generazione dell’immagine. Si può caricare un’immagine di sfondo sul canvas e poi utilizzare lo strumento "Sketch" per disegnare o aggiungere dettagli.
* '''Inpaint''': è una funzione che consente di correggere piccoli difetti in un’immagine. Questo processo, implica l’uso di un modello di diffusione per rigenerare parti specifiche dell’immagine. Utilizzando lo strumento “pennello” si crea una maschera sull’area che si desidera rigenerare. Questa funzione può essere particolarmente utile per correggere specifiche aree senza dover rigenerare l’intera immagine.
* '''Inpaintsketch''': è una funzione che combina le funzionalità di “Sketch” e “Inpaint”. Permette di disegnare o schizzare direttamente sull’immagine di input e poi utilizzare la funzione “Inpaint” per rigenerare le parti dell’immagine che sono state modificate dallo schizzo. Per esempio, può servire quando si desidera fare piccole modifiche a un’immagine esistente senza dover rigenerarla.
* '''Inpaint''' '''upload''': è una funzione che permette di caricare una maschera di "inpainting" personalizzata, piuttosto che disegnarla direttamente nell’interfaccia utente. Questa può essere utile per creare una maschera più complessa o dettagliata per l’inpainting. Dopo aver caricato la maschera, Stable Diffusion la utilizzerà per determinare quali parti dell’immagine rigenerare.
* '''Batch''': è una funzione che permette di processare più immagini contemporaneamente. Può essere d'aiuto quando si desidera applicare la stessa operazione, come img2img, a un intero set di immagini.
* '''Copy image to''': Questa opzione permette di scegliere dove si desidera copiare l'immagine processata tra le diverse funzioni disponibili.
* '''Soft inpainting''': è una funzione che consente di rigenerare parti di un’immagine in modo più fluido e naturale. A differenza dell’inpainting standard, che utilizza una maschera binaria per determinare quali parti dell’immagine rigenerare, Soft Inpainting utilizza una maschera in scala di grigi per creare una transizione più morbida tra le aree rigenerate e il resto dell’immagine. Questo può portare a risultati più naturali, soprattutto quando si rigenerano aree complesse o dettagliate.
* '''Resize mode'''
** '''Just resize''': Cambia solo le dimensioni dell'immagine senza modificarne le proporzioni.
** '''Crop and resize''': Ritaglia e cambia le dimensioni dell'immagine per adattarla a specifiche proporzioni.
** '''Resize and fill''': Cambia le dimensioni dell'immagine e riempie lo spazio aggiuntivo per mantenere le proporzioni originali.
** '''Just resize (latent upscale)''': Modifica le dimensioni dell'immagine utilizzando una tecnica di upscaling che mantiene la qualità dell'immagine originale.

=Funzionalità aggiuntive=
'''Inpaint masked''': Questa opzione significa che la funzione lavorerà per riempire o “dipingere” le aree mascherate dell’immagine. In altre parole, le aree mascherate dell’immagine saranno sostituite con nuovi pixel generati dall’algoritmo di inpainting.
'''Inpaint not masked''': Questa opzione indica che la funzione lavorerà sulle aree non mascherate, lasciando intatte le parti mascherate. Quindi, solo i pixel non mascherati dell’immagine saranno modificati dall’algoritmo di inpainting.

=Sperimentazioni=
==Img2img==
In questo caso, bisognerà inserire un'immagine all'interno dell'interfaccia. In seguito, si inserirà un prompt per determinare in che modo si vuole modificare l'immagine originale. In più, si possono cambiare i parametri che ritroviamo anche nella dashboard di [[Txt2img (Stable Diffusion)]]. Sotto l'immagine che verrà generata apparirà un riassunto dei valori dei parametri inseriti.

[[File:Robotic_cat1.png|600x600px]]
Prompt: Robotic cat made of Glass

==Sketch==
In questo esperimento gli occhi del gatto sono stati colorati di azzurro per far comprendere al modello che l'immagine richiesta dovrà presentare non solo un gatto robotico di vetro, ma anche degli occhi luminosi con quel determinato colore.

[[File:Robotic_cat2.png|600x600px]]
Prompt: Robotic cat made of Glass

==Inpaint==
In questo caso, l'immagine originale viene rigenerata soltanto con le aree che si vogliono modificare/correggere. Inoltre, sarà necessario comporre un prompt con il risultato desiderato.

[[File:Cat_ears.png|600x600px]]
Prompt: Cat ears made of metal

==Inpaint sketch==
Questa funzione è servita per modificare il risultato generato dalla funzione "Inpaint". In questo caso, è stata disegnata sopra l'immagine una sciarpa rossa che dovrà fondersi al risultato precedente.

[[File:Cat_scarf.png|600x600px]]
prompt: Red scarf

Img2img

2024-03-20T11:00:08Z

Stefano: /* Inpaint sketch */

Img2img

2024-03-20T10:47:30Z

Stefano: /* Sperimentazioni */

File:Cat scarf.png

2024-03-20T10:46:54Z

Stefano:

Img2img

2024-03-20T10:46:12Z

Stefano: /* Sperimentazioni */

Img2img

2024-03-20T10:14:25Z

Stefano: /* Sperimentazioni */

File:Cat ears.png

2024-03-20T10:08:12Z

Stefano: