Wiki AI - Contributi dell'utente [it]

MusicBERT: Symbolic Music Understanding with Large-Scale Pre-Training

2024-04-05T13:22:53Z

Lucia Terenzi: /* Progetti che usano MusicBERT */

https://github.com/microsoft/muzic/tree/main/musicbert

== Progetti che usano MusicBERT ==

* [https://github.com/tripathiarpan20/midiformers midiformers]

MusicBERT: Symbolic Music Understanding with Large-Scale Pre-Training

2024-04-05T13:22:12Z

Lucia Terenzi:

https://github.com/microsoft/muzic/tree/main/musicbert

== Progetti che usano MusicBERT ==

Pagina principale

2024-04-05T13:21:03Z

Lucia Terenzi: /* Generazione Audio */

== Aiuto ==
* [[Linee Guida della Wiki AI Lab]]
* [https://www.mediawiki.org/wiki/Special:MyLanguage/Help:Contents Guida utente]: Una risorsa completa per i nuovi utenti di MediaWiki.
* [[Aiuto:Categorie_di_Wiki_AI_Lab]]: Guida alle categorie specifiche del Wiki AI Lab.
* [[Aiuto:Utilizzo_API]]: Utilizzo dell'API.
* [[Speciale:TutteLePagine|S]]<nowiki/>[[Speciale:TutteLePagine|peciale:TutteLePagine]]
* [[Ontologia della Wiki AI]]

== Architetture ==
{| class="wikitable"
! Nome
! Descrizione
|-
| [[Recurrent Neural Network (RNN)]]
| Rete neurale ricorrente
|-
| [[LSTM]]
| Long Short-Term Memory, una forma di rete neurale ricorrente
|-
| [[Generative Adversarial Networks (GAN)]]
| Reti che imparano a generare nuovi dati simili a quelli su cui sono addestrate
|-
| [[AutoEncoder (AE)]]
|-
| [[Variational AutoEncoder (RAE)]]
|-
| [[Reinforcement Learning From Human Feedback (RLHF)]]
|
|}
<categorytree mode="pages">architettura</categorytree>

== Modelli ==

<categorytree mode="all">modello</categorytree>

=== Linguaggio Naturale ===
* [[GPT-4]]: La quarta generazione del modello di linguaggio GPT.
* [[GPT-3.5 Turbo]]: Predecessore di GPT-4, ancora ampiamente utilizzato.
* [[GPT-3.5 Turbo vs. GPT-4]]: Modelli a confronto.
* [[Mistral]]: Modello per la generazione di testo.
* [[Llama]]: LLM di Meta
* [[PaLM]]: LLM di Google
* [https://www.cnbc.com/2024/02/08/google-gemini-ai-launches-in-new-app-subscription.html Bard AI]: Nome precedente dell'AI di Google, rinominata in [[Gemini]] nel Febbraio 2024
* [[Alpaca]]

==== Function Calling ====

* [[Gorilla OpenFunctions]]

=== Generazione Immagini ===
* [[Dall-e]]: Modello di OpenAI per la creazione di immagini.
* [[Midjourney]]: Principale competitor di Dall-e nella generazione di immagini
* [[Stable Diffusion]]: Generatore di immagini sviluppato da Stability AI
* [[Zero 1-to-3]]: Generazione immagini 3D da 1D

=== Generazione Video ===
* [[Sora]]: Modello OpenAI per la creazione di contenuti video.

=== Generazione MIDI ===
* [[Magenta]]: Progetto di Google che mira a utilizzare l'apprendimento automatico per creare arte e musica.

=== Generazione Audio ===

* [[Suno]]
* [[MusicFX (Google)]]
* [[MusicGen (Meta)]]

== Framework ==

<categorytree mode="pages">Framework </categorytree>

{| class="wikitable"
! Nome
! Descrizione
|-
| [[Magenta (Google)]]
| Progetto di ricerca di Google su arte e musica tramite IA
|-
| [[IKEVA-HAI (IULM AI Lab)]]
|
|-
|[[RecurrentGPT]]
|Modello avanzato di LLM che integra le capacità di RNN e LSTM
|-
|[[Chain of Density Prompting]]
|Tecnica che crea riepiloghi altamente condensati ma ricchi di informazioni da testi di lunga durata
|}

== Paper ==

<categorytree mode="pages">paper </categorytree>

=== NLP (Natural Language Processing) ===
* [[Language Models are Few-Shot Learners (2020)]]
* [[A Theory for Emergence of Complex Skills in Language Models (2023)]]: Teorie sull'emergere di competenze complesse nei modelli di linguaggio.
* [[Why think step by step? Reasoning emerges from the locality of experience (2023)]]
* [[Functional Benchmarks for Robust Evaluation of Reasoning Performance, and the Reasoning Gap (29/02/2024)]]

=== Musica ===
==== MIDI ====
* [[DeepJ: Style-Specific Music Generation (2018)]]
* [[Automatic Stylistic Composition of Bach Chorales With Deep LSTM (2017)]]
* [[Harmonizing Music the Boltzmann Way (1994)]]
* [[MusicBERT: Symbolic Music Understanding with Large-Scale Pre-Training]]

== Concetti ==

<categorytree mode="all">concetto</categorytree>

=== Matematica ===
* [[Funzione Obiettivo (loss)]]

=== Apprendimento ===
* [[Few-shot learning]]
* [[Function Calling]]
* [[Fine-tuning]]
* [[Contamination Testing]]

=== Esecuzione e Inferenza ===
* [[Quantizzazione]]: Riduzione della precisione dei numeri per accelerare l'esecuzione dei modelli.
* [[Metodi di Decoding]]: Tecniche per generare output dai modelli di linguaggio.

=== Benchmarking ===
* [[Creazione e Valutazione di Benchmark IA: Processo e Principi]]
* [[Adversarial Endings]]

=== Ragionamento negli LLM (Large Language Models) ===
* [[Step by Step]]
* [[Chain of Thought]]
* [[Reasoning Gap]]
* [[Scaling Laws]]

== Dataset ==
* [https://paperswithcode.com/paper/datasets-for-large-language-models-a Datasets for Large Language Models: A Comprehensive Survey]
* [[DocRED: A Large-Scale Document-Level Relation Extraction Dataset]]
* [[Dataset MIDI per addestrare modelli generativi di Musica]]

== Benchmarks ==
=== Modelli di Linguaggio ===

==== Benchmark Aggregati ====
* [[MMLU]]

==== Capacità di Ragionamento ====

* [[HellaSwag]]
* [[DROP]]
* [[WinoGrande]] - Sakaguchi et al., 2021
* [[Arc C]]
* PIQA - Bisk et al., 2020
* SIQA - Sap et al., 2019
* CommonsenseQA - Talmor et al., 2018

==== Conoscenza ====
* [[NaturalQuestions]] - Kwiatkowski et al.,2019
* [https://nlp.cs.washington.edu/triviaqa/ TriviaQA] - Joshi et al., 2017

==== Codice ====
* [[HumanEval]] - Chen et al., 2021
* [[MBPP]] - Austin et al., 2021

==== Comprensione del Testo ====
* [[SQuAD]] - Rajpurkar et al., 2018
* [[QuAC]] - Choi et al., 2018
* [[BoolQ]] - Clark et al., 2019)
* [[LongAlign]] - Yushi Bai et al., 2024
* [[BABILong]] - Yuri Kuratov et al., 2024

==== Matematica ====
* [[GSM8K]] - Cobbe et al., 2021
* [[MATH]] - Hendrycks et al., 2021

=== Embeddings ===
* MIRACL
* MTEB

=== Video ===
* [[HMDB: a large human motion database]]
* [[UCF101 - Action Recognition Data Set]]

== Servizi Cloud ==

=== Google ===
* [[Vertex AI]]
* [[Model Garden]]

== Tutorial AI Lab ==

=== PyTorch ===

* [[Come creare un tensore su Pytorch]]

* [[Come creare una RNN da zero con PyTorch]]

MusicBERT: Symbolic Music Understanding with Large-Scale Pre-Training

2024-04-05T13:20:17Z

Lucia Terenzi: Creata pagina con "https://github.com/microsoft/muzic/tree/main/musicbert"

https://github.com/microsoft/muzic/tree/main/musicbert

Dataset MIDI per addestrare modelli generativi di Musica

2024-03-27T09:31:39Z

Lucia Terenzi: /* Descrizione */

== corpus by music21 ==

=== Fonte ===
Sito ufficiale di [https://web.mit.edu/music21/doc/index.html music21]

=== Descrizione ===
Il corpus di <code>music21</code> è una collezione ricca e diversificata di risorse musicali digitalizzate, che include partiture di compositori classici, canti popolari, e opere da varie tradizioni musicali. Questa collezione offre accesso a 3192 file in formati quali MusicXML, MIDI, Humdrum (krn), ABC, MuseData, e Capella (cap).

=== Link ===
Il dataset si può richiamare in Python una volta installata la libreria music21 e si possono estrarre vari tipi di informazioni nonchè navigare i vari dataset:
from music21 import corpus

# Elenco dei corpora disponibili
print(corpus.corporaNames())

# Ottenere un elenco di tutte le opere di un dato compositore o collezione
print(corpus.getComposer('bach'))

# Ottenere informazioni dettagliate su un particolare pezzo
piece = corpus.parse('bach/bwv65.2.xml')
piece.metadata.all()
A questo [https://web.mit.edu/music21/doc/about/referenceCorpus.html Link] è possibile consultare in modo estensivo la collezione che compone il corpus.

=== Autori ===
Michael Cuthbert, Christopher Ariza, Benjamin Hogue

== Lakh MIDI Dataset ==

=== Fonte ===
Il dataset è stato realizzato nel contesto di progetto PhD della Columbia University, relativo al paper [https://colinraffel.com/publications/thesis.pdf Learning-Based Methods for Comparing Sequences, with Applications to Audio-to-MIDI Alignment and Matching].

=== Descrizione ===
Il dataset Lakh MIDI è una raccolta di 176581 file MIDI unici, 45129 dei quali sono stati estratti e allineati alle entry del [http://millionsongdataset.com/ Million Song Dataset] di Spotify. Il suo obiettivo è quello di facilitare il recupero di informazioni musicali su larga scala (MIR), sia simboliche (utilizzando i soli file MIDI) sia basate sul contenuto audio (utilizzando le informazioni estratte dai file MIDI come annotazioni per i file audio abbinati).

=== Link ===
Lo trovi [https://colinraffel.com/projects/lmd/ qui] e la documentazione relativa al dataset nell'apposito [https://github.com/craffel/midi-dataset repository GitHub].

=== Autori ===
Colin Raffel

== ADL Piano MIDI ==

=== Fonte ===
[https://arxiv.org/abs/2008.07009 Paper] e [https://github.com/lucasnfe/adl-piano-midi GitHub]

=== Descrizione ===
L'ADL Piano MIDI è un dataset di 11.086 brani per pianoforte di diversi generi. Questo dataset si basa sul Lakh MIDI dataset, che è una collezione di 45.129 file MIDI unici che sono stati associati a voci nel Million Song Dataset. La maggior parte dei brani nel Lakh MIDI dataset ha più strumenti, quindi per ogni file abbiamo estratto solo le tracce con strumenti della "Famiglia del Pianoforte" (numeri di programma MIDI 1-8). Questo processo ha generato un totale di 9.021 file MIDI per pianoforte unici. Questi 9.021 file sono stati poi combinati con altri circa 2.065 file raccolti da fonti pubblicamente disponibili su internet.

=== Link ===
Lo trovi [https://github.com/lucasnfe/adl-piano-midi qui]

=== Autori ===
Lucas N. Ferreira, Levi H. S. Lelis, Jim Whitehead

== Ailabs.tw 1K7 ==

=== Fonte ===
Il dataset è stato introdotto da Hsiao nel paper [https://paperswithcode.com/paper/compound-word-transformer-learning-to-compose Compound Word Transformer: Learning to Compose Full-Song Music over Dynamic Directed Hypergraphs] e reso open source tramite il relativo [https://github.com/YatingMusic/compound-word-transformer progetto GitHub].

=== Descrizione ===
Il dataset Ailabs.tw 1K7 è una collezione di 1.700 brani musicali, progettato specificamente per la ricerca e lo sviluppo nel campo dell'intelligenza artificiale musicale. Comprende infatti una varietà di generi musicali ed è stato creato con l'obiettivo di fornire una risorsa versatile e di alta qualità per allenare modelli di intelligenza artificiale, offrendo una vasta gamma di esempi musicali per promuovere innovazioni e progressi nella comprensione e nella creazione di musica tramite algoritmi di apprendimento automatico.

=== Link ===
Lo trovi [https://drive.google.com/file/d/1qw_tVUntblIg4lW16vbpjLXVndkVtgDe/view?usp=sharing qui]

=== Autori ===
Wen-Yi Hsiao, Jen-Yu Liu, Yin-Cheng Yeh and Yi-Hsuan Yang

=== Note ===

==== Pipeline: ====
[[File:Data proc diagram.png|nessuno|miniatura|492x492px|Pipeline processamento dati. Fonte: https://github.com/YatingMusic/compound-word-transformer/blob/main/dataset/Dataset.md]]

Dataset MIDI per addestrare modelli generativi di Musica

2024-03-27T08:44:50Z

Lucia Terenzi: /* Descrizione */

== corpus by music21 ==

=== Fonte ===
Sito ufficiale di [https://web.mit.edu/music21/doc/index.html music21]

=== Descrizione ===
Il corpus di <code>music21</code> è una collezione ricca e diversificata di risorse musicali digitalizzate, che include partiture di compositori classici, canti popolari, e opere da varie tradizioni musicali. Questa collezione offre accesso a 3192 file in formati quali MusicXML, MIDI, Humdrum (krn), ABC, MuseData, e Capella (cap).

=== Link ===
Il dataset si può richiamare in Python una volta installata la libreria music21 e si possono estrarre vari tipi di informazioni nonchè navigare i vari dataset:
from music21 import corpus

# Elenco dei corpora disponibili
print(corpus.corporaNames())

# Ottenere un elenco di tutte le opere di un dato compositore o collezione
print(corpus.getComposer('bach'))

# Ottenere informazioni dettagliate su un particolare pezzo
piece = corpus.parse('bach/bwv65.2.xml')
piece.metadata.all()
A questo [https://web.mit.edu/music21/doc/about/referenceCorpus.html Link] è possibile consultare in modo estensivo la collezione che compone il corpus.

=== Autori ===
Michael Cuthbert, Christopher Ariza, Benjamin Hogue

== Lakh MIDI Dataset ==

=== Fonte ===
Il dataset è stato realizzato nel contesto di progetto PhD della Columbia University, relativo al paper [https://colinraffel.com/publications/thesis.pdf Learning-Based Methods for Comparing Sequences, with Applications to Audio-to-MIDI Alignment and Matching].

=== Descrizione ===
Il dataset Lakh MIDI è una raccolta di 176581 file MIDI unici, 45129 dei quali sono stati estratti e allineati alle entry del [http://millionsongdataset.com/ Million Song Dataset] di Spotify. Il suo obiettivo è quello di facilitare il recupero di informazioni musicali su larga scala (MIR), sia simboliche (utilizzando i soli file MIDI) sia basate sul contenuto audio (utilizzando le informazioni estratte dai file MIDI come annotazioni per i file audio abbinati).

=== Link ===
Lo trovi [https://colinraffel.com/projects/lmd/ qui] e la documentazione relativa al dataset nell'apposito [https://github.com/craffel/midi-dataset repository GitHub].

=== Autori ===
Colin Raffel

== ADL Piano MIDI ==

=== Fonte ===
[https://arxiv.org/abs/2008.07009 Paper] e [https://github.com/lucasnfe/adl-piano-midi GitHub]

=== Descrizione ===
L'ADL Piano MIDI è un dataset di 11.086 brani per pianoforte di diversi generi. Questo dataset si basa sul Lakh MIDI dataset, che è una collezione di 45.129 file MIDI unici che sono stati associati a voci nel Million Song Dataset. La maggior parte dei brani nel Lakh MIDI dataset ha più strumenti, quindi per ogni file abbiamo estratto solo le tracce con strumenti della "Famiglia del Pianoforte" (numeri di programma MIDI 1-8). Questo processo ha generato un totale di 9.021 file MIDI per pianoforte unici. Questi 9.021 file sono stati poi combinati con altri circa 2.065 file raccolti da fonti pubblicamente disponibili su internet. Tutti i file nella collezione finale sono stati de-duplicati secondo il loro checksum MD5.

=== Link ===
Lo trovi [https://github.com/lucasnfe/adl-piano-midi qui]

=== Autori ===
Lucas N. Ferreira, Levi H. S. Lelis, Jim Whitehead

== Ailabs.tw 1K7 ==

=== Fonte ===
Il dataset è stato introdotto da Hsiao nel paper [https://paperswithcode.com/paper/compound-word-transformer-learning-to-compose Compound Word Transformer: Learning to Compose Full-Song Music over Dynamic Directed Hypergraphs] e reso open source tramite il relativo [https://github.com/YatingMusic/compound-word-transformer progetto GitHub].

=== Descrizione ===
Il dataset Ailabs.tw 1K7 è una collezione di 1.700 brani musicali, progettato specificamente per la ricerca e lo sviluppo nel campo dell'intelligenza artificiale musicale. Comprende infatti una varietà di generi musicali ed è stato creato con l'obiettivo di fornire una risorsa versatile e di alta qualità per allenare modelli di intelligenza artificiale, offrendo una vasta gamma di esempi musicali per promuovere innovazioni e progressi nella comprensione e nella creazione di musica tramite algoritmi di apprendimento automatico.

=== Link ===
Lo trovi [https://drive.google.com/file/d/1qw_tVUntblIg4lW16vbpjLXVndkVtgDe/view?usp=sharing qui]

=== Autori ===
Wen-Yi Hsiao, Jen-Yu Liu, Yin-Cheng Yeh and Yi-Hsuan Yang

=== Note ===

==== Pipeline: ====
[[File:Data proc diagram.png|nessuno|miniatura|492x492px|Pipeline processamento dati. Fonte: https://github.com/YatingMusic/compound-word-transformer/blob/main/dataset/Dataset.md]]

Dataset MIDI per addestrare modelli generativi di Musica

2024-03-26T17:07:28Z

Lucia Terenzi: /* Ailabs.tw 1K7 */

== corpus by music21 ==

=== Fonte ===
Sito ufficiale di [https://web.mit.edu/music21/doc/index.html music21]

=== Descrizione ===
Il corpus di <code>music21</code> è una collezione ricca e diversificata di risorse musicali digitalizzate, che include partiture di compositori classici, canti popolari, e opere da varie tradizioni musicali. Questa biblioteca offre accesso a migliaia di file in formati quali MusicXML, MIDI, Humdrum (krn), ABC, MuseData, e Capella (cap).

=== Link ===
Il dataset si può richiamare in Python una volta installata la libreria music21 e si possono estrarre vari tipi di informazioni nonchè navigare i vari dataset:
from music21 import corpus

# Elenco dei corpora disponibili
print(corpus.corporaNames())

# Ottenere un elenco di tutte le opere di un dato compositore o collezione
print(corpus.getComposer('bach'))

# Ottenere informazioni dettagliate su un particolare pezzo
piece = corpus.parse('bach/bwv65.2.xml')
piece.metadata.all()
A questo [https://web.mit.edu/music21/doc/about/referenceCorpus.html Link] è possibile consultare in modo estensivo la collezione che compone il corpus.

=== Autori ===
Michael Cuthbert, Christopher Ariza, Benjamin Hogue

== Lakh MIDI Dataset ==

=== Fonte ===
Il dataset è stato realizzato nel contesto di progetto PhD della Columbia University, relativo al paper [https://colinraffel.com/publications/thesis.pdf Learning-Based Methods for Comparing Sequences, with Applications to Audio-to-MIDI Alignment and Matching].

=== Descrizione ===
Il dataset Lakh MIDI è una raccolta di 176581 file MIDI unici, 45129 dei quali sono stati estratti e allineati alle entry del [http://millionsongdataset.com/ Million Song Dataset] di Spotify. Il suo obiettivo è quello di facilitare il recupero di informazioni musicali su larga scala (MIR), sia simboliche (utilizzando i soli file MIDI) sia basate sul contenuto audio (utilizzando le informazioni estratte dai file MIDI come annotazioni per i file audio abbinati).

=== Link ===
Lo trovi [https://colinraffel.com/projects/lmd/ qui] e la documentazione relativa al dataset nell'apposito [https://github.com/craffel/midi-dataset repository GitHub].

=== Autori ===
Colin Raffel

== ADL Piano MIDI ==

=== Fonte ===
[https://arxiv.org/abs/2008.07009 Paper] e [https://github.com/lucasnfe/adl-piano-midi GitHub]

=== Descrizione ===
L'ADL Piano MIDI è un dataset di 11.086 brani per pianoforte di diversi generi. Questo dataset si basa sul Lakh MIDI dataset, che è una collezione di 45.129 file MIDI unici che sono stati associati a voci nel Million Song Dataset. La maggior parte dei brani nel Lakh MIDI dataset ha più strumenti, quindi per ogni file abbiamo estratto solo le tracce con strumenti della "Famiglia del Pianoforte" (numeri di programma MIDI 1-8). Questo processo ha generato un totale di 9.021 file MIDI per pianoforte unici. Questi 9.021 file sono stati poi combinati con altri circa 2.065 file raccolti da fonti pubblicamente disponibili su internet. Tutti i file nella collezione finale sono stati de-duplicati secondo il loro checksum MD5.

=== Link ===
Lo trovi [https://github.com/lucasnfe/adl-piano-midi qui]

=== Autori ===
Lucas N. Ferreira, Levi H. S. Lelis, Jim Whitehead

== Ailabs.tw 1K7 ==

=== Fonte ===
Il dataset è stato introdotto da Hsiao nel paper [https://paperswithcode.com/paper/compound-word-transformer-learning-to-compose Compound Word Transformer: Learning to Compose Full-Song Music over Dynamic Directed Hypergraphs] e reso open source tramite il relativo [https://github.com/YatingMusic/compound-word-transformer progetto GitHub].

=== Descrizione ===
Il dataset Ailabs.tw 1K7 è una collezione di 1.700 brani musicali, progettato specificamente per la ricerca e lo sviluppo nel campo dell'intelligenza artificiale musicale. Comprende infatti una varietà di generi musicali ed è stato creato con l'obiettivo di fornire una risorsa versatile e di alta qualità per allenare modelli di intelligenza artificiale, offrendo una vasta gamma di esempi musicali per promuovere innovazioni e progressi nella comprensione e nella creazione di musica tramite algoritmi di apprendimento automatico.

=== Link ===
Lo trovi [https://drive.google.com/file/d/1qw_tVUntblIg4lW16vbpjLXVndkVtgDe/view?usp=sharing qui]

=== Autori ===
Wen-Yi Hsiao, Jen-Yu Liu, Yin-Cheng Yeh and Yi-Hsuan Yang

=== Note ===

==== Pipeline: ====
[[File:Data proc diagram.png|nessuno|miniatura|492x492px|Pipeline processamento dati. Fonte: https://github.com/YatingMusic/compound-word-transformer/blob/main/dataset/Dataset.md]]

Pagina principale

2024-03-26T16:55:38Z

Lucia Terenzi: /* Dataset */

== Aiuto ==
* [[Linee Guida della Wiki AI Lab]]
* [https://www.mediawiki.org/wiki/Special:MyLanguage/Help:Contents Guida utente]: Una risorsa completa per i nuovi utenti di MediaWiki.
* [[Aiuto:Categorie_di_Wiki_AI_Lab]]: Guida alle categorie specifiche del Wiki AI Lab.
* [[Aiuto:Utilizzo_API]]: Utilizzo dell'API.
* [[Speciale:TutteLePagine|S]]<nowiki/>[[Speciale:TutteLePagine|peciale:TutteLePagine]]
* [[Ontologia della Wiki AI]]

== Architetture ==
{| class="wikitable"
! Nome
! Descrizione
|-
| [[Recurrent Neural Network (RNN)]]
| Rete neurale ricorrente
|-
| [[LSTM]]
| Long Short-Term Memory, una forma di rete neurale ricorrente
|-
| [[Generative Adversarial Networks (GAN)]]
| Reti che imparano a generare nuovi dati simili a quelli su cui sono addestrate
|-
| [[AutoEncoder (AE)]]
|-
| [[Variational AutoEncoder (RAE)]]
|-
| [[Reinforcement Learning From Human Feedback (RLHF)]]
|
|}
<categorytree mode="pages">architettura</categorytree>

== Modelli ==

<categorytree mode="all">modelli</categorytree>

=== Linguaggio Naturale ===
* [[GPT-4]]: La quarta generazione del modello di linguaggio GPT.
* [[GPT-3.5 Turbo]]: Predecessore di GPT-4, ancora ampiamente utilizzato.
* [[GPT-3.5 Turbo vs. GPT-4]]: Modelli a confronto.
* [[Mistral]]: Modello per la generazione di testo.
* [[Llama]]: LLM di Meta
* [[PaLM]]: LLM di Google
* [https://www.cnbc.com/2024/02/08/google-gemini-ai-launches-in-new-app-subscription.html Bard AI]: Nome precedente dell'AI di Google, rinominata in [[Gemini]] nel Febbraio 2024
* [[Alpaca]]

==== Function Calling ====

* [[Gorilla OpenFunctions]]

=== Generazione Immagini ===
* [[Dall-e]]: Modello di OpenAI per la creazione di immagini.
* [[Midjourney]]: Principale competitor di Dall-e nella generazione di immagini
* [[Stable Diffusion]]: Generatore di immagini sviluppato da Stability AI
* [[Zero 1-to-3]]: Generazione immagini 3D da 1D

=== Generazione Video ===
* [[Sora]]: Modello OpenAI per la creazione di contenuti video.

=== Generazione Audio ===
* [[Magenta]]: Progetto di Google che mira a utilizzare l'apprendimento automatico per creare arte e musica.

== Framework ==

<categorytree mode="pages">Framework </categorytree>

{| class="wikitable"
! Nome
! Descrizione
|-
| [[Magenta (Google)]]
| Progetto di ricerca di Google su arte e musica tramite IA
|-
| [[IKEVA-HAI (IULM AI Lab)]]
|
|-
|[[RecurrentGPT]]
|Modello avanzato di LLM che integra le capacità di RNN e LSTM
|-
|[[Chain of Density Prompting]]
|Tecnica che crea riepiloghi altamente condensati ma ricchi di informazioni da testi di lunga durata
|}

== Paper ==

<categorytree mode="pages">paper </categorytree>

=== NLP (Natural Language Processing) ===
* [[Language Models are Few-Shot Learners (2020)]]
* [[A Theory for Emergence of Complex Skills in Language Models (2023)]]: Teorie sull'emergere di competenze complesse nei modelli di linguaggio.
* [[Why think step by step? Reasoning emerges from the locality of experience (2023)]]
* [[Functional Benchmarks for Robust Evaluation of Reasoning Performance, and the Reasoning Gap (29/02/2024)]]

=== Musica ===
==== MIDI ====
* [[DeepJ: Style-Specific Music Generation (2018)]]
* [[Automatic Stylistic Composition of Bach Chorales With Deep LSTM (2017)]]
* [[Harmonizing Music the Boltzmann Way (1994)]]

== Concetti ==
=== Matematica ===
* [[Funzione Obiettivo (loss)]]

=== Apprendimento ===
* [[Few-shot learning]]
* [[Function Calling]]
* [[Fine-tuning]]
* [[Contamination Testing]]

=== Esecuzione e Inferenza ===
* [[Quantizzazione]]: Riduzione della precisione dei numeri per accelerare l'esecuzione dei modelli.
* [[Metodi di Decoding]]: Tecniche per generare output dai modelli di linguaggio.

=== Benchmarking ===
* [[Creazione e Valutazione di Benchmark IA: Processo e Principi]]
* [[Adversarial Endings]]

=== Ragionamento negli LLM (Large Language Models) ===
* [[Step by Step]]
* [[Chain of Thought]]
* [[Reasoning Gap]]
* [[Scaling Laws]]

== Dataset ==
* [https://paperswithcode.com/paper/datasets-for-large-language-models-a Datasets for Large Language Models: A Comprehensive Survey]
* [[DocRED: A Large-Scale Document-Level Relation Extraction Dataset]]
* [[Dataset MIDI per addestrare modelli generativi di Musica]]

== Benchmarks ==
=== Modelli di Linguaggio ===

==== Benchmark Aggregati ====
* [[MMLU]]

==== Capacità di Ragionamento ====

* [[HellaSwag]]
* [[DROP]]
* [[WinoGrande]] - Sakaguchi et al., 2021
* [[Arc C]]
* PIQA - Bisk et al., 2020
* SIQA - Sap et al., 2019
* CommonsenseQA - Talmor et al., 2018

==== Conoscenza ====
* [[NaturalQuestions]] - Kwiatkowski et al.,2019
* [https://nlp.cs.washington.edu/triviaqa/ TriviaQA] - Joshi et al., 2017

==== Codice ====
* [[HumanEval]] - Chen et al., 2021
* [[MBPP]] - Austin et al., 2021

==== Comprensione del Testo ====
* [[SQuAD]] - Rajpurkar et al., 2018
* [[QuAC]] - Choi et al., 2018
* [[BoolQ]] - Clark et al., 2019)
* [[LongAlign]] - Yushi Bai et al., 2024
* [[BABILong]] - Yuri Kuratov et al., 2024

==== Matematica ====
* [[GSM8K]] - Cobbe et al., 2021
* [[MATH]] - Hendrycks et al., 2021

=== Embeddings ===
* MIRACL
* MTEB

=== Video ===
* [[HMDB: a large human motion database]]
* [[UCF101 - Action Recognition Data Set]]

== Servizi Cloud ==

=== Google ===
* [[Vertex AI]]
* [[Model Garden]]

== Tutorial AI Lab ==

=== PyTorch ===

* [[Come creare un tensore su Pytorch]]

* [[Come creare una RNN da zero con PyTorch]]

Dataset MIDI per addestrare modelli generativi di Musica

2024-03-26T15:54:01Z

Lucia Terenzi: Creata pagina con "== Bach by music21 == == Ailabs.tw 1K7 == === Fonte === Il dataset è stato introdotto da Hsiao nel paper [https://paperswithcode.com/paper/compound-word-transformer-learning-to-compose Compound Word Transformer: Learning to Compose Full-Song Music over Dynamic Directed Hypergraphs] e reso open source tramite il relativo [https://github.com/YatingMusic/compound-word-transformer progetto GitHub]. === Link === Lo trovi [https://drive.google.com/file/d/1qw_tVUntblIg4lW16..."

== Bach by music21 ==

== Ailabs.tw 1K7 ==

=== Fonte ===
Il dataset è stato introdotto da Hsiao nel paper [https://paperswithcode.com/paper/compound-word-transformer-learning-to-compose Compound Word Transformer: Learning to Compose Full-Song Music over Dynamic Directed Hypergraphs] e reso open source tramite il relativo [https://github.com/YatingMusic/compound-word-transformer progetto GitHub].

=== Link ===
Lo trovi [https://drive.google.com/file/d/1qw_tVUntblIg4lW16vbpjLXVndkVtgDe/view?usp=sharing qui]

=== Autori ===
Wen-Yi Hsiao, Jen-Yu Liu, Yin-Cheng Yeh and Yi-Hsuan Yang

=== Note ===

==== Pipeline: ====
[[File:Data proc diagram.png|nessuno|miniatura|492x492px|Pipeline processamento dati. Fonte: https://github.com/YatingMusic/compound-word-transformer/blob/main/dataset/Dataset.md]]

File:Data proc diagram.png

2024-03-26T15:49:39Z

Lucia Terenzi:

Data proc diagram

Hypernetworks

2024-03-22T15:07:41Z

Lucia Terenzi: /* Come integrarlo su AUTOMATIC1111 */

L''''Hypernetwork''' è una tecnica che introduce '''reti neurali supplementari''' per modificare '''chiavi''' e '''valori''' all'interno di un modello. Durante il periodo di addestramento, il modello di Stable Diffusion rimane invariato, mentre si permette alla hypernetwork collegata di subire modifiche. Essendo questa hypernetwork di '''dimensioni ridotte''', il suo addestramento è '''rapido''' e richiede '''risorse limitate'''. Questo significa che è possibile eseguire l'addestramento anche su un '''computer''' di uso '''quotidiano''', senza la necessità di hardware specializzato.

== Come funziona ==
Hypernetworks consente di base di integrare un modello ausiliario che intercetti l'attention layer del modello principale e ne modifichi i valori che lo attraversano, una sorta di fine-tuning ma senza modificare i pesi del modello principale ma aggiungendo una piccola rete neurale che ne alteri lo stile.

La base di funzionamento è infatti abbastanza simile a quella di [[LoRA]] visto che entrambi gli approcci agiscono sul modulo di cross attention. Solo che mentre con LoRA si alterano i pesi in questo caso si aggiunge una rete.

[https://rentry.org/hypernetwork4dumdums Qui] trovi una guida all'addestramento di queste reti.

== Come integrarlo su AUTOMATIC1111 ==

# Trova e scarica delle Hypernetworks da https://civitai.com/
# Installa la rete mettendo i file del modello nella seguente cartella della GUI:
stable-diffusion-webui/models/hypernetworks
# Cliccando sulla Hypernetwork nell'apposita sezione della GUI la riga che richiama l'Hypernet verrà automaticamente inserita come prompt.

[[File:Screenshot (380).png|miniatura|680x680px|fonte: https://stable-diffusion-art.com/hypernetwork/|centro]]
[[File:Screenshot (379).png|miniatura|967x967px|fonte: https://stable-diffusion-art.com/hypernetwork/|centro]]Bisogna tenere a mente che la frase <hypernet: non viene trattata come parte del prompt (come ad esempio nel caso di [[TextualInversion]] e [[LoRA]] ). Indica semplicemente quali hypernet utilizzare. Verrà completamente ignorato dopo che ha richiamato la rete richiesta. Pertanto non è possibile utilizzare alcuna sintassi del prompt come [keyword1:keyword2:0.5]. Infatti si può notare come nell'esempio di water elemental nel prompt venga specificato nuovamente "water elemental".

Hypernetworks

2024-03-22T15:06:15Z

Lucia Terenzi: /* Come integrarlo su AUTOMATIC1111 */

2024-03-22T14:48:06Z

Lucia Terenzi: /* Come funziona */

Txt2img (Stable Diffusion)

2024-03-22T14:43:15Z

Lucia Terenzi: /* Sharpness Multiplier: */

Txt2img è un tool di [[Stable Diffusion]] che, come intuibile, genera un'immagine .png basata su un prompt testuale. Il suo ultimo aggiornamento risale al 28 Ottobre 2022.

I parametri di Txt2img non verranno descritti con massimo dettaglio dal momento che la finalità di questa Wiki entry è di fornire delle linee guida comprovate da sperimentazione diretta.

* Il primo obiettivo è ricondurre con praticità il livello di performance riscontrato nel modello alle relative combinazioni di parametri.

* Il secondo obiettivo è creare collegamenti tra ciascun parametro e la corrispondente sezione dell'architettura.

= Link di approfondimento =
Nel caso si voglia approfondire i setting si può visitare il github relativo alla UI: [https://github.com/AUTOMATIC1111/stable-diffusion-webui]

Nel caso si voglia approfondire l'architettura generale si può visitare il repository: [https://github.com/Stability-AI/stablediffusion]

= Overview dell'interfaccia =
[[File:Overview_diffusion.png|700x700px]]

* [[Sampling method (Stable Diffusion)|Sampling method]]

* Sampling steps:

-Tra l'1 e i 15 step: l'immagine è relativamente sfocata.

-Tra i 15 e i 25 step: L'immagine è abbastanza chiara e di buona qualità.

-Tra i 25 e i 45: La qualità dell'immagine è molto alta e comprende la texture.

-Dai 45 in poi: La loss function si stabilizza e si osserva una variazione minima nella risoluzione.
{| class="wikitable"
|+
![[File:Sampling step 5.png|miniatura|5 step]]
![[File:10 step.png|miniatura|10 step]]
![[File:15 step.png|miniatura|15 step]]
|}
{| class="wikitable"
|+
![[File:25 step.png|miniatura|25 step]]
![[File:40 step.png|miniatura|40 step]]
![[File:60 step.png|miniatura|60 step]]
|}
{| class="wikitable"
|+
![[File:1 step.png|miniatura|1 step]]
![[File:150 step.png|miniatura|150 step]]
|}

====== Upscaler: ======
L'upscaling è il processo di aumentare la risoluzione di un'immagine, cioè di ingrandirla, mantenendo al contempo la qualità visiva il più alta possibile e può essere ottenuto mediante algoritmi di interpolazione e tecniche avanzate di elaborazione delle immagini, che aggiungono dettagli artificiali per migliorare l'aspetto dell'immagine.

- Hires Steps: migliorano la qualità dell'immagine attraverso iterazioni aggiuntive durante il processo di generazione

- Denoising strenght

- Upscale by: L'upscale di solito avviene dopo che l'immagine è stata completamente generata. L'immagine viene resa più grande senza perdere significativamente in qualità o dettaglio. Si esprime come un multiplier delle dimensioni dell'immagine generata, da 1 a 4.

* Width/Height: Dimensioni

* Batch count: il numero di gruppi in cui i dati vengono divisi durante l'elaborazione. Più batch count può significare una maggiore divisione dei dati durante il processo.

* Batch size: quanti dati vengono elaborati contemporaneamente in ciascun gruppo. Un batch size più grande può accelerare il processo ma richiedere più memoria, mentre un batch size più piccolo può richiedere più tempo ma portare a risultati più precisi.

* CFG Scale (Classifier Free Guidance Scale)

* Seed: Un numero che inizializza il generatore di numeri casuali. Utilizzare lo stesso seed con gli stessi parametri di input produrrà sempre la stessa immagine. È utile per la riproducibilità o per fare piccoli aggiustamenti su un'immagine esistente.
=Tecniche=
*[[TextualInversion]]
*[[Hypernetworks]]
*[[LoRA]]
[[File:Screenshot (378).png|nessuno|miniatura|868x868px|Confronto tra le varie tecniche di personalizzazione]]

= Sperimentazioni =
Per effettuare un'analisi bilanciata utilizzeremo gli stessi due metri di giudizio per valutare gli output:

* Inception Score
* Visual Inspection by GPT4

= Sperimentazione: Denoising Strength =
Questo parametro si riferisce all'intensità della '''riduzione del rumore''' applicata a un'immagine. Il "rumore" è il termine usato per descrivere '''variazioni casuali e non desiderate''' nei livelli di luminosità o colore di un'immagine, che possono renderla '''granulosa''' o '''offuscata''' e possono distorcere i dettagli.

* Parametri Statici:
** Prompt = "A man cooking a steak, he is in the kitchen, the stoves are on"
** Clip skip = 1
** Sampling Method: DPM++2M SDE SGMUniform
** Sampling Steps: 30
** Upscaler : Latent (nearest-exact)
** Hires Step: 0
** Batch count : 1
** Batch size: 1
** CFG : 15
(Le sperimentazioni iniziano dopo il valore 0, poiché non si sta fornendo al modello l'opportunità di "pulire" o trasformare il rumore in un'immagine coerente basata sul prompt fornito)
{| class="wikitable"
|+
|[[File:Cooking_1.png|miniatura|200x200px|Denoising Strength = 0,1]]
|[[File:Cooking_2.png|miniatura|200x200px|Denoising Strength = 0,3]]
|[[File:Cooking_3.png|miniatura|200x200px|Denoising Strength = 0,7]]
|}

==Osservazioni==
Impostando il Denoising Strenght a "0,1", si nota un'elevata quantità di rumore che rende indefiniti sia i dettagli che le sagome degli elementi a schermo. Aumentando de facto il valore del parametro si può osservare nettamente la differenza e l'efficacia fra il valore intermedio (0,3) e quello iniziale, fino ad arrivare ad una qualità più che sufficiente impostando il parametro a "0,7".

==Visual inspection by ChatGPT4==
Qui di seguito ci sarà una descrizione di ChatGPT4 sulla qualità delle immagini, in modo da comprendere se il modello riesca a individuare rumore e artefatti.

<<Le tre immagini mostrano una sequenza di azioni in una cucina, con un uomo che sembra impegnato nella preparazione di un piatto di carne. Nella prima immagine, il cuoco sta flambando la carne, creando un effetto visivo spettacolare con le fiamme che si alzano dalla padella. Nella seconda, appare concentrato nel girare o condire la carne, mentre nella terza è intento a cucinare, forse verificando la cottura o aggiungendo altri ingredienti.
Ogni immagine ha una qualità elevata, con dettagli nitidi e colori vivaci che catturano bene la scena della cucina. L'illuminazione è ben gestita, evidenziando le azioni del cuoco e dando vita agli alimenti in preparazione. La composizione è dinamica e sembra che ci sia stata attenzione nel posizionare ogni elemento per creare una scena armoniosa che guida l'occhio verso il soggetto principale senza distrazioni superflue.
Non si notano artefatti che suggeriscono una manipolazione digitale e le immagini trasmettono un senso di autenticità e professionalità. Ciò suggerisce che probabilmente sono state scattate durante una vera sessione di cucina e che fanno parte di una serie tematica ben pianificata. In sintesi, si tratta di una rappresentazione coerente e accattivante del processo culinario in azione.>>

Dalla descrizione fornita, si nota come ChatGPT4 non riesca ad individuare le differenze sostanziali presenti fra le tre immagini, dimostrando comunque la capacità di saper descrivere il contesto in modo eccellente.

= Sperimentazione: CFG Scale =
Questo parametro controlla quanto fedelmente il processo di generazione delle immagini '''segue''' il prompt di testo fornito. Un valore più alto del CFG Scale significa che l'immagine generata sarà più '''aderente''' al testo di input, ossia seguirà più strettamente le indicazioni date. In contrasto, un valore più basso dà al modello più libertà di '''inventare''' o di essere '''creativo''', portando a risultati che possono '''deviare''' di più dal prompt originale.

* Parametri Statici:
** Prompt = "A man cooking a steak, he is in the kitchen, the stoves are on"
** Clip skip = 1
** Sampling Method: DPM++2M SDE SGMUniform
** Sampling Steps: 30
** Upscaler : Latent (nearest-exact)
** Hires Step: 0
** Batch count : 1
** Batch size: 1
** Denoising Strength = 0,7

{| class="wikitable"
|+
|[[File:CookingCFG2.png|miniatura|200x200px|CFG = 1]]
|[[File:CookingCFG1.png|miniatura|200x200px|CFG = 3]]
|[[File:Cooking_3.png|miniatura|200x200px|CFG = 15]]
|}

==Osservazioni==
Impostando il parametro al suo valore minimo si nota come il modello segua ben poco il prompt fornito. Viene presentato un ragazzo e non un uomo, situato in un posto che ricorda appena una cucina, mentre sta cucinando del cibo che ricorda vagamente la carne. Con un valore pari a "3", il setting è già interamente riconoscibile. In questo caso sono solo le azioni che vengono rappresentate a schermo ad essere poco chiare, poiché si nota un uomo che ha messo una fetta di carne in un forno a legna. L'ultima immagine mostra un contesto totalmente credibile: sia l'ambiente che le azioni sono coerenti con il prompt fornito, benché gli unici difetti facilmente visibili sono gli oggetti che l'uomo tiene in mano per cucinare, essendo poco definiti.

= Sperimentazione: Share Attention in Batch =
Il parametro "'''Share attention in batch'''" è una funzionalità dove l'attenzione del modello, ovvero la parte che il modello "considera" più importante durante la generazione dell'immagine, viene '''condivisa''' o '''sincronizzata''' tra le immagini in un batch. Quando si generano '''più immagini contemporaneamente (un batch)''', questo parametro fa in modo che tutte le immagini nel batch diano priorità a parti simili dell'input, o che le caratteristiche stilistiche siano '''coerenti''' tra di loro. Per esempio, se si stanno generando immagini di volti e si vuole che l'attenzione sia focalizzata sugli occhi per tutti i volti nel batch, attivare questa opzione potrebbe aiutare a garantire che tutti i volti generati abbiano occhi ben definiti e uno stile simile. Questo può essere particolarmente utile quando l'obiettivo è creare una serie di immagini che devono essere visivamente coerenti l'una con l'altra.

* Parametri Statici:
** Prompt = "A man cooking a steak, he is in the kitchen, the stoves are on"
** Clip skip = 1
** Sampling Method: DPM++2M SDE SGMUniform
** Sampling Steps: 30
** Upscaler : Latent (nearest-exact)
** Hires Step: 0
** Batch count : 1
** Batch size: 1
** CFG : 15
** Denoising Strength = 0,7

{| class="wikitable"
|+
|[[File:Cookingstyle1.png|miniatura|200x200px|SAIB = off]]
|[[File:Cookingstyle2.png|miniatura|200x200px|SAIB = on]]
|}

= Sperimentazione: Hires steps =
Questo parametro si riferisce ai '''passaggi aggiuntivi''' di elaborazione che vengono eseguiti per '''rifinire''' l'immagine dopo la sua creazione iniziale. Aumentare l'Hire ssteps può migliorare la qualità dell'immagine, ma '''rallenterà''' anche il processo di generazione.

* Parametri Statici:
** Prompt = "A man cooking a steak, he is in the kitchen, the stoves are on, '''the steak is being cooked on a pan'''"
** Clip skip = 1
** Sampling Method: DPM++2M SDE SGMUniform
** Sampling Steps: 30
** Upscaler : Latent (nearest-exact)
** Batch count : 1
** Batch size: 1
** CFG : 15
** Denoising Strength = 0,7

{| class="wikitable"
|+
|[[File:CookingHS1.png|miniatura|200x200px|Hire steps = 0]]
|[[File:CookingHS3.png|miniatura|200x200px|Hire steps = 100]]
|}

==Osservazioni==
In questa sperimentazione si notano poche differenze fra un'immagine e l'altra; fra l'assenza del parametro e il suo valore massimo. L'unico difetto individuabile si trova nella prima immagine dove l'uomo sta cercando di cuocere la carne senza una padella.

= Sperimentazione: SelfAttentionGuidance Integrated =
Questa tecnica è progettata per rendere il processo di generazione delle immagini '''più semplice e veloce''' per l'utente, migliorando allo stesso tempo la '''qualità''' delle immagini prodotte. La funzionalità integrata della "self attention guidance" può aiutare a creare immagini che appaiono '''più realistiche''' e con oggetti '''meglio definiti''' senza che l'utente debba effettuare configurazioni complesse o '''passaggi supplementari'''.
Il termine "'''Scale'''" si riferisce all'intensità con cui la guida basata sull'auto-attenzione viene applicata durante il processo di generazione. Una "Scale" maggiore implica '''un'adesione più forte al prompt testuale''' e può portare a immagini più '''dettagliate e coerenti con l'input''', anche se potrebbe ridurre la diversità delle immagini generate.
Il parametro "'''Blur Sigma'''", invece, è associato al '''grado di sfocatura''' che viene applicato alle regioni selezionate di un'immagine. Questo processo agisce dove le aree con maggiore auto-attenzione — ovvero quelle parti dell'immagine che il modello riconosce come più importanti o informative — vengono '''sfocate''' leggermente. L'idea è che '''enfatizzando''' il lavoro del modello su queste aree sfocate, il modello può generare risultati migliori, perfezionando le parti '''più significative''' dell'immagine e '''riducendo''' potenzialmente il '''rumore''' o i '''dettagli superflui''' nelle regioni meno importanti.
I valori di default sono i seguenti: <<'''Scale = 0,5'''>> - <<'''Blur sigma = 2'''>>

* Parametri Statici:
** Prompt = "A man cooking a steak, he is in the kitchen, the stoves are on, '''the steak is being cooked on a pan'''"
** Clip skip = 1
** Sampling Method: DPM++2M SDE SGMUniform
** Sampling Steps: 30
** Upscaler : Latent (nearest-exact)
** Hires Step: 0
** Batch count : 1
** Batch size: 1
** CFG : 15
** Denoising Strength = 0,7

{| class="wikitable"
|+
|[[File:SAG_none_-_default.jpg|miniatura|200x200px|Tecnica omessa e valori default]]
|[[File:SAG_Scale.jpg|miniatura|200x200px|SAG Scale (da sinistra): -2; 1; 5]]
|[[File:SAG_BS.jpg|miniatura|200x200px|SAG BS (da sinistra): 0,1; 5; 10]]
|}

==Osservazioni==
Nella prima immagine si osserva il confronto tra l'immagine generata senza la tecnica del SAG e quella generata con quest'ultima. Si evidenzia come l'immagine generata con la tecnica con valori impostati di default sia di qualità inferiore alla prima, suggerendo che bisogna regolare i parametri di "scale" e di "blur sigma". Per quanto riguarda le immagini generate variando solo il parametro di scale, si nota come si ottengano dei pessimi risultati impostando dei valori sia troppo bassi che troppo alti, e che quindi sia necessario lavorare nei valori intermedi (i risultati cambiano in base alla complessità del prompt). Relativamente al parametro di Blur sigma, si notano poche differenze fra le tre immagini, benché ci siano errori evidenti sul modo in cui l'uomo tenga in mano degli oggetti difficilmente identificabili, soprattutto nei valori "0,1" e "10".

=Altri componenti=
{| class="wikitable"
|+
|[[File:altrefunzioni.png|miniatura|500x500px|Tecniche]]
|}
=='''ControlNet'''==
Un modello di '''rete neurale''' progettato per controllare i modelli di Stable Diffusion, fornendo agli utenti un '''controllo dettagliato''' sugli output dei modelli di diffusione nelle attività di generazione di testo in immagine. ControlNet è una struttura di rete neurale che consente '''l'aggiunta di condizioni aggiuntive''' per influenzare l'output dei modelli di diffusione. Queste condizioni possono assumere molte forme, come [[Edge maps]], [[Depth maps]], e [[Semantic segmentations]]. L'uso di ControlNet su Stable Diffusion offre numerosi vantaggi. Consente un controllo preciso sulla semantica e sulle caratteristiche del contenuto generato, consentendo la generazione di output più '''accurati''' e '''personalizzati'''.

[[File:Controlnet2.png|600px]]

=='''DynamicThresholding (CFG-Fix)'''==
è un '''filtro''' per migliorare le immagini. Aiuta a risolvere '''problemi di colore''' quando si usano '''impostazioni più alte'''. Queste ultime, si riferiscono a valori maggiori o livelli superiori, significa utilizzare valori più grandi per '''migliorare''' l’immagine. Ad esempio, se un’immagine è leggermente sbiadita e la si vuole rendere più nitida, è possibile aumentare determinati parametri. Tuttavia, a volte, quando si usano valori troppo alti, potrebbero verificarsi problemi di colore. Ecco dove entra in gioco CFG-Fix: risolve questi problemi di colore quando si utilizzano impostazioni elevate.

=='''FreeU'''==
Un componente aggiuntivo di Stable Diffusion che migliora la qualità dell'immagine modificando il '''denoiser''' del modello. Il miglioramento avviene senza costi: nessun addestramento, nessun parametro aggiuntivo introdotto e nessun aumento della memoria o del tempo di campionamento.

'''Prompt: A 25 year old mage, dress, full body, magic, lightning, rim light, moon, night'''

(Da sinistra) Generazione neutra e utilizzo FreeU.

[[File:maga.png|300px]] [[File:magaFreeU.png|300px]]

=='''HyperTile'''==
è un '''metodo''' che ottimizza il livello di '''auto-attenzione''' all’interno dei modelli Stable-Diffusion. Questo porta a una '''riduzione del tempo di calcolo''' che varia da 1 a 4 volte, a seconda della '''risoluzione iniziale'''.

'''Prompt: A man eating pasta'''

(Da sinistra) Generazione neutra ('''15 sec''') e utilizzo di Hypertile ('''7 sec''')

[[File:Uomopasta1.png|400px]] [[File:Uomopasta2.png|400px]]

=='''Kohya HRFix'''==
è un’'''estensione''' utilizzata nei modelli Stable-Diffusion per migliorare la risoluzione delle immagini generate. Questa estensione è stata sviluppata da Kohya e ha lo scopo di '''limitare i problemi di clonazione/crollo''' nelle immagini ad alta risoluzione. Tuttavia, l’uso di Kohya HRFix può ridurre la varietà delle immagini generate, rendendole più identiche tra loro. Le impostazioni ottimali per Kohya HRFix possono variare a seconda delle esigenze specifiche dell’utente.

'''Prompt: A potrait of a white cat, cozy house'''

(Da sinistra) Generazione neutra e utilizzo Kohya HRFix.

[[File:Gattobianco1.png|300px]] [[File:Gattokoya.png|500px]]

Possiamo notare che nonostante presenti risultati migliori per quanto riguarda la risoluzione e dei dettagli, Kohya ha anche il contro di alterare leggermente l'interpretazione del prompt il che, per artisti dedicati e che curano ogni dettaglio della generazione, può essere un grosso dealbreaker.
[[File:Kohya.png|centro|miniatura|923x923px|Confronto di tempistiche e risultati con e senza Kohya XRFix. fonte: https://www.reddit.com/r/StableDiffusion/comments/17z951a/kohyas_deepshrink_highres_fix_is_amazing_produces/]]

=='''LatentModifier'''==
è un '''componente''' che '''modifica i valori latenti''' durante il '''processo di diffusione''' in un modello di generazione di immagini. Queste modifiche possono influenzare vari aspetti dell’immagine finale, come la '''nitidezza''', il '''contrasto''' e il '''rumore'''. Ci sono parametri

'''Prompt: A potrait of a white cat, cozy house'''

(Da sinistra) Generazione neutra e utilizzo LatentModifier.

[[File:Gattobianco1.png|300px]] [[File:Latentgatto.png|300px]]

=== Sharpness Multiplier: ===
'''Prompt: a cute kitten smoking a cigar'''[[File:Image (3).png|miniatura|321x321px|[[File:Image (4).png|miniatura|341x341px|+100]]-100|nessuno]]

=== Tonemap Multiplier: ===
[[File:Screenshot (367).png|miniatura|851x851px|Tonemap Multiplier: 100|sinistra]]
[[File:Screenshot (368).png|miniatura|852x852px|Miglior risultato ottenuto dalla sperimentazione e relativi parametri|nessuno]]
=='''MultiDiffusion'''==

è un '''framework''' unificato che consente la generazione di immagini '''versatili''' e '''controllabili''', utilizzando un modello di diffusione text-to-image pre-addestrato. Al centro dell’approccio c’è un nuovo processo di generazione, basato su un compito di '''ottimizzazione''' che lega insieme '''più processi''' di generazione di diffusione con un '''insieme condiviso di parametri o vincoli'''. Quindi, invece di utilizzare un'unica immagine di riferimento (prompt), la multidiffusion combina le informazioni da più immagini per creare un'immagine finale più ricca e complessa.
[[File:Screenshot (377).png|nessuno|miniatura|860x860px]]

=='''Never OOM'''==
Parametro puramente tecnico che permette di scaricare sempre i modelli dalla '''VRAM'''. Questo può essere utile se si utilizzano '''più software insieme''' e si desidera che Stable Diffusion utilizzi meno VRAM e ne dia '''una parte ad altri software''', o quando si utilizzano vecchie estensioni che competono con la VRAM di Stable Diffusion. Non ha impatto sulla generazione. [[Category:strumento]]

=='''Script'''==
Questa funzione è utilizzata per implementare '''script personalizzati''' che possono modificare il '''comportamento''' del processo di generazione di immagini.
*'''None''': Questa è l’opzione predefinita che significa che non viene eseguito alcuno script.
*'''Prompt matrix''': permette di testare e confrontare le modifiche che i prompt apportano alle immagini generate. Si possono strutturare i prompt in modo che ogni immagine nella matrice abbia un prompt che inizia con una frase comune.Per esempio, una immagine avrà il prompt “una ciotola di frutta, mele”, un’altra avrà “una ciotola di frutta, mele, pere” e così via.
*'''Prompts from file or textbox''': permette di caricare i prompt da un file o da un textbox. Si può creare un prompt a piacimento, creare un numero x di variazioni su di esso, copiare quel file di testo, e ripetere fino a quando non hai centinaia di mini file di testo.
*'''X/Y/Z plot''': permette di eseguire test sui propri prompt e impostazioni per vedere i risultati, senza impegnarsi in una generazione di immagini completa. Utilizzando un grafico, si possono confrontare i risultati per vedere quale combinazione di impostazioni funziona meglio.

2024-03-22T12:14:33Z

Lucia Terenzi: /* Kohya HRFix */

Txt2img è un tool di [[Stable Diffusion]] che, come intuibile, genera un'immagine .png basata su un prompt testuale. Il suo ultimo aggiornamento risale al 28 Ottobre 2022.

I parametri di Txt2img non verranno descritti con massimo dettaglio dal momento che la finalità di questa Wiki entry è di fornire delle linee guida comprovate da sperimentazione diretta.

* Il primo obiettivo è ricondurre con praticità il livello di performance riscontrato nel modello alle relative combinazioni di parametri.

* Il secondo obiettivo è creare collegamenti tra ciascun parametro e la corrispondente sezione dell'architettura.

= Link di approfondimento =
Nel caso si voglia approfondire i setting si può visitare il github relativo alla UI: [https://github.com/AUTOMATIC1111/stable-diffusion-webui]

Nel caso si voglia approfondire l'architettura generale si può visitare il repository: [https://github.com/Stability-AI/stablediffusion]

= Overview dell'interfaccia =
[[File:Overview_diffusion.png|700x700px]]

* [[Sampling method (Stable Diffusion)|Sampling method]]

* Sampling steps:

-Tra l'1 e i 15 step: l'immagine è relativamente sfocata.

-Tra i 15 e i 25 step: L'immagine è abbastanza chiara e di buona qualità.

-Tra i 25 e i 45: La qualità dell'immagine è molto alta e comprende la texture.

-Dai 45 in poi: La loss function si stabilizza e si osserva una variazione minima nella risoluzione.
{| class="wikitable"
|+
![[File:Sampling step 5.png|miniatura|5 step]]
![[File:10 step.png|miniatura|10 step]]
![[File:15 step.png|miniatura|15 step]]
|}
{| class="wikitable"
|+
![[File:25 step.png|miniatura|25 step]]
![[File:40 step.png|miniatura|40 step]]
![[File:60 step.png|miniatura|60 step]]
|}
{| class="wikitable"
|+
![[File:1 step.png|miniatura|1 step]]
![[File:150 step.png|miniatura|150 step]]
|}

====== Upscaler: ======
L'upscaling è il processo di aumentare la risoluzione di un'immagine, cioè di ingrandirla, mantenendo al contempo la qualità visiva il più alta possibile e può essere ottenuto mediante algoritmi di interpolazione e tecniche avanzate di elaborazione delle immagini, che aggiungono dettagli artificiali per migliorare l'aspetto dell'immagine.

- Hires Steps: migliorano la qualità dell'immagine attraverso iterazioni aggiuntive durante il processo di generazione

- Denoising strenght

- Upscale by: L'upscale di solito avviene dopo che l'immagine è stata completamente generata. L'immagine viene resa più grande senza perdere significativamente in qualità o dettaglio. Si esprime come un multiplier delle dimensioni dell'immagine generata, da 1 a 4.

* Width/Height: Dimensioni

* Batch count: il numero di gruppi in cui i dati vengono divisi durante l'elaborazione. Più batch count può significare una maggiore divisione dei dati durante il processo.

* Batch size: quanti dati vengono elaborati contemporaneamente in ciascun gruppo. Un batch size più grande può accelerare il processo ma richiedere più memoria, mentre un batch size più piccolo può richiedere più tempo ma portare a risultati più precisi.

* CFG Scale (Classifier Free Guidance Scale)

* Seed: Un numero che inizializza il generatore di numeri casuali. Utilizzare lo stesso seed con gli stessi parametri di input produrrà sempre la stessa immagine. È utile per la riproducibilità o per fare piccoli aggiustamenti su un'immagine esistente.
=Tecniche=
*[[TextualInversion]]
*[[Hypernetworks]]
*[[LoRA]]

= Sperimentazioni =
Per effettuare un'analisi bilanciata utilizzeremo gli stessi due metri di giudizio per valutare gli output:

* Inception Score
* Visual Inspection by GPT4

= Sperimentazione: Denoising Strength =
Questo parametro si riferisce all'intensità della '''riduzione del rumore''' applicata a un'immagine. Il "rumore" è il termine usato per descrivere '''variazioni casuali e non desiderate''' nei livelli di luminosità o colore di un'immagine, che possono renderla '''granulosa''' o '''offuscata''' e possono distorcere i dettagli.

* Parametri Statici:
** Prompt = "A man cooking a steak, he is in the kitchen, the stoves are on"
** Clip skip = 1
** Sampling Method: DPM++2M SDE SGMUniform
** Sampling Steps: 30
** Upscaler : Latent (nearest-exact)
** Hires Step: 0
** Batch count : 1
** Batch size: 1
** CFG : 15
(Le sperimentazioni iniziano dopo il valore 0, poiché non si sta fornendo al modello l'opportunità di "pulire" o trasformare il rumore in un'immagine coerente basata sul prompt fornito)
{| class="wikitable"
|+
|[[File:Cooking_1.png|miniatura|200x200px|Denoising Strength = 0,1]]
|[[File:Cooking_2.png|miniatura|200x200px|Denoising Strength = 0,3]]
|[[File:Cooking_3.png|miniatura|200x200px|Denoising Strength = 0,7]]
|}

==Osservazioni==
Impostando il Denoising Strenght a "0,1", si nota un'elevata quantità di rumore che rende indefiniti sia i dettagli che le sagome degli elementi a schermo. Aumentando de facto il valore del parametro si può osservare nettamente la differenza e l'efficacia fra il valore intermedio (0,3) e quello iniziale, fino ad arrivare ad una qualità più che sufficiente impostando il parametro a "0,7".

==Visual inspection by ChatGPT4==
Qui di seguito ci sarà una descrizione di ChatGPT4 sulla qualità delle immagini, in modo da comprendere se il modello riesca a individuare rumore e artefatti.

<<Le tre immagini mostrano una sequenza di azioni in una cucina, con un uomo che sembra impegnato nella preparazione di un piatto di carne. Nella prima immagine, il cuoco sta flambando la carne, creando un effetto visivo spettacolare con le fiamme che si alzano dalla padella. Nella seconda, appare concentrato nel girare o condire la carne, mentre nella terza è intento a cucinare, forse verificando la cottura o aggiungendo altri ingredienti.
Ogni immagine ha una qualità elevata, con dettagli nitidi e colori vivaci che catturano bene la scena della cucina. L'illuminazione è ben gestita, evidenziando le azioni del cuoco e dando vita agli alimenti in preparazione. La composizione è dinamica e sembra che ci sia stata attenzione nel posizionare ogni elemento per creare una scena armoniosa che guida l'occhio verso il soggetto principale senza distrazioni superflue.
Non si notano artefatti che suggeriscono una manipolazione digitale e le immagini trasmettono un senso di autenticità e professionalità. Ciò suggerisce che probabilmente sono state scattate durante una vera sessione di cucina e che fanno parte di una serie tematica ben pianificata. In sintesi, si tratta di una rappresentazione coerente e accattivante del processo culinario in azione.>>

Dalla descrizione fornita, si nota come ChatGPT4 non riesca ad individuare le differenze sostanziali presenti fra le tre immagini, dimostrando comunque la capacità di saper descrivere il contesto in modo eccellente.

= Sperimentazione: CFG Scale =
Questo parametro controlla quanto fedelmente il processo di generazione delle immagini '''segue''' il prompt di testo fornito. Un valore più alto del CFG Scale significa che l'immagine generata sarà più '''aderente''' al testo di input, ossia seguirà più strettamente le indicazioni date. In contrasto, un valore più basso dà al modello più libertà di '''inventare''' o di essere '''creativo''', portando a risultati che possono '''deviare''' di più dal prompt originale.

* Parametri Statici:
** Prompt = "A man cooking a steak, he is in the kitchen, the stoves are on"
** Clip skip = 1
** Sampling Method: DPM++2M SDE SGMUniform
** Sampling Steps: 30
** Upscaler : Latent (nearest-exact)
** Hires Step: 0
** Batch count : 1
** Batch size: 1
** Denoising Strength = 0,7

{| class="wikitable"
|+
|[[File:CookingCFG2.png|miniatura|200x200px|CFG = 1]]
|[[File:CookingCFG1.png|miniatura|200x200px|CFG = 3]]
|[[File:Cooking_3.png|miniatura|200x200px|CFG = 15]]
|}

==Osservazioni==
Impostando il parametro al suo valore minimo si nota come il modello segua ben poco il prompt fornito. Viene presentato un ragazzo e non un uomo, situato in un posto che ricorda appena una cucina, mentre sta cucinando del cibo che ricorda vagamente la carne. Con un valore pari a "3", il setting è già interamente riconoscibile. In questo caso sono solo le azioni che vengono rappresentate a schermo ad essere poco chiare, poiché si nota un uomo che ha messo una fetta di carne in un forno a legna. L'ultima immagine mostra un contesto totalmente credibile: sia l'ambiente che le azioni sono coerenti con il prompt fornito, benché gli unici difetti facilmente visibili sono gli oggetti che l'uomo tiene in mano per cucinare, essendo poco definiti.

= Sperimentazione: Share Attention in Batch =
Il parametro "'''Share attention in batch'''" è una funzionalità dove l'attenzione del modello, ovvero la parte che il modello "considera" più importante durante la generazione dell'immagine, viene '''condivisa''' o '''sincronizzata''' tra le immagini in un batch. Quando si generano '''più immagini contemporaneamente (un batch)''', questo parametro fa in modo che tutte le immagini nel batch diano priorità a parti simili dell'input, o che le caratteristiche stilistiche siano '''coerenti''' tra di loro. Per esempio, se si stanno generando immagini di volti e si vuole che l'attenzione sia focalizzata sugli occhi per tutti i volti nel batch, attivare questa opzione potrebbe aiutare a garantire che tutti i volti generati abbiano occhi ben definiti e uno stile simile. Questo può essere particolarmente utile quando l'obiettivo è creare una serie di immagini che devono essere visivamente coerenti l'una con l'altra.

* Parametri Statici:
** Prompt = "A man cooking a steak, he is in the kitchen, the stoves are on"
** Clip skip = 1
** Sampling Method: DPM++2M SDE SGMUniform
** Sampling Steps: 30
** Upscaler : Latent (nearest-exact)
** Hires Step: 0
** Batch count : 1
** Batch size: 1
** CFG : 15
** Denoising Strength = 0,7

{| class="wikitable"
|+
|[[File:Cookingstyle1.png|miniatura|200x200px|SAIB = off]]
|[[File:Cookingstyle2.png|miniatura|200x200px|SAIB = on]]
|}

= Sperimentazione: Hires steps =
Questo parametro si riferisce ai '''passaggi aggiuntivi''' di elaborazione che vengono eseguiti per '''rifinire''' l'immagine dopo la sua creazione iniziale. Aumentare l'Hire ssteps può migliorare la qualità dell'immagine, ma '''rallenterà''' anche il processo di generazione.

* Parametri Statici:
** Prompt = "A man cooking a steak, he is in the kitchen, the stoves are on, '''the steak is being cooked on a pan'''"
** Clip skip = 1
** Sampling Method: DPM++2M SDE SGMUniform
** Sampling Steps: 30
** Upscaler : Latent (nearest-exact)
** Batch count : 1
** Batch size: 1
** CFG : 15
** Denoising Strength = 0,7

{| class="wikitable"
|+
|[[File:CookingHS1.png|miniatura|200x200px|Hire steps = 0]]
|[[File:CookingHS3.png|miniatura|200x200px|Hire steps = 100]]
|}

==Osservazioni==
In questa sperimentazione si notano poche differenze fra un'immagine e l'altra; fra l'assenza del parametro e il suo valore massimo. L'unico difetto individuabile si trova nella prima immagine dove l'uomo sta cercando di cuocere la carne senza una padella.

= Sperimentazione: SelfAttentionGuidance Integrated =
Questa tecnica è progettata per rendere il processo di generazione delle immagini '''più semplice e veloce''' per l'utente, migliorando allo stesso tempo la '''qualità''' delle immagini prodotte. La funzionalità integrata della "self attention guidance" può aiutare a creare immagini che appaiono '''più realistiche''' e con oggetti '''meglio definiti''' senza che l'utente debba effettuare configurazioni complesse o '''passaggi supplementari'''.
Il termine "'''Scale'''" si riferisce all'intensità con cui la guida basata sull'auto-attenzione viene applicata durante il processo di generazione. Una "Scale" maggiore implica '''un'adesione più forte al prompt testuale''' e può portare a immagini più '''dettagliate e coerenti con l'input''', anche se potrebbe ridurre la diversità delle immagini generate.
Il parametro "'''Blur Sigma'''", invece, è associato al '''grado di sfocatura''' che viene applicato alle regioni selezionate di un'immagine. Questo processo agisce dove le aree con maggiore auto-attenzione — ovvero quelle parti dell'immagine che il modello riconosce come più importanti o informative — vengono '''sfocate''' leggermente. L'idea è che '''enfatizzando''' il lavoro del modello su queste aree sfocate, il modello può generare risultati migliori, perfezionando le parti '''più significative''' dell'immagine e '''riducendo''' potenzialmente il '''rumore''' o i '''dettagli superflui''' nelle regioni meno importanti.
I valori di default sono i seguenti: <<'''Scale = 0,5'''>> - <<'''Blur sigma = 2'''>>

* Parametri Statici:
** Prompt = "A man cooking a steak, he is in the kitchen, the stoves are on, '''the steak is being cooked on a pan'''"
** Clip skip = 1
** Sampling Method: DPM++2M SDE SGMUniform
** Sampling Steps: 30
** Upscaler : Latent (nearest-exact)
** Hires Step: 0
** Batch count : 1
** Batch size: 1
** CFG : 15
** Denoising Strength = 0,7

{| class="wikitable"
|+
|[[File:SAG_none_-_default.jpg|miniatura|200x200px|Tecnica omessa e valori default]]
|[[File:SAG_Scale.jpg|miniatura|200x200px|SAG Scale (da sinistra): -2; 1; 5]]
|[[File:SAG_BS.jpg|miniatura|200x200px|SAG BS (da sinistra): 0,1; 5; 10]]
|}

==Osservazioni==
Nella prima immagine si osserva il confronto tra l'immagine generata senza la tecnica del SAG e quella generata con quest'ultima. Si evidenzia come l'immagine generata con la tecnica con valori impostati di default sia di qualità inferiore alla prima, suggerendo che bisogna regolare i parametri di "scale" e di "blur sigma". Per quanto riguarda le immagini generate variando solo il parametro di scale, si nota come si ottengano dei pessimi risultati impostando dei valori sia troppo bassi che troppo alti, e che quindi sia necessario lavorare nei valori intermedi (i risultati cambiano in base alla complessità del prompt). Relativamente al parametro di Blur sigma, si notano poche differenze fra le tre immagini, benché ci siano errori evidenti sul modo in cui l'uomo tenga in mano degli oggetti difficilmente identificabili, soprattutto nei valori "0,1" e "10".

=Altri componenti=
{| class="wikitable"
|+
|[[File:altrefunzioni.png|miniatura|500x500px|Tecniche]]
|}
=='''ControlNet'''==
Un modello di '''rete neurale''' progettato per controllare i modelli di Stable Diffusion, fornendo agli utenti un '''controllo dettagliato''' sugli output dei modelli di diffusione nelle attività di generazione di testo in immagine. ControlNet è una struttura di rete neurale che consente '''l'aggiunta di condizioni aggiuntive''' per influenzare l'output dei modelli di diffusione. Queste condizioni possono assumere molte forme, come [[Edge maps]], [[Depth maps]], e [[Semantic segmentations]]. L'uso di ControlNet su Stable Diffusion offre numerosi vantaggi. Consente un controllo preciso sulla semantica e sulle caratteristiche del contenuto generato, consentendo la generazione di output più '''accurati''' e '''personalizzati'''.

=='''DynamicThresholding (CFG-Fix)'''==
è un '''filtro''' per migliorare le immagini. Aiuta a risolvere '''problemi di colore''' quando si usano '''impostazioni più alte'''. Queste ultime, si riferiscono a valori maggiori o livelli superiori, significa utilizzare valori più grandi per '''migliorare''' l’immagine. Ad esempio, se un’immagine è leggermente sbiadita e la si vuole rendere più nitida, è possibile aumentare determinati parametri. Tuttavia, a volte, quando si usano valori troppo alti, potrebbero verificarsi problemi di colore. Ecco dove entra in gioco CFG-Fix: risolve questi problemi di colore quando si utilizzano impostazioni elevate.

=='''FreeU'''==
Un componente aggiuntivo di Stable Diffusion che migliora la qualità dell'immagine modificando il '''denoiser''' del modello. Il miglioramento avviene senza costi: nessun addestramento, nessun parametro aggiuntivo introdotto e nessun aumento della memoria o del tempo di campionamento.

'''Prompt: A 25 year old mage, dress, full body, magic, lightning, rim light, moon, night'''

(Da sinistra) Generazione neutra e utilizzo FreeU.

[[File:maga.png|300px]] [[File:magaFreeU.png|300px]]

=='''HyperTile'''==
è un '''metodo''' che ottimizza il livello di '''auto-attenzione''' all’interno dei modelli Stable-Diffusion. Questo porta a una '''riduzione del tempo di calcolo''' che varia da 1 a 4 volte, a seconda della '''risoluzione iniziale'''.
=='''Kohya HRFix'''==
è un’'''estensione''' utilizzata nei modelli Stable-Diffusion per migliorare la risoluzione delle immagini generate. Questa estensione è stata sviluppata da Kohya e ha lo scopo di '''limitare i problemi di clonazione/crollo''' nelle immagini ad alta risoluzione. Tuttavia, l’uso di Kohya HRFix può ridurre la varietà delle immagini generate, rendendole più identiche tra loro. Le impostazioni ottimali per Kohya HRFix possono variare a seconda delle esigenze specifiche dell’utente.

'''Prompt: A potrait of a white cat, cozy house'''

(Da sinistra) Generazione neutra e utilizzo Kohya HRFix.

[[File:Gattobianco1.png|300px]] [[File:Gattokoya.png|500px]]

Possiamo notare che nonostante presenti risultati migliori per quanto riguarda la risoluzione e dei dettagli, Kohya ha anche il contro di alterare leggermente l'interpretazione del prompt il che, per artisti dedicati e che curano ogni dettaglio della generazione può essere un vero dealbreaker.
[[File:Kohya.png|centro|miniatura|923x923px|Confronto di tempistiche e risultati con e senza Kohya XRFix. fonte: https://www.reddit.com/r/StableDiffusion/comments/17z951a/kohyas_deepshrink_highres_fix_is_amazing_produces/]]

=='''LatentModifier'''==
è un '''componente''' che '''modifica i valori latenti''' durante il '''processo di diffusione''' in un modello di generazione di immagini. Queste modifiche possono influenzare vari aspetti dell’immagine finale, come la '''nitidezza''', il '''contrasto''' e il '''rumore'''.

'''Prompt: A potrait of a white cat, cozy house'''

(Da sinistra) Generazione neutra e utilizzo LatentModifier.

[[File:Gattobianco1.png|300px]] [[File:Latentgatto.png|300px]]

=='''MultiDiffusion'''==
è un '''framework''' unificato che consente la generazione di immagini '''versatili''' e '''controllabili''', utilizzando un modello di diffusione text-to-image pre-addestrato. Al centro dell’approccio c’è un nuovo processo di generazione, basato su un compito di '''ottimizzazione''' che lega insieme '''più processi''' di generazione di diffusione con un '''insieme condiviso di parametri o vincoli'''.

=='''Never OOM'''==
è un’'''opzione''' che permette di scaricare sempre i modelli dalla '''VRAM'''. Questo può essere utile se si utilizzano '''più software insieme''' e si desidera che Stable Diffusion utilizzi meno VRAM e ne dia '''una parte ad altri software''', o quando si utilizzano vecchie estensioni che competono con la VRAM di Stable Diffusion. [[Category:strumento]]

=='''Script'''==
Questa funzione è utilizzata per implementare '''script personalizzati''' che possono modificare il '''comportamento''' del processo di generazione di immagini.
*'''None''': Questa è l’opzione predefinita che significa che non viene eseguito alcuno script.
*'''Prompt matrix''': permette di testare e confrontare le modifiche che i prompt apportano alle immagini generate. Si possono strutturare i prompt in modo che ogni immagine nella matrice abbia un prompt che inizia con una frase comune.Per esempio, una immagine avrà il prompt “una ciotola di frutta, mele”, un’altra avrà “una ciotola di frutta, mele, pere” e così via.
*'''Prompts from file or textbox''': permette di caricare i prompt da un file o da un textbox. Si può creare un prompt a piacimento, creare un numero x di variazioni su di esso, copiare quel file di testo, e ripetere fino a quando non hai centinaia di mini file di testo.
*'''X/Y/Z plot''': permette di eseguire test sui propri prompt e impostazioni per vedere i risultati, senza impegnarsi in una generazione di immagini completa. Utilizzando un grafico, si possono confrontare i risultati per vedere quale combinazione di impostazioni funziona meglio.