Dall-e 3 (2023): differenze tra le versioni

Da Wiki AI.
Nessun oggetto della modifica
Nessun oggetto della modifica
 
Riga 1: Riga 1:
In questo paper rilasciato da [[OpenAI]] si mostra che le capacità di un modello testo-immagine di seguire le istruzioni possono essere sostanzialmente migliorate addestrandolo su didascalie di immagini generate altamente descrittive. I modelli testo-immagine esistenti faticano a seguire descrizioni di immagini dettagliate e spesso ignorano parole o confondono il significato delle istruzioni. Ipotizziamo che questo problema derivi dalla bassa qualità delle didascalie presenti nel set di dati di addestramento. Affrontiamo questo problema generando didascalie sintetiche migliori per le immagini nel set di dati di addestramento. Successivamente addestriamo diversi modelli testo-immagine e scopriamo che l'addestramento su queste didascalie sintetiche migliora in modo affidabile la capacità di seguire le istruzioni.
{{template pubblicazione
|data=2024
|autori=Tsung-Han Wu, Long Lian, Joseph E. Gonzalez, Boyi Li, Trevor Darrell
|URL=https://www.semanticscholar.org/paper/42c4315b5d2e33d7d9a0afdf84e6a47ccd7a700e
|topic=Generazione di immagini da testo, Modelli di diffusione, Apprendimento automatico
|citazioni=14
}}


=== Valutazione dei set di dati con didascalie generate ===
In questo paper viene introdotto Self-correcting LLM-controlled Diffusion (SLD), un framework che genera un'immagine da un prompt di testo, valuta la sua accuratezza rispetto al prompt e corregge automaticamente le inesattezze nell'immagine generata. Guidato da un controller LLM, SLD trasforma la generazione di testo in immagine in un processo iterativo a circuito chiuso, garantendo la correttezza dell'immagine risultante. SLD non solo non richiede addestramento, ma può anche essere integrato perfettamente con i modelli di diffusione dietro l'accesso API, come DALL-E 3, per migliorare ulteriormente le prestazioni dei modelli di diffusione all'avanguardia. I risultati sperimentali dimostrano che il nostro approccio può correggere la maggior parte delle generazioni errate, in particolare in aritmetica generativa, associazione di attributi e relazioni spaziali. Inoltre, semplicemente regolando le istruzioni all'LLM, SLD può eseguire attività di modifica delle immagini, colmando il divario tra la generazione di testo in immagine e le pipeline di modifica delle immagini.
Con i nostri set di dati ricaptionati a disposizione, valutiamo l'impatto dell'addestramento di modelli su testo sintetico. Vogliamo rispondere a due domande:
* L'impatto sulle prestazioni dell'utilizzo di ogni tipo di didascalia sintetica.
* Il rapporto ottimale di miscelazione tra didascalie sintetiche e reali.
I risultati mostrano che entrambi i modelli addestrati su didascalie sintetiche ottengono prestazioni leggermente migliori rispetto al modello base quando valutati su didascalie reali, e prestazioni nettamente migliori quando valutati su didascalie sintetiche descrittive.
 
=== DALL-E 3 ===
Per testare le nostre didascalie sintetiche su larga scala, addestriamo [[DALL-E 3]], un nuovo sistema di generazione di immagini da testo all'avanguardia. Per addestrare questo modello, utilizziamo una miscela del 95% di didascalie sintetiche e del 5% di didascalie reali.
 
[[Category:Pubblicazione]]

Versione attuale delle 10:38, 17 ago 2024

Dall-e 3 (2023)
Data 2024
Autori Tsung-Han Wu, Long Lian, Joseph E. Gonzalez, Boyi Li, Trevor Darrell
URL https://www.semanticscholar.org/paper/42c4315b5d2e33d7d9a0afdf84e6a47ccd7a700e
Topic Generazione di immagini da testo, Modelli di diffusione, Apprendimento automatico
Citazioni 14


In questo paper viene introdotto Self-correcting LLM-controlled Diffusion (SLD), un framework che genera un'immagine da un prompt di testo, valuta la sua accuratezza rispetto al prompt e corregge automaticamente le inesattezze nell'immagine generata. Guidato da un controller LLM, SLD trasforma la generazione di testo in immagine in un processo iterativo a circuito chiuso, garantendo la correttezza dell'immagine risultante. SLD non solo non richiede addestramento, ma può anche essere integrato perfettamente con i modelli di diffusione dietro l'accesso API, come DALL-E 3, per migliorare ulteriormente le prestazioni dei modelli di diffusione all'avanguardia. I risultati sperimentali dimostrano che il nostro approccio può correggere la maggior parte delle generazioni errate, in particolare in aritmetica generativa, associazione di attributi e relazioni spaziali. Inoltre, semplicemente regolando le istruzioni all'LLM, SLD può eseguire attività di modifica delle immagini, colmando il divario tra la generazione di testo in immagine e le pipeline di modifica delle immagini.