Dall-e 3 (2023)
Dall-e 3 (2023) | |
---|---|
Data | 2024 |
Autori | Tsung-Han Wu, Long Lian, Joseph E. Gonzalez, Boyi Li, Trevor Darrell |
URL | https://www.semanticscholar.org/paper/42c4315b5d2e33d7d9a0afdf84e6a47ccd7a700e |
Topic | Generazione di immagini da testo, Modelli di diffusione, Apprendimento automatico |
Citazioni | 14 |
In questo paper viene introdotto Self-correcting LLM-controlled Diffusion (SLD), un framework che genera un'immagine da un prompt di testo, valuta la sua accuratezza rispetto al prompt e corregge automaticamente le inesattezze nell'immagine generata. Guidato da un controller LLM, SLD trasforma la generazione di testo in immagine in un processo iterativo a circuito chiuso, garantendo la correttezza dell'immagine risultante. SLD non solo non richiede addestramento, ma può anche essere integrato perfettamente con i modelli di diffusione dietro l'accesso API, come DALL-E 3, per migliorare ulteriormente le prestazioni dei modelli di diffusione all'avanguardia. I risultati sperimentali dimostrano che il nostro approccio può correggere la maggior parte delle generazioni errate, in particolare in aritmetica generativa, associazione di attributi e relazioni spaziali. Inoltre, semplicemente regolando le istruzioni all'LLM, SLD può eseguire attività di modifica delle immagini, colmando il divario tra la generazione di testo in immagine e le pipeline di modifica delle immagini.