Dall-e 3 (2023) - Cronologia

Mindmakerbot il 10:38, 17 ago 2024

2024-08-17T10:38:00Z

← Versione meno recente		Versione delle 10:38, 17 ago 2024
Riga 1:		Riga 1:
	~~In questo paper rilasciato da [[OpenAI]] si mostra che le capacità di un modello testo~~-~~immagine di seguire le istruzioni possono essere sostanzialmente migliorate addestrandolo su didascalie di immagini generate altamente descrittive~~. ~~I modelli testo-immagine esistenti faticano a seguire descrizioni di immagini dettagliate e spesso ignorano parole o confondono il significato delle istruzioni~~. ~~Ipotizziamo che questo problema derivi dalla bassa qualità delle didascalie presenti nel set~~ di ~~dati di addestramento. Affrontiamo questo problema generando didascalie sintetiche migliori per le~~ immagini ~~nel set di dati di addestramento. Successivamente addestriamo diversi modelli~~ testo~~-immagine e scopriamo che l'addestramento su queste didascalie sintetiche migliora in modo affidabile la capacità~~ di ~~seguire le istruzioni.~~		{{template pubblicazione
			\|data=2024
			\|autori=Tsung-Han Wu, Long Lian, Joseph E. Gonzalez, Boyi Li, Trevor Darrell
			\|URL=https://www.semanticscholar.org/paper/42c4315b5d2e33d7d9a0afdf84e6a47ccd7a700e
			\|topic=Generazione di immagini da testo, Modelli di diffusione, Apprendimento automatico
			\|citazioni=14
			}}

	~~=== Valutazione dei set~~ di ~~dati con didascalie generate ===~~		In questo paper viene introdotto Self-correcting LLM-controlled Diffusion (SLD), un framework che genera un'immagine da un prompt di testo, valuta la sua accuratezza rispetto al prompt e corregge automaticamente le inesattezze nell'immagine generata. Guidato da un controller LLM, SLD trasforma la generazione di testo in immagine in un processo iterativo a circuito chiuso, garantendo la correttezza dell'immagine risultante. SLD non solo non richiede addestramento, ma può anche essere integrato perfettamente con i modelli di diffusione dietro l'accesso API, come DALL-E 3, per migliorare ulteriormente le prestazioni dei modelli di diffusione all'avanguardia. I risultati sperimentali dimostrano che il nostro approccio può correggere la maggior parte delle generazioni errate, in particolare in aritmetica generativa, associazione di attributi e relazioni spaziali. Inoltre, semplicemente regolando le istruzioni all'LLM, SLD può eseguire attività di modifica delle immagini, colmando il divario tra la generazione di testo in immagine e le pipeline di modifica delle immagini.
	~~Con i nostri set~~ di ~~dati ricaptionati~~ a ~~disposizione~~, ~~valutiamo l'impatto~~ dell'addestramento di ~~modelli su testo sintetico. Vogliamo rispondere a due domande:~~
	* L'~~impatto sulle~~ prestazioni ~~dell~~'~~utilizzo di ogni tipo di didascalia sintetica.~~
	* Il rapporto ottimale di miscelazione tra didascalie sintetiche e reali.
	I risultati ~~mostrano~~ che ~~entrambi i modelli addestrati su didascalie sintetiche ottengono prestazioni leggermente migliori rispetto al modello base quando valutati su didascalie reali~~, e ~~prestazioni nettamente migliori quando valutati su didascalie sintetiche descrittive~~.

	~~=== DALL-E 3 ===~~
	~~Per testare~~ le ~~nostre didascalie sintetiche su larga scala~~, ~~addestriamo [[DALL-E 3]]~~, ~~un nuovo sistema di~~ generazione di ~~immagini da~~ testo ~~all'avanguardia. Per addestrare questo modello, utilizziamo una miscela del 95% di didascalie sintetiche~~ e ~~del 5%~~ di ~~didascalie reali~~.

	~~[[Category:Pubblicazione]]~~

Michela il 16:17, 14 mar 2024

2024-03-14T16:17:08Z

← Versione meno recente		Versione delle 16:17, 14 mar 2024
Riga 9:		Riga 9:
	=== DALL-E 3 ===		=== DALL-E 3 ===
	Per testare le nostre didascalie sintetiche su larga scala, addestriamo [[DALL-E 3]], un nuovo sistema di generazione di immagini da testo all'avanguardia. Per addestrare questo modello, utilizziamo una miscela del 95% di didascalie sintetiche e del 5% di didascalie reali.		Per testare le nostre didascalie sintetiche su larga scala, addestriamo [[DALL-E 3]], un nuovo sistema di generazione di immagini da testo all'avanguardia. Per addestrare questo modello, utilizziamo una miscela del 95% di didascalie sintetiche e del 5% di didascalie reali.

			[[Category:Pubblicazione]]

93.113.252.24: /* Valutazione dei set di dati con didascalie generate */

2024-02-29T08:48:58Z

Valutazione dei set di dati con didascalie generate

← Versione meno recente		Versione delle 08:48, 29 feb 2024
Riga 3:		Riga 3:
	=== Valutazione dei set di dati con didascalie generate ===		=== Valutazione dei set di dati con didascalie generate ===
	Con i nostri set di dati ricaptionati a disposizione, valutiamo l'impatto dell'addestramento di modelli su testo sintetico. Vogliamo rispondere a due domande:		Con i nostri set di dati ricaptionati a disposizione, valutiamo l'impatto dell'addestramento di modelli su testo sintetico. Vogliamo rispondere a due domande:
	1. L'impatto sulle prestazioni dell'utilizzo di ogni tipo di didascalia sintetica.		* L'impatto sulle prestazioni dell'utilizzo di ogni tipo di didascalia sintetica.
	2. Il rapporto ottimale di miscelazione tra didascalie sintetiche e reali.		* Il rapporto ottimale di miscelazione tra didascalie sintetiche e reali.
	I risultati mostrano che entrambi i modelli addestrati su didascalie sintetiche ottengono prestazioni leggermente migliori rispetto al modello base quando valutati su didascalie reali, e prestazioni nettamente migliori quando valutati su didascalie sintetiche descrittive.		I risultati mostrano che entrambi i modelli addestrati su didascalie sintetiche ottengono prestazioni leggermente migliori rispetto al modello base quando valutati su didascalie reali, e prestazioni nettamente migliori quando valutati su didascalie sintetiche descrittive.

	=== DALL-E 3 ===		=== DALL-E 3 ===
	Per testare le nostre didascalie sintetiche su larga scala, addestriamo [[DALL-E 3]], un nuovo sistema di generazione di immagini da testo all'avanguardia. Per addestrare questo modello, utilizziamo una miscela del 95% di didascalie sintetiche e del 5% di didascalie reali.		Per testare le nostre didascalie sintetiche su larga scala, addestriamo [[DALL-E 3]], un nuovo sistema di generazione di immagini da testo all'avanguardia. Per addestrare questo modello, utilizziamo una miscela del 95% di didascalie sintetiche e del 5% di didascalie reali.

93.113.252.24: Creata pagina con "In questo paper rilasciato da OpenAI si mostra che le capacità di un modello testo-immagine di seguire le istruzioni possono essere sostanzialmente migliorate addestrandolo su didascalie di immagini generate altamente descrittive. I modelli testo-immagine esistenti faticano a seguire descrizioni di immagini dettagliate e spesso ignorano parole o confondono il significato delle istruzioni. Ipotizziamo che questo problema derivi dalla bassa qualità delle didascalie p..."

2024-02-29T08:41:44Z

Creata pagina con "In questo paper rilasciato da OpenAI si mostra che le capacità di un modello testo-immagine di seguire le istruzioni possono essere sostanzialmente migliorate addestrandolo su didascalie di immagini generate altamente descrittive. I modelli testo-immagine esistenti faticano a seguire descrizioni di immagini dettagliate e spesso ignorano parole o confondono il significato delle istruzioni. Ipotizziamo che questo problema derivi dalla bassa qualità delle didascalie p..."

Nuova pagina

In questo paper rilasciato da [[OpenAI]] si mostra che le capacità di un modello testo-immagine di seguire le istruzioni possono essere sostanzialmente migliorate addestrandolo su didascalie di immagini generate altamente descrittive. I modelli testo-immagine esistenti faticano a seguire descrizioni di immagini dettagliate e spesso ignorano parole o confondono il significato delle istruzioni. Ipotizziamo che questo problema derivi dalla bassa qualità delle didascalie presenti nel set di dati di addestramento. Affrontiamo questo problema generando didascalie sintetiche migliori per le immagini nel set di dati di addestramento. Successivamente addestriamo diversi modelli testo-immagine e scopriamo che l'addestramento su queste didascalie sintetiche migliora in modo affidabile la capacità di seguire le istruzioni.

=== Valutazione dei set di dati con didascalie generate ===
Con i nostri set di dati ricaptionati a disposizione, valutiamo l'impatto dell'addestramento di modelli su testo sintetico. Vogliamo rispondere a due domande:
1. L'impatto sulle prestazioni dell'utilizzo di ogni tipo di didascalia sintetica.
2. Il rapporto ottimale di miscelazione tra didascalie sintetiche e reali.
I risultati mostrano che entrambi i modelli addestrati su didascalie sintetiche ottengono prestazioni leggermente migliori rispetto al modello base quando valutati su didascalie reali, e prestazioni nettamente migliori quando valutati su didascalie sintetiche descrittive.

=== DALL-E 3 ===
Per testare le nostre didascalie sintetiche su larga scala, addestriamo [[DALL-E 3]], un nuovo sistema di generazione di immagini da testo all'avanguardia. Per addestrare questo modello, utilizziamo una miscela del 95% di didascalie sintetiche e del 5% di didascalie reali.