<?xml version="1.0"?>
<feed xmlns="http://www.w3.org/2005/Atom" xml:lang="it">
	<id>https://wiki.mindmaker.it/index.php?action=history&amp;feed=atom&amp;title=Dall-e_3_%282023%29</id>
	<title>Dall-e 3 (2023) - Cronologia</title>
	<link rel="self" type="application/atom+xml" href="https://wiki.mindmaker.it/index.php?action=history&amp;feed=atom&amp;title=Dall-e_3_%282023%29"/>
	<link rel="alternate" type="text/html" href="https://wiki.mindmaker.it/index.php?title=Dall-e_3_(2023)&amp;action=history"/>
	<updated>2026-06-16T08:59:01Z</updated>
	<subtitle>Cronologia della pagina su questo sito</subtitle>
	<generator>MediaWiki 1.41.0</generator>
	<entry>
		<id>https://wiki.mindmaker.it/index.php?title=Dall-e_3_(2023)&amp;diff=2508&amp;oldid=prev</id>
		<title>Mindmakerbot il 10:38, 17 ago 2024</title>
		<link rel="alternate" type="text/html" href="https://wiki.mindmaker.it/index.php?title=Dall-e_3_(2023)&amp;diff=2508&amp;oldid=prev"/>
		<updated>2024-08-17T10:38:00Z</updated>

		<summary type="html">&lt;p&gt;&lt;/p&gt;
&lt;table style=&quot;background-color: #fff; color: #202122;&quot; data-mw=&quot;interface&quot;&gt;
				&lt;col class=&quot;diff-marker&quot; /&gt;
				&lt;col class=&quot;diff-content&quot; /&gt;
				&lt;col class=&quot;diff-marker&quot; /&gt;
				&lt;col class=&quot;diff-content&quot; /&gt;
				&lt;tr class=&quot;diff-title&quot; lang=&quot;it&quot;&gt;
				&lt;td colspan=&quot;2&quot; style=&quot;background-color: #fff; color: #202122; text-align: center;&quot;&gt;← Versione meno recente&lt;/td&gt;
				&lt;td colspan=&quot;2&quot; style=&quot;background-color: #fff; color: #202122; text-align: center;&quot;&gt;Versione delle 10:38, 17 ago 2024&lt;/td&gt;
				&lt;/tr&gt;&lt;tr&gt;&lt;td colspan=&quot;2&quot; class=&quot;diff-lineno&quot; id=&quot;mw-diff-left-l1&quot;&gt;Riga 1:&lt;/td&gt;
&lt;td colspan=&quot;2&quot; class=&quot;diff-lineno&quot;&gt;Riga 1:&lt;/td&gt;&lt;/tr&gt;
&lt;tr&gt;&lt;td class=&quot;diff-marker&quot; data-marker=&quot;−&quot;&gt;&lt;/td&gt;&lt;td style=&quot;color: #202122; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #ffe49c; vertical-align: top; white-space: pre-wrap;&quot;&gt;&lt;div&gt;&lt;del style=&quot;font-weight: bold; text-decoration: none;&quot;&gt;In questo paper rilasciato da [[OpenAI]] si mostra che le capacità di un modello testo&lt;/del&gt;-&lt;del style=&quot;font-weight: bold; text-decoration: none;&quot;&gt;immagine di seguire le istruzioni possono essere sostanzialmente migliorate addestrandolo su didascalie di immagini generate altamente descrittive&lt;/del&gt;. &lt;del style=&quot;font-weight: bold; text-decoration: none;&quot;&gt;I modelli testo-immagine esistenti faticano a seguire descrizioni di immagini dettagliate e spesso ignorano parole o confondono il significato delle istruzioni&lt;/del&gt;. &lt;del style=&quot;font-weight: bold; text-decoration: none;&quot;&gt;Ipotizziamo che questo problema derivi dalla bassa qualità delle didascalie presenti nel set &lt;/del&gt;di &lt;del style=&quot;font-weight: bold; text-decoration: none;&quot;&gt;dati di addestramento. Affrontiamo questo problema generando didascalie sintetiche migliori per le &lt;/del&gt;immagini &lt;del style=&quot;font-weight: bold; text-decoration: none;&quot;&gt;nel set di dati di addestramento. Successivamente addestriamo diversi modelli &lt;/del&gt;testo&lt;del style=&quot;font-weight: bold; text-decoration: none;&quot;&gt;-immagine e scopriamo che l&#039;addestramento su queste didascalie sintetiche migliora in modo affidabile la capacità &lt;/del&gt;di &lt;del style=&quot;font-weight: bold; text-decoration: none;&quot;&gt;seguire le istruzioni.&lt;/del&gt;&lt;/div&gt;&lt;/td&gt;&lt;td class=&quot;diff-marker&quot; data-marker=&quot;+&quot;&gt;&lt;/td&gt;&lt;td style=&quot;color: #202122; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #a3d3ff; vertical-align: top; white-space: pre-wrap;&quot;&gt;&lt;div&gt;&lt;ins style=&quot;font-weight: bold; text-decoration: none;&quot;&gt;{{template pubblicazione&lt;/ins&gt;&lt;/div&gt;&lt;/td&gt;&lt;/tr&gt;
&lt;tr&gt;&lt;td colspan=&quot;2&quot; class=&quot;diff-side-deleted&quot;&gt;&lt;/td&gt;&lt;td class=&quot;diff-marker&quot; data-marker=&quot;+&quot;&gt;&lt;/td&gt;&lt;td style=&quot;color: #202122; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #a3d3ff; vertical-align: top; white-space: pre-wrap;&quot;&gt;&lt;div&gt;&lt;ins style=&quot;font-weight: bold; text-decoration: none;&quot;&gt;|data=2024&lt;/ins&gt;&lt;/div&gt;&lt;/td&gt;&lt;/tr&gt;
&lt;tr&gt;&lt;td colspan=&quot;2&quot; class=&quot;diff-side-deleted&quot;&gt;&lt;/td&gt;&lt;td class=&quot;diff-marker&quot; data-marker=&quot;+&quot;&gt;&lt;/td&gt;&lt;td style=&quot;color: #202122; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #a3d3ff; vertical-align: top; white-space: pre-wrap;&quot;&gt;&lt;div&gt;&lt;ins style=&quot;font-weight: bold; text-decoration: none;&quot;&gt;|autori=Tsung&lt;/ins&gt;-&lt;ins style=&quot;font-weight: bold; text-decoration: none;&quot;&gt;Han Wu, Long Lian, Joseph E. Gonzalez, Boyi Li, Trevor Darrell&lt;/ins&gt;&lt;/div&gt;&lt;/td&gt;&lt;/tr&gt;
&lt;tr&gt;&lt;td colspan=&quot;2&quot; class=&quot;diff-side-deleted&quot;&gt;&lt;/td&gt;&lt;td class=&quot;diff-marker&quot; data-marker=&quot;+&quot;&gt;&lt;/td&gt;&lt;td style=&quot;color: #202122; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #a3d3ff; vertical-align: top; white-space: pre-wrap;&quot;&gt;&lt;div&gt;&lt;ins style=&quot;font-weight: bold; text-decoration: none;&quot;&gt;|URL=https://www&lt;/ins&gt;.&lt;ins style=&quot;font-weight: bold; text-decoration: none;&quot;&gt;semanticscholar&lt;/ins&gt;.&lt;ins style=&quot;font-weight: bold; text-decoration: none;&quot;&gt;org/paper/42c4315b5d2e33d7d9a0afdf84e6a47ccd7a700e&lt;/ins&gt;&lt;/div&gt;&lt;/td&gt;&lt;/tr&gt;
&lt;tr&gt;&lt;td colspan=&quot;2&quot; class=&quot;diff-side-deleted&quot;&gt;&lt;/td&gt;&lt;td class=&quot;diff-marker&quot; data-marker=&quot;+&quot;&gt;&lt;/td&gt;&lt;td style=&quot;color: #202122; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #a3d3ff; vertical-align: top; white-space: pre-wrap;&quot;&gt;&lt;div&gt;&lt;ins style=&quot;font-weight: bold; text-decoration: none;&quot;&gt;|topic=Generazione &lt;/ins&gt;di immagini &lt;ins style=&quot;font-weight: bold; text-decoration: none;&quot;&gt;da &lt;/ins&gt;testo&lt;ins style=&quot;font-weight: bold; text-decoration: none;&quot;&gt;, Modelli &lt;/ins&gt;di &lt;ins style=&quot;font-weight: bold; text-decoration: none;&quot;&gt;diffusione, Apprendimento automatico&lt;/ins&gt;&lt;/div&gt;&lt;/td&gt;&lt;/tr&gt;
&lt;tr&gt;&lt;td colspan=&quot;2&quot; class=&quot;diff-side-deleted&quot;&gt;&lt;/td&gt;&lt;td class=&quot;diff-marker&quot; data-marker=&quot;+&quot;&gt;&lt;/td&gt;&lt;td style=&quot;color: #202122; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #a3d3ff; vertical-align: top; white-space: pre-wrap;&quot;&gt;&lt;div&gt;&lt;ins style=&quot;font-weight: bold; text-decoration: none;&quot;&gt;|citazioni=14&lt;/ins&gt;&lt;/div&gt;&lt;/td&gt;&lt;/tr&gt;
&lt;tr&gt;&lt;td colspan=&quot;2&quot; class=&quot;diff-side-deleted&quot;&gt;&lt;/td&gt;&lt;td class=&quot;diff-marker&quot; data-marker=&quot;+&quot;&gt;&lt;/td&gt;&lt;td style=&quot;color: #202122; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #a3d3ff; vertical-align: top; white-space: pre-wrap;&quot;&gt;&lt;div&gt;&lt;ins style=&quot;font-weight: bold; text-decoration: none;&quot;&gt;}}&lt;/ins&gt;&lt;/div&gt;&lt;/td&gt;&lt;/tr&gt;
&lt;tr&gt;&lt;td class=&quot;diff-marker&quot;&gt;&lt;/td&gt;&lt;td style=&quot;background-color: #f8f9fa; color: #202122; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #eaecf0; vertical-align: top; white-space: pre-wrap;&quot;&gt;&lt;br&gt;&lt;/td&gt;&lt;td class=&quot;diff-marker&quot;&gt;&lt;/td&gt;&lt;td style=&quot;background-color: #f8f9fa; color: #202122; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #eaecf0; vertical-align: top; white-space: pre-wrap;&quot;&gt;&lt;br&gt;&lt;/td&gt;&lt;/tr&gt;
&lt;tr&gt;&lt;td class=&quot;diff-marker&quot; data-marker=&quot;−&quot;&gt;&lt;/td&gt;&lt;td style=&quot;color: #202122; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #ffe49c; vertical-align: top; white-space: pre-wrap;&quot;&gt;&lt;div&gt;&lt;del style=&quot;font-weight: bold; text-decoration: none;&quot;&gt;=== Valutazione dei set &lt;/del&gt;di &lt;del style=&quot;font-weight: bold; text-decoration: none;&quot;&gt;dati con didascalie generate ===&lt;/del&gt;&lt;/div&gt;&lt;/td&gt;&lt;td class=&quot;diff-marker&quot; data-marker=&quot;+&quot;&gt;&lt;/td&gt;&lt;td style=&quot;color: #202122; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #a3d3ff; vertical-align: top; white-space: pre-wrap;&quot;&gt;&lt;div&gt;&lt;ins style=&quot;font-weight: bold; text-decoration: none;&quot;&gt;In questo paper viene introdotto Self-correcting LLM-controlled Diffusion (SLD), un framework che genera un&#039;immagine da un prompt &lt;/ins&gt;di &lt;ins style=&quot;font-weight: bold; text-decoration: none;&quot;&gt;testo, valuta la sua accuratezza rispetto al prompt e corregge automaticamente le inesattezze nell&#039;immagine generata. Guidato da un controller LLM, SLD trasforma la generazione &lt;/ins&gt;di &lt;ins style=&quot;font-weight: bold; text-decoration: none;&quot;&gt;testo in immagine in un processo iterativo &lt;/ins&gt;a &lt;ins style=&quot;font-weight: bold; text-decoration: none;&quot;&gt;circuito chiuso&lt;/ins&gt;, &lt;ins style=&quot;font-weight: bold; text-decoration: none;&quot;&gt;garantendo la correttezza &lt;/ins&gt;dell&#039;&lt;ins style=&quot;font-weight: bold; text-decoration: none;&quot;&gt;immagine risultante. SLD non solo non richiede &lt;/ins&gt;addestramento&lt;ins style=&quot;font-weight: bold; text-decoration: none;&quot;&gt;, ma può anche essere integrato perfettamente con i modelli &lt;/ins&gt;di &lt;ins style=&quot;font-weight: bold; text-decoration: none;&quot;&gt;diffusione dietro l&lt;/ins&gt;&#039;&lt;ins style=&quot;font-weight: bold; text-decoration: none;&quot;&gt;accesso API, come DALL-E 3, per migliorare ulteriormente le &lt;/ins&gt;prestazioni &lt;ins style=&quot;font-weight: bold; text-decoration: none;&quot;&gt;dei modelli di diffusione all&lt;/ins&gt;&#039;&lt;ins style=&quot;font-weight: bold; text-decoration: none;&quot;&gt;avanguardia&lt;/ins&gt;. I risultati &lt;ins style=&quot;font-weight: bold; text-decoration: none;&quot;&gt;sperimentali dimostrano &lt;/ins&gt;che &lt;ins style=&quot;font-weight: bold; text-decoration: none;&quot;&gt;il nostro approccio può correggere la maggior parte delle generazioni errate, in particolare in aritmetica generativa&lt;/ins&gt;, &lt;ins style=&quot;font-weight: bold; text-decoration: none;&quot;&gt;associazione di attributi &lt;/ins&gt;e &lt;ins style=&quot;font-weight: bold; text-decoration: none;&quot;&gt;relazioni spaziali&lt;/ins&gt;. &lt;ins style=&quot;font-weight: bold; text-decoration: none;&quot;&gt;Inoltre, semplicemente regolando &lt;/ins&gt;le &lt;ins style=&quot;font-weight: bold; text-decoration: none;&quot;&gt;istruzioni all&#039;LLM&lt;/ins&gt;, &lt;ins style=&quot;font-weight: bold; text-decoration: none;&quot;&gt;SLD può eseguire attività di modifica delle immagini&lt;/ins&gt;, &lt;ins style=&quot;font-weight: bold; text-decoration: none;&quot;&gt;colmando il divario tra la &lt;/ins&gt;generazione di testo &lt;ins style=&quot;font-weight: bold; text-decoration: none;&quot;&gt;in immagine &lt;/ins&gt;e &lt;ins style=&quot;font-weight: bold; text-decoration: none;&quot;&gt;le pipeline &lt;/ins&gt;di &lt;ins style=&quot;font-weight: bold; text-decoration: none;&quot;&gt;modifica delle immagini&lt;/ins&gt;.&lt;/div&gt;&lt;/td&gt;&lt;/tr&gt;
&lt;tr&gt;&lt;td class=&quot;diff-marker&quot; data-marker=&quot;−&quot;&gt;&lt;/td&gt;&lt;td style=&quot;color: #202122; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #ffe49c; vertical-align: top; white-space: pre-wrap;&quot;&gt;&lt;div&gt;&lt;del style=&quot;font-weight: bold; text-decoration: none;&quot;&gt;Con i nostri set &lt;/del&gt;di &lt;del style=&quot;font-weight: bold; text-decoration: none;&quot;&gt;dati ricaptionati &lt;/del&gt;a &lt;del style=&quot;font-weight: bold; text-decoration: none;&quot;&gt;disposizione&lt;/del&gt;, &lt;del style=&quot;font-weight: bold; text-decoration: none;&quot;&gt;valutiamo l&#039;impatto &lt;/del&gt;dell&#039;addestramento di &lt;del style=&quot;font-weight: bold; text-decoration: none;&quot;&gt;modelli su testo sintetico. Vogliamo rispondere a due domande:&lt;/del&gt;&lt;/div&gt;&lt;/td&gt;&lt;td colspan=&quot;2&quot; class=&quot;diff-side-added&quot;&gt;&lt;/td&gt;&lt;/tr&gt;
&lt;tr&gt;&lt;td class=&quot;diff-marker&quot; data-marker=&quot;−&quot;&gt;&lt;/td&gt;&lt;td style=&quot;color: #202122; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #ffe49c; vertical-align: top; white-space: pre-wrap;&quot;&gt;&lt;div&gt;&lt;del style=&quot;font-weight: bold; text-decoration: none;&quot;&gt;* L&lt;/del&gt;&#039;&lt;del style=&quot;font-weight: bold; text-decoration: none;&quot;&gt;impatto sulle &lt;/del&gt;prestazioni &lt;del style=&quot;font-weight: bold; text-decoration: none;&quot;&gt;dell&lt;/del&gt;&#039;&lt;del style=&quot;font-weight: bold; text-decoration: none;&quot;&gt;utilizzo di ogni tipo di didascalia sintetica.&lt;/del&gt;&lt;/div&gt;&lt;/td&gt;&lt;td colspan=&quot;2&quot; class=&quot;diff-side-added&quot;&gt;&lt;/td&gt;&lt;/tr&gt;
&lt;tr&gt;&lt;td class=&quot;diff-marker&quot; data-marker=&quot;−&quot;&gt;&lt;/td&gt;&lt;td style=&quot;color: #202122; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #ffe49c; vertical-align: top; white-space: pre-wrap;&quot;&gt;&lt;div&gt;&lt;del style=&quot;font-weight: bold; text-decoration: none;&quot;&gt;* Il rapporto ottimale di miscelazione tra didascalie sintetiche e reali&lt;/del&gt;.&lt;/div&gt;&lt;/td&gt;&lt;td colspan=&quot;2&quot; class=&quot;diff-side-added&quot;&gt;&lt;/td&gt;&lt;/tr&gt;
&lt;tr&gt;&lt;td class=&quot;diff-marker&quot; data-marker=&quot;−&quot;&gt;&lt;/td&gt;&lt;td style=&quot;color: #202122; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #ffe49c; vertical-align: top; white-space: pre-wrap;&quot;&gt;&lt;div&gt;I risultati &lt;del style=&quot;font-weight: bold; text-decoration: none;&quot;&gt;mostrano &lt;/del&gt;che &lt;del style=&quot;font-weight: bold; text-decoration: none;&quot;&gt;entrambi i modelli addestrati su didascalie sintetiche ottengono prestazioni leggermente migliori rispetto al modello base quando valutati su didascalie reali&lt;/del&gt;, e &lt;del style=&quot;font-weight: bold; text-decoration: none;&quot;&gt;prestazioni nettamente migliori quando valutati su didascalie sintetiche descrittive&lt;/del&gt;.&lt;/div&gt;&lt;/td&gt;&lt;td colspan=&quot;2&quot; class=&quot;diff-side-added&quot;&gt;&lt;/td&gt;&lt;/tr&gt;
&lt;tr&gt;&lt;td class=&quot;diff-marker&quot; data-marker=&quot;−&quot;&gt;&lt;/td&gt;&lt;td style=&quot;color: #202122; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #ffe49c; vertical-align: top; white-space: pre-wrap;&quot;&gt;&lt;div&gt; &lt;/div&gt;&lt;/td&gt;&lt;td colspan=&quot;2&quot; class=&quot;diff-side-added&quot;&gt;&lt;/td&gt;&lt;/tr&gt;
&lt;tr&gt;&lt;td class=&quot;diff-marker&quot; data-marker=&quot;−&quot;&gt;&lt;/td&gt;&lt;td style=&quot;color: #202122; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #ffe49c; vertical-align: top; white-space: pre-wrap;&quot;&gt;&lt;div&gt;&lt;del style=&quot;font-weight: bold; text-decoration: none;&quot;&gt;=== DALL-E 3 ===&lt;/del&gt;&lt;/div&gt;&lt;/td&gt;&lt;td colspan=&quot;2&quot; class=&quot;diff-side-added&quot;&gt;&lt;/td&gt;&lt;/tr&gt;
&lt;tr&gt;&lt;td class=&quot;diff-marker&quot; data-marker=&quot;−&quot;&gt;&lt;/td&gt;&lt;td style=&quot;color: #202122; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #ffe49c; vertical-align: top; white-space: pre-wrap;&quot;&gt;&lt;div&gt;&lt;del style=&quot;font-weight: bold; text-decoration: none;&quot;&gt;Per testare &lt;/del&gt;le &lt;del style=&quot;font-weight: bold; text-decoration: none;&quot;&gt;nostre didascalie sintetiche su larga scala&lt;/del&gt;, &lt;del style=&quot;font-weight: bold; text-decoration: none;&quot;&gt;addestriamo [[DALL-E 3]]&lt;/del&gt;, &lt;del style=&quot;font-weight: bold; text-decoration: none;&quot;&gt;un nuovo sistema di &lt;/del&gt;generazione di &lt;del style=&quot;font-weight: bold; text-decoration: none;&quot;&gt;immagini da &lt;/del&gt;testo &lt;del style=&quot;font-weight: bold; text-decoration: none;&quot;&gt;all&#039;avanguardia. Per addestrare questo modello, utilizziamo una miscela del 95% di didascalie sintetiche &lt;/del&gt;e &lt;del style=&quot;font-weight: bold; text-decoration: none;&quot;&gt;del 5% &lt;/del&gt;di &lt;del style=&quot;font-weight: bold; text-decoration: none;&quot;&gt;didascalie reali&lt;/del&gt;.&lt;/div&gt;&lt;/td&gt;&lt;td colspan=&quot;2&quot; class=&quot;diff-side-added&quot;&gt;&lt;/td&gt;&lt;/tr&gt;
&lt;tr&gt;&lt;td class=&quot;diff-marker&quot; data-marker=&quot;−&quot;&gt;&lt;/td&gt;&lt;td style=&quot;color: #202122; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #ffe49c; vertical-align: top; white-space: pre-wrap;&quot;&gt;&lt;div&gt; &lt;/div&gt;&lt;/td&gt;&lt;td colspan=&quot;2&quot; class=&quot;diff-side-added&quot;&gt;&lt;/td&gt;&lt;/tr&gt;
&lt;tr&gt;&lt;td class=&quot;diff-marker&quot; data-marker=&quot;−&quot;&gt;&lt;/td&gt;&lt;td style=&quot;color: #202122; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #ffe49c; vertical-align: top; white-space: pre-wrap;&quot;&gt;&lt;div&gt;&lt;del style=&quot;font-weight: bold; text-decoration: none;&quot;&gt;[[Category:Pubblicazione]]&lt;/del&gt;&lt;/div&gt;&lt;/td&gt;&lt;td colspan=&quot;2&quot; class=&quot;diff-side-added&quot;&gt;&lt;/td&gt;&lt;/tr&gt;
&lt;/table&gt;</summary>
		<author><name>Mindmakerbot</name></author>
	</entry>
	<entry>
		<id>https://wiki.mindmaker.it/index.php?title=Dall-e_3_(2023)&amp;diff=1176&amp;oldid=prev</id>
		<title>Michela il 16:17, 14 mar 2024</title>
		<link rel="alternate" type="text/html" href="https://wiki.mindmaker.it/index.php?title=Dall-e_3_(2023)&amp;diff=1176&amp;oldid=prev"/>
		<updated>2024-03-14T16:17:08Z</updated>

		<summary type="html">&lt;p&gt;&lt;/p&gt;
&lt;table style=&quot;background-color: #fff; color: #202122;&quot; data-mw=&quot;interface&quot;&gt;
				&lt;col class=&quot;diff-marker&quot; /&gt;
				&lt;col class=&quot;diff-content&quot; /&gt;
				&lt;col class=&quot;diff-marker&quot; /&gt;
				&lt;col class=&quot;diff-content&quot; /&gt;
				&lt;tr class=&quot;diff-title&quot; lang=&quot;it&quot;&gt;
				&lt;td colspan=&quot;2&quot; style=&quot;background-color: #fff; color: #202122; text-align: center;&quot;&gt;← Versione meno recente&lt;/td&gt;
				&lt;td colspan=&quot;2&quot; style=&quot;background-color: #fff; color: #202122; text-align: center;&quot;&gt;Versione delle 16:17, 14 mar 2024&lt;/td&gt;
				&lt;/tr&gt;&lt;tr&gt;&lt;td colspan=&quot;2&quot; class=&quot;diff-lineno&quot; id=&quot;mw-diff-left-l9&quot;&gt;Riga 9:&lt;/td&gt;
&lt;td colspan=&quot;2&quot; class=&quot;diff-lineno&quot;&gt;Riga 9:&lt;/td&gt;&lt;/tr&gt;
&lt;tr&gt;&lt;td class=&quot;diff-marker&quot;&gt;&lt;/td&gt;&lt;td style=&quot;background-color: #f8f9fa; color: #202122; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #eaecf0; vertical-align: top; white-space: pre-wrap;&quot;&gt;&lt;div&gt;=== DALL-E 3 ===&lt;/div&gt;&lt;/td&gt;&lt;td class=&quot;diff-marker&quot;&gt;&lt;/td&gt;&lt;td style=&quot;background-color: #f8f9fa; color: #202122; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #eaecf0; vertical-align: top; white-space: pre-wrap;&quot;&gt;&lt;div&gt;=== DALL-E 3 ===&lt;/div&gt;&lt;/td&gt;&lt;/tr&gt;
&lt;tr&gt;&lt;td class=&quot;diff-marker&quot;&gt;&lt;/td&gt;&lt;td style=&quot;background-color: #f8f9fa; color: #202122; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #eaecf0; vertical-align: top; white-space: pre-wrap;&quot;&gt;&lt;div&gt;Per testare le nostre didascalie sintetiche su larga scala, addestriamo [[DALL-E 3]], un nuovo sistema di generazione di immagini da testo all&amp;#039;avanguardia. Per addestrare questo modello, utilizziamo una miscela del 95% di didascalie sintetiche e del 5% di didascalie reali.&lt;/div&gt;&lt;/td&gt;&lt;td class=&quot;diff-marker&quot;&gt;&lt;/td&gt;&lt;td style=&quot;background-color: #f8f9fa; color: #202122; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #eaecf0; vertical-align: top; white-space: pre-wrap;&quot;&gt;&lt;div&gt;Per testare le nostre didascalie sintetiche su larga scala, addestriamo [[DALL-E 3]], un nuovo sistema di generazione di immagini da testo all&amp;#039;avanguardia. Per addestrare questo modello, utilizziamo una miscela del 95% di didascalie sintetiche e del 5% di didascalie reali.&lt;/div&gt;&lt;/td&gt;&lt;/tr&gt;
&lt;tr&gt;&lt;td colspan=&quot;2&quot; class=&quot;diff-side-deleted&quot;&gt;&lt;/td&gt;&lt;td class=&quot;diff-marker&quot; data-marker=&quot;+&quot;&gt;&lt;/td&gt;&lt;td style=&quot;color: #202122; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #a3d3ff; vertical-align: top; white-space: pre-wrap;&quot;&gt;&lt;div&gt;&lt;ins style=&quot;font-weight: bold; text-decoration: none;&quot;&gt;&lt;/ins&gt;&lt;/div&gt;&lt;/td&gt;&lt;/tr&gt;
&lt;tr&gt;&lt;td colspan=&quot;2&quot; class=&quot;diff-side-deleted&quot;&gt;&lt;/td&gt;&lt;td class=&quot;diff-marker&quot; data-marker=&quot;+&quot;&gt;&lt;/td&gt;&lt;td style=&quot;color: #202122; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #a3d3ff; vertical-align: top; white-space: pre-wrap;&quot;&gt;&lt;div&gt;&lt;ins style=&quot;font-weight: bold; text-decoration: none;&quot;&gt;[[Category:Pubblicazione]]&lt;/ins&gt;&lt;/div&gt;&lt;/td&gt;&lt;/tr&gt;
&lt;/table&gt;</summary>
		<author><name>Michela</name></author>
	</entry>
	<entry>
		<id>https://wiki.mindmaker.it/index.php?title=Dall-e_3_(2023)&amp;diff=221&amp;oldid=prev</id>
		<title>93.113.252.24: /* Valutazione dei set di dati con didascalie generate */</title>
		<link rel="alternate" type="text/html" href="https://wiki.mindmaker.it/index.php?title=Dall-e_3_(2023)&amp;diff=221&amp;oldid=prev"/>
		<updated>2024-02-29T08:48:58Z</updated>

		<summary type="html">&lt;p&gt;&lt;span dir=&quot;auto&quot;&gt;&lt;span class=&quot;autocomment&quot;&gt;Valutazione dei set di dati con didascalie generate&lt;/span&gt;&lt;/span&gt;&lt;/p&gt;
&lt;table style=&quot;background-color: #fff; color: #202122;&quot; data-mw=&quot;interface&quot;&gt;
				&lt;col class=&quot;diff-marker&quot; /&gt;
				&lt;col class=&quot;diff-content&quot; /&gt;
				&lt;col class=&quot;diff-marker&quot; /&gt;
				&lt;col class=&quot;diff-content&quot; /&gt;
				&lt;tr class=&quot;diff-title&quot; lang=&quot;it&quot;&gt;
				&lt;td colspan=&quot;2&quot; style=&quot;background-color: #fff; color: #202122; text-align: center;&quot;&gt;← Versione meno recente&lt;/td&gt;
				&lt;td colspan=&quot;2&quot; style=&quot;background-color: #fff; color: #202122; text-align: center;&quot;&gt;Versione delle 08:48, 29 feb 2024&lt;/td&gt;
				&lt;/tr&gt;&lt;tr&gt;&lt;td colspan=&quot;2&quot; class=&quot;diff-lineno&quot; id=&quot;mw-diff-left-l3&quot;&gt;Riga 3:&lt;/td&gt;
&lt;td colspan=&quot;2&quot; class=&quot;diff-lineno&quot;&gt;Riga 3:&lt;/td&gt;&lt;/tr&gt;
&lt;tr&gt;&lt;td class=&quot;diff-marker&quot;&gt;&lt;/td&gt;&lt;td style=&quot;background-color: #f8f9fa; color: #202122; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #eaecf0; vertical-align: top; white-space: pre-wrap;&quot;&gt;&lt;div&gt;=== Valutazione dei set di dati con didascalie generate ===&lt;/div&gt;&lt;/td&gt;&lt;td class=&quot;diff-marker&quot;&gt;&lt;/td&gt;&lt;td style=&quot;background-color: #f8f9fa; color: #202122; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #eaecf0; vertical-align: top; white-space: pre-wrap;&quot;&gt;&lt;div&gt;=== Valutazione dei set di dati con didascalie generate ===&lt;/div&gt;&lt;/td&gt;&lt;/tr&gt;
&lt;tr&gt;&lt;td class=&quot;diff-marker&quot;&gt;&lt;/td&gt;&lt;td style=&quot;background-color: #f8f9fa; color: #202122; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #eaecf0; vertical-align: top; white-space: pre-wrap;&quot;&gt;&lt;div&gt;Con i nostri set di dati ricaptionati a disposizione, valutiamo l&amp;#039;impatto dell&amp;#039;addestramento di modelli su testo sintetico. Vogliamo rispondere a due domande:&lt;/div&gt;&lt;/td&gt;&lt;td class=&quot;diff-marker&quot;&gt;&lt;/td&gt;&lt;td style=&quot;background-color: #f8f9fa; color: #202122; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #eaecf0; vertical-align: top; white-space: pre-wrap;&quot;&gt;&lt;div&gt;Con i nostri set di dati ricaptionati a disposizione, valutiamo l&amp;#039;impatto dell&amp;#039;addestramento di modelli su testo sintetico. Vogliamo rispondere a due domande:&lt;/div&gt;&lt;/td&gt;&lt;/tr&gt;
&lt;tr&gt;&lt;td class=&quot;diff-marker&quot; data-marker=&quot;−&quot;&gt;&lt;/td&gt;&lt;td style=&quot;color: #202122; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #ffe49c; vertical-align: top; white-space: pre-wrap;&quot;&gt;&lt;div&gt;&lt;del style=&quot;font-weight: bold; text-decoration: none;&quot;&gt;1. &lt;/del&gt;L&#039;impatto sulle prestazioni dell&#039;utilizzo di ogni tipo di didascalia sintetica.&lt;/div&gt;&lt;/td&gt;&lt;td class=&quot;diff-marker&quot; data-marker=&quot;+&quot;&gt;&lt;/td&gt;&lt;td style=&quot;color: #202122; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #a3d3ff; vertical-align: top; white-space: pre-wrap;&quot;&gt;&lt;div&gt;&lt;ins style=&quot;font-weight: bold; text-decoration: none;&quot;&gt;* &lt;/ins&gt;L&#039;impatto sulle prestazioni dell&#039;utilizzo di ogni tipo di didascalia sintetica.&lt;/div&gt;&lt;/td&gt;&lt;/tr&gt;
&lt;tr&gt;&lt;td class=&quot;diff-marker&quot; data-marker=&quot;−&quot;&gt;&lt;/td&gt;&lt;td style=&quot;color: #202122; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #ffe49c; vertical-align: top; white-space: pre-wrap;&quot;&gt;&lt;div&gt;&lt;del style=&quot;font-weight: bold; text-decoration: none;&quot;&gt;2. &lt;/del&gt;Il rapporto ottimale di miscelazione tra didascalie sintetiche e reali.&lt;/div&gt;&lt;/td&gt;&lt;td class=&quot;diff-marker&quot; data-marker=&quot;+&quot;&gt;&lt;/td&gt;&lt;td style=&quot;color: #202122; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #a3d3ff; vertical-align: top; white-space: pre-wrap;&quot;&gt;&lt;div&gt;&lt;ins style=&quot;font-weight: bold; text-decoration: none;&quot;&gt;* &lt;/ins&gt;Il rapporto ottimale di miscelazione tra didascalie sintetiche e reali.&lt;/div&gt;&lt;/td&gt;&lt;/tr&gt;
&lt;tr&gt;&lt;td class=&quot;diff-marker&quot;&gt;&lt;/td&gt;&lt;td style=&quot;background-color: #f8f9fa; color: #202122; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #eaecf0; vertical-align: top; white-space: pre-wrap;&quot;&gt;&lt;div&gt;I risultati mostrano che entrambi i modelli addestrati su didascalie sintetiche ottengono prestazioni leggermente migliori rispetto al modello base quando valutati su didascalie reali, e prestazioni nettamente migliori quando valutati su didascalie sintetiche descrittive.&lt;/div&gt;&lt;/td&gt;&lt;td class=&quot;diff-marker&quot;&gt;&lt;/td&gt;&lt;td style=&quot;background-color: #f8f9fa; color: #202122; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #eaecf0; vertical-align: top; white-space: pre-wrap;&quot;&gt;&lt;div&gt;I risultati mostrano che entrambi i modelli addestrati su didascalie sintetiche ottengono prestazioni leggermente migliori rispetto al modello base quando valutati su didascalie reali, e prestazioni nettamente migliori quando valutati su didascalie sintetiche descrittive.&lt;/div&gt;&lt;/td&gt;&lt;/tr&gt;
&lt;tr&gt;&lt;td class=&quot;diff-marker&quot;&gt;&lt;/td&gt;&lt;td style=&quot;background-color: #f8f9fa; color: #202122; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #eaecf0; vertical-align: top; white-space: pre-wrap;&quot;&gt;&lt;br&gt;&lt;/td&gt;&lt;td class=&quot;diff-marker&quot;&gt;&lt;/td&gt;&lt;td style=&quot;background-color: #f8f9fa; color: #202122; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #eaecf0; vertical-align: top; white-space: pre-wrap;&quot;&gt;&lt;br&gt;&lt;/td&gt;&lt;/tr&gt;
&lt;tr&gt;&lt;td class=&quot;diff-marker&quot;&gt;&lt;/td&gt;&lt;td style=&quot;background-color: #f8f9fa; color: #202122; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #eaecf0; vertical-align: top; white-space: pre-wrap;&quot;&gt;&lt;div&gt;=== DALL-E 3 ===&lt;/div&gt;&lt;/td&gt;&lt;td class=&quot;diff-marker&quot;&gt;&lt;/td&gt;&lt;td style=&quot;background-color: #f8f9fa; color: #202122; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #eaecf0; vertical-align: top; white-space: pre-wrap;&quot;&gt;&lt;div&gt;=== DALL-E 3 ===&lt;/div&gt;&lt;/td&gt;&lt;/tr&gt;
&lt;tr&gt;&lt;td class=&quot;diff-marker&quot;&gt;&lt;/td&gt;&lt;td style=&quot;background-color: #f8f9fa; color: #202122; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #eaecf0; vertical-align: top; white-space: pre-wrap;&quot;&gt;&lt;div&gt;Per testare le nostre didascalie sintetiche su larga scala, addestriamo [[DALL-E 3]], un nuovo sistema di generazione di immagini da testo all&amp;#039;avanguardia. Per addestrare questo modello, utilizziamo una miscela del 95% di didascalie sintetiche e del 5% di didascalie reali.&lt;/div&gt;&lt;/td&gt;&lt;td class=&quot;diff-marker&quot;&gt;&lt;/td&gt;&lt;td style=&quot;background-color: #f8f9fa; color: #202122; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #eaecf0; vertical-align: top; white-space: pre-wrap;&quot;&gt;&lt;div&gt;Per testare le nostre didascalie sintetiche su larga scala, addestriamo [[DALL-E 3]], un nuovo sistema di generazione di immagini da testo all&amp;#039;avanguardia. Per addestrare questo modello, utilizziamo una miscela del 95% di didascalie sintetiche e del 5% di didascalie reali.&lt;/div&gt;&lt;/td&gt;&lt;/tr&gt;
&lt;/table&gt;</summary>
		<author><name>93.113.252.24</name></author>
	</entry>
	<entry>
		<id>https://wiki.mindmaker.it/index.php?title=Dall-e_3_(2023)&amp;diff=220&amp;oldid=prev</id>
		<title>93.113.252.24: Creata pagina con &quot;In questo paper rilasciato da OpenAI si mostra che le capacità di un modello testo-immagine di seguire le istruzioni possono essere sostanzialmente migliorate addestrandolo su didascalie di immagini generate altamente descrittive. I modelli testo-immagine esistenti faticano a seguire descrizioni di immagini dettagliate e spesso ignorano parole o confondono il significato delle istruzioni. Ipotizziamo che questo problema derivi dalla bassa qualità delle didascalie p...&quot;</title>
		<link rel="alternate" type="text/html" href="https://wiki.mindmaker.it/index.php?title=Dall-e_3_(2023)&amp;diff=220&amp;oldid=prev"/>
		<updated>2024-02-29T08:41:44Z</updated>

		<summary type="html">&lt;p&gt;Creata pagina con &amp;quot;In questo paper rilasciato da &lt;a href=&quot;/index.php/OpenAI&quot; title=&quot;OpenAI&quot;&gt;OpenAI&lt;/a&gt; si mostra che le capacità di un modello testo-immagine di seguire le istruzioni possono essere sostanzialmente migliorate addestrandolo su didascalie di immagini generate altamente descrittive. I modelli testo-immagine esistenti faticano a seguire descrizioni di immagini dettagliate e spesso ignorano parole o confondono il significato delle istruzioni. Ipotizziamo che questo problema derivi dalla bassa qualità delle didascalie p...&amp;quot;&lt;/p&gt;
&lt;p&gt;&lt;b&gt;Nuova pagina&lt;/b&gt;&lt;/p&gt;&lt;div&gt;In questo paper rilasciato da [[OpenAI]] si mostra che le capacità di un modello testo-immagine di seguire le istruzioni possono essere sostanzialmente migliorate addestrandolo su didascalie di immagini generate altamente descrittive. I modelli testo-immagine esistenti faticano a seguire descrizioni di immagini dettagliate e spesso ignorano parole o confondono il significato delle istruzioni. Ipotizziamo che questo problema derivi dalla bassa qualità delle didascalie presenti nel set di dati di addestramento. Affrontiamo questo problema generando didascalie sintetiche migliori per le immagini nel set di dati di addestramento. Successivamente addestriamo diversi modelli testo-immagine e scopriamo che l&amp;#039;addestramento su queste didascalie sintetiche migliora in modo affidabile la capacità di seguire le istruzioni.&lt;br /&gt;
&lt;br /&gt;
=== Valutazione dei set di dati con didascalie generate ===&lt;br /&gt;
Con i nostri set di dati ricaptionati a disposizione, valutiamo l&amp;#039;impatto dell&amp;#039;addestramento di modelli su testo sintetico. Vogliamo rispondere a due domande:&lt;br /&gt;
1. L&amp;#039;impatto sulle prestazioni dell&amp;#039;utilizzo di ogni tipo di didascalia sintetica.&lt;br /&gt;
2. Il rapporto ottimale di miscelazione tra didascalie sintetiche e reali.&lt;br /&gt;
I risultati mostrano che entrambi i modelli addestrati su didascalie sintetiche ottengono prestazioni leggermente migliori rispetto al modello base quando valutati su didascalie reali, e prestazioni nettamente migliori quando valutati su didascalie sintetiche descrittive.&lt;br /&gt;
&lt;br /&gt;
=== DALL-E 3 ===&lt;br /&gt;
Per testare le nostre didascalie sintetiche su larga scala, addestriamo [[DALL-E 3]], un nuovo sistema di generazione di immagini da testo all&amp;#039;avanguardia. Per addestrare questo modello, utilizziamo una miscela del 95% di didascalie sintetiche e del 5% di didascalie reali.&lt;/div&gt;</summary>
		<author><name>93.113.252.24</name></author>
	</entry>
</feed>