Dall-e 3 (2023): differenze tra le versioni
Nessun oggetto della modifica |
|||
Riga 9: | Riga 9: | ||
=== DALL-E 3 === | === DALL-E 3 === | ||
Per testare le nostre didascalie sintetiche su larga scala, addestriamo [[DALL-E 3]], un nuovo sistema di generazione di immagini da testo all'avanguardia. Per addestrare questo modello, utilizziamo una miscela del 95% di didascalie sintetiche e del 5% di didascalie reali. | Per testare le nostre didascalie sintetiche su larga scala, addestriamo [[DALL-E 3]], un nuovo sistema di generazione di immagini da testo all'avanguardia. Per addestrare questo modello, utilizziamo una miscela del 95% di didascalie sintetiche e del 5% di didascalie reali. | ||
[[Category:Pubblicazione]] |
Versione delle 16:17, 14 mar 2024
In questo paper rilasciato da OpenAI si mostra che le capacità di un modello testo-immagine di seguire le istruzioni possono essere sostanzialmente migliorate addestrandolo su didascalie di immagini generate altamente descrittive. I modelli testo-immagine esistenti faticano a seguire descrizioni di immagini dettagliate e spesso ignorano parole o confondono il significato delle istruzioni. Ipotizziamo che questo problema derivi dalla bassa qualità delle didascalie presenti nel set di dati di addestramento. Affrontiamo questo problema generando didascalie sintetiche migliori per le immagini nel set di dati di addestramento. Successivamente addestriamo diversi modelli testo-immagine e scopriamo che l'addestramento su queste didascalie sintetiche migliora in modo affidabile la capacità di seguire le istruzioni.
Valutazione dei set di dati con didascalie generate
Con i nostri set di dati ricaptionati a disposizione, valutiamo l'impatto dell'addestramento di modelli su testo sintetico. Vogliamo rispondere a due domande:
- L'impatto sulle prestazioni dell'utilizzo di ogni tipo di didascalia sintetica.
- Il rapporto ottimale di miscelazione tra didascalie sintetiche e reali.
I risultati mostrano che entrambi i modelli addestrati su didascalie sintetiche ottengono prestazioni leggermente migliori rispetto al modello base quando valutati su didascalie reali, e prestazioni nettamente migliori quando valutati su didascalie sintetiche descrittive.
DALL-E 3
Per testare le nostre didascalie sintetiche su larga scala, addestriamo DALL-E 3, un nuovo sistema di generazione di immagini da testo all'avanguardia. Per addestrare questo modello, utilizziamo una miscela del 95% di didascalie sintetiche e del 5% di didascalie reali.