Scaling Rectified Flow Transformers for High-Resolution Image Synthesis

Da Wiki AI.
Scaling Rectified Flow Transformers for High-Resolution Image Synthesis
Data 2024
Autori Patrick Esser, Sumith Kulal, A. Blattmann, Rahim Entezari, Jonas Muller, Harry Saini, Yam Levi, Dominik Lorenz, Axel Sauer, Frederic Boesel, Dustin Podell, Tim Dockhorn, Zion English, Kyle Lacey, Alex Goodwin, Yannik Marek, Robin Rombach
URL https://www.semanticscholar.org/paper/41a66997ce0a366bba3becf7c3f37c9aebb13fbd
Topic Image Synthesis
Citazioni 410


Questo articolo presenta un miglioramento delle tecniche di campionamento del rumore per l'addestramento di modelli di flusso rettificato, indirizzandole verso scale percettivamente rilevanti. Attraverso uno studio su larga scala, viene dimostrata la performance superiore di questo approccio rispetto alle formulazioni di diffusione consolidate per la sintesi testo-immagine ad alta risoluzione. Inoltre, viene presentata una nuova architettura basata su transformer per la generazione di testo-immagine che utilizza pesi separati per le due modalità e consente un flusso bidirezionale di informazioni tra token di immagine e di testo, migliorando la comprensione del testo, la tipografia e le valutazioni delle preferenze umane. I modelli più grandi superano i modelli allo stato dell'arte.