Scaling Rectified Flow Transformers for High-Resolution Image Synthesis
Scaling Rectified Flow Transformers for High-Resolution Image Synthesis | |
---|---|
Data | 2024 |
Autori | Patrick Esser, Sumith Kulal, A. Blattmann, Rahim Entezari, Jonas Muller, Harry Saini, Yam Levi, Dominik Lorenz, Axel Sauer, Frederic Boesel, Dustin Podell, Tim Dockhorn, Zion English, Kyle Lacey, Alex Goodwin, Yannik Marek, Robin Rombach |
URL | https://www.semanticscholar.org/paper/41a66997ce0a366bba3becf7c3f37c9aebb13fbd |
Topic | Image Synthesis |
Citazioni | 410 |
Questo articolo presenta un miglioramento delle tecniche di campionamento del rumore per l'addestramento di modelli di flusso rettificato, indirizzandole verso scale percettivamente rilevanti. Attraverso uno studio su larga scala, viene dimostrata la performance superiore di questo approccio rispetto alle formulazioni di diffusione consolidate per la sintesi testo-immagine ad alta risoluzione. Inoltre, viene presentata una nuova architettura basata su transformer per la generazione di testo-immagine che utilizza pesi separati per le due modalità e consente un flusso bidirezionale di informazioni tra token di immagine e di testo, migliorando la comprensione del testo, la tipografia e le valutazioni delle preferenze umane. I modelli più grandi superano i modelli allo stato dell'arte.