Taming Transformers for High-Resolution Image Synthesis
Taming Transformers for High-Resolution Image Synthesis | |
---|---|
Data | 2021 |
Autori | Patrick Esser, Robin Rombach, Bjorn Ommer |
URL | https://www.semanticscholar.org/paper/47f7ec3d0a5e6e83b6768ece35206a94dc81919c |
Topic | Sintesi di immagini ad alta risoluzione |
Citazioni | 1971 |
Questo articolo esplora l'applicazione dei trasformatori, noti per la loro capacità di apprendere interazioni a lungo raggio nei dati sequenziali, alla sintesi di immagini ad alta risoluzione. A differenza delle CNN, i trasformatori non hanno un bias induttivo che privilegi le interazioni locali, rendendoli molto espressivi ma computazionalmente costosi per sequenze lunghe come le immagini ad alta risoluzione.
Gli autori propongono un metodo che combina l'efficacia del bias induttivo delle CNN con l'espressività dei trasformatori. L'idea chiave è quella di utilizzare le CNN per apprendere un vocabolario ricco di contesto di costituenti dell'immagine e quindi utilizzare i trasformatori per modellarne la composizione all'interno di immagini ad alta risoluzione.
Questo approccio è applicabile a compiti di sintesi condizionale, dove sia le informazioni non spaziali (come le classi di oggetti) sia le informazioni spaziali (come le segmentazioni) possono controllare l'immagine generata. In particolare, il lavoro presenta i primi risultati sulla sintesi guidata semanticamente di immagini megapixel con trasformatori.