Taming Transformers for High-Resolution Image Synthesis

Taming Transformers for High-Resolution Image Synthesis
Data	2021
Autori	Patrick Esser, Robin Rombach, Bjorn Ommer
URL	https://www.semanticscholar.org/paper/47f7ec3d0a5e6e83b6768ece35206a94dc81919c
Topic	Sintesi di immagini ad alta risoluzione
Citazioni	1971

Questo articolo esplora l'applicazione dei trasformatori, noti per la loro capacità di apprendere interazioni a lungo raggio nei dati sequenziali, alla sintesi di immagini ad alta risoluzione. A differenza delle CNN, i trasformatori non hanno un bias induttivo che privilegi le interazioni locali, rendendoli molto espressivi ma computazionalmente costosi per sequenze lunghe come le immagini ad alta risoluzione.

Gli autori propongono un metodo che combina l'efficacia del bias induttivo delle CNN con l'espressività dei trasformatori. L'idea chiave è quella di utilizzare le CNN per apprendere un vocabolario ricco di contesto di costituenti dell'immagine e quindi utilizzare i trasformatori per modellarne la composizione all'interno di immagini ad alta risoluzione.

Questo approccio è applicabile a compiti di sintesi condizionale, dove sia le informazioni non spaziali (come le classi di oggetti) sia le informazioni spaziali (come le segmentazioni) possono controllare l'immagine generata. In particolare, il lavoro presenta i primi risultati sulla sintesi guidata semanticamente di immagini megapixel con trasformatori.