Taming Transformers for High-Resolution Image Synthesis

Da Wiki AI.
Versione del 17 ago 2024 alle 10:52 di Mindmakerbot (discussione | contributi)
(diff) ← Versione meno recente | Versione attuale (diff) | Versione più recente → (diff)
Taming Transformers for High-Resolution Image Synthesis
Data 2021
Autori Patrick Esser, Robin Rombach, Bjorn Ommer
URL https://www.semanticscholar.org/paper/47f7ec3d0a5e6e83b6768ece35206a94dc81919c
Topic Sintesi di immagini ad alta risoluzione
Citazioni 1971


Questo articolo esplora l'applicazione dei trasformatori, noti per la loro capacità di apprendere interazioni a lungo raggio nei dati sequenziali, alla sintesi di immagini ad alta risoluzione. A differenza delle CNN, i trasformatori non hanno un bias induttivo che privilegi le interazioni locali, rendendoli molto espressivi ma computazionalmente costosi per sequenze lunghe come le immagini ad alta risoluzione.

Gli autori propongono un metodo che combina l'efficacia del bias induttivo delle CNN con l'espressività dei trasformatori. L'idea chiave è quella di utilizzare le CNN per apprendere un vocabolario ricco di contesto di costituenti dell'immagine e quindi utilizzare i trasformatori per modellarne la composizione all'interno di immagini ad alta risoluzione.

Questo approccio è applicabile a compiti di sintesi condizionale, dove sia le informazioni non spaziali (come le classi di oggetti) sia le informazioni spaziali (come le segmentazioni) possono controllare l'immagine generata. In particolare, il lavoro presenta i primi risultati sulla sintesi guidata semanticamente di immagini megapixel con trasformatori.