DeepDream: differenze tra le versioni
Nessun oggetto della modifica |
Nessun oggetto della modifica |
||
Riga 20: | Riga 20: | ||
La particolarità di questo metodo, come si diceva, consiste nell effetturare l'esatto contrario di quanto si fa normalmente durante l'addestramento di una rete neurale. Se durante l'addestramento della rete, infatti, si è utilizzata la [[discesa del gradiente]] per aggiornare i valori dei coefficienti degli strati della rete, minimizzando così il valore della [[Funzione Obiettivo (loss)|funzione di perdita]], il modello DeepDream prevede di calcolare i gradienti della perdita '''rispetto all'immagine''', e poi aggiungerli all'immagine: questo intensifica i pattern visti dalla rete in quei layer. | La particolarità di questo metodo, come si diceva, consiste nell effetturare l'esatto contrario di quanto si fa normalmente durante l'addestramento di una rete neurale. Se durante l'addestramento della rete, infatti, si è utilizzata la [[discesa del gradiente]] per aggiornare i valori dei coefficienti degli strati della rete, minimizzando così il valore della [[Funzione Obiettivo (loss)|funzione di perdita]], il modello DeepDream prevede di calcolare i gradienti della perdita '''rispetto all'immagine''', e poi aggiungerli all'immagine: questo intensifica i pattern visti dalla rete in quei layer. | ||
=== | === Data augmentation e processamento frattale dell'immagine === | ||
Tutte le implementazioni viste contemplano l'utilizzo di uno "shift" randomico sui due assi ad ogni iterazione, questo permette lavorare anche sui bordi delle immagini (immagino). | |||
Importante è il processing di tipo frattale, o "per ottave", nel quale l'immagine sottocampionata e portata alla dimensione dell'immagine originale, per poi essere progressivamente ingrandita: in questo modo i pattern si visualizzano su svariate scale, in modo "frattale". | |||
Una cosa molto interessante menzionata nel blog post originale, è che le immagini che emergono "dipendono" dal contenuto originale dell'immagine, a parità di layer esposti. | |||
[[Categoria:Modello]] | [[Categoria:Modello]] |
Versione delle 23:18, 27 mag 2024
DeepDream | |
---|---|
Nome Inglese | DeepDream |
Sigla | |
Anno Di Creazione | 2015-06-18 |
Versione Corrente | |
URL | https://research.google/blog/inceptionism-going-deeper-into-neural-networks/ |
Pubblicazione | Inceptionism: Going Deeper into Neural Networks |
URL Pubblicazione | https://research.google/blog/inceptionism-going-deeper-into-neural-networks/ |
Nel 2015, Alexander Mordvintsev, uno sviluppatore di Google, ha pubblicato un blog post contenente la descrizione di quello che rimarrà sicuramente uno dei più interessanti e singolari esperimenti fatti con le reti neurali. Alexander è anche un'artista interattivo, e quindi ha un particolare sensibilità nel provare a utilizzare algoritmi e modelli in un modo non convenzionale.
Alexander fa esattamente il seguente tentativo. Presa una rete neurale convoluzionale per la classificazione di immagini, come ResNet, VGG16, o GoogLeNet, il modello va a iterativamente modificare l'immagine di input in modo da massimizzare le attivazioni di uno o più strati della rete neurale, predeterminati.
Sono state viste tre implementazioni:
- l'implementazione originale in Caffè
- un'implementazione in Pytorch piuttosto recente e ben scritta
- https://www.tensorflow.org/tutorials/generative/deepdream
L'ascesa del gradiente
La particolarità di questo metodo, come si diceva, consiste nell effetturare l'esatto contrario di quanto si fa normalmente durante l'addestramento di una rete neurale. Se durante l'addestramento della rete, infatti, si è utilizzata la discesa del gradiente per aggiornare i valori dei coefficienti degli strati della rete, minimizzando così il valore della funzione di perdita, il modello DeepDream prevede di calcolare i gradienti della perdita rispetto all'immagine, e poi aggiungerli all'immagine: questo intensifica i pattern visti dalla rete in quei layer.
Data augmentation e processamento frattale dell'immagine
Tutte le implementazioni viste contemplano l'utilizzo di uno "shift" randomico sui due assi ad ogni iterazione, questo permette lavorare anche sui bordi delle immagini (immagino).
Importante è il processing di tipo frattale, o "per ottave", nel quale l'immagine sottocampionata e portata alla dimensione dell'immagine originale, per poi essere progressivamente ingrandita: in questo modo i pattern si visualizzano su svariate scale, in modo "frattale".
Una cosa molto interessante menzionata nel blog post originale, è che le immagini che emergono "dipendono" dal contenuto originale dell'immagine, a parità di layer esposti.