DeepJ: Style-Specific Music Generation (2018)
DeepJ1 (o DJ) è un modello di apprendimento profondo in grado di comporre musica polifonica condizionata a uno stile specifico o a una miscela di più stili compositivi.
Architettura
La sua architettura si basa sul Biaxial LSTM. Il Biaxial LSTM è un approccio alla composizione musicale agnostico, capace di essere addestrato utilizzando una varietà di stili musicali. Tuttavia, questo approccio non si è rivelato in grado di mantenere coerenza stilistica nelle sue generazioni, passando anche in modo brusco a stili diversi all'interno di una stessa composizione.
Obiettivo
L'obiettivo di DeepJ1 è creare un modello capace di generare musica in vari stili che possa portare benefici pratici per i filmmaker e i compositori musicali che hanno bisogno di personalizzare la musica generata per i loro compiti creativi. Ad esempio, un filmmaker potrebbe desiderare di abbinare un video con una musica di uno stile particolare per trasmettere un'emozione desiderata. Il nostro metodo di incorporare lo stile funge da prova concettuale di questa idea. La nostra tecnica potrebbe essere estesa ad altri parametri regolabili nella musica generata come "umore" o "emozione".
Caratteristiche
DeepJ si basa su una Biaxial LSTM ma si differenzia dalla configurazione “tradizionale” dell’architettura in due caratteristiche principali: Stile e Dinamica (Volume). Il Volume aggiunge carattere e profondità emotiva alla musica, mentre implementare lo Stile rende l’output stilisticamente più coerente, evitando cambiamenti di stile nel bel mezzo di un brano.
Stile
DeepJ opta per rappresentare lo stile utilizzando una rappresentazione distribuita appresa, che si è rivelata più appropriata di una rappresentazione a colpo sicuro fornita
Link
https://arxiv.org/abs/1801.00887|DeepJ: Style-Specific Music Generation(2018)