Dataset MIDI per addestrare modelli generativi di Musica

Da Wiki AI.

corpus by music21

Fonte

Sito ufficiale di music21

Descrizione

Il corpus di music21 è una collezione ricca e diversificata di risorse musicali digitalizzate, che include partiture di compositori classici, canti popolari, e opere da varie tradizioni musicali. Questa collezione offre accesso a 3192 file in formati quali MusicXML, MIDI, Humdrum (krn), ABC, MuseData, e Capella (cap).

Link

Il dataset si può richiamare in Python una volta installata la libreria music21 e si possono estrarre vari tipi di informazioni nonchè navigare i vari dataset:

from music21 import corpus

# Elenco dei corpora disponibili
print(corpus.corporaNames())

# Ottenere un elenco di tutte le opere di un dato compositore o collezione
print(corpus.getComposer('bach'))

# Ottenere informazioni dettagliate su un particolare pezzo
piece = corpus.parse('bach/bwv65.2.xml')
piece.metadata.all()

A questo Link è possibile consultare in modo estensivo la collezione che compone il corpus.

Autori

Michael Cuthbert, Christopher Ariza, Benjamin Hogue

Lakh MIDI Dataset

Fonte

Il dataset è stato realizzato nel contesto di progetto PhD della Columbia University, relativo al paper Learning-Based Methods for Comparing Sequences, with Applications to Audio-to-MIDI Alignment and Matching.

Descrizione

Il dataset Lakh MIDI è una raccolta di 176581 file MIDI unici, 45129 dei quali sono stati estratti e allineati alle entry del Million Song Dataset di Spotify. Il suo obiettivo è quello di facilitare il recupero di informazioni musicali su larga scala (MIR), sia simboliche (utilizzando i soli file MIDI) sia basate sul contenuto audio (utilizzando le informazioni estratte dai file MIDI come annotazioni per i file audio abbinati).

Link

Lo trovi qui e la documentazione relativa al dataset nell'apposito repository GitHub.

Autori

Colin Raffel

ADL Piano MIDI

Fonte

Paper e GitHub

Descrizione

L'ADL Piano MIDI è un dataset di 11.086 brani per pianoforte di diversi generi. Questo dataset si basa sul Lakh MIDI dataset, che è una collezione di 45.129 file MIDI unici che sono stati associati a voci nel Million Song Dataset. La maggior parte dei brani nel Lakh MIDI dataset ha più strumenti, quindi per ogni file abbiamo estratto solo le tracce con strumenti della "Famiglia del Pianoforte" (numeri di programma MIDI 1-8). Questo processo ha generato un totale di 9.021 file MIDI per pianoforte unici. Questi 9.021 file sono stati poi combinati con altri circa 2.065 file raccolti da fonti pubblicamente disponibili su internet. Tutti i file nella collezione finale sono stati de-duplicati secondo il loro checksum MD5.

Link

Lo trovi qui

Autori

Lucas N. Ferreira, Levi H. S. Lelis, Jim Whitehead

Ailabs.tw 1K7

Fonte

Il dataset è stato introdotto da Hsiao nel paper Compound Word Transformer: Learning to Compose Full-Song Music over Dynamic Directed Hypergraphs e reso open source tramite il relativo progetto GitHub.

Descrizione

Il dataset Ailabs.tw 1K7 è una collezione di 1.700 brani musicali, progettato specificamente per la ricerca e lo sviluppo nel campo dell'intelligenza artificiale musicale. Comprende infatti una varietà di generi musicali ed è stato creato con l'obiettivo di fornire una risorsa versatile e di alta qualità per allenare modelli di intelligenza artificiale, offrendo una vasta gamma di esempi musicali per promuovere innovazioni e progressi nella comprensione e nella creazione di musica tramite algoritmi di apprendimento automatico.

Link

Lo trovi qui

Autori

Wen-Yi Hsiao, Jen-Yu Liu, Yin-Cheng Yeh and Yi-Hsuan Yang

Note

Pipeline:

Pipeline processamento dati. Fonte: https://github.com/YatingMusic/compound-word-transformer/blob/main/dataset/Dataset.md