Automatické tagování hudebních děl pomocí metod strojového učení

Systémy pro automatické tagování hudebních děl jsou jednou z mnoha výzev pro obor strojového učení, a to zejména z hlediska komplexnosti celé této problematiky. Praktické uplatnění mohou tyto systémy nalézat zejména v obsahové analýze hudebních děl nebo při třídění obsahu hudebních knihoven. Tato práce se zabývá návrhem, trénováním, testováním a evaluací architektur umělých neuronových sítí pro automatické tagování hudebních děl. V úvodu je pozornost věnována položení ucelených teoretických základů pro tuto problematiku. V praktické části je pak navrženo 8 architektur neuronových sítí (4 plně konvoluční a 4 konvolučně-rekurentní). Tyto architektury jsou následně natrénovány za pomoci MagnaTagATune Dataset a mel spektrogramu a následně je provedeno jejich testování a evaluace. Nejlepších výsledků zde dosahuje čtyřvrstvá konvolučně-rekurentní neuronová síť (CRNN4) s hodnotou ROC-AUC = 0,9046 ± 0,0016. Jako další krok praktické části je vytvořen kompletně nový Last.fm Dataset 2020, který je sestaven díky napojení na API služeb Last.fm a Spotify. Tento nový dataset čítá 100 tagů a 122877 skladeb. Nejúspěšnější architektury jsou na tomto novém datasetu natrénovány, otestovány a evaluovány, a je tak položena základní hranice hodnot ROC-AUC, kterých lze za pomoci tohoto datasetu dosáhnout. Nejlepších výsledků zde dosahuje šestivrstvá plně konvoluční neuronová síť (FCNN6) s hodnotou ROC-AUC = 0,8590 ± 0,0011. Na závěr celé práce je vytvořena jednoduchá aplikace pro otestování jednotlivých architektur neuronových sítí na uživatelem vloženém zvukovém souboru. Práce se svými výsledky vyrovnává světovým pracím na stejné téma a přináší několik nových poznatků a inovací. Z hlediska inovací je zejména dosaženo podstatného snížení komplexnosti jednotlivých architektur neuronových sítí v porovnání se světovými pracemi při zachování podobných výsledků.
One of the many challenges of machine learning are systems for automatic tagging of music, the complexity of this issue in particular. These systems can be practically used in the content analysis of music or the sorting of music libraries. This thesis deals with the design, training, testing, and evaluation of artificial neural network architectures for automatic tagging of music. In the beginning, attention is paid to the setting of the theoretical foundation of this field. In the practical part of this thesis, 8 architectures of neural networks are designed (4 fully convolutional and 4 convolutional recurrent). These architectures are then trained using the MagnaTagATune Dataset and mel spectrogram. After training, these architectures are tested and evaluated. The best results are achieved by the four-layer convolutional recurrent neural network (CRNN4) with the ROC-AUC = 0.9046 ± 0.0016. As the next step of the practical part of this thesis, a completely new Last.fm Dataset 2020 is created. This dataset uses Last.fm and Spotify API for data acquisition and contains 100 tags and 122877 tracks. The most successful architectures are then trained, tested, and evaluated on this new dataset. The best results on this dataset are achieved by the six-layer fully convolutional neural network (FCNN6) with the ROC-AUC = 0.8590 ± 0.0011. Finally, a simple application is introduced as a concluding point of this thesis. This application is designed for testing individual neural network architectures on a user-inserted audio file. Overall results of this thesis are similar to other papers on the same topic, but this thesis brings several new findings and innovations. In terms of innovations, a significant reduction in the complexity of individual neural network architectures is achieved while maintaining similar results.

Citation

SEMELA, R. Automatické tagování hudebních děl pomocí metod strojového učení [online]. Brno: Vysoké učení technické v Brně. Fakulta elektrotechniky a komunikačních technologií. 2020.

Language of document

cs

Study field

Audio inženýrství

Comittee

doc. Ing. Kamil Říha, Ph.D. (předseda) doc. Ing. MgA. Mgr. Dan Dlouhý, Ph.D. (místopředseda) Mgr. Tomáš Staudek, Ph.D. (člen) PhDr. Aleš Dvořák (člen) Dr. Ing. Libor Husník (člen) Ing. Jaromír Mačák, Ph.D. (člen)

Date of acceptance

2020-06-18

Defence

Student prezentoval výsledky své práce a komise byla seznámena s posudky. Otázky oponenta: - Pro vyhodnocení kvality klasifikace student použil ROC křivku. Jaký je rozdíl mezi ROC křivkou a PR (precision-recall) křivkou? Je pro účel diplomové práce výhodnější použití ROC křivky nebo PR křivky? - Odpověděl dostatečně. - Jaké jsou dle studenta pro danou aplikaci výhody/nevýhody použití čistě konvoluční architektury neuronové sítě vůči rekurentně-konvoluční architektuře? - Odpověděl dostatečně. Otázky komise: - Používají autoři zmíněných referenčních metod stejný dataset jako vy? - Odpověděl dostatečně. - Je možné s pomocí vaší práce konkluzivně určit žánr skladby? - Odpověděl dostatečně. Student obhájil diplomovou práci a odpověděl na otázky členů komise a oponenta.

Result of defence

práce byla úspěšně obhájena

URI

http://hdl.handle.net/11012/189404

Collections

2020

Citace PRO

Full item page

Automatické tagování hudebních děl pomocí metod strojového učení

Files

Date

Authors

Advisor

Referee

Mark

Journal Title

Journal ISSN

Volume Title

Publisher

ORCID

Abstract

Description

Keywords

Citation

Document type

Document version

Date of access to the full text

Language of document

Study field

Comittee

Date of acceptance

Defence

Result of defence

DOI

URI

Collections

Endorsement

Review

Supplemented By

Referenced By

Citace PRO