Automatické tagování hudebních děl pomocí metod strojového učení

but.committeedoc. Ing. Kamil Říha, Ph.D. (předseda) doc. Ing. MgA. Mgr. Dan Dlouhý, Ph.D. (místopředseda) Mgr. Tomáš Staudek, Ph.D. (člen) PhDr. Aleš Dvořák (člen) Dr. Ing. Libor Husník (člen) Ing. Jaromír Mačák, Ph.D. (člen)cs
but.defenceStudent prezentoval výsledky své práce a komise byla seznámena s posudky. Otázky oponenta: - Pro vyhodnocení kvality klasifikace student použil ROC křivku. Jaký je rozdíl mezi ROC křivkou a PR (precision-recall) křivkou? Je pro účel diplomové práce výhodnější použití ROC křivky nebo PR křivky? - Odpověděl dostatečně. - Jaké jsou dle studenta pro danou aplikaci výhody/nevýhody použití čistě konvoluční architektury neuronové sítě vůči rekurentně-konvoluční architektuře? - Odpověděl dostatečně. Otázky komise: - Používají autoři zmíněných referenčních metod stejný dataset jako vy? - Odpověděl dostatečně. - Je možné s pomocí vaší práce konkluzivně určit žánr skladby? - Odpověděl dostatečně. Student obhájil diplomovou práci a odpověděl na otázky členů komise a oponenta.cs
but.jazykčeština (Czech)
but.programAudio inženýrstvícs
but.resultpráce byla úspěšně obhájenacs
dc.contributor.advisorKiska, Tomášcs
dc.contributor.authorSemela, Renécs
dc.contributor.refereeGaláž, Zoltáncs
dc.date.created2020cs
dc.description.abstractSystémy pro automatické tagování hudebních děl jsou jednou z mnoha výzev pro obor strojového učení, a to zejména z hlediska komplexnosti celé této problematiky. Praktické uplatnění mohou tyto systémy nalézat zejména v obsahové analýze hudebních děl nebo při třídění obsahu hudebních knihoven. Tato práce se zabývá návrhem, trénováním, testováním a evaluací architektur umělých neuronových sítí pro automatické tagování hudebních děl. V úvodu je pozornost věnována položení ucelených teoretických základů pro tuto problematiku. V praktické části je pak navrženo 8 architektur neuronových sítí (4 plně konvoluční a 4 konvolučně-rekurentní). Tyto architektury jsou následně natrénovány za pomoci MagnaTagATune Dataset a mel spektrogramu a následně je provedeno jejich testování a evaluace. Nejlepších výsledků zde dosahuje čtyřvrstvá konvolučně-rekurentní neuronová síť (CRNN4) s hodnotou ROC-AUC = 0,9046 ± 0,0016. Jako další krok praktické části je vytvořen kompletně nový Last.fm Dataset 2020, který je sestaven díky napojení na API služeb Last.fm a Spotify. Tento nový dataset čítá 100 tagů a 122877 skladeb. Nejúspěšnější architektury jsou na tomto novém datasetu natrénovány, otestovány a evaluovány, a je tak položena základní hranice hodnot ROC-AUC, kterých lze za pomoci tohoto datasetu dosáhnout. Nejlepších výsledků zde dosahuje šestivrstvá plně konvoluční neuronová síť (FCNN6) s hodnotou ROC-AUC = 0,8590 ± 0,0011. Na závěr celé práce je vytvořena jednoduchá aplikace pro otestování jednotlivých architektur neuronových sítí na uživatelem vloženém zvukovém souboru. Práce se svými výsledky vyrovnává světovým pracím na stejné téma a přináší několik nových poznatků a inovací. Z hlediska inovací je zejména dosaženo podstatného snížení komplexnosti jednotlivých architektur neuronových sítí v porovnání se světovými pracemi při zachování podobných výsledků.cs
dc.description.abstractOne of the many challenges of machine learning are systems for automatic tagging of music, the complexity of this issue in particular. These systems can be practically used in the content analysis of music or the sorting of music libraries. This thesis deals with the design, training, testing, and evaluation of artificial neural network architectures for automatic tagging of music. In the beginning, attention is paid to the setting of the theoretical foundation of this field. In the practical part of this thesis, 8 architectures of neural networks are designed (4 fully convolutional and 4 convolutional recurrent). These architectures are then trained using the MagnaTagATune Dataset and mel spectrogram. After training, these architectures are tested and evaluated. The best results are achieved by the four-layer convolutional recurrent neural network (CRNN4) with the ROC-AUC = 0.9046 ± 0.0016. As the next step of the practical part of this thesis, a completely new Last.fm Dataset 2020 is created. This dataset uses Last.fm and Spotify API for data acquisition and contains 100 tags and 122877 tracks. The most successful architectures are then trained, tested, and evaluated on this new dataset. The best results on this dataset are achieved by the six-layer fully convolutional neural network (FCNN6) with the ROC-AUC = 0.8590 ± 0.0011. Finally, a simple application is introduced as a concluding point of this thesis. This application is designed for testing individual neural network architectures on a user-inserted audio file. Overall results of this thesis are similar to other papers on the same topic, but this thesis brings several new findings and innovations. In terms of innovations, a significant reduction in the complexity of individual neural network architectures is achieved while maintaining similar results.en
dc.description.markAcs
dc.identifier.citationSEMELA, R. Automatické tagování hudebních děl pomocí metod strojového učení [online]. Brno: Vysoké učení technické v Brně. Fakulta elektrotechniky a komunikačních technologií. 2020.cs
dc.identifier.other126065cs
dc.identifier.urihttp://hdl.handle.net/11012/189404
dc.language.isocscs
dc.publisherVysoké učení technické v Brně. Fakulta elektrotechniky a komunikačních technologiícs
dc.rightsStandardní licenční smlouva - přístup k plnému textu bez omezenícs
dc.subjectautomatické tagovánícs
dc.subjecthudbacs
dc.subjectklasifikacecs
dc.subjectkonvolučně-rekurentní neuronová síťcs
dc.subjectkonvoluční neuronová síťcs
dc.subjectLast.fm Dataset 2020cs
dc.subjectMagnaTagATune Datasetcs
dc.subjectmel spektrogramcs
dc.subjectneuronová síťcs
dc.subjectobsahová analýzacs
dc.subjectrekurentní neuronová síťcs
dc.subjectstrojové učenícs
dc.subjectzískávání hudební informacecs
dc.subjectzpětnovazební neuronová síťcs
dc.subjectauto-taggingen
dc.subjectautomatic taggingen
dc.subjectautotaggingen
dc.subjectclassificationen
dc.subjectcontent analysisen
dc.subjectconvolutional neural networken
dc.subjectconvolutional recurrent neural networken
dc.subjectLast.fm Dataset 2020en
dc.subjectmachine learningen
dc.subjectMagnaTagATune Dataseten
dc.subjectmel spectrogramen
dc.subjectmusicen
dc.subjectmusic information retrievalen
dc.subjectneural networken
dc.subjectrecurrent neural networken
dc.titleAutomatické tagování hudebních děl pomocí metod strojového učenícs
dc.title.alternativeAutomatic tagging of musical compositions using machine learning methodsen
dc.typeTextcs
dc.type.drivermasterThesisen
dc.type.evskpdiplomová prácecs
dcterms.dateAccepted2020-06-18cs
dcterms.modified2020-06-22-08:08:44cs
eprints.affiliatedInstitution.facultyFakulta elektrotechniky a komunikačních technologiícs
sync.item.dbid126065en
sync.item.dbtypeZPen
sync.item.insts2025.03.26 14:25:34en
sync.item.modts2025.01.15 19:18:50en
thesis.disciplineAudio inženýrstvícs
thesis.grantorVysoké učení technické v Brně. Fakulta elektrotechniky a komunikačních technologií. Ústav telekomunikacícs
thesis.levelInženýrskýcs
thesis.nameIng.cs
Files
Original bundle
Now showing 1 - 3 of 3
Loading...
Thumbnail Image
Name:
final-thesis.pdf
Size:
5.54 MB
Format:
Adobe Portable Document Format
Description:
final-thesis.pdf
Loading...
Thumbnail Image
Name:
appendix-1.zip
Size:
120.91 KB
Format:
zip
Description:
appendix-1.zip
Loading...
Thumbnail Image
Name:
review_126065.html
Size:
4.44 KB
Format:
Hypertext Markup Language
Description:
file review_126065.html
Collections