Separace nástrojů a zpěvu z hudební nahrávky
Loading...
Date
Authors
ORCID
Advisor
Referee
Mark
C
Journal Title
Journal ISSN
Volume Title
Publisher
Vysoké učení technické v Brně. Fakulta informačních technologií
Abstract
Na separáciu zdrojov z hudobných nahrávok sa používajú neurónové siete. Jednou z takýchto sietí je Conv-TasNet. Cieľom práce je experimentovať s už existujúcou implementáciou tejto siete za účelom potenciálneho zlepšenia. Trénovanie modelov prebiehalo na dátovej sade MUSDB18. Postupne sa experimentovalo so zmenou štruktúry siete, transformáciou signálov z časovej domény do frekvenčnej pre účely počítania objektívnej funkcie, zámenou rôznych objektívnych funkcií za pôvodnú, hľadaním optimálneho koeficientu rýchlosti učenia pre každú objektívnu funkciu a jeho postupným zmenšovaním v priebehu učenia. Ako najlepšie experimenty podla metriky SDR vyšli trénovania s objektívnymi funkciami L1 a logaritmickou L2 v časovej doméne pri vyššom počiatočnom koeficiente rýchlosti učenia s jeho postupným zmenšovaním v priebehu učenia. V relatívnom porovnaní najlepších modelov oproti východziemu ide o viac ako 2,5% zlepšenie.
Neural networks are used for the problem of music source separation from recordings. One such network is Conv-TasNet. The aim of the work is to experiment with the already existing implementation of this network for the purpose of potential improvement. The models were trained on the MUSDB18 dataset. It was successively experimented with the change of the network structure, transforming signals from the time domain to the frequency domain for the purpose of calculating the loss function, replacing different loss functions with the original one, finding the optimal learning rate for each loss function and gradually decreasing the learning rate during the learning process. The best experiments according to the SDR metric were training with loss functions L1 and logarithmic L2 in the time domain with a higher initial learning rate with its gradual decrease during the learning process. In a relative comparison of the best models to the baseline, it is more than 2.5% improvement.
Neural networks are used for the problem of music source separation from recordings. One such network is Conv-TasNet. The aim of the work is to experiment with the already existing implementation of this network for the purpose of potential improvement. The models were trained on the MUSDB18 dataset. It was successively experimented with the change of the network structure, transforming signals from the time domain to the frequency domain for the purpose of calculating the loss function, replacing different loss functions with the original one, finding the optimal learning rate for each loss function and gradually decreasing the learning rate during the learning process. The best experiments according to the SDR metric were training with loss functions L1 and logarithmic L2 in the time domain with a higher initial learning rate with its gradual decrease during the learning process. In a relative comparison of the best models to the baseline, it is more than 2.5% improvement.
Description
Keywords
separácia zdrojov hudby, neurónové siete, objektívne funkcie, L1, L2, logaritmická L1, logaritmická L2, SI-SDR, SDR, SIR, SAR, STFT, rýchlosť učenia, frekvenčná doména, časová doména, Conv-TasNet, MUSDB18, music source separation, neural networks, loss functions, L1, L2, logarithmic L1, logarithmic L2, SI-SDR, SDR, SIR, SAR, STFT, learning rate, frequency domain, time domain, Conv-TasNet, MUSDB18
Citation
HOLÍK, V. Separace nástrojů a zpěvu z hudební nahrávky [online]. Brno: Vysoké učení technické v Brně. Fakulta informačních technologií. 2023.
Document type
Document version
Date of access to the full text
Language of document
sk
Study field
Informační technologie
Comittee
prof. Dr. Ing. Jan Černocký (předseda)
doc. Ing. Zdeněk Vašíček, Ph.D. (člen)
Ing. Václav Šátek, Ph.D. (člen)
Ing. Filip Orság, Ph.D. (člen)
Ing. Vladimír Bartík, Ph.D. (člen)
Date of acceptance
2023-06-15
Defence
Student nejprve prezentoval výsledky, kterých dosáhl v rámci své práce. Komise se poté seznámila s hodnocením vedoucího a posudkem oponenta práce. Student následně odpověděl na otázky oponenta a na další otázky přítomných. Komise se na základě posudku oponenta, hodnocení vedoucího, přednesené prezentace a odpovědí studenta na položené otázky rozhodla práci hodnotit stupněm C.
Result of defence
práce byla úspěšně obhájena
Document licence
Standardní licenční smlouva - přístup k plnému textu bez omezení