Separace nástrojů a zpěvu z hudební nahrávky

Holík, Viliam

Separace nástrojů a zpěvu z hudební nahrávky

Files

final-thesis.pdf(3.05 MB)

review_147883.html(10.18 KB)

Authors

Holík, Viliam

Advisor

Mošner, Ladislav

Referee

Veselý, Karel

Mark

C

Publisher

Vysoké učení technické v Brně. Fakulta informačních technologií

Abstract

Na separáciu zdrojov z hudobných nahrávok sa používajú neurónové siete. Jednou z takýchto sietí je Conv-TasNet. Cieľom práce je experimentovať s už existujúcou implementáciou tejto siete za účelom potenciálneho zlepšenia. Trénovanie modelov prebiehalo na dátovej sade MUSDB18. Postupne sa experimentovalo so zmenou štruktúry siete, transformáciou signálov z časovej domény do frekvenčnej pre účely počítania objektívnej funkcie, zámenou rôznych objektívnych funkcií za pôvodnú, hľadaním optimálneho koeficientu rýchlosti učenia pre každú objektívnu funkciu a jeho postupným zmenšovaním v priebehu učenia. Ako najlepšie experimenty podla metriky SDR vyšli trénovania s objektívnymi funkciami L1 a logaritmickou L2 v časovej doméne pri vyššom počiatočnom koeficiente rýchlosti učenia s jeho postupným zmenšovaním v priebehu učenia. V relatívnom porovnaní najlepších modelov oproti východziemu ide o viac ako 2,5% zlepšenie.
Neural networks are used for the problem of music source separation from recordings. One such network is Conv-TasNet. The aim of the work is to experiment with the already existing implementation of this network for the purpose of potential improvement. The models were trained on the MUSDB18 dataset. It was successively experimented with the change of the network structure, transforming signals from the time domain to the frequency domain for the purpose of calculating the loss function, replacing different loss functions with the original one, finding the optimal learning rate for each loss function and gradually decreasing the learning rate during the learning process. The best experiments according to the SDR metric were training with loss functions L1 and logarithmic L2 in the time domain with a higher initial learning rate with its gradual decrease during the learning process. In a relative comparison of the best models to the baseline, it is more than 2.5% improvement.

Citation

HOLÍK, V. Separace nástrojů a zpěvu z hudební nahrávky [online]. Brno: Vysoké učení technické v Brně. Fakulta informačních technologií. 2023.

Language of document

sk

Study field

Informační technologie

Comittee

prof. Dr. Ing. Jan Černocký (předseda) doc. Ing. Zdeněk Vašíček, Ph.D. (člen) Ing. Václav Šátek, Ph.D. (člen) Ing. Filip Orság, Ph.D. (člen) Ing. Vladimír Bartík, Ph.D. (člen)

Date of acceptance

2023-06-15

Defence

Student nejprve prezentoval výsledky, kterých dosáhl v rámci své práce. Komise se poté seznámila s hodnocením vedoucího a posudkem oponenta práce. Student následně odpověděl na otázky oponenta a na další otázky přítomných. Komise se na základě posudku oponenta, hodnocení vedoucího, přednesené prezentace a odpovědí studenta na položené otázky rozhodla práci hodnotit stupněm C.

Result of defence

práce byla úspěšně obhájena

Document licence

Standardní licenční smlouva - přístup k plnému textu bez omezení