PACAL, T. Redukce šumu ve zvukovém signálu pomocí hlubokého učení [online]. Brno: Vysoké učení technické v Brně. Fakulta elektrotechniky a komunikačních technologií. 2023.
Práce se zabývá využitím hlubokého učení pro redukci šumu v audio signálu. Problematika je popsána a na základě dostupné literatury je implementováno několik variant neuronové sítě, varianty jsou naučeny, otestovány a výsledky porovnány s referenční metodou založenou na vlnkové transformaci. Zadání tím považuji za splněné. Práce je formálně a jazykově na dobré úrovni, použitá literatura je dostatečně citována. Po stránce obsahové nacházím pouze drobné nedostatky, například srovnání implementačních nástrojů v kapitole 4, kde se nepodařilo sestavit skutečně ekvivalentní sítě. Rovněž bych uvítal podrobnější popis používaných metod pro redukci šumu v části 2.1, případně alespoň formalizaci metody založené na vlnkové transformaci, která je dále použita jako referenční metoda. Ačkoliv výsledky nepřesahují přesvědčivým způsobem zvolenou referenční metodu, jsou relevantní a práce představuje užitečný příspěvek do diskuse o využití konvolučních neuronových sítí pro rekonstrukci audio signálu. Z pohledu vedoucího musím též ocenit průběžnou a samostatnou práci. Vzhledem k pouze mírným nedostatkům hodnotím práci celkem 90 body.
Student Tomáš Pacal zpracoval bakalářskou práci na téma redukce šumu v audio signálech pomocí metod hlubokého učení. S vynecháním prázdných stran čítá práce od úvodu po závěr 36 stránek a formálně je na dobré úrovni s minimem překlepů a gramatických chyb. Celkový dojem však kazí místy nepřesné vyjadřování, věcné chyby (např. rovnice (1.6) pro 2D konvoluci, rovnice (3.4) pro IDFT nebo tvrzení že Wavenet funguje pouze na angličtinu a mandarínštinu) a chyby v křížových referencích (např. reference na rovnici (1.4) nebo obrázek 1.8). Některé obrázky pak v textu nejsou referencovány vůbec. Teoretická část práce se věnuje popisu neuronových sití, typů šumu v audiosignálech a zpracování audio signálů (FFT, STFT a segmentace). Vzhledem k zaměření práce mi zde chybí alespoň stručná rešerše existujících přístupů pro audio denoising využívající hluboké učení. Ve druhé kapitole jsou sice zmíněny čtyři metody redukce šumu, ale jejich popis je velmi stručný a ani jedna z nich nezahrnuje využití deep learningu. Další metody jsou zmíněny až na začátku kapitoly 4, ale opět jen velmi stručně jednou větou. Několik výhrad mám ke kapitole č. 4 nazvané "Volba frameworku", která se nevěnuje volbě frameworku, ale spíše srovnání Pythonu a MATLABu pro účely deep learningu. Pro tyto potřeby byla natrénovaná jednoduchá síť typu encoder-decoder pro odšumování obrázků s využitím MNIST databáze. Pro Python byl vybrán framework Keras, avšak tento výběr není nijak komentován a odůvodněn. V přípravě dat chybí popis, jaký šum a s jakými parametry byl do obrázků přidán. V Kerasu i v MATLABu byla vytvořená ANN se stejnou architekturou, ale ztrátová funkce byla pokaždé jiná. V Kerasu použil student binární křížovou entropii kvůli nejlepším dosaženým výsledkům, v MATLABu pak standardní MSE s komentářem, že MSE je pevně daná. To však ale není pravda, na strákách Mathworks je návod, jak použít vlastní ztrátovou funkci. Výsledkem je pak pouze srovnání na jediném obrázku, kde síť v Kerasu dosahuje značně lepších výsledků. Pro další část práce je ale zvolen MATLAB pro jeho lepší intuitivnost. V praktické části pak student navrhnul a natrénoval čtyři sítě, které následně porovnal a nejlepší (síť 3) srovnal s metodou založenou na Waveletové transformaci. Popis je opět velice stručný, chybí zde informace nejen o parametrech použité STFT, ale i nastavení parametrů jednotlivých sítí. Nastavení několika parametrů je uvedeno až v kapitole 6 s výsledky, ale pouze pro síť 3. Jednotlivé grafy s výsledky pak nezobrazují dosažené hodnoty metriky, ale zlepšení oproti zašuměné verzi, což v textu také nikde není zmíněno. Celkově hodnotím zadání práce za splněné a navržená síť dosahuje poměrně dobrých výsledků avšak vzhledem k výše uvedeným nedostatkům práci hodnotím stupněm 75/C.
eVSKP id 151136