Posudky závěrečné kvalifikační práce

SKYVA, P. Moderní metody potlačování šumu v audiosignálu založené na fázi [online]. Brno: Vysoké učení technické v Brně. Fakulta elektrotechniky a komunikačních technologií. 2019.

Posudek vedoucího

Rajmic, Pavel

Úkolem Bc. Pavla Skyvy bylo vyzkoušet několik modelů pro odšumování audiosignálu. Student vcelku pravidelně konzultoval, představoval bych si však rychlejší posun kupředu. Na druhou stranu se nejedná o jednoduché téma, nicméně student už má za sebou bakalářskou práci se stejným základem. V práci mi chybí jednak odvození použitých algoritmů, ty jsou pouze převzaty. Dále mi chybí rozsáhlejší testy včetně subjektivního, který je pouze nahrazen jedním názorem, a to autorovým. Malý rozsah testů, obávám se, není schopen poskytnout věrohodnou odpověď, jestli jedna metoda je lepší než druhá.

Navrhovaná známka: C

Body: 75

Posudek oponenta

Záviška, Pavel

Student Pavel Skyva zpracoval diplomovou práci na téma potlačování šumu v audiosignálu s využitím fáze. Hned ze začátku mám výtku k rozsahu práce, která od úvodu po závěr čítá 40 stran, z čehož však 4 strany tvoří výpis kód v Matlabu a cca 3 strany pak tabulky dosažených SNR hodnot. Práce tak svým rozsahem a zpracováním spíše odpovídá bakalářské práci. Podrobnější popis by si zasloužila především kapitola 3 a také odvození konkrétní podoby Condatova algoritmu. Vhodné by bylo uvést obecný tvar tohoto algoritmu a postupně se dopracovat k uvedené finální podobě. V práci se objevuje několik chyb, popř. nejasných definicí, např. záměna maticového a Hadamardova součinu matic, použití |A| ve významu nekonečné normy matice A, nebo chybné meze sumy v rovnici (7.1). V úvodu je popsáno, že indexace vektorů bude probíhat od jedničky, avšak celá kapitola 3 je indexována od nuly. Několik dalších výhrad je směřovaných k formální úrovni práce. Autor nepoužívá křížové odkazy. První kapitola postrádá citace. Tabulky v závěru práce nejsou číslovány. Grafická podoba algoritmů by mohla být čitelnější. Obecně psát matematickou závěrečnou práci ve Wordu není nejlepší řešení. Veškerá grafika je vložena jako bitmapová, navíc ve formátu jpeg způsobující blokový artefakt, což představuje problém u spektrogramů, které jsou tímto efektem zkreslené. Spektrogram 5.4 (c) postrádá popis os. V obr. 5.5 je popis vertikální osy normalizovaná frekvence, avšak rozsah osy je od 0 do 100. Veškeré spektrogramy jsou vykresleny pro normalizovanou frekvenci, ale v práci není nikde uvedena vzorkovací frekvence použitých signálů. Až z přílohy se dá zjistit, že audio soubory jsou vzorkované na 16 kHz. K implementační fázi práce nemám připomínek, avšak závěrečné testy by měly být rozsáhlejší. Nabízí se použít více audiosignálů, více úrovní zašumění, objektivní testy i pomocí jiného objektivního ukazatele než SNR (PEMO-Q, PEAQ), subjektivní hodnocení kvality pak formou poslechových testů.

Navrhovaná známka: D

Body: 67

Otázky

V úloze (5.8) definujete první člen pomocí maticového součinu matice C se stříškou a A, od problému (5.9) pak pomocí Hadamardova součinu (po prvcích). Jaký je rozdíl mezi těmito součiny a který z nich je v tomto případě správný?
V diplomové práci používáte DGT s 800 vzorků dlouhým Hannovým oknem, 200 vzorků překryv oken a 800 kmitočtových kanálů. Proč jste vybral právě toto nastavení? Jak dlouhé je toto okno v čase? Jak se algoritmus chová pro delší, popř. kratší okna?