Posudky závěrečné kvalifikační práce

Posudek vedoucího

Kovanda, Vojtěch

Bakalářská práce se věnuje použití různých metod ditheringu u audio signálů a vyhodnocuje jejich úspěšnost ve srovnání s profesionálními ditherovými jednotkami a s vybranými metodami dekvantizace použitím objektivních kritérií jako je SDR a ODG. V teoretické části student popisuje různé metody ditheringu rozdělené převážně podle hustoty pravděpodobnosti použitého šumu. V praktické části byl vytvořen script, který zaručuje implementaci těchto metod na různých bitových hloubkách, jehož výstupy jsou dále porovnávány. Student dále vytvořil zvukovou databázi, na které zmíněné metody otestoval. Teoretická část práce působí poměrně povrchně, použitá literatura je omezená a je citována velice zřídka. I proto student dostatečně nevysvětluje některé myšlenky a použitá slovní spojení, nebo se dopouští nesprávných tvrzení jako např. „Kvantizační šum má podobné vlastnosti bílého šumu“, nebo “Interpolace je základní metoda dekvantizace”. Také některé výpisy kódů nepřispívají ke větší přehlednosti práce a u generování obdélníkového šumu si dokonce odporují. V rámci praktického výstupu práce se prostřednictvím scriptu v Matlabu provádí dithering při různých bitových hloubkách za použití základní metody noise-shapingu. Při porovnávání jednotlivých metod implementovaného ditheringu a dekvantizace chybí širší zdůvodnění, proč dekvantizace předvádí lepší výsledky (dekvantizace není omezena původní bitovou hloubkou kvantizace, narozdíl od ditheringu). Naopak při porovnání s ditherovací jednotkou MBIT+ navržený script předvádí lepší výsledky, které jsou v práci vhodně vyobrazeny, jenom chybí širší subjektivní vyhodnocení metod. Za zdařilé dále považuji vytvoření vlastní zvukové databáze s vhodně navrhnutými parametry. Práce obsahuje drobné typografické chyby. Student svůj postup pravidelně konzultoval. I přes zmíněné nedostatky považuji zadání práce za splněné a navrhuji 65 bodů D.

Navrhovaná známka: D

Body: 68

Posudek oponenta

Rajmic, Pavel

Jakub Jureček napsal bakalářskou práci, která se zabývá tzv. ditheringem – metodou, která slouží k maskování zkreslení způsobené snížením bitové hloubky audio signálů. Text práce se rozkládá na 46 stranách, ty jsou ovšem z velké části obsazeny grafy, obrázky nebo dokonce nevhodným prázdným místem, takže efektivní délka práce je nižší. Práce je rozdělena do několika kapitol, ale nepřipadne mi, že vhodně; například kap. 4 má 1,5 strany a mohla být zařazena do obecné kapitoly o audio signálech (která ale v práci není, student jde od první kapitoly „rovnou na věc“). Kapitola 3 o dekvantizaci má rovněž pouhé 1,5 strany a to naznačuje, že student má pouze povrchní představu o tom, jak to funguje. Několik implementačních poznámek proniklo do teoretické části a naopak, v části praktické student několikrát opakuje již sdělenou teorii. Co se týká jazyka, práce obsahuje minimum překlepů a jen občas se vyskytne věta, kterou bych nepochopil. Horší je to bohužel s informační hodnotou textu. Věty jsou často vzletné, hladké, upravené, ale zárověň frázovité, vágní, výplňové. Většina trvzení není opřena o literaturu (citace bývá typicky až ke konci bloku; např. kapitola 2 má jedinou citaci až na svém úplném konci). Seznam literatury nesplňuje normu a je nekonzistentní. Značný počet tvrzení je nepravdivých, nesmyslných nebo zavádějících. V kapitole 1 je dithering popsán kompletně slovně, dokonce ani kvantizace není zavedena matematickým vztahem, ale pouze obrázkově na příkladech se sinusovkou (tyto obrázky jsou ale povedené). Souvislost obecnějšího noise shapingu s jednoduchým ditheringem zdá se být opomenuta. Grafická úroveň práce je obstojná. Typografie ale již ne: konstanty jsou sázeny kurzívou, vyskytuje se nekonzistentní matematické značení, pomlčky jsou zaměňovány za spojovníky apod. Praktická část spočívala ve vytvoření matlabovských funkcí pro různé druhy ditheringu. Tyto funkce se mi na první pohled zdají v pořádku a jsou logicky provázány. Ovšem vytvořeným kódům neodpovídají výpisy v textu (které, jak bude uvedeno níže, jsou dost matoucí). V práci není zmínka o struktuře a používání odevzdaných kódů; příloha nemá ani např. readme soubor. Konkrétnější věcné připomínky: * Str. 15: Věta „Kvantizační šum má podobné vlastnosti bílého šumu...“ je nepravdivá, navíc autor ignoruje vliv velikosti signálu na spektrum kvantizačního šumu. Na str. 16 pak čteme, že „Když se signál kvantizuje bez ditheringu, může být kvantizační chyba slyšitelná jako nežádoucí bzučení nebo zkreslení.“ což je pravý opak bílého šumu. * Na str. 30 se píše, že normalizace je provedena proto, aby se „usnadnila kvantizace“. Nakolik rozumím sám důvodům normalizace, takto formulováno je to nepřesné a nicneříkající. * Značení v obr. 2.1 a jeho okolí je zmatené. Signály e a e1 nejsou v obrázku zaznačeny. * Strana 28: Technické parametry nahrávání jsou skutečně profesionální, nicméně autor vůbec nezmiňuje akusitku, mikrofon nebo nahrávací řetězec, které mají obrovský vliv na to, „aby bylo možné zachytit jemné detaily v projevu jednotlivých nástrojů“. Takové opomenutí bych od studenta audioinženýrství nečekal. * Kód 6.1 na straně 31: Není na něj v textu odkaz. Dále, proč se v kódu normalizuje dvakrát? To může ve výsledku vést k potlačení normalizace. * Kód 6.3 do písmene opakuje to co je v kódu 6.1. * Podle autora má obrázek 6.1 sloužit k lepšímu porozumění vlivu ditheringu na kvantizaci. Bez vysvětlení, které chybí, takovýto graf čtenáři nepomůže; napadá mě proto, jestli autor vůbec ví, co a proč zobrazuje. Podobně je to u obr. 6.2 a 6.3, kde navíc musíme hádat, co je „intenzita“, což je parametr, který nebyl zaveden (pravděpodobně je to „scale“, který se pak vyskytuje v odevzdaných kódech). * Při analýze výsledků SDR a ODG autor nezmiňuje, že dekvantizace je ve výhodě, protože má k dispozici více bitů. Zapomíná napsat, že SDR ditheringu nikdy nemůže být lepší než kvantovaného signálu, protože dithering je v principu zašumění (tedy zvýšení chyby). I ODG vychází u ditheringu hůře oproti přímé kvantizaci. Zde je podle mě ideální prostor pro diskuzi, protože to není až tak samozřejmé; právě zde mělo nastat posouzení (požadované v zadání), zda objektivní výsledky jsou v souladu se subjektivním hodnocením. * Kód 6.5 má představovat efektivní přepis kódu 6.4, avšak kódy se liší přítomností, resp. absencí násobení dvojkou. Student přesto píše, že „Oba přístupy vedou ke stejnému výsledku“. * Věrohodnosti výsledků nepřidává ani zmínka o tom, že profesionální nástroj MBIT+ modifikoval hlasitost ukázek. Nejen proto působí úsměvně, že se k závěru student pochválí: „navržený skript poskytuje velmi konkurenceschopné výstupy a může být efektivně využit jak v akademickém výzkumu, tak při praktickém zpracování audio signálu.“ I kdyby tomu tak náhodou bylo z hlediska objektivního, opět zde chybí požadované subjektivní zhodnocení. * Nejsou zdůvodněna některá rozhodnutí (např. proč MBIT+ je porovnáván s gaussovským, nebo proč MBIT+ je bez noise shaping). Závěrem: Textová část je kompilát, který čtenáři nepřináší porozumění a ani nedokazuje porozumění studentovo. Praktická část je o něco nadějnější, ale existují rozpory mezi kódy v práci a v příloze. Výsledkům nedůvěřuji. Subjektivní posouzení požadované zadáním bylo opomenuto. Celkově má práce tolik chyb, že nepovažuji za vhodné, aby byla v této podobě obhájena. Na druhou stranu zde vidím potenciál k dopracování, pokud student věnuje tématu dostatek energie a času.

Navrhovaná známka: F

Body: 40

Otázky

Z čeho plyne, že součet dvou rovnoměrně rozdělených veličin má trojúhelníkovou hustotu pravděpodobnosti (str. 19)?
Na str. 22 píšete, že „Rovnice (2.3) a (2.4) popisují vznik aktuální chyby, zatímco rovnice (2.5) a (2.6) ukazují rozdílovou chybu, která je důležitá pro pochopení toho, jak se kvantizační šum přesouvá do vyšších frekvencí.“ Prosím vysvětlete detailně myšlenkový postup.