Posudky závěrečné kvalifikační práce

Posudek vedoucího

Míča, Ivan

Cílem práce bylo podrobné zmapování současného stavu volně dostupných audio a hlasových kodeků, a to jak z hlediska výpočetní a paměťové náročnosti, tak z hlediska dosahované kvality. Toto zadání se z větší části podařilo splnit, výpočetní a paměťová náročnost byly testovány odpovídajícími nástroji, také kvalita výstupů byla zhodnocena pomocí referenční implementace PESQ. Počet porovnávaných kodeků mohl být však větší. Závěrečná zpráva je přehledná a je celkově kvalitně vypracována.

Navrhovaná známka: A

Body: 91

Posudek oponenta

Sysel, Petr

Zadání hodnocené diplomové práce je značně rozsáhlé a zahrnuje dvě hlavní části: porovnání kodeků z hlediska paměťové a výpočetní náročnosti a porovnání kodeků z hlediska objektivního hodnocení kvality. To se podle mého názoru odrazilo na kvalitě práce, která napříč jednotlivými částmi silně kolísá. Buď si student měl lépe rozvrhnout časový harmonogram řešení nebo se po domluvě s vedoucím diplomové práce zaměřit pouze na jednu z uvedených oblastí. Přesto zadání považuji za splněné. I když pro hodnocení kvality byla zřejmě použita referenční implementace od ITU-T namísto v zadání uvedené vlastní implementace. V první kapitole je stručně popsán psychoakustický model lidského sluchu, který tvoří základ většiny kodeků. V druhé kapitole jsou stručně popsány audio kodeky FLAC, MPEG Layer III a OGG Vorbis používané pro kompresy hudby. Ve třetí kapitole je opět stručně popsán princip lineárního predikčního kódování a z něj vycházejících kodeků G.729 a OPUS používaných pro kompresy řeči. Ve čtvrté kapitole jsou pak popsány objektivní metody hodnocení kvality pomocí poměru signálu od šumu SNR, váženého spektrální obsahu WSS a perceptuálního měření kvality řeči PESQ. V páté kapitole jsou pak podrobněji popsány prováděné experimenty měření výpočetní a paměťové náročnosti, pro které byl částečně použit nástroj Valgrind, a hodnocení kvality zpracovaných nahrávek, pro které byla použita referenční implementace metody PESQ. Popis psychoakustického modelu a principů kodeků je někdy až příliš stručný a student se dopouští zkratkovitého zjednodušování na úkor přesnosti. Např. u popisu maskovacího jevu tvrdí, že lidský sluch nepozná rozdíl mezi silným signálem s kmitočtem 1 000 Hz a slabým signálem s kmitočtem 1 005 Hz. Přesnější formulace by byla, že silnější tón překryje (maskuje) současně znějící slabší tón s blízkým kmitočtem tak, že ho lidský sluch není schopen vnímat. Podobně vysvětlení termínu pre-echo nekoresponduje s jeho skutečným významem. U popisu audio kodeku FLAC jsou popsány obecné principy použitého Huffmanova a Lempel-Zivova (LZ) kódování. Zajímavější by bylo, zda tyto obecné principy jsou v kodeku FLAC nějakým způsobem přizpůsobeny kompresi audio dat. U popisu lineárně predikčního kódování je podle mého názoru chybně použit termín „hlasové“ ve významu „znělé“ a „nehlasové“ ve významu „neznělé“. Podobně u popisu funkce přepínače v blokovém schématu tvorby řeči na obr. 3.2 není patrný jeho vztah ke generování znělých a neznělých hlásek. U popisu výpočtu koeficientů lineární predikce není vysvětlen význam matice R a navíc je řečeno, že matice „může být Toeplitzova matice“, zatímco autokorelační matice má vždy tvar Toeplitzovy matice, což je patrné i s vytvořené implementace lineárně predikčního modelu. Počet koeficientů LP modelu je jednou označován jako M a podruhé jako N. Z popisu experimentální části je vidět, že z počátku jí student věnoval velkou pozornost. Pro měření použil dva rozdílné operační systémy (Windows 7 a Ubuntu 12.04); vyhledal příkazy pro vyhrazení jednoho jádra procesoru pouze procesu kodeku, aby eliminoval čas spotřebovaný přepínáním kontextů procesů; měření výpočetní náročnosti prováděl několikrát za sebou a pro nahrávky s různými hudebními styly. Na druhou stranu jsem ovšem nikde nenašel konfiguraci počítače na kterém probíhalo testování, není uveden typ procesoru ani jeho hodinový kmitočet, velikost paměti, atd. Dále pro měření doby trvání komprimace v operačním systému Windows 7 byly použity ruční stopky místo nějakého přesného programového nástroje. Popis měření v systému Ubuntu 12.04 zase naznačuje, že měření nebylo provedeno pro nahrávky s různými hudebními styly ale pouze opakovaně pro jednu nahrávku. V obou případech pak zcela chybí měření kodeků G.729 a G.711, přestože v další části měření kvality jsou použity. Takže funkční implementace měl student k dispozici. I když závěry prezentované v práci logicky vyplývají ze změřených výsledků, jejich zobecňování je výše uvedenými skutečnostmi zpochybněno. Formální zpracování diplomové práce je na velmi dobré úrovni. Přestože je psána ve slovenském jazyce, jehož pravidla pravopisu neovládám, si dovolím tvrdit, že obsahuje jen minimum překlepů, několikrát se neslabičná předložka objevuje na konci řádků. Přes uvedené výhrady doporučuji diplomovou práci k obhajobě.

Navrhovaná známka: B

Body: 81

Otázky

Vysvětlete termín pre-echo a jeho vztah k psychoakustickému modelu anebo metodám komprese zvukovým signálů.
Jaká byla konfigurace počítače (případně počítačů) použitého pro měření výpočetní a paměťové náročnosti kodeků. Proč nebyla změřena u kodeků G.729 a G.711 používaných v telekomunikacích?