Posudky závěrečné kvalifikační práce

Posudek vedoucího

Schimmel, Jiří

Cílem práce byla realizace aplikace pro názorné demonstrování postupu percepčního kódování zvukového signálu až po smyčku řízení kvantizace a zkreslení a obdobně pro dekódování. Tato aplikace má sloužit pro výuku předmětů zaměřených na multimédia. Nebyla požadována kompletní funkcionalita kodéru a dekodéru, pouze základní funkce nutné k pochopení principu. Realizován byl ale pouze psychoakustický model, který je nejsložitějším blokem, a hybridní kodér, který je ale realizován bez grafického rozhraní a návaznosti na psychoakustický model. Dekodér nebyl realizován vůbec. Volba testovacích signálů v aplikaci pro demonstraci funkce psychoakustického modelu není nejvhodnější. Diplomant přistupoval k řešení práce víceméně samostatně, jeho aktivita byla poněkud nižší na začátku semestru. Z formálního hlediska je práce na dobré úrovni, ovšem až po rozsáhlých korekcích vedoucím práce. Psychoakustický model je popisován přesně podle normy ISO/IEC, která je ovšem zaměřena pouze implementačně, v diplomové práci proto schází souvislosti s teorií signálů a systémů.

Dílčí hodnocení
Kritérium	Známka	Body
Splnění zadání	D	33/50
Aktivita během řešení a zpracování práce (práce s literaturou, využívání konzultací, atd.)	A	18/20
Formální zpracování práce	A	18/20
Využití literatury	A	10/10

Navrhovaná známka: C

Body: 79

Posudek oponenta

Rajmic, Pavel

Diplomová práce Bc. Vladimíra Nováka pojednává o kódování zvuku pomocí MPEG-1 Layer 3. Úkolem studenta bylo nastudovat podrobně tento standard a na základě toho v Matlabu realizovat program demostrující algoritmický postup MP3 pro pedagogické účely, a to jak pro kodér, tak i dekodér. Práce od Úvodu po Závěr čítá 40 stran, které jsou často zaplněny obrázky. Text je vhodně členěna na kapitoly a jejich části. Teoretická část se věnuje fyziologii a psychologii slyšení; v tomto úseku lze identifikovat, že student používá svůj jazykový styl, který ale zároveň podle mého názoru vede k povrchnímu klouzání od jednoho fakta k druhému. Maskování jakožto zásadní psychoakustický jev je popsaán velmi stručně. Popis algoritmu MP3 je převzat ze standardu, jazykový styl je zde jiný a bohužel nemám pocit, že by student plně rozuměl všemu, co píše. Praktická část se věnuje zpracování několika bloků MP3 kodéru (psychoakustický model i do podoby GUI). Programy se zdají funkční. Požadovaný dekodér jsem však nenalezl. Práce obsahuje několik překlepů (FTT transformace…) a dalších chyb, jako jsou výrazy „krátké okna“, „kompresy signálu“. Grafické a typografické zpracování je vcelku zdařilé až na používání nečeských uvozovek. Po formální stránce mám však řadu výhrad, z nichž vybírám: - vzorec (4.17), str. 28, tak jak je zapsán, je nesmyslný, hledá se maximum ze tří čísel, která jsou kladným násobkem téhož - student vícekrát používá termín „spektrum fáze“ a místo modulového spektra pouze „frekvenční spektrum“ - vztah (4.5) údajně udává „nepředvídatelnost“ c_omega; na téže straně 26 dole se však dočteme, že nepředvídatelnost je daná vztahem (4.7) - na str. 43 není jasné, co jsou čísla z_k - na obrázku 1.1 (str. 7) je podle mého názoru opačně orientováno zužování trubice hlemýždě - na str. 27 se píše o konvoluci, ale vzorec představuje násobení. Student pracoval s 10 zdroji literatury.

Dílčí hodnocení
Kritérium	Známka	Body
Splnění požadavků zadání	F	7/20
Odborná úroveň práce	D	30/50
Interpretace výsledků a jejich diskuse	F	8/20
Formální zpracování práce	C	7/10

Navrhovaná známka: E

Body: 52

Otázky

Na str. 5 píšete, že „průměrná písnička o délce 3 minut je veliká cca 3 Mb“. Podrobně vysvětlete informační obsah této věty.
V práci popisujete pouze jednokanálový přístup. Jakým způsobem se v MP3 kóduje stereo?
K čemu slouží „nepředvídatelnost“ v psychoakustickém modelu?