KAŠPAR, L. Segmentace řeči [online]. Brno: Vysoké učení technické v Brně. Fakulta elektrotechniky a komunikačních technologií. 2015.

Posudky

Posudek vedoucího

Sysel, Petr

Během řešení diplomové práce student pravidelně konzultoval s vedoucím další postup, pracoval však málo samostatně a iniciativně. Výsledkem je soubor skriptů prostředí Matlab poskytující základ pro další analýzu segmentace řeči s využitím vektorové kvantizace. Kladně hodnotím použití objektového přístupu, které usnadní rozšiřování o další parametry řeči nebo metody kvantizace. Jako hlavní nevýhodu však vidím nemožnost plně automatického zpracování velkého množství souborů. Závěry se opírají o zpracování několika souborů, což nemusí být statisticky významné. Bylo by také vhodné porovnat výsledky metody s některou jinou běžně používanou metodou segmentace řeči nebo s výsledky publikovanými v odborných článcích.

Navrhovaná známka
C
Body
70

Posudek oponenta

Galáž, Zoltán

Diplomová práce se skládá z 3 kapitol a má 42 stran. Cílem práce bylo navrhnout a implementovat algoritmus segmentace řečového signálu. Pro tento úkol student zvolil metodu parametrizace řeči a následného zpracování pomocí vektorové kvantizace. Po odborné, obsahové, stylistické a terminologické stránce je práce na velmi slabé úrovni. Už samotné dělení kapitol je neadekvátní. Po kapitole popisující analýzu řeči, zahrnující segmentaci, parametrizaci a samotné vektorové kvantování následuje kapitola popisující práci s objekty a nakonec závěr. Absolutně mi zde chybí logická následnost mezi kapitolami a plynulý přechod na řešení spolu s výsledky diplomové práce. V první kapitole student popisuje analýzu řeči, kde uvádí např. kepstrální analýzu, ale dále v textu a v samotném řešení se již o ní nezmiňuje. Kapitola 2 je psána jako manuál začátečníka programování v objektově orientovaném jazyce. Je zde vysvětlováno, co je to třída, co je objekt a obojí nepřesně. Student popisuje vlastnost OOP nazývanou zapouzdření podle vymyšlené a zcela nesmyslné definice. Namísto popisu vlastní metody je v této kapitole hromada textu o tom jak si při spouštění skriptu nastavit složku atd. Nikde v práci jsem nenašel rozumně uvedeno, jako student detekuje hranice jednotlivých fonémy. V textu se jednou zmiňuje o tom, že při vektorové kvantizaci by jednotlivým hláskám měly příslušet jiné shluky ale nic víc. Chybí mi zde logické následnosti. Při čtení práce je zcela nejasné, které metody parametrizace jsou vlastně pro detekci hranic používané. Popis samotné funkčnosti algoritmu je chaotický a na nedostatečné úrovni. Co se týče zpracování výsledků, tak v diplomové práci student svůj algoritmus vyzkoušel jenom na třech náhodně vybraných nahrávkách, kde testoval správnost detekce hlásek, což je podle mého názoru absolutní podprůměr. Dále by již v rámci diplomové práce student měl používat větší množství cizojazyčné literatury. V práci cituje 11 zdrojů, z nichž téměř polovina jsou manuálové stránky. Předložená práce ztěžka dosahuje úrovně podprůměrné diplomové práce, a proto navrhuji hodnocení 50 bodů E.

Navrhovaná známka
E
Body
50

Otázky

eVSKP id 85309