CHRÁPEK, T. Potlačování šumu v řeči založené na waveletové transformaci a rozeznávání znělosti segmentů [online]. Brno: Vysoké učení technické v Brně. Fakulta elektrotechniky a komunikačních technologií. 2008.
Zadání práce je splněno. Odborná úroveň je však špatná a vlastní přínos diplomanta spočívá v podstatě pouze v implementaci základních metod převzatých z literatuty. Očekávána byla trocha vlastní invence. Student, ačkoliv byl po obhajobě SP varován a vybízen k většímu úsilí, práci začal konzultovat dva týdny před termínem odevzdání.
Kritérium | Známka | Body | Slovní hodnocení |
---|---|---|---|
Splnění zadání | A | 50/50 | |
Aktivita během řešení a zpracování práce (práce s literaturou, využívání konzultací, atd.) | F | 2/20 | |
Formální zpracování práce | F | 7/20 | |
Využití literatury | E | 5/10 |
Oponovaná diplomová práce splňuje zadání a obsahuje všechny formální náležitosti včetně prohlášení o samostatnosti a příloh se zdrojovými soubory. Při hodnocení práce jsem však musel vzít v úvahu také následující nedostatky. Pro detekci znělosti a neznělosti signálu jsou použity pouze jednoduché metody založené na sledování krátkodobé energie, autokorelačního koeficientu R[1], středního počtu průchodů nulovou úrovní a sledování mel-kepstrálního koeficientu c[0]. Chybí však diskuse, proč byly zvoleny právě tyto parametry, případně odkaz na zdroj, ze kterého bylo jejich použití převzato. Také rozdělení na statistické a mel-kepstrální metody detekce není přesné. Vhodnější by bylo rozdělení na metody v časové a kmitočtové oblasti. Dále je u střední energie signálu uvedeno, že detekuje spíše ticho než neznělost signálu. Naproti tomu u mel-kepstrálního koeficientu c[0] je uvedeno, že reprezentuje zejména energii signálu ale že je postačující pro detekci znělost/neznělost. Chybí složitější metody detekce znělost/neznělost založené v časové oblasti např. na sledování základního tónu nebo v kmitočtové oblasti např. na tvaru spektra nebo kepstra (zde by bylo možné mnohem efektivněji využít vypočítané mel-kepstrální koeficienty). Implementované metody detekce nejsou příliš spolehlivé, což autor sám připouští. V popisu potlačení šumu pomocí prahování koeficientů waveletové transformace chybí uvedení metody, která byla použita pro stanovení prahu. Není zde ani uvedeno, zda byla hodnota prahu stanovena pro každou úroveň rozkladu individuálně nebo byla pro všechny úrovně společná. V popisu rovnice (4.1) není jasné, proč se zvolený koeficient 'k' dělí dvěma. Navíc opět není jasné, zda se takto upravuje práh pro všechny úrovně rozkladu nebo pro každou úroveň zvlášť. Vyhodnocení spolehlivosti detekce znělost/neznělost je provedeno pouze na jediné krátké větě od dvou mluvčích. Zároveň není zcela jasné, jak bylo vyhodnocení provedeno. Vhodné by bylo provést ruční segmentaci signálu na jednotlivé fonémy, označit znělé a neznělé a provést porovnání s hranicemi nalezenými navrženými metodami. To ale v textu není uvedeno stejně jako není uvedena procentuální úspěšnost detekce. Pro stanovení vhodných parametrů byly provedeny čtyři testy. Bylo by však vhodné testy provádět na větším množství nahrávek. Dále bych doporučoval provést testy, kdy by se měnila hodnota prahu v závislosti na úrovni rozkladu. Formální úroveň práce snižuje několik překlepů a zejména používání hovorových nebo nevhodných výrazů (např. na str. 34 "porce šumu", na str. 35 "speaker"). Dále je na straně 31 odkazováno na rovnici (5.1), která ovšem v práci není. Typografická úroveň textu je dobrá až na několik neslabičných předložek na konci řádku. Bohužel grafická úroveň obrázků, a to především grafických průběhů signálů, je snížena neostrostí. Je to zarážející, protože tyto obrázky byly jistě získány sejmutím obrazovky vytvořeného programu, takže neostrosti musely vzniknout až dalším zpracováním. Přes uvedené nedostatky práci doporučuji k obhajobě.
Kritérium | Známka | Body | Slovní hodnocení |
---|---|---|---|
Splnění požadavků zadání | A | 20/20 | Zadání diplomové práce je splněno, vytvořená aplikace je funkční a provádí potlačení šumu pomocí waveletové transformace s různým přístupem ke znělým a neznělým segmentům. |
Odborná úroveň práce | F | 24/50 | Pro detekci znělosti a neznělosti signálu jsou použity pouze jednoduché metody založené na sledování krátkodobé energie, autokorelačního koeficientu R[1], středního počtu průchodů nulovou úrovní a sledování mel-kepstrálního koeficientu c[0]. Chybí však diskuse, proč byly zvoleny právě tyto parametry, případně odkaz na zdroj, ze kterého bylo jejich použití převzato. Také rozdělení na statistické a mel-kepstrální metody detekce není přesné. Vhodnější by bylo rozdělení na metody v časové a kmitočtové oblasti. Dále je u střední energie signálu uvedeno, že detekuje spíše ticho než neznělost signálu.Naproti tomu u mel-kepstrálního koeficientu c[0] je uvedeno, že reprezentuje zejména energii signálu a že je postačující pro detekci znělost/neznělost. Chybí složitější metody detekce znělost/neznělost založené v časové oblasti např. na sledování základního tónu nebo v kmitočtové oblasti např. na tvaru spektra nebo kepstra (zde by bylo možné mnohem efektivněji využít vypočítané mel-kepstrální koeficienty). Implementované metody detekce nejsou příliš spolehlivé, což autor sám připouští. V popisu potlačení šumu pomocí prahování koeficientů waveletové transformace chybí uvedení metody, která byla použita pro stanovení prahu. Není zde ani uvedeno, zda byla hodnota prahu stanovena pro každou úroveň rozkladu individuálně nebo byla pro všechny úrovně společná. V popisu rovnice (4.1) není jasné, proč se zvolený koeficient k dělí dvěma. Navíc opět není jasné, zda se takto upravuje práh pro všechny úrovně rozkladu nebo pro každou úroveň zvlášť. |
Interpretace výsledků a jejich diskuse | E | 10/20 | Vyhodnocení spolehlivosti detekce znělost/neznělost je provedeno pouze na jediné krátké větě od dvou mluvčích. Zároveň není zcela jasné, jak bylo vyhodnocení provedeno. Vhodné by bylo provést ruční segmentaci signálu na jednotlivé fonémy, označit znělé a neznělé a provést provnání s hranicemi nalezenými navrženými metodami. To ale v textu není uvedeno stejně jako není uvedena procentuální úspěšnost detekce. Pro stanovení vhodných parametrů byly provedeny čtyři testy. Bylo by však vhodné testy provádět na větším množství nahrávek. Dále bych doporučoval provést testy, kdy by se měnila hodnota prahu v závislosti na úrovni rozkladu. |
Formální zpracování práce | E | 5/10 | Formální úroveň práce snižuje několik překlepů a zejména používání hovorových nebo nevhodných výrazů (např. na str. 34 "porce šumu", na str. 35 "speaker"). Dále je na straně 31 odkazováno na rovnici (5.1), která ovšem v práci není. Typografická úroveň textu je dobrá až na několik neslabičných předložek na konci řádku. Bohužel grafická úroveň obrázků, a to především grafických průběhů signálů, je snížena neostrostí. Je to zarážející, protože tyto obrázky byly jistě získány sejmutím obrazovky vytvořeného programu, takže neostrosti musely vzniknout až dalším zpracováním. |
eVSKP id 14339