PELIKÁN, M. Identifikace řečové aktivity v rušeném řečovém signálu [online]. Brno: Vysoké učení technické v Brně. Fakulta elektrotechniky a komunikačních technologií. 2013.
Student pracoval samostatně a odvedl kus práce v oblasti, která je náročná na správné pochopení algoritmů zprqacování signálu. Samostatně navrhl a programově odladil dva detektory řečové aktivity, které pak využil pro jednokanálovou metodu spektrálního odečítání. Projevoval dostatečnou aktivitu v komunikaci s vedoucím práce a bral v úvahu jeho doporučení.
Zadání diplomové práce považuji za splněné. Ve výpočetním prostředí Matlab bylo implementováno několik detektorů řečové aktivity, bylo provedeno jejich srovnání a posouzení vlivu detektoru na zlepšení poměru signálu od šumu u metody spektrálního odečítání. Bohužel stejná pozornost nebyla věnována vlastnímu textu práce, což snižuje celkové hodnocení. Za nejdůležitější námitky považuji následující 2. Na straně 43 u popisu databáze TIMIT je uvedeno, že popisné soubory neodpovídali přesně fonetickému přepisu a obsahovaly nesmyslné znaky. Není uvedeno bližší vysvětlení a dotčené soubory byly vyřazeny nebo, což je možná horší, označkování bylo upraveno. Nabízí se pak otázka, zda přitom nedošlo k výraznému zásahu do databáze. Druhá hlavní námitka je k použití nahrávek s různým vzorkovacím kmitočtem. Pokud je mi známo, databáze TIMIT používá vzorkovací kmitočet 16 kHz. Zatímco při vytváření vlastní databáze student použit vzorkovací kmitočet 44,1 kHz. Při zpracování nahrávek z VUT databáze mohl vyšší vzorkovací kmitočet ovlivnit funkci detektoru G.729. Napovídá tomu i poznámka na str. 49, že „Databáze TIMIT má křivku parametru \alpha mnohem níže položení i při vyšších SNR než databáze VUT“. V textu práce se objevuje několik nepřesností. Na straně 13 u popisu vzniku řeči je uvedeno, že rychlým kmitáním hlasivek je typický pro „vznik souhlásek a znělých samohlásek“. Evidentně zde došlo k záměně souhlásek a samohlásek. V titulku obrázku 1.5 je uvedeno „Odezva preemfázového filtru na vstupní signál“, přitom se jedná o modulovou kmitočtovou charakteristiku. Na straně 17 je uvedeno, že „dělení delšího úseku řečového signálu na krátké úseky je prováděno pomocí časových oken, aby nedocházelo k nepřesnosti ve zpracování“. Není však vysvětleno k jaké nepřesnosti a jak jí zabrání dělení na kratší úseky. Na konci části 1.4.3 se tvrdí, že „Při zpracování LPC jsou nejprve využity psychoakustické aspekty, tedy křivky stejné hlasitosti, maskovací křivky a nelineární vztah mezi intenzitou zvuku a jeho snímanou hlasitostí“. Přitom použitý Levinson-Durbinův algoritmus je odvozen pro obecnou lineární predikci a nic z uvedeného nevyužívá. U popisu rovnice (2.4) je symbol k vysvětlen jako „pořadí segmentu“. Spíše se jedná o časový index začátku segmentu. Na straně 24 je uvedeno „V angličtině se tomuto jevu říká quefrency.“ Nejde přitom o jev, ale spíše veličinu. Na straně 26 je uvedeno „ Detektor pracuje následovně: provádí rozhodování každých 10 sekund v rámci o velikosti 240 vzorků“. Pravděpodobně to mělo být každých 10 milisekund. Na straně 29 je uvedeno, že zpoždění detektoru G.729 je pouze 5 ms, což je velikost budoucí části rámce. Není započítána doba výpočtu. U popisu rovnice (2.19) je místo symbolu f_0 podruhé vysvětlen symbol f_s. V rovnici (2.20) je celková energie rámce vypočtena z prvního autokorelačního koeficientu r'(0), který je ale v rovnici o půl strany výše vždy nastaven na 1. V popisu rovnice (2.21) není uvedena hodnota symbolu f_l. U popisu rovnice (2.26) je ZC s pruhem označeno jako hodnota aktuálního rámce, přitom se má jednat o průměrnou hodnotu. Rovnice (3.3) popisující obecné spektrální odečítání s parametrem „a“ je označena jako rovnice výkonového spektrálního odečítání. U rovnice (4.2) nejsou vysvětleny jednotlivé symboly. Dále se vyskytují neslabičné předložky na konci řádku, na několika místech jsou funkce a konstanty sázeny kurzívou místo stojatě, zatímco proměnné stojatě, a objevuje se i několik překlepů: str. 16: „viz.“ místo „viz“ str. 16: „Vyplívá“ místo „vyplývá“ str. 20: „milovské“ místo „melovské“ str. 24: v poslední větě před částí 2.3.3 chybí číslo odkazované rovnice str. 29: „Linerání“ místo „Lineární“ str. 30: „autokorelací koeficienty“ místo „autokorelační koeficienty“ str. 39: chybí číslo odkazu na literaturu str. 46: „viz.“ místo „viz“ str. 50: „poměru ku šumu“ místo „poměru signálu ku šumu“ str. 53: chybí číslo odkazované tabulky str. 54: „žádný mezi“ místo „žádný rozdíl mezi“ str. 54: u tabulky 4.4 není jasné, co znamenají jednotlivé sloupce
eVSKP id 66662