PFEIFER, V. Detekce klíčových slov v řečových signálech [online]. Brno: Vysoké učení technické v Brně. Fakulta elektrotechniky a komunikačních technologií. 2013.
Disertační práce Ing. Václava Pfeifera se zabývala metodami detekce klíčových slov v řečovém signálu. Toto téma bylo náročné zejména z pohledu získání dostatečného přehledu v problematice, nastudování různých metod a přístupů k řešení problému. Po této úvodní fázi řešení disertační práce, která trvala nadměrně dlouhou dobu, se disertant zaměřil na řešení některých dílčích metod používaných pro detekci klíčových slov a nesnažil se o ucelené řešení problému. Konkrétně se jedná o minimalizaci nedostatků stávajících řešení a návrh nových řešení a jejich následné porovnání. Byly navrženy nové klasifikátory, které byly následně porovnány se stávajícími a nakonec byl vyhodnocen navržený systém pro diskriminační detekci klíčových slov. Jádro disertační práce bylo dostatečně publikováno a ve formě produktu vznikl nový software „Víceúčelový fonémový klasifikátor“. Během doktorandského studia se podílel na řešení výzkumných projektů MSM, NPV II a také se aktivně podílel na řešení několika rozvojových projektů FRVŠ F1 a G1.
Prof. Ing. Florián Makáň, PhD. Ústav elektroniky a fotoniky FEI STU Ilkovičova 3, 812 19 Bratislava, SR florian.makan@gmail.com Bratislava 12. 5. 2013 Oponentský posudok doktorskej dizertačnej práce Ing. Václav Pfeifer: DETEKCE KLÍČOVÝCH SLOV V ŘEČOVÝCH SIGNÁLECH ako podklad pre pokračovanie k udeleniu akademicko-vedeckého titulu doktora v odbore Teleinformatika Všeobecná charakteristika dizertačnej práce Posudzovaná dizertačná práca má primeraný celkový rozsah, 107 strán. Obsahovú náplň práce tvorí Zoznam symbolov, veličín a skratiek, Úvod, Súčasný stav, Ciele dizertácie, päť predmetných kapitol, Záver, Literatúra a Prílohy. Jej rámec na začiatku tvoria formálne náležitosti: Abstrakt, Kľúčové slová v českom a v anglickom jazyku, Prehlásenie o samostatnom vypracovaní práce, Poďakovanie za odborné vedenie a konzultácie, Obsah, Zoznam obrázkov, Zoznam tabuliek a Zoznam symbolov, veličín a skratiek. Na konci práce jej rámec dotvárajú Prílohy; Štruktúra databáze TIMIT, Štruktúra databáze DBRS, Zdrojový kód funkcie samplesTOframes, Štruktúra vstupných parametrov testovacieho systému, Paralelné spracovanie v Matlabe a stručný odborný životopis autora. Práca má zaužívanú štruktúru. Kapitoly na seba logicky nadväzujú, obsahovo sú navzájom vyvážené. Napísaná je na vysokej jazykovej, odbornej aj formálnej technickej úrovni s podporou počítača. Autor v nej preukázal nadobudnuté skúsenosti v skúmanej problematike v rámci svojej vedeckej prípravy. Osvojil si profesionálny prejav s didaktickým podaním problematiky. 1 Posúdenie zamerania témy dizertačnej práce a jej aktuálnosti Námet doktorskej práce odpovedá jednoznačne odboru dizertácie – Teleinformatika. Téma práce je zameraná na nové možnosti vyhľadávania konkrétnej informácie vo všeobecne neobmedzených rečových záznamoch. Vychádza zo súčasného stavu detekcie kľúčových slov pomocou troch známych prístupov: detektorov založených na porovnávania vzorov, detektorov založených na štatistických metódach – HMM a diskriminačných metód, založených na aplikácií nelineárnych funkcií. Autor si postavil za hlavný cieľ dizertácie navrhnúť a realizovať systém pre detekciu kľúčových slov na princípe aplikácie nelineárnych príznakových funkcií na rečový signál na báze najnovšie prezentovaného systému – DKWS, na základe overených algoritmov, vychádzajúcich zo všeobecnej definície problémov pomocou citovaných metód „Large Margin and Kernel“ a SVM. Vzhľadom k možnostiam tohto systému si autor stanovil päť základných cieľov práce: • Vytvorenie DKWS systému a analýza jednotlivých príznakových funkcií • Definícia metrík a vytvorenie vstupného trénovania a testovania množiny • Návrh a realizácia vhodného fonémového klasifikátora a testovacej množiny • Technické riešenie • Vyhodnotenie navrhnutých metód Nosnou časťou použitého detekčného systému je fonémový klasifikátor a podstatná pozornosť je venovaná fonémovej klasifikácii a optimalizácii trénovacích algoritmov vybraného systému. Zameranie témy považujem za vrcholne aktuálne z hľadiska rozvoja komunikačno-informačných technológií, systémov elektronických komunikácií aj vývoja vedeckého poznania v danej oblasti. 2 Posúdenie prínosov dizertačnej práce Posudzovaná dizertačná práca vykazuje niekoľko pôvodných prínosov. Ťažisko teoretického základu, postupu riešenia, návrhu a realizácie použitého systému práce tvoria kapitoly 4, 5, 6 a 7. Hodnotenie výsledkov je náplňou kapitoly 8. Ako je možné vysledovať z prezentácie autorovho návrhu a aplikácie detekčného systému DKWS, použitého pre realizáciu cieľov práce, dá sa konštatovať, že sa autorovi podarilo minimalizovať nedostatky algoritmov pôvodne prezentovaných v [24, 26, 27], z ktorých autor vychádzal pri stanovení cieľov práce. Pre vyhodnotenie kvality jednotlivých vybraných fonémových klasifikátorov autor zaviedol špecifické metriky, reprezentujúce ich kvalitu. Najčastejšie pomocou tzv. fonémovej chybovosti. Za prínos možno považovať, že autorom navrhnutý trénovací algoritmus pre implementáciu sekvenčného trénovacieho spočíva v modifikácii klasifikačnej funkcie (6.3), resp. (6.6) do podoby podľa vzťahu (6.7). Prínosom v technickom riešení dizertačnej práce je použitie algoritmu „samplesToFrames“, ktorý priraďuje anotované fonémy k jednotlivým rámcom. Implementácia tohto algoritmu mala najpodstatnejší vplyv na výsledky všetkých typov klasifikátorov. Za prínos považujem z hľadiska vysokej výpočtovej náročnosti overovania navrhnutých metód a algoritmov implementáciu paralelného spracovania výsledkov na úrovni procesoru aj grafickej karty. Vedecko-technickým prínosom pre odbor teleinformatika sú v práci popísané vedecké nástroje, technické a programové prostriedky, ktoré boli vytvorené ako súčasť riešenia prace. Uplatnenie výsledkov dizertačnej práce sa predpokladá v rámci komunikačných a informačných sietí a riadiacich systémov pre komunikáciu medzi ľudmi. 3 Posúdenie úrovne publikačnej činnosti autora dizertačnej práce Jadro dizertačnej práce bolo publikované formou vedeckých príspevkov na medzinárodných konferenciách a článkov vo vedeckých časopisoch v rokoch 2006 – 2011, ako je uvedené systémovo v súčasti „Bodové hodnotenie tvorivých aktivít doktoranda“. Publikačná činnosť doktoranda zahŕňa 16 publikovaných prác s uvedením miery spoluautorstva u každej publikácie. Kde je v 15 ako prvý autor a v 1 ako spoluautor; podľa kategórie publikácií: 4xA1, 2xA2. 2xA3, 6xMetRVVI, 2xOstatné. Bol hlavným riešiteľom 1 domáceho grantu B2 – 1841/G1 a 2 produktov: A3, MetRVVI. Možno konštatovať, že doktorand sústavne vedecky pracuje a svoje výsledky pravidelne publikuje na vysokej vedeckej úrovni, ktorá je autorizovaná pri výbere príspevkov redakčnými radami vedeckých časopisov a vedeckými výbormi príslušných vedeckých konferencií. 4 Posúdenie vedeckej erudície autora Na základe počtu, skladby a aktuálnosti 47 citovaných prameňov Literatúry v práci, možno usúdiť, že autor má dobrý prehľad o riešenej problematike dizertácie. Skladba, úroveň a výsledky jeho publikovaných prác dokumentujú, že si doktorand osvojil výskumné vedecké metódy a vie aplikovať vo svojej výskumnej činnosti najnovšiu výpočtovú a meraciu techniku. Zo zoznamu výsledkov vedeckej činnosti uchádzača v prílohe „Celkové bodové hodnotenie doktoranda“ a profesného životopisu autora uvedeného v dizertačnej práci vyplýva, že sa jedná o pracovníka s vedeckou erudíciou. 5 Pripomienky k práci V dizertačnej práci autor asi omylom poďakoval namiesto školiteľovi, vedúcemu diplomovej práce (za odborné vedenie pri vypracovaní doktorskej dizertácie). V práci chýba samostatný zoznam publikovaných prác autora z problematiky dizertácie, resp. celkový zoznam jeho vedeckých publikácií. 6 Otázky k problematike práce Aká je perspektíva výskumu a praktického uplatnenia predmetnej problematiky v rámci elektronických komunikácií, systémov riadenia a v iných oblastiach? Ktoré prostredie okrem MATLABu je vhodné, prípadne vhodnejšie pre riešenie tejto problematiky? . Záver Podľa môjho názoru posudzovaná dizertačná práca Ing. Václava Pfeifera zodpovedá všeobecne uznávaným požiadavkám pre udelenie akademicko-vedeckého titulu Ph.D.. Florián Makáň
Oponentní posudek disertační práce Ing. Václava Pfeifera Detekce klíčových slov v řečových signálech Při zpracování oponentského posudku jsem vycházel z disertační práce s názvem „Detekce klíčových slov v řečových signálech“ a dalších podkladů týkajících se tvůrčích aktivit Ing. Václava Pfeifera. Předkládaná práce má optimální rozsah 105 stran včetně příloh. Zahrnuje seznam použité literatury a vydaných prací autora souvisejících s řešenou oblastí, seznam symbolů, veličin a zkratek, seznam obrázků a tabulek a vlastní zpracovávanou problematiku. Autor práci rozčlenil do devíti kapitol. První kapitola je úvodem do problematiky. Druhá kapitola se věnuje současnému stavu řešené problematiky. Třetí kapitola seznamuje čtenáře s cíly disertace. Metrikám, analýze DKWS systému a fonémové klasifikaci jsou věnovány následující tři kapitoly. Technické řešení je obsahem sedmé kapitoly. Osmá kapitola se týká vyhodnocení navržených metod. Závěr je obsažen v deváté kapitole, kde autor rekapituluje jednotlivé cíle práce a jejich splnění. Práce má dobrou grafickou úpravu, po formální stránce je srozumitelně napsána. Obsahuje některé drobné nedostatky: Str. 18 - výraz 2.1 Ve vzorci je zaměněn význam symbolu i a k. Str. 21 - výraz 2.4 – co vyjadřuje symbol a. Str. 23 - výraz 2.11 je správný za předpokladu, že P(q) = 1, vysvětlete. Str. 52 - na konci strany věta - Po náročném technickém odvození – kde je to odvození. Je to skryté dílo nebo odkaz na literaturu? Str. 55 - co znamenají červené a modré body v grafu? Ve smyslu požadavků kladených na uchazeče konstatuji, že: Téma disertační práce zaměřené na detekci klíčových slov v řečových signálech je téma aktuální a je úzce spjato s rozvojem nových technologií. Námět práce odpovídá oboru disertace . Práce vykazuje původní přínosné části. Spatřuji ji zejména v kapitole 6 a 7. V předložené práci ale nejsou dostatečně rozlišeny vlastní a převzaté postupy. Původní výsledky předkladatel publikoval jako autor nebo spoluautor v zahraničních časopisech (1 článek ) a ve vědeckých sbornících ze zahraničních konferencí (4 články mimo území ČR a SR ), ale i v domácích časopisech a domácích konferencích a vědeckých seminářích. Z předložených materiálů vyplývá, že se jedná o člověka s vědeckou erudicí. Publikační činnost autora považuji za standardní a konstatuji, že jádro práce bylo publikováno na požadované úrovni a v požadovaném rozsahu. Práce je přehledná a má logickou strukturu. Problematika je správně rozvržena, sloh je výstižný. Navrhuji, aby se autor v diskusi vyjádřil k následujícím otázkám: - Podrobněji rozlišil vlastní dosažené výsledky a převzaté informace - Z grafů v kapitole 8.2 je zřejmé, že není významný rozdíl mezi jednotlivými používanými metodami. Z jakého důvodu se pro analýzu řeči používá takové množství metod. - Na straně 51 ve vztahu 6.8 požívá autor normu L2. Je možné použít jinou normu, nebo je jasné, že tato norma je nejlepší, nebo zda nestačí metrika. Na základě předložené práce a přiložených podkladů konstatuji, že podle mého názoru předkladatel splnil požadavky řízení k udělení akademicko-vědeckého titulu doktora v oboru Teleinformatika. V Brně dne 17.6.2013 Doc. Ing. Otto Dostál, CSc.
eVSKP id 61398