BRADÁČ, J. Systém pro diarizaci mluvčích [online]. Brno: Vysoké učení technické v Brně. Fakulta elektrotechniky a komunikačních technologií. 2012.

Posudky

Posudek vedoucího

Míča, Ivan

Cílem práce bylo vytvoření funkčního systému schopného neznámou nahrávku v první fázi segmentovat na úseky, v nichž hovoří jeden mluvčí a v druhé fázi rozhodnout, v kterých segmentech mluví stejní mluvčí. To se podařilo částečně a vytvořenou aplikaci v Matlabu lze v současné podobě považovat spíše teprve za proof of concept. Student pracoval na tomto tématu od počátku s nadšením, čímž ovšem vyvažoval nepříliš vysokou samostatnost při řešení tohoto úkolu. Vhledem k rozsahu zadání a k počáteční malé zkušenosti s programováním a zpracováním signálů však dosažené výsledky nejsou špatné. Kladně rovněž hodnotím snahu o precizní zpracování závěrečné zprávy.

Navrhovaná známka
D
Body
62

Posudek oponenta

Atassi, Hicham

Předložená práce Josefa Bradáče se zabývá diarizací mluvčích. Práce má přijatelnou formální a stylistickou úroveň, až na některé výjimky, například chybí popisky os grafů 6.5 a 6.6 a používání nevhodných termínů jako je „vyfiltrovat“. Taky mi vadí méně formální vyjadřování v některých odstavcích a časté překlepy. Výtky z odborného hlediska shrnu v následujících bodech •Autor si často plete pojmy rozpoznání mluvčích a diarizace mluvčích, pravděpodobně nechápe rozdíl mezi tyto pojmy. •Uvedené ROC křivky v práci nejsou správné, správně by ROC křivka měla prezentovat vztah správně pozitivních vzorů a falešně pozitivních vzorů. To, co autor představuje jako ROC, je jakýmsi hybridem mezi DET křivkami a správnými ROC křivkami. Každopádně tento nový „vynález“ nemá žádnou vypovídací hodnotu. •Není žádná zmínka o použité databáze, není zřejmé, kolik nahrávek bylo použito pro vývoj algoritmů. •Není mi jasné, z jakých důvodu autor neuvažoval velmi populární, přesto jednoduchou metodu BIC, která se často používá pro danou problematiku. •Práce obsahuje naprosto nesmyslné věty, z nichž je jasná malá snaha autora nastudovat potřebnou teorii. Uvádím některé z nich. -Strana 20, „Klasifikační metody slouží ke třídění dat do konečného počtu tříd pomocí funkcí z předem vymezených funkčních systémů“. -strana 21, „Citlivost tohoto algoritmu (k-NN) se reguluje nastavením k“. -strana 34, „Takovýto shluk, i když dobře odlišitelný, muže dost snadno pohltit sousední shluk, který bude tvořen z mnohonásobně vyššího počtu segmentů“. -Strana 35, „Třetí faktor spočívá ve kvalitě nahrávky. Soubor wav01 má vzorkovací kmitočet 48 kHz. Soubor wav02 44,1 kHz, ovšem další soubory pouze 16 kHz. To nám významně zmenšuje množství informací o daném signálu“. Pravděpodobně autor si nikde nepřečetl, že kmitočtový rozsah normální řeči je do maximální 5 kHz. Přes všechny nedostatky v práci, jsem si vědom toho, že se jedná o velmi složitou úlohu pro studenta na bakalářské úrovni. Dále oceňuji i snahu ze strany studenta vytvořit částečně funkční, přesto nepříliš efektivní systém. Práci navrhuji ohodnotit známkou 50/E.

Navrhovaná známka
E
Body
50

Otázky

eVSKP id 52145