Posudky závěrečné kvalifikační práce

Posudek vedoucího

Švento, Michal

Práca študenta Kryštofa Matušku sa zaoberá porovnaním objektívnych a subjektívnych metrík používaných pre hodnotenie poškodených audio signálov. Po formálnej stránke obsahuje niekoľko typografických a štylistických chýb. V úvodných dvoch kapitolách popisuje teóriu ku metrikám a poškodeniam signálu. Text je miestami často zle čitateľný a obsahuje až nadbytočné informácie. Takisto by zlepšilo, keby študent nahradil niektoré prevzaté obrázky vlastnými, načo bol pri tvorbe textu upozornený. V tretej kapitole študent popisuje skript, ktorý vytvoril na automatizované vyhodnotenie objektívnych metrík. Pozitívne hodnotím skript samotný, ktorého funkčnosť ale mohla byť v práci popísaná detailnejšie. Študent počas celého roka pracoval pravidelne a konzultoval. Výhrady mám ku posluchovému testu. Tu študent postupoval samostatne a výber nahrávok do testu dopredu neskonzultoval a rovno prešiel do fáze testovania. To negatívne ovplyvnilo i následnú prezentáciu týchto výsledkov v štvrtej kapitole, ktoré pôsobia veľmi chaoticky a je náročné vyvodiť závery. Nepridáva tomu ani fakt, že výber nahrávok nepopisuje ani v texte práce. Celkovo prácu hodnotím 60 bodmi/D.

Navrhovaná známka: D

Body: 60

Posudek oponenta

Rajmic, Pavel

Bakalářská práce pana Kryštofa Matušky měla za úkol dát do souvislosti objektivní a subjektivní hodnocení poškozených audio nahrávek. Práce není vhodně členěna a řazena do bloků. Například prohození kapitol 1 a 2 by mi připadlo logičtější (nejprve definovat typy poškození, pak teprve mluvit o jejich měření). Podobně by mi připadlo vhodnější popsat jednoduché metriky jako SNR před těmi složitějšími. Jazykově není práce špatná, jen občas se vyskytne překlep nebo neshoda podmětu s přísudkem. Některé zkratky nejsou zavedeny v textu. Obrázky jsou nevhodně vkládány bitmapově a ve formátu JPEG; obrázky 1.1 a 1.6 nemusely být převzaty, ale autor je mohl vytvořit vlastními silami. Není jasné, podle jakého klíče jsou obrázky číslovány. Z hlediska typografie je nejvíce nápadné používání fyzikálních jednotek v kurzívě, což je špatně. Co se týká věcného obsahu, mám několik zásadních negativních připomínek, seřazených podle důležitosti: * Teoretická část působí jako kompilát různých zdrojů, který nedostal společný kabát. Mnohé věty působí frázovitě, vágně až bezobsažně. Z textu jsem nenabyl dojem, že by student rozuměl, jak popisované funguje. * Text i praktická část pracuje s více typy poškození, než požadovalo zadání, a to považuji spíše za chybu než za pozitivum. Detailnější zaměření na zadané dva typy poškození by mohlo vést k analýze, která by mohla přinést nějaký závěr. Takto je vše zpracováno povrchně. * Část 4. 2 o subjektivních testech se nachází v kapitole o zpracování dat; logicky patří do kapitoly o pořízení dat. Popis subjektivního testu je dva odstavce dlouhý, což je naprosto nedostatečné pro získání představy, jak testy proběhly. Vede to k pochybnostem. * Student elektronicky odevzdal šest pythonovských souborů, což se zdá jako zlomek toho, co prezentuje příloha A.1. V této příloze jsou stejným grafickým způsobem znázorněny jak vnořené funkce, tak i podadresáře (které navíc mají být vytvořeny až spuštěním). Soubor readme navíc obsahuje zase trochu jiné informace. Není k dispozici jediný ukázkový wav soubor, na kterém by si čtenář mohl spustit demonstrační ukázku. To vše dohromady nepřispívá k věrohodnosti implementace. * Ke statistické analýze je použita korelace, která (jak student správně píše) kvantifikuje lineární vztahy. Nicméně použité stupnice lineární nejsou, takže hledat lineární vztah například mezi SNR v decibelech (tedy v logaritmické stupnici) a čímkoliv dalším je metodologicky pochybné. Chybí grafy, na kterých by to mohlo být okamžitě vizuálně ověřitelné; prezentováno je jenom výsledných pět korelačních koeficientů, a to dokonce dohromady pro řeč i hudbu. * Autor si často protiřečí: např. STOI je jednou popsána jako metrika pro srozumitelnost, ale pak se jím podle autora měří kvalita; jinde je hudební databáze GTZAN označena jako vhodná pro STOI, přičemž STOI hodnotí řečové signály; škála pro PESQ je definována mezi 1 a 5, ale vzápětí autor vysvětluje, co znamenají čísla nižší než 1. * V teoretické části sice SNR a SDR mají stejný vzorec, ale autorovi nepřipadne překvapivé, že v praktické části vycházejí různé hodnoty. * Není jasné, proč se autor spokojil se vzorkovací frekvencí 22,05 kHz. Kmitočty nad 10 kHz nemají na vnímanou kvalitu vliv? Očekával bych alespoň diskuzi. * Papírová kopie, kterou jsem dostal do ruky, se liší od elektronické verze, minimálně v seznamu literatury. Shrnuto, z výše uvedených důvodů podle mého názoru nemá předložená práce prakticky žádný přínos a její závěry jsou nevěrohodné. Praktická část s vyhodnocením je komentovaný sled grafů bez hlubšího porozumění a diskuze.

Navrhovaná známka: F

Body: 40

Otázky

Namátkově jsem se podíval do kódu metrics.py. Pokud chápu dobře, u PESQ lze nastavit vzorkovací kmitočet na 8 nebo 16 kHz. Váš kód předpokládá, že si funkce PESQ v ostatních případech signál převzorkuje, což ale podle mě není pravda. Můžete se k tomu prosím vyjádřit?
Proč v obrázcích 7.1 až 7.5 chybí poškození typu time dropout?