MATUŠKA, K. Porovnání metrik pro hodnocení úrovně poškození audio signálů [online]. Brno: Vysoké učení technické v Brně. Fakulta elektrotechniky a komunikačních technologií. 2025.

Posudky

Posudek vedoucího

Švento, Michal

Práca študenta Kryštofa Matušku sa zaoberá porovnaním objektívnych a subjektívnych metrík používaných pre hodnotenie poškodených audio signálov. Po formálnej stránke obsahuje niekoľko typografických a štylistických chýb. V úvodných dvoch kapitolách popisuje teóriu ku metrikám a poškodeniam signálu. Text je miestami často zle čitateľný a obsahuje až nadbytočné informácie. Takisto by zlepšilo, keby študent nahradil niektoré prevzaté obrázky vlastnými, načo bol pri tvorbe textu upozornený. V tretej kapitole študent popisuje skript, ktorý vytvoril na automatizované vyhodnotenie objektívnych metrík. Pozitívne hodnotím skript samotný, ktorého funkčnosť ale mohla byť v práci popísaná detailnejšie. Študent počas celého roka pracoval pravidelne a konzultoval. Výhrady mám ku posluchovému testu. Tu študent postupoval samostatne a výber nahrávok do testu dopredu neskonzultoval a rovno prešiel do fáze testovania. To negatívne ovplyvnilo i následnú prezentáciu týchto výsledkov v štvrtej kapitole, ktoré pôsobia veľmi chaoticky a je náročné vyvodiť závery. Nepridáva tomu ani fakt, že výber nahrávok nepopisuje ani v texte práce. Celkovo prácu hodnotím 60 bodmi/D.

Navrhovaná známka
D
Body
60

Posudek oponenta

Rajmic, Pavel

Bakalářská práce pana Kryštofa Matušky měla za úkol dát do souvislosti objektivní a subjektivní hodnocení poškozených audio nahrávek. Práce není vhodně členěna a řazena do bloků. Například prohození kapitol 1 a 2 by mi připadlo logičtější (nejprve definovat typy poškození, pak teprve mluvit o jejich měření). Podobně by mi připadlo vhodnější popsat jednoduché metriky jako SNR před těmi složitějšími. Jazykově není práce špatná, jen občas se vyskytne překlep nebo neshoda podmětu s přísudkem. Některé zkratky nejsou zavedeny v textu. Obrázky jsou nevhodně vkládány bitmapově a ve formátu JPEG; obrázky 1.1 a 1.6 nemusely být převzaty, ale autor je mohl vytvořit vlastními silami. Není jasné, podle jakého klíče jsou obrázky číslovány. Z hlediska typografie je nejvíce nápadné používání fyzikálních jednotek v kurzívě, což je špatně. Co se týká věcného obsahu, mám několik zásadních negativních připomínek, seřazených podle důležitosti: * Teoretická část působí jako kompilát různých zdrojů, který nedostal společný kabát. Mnohé věty působí frázovitě, vágně až bezobsažně. Z textu jsem nenabyl dojem, že by student rozuměl, jak popisované funguje. * Text i praktická část pracuje s více typy poškození, než požadovalo zadání, a to považuji spíše za chybu než za pozitivum. Detailnější zaměření na zadané dva typy poškození by mohlo vést k analýze, která by mohla přinést nějaký závěr. Takto je vše zpracováno povrchně. * Část 4. 2 o subjektivních testech se nachází v kapitole o zpracování dat; logicky patří do kapitoly o pořízení dat. Popis subjektivního testu je dva odstavce dlouhý, což je naprosto nedostatečné pro získání představy, jak testy proběhly. Vede to k pochybnostem. * Student elektronicky odevzdal šest pythonovských souborů, což se zdá jako zlomek toho, co prezentuje příloha A.1. V této příloze jsou stejným grafickým způsobem znázorněny jak vnořené funkce, tak i podadresáře (které navíc mají být vytvořeny až spuštěním). Soubor readme navíc obsahuje zase trochu jiné informace. Není k dispozici jediný ukázkový wav soubor, na kterém by si čtenář mohl spustit demonstrační ukázku. To vše dohromady nepřispívá k věrohodnosti implementace. * Ke statistické analýze je použita korelace, která (jak student správně píše) kvantifikuje lineární vztahy. Nicméně použité stupnice lineární nejsou, takže hledat lineární vztah například mezi SNR v decibelech (tedy v logaritmické stupnici) a čímkoliv dalším je metodologicky pochybné. Chybí grafy, na kterých by to mohlo být okamžitě vizuálně ověřitelné; prezentováno je jenom výsledných pět korelačních koeficientů, a to dokonce dohromady pro řeč i hudbu. * Autor si často protiřečí: např. STOI je jednou popsána jako metrika pro srozumitelnost, ale pak se jím podle autora měří kvalita; jinde je hudební databáze GTZAN označena jako vhodná pro STOI, přičemž STOI hodnotí řečové signály; škála pro PESQ je definována mezi 1 a 5, ale vzápětí autor vysvětluje, co znamenají čísla nižší než 1. * V teoretické části sice SNR a SDR mají stejný vzorec, ale autorovi nepřipadne překvapivé, že v praktické části vycházejí různé hodnoty. * Není jasné, proč se autor spokojil se vzorkovací frekvencí 22,05 kHz. Kmitočty nad 10 kHz nemají na vnímanou kvalitu vliv? Očekával bych alespoň diskuzi. * Papírová kopie, kterou jsem dostal do ruky, se liší od elektronické verze, minimálně v seznamu literatury. Shrnuto, z výše uvedených důvodů podle mého názoru nemá předložená práce prakticky žádný přínos a její závěry jsou nevěrohodné. Praktická část s vyhodnocením je komentovaný sled grafů bez hlubšího porozumění a diskuze.

Navrhovaná známka
F
Body
40

Otázky

eVSKP id 167394