ŠÍBL, E. Klasifikace zvuků pohybujících se objektů pomocí neuronových sítí [online]. Brno: Vysoké učení technické v Brně. Fakulta elektrotechniky a komunikačních technologií. 2025.
Práce se zabývá klasifikací pohyblivých objektů pomocí konvolučních sítí. Práce je čtivá, kapitoly jsou správně strukturované, cíle byly dosáhnuty a jsou dobře popsány. Mám výhrady k přístupu během vypracovávání práce, současnou verzi práce jsem viděl až těsně před odevzdáním, student dokončil většinu věcí až na poslední chvíli. Přesto je práce na vysoké úrovni, v textu je jen málo překlepů a typografických nesrovnalostí; obsahuje z logické stránky vše, co je potřeba. Je škoda, že student nešel cestou vlastního datasetu, který byl během letního semestru diskutován. V práci mi chybí porovnání výpisu inference modelů vůči například realtime záznamu z mikrofonu pro ověření prahování. V reálných podmínkách totiž naprostá většina zvuku nebude pohybující se objekt a bylo by vhodné mít porovnání robustnosti i s neznámými zvuky. Proto považuji předložené výsledky za relativní a možná zavádějící a nespoléhal bych na to, že v reálném provozu by měl model například 99% úspěšnost. Chybí mi tu určitý přesah v praktické části. Student prokázal znalost problematiky, projevil samostatnost a dobře zpracoval dané téma, přestože se jedná o známý dataset a použité metody. Hodnotím celkově 90 bodů / A.
Předložená diplomová je na solidní úrovni a student se dokázal úspěšně zorientovat v problematice klasifikace zvukových nahrávek pomocí neuronových sítí. Teoretická část obsahuje vše potřebné k uvedení čtenáře do kontextu. Práce také obsahuje minimum typografických chyb a jazykově je na dobré úrovni. Osobně bych uvítal rozsáhlejší rešerši v rámci tématu a případné srovnání s různými modely z vědecké literatury. Tomuto se student věnoval jen okrajově. Také mi chybí detailnější opodstatnění volby struktury navrženého modelu. Musím ale vyzdvihnout, že se student snažil použít automatizovaný postup pro nalezení nejlepších hyperparametrů modelu. Dále je škoda, že student nezkusil model rovnou trénovat s alternativními číselnými typy a pouze aplikoval kvantizaci vah, která měla znatelný negativní dopad na kvalitu predikce. Model byl bohužel vyzkoušen pouze na jednom datasetu a nebyly ověřeny schopnosti modelu při reálném nasazení, které by určitě odhalilo mnoho nedostatků. Myslím si, že optimalizace modelu mohla nastat už při volbě počtu parametrů, který je poměrně vysoký. Záleží na požadovaných schopnostech, ale věřím tomu, že by model s obdobnou klasifikační přesností mohl mít pouze desítky až stovky tisíc parametrů. Dále mohl student lépe prozkoumat možnosti spouštění modelů v reálném čase. Namátkově mě napadá např. komunitní knihovna RTNeural, která je přímo zaměřená na zpracování zvukových dat v reálném čase. I přes zmíněné nedostatky práci hodnotím 89 body (stupeň B) a věřím, že by student byl schopen provést další optimalizační kroky a ověřit funkčnost systému v reálných podmínkách.
eVSKP id 167442