MATĚJEK, L. Použití hlubokých neuronových sítí pro sumarizaci videa [online]. Brno: Vysoké učení technické v Brně. Fakulta elektrotechniky a komunikačních technologií. 2023.

Posudky

Posudek vedoucího

Frýza, Tomáš

V práci je řešena problematika sumarizace video sekvencí, tj. výběr její reprezentativní části s využitím metod(y) strojového učení. Z přístupu studenta během semestru byl patrný velký zájem o problematiku zpracování video signálů, použití neuronových sítí a programování v jazyce Python. Na pravidelných konzultacích student představoval jednotlivé části aplikace, jejich funkcionalitu a také své návrhy jak řešit dílčí problémy. Navržená aplikace je funkční, obsahuje grafické rozhraní a také možnost detekovat objekty ve video sekvenci. Škoda, že přiložené zdrojové kódy postrádají zdokumentování přímo v kódu a chybí také doporučovaný „entry point main()“. Textová část práce vykazuje drobné formální nedostatky a používání některých netechnických spojení. Část práce zabývající se object-based sumarizací nebyla po dohodě s vedoucím do práce zahrnuta. Oceňuji studentovu samostatnost, zájem o problematiku, práci během celého semestru a účast na studentské soutěži Student EEICT 2023 organizované FEKT VUT, kde v kategorii Sensors, Measurement Systems, and Signal Processing těsně obsadil 4. místo.

Navrhovaná známka
B
Body
85

Posudek oponenta

Slanina, Martin

Cílem diplomové práce Libora Matějka bylo vytvořit zkrácenou verzi videa se zachováním nejvíce informativních pasáží původního obsahu s využitím metod hlubokého učení. Text práce je má vhodnou strukturu, nicméně není snadné se v něm orientovat - autor používá bez vysvětlení mnoho akronymů, v českém textu se objevuje řada výrazů v ponechaných angličtině, přestože mají český ekvivalent. V prvních kapitolách práce se autor zabývá strojovým učením obecně a popisuje vybrané algoritmy hlubokého učení. V této pasáži postrádám zamyšlení nad cílem, pro který jsou jednotlivé algoritmy navrženy - nejběžnějším využitím je klasifikace obsahu obrazu do některé z předdefinovaných tříd, případně detekce existence či polohy konkrétního objektu v obrazu (např. v práci popisované VGG-16, AlexNet, Squeezenet, atd.), využitelnost pro sumarizaci videa však není nijak zhodnocena. Naopak shrnutí existujících prací s podobným cílem v kapitole 1.8 je velmi stručné, čekal bych zhodnocení výhod a nevýhod jednotlivých řešení až následné představení koncepce vlastního řešení. Student vytvořil vlastní aplikaci, založenou na již natrénovaném modelu VGG-16. Tento model byl využit pro klasifikaci jednotlivých snímků vstupní videosekvence. Dále student vytvořil jednoduché GUI s využitím populární knihovny PyQt5. Aplikace je zřejmě funkční, vybírá z videosekvence snímky na základě analýzy odlišnosti po sobě jdoucích snímků. Výsledky jsou zhodnoceny jednoduchým testem. Zadání práce považuji za splněné. Kladně hodnotím zejména přehledné uživatelské rozhraní.

Navrhovaná známka
B
Body
80

Otázky

eVSKP id 151754