BAHOUNEK, O. Audiovizuální rozpoznávání osoby [online]. Brno: Vysoké učení technické v Brně. Fakulta informačních technologií. 2024.

Posudky

Posudek vedoucího

Plchot, Oldřich

Student se dokázal vyrovnat s problémem velmi dobře a dokázal použít a zkombinovat state-of-the-art techniky v rozpoznání řečníka i obličeje. Dosažené výsledky snesou srovnání se současnými výzkumnými systémy pro audiovizuální rozpoznání osoby. Dosažené výsledky jsou zajímavé a na práci by se dalo dobře navázat při dalším výzkumu.

Dílčí hodnocení
Kritérium Známka Body Slovní hodnocení
Informace k zadání Práce byla obtížnějšího charakteru. Student musel pochopit nejnovější techniky v machine learning pro verifikaci mluvčího a identifikaci osoby podle obličeje. Následně musel tyto poznatky použít při vytvoření nového systému, který pracuje zároveň s oběma modalitami.
Práce s literaturou Student prostudoval doporučenou literaturu a sám si vyhledal doplňující zdroje. Student byl při rešerši současného state of the art aktivní.
Aktivita během řešení, konzultace, komunikace Student dodržoval dohodnuté termíny a zejména v letním semestru pracoval velmi samostatně a efektivně.
Aktivita při dokončování Práce byla odevzdána s předstihem a byla předložena ke konzultaci.
Publikační činnost, ocenění
Navrhovaná známka
A
Body
90

Posudek oponenta

Mošner, Ladislav

Student ve své práci předčil požadavky zadání. Úspěšně navrhl, implementoval a otestoval několik modelů kombinujících jak zvuk a obrázek, tak zvuk a video. Po technické stránce je práce vysoce nadprůměrná. Co ubírá na celkové kvalitě, je technická zpráva, kvůli výše zmíněným problémům, nepřesnostem v technickém popisu a rovnicích. V celkovém hodnocení dávám větší váhu samotnému řešení nad textem. 

Dílčí hodnocení
Kritérium Známka Body Slovní hodnocení
Náročnost zadání Bakalářská práce má za úkol kombinaci dvou modalit (zvuku a obrazu/videa) při verifikaci osob využívající moderní přístupy strojového učení. Student se tak musel seznámit s relevantními modely a příslušnou popisující literaturou. Kombinace předtrénovaných modelů (zahrnujících známý WavLM) a jejich následné trénování vyžaduje velký výpočetní výkon. Pro náročné výpočty byla zvolena GPU část finského superpočítače LUMI postaveného na AMD grafických kartách. Jelikož jsou majoritně používanými grafickými kartami čipy od společnosti Nvidia, skýtá použití AMD svá úskalí. V neposlední řadě se musel student vypořádat s efektivním zpracováním velkých objemů dat při získávání videí z YouTube a rozšiřování existujících datových sad pro účely experimentů.
Rozsah splnění požadavků zadání Bod 3 zadání požaduje rešerši dostupných audiovizuálních datových sad využitelných v úloze verifikace osob. Ačkoliv se Sekce 6.2 tématu dotýká, rešerši nezahrnuje. Z technické zprávy tak není splnění bodu zcela zřejmé. Obdobně není jasné, zdali byly vyvinuté systémy porovnané s těmi, které byly vyvinuty ve skupině Speech@FIT (bod 5 zadání). Na druhou stranu bod 4 je významně rozšířen. Kromě požadovaného jednoho systému, jehož vstupem jsou dva deskriptivní vektory (z dvou modalit), student navrhl a realizoval hned několik modelů. Některé z nich jsou poměrně komplikované (a současně funkční). I přes zmíněné nedostatky se domnívám, že rozšíření převažují. 
Rozsah technické zprávy Text práce svým rozsahem výrazně nevybočuje a je informačně bohatý.
Prezentační úroveň technické zprávy 85 Popis teoretických východisek zabírá poměrně k popisu návrhu, implementace a vyhodnocení značnou část technické zprávy. To na jednu stranu dokresluje, že se student seznámil nejen s nejnovějšími modely, ale i historickým vývojem k nim vedoucím (který dodává logické propojení částí, např. návaznost „Inception“ na „VGG“). Na druhou stranu je věnován prostor popisu modelů a technik, které ve výsledku nejsou využity (např. X-vector, Viola-Jones, vision transformer, apod.). Místo potenciálně ušetřené redukcí nepoužitých technik by bylo vhodné zaplnit detailnějším popisem metod, implementace a použitých nástrojů (např. WeSpeaker). Teorie proniká i do návrhu metod, kde některé realizované přístupy ke kombinaci modalit staví na článcích dříve v textu neuvedených. Celkově je text psán pochopitelně. 
Formální úprava technické zprávy 70 Z pohledu typografie práce trpí některými problémy. Popisky tabulek jsou uváděny až za samotnou tabulkou. Obrázky nejsou nikdy odkazovány z textu a jsou rastrové, což ubírá na vizuální stránce (a v některých případech i na čitelnosti). V Obrázku 4.5 chybí popisky os. Při odkazování mnohdy chybí informace, na co reference směřuje (na tabulku, sekci apod.). Spojovník je používán na místech, kam patří pomlčka (nahrazení čárky, rozsah). Srozumitelnosti by přispělo i konzistentní používání symbolů a fontů (např. v Sekci 3.4.3 tučné a normální Q představují stejný symbol, nebo v Obrázku 5.1 je symbol e_a zaměněn za e_v). Jazykové hledisko je ovlivněno četnými chybami. Ty mají na práci negativní dopad. Mezi gramatickými chybami se často objevuje špatné skloňování (např. Sekce 3.3.1: podrobeny dvou dalším vrstvám, Sekce 6.2.1: délka hlasové záznamu), problémy ve shodě podmětu s přísudkem (např. Sekce 6.3.1: řada experimentů se pokusili zjistit). Méně často se objevují nedokončené věty bez přísudku, chyby v čárkách a překlepy (např. Sekce 6.3: pracovat na úrovní). Student občas používá nesprávné termíny (např. bankovní filtr místo banky filtrů, dekorelizace místo dekorelace). Překlad některých odborných termínu používaných v anglické literatuře do češtiny je palčivou otázkou (proto akceptuji používání slov jako „embedding“). Nicméně, používání a české skloňování anglických slov v případech, kdy existují ustálené české pojmy, považuji za nedůsledné (např. „upsamplují“, „pro každý frame“, „jejich joint trénování“, „dataset“, „threshold“, atd.). Student občas používá zkratky bez jejich rozepsání a vysvětlení (např. Sekce 3.3.2: FBANK), nebo v názvech sekcí (např. 3.4.3 MHFA).
Práce s literaturou 80 Kapitola 2 teoretické části necituje žádnou literaturu, tudíž není zřejmé, odkud pochází prezentované informace. V další části teorie jsou již zdroje citované. Je patrné, že student provedl důslednou rešerši modelů pro extrakci deskriptivních vektorů ve zvukové i obrazové doméně, což je chvályhodné. Příslušné relevantní články pak odcitoval. Díky tomu seznam literatury obsahuje práce staršího data, ale i nedávno vydané články popisující modely na úrovni vědy (SOTA). Jen některé citace nejsou relevantní (např. citování použité knihovny WeSpeaker u popisu architektury ResNet), nebo primární (např. citování dizertační práce vedoucího při popisu DCT jako posledního kroku výpočtu Mel-frekvenčních kepstrálních koeficientů). Některé důležité citace (jako např. WavLM, VGGFace2 či MUSAN) chybí. Některé citace nejsou úplné (často chybí informace, kde byl článek publikován: [1, 3, 5, 6, 9, 15, 16, 23]). U publikovaných článků by bylo vhodnější citovat příslušnou konferenci/časopis než arXiv (ale to je spíše doporučení do budoucna). 
Realizační výstup 100 Student dokázal překonat mnohé technické výzvy týkající se stahování videí, rozšiřování datové sady a trénování složitých modelů na superpočítači světové úrovně. Ačkoli trénování neuronových sítí nemusí být snadné zvláště při implementaci nových modelů, student si s ním dokázal poradit a jím natrénované modely dosahují přesvědčivých výsledků. K tomu efektivně využil dedikovanou knihovnu WeSpeaker (distribuovanou pod licencí Apache License 2.0) stavějící na knihovně PyTroch. Převzaté zdrojové kódy (např. Inception, WavLM) uvádějí licence. Navržené přístupy byly vyhodnoceny a porovnány s použitím datové sady VoxCeleb1, na které zejména modely kombinující modality poskytovaly velmi malé EER, kdy už je průkaznost výsledků snížená. Proto velmi oceňuji, že byla vytvořena rozšířená datová sada, která je těžší. Výsledky na ní jsou proto více vypovídající a stále prokazují efektivitu navržených modelů. Vyhodnocení bylo provedeno i pro modely kombinující zvuk a video, kde kromě velmi přesných predikcí stojí za zmínku i kompetitivní výsledky navrženého značně komplexního modelu. K bakalářské práci byla kromě zdrojových kódů přiložena i srozumitelná dokumentace popisující jakým způsobem otestovat přiložené natrénované modely. 
Využitelnost výsledků Práce jednak čerpá z literatury a dříve publikované metody pro kombinaci obrazu a zvuku (jako „soft attention“ a „multi-modal gated attention“) aplikuje v kontextu moderních modelů pro extrakci deskriptivních vektorů. Poslední model v rámci kombinace obrazu a zvuku staví na existující publikaci, kde byla architektura modelů obou modalit stejná. V bakalářské práci se architektury liší, a přesto student dokázal aplikovat kombinaci tak, že prokázala zlepšení oproti předchozím zmíněným přístupům. Práce je unikátní i přístupy ke kombinaci zvuku a videa. Byly navrženy čtyři metody s rostoucí složitostí. Poslední z nich je zcela nová a přímo navržená pro použitý model (WavLM a MHFA). Pro její návrh bylo potřeba dobře porozumět výchozí architektuře. Student s ní dokonce dosáhl velmi dobrých (a v některých testovaných případech nejlepších) výsledků. Je možné, že některé budoucí evaluace, kterých se skupina Speech@FIT účastní, budou zahrnovat audio-vizuální verifikaci. Pak by získané poznatky mohly posloužit i jako inspirace pro výzkum ve skupině. 
Navrhovaná známka
A
Body
90

Otázky

eVSKP id 153223