KAVULIAK, D. Rozpoznávání textu pomocí hlubokých neuronových sítí [online]. Brno: Vysoké učení technické v Brně. Fakulta informačních technologií. 2023.

Posudky

Posudek vedoucího

Kišš, Martin

Student se ve své práci zabýval využitím ne-autoregresivních dekodérů v rámci rozpoznávání ručně psaného textu. Naměřené výsledky z experimentování s oběma typy dekodérů nejsou příliš využitelné, protože jejich chybovost je vyšší, než samotného rozpoznávače. Celkově mohl být student více aktivní ohledně konzultací své práce.

Dílčí hodnocení
Kritérium Známka Body Slovní hodnocení
Informace k zadání Jedná se o průměrně obtížné zadání, jehož cílem bylo prozkoumat možnosti ne-autoregresivních dekodérů v rámci rozpoznávání ručně psaného textu. Tyto dekodéry by měly mít ideálně podobnou chybovost, jako autoregresivní dekodéry a zároveň by měly být výrazně rychlejší. Výsledky, které student naměřil při experimentování, nicméně neprokázaly zlepšení ani u jednoho typu dekodéru oproti samotnému rozpoznávači textu.
Práce s literaturou Student byl při hledání literatury přiměřeně aktivní.
Aktivita během řešení, konzultace, komunikace Studentova aktivita ohledně konzultování byla lehce podprůměrná.
Aktivita při dokončování Finální obsah práce nebyl ze strany studenta nebyl příliš konzultován.
Publikační činnost, ocenění
Navrhovaná známka
D
Body
65

Posudek oponenta

Hradiš, Michal

Student pracoval na poměrně exotičtějším tématu v oblasti automatického přepisu ručně psaného textu, ke kterému není mnoho publikovaných metod s jasnými výsledky. V oblasti se dostatečně zorientoval, několik metod implementoval snažil se vyhodnotit jejich vlastnosti. Bohužel, dosažené výsledky jsou špatné a z vyhodnocení není jasné, proč tomu tak je. Student neposkytuje k tomuto faktu žádné vysvětlení. Není tak jasné, jestli je to dáno samotnými metodami, způsobem trénování dekodérů, malou datovou sadou nebo chybou v implementaci. Implementace dekodérů je mírně podezřelá a v práci mělo být více experimentů, jejich výsledky měly být důkladněji analyzovány a lépe prezentovány čtenáři. 

Dílčí hodnocení
Kritérium Známka Body Slovní hodnocení
Náročnost zadání Téma je i v rámci rozpoznávání textu a řeči poměrně málo aktivní a není k němu mnoho publikovaných metod. 
Rozsah splnění požadavků zadání Dosažené výsledky jsou špatné. Není ale jednoduché určit, čím je nízká dosažená úspěšnost způsobená.
Rozsah technické zprávy V práci sice jsou všechny důležité informace, ale celkový rozsah je jen 29 vytištěných stránek. Ocenil bych například doplnění studentem vytvořených jednotných schémat testovaných dekodérů.
Prezentační úroveň technické zprávy 75 Líbí se mi, že se student snaží co nejpřesněji definovat použité přístupy a metody i pomocí rovnic a že většinou jsou tyto pasáže správně. Část o CTC by mohla být trochu lépe pochopitelná, ale stále to není výrazný problém.  Strukturu textu bych ale volil jinou. Na začátku bych ocenil jasné vysvětlení rozdílů mezi CTC, autoregresivními generativními modely a neautoregresivními modely, na které se práce zaměřuje. Tyto myšlenky by pak mohly být přímo propojené s konkrétními architekturami sítí a publikovanými metodami. Nejsem si jistý, že obecný a detailní popis LSTM a  attention je v práci nutný, hlavně mi vadil začátek kapitoly 2.1, který je hodně abstraktní až filozofický a dovolím si napsat, že i nepřesný. U samotných dekodérů mohlo být názvosloví trochu přenější a jednotnější. Ve 3. kapitole bych ocenil základní schéma všech použitých sítí a dekodérů, případně myšlenek trénování dekodérů. Některá schémata tam sice jsou, ale chybělo mi jednotné a přehledné shrnutí všech variant dekodérů. Kapitola 4 rozhodně neshrnuje kompletně existující datové sady. Také bych zde ocenil přehledovou tabulku. Při prezentaci výsledků je čtenář nucen porovnávat čísla v různých tabulkách. To není rozhodně ideální. Výsledky by měly být zpracovány a prezentovány systematičtěji a formou vhodných grafů.
Formální úprava technické zprávy 73 Formální stránka práce je dobrá. V textu jsem sice objevil několik překlepů nebo chybných formulací, ale celkově to není problém. Rovnice jsou vysázené dobře, jen za nimi chybí interpunkce a student pravděpodobně nerozlišuje, kdy za rovnicí následuje nový odstavec a kdy ne. Obrázky a schémata mohly být kvalitnější. Některé převzaté obrázky mohl student překreslit, nebo aspoň převzít ve vektorové podobě. Některé jsou v citelně nízké kvalitě - 2.1, 2.3, 2.6. Nerozumím tomu, proč jsou rastrové a nekvalitní i vlastní obrázky studenta a proč mají podivné nekonzistentní rámečky kolem některých textů - 3.1 a 3.2. Obrázek 3.1 je nepřehledný.
Práce s literaturou 78 Práce se odkazuje celkově na 29 zdrojů, které jsou kvalitní a dobře pokrývají řešené téma. Student informace z těchto zdrojů využil vhodně jak při řešení, tak i v textu práce. Některé informace mohl ale v práci prezentovat jasněji - například jednoznačné rozlišení seq2seq modelů na autoregresivní a CTC, jasné oddělení autoregresivní faktorizace od konkrétních architektur dekodéru a oddělení principů neautoregresivního dekódování od konkrétních architektur.
Realizační výstup 61 Student vytvořil vlastní implementaci testovaných metod a provedl několik experimentů. Výsledky jsou ale špatné a není úplně jasné, čím jsou nízké úspěšnosti dosažené pomocí neautoregresivních dekodérů způsobené. Dosažené výsledky jsou až 2x horší než výsledky základní sítě, která používá pouze CTC. Student vůbec nezkoumal, proč tomu tak je. Z textu není jasné, jestli je problém, že sítě se vůbec nenaučí na trénovací sadě nebo negeneralizují na testovací data. Experimenty byly také provedeny jen na jedné malé datové sadě, přičemž vedoucí má přístup k velkým datových sadám ručně psaného písma. Student také neprozkoumal, jak by bylo možné pro trénování dekodérů použít čistě textové korpusy, ani v práci nerozebírá, jestli by takový postup byl možný s použitými dekodéry. Experimenty také nejsou úplně systematické. V implementaci nerozumím cyklům "for" ve funkcích forward() jednotlivých dekodérů. Pravděpodobně se jedná o velmi nevhodnou implementaci.
Využitelnost výsledků Bohužel se studentovi nepodařilo dosáhnout užitečných výsledků a není jasné, proč tomu tak je. Samotný kód může být použitelný, ale implementace dekodérů jsou minimálně zvláštní a obávám se, že jsou extrémně neefektivní.
Navrhovaná známka
D
Body
67

Otázky

eVSKP id 148666