PINKEOVÁ, B. Klasifikace historických dokumentů pomocí hlubokých neuronových sítí [online]. Brno: Vysoké učení technické v Brně. Fakulta informačních technologií. 2023.

Posudky

Posudek vedoucího

Kišš, Martin

Studentka se ve své práci zabývala klasifikací historických dokumentů k čemuž využívala i současné state-of-the-art metody. V rámci experimentování se jí podařilo dojít ke zlepšení oproti předchozím nejlepším publikovaným výsledkům na dané datové sadě. V některých obdobích mohla být více aktivní ohledně konzultování své práce.

Dílčí hodnocení
Kritérium Známka Body Slovní hodnocení
Informace k zadání Byť se v důsledku jedná o klasickou úlohu počítačového vidění - klasifikaci obrazu aplikovanou na historické dokumenty - v rámci řešení byly použity také metody, které se v současnosti využívají k trénování state-of-the-art modelů v různých oblastech strojového učení. Jedná se především o využití Vision Transformerů pro předtrénování na datech bez anotací s pomocí maskování. V rámci výsledků dosáhla studentka zlepšení klasifikace historických dokumentů.
Práce s literaturou Studentka si dokázala najít a využít přiměřené množství literatury.
Aktivita během řešení, konzultace, komunikace Studentka byla při řešení práce přiměřeně aktivní, byť v některých obdobích mohla být aktivita vyšší. Na konzultace byla dostatečně připravená.
Aktivita při dokončování Práce byla dokončována v očekávané době. Finální verze práce byla konzultována spíše podprůměrně.
Publikační činnost, ocenění
Navrhovaná známka
B
Body
80

Posudek oponenta

Kohút, Jan

Autorka se zaměřila na úlohu klasifikace historických dokumentů podle místa vzniku. Předmětem experimentů byly dvě architektury: ResNet50 a Transformer. Sítě zpracovávají obdélníkové výřezy, klasifikace strany/dokumentu je provedena agregací klasifikace příslušných výřezů. Oceňuji vyzkoušení semi-supervised přístupu a předtrénování vizuálního transformeru pomocí vizuálních tokenů získaných s aktivací sítě ResNet50. Jako hlavní nedostatek hodnotím nepodloženou volbu hyperparametrů.

Dílčí hodnocení
Kritérium Známka Body Slovní hodnocení
Náročnost zadání
Rozsah splnění požadavků zadání    
Rozsah technické zprávy    
Prezentační úroveň technické zprávy 70 Popis současného poznání v rámci problematiky klasifikace historických dokumentů pomocí neuronových sítí je dobře strukturován a obsahuje popis relevantních přístupů. Práce na více místech obsahuje detailní popis datasetů pro úlohy klasifikace tištěného písma, klasifikace psaného písma a klasifikace období vzniku dokumentu (kapitola 3 a podkapitola 6.1). Ačkoliv jsou tyto úlohy příbuzné k tématu diplomové práce, autorka neuvádí žádné experimenty a tudíž považuji popis datasetů, zejména v podkapitole 6.1 zabývající se experimenty, za bezpředmětný. Nově navržená agragace příznaků neuronové sítě založená na attention mechanizmu je nedostatečně popsána, přičemž je nevhodně používán termín self-attention.
Formální úprava technické zprávy 70 Text práce je vypracována v prostředí Latex. Celkové rozložení jednotlivých textových částí a obrázků je v pořádku. Podkapitola 4.1 obsahuje nevhodné opakované reference ([24]). Obrázek 2.1, 3.1, a 3.2 nejsou odkazovány v textu práce. Kapitola 4 popisuje návrh řešení podmiňovacím způsobem. Velké množství rastrových obrázků je v nedostatečném rozlišení.
Práce s literaturou 80 Autorka cituje relevantní literaturu. Vlastní výsledky a úvahy jsou řádně odděleny od existujících řešení.
Realizační výstup 70 Práce je výzkumného charakteru a její hlavní přínos jsou provedené experimenty. Dosažené výsledky v rámci klasifikace dokumentu podle místa vzniku přesahují stávající state-of-the-art o 4%, kde původní systém dosáhl úspěšnosti 79% a nově navržený systém úspěšnosti 83%. V rámci experimentů mně chybí výsledky, které by podložily volbu hyperparametrů v rámci agregace klasifikace dílčích výřezů, způsob výběru vzorků v rámci semi-supervised učení a volbu počtu vizuálních tokenů v rámci předtrénování vizuálního transformeru. Závěry zmíněných experimentů by umožnily zhodnotit apriory zvolené hodnoty/nastavení. Autorka v textu uvádí využití křížové validace jako způsobu pro odhalení nadměrné těžkosti oficiální validační sady vzhledme k trénovacím datům, v rámci experimentů jsou však prezentovány výsledky jenom pro jedno alternativní rozložení validačních a trénovacích dat a tudíž případný bias oficiálních validačních dat nelze spolehlivě zhodnotit.
Využitelnost výsledků Práce je výzkumného charakteru, dosažené výsledky můžou složit jako nové state-of-the-art v rámci klasifikace historických dokumentů podle místa vzniku.
Navrhovaná známka
C
Body
70

Otázky

eVSKP id 148667