PINKEOVÁ, B. Klasifikace historických dokumentů pomocí hlubokých neuronových sítí [online]. Brno: Vysoké učení technické v Brně. Fakulta informačních technologií. 2023.
Studentka se ve své práci zabývala klasifikací historických dokumentů k čemuž využívala i současné state-of-the-art metody. V rámci experimentování se jí podařilo dojít ke zlepšení oproti předchozím nejlepším publikovaným výsledkům na dané datové sadě. V některých obdobích mohla být více aktivní ohledně konzultování své práce.
Kritérium | Známka | Body | Slovní hodnocení |
---|---|---|---|
Informace k zadání | Byť se v důsledku jedná o klasickou úlohu počítačového vidění - klasifikaci obrazu aplikovanou na historické dokumenty - v rámci řešení byly použity také metody, které se v současnosti využívají k trénování state-of-the-art modelů v různých oblastech strojového učení. Jedná se především o využití Vision Transformerů pro předtrénování na datech bez anotací s pomocí maskování. V rámci výsledků dosáhla studentka zlepšení klasifikace historických dokumentů. | ||
Práce s literaturou | Studentka si dokázala najít a využít přiměřené množství literatury. | ||
Aktivita během řešení, konzultace, komunikace | Studentka byla při řešení práce přiměřeně aktivní, byť v některých obdobích mohla být aktivita vyšší. Na konzultace byla dostatečně připravená. | ||
Aktivita při dokončování | Práce byla dokončována v očekávané době. Finální verze práce byla konzultována spíše podprůměrně. | ||
Publikační činnost, ocenění |
Autorka se zaměřila na úlohu klasifikace historických dokumentů podle místa vzniku. Předmětem experimentů byly dvě architektury: ResNet50 a Transformer. Sítě zpracovávají obdélníkové výřezy, klasifikace strany/dokumentu je provedena agregací klasifikace příslušných výřezů. Oceňuji vyzkoušení semi-supervised přístupu a předtrénování vizuálního transformeru pomocí vizuálních tokenů získaných s aktivací sítě ResNet50. Jako hlavní nedostatek hodnotím nepodloženou volbu hyperparametrů.
Kritérium | Známka | Body | Slovní hodnocení |
---|---|---|---|
Náročnost zadání | |||
Rozsah splnění požadavků zadání | |||
Rozsah technické zprávy | |||
Prezentační úroveň technické zprávy | 70 | Popis současného poznání v rámci problematiky klasifikace historických dokumentů pomocí neuronových sítí je dobře strukturován a obsahuje popis relevantních přístupů. Práce na více místech obsahuje detailní popis datasetů pro úlohy klasifikace tištěného písma, klasifikace psaného písma a klasifikace období vzniku dokumentu (kapitola 3 a podkapitola 6.1). Ačkoliv jsou tyto úlohy příbuzné k tématu diplomové práce, autorka neuvádí žádné experimenty a tudíž považuji popis datasetů, zejména v podkapitole 6.1 zabývající se experimenty, za bezpředmětný. Nově navržená agragace příznaků neuronové sítě založená na attention mechanizmu je nedostatečně popsána, přičemž je nevhodně používán termín self-attention. | |
Formální úprava technické zprávy | 70 | Text práce je vypracována v prostředí Latex. Celkové rozložení jednotlivých textových částí a obrázků je v pořádku. Podkapitola 4.1 obsahuje nevhodné opakované reference ([24]). Obrázek 2.1, 3.1, a 3.2 nejsou odkazovány v textu práce. Kapitola 4 popisuje návrh řešení podmiňovacím způsobem. Velké množství rastrových obrázků je v nedostatečném rozlišení. | |
Práce s literaturou | 80 | Autorka cituje relevantní literaturu. Vlastní výsledky a úvahy jsou řádně odděleny od existujících řešení. | |
Realizační výstup | 70 | Práce je výzkumného charakteru a její hlavní přínos jsou provedené experimenty. Dosažené výsledky v rámci klasifikace dokumentu podle místa vzniku přesahují stávající state-of-the-art o 4%, kde původní systém dosáhl úspěšnosti 79% a nově navržený systém úspěšnosti 83%. V rámci experimentů mně chybí výsledky, které by podložily volbu hyperparametrů v rámci agregace klasifikace dílčích výřezů, způsob výběru vzorků v rámci semi-supervised učení a volbu počtu vizuálních tokenů v rámci předtrénování vizuálního transformeru. Závěry zmíněných experimentů by umožnily zhodnotit apriory zvolené hodnoty/nastavení. Autorka v textu uvádí využití křížové validace jako způsobu pro odhalení nadměrné těžkosti oficiální validační sady vzhledme k trénovacím datům, v rámci experimentů jsou však prezentovány výsledky jenom pro jedno alternativní rozložení validačních a trénovacích dat a tudíž případný bias oficiálních validačních dat nelze spolehlivě zhodnotit. | |
Využitelnost výsledků | Práce je výzkumného charakteru, dosažené výsledky můžou složit jako nové state-of-the-art v rámci klasifikace historických dokumentů podle místa vzniku. |
eVSKP id 148667