ŠTAJEROVÁ, A. Active Learning pro zpracování archivních pramenů [online]. Brno: Vysoké učení technické v Brně. Fakulta informačních technologií. 2023.

Posudky

Posudek vedoucího

Rozman, Jaroslav

Výsledkem práce je web zprovozněný na serveru na naší fakultě, který umožňuje označení, editaci a přepis rozpoznaného textu u matrik z několika archivů v ČR a následné doučení neuronových sítí. Z popsané implementace je zřejmé, že se jedná o celkem komplexní dílo, kterému ale do maximálního hodnocení chybí doladění některých detailů. Z toho důvodu dávam hodnocení B.

Dílčí hodnocení
Kritérium Známka Body Slovní hodnocení
Informace k zadání Cílem práce bylo vytvořit web a neuronové sítě, které pro stažené skeny matrik detekují bounding boxy textových oblasti a pomocí OCR text rozpoznají. Poté bude mít uživatel možnost špatně rozpoznaný text (a případně i bounding boxy) opravit a nechat síť doučit. V rozpoznaném textu pak mělo být možné vyhledávat. Práci, vzhledem k její komplexnosti, hodnotím jako obtížnou. V práci chybí doladit určité detaily, ale jinak jsem s výsledkem spokojen.
Práce s literaturou Literatura, kterou si studentka obstarávala samostatně, je vhodně zvolena.
Aktivita během řešení, konzultace, komunikace Studentka byla při řešení práce aktivní a na konzultace chodila pravidelně a s vlastními nápady, jak jednotlivé problémy řešit.
Aktivita při dokončování Studentka se na začátku letního semestru na několik týdnů z důvodu nemoci odmlčela, což mělo za následek, že práce byla hodně dodělávána na poslední chvíli a výsledek se úplně nestihl otestovat.
Publikační činnost, ocenění -
Navrhovaná známka
B
Body
85

Posudek oponenta

Hříbek, David

Autor v rámci diplomové práce prostudoval problematiku rozpoznávání textu ze skenů dokumentů a vytvořil komplexní systém, který se skládá z několika modulů komunikujících pomocí API. Práce vychází z již existující diplomové práce [14], oproti které ale nahrazuje některé moduly již existujícími veřejně dostupnými moduly a nepřináší mnoho nového. Vzhledem k obtížnosti zadání a výše zmíněným nedostatkům navrhuji hodnocení stupněm B .

Dílčí hodnocení
Kritérium Známka Body Slovní hodnocení
Náročnost zadání Zadání považuji za obtížnější. Bylo potřeba vytvořit systém, který bude schopen používat různé implementace OCR (vlastní a existující), tyto OCR pravidelně doučovat a umožnit fulltextové vyhledávání v rozpoznaných datech. Následně bylo nutné celý systém otestovat a vyhodnotit výpočetní náročnost pro velké množství skenů a úspěšnost rozpoznávání.
Rozsah splnění požadavků zadání Zadání bylo splněno ve všech bodech.
Rozsah technické zprávy
Prezentační úroveň technické zprávy 75 Prezentační úroveň zprávy považuji za průměrnou. Text práce je srozumitelný a logicky strukturovaný. Jednotlivé kapitoly dobře navazují a prezentují problematiku OCR, aktivní učení, návrh řešení, implementaci a testování výsledného systému. V kapitole návrhu řešení a implementace bych ale očekával detailnější popis, aby čtenáři bylo zcela jasné, jak systém funguje.
Formální úprava technické zprávy 85 Po typografické a jazykové stránce práce obsahuje pouze menší chyby, mezi které patří například chybějící tečky na konci některých vět a odrážek, nevhodně rozložený text a obrázky zejména na stránce č. 19 a 20.
Práce s literaturou 75 Podkladová literatura je vhodně zvolena a zahrnuje kombinaci online zdrojů, vědeckých článků z věrohodných konferencí a žurnálů. V teoretické části práce bych ale uvítal více citací popisované problematiky.
Realizační výstup 85 Aplikace je funkční -- umožňuje anotování skenů dokumentů (segmentace řádků a zadání přepisů). Nad takto anotovanými skeny lze trénovat OCR modely, které lze následně použít pro přepis textu. Rozhraní webové aplikace je minimalistické, kromě výše uvedených funkcionalit ještě umožňuje vyhledávání v rozpoznaných datech a prohlížení archivů.
Využitelnost výsledků Výsledkem je modulární systém, který je snadno rozšiřitelný. Systém je potenciální přínosný pro genealogickou obec.
Navrhovaná známka
B
Body
83

Otázky

eVSKP id 147861