PAŘILOVÁ, M. Automatické získání bibliografických údajů z dokumentu [online]. Brno: Vysoké učení technické v Brně. Fakulta informačních technologií. 2025.
Studentka se podílela na přípravě nového datasetu bibliografických údajů BiblioPage, který bude dále rozšiřován a využíván v rámci projektu Smart Digilinka, jehož cílem je rozšířit digitalizaci dokumentů o metadata. Výsledkem práce jsou systémy pro automatické zpracování bibliografických údajů, včetně jejich podrobného vyhodnocení a vzájemného srovnání.
| Kritérium | Známka | Body | Slovní hodnocení |
|---|---|---|---|
| Informace k zadání | Cílem práce bylo implementovat systém strojového učení pro detekci bibliografických údajů knih, jako jsou autor, titul, překladatel, rok vydání a další. Práci považuji za mírně obtížnější, studentka musela porozumět netriviálnímu systému strojového učení LayoutLMv3 a s dodatečnými úpravami jej aplikovat na nový dataset. Studentka se významně podílela na přípravě datasetu bibliografických údajů českých knih BiblioPage. Výsledkem práce jsou dva přístupy k detekci bibliografických údajů: jeden založený na detektoru YOLO a druhý na modelu LayoutLMv3. Naměřené výsledky i samotné systémy budou dále využity jako základní řešení pro dataset BiblioPage. | ||
| Práce s literaturou | Studentka si vytvořila základní přehled o systémech pro automatické zpracování bibliografických údajů a nastudovala doporučené systémy. | ||
| Aktivita během řešení, konzultace, komunikace | Studentka pravidelně konzultovala průběh řešení. | ||
| Aktivita při dokončování | Práce byla dokončena na čas a konzultována byla její téměř finální podoba. | ||
| Publikační činnost, ocenění |
Práce mně byla studentkou odprezentována a všechny mé nejasnosti byly dovysvětleny. Celkově hodnotím práci velmi dobře. Studentka se v oblasti dobře zorientovala, porovnala dva přístupy pro extrakci metadat, systematicky provedla smysluplné experimenty a vyvodila z nich závěry. V práci se sice objevují formální nedostatky, ale ty nijak dramaticky neovlivňují pochopitelnost a přínos.
| Kritérium | Známka | Body | Slovní hodnocení |
|---|---|---|---|
| Náročnost zadání | Splnění zadání vyžadovalo nastudování pokročilých přístupů strojového učení pro zpracování dokumentů, které jsou nad rámec bakalářského studia. | ||
| Rozsah splnění požadavků zadání | |||
| Rozsah technické zprávy | Práce je mezi minimálním a obvyklým rozmezím, ale je v ní řečeno vše podstatné a neobsahuje příliš zbytečných informací. | ||
| Prezentační úroveň technické zprávy | 80 | Práce je pro čtenáře pochopitelná, kapitoly na sebe dobře navazují a mají logickou strukturu. Oceňuji, že kapitola 2 se zabývá pouze relevantními tématy. Nicméně by si zasloužila více obrázků nebo diagramů, někdy čtenáře zahlcuje dlouhými textovými pasážemi. Sekce 3.2 a 3.3 možná až příliš zacházejí do implementačních detailů. Konkrétní jména funkcí a tříd nepovažuji za příliš důležité pro pochopení práce a ve finále to čtenáře spíše mate. Za stěžejní považuji kapitolu s experimenty, která je napsaná dobře, výsledky jsou pochopitelně prezentovány a zhodnoceny. Jedinou výtku mám k sekci 4.1 o použitých metrikách, které jsou prezentovány jako detekční, ale ve skutečnosti jsou používány jinak. Vyhodnocení je i přesto v pořádku. | |
| Formální úprava technické zprávy | 85 | Text je na dobré jazykové úrovni. Překlepy nebo špatné formulace se vyskytují velmi zřídka. Tabulka 4.1 není v textu referencovaná a obecně tabulky mají nekonzistentně umístěné popisky. Taktéž je někdy použita desetinná čárka a někdy tečka. | |
| Práce s literaturou | 75 | Práce celkem obsahuje 36 referencí, z toho zhruba polovina jsou kvalitní vědecké publikace. U některých chybí relevantní informace o konferenci nebo časopisu, ve kterém byl článek publikován. Jedna reference je na Wikipedii a některé na github repozitáře. Studentka s citacemi pracuje správně, nicméně někdy by se v textu mohly objevit dříve, než až na konci odstavce. | |
| Realizační výstup | 95 | Funkčnost řešení je demonstrována počtem experimentů, které jsou zdokumentované v textu. Zdrojové kódy jsou velmi přehledné, dobře strukturované a akorát dokumentované. Převzaté části jsou využívány správně. Rozsah kódu je úměrný tomu, že se nejedná o práci implementačního charakteru. | |
| Využitelnost výsledků | Práce byla součástí výzkumného projektu u nás ve skupině. Studentka pomohla s vytvořením nového datasetu, ze kterého vznikla publikace. Přestože výsledky modelů nejsou úplně prvotřídní, plánujeme je dále využít jako baseline řešení. Práce nám dále přinesla konkrétní poznatky ohledně využití LayoutLM na nové doméně a ohledně jeho fungování obecně. |
eVSKP id 164604