SEDLÁČEK, M. Extrakce dat z dokumentů na základě analýzy rozložení [online]. Brno: Vysoké učení technické v Brně. Fakulta informačních technologií. 2023.

Posudky

Posudek vedoucího

Burget, Radek

Student v průběhu zimního semestru navrhl technicky pokročilé řešení, v letním semestru však s vedoucím nekomunikoval, což se negativně projevilo na výsledku. Implementované řešení i technická zpráva odpovídají zadání, ale jako vedoucí jsem očekával poněkud více. Proto navrhuji hodnocení stupněm D.

Dílčí hodnocení
Kritérium Známka Body Slovní hodnocení
Informace k zadání Cílem zadání byla tvorba softwarového nástroje pro extrakci dat z dokumentů ve formátu PDF, které představují výstup konkrétních lékařských přístrojů. Zadání považuji za průměrně náročné, obtížnější byl zejména návrh způsobu specifikace extrakční úlohy s ohledem na různé formáty dokumentů a budoucí rozšiřitelnost. Zadání považuji v základní podobě za splněné, i když původní plán počítal s pokročilejšími funkcemi, jako extrakce obrázků nebo integrace metod OCR.
Práce s literaturou Student využíval informace poskytnuté v rámci konzultací a samostatně vyhledával další relevantní zdroje.
Aktivita během řešení, konzultace, komunikace Student svoji práci aktivně řešil a konzultoval v průběhu zimního semestru. V letním semestru se bohužel zcela odmlčel a ozval se až těsně před odevzdáním práce. Prezentoval nicméně implementovanou aplikaci, která v základu splňuje zadání. Bohužel již nedošlo na její podrobnější doladění a ověření pro složitější úlohy, jako např. extrakce obrázků (grafů).
Aktivita při dokončování Technická zpráva byla dokončována v časové tísni. Měl jsem možnost připomínkovat předběžnou verzi a pokud mohu soudit student mé připomínky zapracoval.
Publikační činnost, ocenění
Navrhovaná známka
D
Body
65

Posudek oponenta

Bartík, Vladimír

Diplomová práce pana Sedláčka má sice řadu nedostatků, jako je mírně podprůměrná technická zpráva a absence možnosti převodu obrázků na text, student vytvořil funkční a prakticky využitelné řešení a lze říci, že hlavní cíle diplomové práce byly splněny. Proto hodnotím práci stupněm D (uspokojivě).

Dílčí hodnocení
Kritérium Známka Body Slovní hodnocení
Náročnost zadání Cílem diplomové práce bylo prostudovat existující přístupy pro extrakci informací z PDF souborů, včetně FITLayout, který vzniknul na UIFS FIT. Poté bylo nutné implementovat a experimentálně ověřit systém pro extrakci informací z PDF souborů pocházejících z lékařského prostředí. Jde o zadání náročností odpovídající diplomové práci.
Rozsah splnění požadavků zadání Základní cíle diplomové práce byly splněny, jediný nedostatek v této věci vidím u poslední věty bodu 1 - "prostudujte i možnosti převodu obrázků na text". Z technické zprávy není zřejmé, zda se tím student zabýval a vypadá to, že ani implementace nic takového neobsahuje.
Rozsah technické zprávy Rozsah technické zprávy je vyhovující a splňuje předepsané požadavky.
Prezentační úroveň technické zprávy 65 Technická zpráva je psána srozumitelně a po obsahové stránce až na část prvního bodu zmíněnou výše obsahuje vše potřebné. V kapitole testování mírně postrádám ukázku vstupní konfigurace ke zobrazených výsledků jednotlivých příkladů. Kromě toho jsem místy narazil na drobné nedostatky způsobené nepozorností, jako např. dvakrát stejně pojmenovaná podkapitola na str. 29. Nejde však o zásadní nedostatky, proto hodnotím prezentační úroveň jako mírně podprůměrnou.
Formální úprava technické zprávy 60 I formální úprava je lehce podprůměrná, po jazykové stránce práce obsahuje řadu menších pravopisných chyb, v několika málo případech i chyby ve shodě podmětu s přísudkem a podobné hrubky. Také jsou v práci na mnoha místech zbytečně používány anglicismy. Typografická úroveň nemá větší nedostatky.
Práce s literaturou 70 Práce s literaturou je celkem v pořádku, až na jeden odkaz na wikipedii a na to, že v kapitole 2.3. nejsou zdroje odkazovány. Celkově však lze konstatovat, že vlastní výsledky studenta jsou zřejmé a k zásadnímu porušení citační etiky nedošlo.
Realizační výstup 75 Realizačním výstupem je program pro extrakci dat z PDF souborů na základě dotazu specifikovaného v konfiguračním JSON souboru. Použití je jednoduché a výsledky extrakce jsou zobrazeny v přehledné formě. Jediným větším nedostatkem tak je absence převodu obrázků na text zmíněného v zadání.
Využitelnost výsledků Výsledný realizační výstup je prakticky využitelný a může najít využití nejen v prostředí FN Brno. Použití extraktoru však není omezeno jen na lékařské dokumenty.
Navrhovaná známka
D
Body
63

Otázky

eVSKP id 146958