GAJDOŠÍK, Š. Automatické zpracování obsahu dokumentů PDF [online]. Brno: Vysoké učení technické v Brně. Fakulta informačních technologií. 2023.

Posudky

Posudek vedoucího

Burget, Radek

Pan Gajdošík vytvořil aplikaci, která podle mého názoru splňuje zadání a zvolené řešení je technicky zajímavé, i když pro reálné nasazení by bylo třeba důkladnější testování. Poněkud slabší byla konzultační aktivita, která vyústila v poněkud nedotaženou technickou zprávu. Celkově proto navrhuji hodnocení stupněm D.

Dílčí hodnocení
Kritérium Známka Body Slovní hodnocení
Informace k zadání Cílem zadání byla tvorba softwarového nástroje pro extrakci dat z dokumentů ve formátu PDF, které představují výstup konkrétních lékařských přístrojů. Zadání považuji za průměrně náročné, obtížnější byl zejména návrh způsobu specifikace extrakční úlohy s ohledem na různé formáty dokumentů a budoucí rozšiřitelnost. Zadání považuji za splněné, vytvořený nástroj však nebyl podle mého názoru otestován natolik, aby byla zaručena jeho použitelnost pro komplexnější úlohy.
Práce s literaturou Student si samostatně vyhledával relevantní informační zdroje.
Aktivita během řešení, konzultace, komunikace Aktivita studena v průběhu řešení byla spíše podprůměrná, konzultoval sporadicky, nicméně na konzultace byl připraven a často přišel s technicky zajímavým řešením konkrétních problémů.
Aktivita při dokončování Práce byla dokončována v časové tísni. Implementovaná aplikace byla otestována pro nejběžnější případy, kde se jevila jako funkční. Technická zpráva byla tvořena ve spěchu, měl jsem však možnost ji alespoň v základních rysech připomínkovat.
Publikační činnost, ocenění
Navrhovaná známka
D
Body
62

Posudek oponenta

Rychlý, Marek

Přestože zadání práce mohlo vést k slibným výsledkům, student návrh pouze jednoduché řešení malého rozsahu, jehož použitelnost nebyla prokázána. Práce však splňuje zadání a text vykazuje je drobné nedostatky, a tak navrhuji práci hodnotit stupněm uspokojivě (D) .

Dílčí hodnocení
Kritérium Známka Body Slovní hodnocení
Náročnost zadání Vzhledem k malému rozsahu implementace se jedná o méně obtížnou práci. Z PDF dokumentů je pomocí existujících nástrojů extrahován text a z textu jsou poté pomocí hledání podřetězců a regulárních výrazů extrahovány hodnoty. Případná větší obtížnost by mohla spočívat ve vyladění hledání na konkrétní typy dokumentů či v použití více pokročilých metod extrakce hodnot, což se však nestalo.
Rozsah splnění požadavků zadání Zadání je splněno bez výhrad.
Rozsah technické zprávy Rozsahem technická zpráva splňuje minimální požadavky, od úvodu po závěr obsahuje přibližně 40 normostran. Jednotlivé části práce jsou sice stručné, avšak dostatečně informačně bohaté. Kapitoly jsou svým rozsahem vzájemně vyvážené.
Prezentační úroveň technické zprávy 65 Technická zpráva má logickou strukturu odpovídající postupu vývoje programového řešení. Jednotlivé kapitoly se však v poměrně rychlém tempu věnují mnoha různým tématům a výklad je občas špatně srozumitelný. V kap. 2 "Formát PDF dokumentu" je popsáno mnoho vlastností PDF formátu a mnoho nástrojů, z nichž jen velmi málo je využito v následujících částech práce (např. zcela zbytečný popis aplikací pro zobrazování PDF dokumentů či jejich zpracování v jiném než autorem zvoleném programovacím jazyce). V textu jsou také občas logické nesrovnalosti, např. konec podkap. 7.5 popisující hledání numerických hodnot v textu a odstraňování souvisejících vzorů. Vzhledem k ladění extrakce pro předmětné PDF dokumenty (výstupy z lékařských přístrojů) bych očekával výrazně podrobnější kapitolu o experimentech a testování řešení.
Formální úprava technické zprávy 65 Z hlediska formální úpravy obsahuje text drobné nedostatky, které však snižují srozumitelnost textu - např. přeskakování úrovní struktury textu z kapitoly na nečíslovaný název sekce, což znesnadňuje orientaci ve obsahu kapitoly (např. kap. 5); v přehledu obsahu zprávy v kap. 1 by bylo vhodnější odkazovat na popisované kapitoly jejich čísly nebo alespoň jejich název oddělit od okolního textu (např. uvozovkami); či vložení tabulek jako obrázků se špatnou čitelností na str. 31 a 32. V textu je také menší množství typografických nedostatků (mezera před čárkou v abstraktu; chybně zvolený spojovník místo pomlčky pro rozsah čísel na str. 12.
Práce s literaturou 75 Seznam literatury obsahuje 19 položek z nichž 16 jsou odkazy na různé webové stránky popisující použité či jen zmiňované technologie a 3 jsou odborné zdroje (konferenční příspěvky). V textu práce jsou zdroje odkazovány a je dobře patrný způsob a rozsah jejich použití.
Realizační výstup 65 Realizační výstupem aplikace v jazyce Python pro příkazový řádek, která z PDF souborů ze zadaného adresáře extrahuje texty či hodnoty v blízkosti zadaných klíčových slov a všechny vložené obrázky. Aplikace je funkční (po drobné opravě chybných jmen importovaných modulů). Programový kód je poměrně stručný (kolem 450 řádek kódu), splňuje požadavky dané zadáním.
Využitelnost výsledků Použitelnost výsledného řešení v praxi není v textu práce diskutována.  Výsledky testování popsané v kap. 8 prokazují (do jisté míry) pouze funkčnost řešení, nikoliv kvalitu extrakce. Také z malého rozsahu a jednoduchosti implementace lze o úspěšném nasazené pochybovat.
Navrhovaná známka
D
Body
65

Otázky

eVSKP id 146956