GAJDOŠÍK, Š. Automatické zpracování obsahu dokumentů PDF [online]. Brno: Vysoké učení technické v Brně. Fakulta informačních technologií. 2023.
Pan Gajdošík vytvořil aplikaci, která podle mého názoru splňuje zadání a zvolené řešení je technicky zajímavé, i když pro reálné nasazení by bylo třeba důkladnější testování. Poněkud slabší byla konzultační aktivita, která vyústila v poněkud nedotaženou technickou zprávu. Celkově proto navrhuji hodnocení stupněm D.
Kritérium | Známka | Body | Slovní hodnocení |
---|---|---|---|
Informace k zadání | Cílem zadání byla tvorba softwarového nástroje pro extrakci dat z dokumentů ve formátu PDF, které představují výstup konkrétních lékařských přístrojů. Zadání považuji za průměrně náročné, obtížnější byl zejména návrh způsobu specifikace extrakční úlohy s ohledem na různé formáty dokumentů a budoucí rozšiřitelnost. Zadání považuji za splněné, vytvořený nástroj však nebyl podle mého názoru otestován natolik, aby byla zaručena jeho použitelnost pro komplexnější úlohy. | ||
Práce s literaturou | Student si samostatně vyhledával relevantní informační zdroje. | ||
Aktivita během řešení, konzultace, komunikace | Aktivita studena v průběhu řešení byla spíše podprůměrná, konzultoval sporadicky, nicméně na konzultace byl připraven a často přišel s technicky zajímavým řešením konkrétních problémů. | ||
Aktivita při dokončování | Práce byla dokončována v časové tísni. Implementovaná aplikace byla otestována pro nejběžnější případy, kde se jevila jako funkční. Technická zpráva byla tvořena ve spěchu, měl jsem však možnost ji alespoň v základních rysech připomínkovat. | ||
Publikační činnost, ocenění |
Přestože zadání práce mohlo vést k slibným výsledkům, student návrh pouze jednoduché řešení malého rozsahu, jehož použitelnost nebyla prokázána. Práce však splňuje zadání a text vykazuje je drobné nedostatky, a tak navrhuji práci hodnotit stupněm uspokojivě (D) .
Kritérium | Známka | Body | Slovní hodnocení |
---|---|---|---|
Náročnost zadání | Vzhledem k malému rozsahu implementace se jedná o méně obtížnou práci. Z PDF dokumentů je pomocí existujících nástrojů extrahován text a z textu jsou poté pomocí hledání podřetězců a regulárních výrazů extrahovány hodnoty. Případná větší obtížnost by mohla spočívat ve vyladění hledání na konkrétní typy dokumentů či v použití více pokročilých metod extrakce hodnot, což se však nestalo. | ||
Rozsah splnění požadavků zadání | Zadání je splněno bez výhrad. | ||
Rozsah technické zprávy | Rozsahem technická zpráva splňuje minimální požadavky, od úvodu po závěr obsahuje přibližně 40 normostran. Jednotlivé části práce jsou sice stručné, avšak dostatečně informačně bohaté. Kapitoly jsou svým rozsahem vzájemně vyvážené. | ||
Prezentační úroveň technické zprávy | 65 | Technická zpráva má logickou strukturu odpovídající postupu vývoje programového řešení. Jednotlivé kapitoly se však v poměrně rychlém tempu věnují mnoha různým tématům a výklad je občas špatně srozumitelný. V kap. 2 "Formát PDF dokumentu" je popsáno mnoho vlastností PDF formátu a mnoho nástrojů, z nichž jen velmi málo je využito v následujících částech práce (např. zcela zbytečný popis aplikací pro zobrazování PDF dokumentů či jejich zpracování v jiném než autorem zvoleném programovacím jazyce). V textu jsou také občas logické nesrovnalosti, např. konec podkap. 7.5 popisující hledání numerických hodnot v textu a odstraňování souvisejících vzorů. Vzhledem k ladění extrakce pro předmětné PDF dokumenty (výstupy z lékařských přístrojů) bych očekával výrazně podrobnější kapitolu o experimentech a testování řešení. | |
Formální úprava technické zprávy | 65 | Z hlediska formální úpravy obsahuje text drobné nedostatky, které však snižují srozumitelnost textu - např. přeskakování úrovní struktury textu z kapitoly na nečíslovaný název sekce, což znesnadňuje orientaci ve obsahu kapitoly (např. kap. 5); v přehledu obsahu zprávy v kap. 1 by bylo vhodnější odkazovat na popisované kapitoly jejich čísly nebo alespoň jejich název oddělit od okolního textu (např. uvozovkami); či vložení tabulek jako obrázků se špatnou čitelností na str. 31 a 32. V textu je také menší množství typografických nedostatků (mezera před čárkou v abstraktu; chybně zvolený spojovník místo pomlčky pro rozsah čísel na str. 12. | |
Práce s literaturou | 75 | Seznam literatury obsahuje 19 položek z nichž 16 jsou odkazy na různé webové stránky popisující použité či jen zmiňované technologie a 3 jsou odborné zdroje (konferenční příspěvky). V textu práce jsou zdroje odkazovány a je dobře patrný způsob a rozsah jejich použití. | |
Realizační výstup | 65 | Realizační výstupem aplikace v jazyce Python pro příkazový řádek, která z PDF souborů ze zadaného adresáře extrahuje texty či hodnoty v blízkosti zadaných klíčových slov a všechny vložené obrázky. Aplikace je funkční (po drobné opravě chybných jmen importovaných modulů). Programový kód je poměrně stručný (kolem 450 řádek kódu), splňuje požadavky dané zadáním. | |
Využitelnost výsledků | Použitelnost výsledného řešení v praxi není v textu práce diskutována. Výsledky testování popsané v kap. 8 prokazují (do jisté míry) pouze funkčnost řešení, nikoliv kvalitu extrakce. Také z malého rozsahu a jednoduchosti implementace lze o úspěšném nasazené pochybovat. |
eVSKP id 146956