Extrakce dat z dokumentů PDF

Loading...
Thumbnail Image

Date

Authors

Bartošák, Michal

Mark

B

Journal Title

Journal ISSN

Volume Title

Publisher

Vysoké učení technické v Brně. Fakulta informačních technologií

ORCID

Abstract

Práce se zaměřuje na extrakci informací ze zdravotních záznamů ve formátu PDF, které byly vytvořeny srdečními stimulátory při pravidelné kontrole pacientů v nemocnici. Výsledkem této práce je desktopová aplikace v programovacím jazyce Java, která získává a analyzuje informace ze záznamů pomocí knihoven PDFBox a pdf2dom. Výstupem aplikace je CSV soubor, který reprezentuje získané hodnoty formou tabulky, a extrahované obrázky, které se ukládají do výstupní složky určené uživatelem. Testování aplikace na záznamech od tří různých společností prokázalo, že je extrakce záznamů velmi spolehlivá (celkové metriky přesnosti i úplnosti dosáhly téměř vždy 100 %), pokud jsou správně nastaveny její argumenty.
The work focuses on extracting information from medical records saved in PDF format, which were created by heart pacemakers during regular patient monitoring in the hospital. The result of this work is a desktop application written in Java that retrieves and analyzes data from records using PDFBox and pdf2dom libraries. The output of the application is a CSV file, which represents the acquired values in table form, as well as extracted images that are saved to a user-defined output folder. Application testing on records from three different companies proved that record extraction is highly reliable (with overall precision and recall metrics reaching almost 100 % in every test), provided that the application arguments are correctly set.

Description

Citation

BARTOŠÁK, M. Extrakce dat z dokumentů PDF [online]. Brno: Vysoké učení technické v Brně. Fakulta informačních technologií. 2023.

Document type

Document version

Date of access to the full text

Language of document

cs

Study field

Informační technologie

Comittee

doc. RNDr. Pavel Smrž, Ph.D. (předseda) doc. RNDr. Jitka Kreslíková, CSc. (člen) Ing. Ivana Burgetová, Ph.D. (člen) Ing. Aleš Smrčka, Ph.D. (člen) Ing. Josef Strnadel, Ph.D. (člen)

Date of acceptance

2023-06-12

Defence

Student nejprve prezentoval výsledky, kterých dosáhl v rámci své práce. Komise se poté seznámila s hodnocením vedoucího a posudkem oponenta práce. Student následně odpověděl na otázky oponenta a na další otázky přítomných (např. ohledně některých použitých termínů či implementačních detailů). Komise se na základě posudku oponenta, hodnocení vedoucího, přednesené prezentace a odpovědí studenta na položené otázky rozhodla práci hodnotit stupněm velmi dobře.

Result of defence

práce byla úspěšně obhájena

DOI

Collections

Endorsement

Review

Supplemented By

Referenced By

Citace PRO