Extrakce dat z dokumentů PDF

but.committeedoc. RNDr. Pavel Smrž, Ph.D. (předseda) doc. RNDr. Jitka Kreslíková, CSc. (člen) Ing. Ivana Burgetová, Ph.D. (člen) Ing. Aleš Smrčka, Ph.D. (člen) Ing. Josef Strnadel, Ph.D. (člen)cs
but.defenceStudent nejprve prezentoval výsledky, kterých dosáhl v rámci své práce. Komise se poté seznámila s hodnocením vedoucího a posudkem oponenta práce. Student následně odpověděl na otázky oponenta a na další otázky přítomných (např. ohledně některých použitých termínů či implementačních detailů). Komise se na základě posudku oponenta, hodnocení vedoucího, přednesené prezentace a odpovědí studenta na položené otázky rozhodla práci hodnotit stupněm velmi dobře.cs
but.jazykčeština (Czech)
but.programInformační technologiecs
but.resultpráce byla úspěšně obhájenacs
dc.contributor.advisorBurget, Radekcs
dc.contributor.authorBartošák, Michalcs
dc.contributor.refereeBartík, Vladimírcs
dc.date.accessioned2023-07-17T08:03:59Z
dc.date.available2023-07-17T08:03:59Z
dc.date.created2023cs
dc.description.abstractPráce se zaměřuje na extrakci informací ze zdravotních záznamů ve formátu PDF, které byly vytvořeny srdečními stimulátory při pravidelné kontrole pacientů v nemocnici. Výsledkem této práce je desktopová aplikace v programovacím jazyce Java, která získává a analyzuje informace ze záznamů pomocí knihoven PDFBox a pdf2dom. Výstupem aplikace je CSV soubor, který reprezentuje získané hodnoty formou tabulky, a extrahované obrázky, které se ukládají do výstupní složky určené uživatelem. Testování aplikace na záznamech od tří různých společností prokázalo, že je extrakce záznamů velmi spolehlivá (celkové metriky přesnosti i úplnosti dosáhly téměř vždy 100 %), pokud jsou správně nastaveny její argumenty.cs
dc.description.abstractThe work focuses on extracting information from medical records saved in PDF format, which were created by heart pacemakers during regular patient monitoring in the hospital. The result of this work is a desktop application written in Java that retrieves and analyzes data from records using PDFBox and pdf2dom libraries. The output of the application is a CSV file, which represents the acquired values in table form, as well as extracted images that are saved to a user-defined output folder. Application testing on records from three different companies proved that record extraction is highly reliable (with overall precision and recall metrics reaching almost 100 % in every test), provided that the application arguments are correctly set.en
dc.description.markBcs
dc.identifier.citationBARTOŠÁK, M. Extrakce dat z dokumentů PDF [online]. Brno: Vysoké učení technické v Brně. Fakulta informačních technologií. 2023.cs
dc.identifier.other146957cs
dc.identifier.urihttp://hdl.handle.net/11012/211123
dc.language.isocscs
dc.publisherVysoké učení technické v Brně. Fakulta informačních technologiícs
dc.rightsStandardní licenční smlouva - přístup k plnému textu bez omezenícs
dc.subjectPDFcs
dc.subjectextraktorcs
dc.subjectextrakce datcs
dc.subjectzdravotní záznamcs
dc.subjectPDFBoxcs
dc.subjectpdf2domcs
dc.subjectPDFen
dc.subjectextractoren
dc.subjectdata extractionen
dc.subjectmedical recorden
dc.subjectPDFBoxen
dc.subjectpdf2domen
dc.titleExtrakce dat z dokumentů PDFcs
dc.title.alternativeData Extraction from PDF Documentsen
dc.typeTextcs
dc.type.driverbachelorThesisen
dc.type.evskpbakalářská prácecs
dcterms.dateAccepted2023-06-12cs
dcterms.modified2023-06-12-15:48:15cs
eprints.affiliatedInstitution.facultyFakulta informačních technologiícs
sync.item.dbid146957en
sync.item.dbtypeZPen
sync.item.insts2023.07.17 10:03:59en
sync.item.modts2023.07.17 09:30:37en
thesis.disciplineInformační technologiecs
thesis.grantorVysoké učení technické v Brně. Fakulta informačních technologií. Ústav informačních systémůcs
thesis.levelBakalářskýcs
thesis.nameBc.cs
Files
Original bundle
Now showing 1 - 2 of 2
Loading...
Thumbnail Image
Name:
final-thesis.pdf
Size:
2.63 MB
Format:
Adobe Portable Document Format
Description:
final-thesis.pdf
Loading...
Thumbnail Image
Name:
review_146957.html
Size:
9.53 KB
Format:
Hypertext Markup Language
Description:
review_146957.html
Collections