Extrakce informací z dokumentů

but.committeeprof. Ing. Adam Herout, Ph.D. (předseda) doc. Ing. Martin Čadík, Ph.D. (člen) Ing. František Grézl, Ph.D. (člen) Ing. Michal Hradiš, Ph.D. (člen) Ing. David Bařina, Ph.D. (člen) doc. Mgr. Adam Rogalewicz, Ph.D. (člen)cs
but.defenceStudent nejprve prezentoval výsledky, kterých dosáhl v rámci své práce. Komise se poté seznámila s hodnocením vedoucího a posudkem oponenta práce. Student následně odpověděl na otázky oponenta a na další otázky přítomných. Komise se na základě posudku oponenta, hodnocení vedoucího, přednesené prezentace a odpovědí studenta na položené otázky rozhodla práci hodnotit stupněm B.cs
but.jazykangličtina (English)
but.programInformační technologie a umělá inteligencecs
but.resultpráce byla úspěšně obhájenacs
dc.contributor.advisorHradiš, Michalen
dc.contributor.authorJaník, Romanen
dc.contributor.refereeŠpaňhel, Jakuben
dc.date.accessioned2023-08-25T06:53:31Z
dc.date.available2023-08-25T06:53:31Z
dc.date.created2023cs
dc.description.abstractS rozvojem digitalizace přichází potřeba analýzy historických dokumentů. Důležitou úlohou pro extrakci informací a dolování dat je rozpoznávání pojmenovaných entit. Cílem této práce je vyvinout systém pro extrakci informací z českých historických dokumentů, jako jsou noviny, kroniky a matriční knihy. Byl navržen systém pro extrakci informací, jehož vstupem jsou naskenované historické dokumenty zpracované OCR algoritmem. Systém je založen na modifikovaném modelu RoBERTa. Extrakce informací z českých historických dokumentů přináší výzvy v podobě nutnosti vhodného korpusu pro historickou Češtinu. Pro trénování systému byly použity korpusy Czech Named Entity Corpus (CNEC) a Czech Historical Named Entity Corpus (CHNEC), spolu s mým vlastním vytvořeným korpusem. Systém dosahuje úspěšnosti 88,85 F1 skóre na CNEC a 87,19 F1 skóre na CHNEC. Toto je zlepšení o 1,36 F1 u CNEC a 5,19 F1 u CHNEC a tedy nejlepší známé výsledky.en
dc.description.abstractWith development of digitization comes the need for historical document analysis. Named Entity Recognition is an important task for Information extraction and Data mining. The goal of this thesis is to develop a system for extraction of information from Czech historical documents, such as newspapers, chronicles and registry books. An information extraction system was designed, the input of which is scanned historical documents processed by the OCR algorithm. The system is based on a modified RoBERTa model. The extraction of information from Czech historical documents brings challenges in the form of the need for a suitable corpus for historical Czech. The corpora Czech Named Entity Corpus (CNEC) and Czech Historical Named Entity Corpus (CHNEC) were used to train the system, together with my own created corpus. The system achieves 88.85 F1 score on CNEC and 87.19 F1 score on CHNEC, obtaining new state-of-the-art results.cs
dc.description.markBcs
dc.identifier.citationJANÍK, R. Extrakce informací z dokumentů [online]. Brno: Vysoké učení technické v Brně. Fakulta informačních technologií. 2023.cs
dc.identifier.other148996cs
dc.identifier.urihttp://hdl.handle.net/11012/213801
dc.language.isoencs
dc.publisherVysoké učení technické v Brně. Fakulta informačních technologiícs
dc.rightsStandardní licenční smlouva - přístup k plnému textu bez omezenícs
dc.subjectumělá inteligenceen
dc.subjecthluboké neuronové sítěen
dc.subjectzpracování přirozeného jazykaen
dc.subjectrozpoznávání pojmenovaných entiten
dc.subjecttranformersen
dc.subjectextrakce informacíen
dc.subjecthistorické dokumentyen
dc.subjectBERTen
dc.subjectRoBERTaen
dc.subjectRobeCzechen
dc.subjectzpracování českého jazykaen
dc.subjectmasked language modelingen
dc.subjectNER dataseten
dc.subjectArtificial intelligencecs
dc.subjectDeep neural networkscs
dc.subjectNatural Language Processingcs
dc.subjectNamed Entity Recognitioncs
dc.subjectTransformerscs
dc.subjectInformation extractioncs
dc.subjecthistorical documentscs
dc.subjectBERTcs
dc.subjectRoBERTacs
dc.subjectRobeCzechcs
dc.subjectCzech language processingcs
dc.subjectMasked language modelingcs
dc.subjectNER datasetcs
dc.titleExtrakce informací z dokumentůen
dc.title.alternativeDocument Information Extractioncs
dc.typeTextcs
dc.type.drivermasterThesisen
dc.type.evskpdiplomová prácecs
dcterms.dateAccepted2023-08-24cs
dcterms.modified2023-08-24-12:03:16cs
eprints.affiliatedInstitution.facultyFakulta informačních technologiícs
sync.item.dbid148996en
sync.item.dbtypeZPen
sync.item.insts2023.08.25 08:53:31en
sync.item.modts2023.08.25 08:14:25en
thesis.disciplinePočítačové viděnícs
thesis.grantorVysoké učení technické v Brně. Fakulta informačních technologií. Ústav počítačové grafiky a multimédiícs
thesis.levelInženýrskýcs
thesis.nameIng.cs
Files
Original bundle
Now showing 1 - 3 of 3
Loading...
Thumbnail Image
Name:
final-thesis.pdf
Size:
4.08 MB
Format:
Adobe Portable Document Format
Description:
final-thesis.pdf
Loading...
Thumbnail Image
Name:
appendix-1.zip
Size:
268.99 KB
Format:
zip
Description:
appendix-1.zip
Loading...
Thumbnail Image
Name:
review_148996.html
Size:
9.87 KB
Format:
Hypertext Markup Language
Description:
review_148996.html
Collections