Named entity recognition exploiting sub word information

but.committeeprof. Dr. Ing. Jan Černocký (předseda) doc. Ing. Jiří Jaroš, Ph.D. (místopředseda) Ing. Vladimír Bartík, Ph.D. (člen) doc. RNDr. Milan Češka, Ph.D. (člen) Ing. Filip Orság, Ph.D. (člen)cs
but.defenceStudent nejprve prezentoval výsledky, kterých dosáhl v rámci své práce. Komise se poté seznámila s hodnocením vedoucího a posudkem oponenta práce. Student následně odpověděl otázky přítomných. Komise se na základě posudku oponenta, hodnocení vedoucího, přednesené prezentace a odpovědí studenta na položené otázky rozhodla práci hodnotit stupněm A. Otázky u obhajoby: Proč vycházejí výsledky pro němčinu lépe a pro angličtinu hůře?cs
but.jazykangličtina (English)
but.programInformační technologiecs
but.resultpráce byla úspěšně obhájenacs
dc.contributor.advisorKesiraju, Santoshen
dc.contributor.authorDobrovodský, Patriken
dc.contributor.refereeEgorova, Ekaterinaen
dc.date.created2022cs
dc.description.abstractCieľom tejto bakalárskej práce je zhotovenie systému rozpoznania názvoslovnej entity zhotovenej na základe modelu, ktorý bol nedávno považovaný za jeden z najmodernejších a popri tom skúma aký vplyv majú podslovné informácie na nahradenie slov mimo slovnej zásoby. Vytvorený systém vedľa anglického jazyka podporuje aj dva Indo-Európske jazyky konkrétne nemčinu a maďarčinu. Bakalárska práca predstavuje systém využívajúci hlboké učenie pre rozpoznávanie názvoslovných entít, ktorý používa predtrénované a samotrénované slovné vnorenia, zriedkavé vnorenia a charakterové vnorenia vyzdvihnuté konvolučnou neurónovou sieťou. Tieto vnorenia najprv spracujeme sekvenčnou (dlhodobá-krátkodobá pamäť) a potom charakteristickou (podmienené náhodné pole) metódou. Cieľom je dosiahnuť podobnú F1-mieru akú má inšpiračný model s možnosťou porovnania s ostatnými modernými systémami. Výsledkom našej práce je systém, ktorý na anglickej testovacej sade CoNLL 2003 dosiahol 90.98%-né F1-mieru používajúci predtrénované vnorenia a približuje sa k inšpiračnej práci s hodnotou 91.26%. V prípade ďalších jazykov používajúcich samotrénované slovné vnorenia dosiahol systém na testovacej sade WikiAnn pre nemčinu 89.34%-nú a pre maďarčinu 93.04%-nú F1-mieru.en
dc.description.abstractThe aim of this thesis is the creation of a Named Entity Recognition system based on an older state-of-the-art model and studying how subword information can improve the recognition of out-of-vocabulary words. This proposed system besides English has to support two additional Indo-European languages: German and Hungarian. This work features a named entity tagger based on deep learning using pretrained and custom-trained word embeddings, sparse features, and character embeddings extracted by a Convolutional Neural Network. All these features are then processed by sequence-based (bidirectional Long Short-Term Memory) and feature-based (Conditional Random Field) approaches with the goal of achieving a F1-score similar to the work it is based on, and to compare how far present time state-of-the-art systems have evolved. The result is a system that achieves a 90.98% F1-score on the CoNLL 2003 English test dataset using pretrained word embeddings, not far behind the original work's 91.26%. For the other two languages, the model scores 89.34% on the WikiAnn German test dataset and 93.04% on the WikiAnn Hungarian test dataset with the usage of custom-trained embeddings.cs
dc.description.markAcs
dc.identifier.citationDOBROVODSKÝ, P. Named entity recognition exploiting sub word information [online]. Brno: Vysoké učení technické v Brně. Fakulta informačních technologií. 2022.cs
dc.identifier.other145218cs
dc.identifier.urihttp://hdl.handle.net/11012/207347
dc.language.isoencs
dc.publisherVysoké učení technické v Brně. Fakulta informačních technologiícs
dc.rightsStandardní licenční smlouva - přístup k plnému textu bez omezenícs
dc.subjectspracovanie prirodzeného jazykaen
dc.subjectrozpoznávanie názvoslovných entíten
dc.subjectneurónové sieteen
dc.subjectkonvolučná neurónová sieťen
dc.subjectpodmienené náhodné poleen
dc.subjectkrátkodobá-dlhodobá pamäťen
dc.subjectpodslovné informácieen
dc.subjectNatural Language Processingcs
dc.subjectNamed Entity Recognitioncs
dc.subjectneural networkscs
dc.subjectConvolutional Neural Networkcs
dc.subjectConditional Random Fieldscs
dc.subjectLong Short-Term Memorycs
dc.subjectsubword informationcs
dc.titleNamed entity recognition exploiting sub word informationen
dc.title.alternativeNamed Entity Recognition Exploiting Sub Word Informationcs
dc.typeTextcs
dc.type.driverbachelorThesisen
dc.type.evskpbakalářská prácecs
dcterms.dateAccepted2022-06-15cs
dcterms.modified2022-06-20-10:23:13cs
eprints.affiliatedInstitution.facultyFakulta informačních technologiícs
sync.item.dbid145218en
sync.item.dbtypeZPen
sync.item.insts2025.03.18 19:41:55en
sync.item.modts2025.01.15 18:06:13en
thesis.disciplineInformační technologiecs
thesis.grantorVysoké učení technické v Brně. Fakulta informačních technologií. Ústav počítačové grafiky a multimédiícs
thesis.levelBakalářskýcs
thesis.nameBc.cs
Files
Original bundle
Now showing 1 - 4 of 4
Loading...
Thumbnail Image
Name:
final-thesis.pdf
Size:
1.84 MB
Format:
Adobe Portable Document Format
Description:
final-thesis.pdf
Loading...
Thumbnail Image
Name:
Posudek-Vedouci prace-24847_v.pdf
Size:
85.67 KB
Format:
Adobe Portable Document Format
Description:
Posudek-Vedouci prace-24847_v.pdf
Loading...
Thumbnail Image
Name:
Posudek-Oponent prace-24847_o.pdf
Size:
86.58 KB
Format:
Adobe Portable Document Format
Description:
Posudek-Oponent prace-24847_o.pdf
Loading...
Thumbnail Image
Name:
review_145218.html
Size:
1.46 KB
Format:
Hypertext Markup Language
Description:
file review_145218.html
Collections