Named entity recognition exploiting sub word information
but.committee | prof. Dr. Ing. Jan Černocký (předseda) doc. Ing. Jiří Jaroš, Ph.D. (místopředseda) Ing. Vladimír Bartík, Ph.D. (člen) doc. RNDr. Milan Češka, Ph.D. (člen) Ing. Filip Orság, Ph.D. (člen) | cs |
but.defence | Student nejprve prezentoval výsledky, kterých dosáhl v rámci své práce. Komise se poté seznámila s hodnocením vedoucího a posudkem oponenta práce. Student následně odpověděl otázky přítomných. Komise se na základě posudku oponenta, hodnocení vedoucího, přednesené prezentace a odpovědí studenta na položené otázky rozhodla práci hodnotit stupněm A. Otázky u obhajoby: Proč vycházejí výsledky pro němčinu lépe a pro angličtinu hůře? | cs |
but.jazyk | angličtina (English) | |
but.program | Informační technologie | cs |
but.result | práce byla úspěšně obhájena | cs |
dc.contributor.advisor | Kesiraju, Santosh | en |
dc.contributor.author | Dobrovodský, Patrik | en |
dc.contributor.referee | Egorova, Ekaterina | en |
dc.date.created | 2022 | cs |
dc.description.abstract | Cieľom tejto bakalárskej práce je zhotovenie systému rozpoznania názvoslovnej entity zhotovenej na základe modelu, ktorý bol nedávno považovaný za jeden z najmodernejších a popri tom skúma aký vplyv majú podslovné informácie na nahradenie slov mimo slovnej zásoby. Vytvorený systém vedľa anglického jazyka podporuje aj dva Indo-Európske jazyky konkrétne nemčinu a maďarčinu. Bakalárska práca predstavuje systém využívajúci hlboké učenie pre rozpoznávanie názvoslovných entít, ktorý používa predtrénované a samotrénované slovné vnorenia, zriedkavé vnorenia a charakterové vnorenia vyzdvihnuté konvolučnou neurónovou sieťou. Tieto vnorenia najprv spracujeme sekvenčnou (dlhodobá-krátkodobá pamäť) a potom charakteristickou (podmienené náhodné pole) metódou. Cieľom je dosiahnuť podobnú F1-mieru akú má inšpiračný model s možnosťou porovnania s ostatnými modernými systémami. Výsledkom našej práce je systém, ktorý na anglickej testovacej sade CoNLL 2003 dosiahol 90.98%-né F1-mieru používajúci predtrénované vnorenia a približuje sa k inšpiračnej práci s hodnotou 91.26%. V prípade ďalších jazykov používajúcich samotrénované slovné vnorenia dosiahol systém na testovacej sade WikiAnn pre nemčinu 89.34%-nú a pre maďarčinu 93.04%-nú F1-mieru. | en |
dc.description.abstract | The aim of this thesis is the creation of a Named Entity Recognition system based on an older state-of-the-art model and studying how subword information can improve the recognition of out-of-vocabulary words. This proposed system besides English has to support two additional Indo-European languages: German and Hungarian. This work features a named entity tagger based on deep learning using pretrained and custom-trained word embeddings, sparse features, and character embeddings extracted by a Convolutional Neural Network. All these features are then processed by sequence-based (bidirectional Long Short-Term Memory) and feature-based (Conditional Random Field) approaches with the goal of achieving a F1-score similar to the work it is based on, and to compare how far present time state-of-the-art systems have evolved. The result is a system that achieves a 90.98% F1-score on the CoNLL 2003 English test dataset using pretrained word embeddings, not far behind the original work's 91.26%. For the other two languages, the model scores 89.34% on the WikiAnn German test dataset and 93.04% on the WikiAnn Hungarian test dataset with the usage of custom-trained embeddings. | cs |
dc.description.mark | A | cs |
dc.identifier.citation | DOBROVODSKÝ, P. Named entity recognition exploiting sub word information [online]. Brno: Vysoké učení technické v Brně. Fakulta informačních technologií. 2022. | cs |
dc.identifier.other | 145218 | cs |
dc.identifier.uri | http://hdl.handle.net/11012/207347 | |
dc.language.iso | en | cs |
dc.publisher | Vysoké učení technické v Brně. Fakulta informačních technologií | cs |
dc.rights | Standardní licenční smlouva - přístup k plnému textu bez omezení | cs |
dc.subject | spracovanie prirodzeného jazyka | en |
dc.subject | rozpoznávanie názvoslovných entít | en |
dc.subject | neurónové siete | en |
dc.subject | konvolučná neurónová sieť | en |
dc.subject | podmienené náhodné pole | en |
dc.subject | krátkodobá-dlhodobá pamäť | en |
dc.subject | podslovné informácie | en |
dc.subject | Natural Language Processing | cs |
dc.subject | Named Entity Recognition | cs |
dc.subject | neural networks | cs |
dc.subject | Convolutional Neural Network | cs |
dc.subject | Conditional Random Fields | cs |
dc.subject | Long Short-Term Memory | cs |
dc.subject | subword information | cs |
dc.title | Named entity recognition exploiting sub word information | en |
dc.title.alternative | Named Entity Recognition Exploiting Sub Word Information | cs |
dc.type | Text | cs |
dc.type.driver | bachelorThesis | en |
dc.type.evskp | bakalářská práce | cs |
dcterms.dateAccepted | 2022-06-15 | cs |
dcterms.modified | 2022-06-20-10:23:13 | cs |
eprints.affiliatedInstitution.faculty | Fakulta informačních technologií | cs |
sync.item.dbid | 145218 | en |
sync.item.dbtype | ZP | en |
sync.item.insts | 2025.03.18 19:41:55 | en |
sync.item.modts | 2025.01.15 18:06:13 | en |
thesis.discipline | Informační technologie | cs |
thesis.grantor | Vysoké učení technické v Brně. Fakulta informačních technologií. Ústav počítačové grafiky a multimédií | cs |
thesis.level | Bakalářský | cs |
thesis.name | Bc. | cs |
Files
Original bundle
1 - 4 of 4
Loading...
- Name:
- final-thesis.pdf
- Size:
- 1.84 MB
- Format:
- Adobe Portable Document Format
- Description:
- final-thesis.pdf
Loading...
- Name:
- Posudek-Vedouci prace-24847_v.pdf
- Size:
- 85.67 KB
- Format:
- Adobe Portable Document Format
- Description:
- Posudek-Vedouci prace-24847_v.pdf
Loading...
- Name:
- Posudek-Oponent prace-24847_o.pdf
- Size:
- 86.58 KB
- Format:
- Adobe Portable Document Format
- Description:
- Posudek-Oponent prace-24847_o.pdf
Loading...
- Name:
- review_145218.html
- Size:
- 1.46 KB
- Format:
- Hypertext Markup Language
- Description:
- file review_145218.html