Kontrola konzistence informací extrahovaných z textu
Loading...
Date
Authors
Stejskal, Jakub
ORCID
Advisor
Referee
Mark
E
Journal Title
Journal ISSN
Volume Title
Publisher
Vysoké učení technické v Brně. Fakulta informačních technologií
Abstract
Tato práce je zaměřena na strojové techniky, které jsou využívány při zpracování přirozeného jazyka a extrakce informací z textu. Přibližuje obecné metody začínající zpracováním surového textu, až po extrakci vztahů ze zpracovaných jazykových konstrukcí a uvádí možnosti využití pro získaná relační data, které je možné vidět například u projektu DBpedia. Dalším milníkem této práce je návrh a realizace automatického systému pro extrakci informací o entitách, které nemají vlastní článek na anglické verzi Wikipedie. Práce představuje vytvořené algoritmy pro extrakci entit s vlastním jménem, ověření existence článků extrahovaných entit a nakonec samotnou extrakci informací o jednotlivých entitách, které lze využívat při kontrole konzistence informací. Na závěr je možné zhlédnout dosažené výsledky a návrhy dalšího vývoje vytvořeného systému.
This bachelor thesis is dedicated to mechanical techniques that are used in the natural language processing and information extraction from particular text. It is approaching the general methods that starting to process the raw text and it continues to the relations extraction from processed language constructs, moreover it provides options for the use of obtained relational data which can be seen for example in the project DBpedia. Another milestone of the described bachelor thesis is the design and implementation of an automated system for extracting information about entities, which do not have their own article on the English version of Wikipedia. Thesis also presents algorithms developed for the extraction of entities with their own name, the verification of the articles ‘existence of the extracted entities and finally the actual extraction of information about individual entities, which can be used during the information consistency checking. In the end, it can be seen the results and suggestions for further development of the created system.
This bachelor thesis is dedicated to mechanical techniques that are used in the natural language processing and information extraction from particular text. It is approaching the general methods that starting to process the raw text and it continues to the relations extraction from processed language constructs, moreover it provides options for the use of obtained relational data which can be seen for example in the project DBpedia. Another milestone of the described bachelor thesis is the design and implementation of an automated system for extracting information about entities, which do not have their own article on the English version of Wikipedia. Thesis also presents algorithms developed for the extraction of entities with their own name, the verification of the articles ‘existence of the extracted entities and finally the actual extraction of information about individual entities, which can be used during the information consistency checking. In the end, it can be seen the results and suggestions for further development of the created system.
Description
Keywords
Wikipedia, korpus, DBpedia, koreference, extrakce informací, NLP, rozpoznávání jmenných entit, Open Information Extraction, kontrola konzistence, extrakce entit, Wikipedia, corpus, DBpedia, coreference, information extraction, NLP, named entity recognition, Open Information Extraction, consistency checking, entity extraction
Citation
STEJSKAL, J. Kontrola konzistence informací extrahovaných z textu [online]. Brno: Vysoké učení technické v Brně. Fakulta informačních technologií. 2016.
Document type
Document version
Date of access to the full text
Language of document
cs
Study field
Informační technologie
Comittee
doc. Dr. Ing. Dušan Kolář (předseda)
doc. Ing. František Zbořil, Ph.D. (místopředseda)
doc. Ing. Radek Burget, Ph.D. (člen)
Ing. Igor Szőke, Ph.D. (člen)
doc. Ing. Zdeněk Vašíček, Ph.D. (člen)
Date of acceptance
2016-06-15
Defence
Student nejprve prezentoval výsledky, kterých dosáhl v rámci své práce. Komise se poté seznámila s hodnocením vedoucího a posudkem oponenta práce. Student následně odpověděl na otázky oponenta a na další otázky přítomných. Komise se na základě posudku oponenta, hodnocení vedoucího, přednesené prezentace a odpovědí studenta na položené otázky rozhodla práci hodnotit stupněm E. Otázky u obhajoby: V práci píšete, že jste implementoval vlastní rozpoznávač jmenných entit, protože data, která byla zpracována používaným systémem NER, byla nepřesná. Dělal jste nějaké exaktní porovnání nebo je to jen Vaše domněnka? Proč jste nepoužil nějaký standardní nástroj pro rozpoznávání jmenných entit a pustil jste se do vlastní implementace? V práci píšete, že jste vyextrahoval pouhých 435 473 vztahů pro 7 481 416 entit, přesto tvrdíte, že dosahujete pokrytí 74,46 %. Jak je to možné?
Result of defence
práce byla úspěšně obhájena
Document licence
Standardní licenční smlouva - přístup k plnému textu bez omezení