Vytvoření znalostní báze entit z české Wikipedie

Loading...
Thumbnail Image

Date

Authors

Sychra, Martin

Mark

B

Journal Title

Journal ISSN

Volume Title

Publisher

Vysoké učení technické v Brně. Fakulta informačních technologií

ORCID

Abstract

Cílem této práce je navrhnout a implementovat systém pro automatickou extrakci pojmenovaných entit z textů české Wikipedie, vytvořit znalostní báze těchto entit a vyhodnotit úspěšnost a výsledky vytvořeného systému. První část práce vysvětluje základní pojmy z této oblasti zpracování přirozeného jazyka a informuje o existujících systémech podobného charakteru. V ústřední části je popsán vlastní návrh několika metod extrakce a způsobu implementace těchto metod. K extrakci byly vybrány tyto entitní typy: osoby, místa, události a organizace. V závěru jsou popsány výsledky práce, tedy úspěšnost jednolitých metod u daného entitního typu a statistiky extrakce jednotlivých entit vztažené k celkovému složení české Wikipedie.
The aim of this thesis is to propose and implement a system for an automatic extraction of named entities from Czech Wikipedia, to create a knowledge base consisting of these entities and to evaluate results of the created system. The first part explains basic notions of this field and discusses related work. The main part proposes several methods of extraction and details their implementation. The following types of entities are extracted: people, places, events and organizations. The final part of the thesis presents results, i.e., the success of the individual methods for each entity type and statistics on extraction of the individual entities in the whole Czech Wikipedia context.

Description

Citation

SYCHRA, M. Vytvoření znalostní báze entit z české Wikipedie [online]. Brno: Vysoké učení technické v Brně. Fakulta informačních technologií. 2014.

Document type

Document version

Date of access to the full text

Language of document

cs

Study field

Informační technologie

Comittee

doc. Ing. Vladimír Janoušek, Ph.D. (předseda) doc. Ing. Vladimír Drábek, CSc. (místopředseda) doc. Ing. Vítězslav Beran, Ph.D. (člen) Ing. Martin Hrubý, Ph.D. (člen) Ing. Zbyněk Křivka, Ph.D. (člen)

Date of acceptance

2014-06-17

Defence

Student nejprve prezentoval výsledky, kterých dosáhl v rámci své práce. Komise se poté seznámila s hodnocením vedoucího a posudkem oponenta práce. Student následně odpověděl na otázky oponenta a na další otázku přítomných. Komise se na základě posudku oponenta, hodnocení vedoucího, přednesené prezentace a odpovědí studenta na položené otázky rozhodla práci hodnotit stupněm "B". Otázky u obhajoby: Jak identifikujete úvodní věty z článků Wikipedie? Nezkazí Vám správnou identifikaci např. zkratky či infoboxy? Hodnoty atributů v infoboxech jsou často v různých formátech a obsahují i formátovací značky. Prováděl jste nějak jejich normalizaci? V práci píšete, že se Vám povedlo pomocí anglické Wikipedie identifikovat entity, které jste v české verzi nenašel. Povedlo se Vám také identifikovat nějaké entity z české Wikipedie, které nejsou v její anglické verzi? Pokud ano, kolik jich bylo?

Result of defence

práce byla úspěšně obhájena

DOI

Collections

Endorsement

Review

Supplemented By

Referenced By

Citace PRO