Vytvoření znalostní báze entit z české Wikipedie

but.committeedoc. Ing. Vladimír Janoušek, Ph.D. (předseda) doc. Ing. Vladimír Drábek, CSc. (místopředseda) doc. Ing. Vítězslav Beran, Ph.D. (člen) Ing. Martin Hrubý, Ph.D. (člen) Ing. Zbyněk Křivka, Ph.D. (člen)cs
but.defenceStudent nejprve prezentoval výsledky, kterých dosáhl v rámci své práce. Komise se poté seznámila s hodnocením vedoucího a posudkem oponenta práce. Student následně odpověděl na otázky oponenta a na další otázku přítomných. Komise se na základě posudku oponenta, hodnocení vedoucího, přednesené prezentace a odpovědí studenta na položené otázky rozhodla práci hodnotit stupněm "B". Otázky u obhajoby: Jak identifikujete úvodní věty z článků Wikipedie? Nezkazí Vám správnou identifikaci např. zkratky či infoboxy? Hodnoty atributů v infoboxech jsou často v různých formátech a obsahují i formátovací značky. Prováděl jste nějak jejich normalizaci? V práci píšete, že se Vám povedlo pomocí anglické Wikipedie identifikovat entity, které jste v české verzi nenašel. Povedlo se Vám také identifikovat nějaké entity z české Wikipedie, které nejsou v její anglické verzi? Pokud ano, kolik jich bylo?cs
but.jazykčeština (Czech)
but.programInformační technologiecs
but.resultpráce byla úspěšně obhájenacs
dc.contributor.advisorSmrž, Pavelcs
dc.contributor.authorSychra, Martincs
dc.contributor.refereeOtrusina, Lubomírcs
dc.date.created2014cs
dc.description.abstractCílem této práce je navrhnout a implementovat systém pro automatickou extrakci pojmenovaných entit z textů české Wikipedie, vytvořit znalostní báze těchto entit a vyhodnotit úspěšnost a výsledky vytvořeného systému. První část práce vysvětluje základní pojmy z této oblasti zpracování přirozeného jazyka a informuje o existujících systémech podobného charakteru. V ústřední části je popsán vlastní návrh několika metod extrakce a způsobu implementace těchto metod. K extrakci byly vybrány tyto entitní typy: osoby, místa, události a organizace. V závěru jsou popsány výsledky práce, tedy úspěšnost jednolitých metod u daného entitního typu a statistiky extrakce jednotlivých entit vztažené k celkovému složení české Wikipedie.cs
dc.description.abstractThe aim of this thesis is to propose and implement a system for an automatic extraction of named entities from Czech Wikipedia, to create a knowledge base consisting of these entities and to evaluate results of the created system. The first part explains basic notions of this field and discusses related work. The main part proposes several methods of extraction and details their implementation. The following types of entities are extracted: people, places, events and organizations. The final part of the thesis presents results, i.e., the success of the individual methods for each entity type and statistics on extraction of the individual entities in the whole Czech Wikipedia context.en
dc.description.markBcs
dc.identifier.citationSYCHRA, M. Vytvoření znalostní báze entit z české Wikipedie [online]. Brno: Vysoké učení technické v Brně. Fakulta informačních technologií. 2014.cs
dc.identifier.other79896cs
dc.identifier.urihttp://hdl.handle.net/11012/56558
dc.language.isocscs
dc.publisherVysoké učení technické v Brně. Fakulta informačních technologiícs
dc.rightsStandardní licenční smlouva - přístup k plnému textu bez omezenícs
dc.subjectExtrakce pojmenovaných entitcs
dc.subjectzpracování přirozeného jazykacs
dc.subjectčeská Wikipediecs
dc.subjectznalostní bázecs
dc.subjectautomatická extrakcecs
dc.subjectExtraction of named entitiesen
dc.subjectnatural language processingen
dc.subjectCzech Wikipediaen
dc.subjectknowledge baseen
dc.subjectautomatic extractionen
dc.titleVytvoření znalostní báze entit z české Wikipediecs
dc.title.alternativeEntity Knowledge Base Creation from Czech Wikipediaen
dc.typeTextcs
dc.type.driverbachelorThesisen
dc.type.evskpbakalářská prácecs
dcterms.dateAccepted2014-06-17cs
dcterms.modified2020-05-10-16:11:43cs
eprints.affiliatedInstitution.facultyFakulta informačních technologiícs
sync.item.dbid79896en
sync.item.dbtypeZPen
sync.item.insts2025.03.18 18:47:14en
sync.item.modts2025.01.17 13:12:35en
thesis.disciplineInformační technologiecs
thesis.grantorVysoké učení technické v Brně. Fakulta informačních technologií. Ústav počítačové grafiky a multimédiícs
thesis.levelBakalářskýcs
thesis.nameBc.cs
Files
Original bundle
Now showing 1 - 2 of 2
Loading...
Thumbnail Image
Name:
final-thesis.pdf
Size:
1.08 MB
Format:
Adobe Portable Document Format
Description:
final-thesis.pdf
Loading...
Thumbnail Image
Name:
review_79896.html
Size:
1.45 KB
Format:
Hypertext Markup Language
Description:
file review_79896.html
Collections