Extrakce informací z Wikipedie

Musil, Martin

Extrakce informací z Wikipedie

Files

final-thesis.pdf (1.06 MB)

review_42452.html (1.42 KB)

Authors

Musil, Martin

Advisor

Schmidt, Marek

Referee

Otrusina, Lubomír

Mark

D

Publisher

Vysoké učení technické v Brně. Fakulta informačních technologií

Abstract

Tato bakalárská práce se zabývá tématem automatické extrakce informací z textu. Cílem je vytvorení aplikace, která za užití extrakcních vzoru získává znalosti z clánku informacního internetového serveru Wikipedie. V úvodu jsou vysvetleny základní pojmy této problematiky, hlavní cást práce se venuje experimentum a predevším samotné implementaci rozdelené do dvou cástí - zpracování textu a následného získávání informací. Vyhodnocením projektu je pak samotná analýza výsledku experimentu a efektivita vytvorených pravidel.
This bachelor thesis deals with the problem of automatic information extraction from text. Goal is to create an application, which captures knowledge out of the articles from online information server Wikipedia, using extraction patterns. At the beginning, we interpret the basic terms of the subject and the main part of the publication is focused to the experiments and above all to the implementation, divided into two parts, processing of the text and following information extraction. The conclusion of the thesis analyses the results coming from experiments and efficiency of created rules.

Keywords

Wikipedie , automatická extrakce informací , pravidlový systém , Python , Wikipedia , automatic information extraction , rule-based system , Python

Citation

MUSIL, M. Extrakce informací z Wikipedie [online]. Brno: Vysoké učení technické v Brně. Fakulta informačních technologií. 2011.

Language of document

cs

Study field

Informační technologie

Comittee

prof. Dr. Ing. Jan Černocký (předseda) doc. Ing. Jiří Kunovský, CSc. (místopředseda) Ing. Martin Hrubý, Ph.D. (člen) doc. Ing. Ondřej Ryšavý, Ph.D. (člen) Ing. Aleš Smrčka, Ph.D. (člen)

Date of acceptance

2011-06-16

Defence

Student nejprve prezentoval výsledky, kterých dosáhl v rámci své práce. Komise se pak seznámila s hodnocením vedoucího a posudkem oponenta práce. Student následně odpověděl na otázky oponenta a na další otázky přítomných. Komise se na základě posudku oponenta, hodnocení vedoucího, přednesené prezentace a odpovědí studenta na položené otázky rozhodla práci hodnotit stupněm D. Otázky u obhajoby: V kapitole 2.2.5 uvádíte, že "Metody pro extrakci informací kategorizujeme do dvou rovin: ručně-kódované nebo učící se a pravidlové či statistické." Toto rozdělení mi přijde podivné. Jelikož se mi to z dané kapitoly nepovedlo pochopit, můžete prosím komisi tohle rozdělení objasnit?

Result of defence

práce byla úspěšně obhájena

URI

http://hdl.handle.net/11012/52963

Collections

2011

Citace PRO

Full item page

Extrakce informací z Wikipedie

Files

Date

Authors

Advisor

Referee

Mark

Journal Title

Journal ISSN

Volume Title

Publisher

ORCID

Abstract

Description

Keywords

Citation

Document type

Document version

Date of access to the full text

Language of document

Study field

Comittee

Date of acceptance

Defence

Result of defence

DOI

URI

Collections

Endorsement

Review

Supplemented By

Referenced By

Citace PRO