Extrakce klíčových slov z dokumentů

Loading...
Thumbnail Image

Date

Authors

Matička, Jiří

Mark

C

Journal Title

Journal ISSN

Volume Title

Publisher

Vysoké učení technické v Brně. Fakulta informačních technologií

ORCID

Abstract

Práce se zabývá automatickou extrakcí klíčových slov z dokumentů. Jejím cílem je návrh a implementace aplikace, která bude schopná z dokumentu vyextrahovat množinu klíčových slov vyjadřující co nejpřesněji hlavní obsah dokumentu. Mezi požadavky na aplikaci patří zejména rychlost a přesnost. Proto byly nejprve prostudovány již existující principy a provedena klasifikace metod na základě různých kritérií. Další část práce se zaměřuje na výběr a podrobný popis funkčnosti jedné z metod, která by měla být využita při extrahování klíčových slov. Následuje podrobný návrh celé aplikace a její následná implementace. Důležitá je hlavně poslední kapitola zabývající se testováním aplikace na množině textových dokumentů a vyhodnocením úspěšnosti procesu extrakce.
This thesis pursues an automated extraction of keywords from documents. Its goal is to design and implement an application which will be able to extract an appropriate set of keywords related to the contents of the document. The major requirements for the application are speed and accuracy. That is why the first part of the thesis talks about already developed principles and a detailed classification based on various criteria. The second part is focused on choosing and a thorough functional describing of one of the methods which should have been used for extracting the keywords. The next parts contain a detailed draft of the application and its implementation. Finally, the last chapter is particularly important due to testing the application on a group of text documents and evaluating final results of the extraction process.

Description

Citation

MATIČKA, J. Extrakce klíčových slov z dokumentů [online]. Brno: Vysoké učení technické v Brně. Fakulta informačních technologií. 2012.

Document type

Document version

Date of access to the full text

Language of document

cs

Study field

Informační systémy

Comittee

doc. Dr. Ing. Dušan Kolář (předseda) prof. RNDr. Alexandr Meduna, CSc. (místopředseda) doc. Dr. Ing. Otto Fučík (člen) doc. RNDr. Jitka Kreslíková, CSc. (člen) RNDr. Marek Rychlý, Ph.D. (člen) Doc. RNDr. Petr Sojka, Ph.D. (člen)

Date of acceptance

2012-06-15

Defence

Student nejprve prezentoval výsledky, kterých dosáhl v rámci své práce. Komise se pak seznámila s hodnocením vedoucího a posudkem oponenta práce. Student následně odpověděl na otázky oponenta a na další otázky přítomných. Komise se na základě posudku oponenta, hodnocení vedoucího, přednesené prezentace a odpovědí studenta na položené otázky rozhodla práci hodnotit stupněm " C ". Otázky u obhajoby: Na základě výsledků testování uveďte, jaké jsou hlavní rozdíly při extrakci klíčových slov z běžných článků a z odborných článků. Jaké jsou rozdíly při extrakci z článků v různých jazycích? Je rozdíl např. mezi angličtinou a češtinou?

Result of defence

práce byla úspěšně obhájena

DOI

Collections

Endorsement

Review

Supplemented By

Referenced By

Citace PRO