Extrakce klíčových slov z dokumentů

Loading...
Thumbnail Image
Date
Authors
Matička, Jiří
ORCID
Mark
C
Journal Title
Journal ISSN
Volume Title
Publisher
Vysoké učení technické v Brně. Fakulta informačních technologií
Abstract
Práce se zabývá automatickou extrakcí klíčových slov z dokumentů. Jejím cílem je návrh a implementace aplikace, která bude schopná z dokumentu vyextrahovat množinu klíčových slov vyjadřující co nejpřesněji hlavní obsah dokumentu. Mezi požadavky na aplikaci patří zejména rychlost a přesnost. Proto byly nejprve prostudovány již existující principy a provedena klasifikace metod na základě různých kritérií. Další část práce se zaměřuje na výběr a podrobný popis funkčnosti jedné z metod, která by měla být využita při extrahování klíčových slov. Následuje podrobný návrh celé aplikace a její následná implementace. Důležitá je hlavně poslední kapitola zabývající se testováním aplikace na množině textových dokumentů a vyhodnocením úspěšnosti procesu extrakce.
This thesis pursues an automated extraction of keywords from documents. Its goal is to design and implement an application which will be able to extract an appropriate set of keywords related to the contents of the document. The major requirements for the application are speed and accuracy. That is why the first part of the thesis talks about already developed principles and a detailed classification based on various criteria. The second part is focused on choosing and a thorough functional describing of one of the methods which should have been used for extracting the keywords. The next parts contain a detailed draft of the application and its implementation. Finally, the last chapter is particularly important due to testing the application on a group of text documents and evaluating final results of the extraction process.
Description
Citation
MATIČKA, J. Extrakce klíčových slov z dokumentů [online]. Brno: Vysoké učení technické v Brně. Fakulta informačních technologií. 2012.
Document type
Document version
Date of access to the full text
Language of document
cs
Study field
Informační systémy
Comittee
doc. Dr. Ing. Dušan Kolář (předseda) prof. RNDr. Alexandr Meduna, CSc. (místopředseda) doc. Dr. Ing. Otto Fučík (člen) doc. RNDr. Jitka Kreslíková, CSc. (člen) RNDr. Marek Rychlý, Ph.D. (člen) Doc. RNDr. Petr Sojka, Ph.D. (člen)
Date of acceptance
2012-06-15
Defence
Student nejprve prezentoval výsledky, kterých dosáhl v rámci své práce. Komise se pak seznámila s hodnocením vedoucího a posudkem oponenta práce. Student následně odpověděl na otázky oponenta a na další otázky přítomných. Komise se na základě posudku oponenta, hodnocení vedoucího, přednesené prezentace a odpovědí studenta na položené otázky rozhodla práci hodnotit stupněm " C ". Otázky u obhajoby: Na základě výsledků testování uveďte, jaké jsou hlavní rozdíly při extrakci klíčových slov z běžných článků a z odborných článků. Jaké jsou rozdíly při extrakci z článků v různých jazycích? Je rozdíl např. mezi angličtinou a češtinou?
Result of defence
práce byla úspěšně obhájena
Document licence
Standardní licenční smlouva - přístup k plnému textu bez omezení
DOI
Collections
Citace PRO