Metody shlukování textových dat

Loading...
Thumbnail Image

Date

Authors

Miloš, Roman

Mark

C

Journal Title

Journal ISSN

Volume Title

Publisher

Vysoké učení technické v Brně. Fakulta informačních technologií

ORCID

Abstract

Shlukování textových dat je jednou z úloh dolování v textech. Slouží k rozdělení dokumentů do různých kategorií na základě jejich podobnosti, což nám umožňuje snadnější vyhledávání v takto rozdělených dokumentech. V práci jsou popsány současné metody sloužící k shlukování textových dokumentů, jež se využívají. Z těchto metod je vybrán algoritmus Simultaneous keyword identification and clustering of text documents (SKWIC), který by měl při shlukování dosahovat lepších výsledků, než standardní algoritmy jako např. k-means. Je navrhnuta a implementována aplikace řešící tento algoritmus. Na závěr je provedeno srovnání SKWIC se standardním k-means.
Clustering of text data is one of tasks of text mining. It divides documents into the different categories that are based on their similarities. These categories help to easily search in the documents. This thesis describes the current methods that are used for the text document clustering. From these methods we chose Simultaneous keyword identification and clustering of text documents (SKWIC). It should achieve better results than the standard clustering algorithms such as k-means. There is designed and implemented an application for this algorithm. In the end, we compare SKWIC with a k-means algorithm.

Description

Citation

MILOŠ, R. Metody shlukování textových dat [online]. Brno: Vysoké učení technické v Brně. Fakulta informačních technologií. 2011.

Document type

Document version

Date of access to the full text

Language of document

cs

Study field

Informační systémy

Comittee

prof. Ing. Tomáš Hruška, CSc. (předseda) doc. RNDr. Jitka Kreslíková, CSc. (místopředseda) Doc. Ing. Pavel Herout, Ph.D. (člen) Ing. Radek Kočí, Ph.D. (člen) doc. Ing. Jan Kořenek, Ph.D. (člen) RNDr. Marek Rychlý, Ph.D. (člen)

Date of acceptance

2011-06-20

Defence

Student nejprve prezentoval výsledky, kterých dosáhl v rámci své práce. Komise se pak seznámila s hodnocením vedoucího a posudkem oponenta práce. Student následně odpověděl na otázku oponenta a na další otázky přítomných. Komise se na základě posudku oponenta, hodnocení vedoucího, přednesené prezentace a odpovědí studenta na položené otázky rozhodla práci hodnotit stupněm C. Otázky u obhajoby: Jak obtížné by bylo rozšíření Vaší aplikace o využití ontologií?

Result of defence

práce byla úspěšně obhájena

DOI

Collections

Endorsement

Review

Supplemented By

Referenced By

Citace PRO