Algoritmy pro shlukování textových dat

Loading...
Thumbnail Image

Date

Authors

Sedláček, Josef

Mark

A

Journal Title

Journal ISSN

Volume Title

Publisher

Vysoké učení technické v Brně. Fakulta elektrotechniky a komunikačních technologií

ORCID

Abstract

Tato diplomová práce se zabývá problematikou dolování textových dat. Je zde popsána teorie potřebná ke shlukování textových dokumentů a také algoritmy, které se při shlukování využívají. Podle této teorie je pak vytvořena aplikace pro shlukování textových dat. Aplikace je vytvořena v programovacím jazyku Java a obsahuje tři metody používané při shlukování. Uživatel si tak sám může vybrat metodu, podle které chce kolekci dokumentů shlukovat. Implementované metody jsou K medoids, BiSec K medoids a SOM (self organization map). Součástí aplikace je také vytvoření validační množiny, pomocí které jsou algoritmy testovány. V závěru jsou pak algoritmy porovnány podle dosažených výsledků.
The thesis deals with text mining. It describes the theory of text document clustering as well as algorithms used for clustering. This theory serves as a basis for developing an application for clustering text data. The application is developed in Java programming language and contains three methods used for clustering. The user can choose which method will be used for clustering the collection of documents. The implemented methods are K medoids, BiSec K medoids, and SOM (self-organization maps). The application also includes a validation set, which was specially created for the diploma thesis and it is used for testing the algorithms. Finally, the algorithms are compared according to obtained results.

Description

Citation

SEDLÁČEK, J. Algoritmy pro shlukování textových dat [online]. Brno: Vysoké učení technické v Brně. Fakulta elektrotechniky a komunikačních technologií. 2011.

Document type

Document version

Date of access to the full text

Language of document

cs

Study field

Telekomunikační a informační technika

Comittee

prof. Ing. Zdeněk Smékal, CSc. (předseda) Ing. Robert Vích, DrSc. (místopředseda) doc. Ing. Otto Dostál, CSc. (člen) Ing. Jaromír Hrad, Ph.D. (člen) Ing. Jan Karásek, Ph.D. (člen) Ing. Hicham Atassi, Ph.D. (člen) Ing. Peter Stančík (člen)

Date of acceptance

2011-06-08

Defence

Co je to ontologická báze a k čemu se v oblasti zpracování obrazu používá? - Na základě ontologie se vytváří významové informace. Objasnete význam Davies-Bouldin indexu a jak se používá pro analýzu kvality clusterování. - Čím menší DB tím lepší výsledek shlukování. Jakých parametrů jste využíval při shlukové analýze? Popište Kohonenovu síť.

Result of defence

práce byla úspěšně obhájena

DOI

Collections

Endorsement

Review

Supplemented By

Referenced By

Citace PRO