Multi-label klasifikace textových dokumentů

Průša, Petr

Multi-label klasifikace textových dokumentů

Files

final-thesis.pdf (1.24 MB)

review_79064.html (1.44 KB)

Authors

Průša, Petr

Advisor

Bartík, Vladimír

Referee

Očenášek, Pavel

Mark

C

Publisher

Vysoké učení technické v Brně. Fakulta informačních technologií

Abstract

Diplomová práce se zabývá automatickou klasifikací textových dokumentů. Jsou zde vysvětleny základní pojmy a problémy dolování z textu. Práce vysvětluje pojem shlukování a ukazuje několik základních algoritmů shlukování. Je zde ukázáno i několik metod klasifikace a podrobně je rozebrána vybraná metoda matrix regression. Dále byla navrhnuta a implementována aplikace používající ke klasifikaci matrix regression. Provedené experimenty byly zaměřeny na normalizaci a prahování.
The master's thesis deals with automatic classifi cation of text document. It explains basic terms and problems of text mining. The thesis explains term clustering and shows some basic clustering algoritms. The thesis also shows some methods of classi fication and deals with matrix regression closely. Application using matrix regression for classifi cation was designed and developed. Experiments were focused on normalization and thresholding.

Keywords

Dolování z dat , dolování z textu , klasifikace , matrix regression , textový dokument , shlukování , strojové učení , prahování , normalizace , TF-IDF. , Data mining , text mining , classification , matrix regression , text document , clustering , machine learning , thresholding , normalization , TF-IDF.

Citation

PRŮŠA, P. Multi-label klasifikace textových dokumentů [online]. Brno: Vysoké učení technické v Brně. Fakulta informačních technologií. 2012.

Language of document

cs

Study field

Informační systémy

Comittee

prof. Ing. Tomáš Hruška, CSc. (předseda) doc. Dr. Ing. Petr Hanáček (místopředseda) doc. RNDr. Jitka Kreslíková, CSc. (člen) Ing. Zbyněk Křivka, Ph.D. (člen) Prof. Ing. Pavol Návrat, Ph.D. (člen) doc. Ing. František Zbořil, Ph.D. (člen)

Date of acceptance

2012-06-18

Defence

Student nejprve prezentoval výsledky, kterých dosáhl v rámci své práce. Komise se pak seznámila s hodnocením vedoucího a posudkem oponenta práce. Student následně odpověděl na otázky oponenta a na další otázky přítomných. Komise se na základě posudku oponenta, hodnocení vedoucího, přednesené prezentace a odpovědí studenta na položené otázky rozhodla práci hodnotit stupněm dobře. Otázky u obhajoby: Jaký formát vstupních dat je podporován Vaší aplikací? Proč jste si zvolil zrovna tento formát dat? Je možné Vaši aplikaci použít i na klasifikaci textových dokumentů v jiném jazyce než jste testoval (např. v češtině)?

Result of defence

práce byla úspěšně obhájena

URI

http://hdl.handle.net/11012/187635

Collections

2012

Citace PRO

Full item page

Multi-label klasifikace textových dokumentů

Files

Date

Authors

Advisor

Referee

Mark

Journal Title

Journal ISSN

Volume Title

Publisher

ORCID

Abstract

Description

Keywords

Citation

Document type

Document version

Date of access to the full text

Language of document

Study field

Comittee

Date of acceptance

Defence

Result of defence

DOI

URI

Collections

Endorsement

Review

Supplemented By

Referenced By

Citace PRO