Klasifikace dokumentů podle tématu

Loading...
Thumbnail Image

Date

Authors

Marek, Tomáš

Mark

C

Journal Title

Journal ISSN

Volume Title

Publisher

Vysoké učení technické v Brně. Fakulta informačních technologií

ORCID

Abstract

Tato práce se zabývá problematikou klasifikace textových dokumentů, a to především metodami klasifikace textu. Hlavním cílem této práce je rozebrat dva algoritmy pro klasifikaci dokumentů, implementovat je a následně porovnat. Byl zvoleny algoritmy Bayesovského klasifikátoru a klasifikátoru založeného na metodě support vector machines (SVM), které jsou v této práci podrobně analyzovány a popsány. Jedním z cílů této práce bylo optimálně vytvořit a vybrat příznaky, které by co nejvíce napomohly klasifikaci textu. V závěru práce je provedeno množství testů, ukazujících účinnost obou klasifikátorů za různých podmínek.
This thesis deals with a document classification, especially with a text classification method. Main goal of this thesis is to analyze two arbitrary document classification algorithms to describe them and to create an implementation of those algorithms. Chosen algorithms are Bayes classifier and classifier based on support vector machines (SVM) which were analyzed and implemented in the practical part of this thesis. One of the main goals of this thesis is to create and choose optimal text features, which are describing the input text best and thus lead to the best classification results. At the end of this thesis there is a bunch of tests showing comparison of efficiency of the chosen classifiers under various conditions.

Description

Citation

MAREK, T. Klasifikace dokumentů podle tématu [online]. Brno: Vysoké učení technické v Brně. Fakulta informačních technologií. 2013.

Document type

Document version

Date of access to the full text

Language of document

cs

Study field

Bioinformatika a biocomputing

Comittee

prof. Ing. Lukáš Sekanina, Ph.D. (předseda) prof. Ing. Tomáš Vojnar, Ph.D. (místopředseda) Ing. Vladimír Bartík, Ph.D. (člen) prof. Ing. Martin Drahanský, Ph.D. (člen) doc. Ing. Tomáš Martínek, Ph.D. (člen) doc. Ing. Jan Staudek, CSc. (člen)

Date of acceptance

2013-06-19

Defence

Student nejprve prezentoval výsledky, kterých dosáhl v rámci své práce. Komise se pak seznámila s hodnocením vedoucího a posudkem oponenta práce. Student následně odpověděl na otázky oponenta a na další otázky přítomných. Komise se na základě posudku oponenta, hodnocení vedoucího, přednesené prezentace a odpovědí studenta na položené otázky rozhodla práci hodnotit stupněm C. Otázky u obhajoby: Diskutujte příčiny pozitivního vlivu příznaku "celá e-mailová adresa" v bayesovském klasifikátoru, když vliv příznaků týkajících se samotné existence e-mailové adresy v textu byl negativní.

Result of defence

práce byla úspěšně obhájena

DOI

Collections

Endorsement

Review

Supplemented By

Referenced By

Citace PRO