Klasifikace dokumentů podle tématu
Journal Title
Journal ISSN
Volume Title
Vysoké učení technické v Brně. Fakulta informačních technologií
Tato práce se zabývá problematikou klasifikace textových dokumentů, a to především metodami klasifikace textu. Hlavním cílem této práce je rozebrat dva algoritmy pro klasifikaci dokumentů, implementovat je a následně porovnat. Byl zvoleny algoritmy Bayesovského klasifikátoru a klasifikátoru založeného na metodě support vector machines (SVM), které jsou v této práci podrobně analyzovány a popsány. Jedním z cílů této práce bylo optimálně vytvořit a vybrat příznaky, které by co nejvíce napomohly klasifikaci textu. V závěru práce je provedeno množství testů, ukazujících účinnost obou klasifikátorů za různých podmínek.
This thesis deals with a document classification, especially with a text classification method. Main goal of this thesis is to analyze two arbitrary document classification algorithms to describe them and to create an implementation of those algorithms. Chosen algorithms are Bayes classifier and classifier based on support vector machines (SVM) which were analyzed and implemented in the practical part of this thesis. One of the main goals of this thesis is to create and choose optimal text features, which are describing the input text best and thus lead to the best classification results. At the end of this thesis there is a bunch of tests showing comparison of efficiency of the chosen classifiers under various conditions.
This thesis deals with a document classification, especially with a text classification method. Main goal of this thesis is to analyze two arbitrary document classification algorithms to describe them and to create an implementation of those algorithms. Chosen algorithms are Bayes classifier and classifier based on support vector machines (SVM) which were analyzed and implemented in the practical part of this thesis. One of the main goals of this thesis is to create and choose optimal text features, which are describing the input text best and thus lead to the best classification results. At the end of this thesis there is a bunch of tests showing comparison of efficiency of the chosen classifiers under various conditions.
klasifikace, Bayesovský klasifikátor, Bayesovský teorém, SVM klasifikátor, SVM, jaderné metody, volba parametrů SVM, simulované žíhání, klasifikace přirozeného jazyka, strojové učení, zpracování přirozeného jazyka, příznaky, classification, Bayes classifier, Bayes' theorem, SVM classifier, SVM, kernel methods, choosing SVM classifier parameters, simulated annealing, natural language classification, machine learning, natural language processing, features
MAREK, T. Klasifikace dokumentů podle tématu [online]. Brno: Vysoké učení technické v Brně. Fakulta informačních technologií. 2013.
Document type
Document version
Date of access to the full text
Language of document
Study field
Bioinformatika a biocomputing
prof. Ing. Lukáš Sekanina, Ph.D. (předseda)
prof. Ing. Tomáš Vojnar, Ph.D. (místopředseda)
Ing. Vladimír Bartík, Ph.D. (člen)
prof. Ing. Martin Drahanský, Ph.D. (člen)
Ing. Tomáš Martínek, Ph.D. (člen)
doc. Ing. Jan Staudek, CSc. (člen)
Date of acceptance
Student nejprve prezentoval výsledky, kterých dosáhl v rámci své práce. Komise se pak seznámila s hodnocením vedoucího a posudkem oponenta práce. Student následně odpověděl na otázky oponenta a na další otázky přítomných. Komise se na základě posudku oponenta, hodnocení vedoucího, přednesené prezentace a odpovědí studenta na položené otázky rozhodla práci hodnotit stupněm C. Otázky u obhajoby: Diskutujte příčiny pozitivního vlivu příznaku "celá e-mailová adresa" v bayesovském klasifikátoru, když vliv příznaků týkajících se samotné existence e-mailové adresy v textu byl negativní.
Result of defence
práce byla úspěšně obhájena
Document licence
Standardní licenční smlouva - přístup k plnému textu bez omezení