Reprezentace textu a její vliv na kategorizaci

but.committeedoc. Ing. Jaroslav Zendulka, CSc. (předseda) prof. Ing. Tomáš Vojnar, Ph.D. (místopředseda) doc. Ing. Michal Bidlo, Ph.D. (člen) prof. Ing. Adam Herout, Ph.D. (člen) Ing. Ivana Burgetová, Ph.D. (člen) prof. Ing. Jiří Šafařík, CSc. (člen)cs
but.defenceStudent nejprve prezentoval výsledky, kterých dosáhl v rámci své práce. Komise se pak seznámila s hodnocením vedoucího a posudkem oponenta práce. Student následně odpověděl na otázky oponenta a na další otázky přítomných. Komise se na základě posudku oponenta, hodnocení vedoucího, přednesené prezentace a odpovědí studenta na položené otázky rozhodla práci hodnotit stupněm C. Otázky u obhajoby: Z práce vyplývá, že využitím složitějších technik (N-gramy, TF-IDF) mírně klesá úspěšnost klasifikace. Dokážete určit z jakého důvodu?cs
but.jazykčeština (Czech)
but.programInformační technologiecs
but.resultpráce byla úspěšně obhájenacs
dc.contributor.advisorBartík, Vladimírcs
dc.contributor.authorŠabatka, Ondřejcs
dc.contributor.refereeChmelař, Petrcs
dc.date.available2011-06-24cs
dc.date.created2010cs
dc.description.abstractDiplomová práce se zabývá strojovým zpracováním textových dat. V teoretické části jsou popsány problémy související se zpracováním přirozeného jazyka a dále jsou představeny různé způsoby předzpracování a reprezentace textu. Práce se také blíže věnuje použití N-gramů jako rysů pro reprezentaci dokumentů a popisuje některé algoritmy sloužící pro jejich extrakci. Další část je pak věnována přehledu používaných klasifikačních metod. V rámci praktické části práce byla navržena a implementována aplikace sloužící pro předzpracování a vytváření různých reprezentací textových dat. V rámci experimentů je pak sledován vliv těchto reprezentací na úspěšnost klasifikačních algoritmů.cs
dc.description.abstractThe thesis deals with machine processing of textual data. In the theoretical part, issues related to natural language processing are described and different ways of pre-processing and representation of text are also introduced. The thesis also focuses on the usage of N-grams as features for document representation and describes some algorithms used for their extraction. The next part includes an outline of classification methods used. In the practical part, an application for pre-processing and creation of different textual data representations is suggested and implemented. Within the experiments made, the influence of these representations on accuracy of classification algorithms is analysed.en
dc.description.markCcs
dc.identifier.citationŠABATKA, O. Reprezentace textu a její vliv na kategorizaci [online]. Brno: Vysoké učení technické v Brně. Fakulta informačních technologií. 2010.cs
dc.identifier.other34998cs
dc.identifier.urihttp://hdl.handle.net/11012/54406
dc.language.isocscs
dc.publisherVysoké učení technické v Brně. Fakulta informačních technologiícs
dc.rightsPřístup k plnému textu prostřednictvím internetu byl licenční smlouvou omezen na dobu 1 roku/letcs
dc.subjectkategorizacecs
dc.subjectklasifikační metodycs
dc.subjectdolování z textucs
dc.subjectTF-IDFcs
dc.subjectreprezentace textucs
dc.subjectreprezentace textových dokumentůcs
dc.subjectN-gramycs
dc.subjectalgoritmus Sufixového stromucs
dc.subjectcategorizationen
dc.subjectclassification algorithmsen
dc.subjecttext miningen
dc.subjectTF-IDFen
dc.subjectrepresentation of texten
dc.subjectrepresentation of text documentsen
dc.subjectN-gramsen
dc.subjectSuffix tree algorithmen
dc.titleReprezentace textu a její vliv na kategorizacics
dc.title.alternativeRepresentation of Text and Its Influence on Categorizationen
dc.typeTextcs
dc.type.drivermasterThesisen
dc.type.evskpdiplomová prácecs
dcterms.dateAccepted2010-06-24cs
dcterms.modified2020-05-09-23:42:18cs
eprints.affiliatedInstitution.facultyFakulta informačních technologiícs
sync.item.dbid34998en
sync.item.dbtypeZPen
sync.item.insts2025.03.26 14:49:55en
sync.item.modts2025.01.17 14:36:30en
thesis.disciplineInformační systémycs
thesis.grantorVysoké učení technické v Brně. Fakulta informačních technologií. Ústav informačních systémůcs
thesis.levelInženýrskýcs
thesis.nameIng.cs
Files
Original bundle
Now showing 1 - 1 of 1
Loading...
Thumbnail Image
Name:
review_34998.html
Size:
1.44 KB
Format:
Hypertext Markup Language
Description:
file review_34998.html
Collections