Metody stemmingu používané při dolování textu
but.committee | prof. Ing. Tomáš Hruška, CSc. (předseda) doc. Ing. Vladimír Janoušek, Ph.D. (místopředseda) Ing. Vladimír Bartík, Ph.D. (člen) Doc. Ing. Jiří Douša, CSc. (člen) doc. Ing. Přemysl Kršek, Ph.D. (člen) doc. Ing. František Zbořil, Ph.D. (člen) | cs |
but.defence | Student nejprve prezentoval výsledky, kterých dosáhl v rámci své práce. Komise se pak seznámila s hodnocením vedoucího a posudkem oponenta práce. Student následně odpověděl na otázky oponenta a na další otázky přítomných. Komise se na základě posudku oponenta, hodnocení vedoucího, přednesené prezentace a odpovědí studenta na položené otázky rozhodla práci hodnotit stupněm B. Otázky u obhajoby: Vzhledem k tomu, že jste reimplementoval řadu existujících metod, zhodnoťte jejich přínos oproti existujícím implementacím. | cs |
but.jazyk | čeština (Czech) | |
but.program | Informační technologie | cs |
but.result | práce byla úspěšně obhájena | cs |
dc.contributor.advisor | Bartík, Vladimír | cs |
dc.contributor.author | Adámek, Tomáš | cs |
dc.contributor.referee | Chmelař, Petr | cs |
dc.date.created | 2010 | cs |
dc.description.abstract | Tématem této diplomové práce je problematika jednotlivých metod pro dolování z anglických textových dokumentů. Hlavní část této práce se zabývá analýzou metod pro předzpracování textu, konkrétně stemmingem. Jsou zde rozebrány jednotlivé algoritmy stemmingu (Lovinsův, Porterův a Paice/Husk), které z jednotlivých slov textového dokumentu získávají jejich základní tvar (kořen), za použití speciálních lexikografických pravidel anglického jazyka. Tyto kořeny slov jsou následně uloženy do strukturované podoby pro další zpracování. Další část práce se zabývá návrhem aplikace, která tyto algoritmy využívá pro svoji činnost. Aplikace je postavena na platformě Java s využitím grafické knihovny Swing a architektury MVC. Další kapitola popisuje implementaci navržené aplikace a stemovacích algoritmů v jazyce Java. Poslední kapitola je zaměřena na experimenty s jednotlivými algoritmy a jejich srovnání z hlediska vlivu na výsledky klasifikace textu. | cs |
dc.description.abstract | The main theme of this master's thesis is a description of text mining. This document is specialized to English texts and their automatic data preprocessing. The main part of this thesis analyses various stemming algorithms (Lovins, Porter and Paice/Husk). Stemming is a procedure for automatic conflating semantically related terms together via the use of rule sets. Next part of this thesis describes design of an application for various types of stemming algorithms. Application is based on the Java platform with using of graphic library Swing and MVC architecture. Next chapter contains description of implementation of the application and stemming algorithms. In the last part of this master's thesis experiments with stemming algorithms and comparing the algorithm from viewpoint to the results of classification the text are described. | en |
dc.description.mark | B | cs |
dc.identifier.citation | ADÁMEK, T. Metody stemmingu používané při dolování textu [online]. Brno: Vysoké učení technické v Brně. Fakulta informačních technologií. 2010. | cs |
dc.identifier.other | 34956 | cs |
dc.identifier.uri | http://hdl.handle.net/11012/52789 | |
dc.language.iso | cs | cs |
dc.publisher | Vysoké učení technické v Brně. Fakulta informačních technologií | cs |
dc.rights | Standardní licenční smlouva - přístup k plnému textu bez omezení | cs |
dc.subject | Stemming | cs |
dc.subject | dolování v textu | cs |
dc.subject | vyhledávání informací v textu | cs |
dc.subject | klasifikace | cs |
dc.subject | Java | cs |
dc.subject | Swing | cs |
dc.subject | předzpracování textu | cs |
dc.subject | MVC architektura | cs |
dc.subject | RapidMiner | cs |
dc.subject | Weka. | cs |
dc.subject | Stemming | en |
dc.subject | text mining | en |
dc.subject | information retrieval | en |
dc.subject | classification | en |
dc.subject | Java | en |
dc.subject | Swing | en |
dc.subject | text preprocessing | en |
dc.subject | MVC architecture | en |
dc.subject | RapidMiner | en |
dc.subject | Weka. | en |
dc.title | Metody stemmingu používané při dolování textu | cs |
dc.title.alternative | Stemming Methods Used in Text Mining | en |
dc.type | Text | cs |
dc.type.driver | masterThesis | en |
dc.type.evskp | diplomová práce | cs |
dcterms.dateAccepted | 2010-06-18 | cs |
dcterms.modified | 2020-05-09-23:42:14 | cs |
eprints.affiliatedInstitution.faculty | Fakulta informačních technologií | cs |
sync.item.dbid | 34956 | en |
sync.item.dbtype | ZP | en |
sync.item.insts | 2025.03.26 14:47:41 | en |
sync.item.modts | 2025.01.17 09:58:48 | en |
thesis.discipline | Informační systémy | cs |
thesis.grantor | Vysoké učení technické v Brně. Fakulta informačních technologií. Ústav informačních systémů | cs |
thesis.level | Inženýrský | cs |
thesis.name | Ing. | cs |