Zlepšení předpovědi sociálních značek využitím Data Mining

Loading...
Thumbnail Image

Date

Authors

Harár, Pavol

Mark

C

Journal Title

Journal ISSN

Volume Title

Publisher

Vysoké učení technické v Brně. Fakulta podnikatelská

ORCID

Abstract

Diplomová práca sa zaoberá využitím Text miningu ako metódy na predikovanie značiek článkov. Práca popisuje iteratívny spôsob narábania s veľkými súbormi dát, ich rozbor, čistenie a výpočet skóre TF-IDF pre výrazy vyskytujúce sa v článku. Detailne popisuje priebeh programu naprogramovaného v jazyku Python 3.4.3. Výsledkom spracovania viac ako 1 milióna článkov databázy webovej encyklopédie Wikipédia je slovník výrazov anglického jazyka, pomocou ktorej je možné určiť n najdôležitejších výrazov vlastných článku z korpusu článkov. Relevantnosť výsledných značiek dokazuje vhodnosť použitej metódy.
This master’s thesis deals with using Text mining as a method to predict tags of articles. It describes the iterative way of handling big data files, parsing the data, cleaning the data and scoring of terms in article using TF-IDF. It describes in detail the flow of program written in programming language Python 3.4.3. The result of processing more than 1 million articles from Wikipedia database is a dictionary of English terms. By using this dictionary one is capable of determining the most important terms from article in corpus of articles. Relevancy of consequent tags proves the method used in this case.

Description

Citation

HARÁR, P. Zlepšení předpovědi sociálních značek využitím Data Mining [online]. Brno: Vysoké učení technické v Brně. Fakulta podnikatelská. 2015.

Document type

Document version

Date of access to the full text

Language of document

sk

Study field

Informační management

Comittee

prof. Ing. Oldřich Rejnuš, CSc. (předseda) doc. RNDr. Bedřich Půža, CSc. (místopředseda) Ing. Lenka Širáňová, Ph.D. (člen) Ing. Jiří Kříž, Ph.D. (člen) Ing. Karel Doubravský, Ph.D. (člen)

Date of acceptance

2015-06-12

Defence

Otázky vedoucího práce - odpovězeno. Otázky oponenta práce - odpovězeno. Ing. Doubravský Lze návrhy použít i u dalších typů souborů? Odpovězeno doc. Půža Byly návrhy aplikovány i v jiných oblastech např. na klíčová slova? Odpovězeno Ing. Smolíková Jaké jsou klíčové faktory ovlivňující datamining? Odpovězeno

Result of defence

práce byla úspěšně obhájena

DOI

Collections

Endorsement

Review

Supplemented By

Referenced By

Citace PRO