Algoritmus pro detekci pozitívního a negatívního textu

Se svižným vývojem informačních a komunikačních technologií vzrůstá i množství informací produkovaných nejrůznějšími zdroji v elektronické podobě. Třídění a získávání znalostí z těchto dat vyžaduje značné úsilí, které pro člověka není snadné zajistit, do popředí se tedy dostává zpracování strojem. Dolování emocí z textových dat je zajímavou oblastí výzkumu, zažívající v posledních letech nezanedbatelný rozmach, přičemž nachází široké uplatnění. V rámci této diplomové práce byl vytvořen systém sloužící k detekci pozitivní a negativní emoce z textu, dále je provedeno zhodnocení jeho úspěšnosti. Systém je navržen v jazyce Java a je koncipován pro umožnění jeho trénování pomocí velkých objemů dat (Big Data) s využitím knihovny Spark. V práci je popsána struktura a zacházení s textem z databázi, ze které systém čerpá vstupní data. Samotný model klasifikátoru je pak vytvořen za pomoci algoritmu podpůrných vektorů (SVM), přičemž je optimalizován metodou n-gramů.
As information and communication technology develops swiftly, amount of information produced by various sources grows as well. Sorting and obtaining knowledge from this data requires significant effort which is not ensured easily by a human, meaning machine processing is taking place. Acquiring emotion from text data is an interesting area of research and it’s going through considerable expansion while being used widely. Purpose of this thesis is to create a system for positive and negative emotion detection from text along with evaluation of its performance. System was created with Java programming language and it allows training with use of large amount of data (known as Big Data), exploiting Spark library. Thesis describes structure and handling text from database used as source of input data. Classificator model was created with use of Support Vector Machines and optimized by the n-grams method.

Keywords

Emoce , text-mining , umělá inteligence , Big Data , Spark , Java , n-gramy , Emotions , text-mining , artificial intelligence , Big Data , Spark , Java , n-grams

Citation

MUSIL, D. Algoritmus pro detekci pozitívního a negatívního textu [online]. Brno: Vysoké učení technické v Brně. Fakulta elektrotechniky a komunikačních technologií. 2016.

Language of document

cs

Study field

Telekomunikační a informační technika

Comittee

prof. Ing. Aleš Prokeš, Ph.D. (předseda) prof. Ing. Dan Komosný, Ph.D. (místopředseda) Ing. Jan Skapa, Ph.D. (člen) Ing. Lukáš Povoda, Ph.D. (člen) doc. Ing. Jan Jeřábek, Ph.D. (člen) doc. Ing. Jiří Mekyska, Ph.D. (člen)

Date of acceptance

2016-06-09

Defence

- Fungovala by Vaše metoda při dostupnosti dat na jakýkoliv jiný jazyk?

Result of defence

práce byla úspěšně obhájena

URI

http://hdl.handle.net/11012/59802

Collections

2016

Citace PRO

Full item page

Algoritmus pro detekci pozitívního a negatívního textu

Files

Date

Authors

Advisor

Referee

Mark

Journal Title

Journal ISSN

Volume Title

Publisher

ORCID

Abstract

Description

Keywords

Citation

Document type

Document version

Date of access to the full text

Language of document

Study field

Comittee

Date of acceptance

Defence

Result of defence

DOI

URI

Collections

Endorsement

Review

Supplemented By

Referenced By

Citace PRO