Dolovanie znalostí z textových dát použitím metód umelej inteligencie

Práca sa zaoberá problémom dolovania znalostí z textových dát, ktorý je stále aktuálnejší vzhľadom na exponenciálny rast množstva uložených dát v elektronickej podobe, kde 80% týchto dát je v textovej podobe. Práca skúma súčasné metódy, ich možné zvýšenie presnosti vďaka optimalizačným metódam, ako aj nové metódy riešenia problému porozumenia textu s modelovaním kognitívneho správanie človeka pri spracovaní textových dát. Problém súčasných metód, ktorým je závislosť na konkrétnom jazyku textu, ako aj ich presnosť, ktorá nedosahuje úspešnosti človeka, rieši prostredníctvom troch smerov: tradičnými metódami a ich optimalizáciami, prístupom Big Data a abstrahovaním prostredníctvom minimalizácie jazykovo závislých častí, a prístupom hlbokého učenia. Hlavným cieľom dizertačnej práce bolo navrhnúť metódu pre strojové porozumenie neštruktúrovaným textovým dátam. Metóda bola experimentálne overená na probléme extrakcie jednoduchých informácií prostredníctvom klasifikácie textových dát v 5 jazykoch – čeština, angličtina, nemčina, španielčina a čínština, čím bola dokázaná možnosť aplikácie na rôzne rodiny jazykov. Pri validácií na databáze hodnotení Yelp bola dosiahnutá presnosť vyššia o 0,5% než poskytujú súčasné metódy.
This work deals with the problem of text mining which is becoming more popular due to exponential growth of the data in electronic form. The work explores contemporary methods and their improvement using optimization methods, as well as the problem of text data understanding in general. The work addresses the problem in three ways: using traditional methods and their optimizations, using Big Data in train phase and abstraction through the minimization of language-dependent parts, and introduction of the new method based on the deep learning which is closer to how human reads and understands text data. The main aim of the dissertation was to propose a method for machine understanding of unstructured text data. The method was experimentally verified by classification of text data on 5 different languages – Czech, English, German, Spanish and Chinese. This demonstrates possible application to different languages families. Validation on the Yelp evaluation database achieve accuracy higher by 0.5% than current methods.

Keywords

Analýza sentimentu , dolovanie znalostí , hlboké učenie , klasifikácia emócií , klasifikácia textu , optimalizácia genetickým programovaním , spracovanie prirodzeného jazyka , textové dáta , umelá inteligencia , Artificial intelligence , data mining , emotion classification , genetic programming optimization , natural language processing , sentiment analysis , text data , text mining

Citation

POVODA, L. Dolovanie znalostí z textových dát použitím metód umelej inteligencie [online]. Brno: Vysoké učení technické v Brně. Fakulta elektrotechniky a komunikačních technologií. 2018.

Language of document

sk

Study field

Teleinformatika

Comittee

prof. Ing. Zdeněk Smékal, CSc. (předseda) prof. Ing. Ivan Baroňák, CSc. (člen) prof. Ing. Boris Šimák, CSc. (člen) prof. Ing. Miroslav Vozňák, Ph.D. (člen) doc. Ing. Kamil Říha, Ph.D. (člen) doc. Ing. Jiří Mekyska, Ph.D. (člen) Univ. Prof. Dr. Peter Brezany - oponent (člen) prof. Ing. Jana Tučková, CSc. - oponent (člen)

Date of acceptance

2018-12-14

Defence

Oba oponenti doporučují práci k obhajobě. Cíle disertační práce byly splněny, za získanými výsledky se skrývá velmi mnoho experimentální práce. Hlavní části práce byly publikovány v prestižních zahraničních časopisech. Disertant odpověděl správně na všechny otázky členů komise.

Result of defence

práce byla úspěšně obhájena

URI

http://hdl.handle.net/11012/137278

Collections

2018

Citace PRO

Full item page

Dolovanie znalostí z textových dát použitím metód umelej inteligencie

Files

Date

Authors

Advisor

Referee

Mark

Journal Title

Journal ISSN

Volume Title

Publisher

ORCID

Abstract

Description

Keywords

Citation

Document type

Document version

Date of access to the full text

Language of document

Study field

Comittee

Date of acceptance

Defence

Result of defence

DOI

URI

Collections

Endorsement

Review

Supplemented By

Referenced By

Citace PRO