Hluboké učení pro klasifikaci textů

Práce se zabývá rozborem současných metod strojového učení používaných pro emoční klasifikaci textových dat a testováním různých architektur neuronových sítí na problému binární klasifikace textů na pozitivní a negativní. Výstupem práce je návrh vlastní architektury hluboké konvoluční neuronové sítě, která je optimalizovaná pro problém a dosáhla úspěšnosti 79,9 procent. Navrhovaná metoda není závislá na použitém jazyce a je možno ji aplikovat i při využití méně detailně vytvořených vstupních trénovacích databází. Trénovací a testovací množina dat se skládala z kratších amatérských filmových recenzí v češtině a angličtině. Skripty byly psány v programovacím jazyce Python, využita byla knihovna pro modelování neuronových sítí Keras a výpočetní knihovna Theano. Kvůli zvýšení rychlosti výpočtu byly početní operace prováděny přes architekturu CUDA na grafické kartě. Součástí práce je také přehled teoretického základu pro práci s konvolučními neuronovými sítěmi a historie neuronových sítí.
Thesis focuses on analysis of contemporary machine learning methods used for text classification based on emotion and testing several deep neural nework architectures. Outcome of this thesis is a neural network architecture, which is tuned for using with text data and which had the best result of 79,94 percent. Proposed method is language independent and it doesn’t require as precisely classified training datasets as current methods. Training and testing datasets were consisted of short amateur movie reviews in Czech and in English. Thesis contains also overview of theoretical basics for convolutional neural networks and history of neural networks and language processing Scripts were written in Python, neural networks were simulated using Keras library and Theano framework. We used CUDA for better performance.

Keywords

CUDA , emoce , hluboké učení , keras , klasifikace , neuronové sítě , strojové učení , theano , classification , CUDA , deep learning , emotion , keras , machine learning , neural networks , theano

Citation

KOLAŘÍK, M. Hluboké učení pro klasifikaci textů [online]. Brno: Vysoké učení technické v Brně. Fakulta elektrotechniky a komunikačních technologií. 2017.

Language of document

cs

Study field

Telekomunikační a informační technika

Comittee

doc. Ing. Martin Medvecký, Ph.D. (předseda) doc. Ing. Vladislav Škorpil, CSc. (místopředseda) Ing. Pavel Bezpalec, Ph.D. (člen) doc. Ing. Kamil Říha, Ph.D. (člen) doc. Ing. David Kubánek, Ph.D. (člen) Ing. Vojtěch Zvončák, Ph.D. (člen)

Date of acceptance

2017-06-07

Defence

V seznamu zkratek uvádíte zkratku LSTM, Long short-term memory síť, v textu ani v přílohách jsem však žádnou zmínku o použití této sítě nenašel. Zkoušeli jste trénovat i architekturu která obsahovala LSTM? Jakou měla úspěšnost? zodpovedal.

Result of defence

práce byla úspěšně obhájena

URI

http://hdl.handle.net/11012/65880

Collections

2017

Citace PRO

Full item page

Hluboké učení pro klasifikaci textů

Files

Date

Authors

Advisor

Referee

Mark

Journal Title

Journal ISSN

Volume Title

Publisher

ORCID

Abstract

Description

Keywords

Citation

Document type

Document version

Date of access to the full text

Language of document

Study field

Comittee

Date of acceptance

Defence

Result of defence

DOI

URI

Collections

Endorsement

Review

Supplemented By

Referenced By

Citace PRO