Analýza recenzí výrobků

Loading...
Thumbnail Image

Date

Authors

Klocok, Andrej

Mark

C

Journal Title

Journal ISSN

Volume Title

Publisher

Vysoké učení technické v Brně. Fakulta informačních technologií

ORCID

Abstract

Zákazníci internetových obchodov generujú obrovské množstvo informácii o službách a produktoch pomocou recenzií, ktoré sú dôležitým zdrojom spätnej väzby. Táto diplomová práca sa zaoberá vytvorením systému pre analýzu recenzií výrobkov a obchodov v českom jazyku. Popisuje doterajšie spôsoby analýzy sentimentu a naväzuje na aktuálne riešenia. Výsledný systém implementuje automatické sťahovanie dát a ich indexáciu, následne analýzu sentimentu spolu so sumarizáciou textu v podobe zhlukovania podobných viet na základe vektorovej reprezentácie textu. Súčasťou je aj grafické užívateľské rozhranie vo forme webovej stránky. Počas semestra bol vytvorený dataset recenzií s celkovým počtom prevyšujúci šesť miliónov recenzií spolu s rozhraním na jednoduchý export dát.
Online store customers generate vast amounts of product and service information through reviews, which are an important source of feedback. This thesis deals with the creation of a system for the analysis of product and shop reviews in the czech language. It describes the current methods of sentiment analysis and builds on current solutions. The resulting system implements automatic data download and their indexing, subsequently sentiment analysis together with text summary in the form of clustering of similar sentences based on vector representation of the text. A graphical user interface in the form of a web page is also included. A review data set with a total of more than six million reviews was created during the semester along with an interface for easy data export.

Description

Citation

KLOCOK, A. Analýza recenzí výrobků [online]. Brno: Vysoké učení technické v Brně. Fakulta informačních technologií. 2020.

Document type

Document version

Date of access to the full text

Language of document

sk

Study field

Informační systémy

Comittee

doc. Mgr. Adam Rogalewicz, Ph.D. (předseda) doc. Ing. Peter Chudý, Ph.D., MBA (místopředseda) Ing. Vladimír Bartík, Ph.D. (člen) Dr. Ing. Petr Peringer (člen) RNDr. Marek Rychlý, Ph.D. (člen) Ing. Vladimír Veselý, Ph.D. (člen)

Date of acceptance

2020-07-17

Defence

Student nejprve prezentoval výsledky, kterých dosáhl v rámci své práce. Komise se poté seznámila s hodnocením vedoucího a posudkem oponenta práce. Student následně odpověděl na otázky oponenta a na další otázky přítomných. Komise se na základě posudku oponenta, hodnocení vedoucího, přednesené prezentace a odpovědí studenta na položené otázky rozhodla práci hodnotit stupněm C. Otázky u obhajoby: V technické zprávě píšete (pod napisem "Predspracovanie dát" na str. 27-28): """ Síce aktuálne riešenia mapovania sekvencií do vektorového priestoru využívajú vlastné tokenizery, ako napríklad kúsky slov, je vhodné tieto dáta tokenizovať, lemantizovať, poprípade previesť do kmeňového tvaru (stem), odstrániť stop slová, pre ďalšie spracovanie. """, ale už nepíšete, proč je vhodné data tokenizovat vlastním způsobem. Mohl byste toto objasnit? Na str. 29 zmiňujete pojmy "pretrénovanie" a "pred-trénovanie" v tom samém významu, což považuji za chybu (tato chyba se vyskytuje vícekrát, domnívám se tedy, že se nejedná o překlep). Mohl byste vysvětlit pojmy "přetrénování" (over-training) a "předtrénování" (pre-training) v kontextu neuronových sítí? Jak dlouho vám trvalo vytvořit dataset? Zkoušel jste web Heureka.cz kontaktovat?

Result of defence

práce byla úspěšně obhájena

DOI

Collections

Endorsement

Review

Supplemented By

Referenced By

Citace PRO