Sémantická podobnost textů

Táto práca sa zaoberá problematikou určovania sémantickej podobnosti textov so zameraním na kategorizáciu webových dokumentov, v tomto prípade záložiek. Súčasťou spracovania je teoretický prehľad metód, pre implementáciu systému. Popisuje sa aj návrh a implementácia jednotlivých metód použitých v systéme. Práca sa taktiež zaoberá vyhodnotením jednotlivých metód, kde sú vybrané metódy otestované podľa určitých kritérií.
This paper deals with the determination of the semantic similarity of texts focusing on categorization of web documents in this case bookmarks. The part of the process is a theoretical overview of methods for system implementation. It describes the design and implementation of the various methods used in the system, too. This paper also deals with the evaluation of various methods where the chosen method are tested according to specified criteria.

Keywords

sémantická podobnosť , vektorový model , spracovanie prirodzeného jazyka , Python , Gensim , Scikit-learn , TFIDF , LDA , NMF , SVD , semantic simlarity , vector space model , natural language processing , Python , Gensim , Scikit-learn , TFIDF , LDA , NMF , SVD

Citation

HAJDIN, M. Sémantická podobnost textů [online]. Brno: Vysoké učení technické v Brně. Fakulta informačních technologií. 2016.

Language of document

cs

Study field

Informační technologie

Comittee

doc. Ing. František Zbořil, Ph.D. (předseda) doc. Ing. Lukáš Burget, Ph.D. (místopředseda) Ing. Zbyněk Křivka, Ph.D. (člen) Ing. Jaroslav Rozman, Ph.D. (člen) Ing. Josef Strnadel, Ph.D. (člen)

Date of acceptance

2016-06-13

Defence

Student nejprve prezentoval výsledky, kterých dosáhl v rámci své práce. Komise se poté seznámila s hodnocením vedoucího a posudkem oponenta práce. Oponent hodnotil práci stupněm 4F, protože práce nesplnila všechny body zadání. Student nedokázal vyvrátit výtky oponenta. Komise shledala nedostatky práce natolik závažné, že se práci rozhodla hodnotit jako nevyhovující. Otázky u obhajoby: Nejsem si jistý, jestli správně rozumíte algoritmu SVD (viz např. věta "To je zabezpečené metódou SVD, ktorá zredukuje rozmer vektorov na dve." - proč by měla být velikost vektoru pouze 2?). Můžete komisi v rychlosti objasnit, jak jste to myslel? V práci uvádíte: "Preto je vo výslednej aplikácii použitý algoritmus kmeans++, ktorého priebeh je v podstate lineárny.". Můžete prosím komisi objasnit, jaká je skutečná časová složitost algoritmu K-means++?

Result of defence

práce nebyla úspěšně obhájena

URI

http://hdl.handle.net/11012/187207

Collections

2016

Citace PRO

Full item page

Sémantická podobnost textů

Files

Date

Authors

Advisor

Referee

Mark

Journal Title

Journal ISSN

Volume Title

Publisher

ORCID

Abstract

Description

Keywords

Citation

Document type

Document version

Date of access to the full text

Language of document

Study field

Comittee

Date of acceptance

Defence

Result of defence

DOI

URI

Collections

Endorsement

Review

Supplemented By

Referenced By

Citace PRO