Shlukování slov podle významu

Tato práce se zabývá problémem sémantické podobnosti slov v angličtině. Čtenář je nejprve informován o teorii shlukování slov podle významu, poté jsou popsány některé metody a nástroje související s tématem. V praktické části navrhneme a implementujeme systém pro výpočet sémantické podobnosti slov využívající nástroj Word2Vec, konkrétně se zaměříme na biomedicínské texty z databáze MEDLINE. Na závěr práce budeme diskutovat dosažené výsledky a předložíme několik návrhů, jak systém vylepšit.
This thesis is focused on the problem of semantic similarity of words in English language. At first reader is informed about theory of word sense clustering, then there are described chosen methods and tools related to the topic. In the practical part we design and implement system for determining semantic similarity using Word2Vec tool, particularly we focus on biomedical texts of MEDLINE database. At the end of the thesis we discuss reached results and give some ideas to improve the system.

Keywords

biomedicínská data , sémantická podobnost , tokenizace , vektorový prostorový model , Word2Vec , zpracování přirozeného jazyka , biomedical data , semantic similarity , tokenization , vector space model , Word2Vec , natural language processing

Citation

JADRNÍČEK, Z. Shlukování slov podle významu [online]. Brno: Vysoké učení technické v Brně. Fakulta informačních technologií. 2015.

Language of document

cs

Study field

Bioinformatika a biocomputing

Comittee

prof. Ing. Lukáš Sekanina, Ph.D. (předseda) prof. RNDr. Alexandr Meduna, CSc. (místopředseda) Ing. Vladimír Bartík, Ph.D. (člen) doc. Ing. Tomáš Martínek, Ph.D. (člen) Ing. William Steingartner, Ph.D. (člen) doc. Ing. František Zbořil, Ph.D. (člen)

Date of acceptance

2015-06-22

Defence

Student nejprve prezentoval výsledky, kterých dosáhl v rámci své práce. Komise se poté seznámila s hodnocením vedoucího a posudkem oponenta práce. Student následně odpověděl na otázky oponenta a na další otázky přítomných. Komise se na základě posudku oponenta, hodnocení vedoucího, přednesené prezentace a odpovědí studenta na položené otázky rozhodla práci hodnotit stupněm " E ". Otázky u obhajoby: Proč jste při řešení úkolů ze Semevalu nepoužil lemmatizaci ani stemming? V kapitole 8.1 píšete, že vzhledem k počtu vytvořených modelů zde neuvádíte všechny výsledky, ale pouze výsledky pro tři vybrané modely. Můžete komisi ukázat kompletní výsledky pro všechny modely? V práci píšete, že Váš systém dosáhl úspěšnosti 93%. Můžete komisi objasnit, jak jste k tomuto číslu dospěl?

Result of defence

práce byla úspěšně obhájena

URI

http://hdl.handle.net/11012/52223

Collections

2015

Citace PRO

Full item page

Shlukování slov podle významu

Files

Date

Authors

Advisor

Referee

Mark

Journal Title

Journal ISSN

Volume Title

Publisher

ORCID

Abstract

Description

Keywords

Citation

Document type

Document version

Date of access to the full text

Language of document

Study field

Comittee

Date of acceptance

Defence

Result of defence

DOI

URI

Collections

Endorsement

Review

Supplemented By

Referenced By

Citace PRO