Sémantická podobnost článků

Veselovský, Martin

Sémantická podobnost článků

but.committee	prof. Dr. Ing. Jan Černocký (předseda) doc. Ing. František Zbořil, CSc. (místopředseda) doc. Ing. Vítězslav Beran, Ph.D. (člen) doc. Ing. Michal Bidlo, Ph.D. (člen) Ing. Karel Masařík, Ph.D. (člen)	cs
but.defence	Student nejprve prezentoval výsledky, kterých dosáhl v rámci své práce. Komise se poté seznámila s hodnocením vedoucího a posudkem oponenta práce. Student následně odpověděl na otázky oponenta a na další otázky přítomných. Komise se na základě posudku oponenta, hodnocení vedoucího, přednesené prezentace a odpovědí studenta na položené otázky rozhodla práci hodnotit stupněm B. Otázky u obhajoby: Jakým způsobem jste vybíral dokumenty do Vašeho testovacího korpusu? Jak jste podobnosti těchto dokumentů vyhodnocoval a jak dlouho Vám to trvalo? Můžete prosím komisi objasnit, jak přesně jste implementoval metodu iterativní LSA? Z popisu práce to není příliš jasné.	cs
but.jazyk	čeština (Czech)
but.program	Informační technologie	cs
but.result	práce byla úspěšně obhájena	cs
dc.contributor.advisor	Kouřil, Jan	cs
dc.contributor.author	Veselovský, Martin	cs
dc.contributor.referee	Otrusina, Lubomír	cs
dc.date.created	2014	cs
dc.description.abstract	Tato práce se zabývá modelováním struktury sémantických vztahů mezi články v anglickém jazyce. Představuje existující metody pro reprezentaci a výpočet podobnosti článků. Základnou metodou je vektorový model, který reprezentuje dokument jako vektor slov. Jednotlivým slovům jsou v rámci modelu určené váhy důležitosti metodou TF-IDF. Dále jsou zde popsány pokročilé metody modelování a to Latentní sémantická analýza (LSA) a Latentní Dirichletova alokace (LDA). Práce se také zabývá články, které jsou sémanticky anotované, přičemž váhy anotačních slov jsou vypočítány na základe metody SGD. Vyhodnocení výsledků probíhá na připraveném testovacím korpusu dokumentů, ke kterému existuje referenční hodnocení podobnosti.	cs
dc.description.abstract	This bachelor's thesis deals with modelling of structure of semantic relationships among articles in English language. There are introduced existing methods of articles representation and computation of similarity. The base method is vector space model, which represents document as vector of words. There are given weights of importance to these words using TF-IDF method. Next, there are described advanced methods of modelling, Latent semantic analysis (LSA) and Latent Dirichlet allocation (LDA). This thesis also deals with articles, which are semantically annotated, while weights of annotation words are computed by Stochastic Gradient Descent method. Evaluation of results takes place on the prepared test corpus of documents to which there is reference similarity evaluation.	en
dc.description.mark	B	cs
dc.identifier.citation	VESELOVSKÝ, M. Sémantická podobnost článků [online]. Brno: Vysoké učení technické v Brně. Fakulta informačních technologií. 2014.	cs
dc.identifier.other	79867	cs
dc.identifier.uri	http://hdl.handle.net/11012/56420
dc.language.iso	cs	cs
dc.publisher	Vysoké učení technické v Brně. Fakulta informačních technologií	cs
dc.rights	Standardní licenční smlouva - přístup k plnému textu bez omezení	cs
dc.subject	sémantická podobnost	cs
dc.subject	sémantické anotace	cs
dc.subject	vektorový model	cs
dc.subject	TF-IDF	cs
dc.subject	SGD	cs
dc.subject	LSA	cs
dc.subject	LDA	cs
dc.subject	Python	cs
dc.subject	Gensim	cs
dc.subject	Elasticsearch	cs
dc.subject	zpracování přirozeného jazyka	cs
dc.subject	křížová validace	cs
dc.subject	semantic similarity	en
dc.subject	semantic annotations	en
dc.subject	vector space model	en
dc.subject	TF-IDF	en
dc.subject	SGD	en
dc.subject	LSA	en
dc.subject	LDA	en
dc.subject	Python	en
dc.subject	Gensim	en
dc.subject	Elasticsearch	en
dc.subject	natural language processing	en
dc.subject	cross validation	en
dc.title	Sémantická podobnost článků	cs
dc.title.alternative	Semantic Similarity of Articles	en
dc.type	Text	cs
dc.type.driver	bachelorThesis	en
dc.type.evskp	bakalářská práce	cs
dcterms.dateAccepted	2014-06-18	cs
dcterms.modified	2020-05-10-16:11:42	cs
eprints.affiliatedInstitution.faculty	Fakulta informačních technologií	cs
sync.item.dbid	79867	en
sync.item.dbtype	ZP	en
sync.item.insts	2025.03.18 18:03:05	en
sync.item.modts	2025.01.16 00:45:22	en
thesis.discipline	Informační technologie	cs
thesis.grantor	Vysoké učení technické v Brně. Fakulta informačních technologií. Ústav počítačové grafiky a multimédií	cs
thesis.level	Bakalářský	cs
thesis.name	Bc.	cs

Files

Original bundle

Now showing 1 - 2 of 2

Name:: final-thesis.pdf
Size:: 546.07 KB
Format:: Adobe Portable Document Format
Description:: final-thesis.pdf

Download

Name:: review_79867.html
Size:: 1.43 KB
Format:: Hypertext Markup Language
Description:: file review_79867.html

Download

Collections

2014