Doporučovací systém pro webové články
Loading...
Date
Authors
Kočí, Jan
Advisor
Referee
Mark
B
Journal Title
Journal ISSN
Volume Title
Publisher
Vysoké učení technické v Brně. Fakulta informačních technologií
ORCID
Abstract
Tématem této bakalářské práce jsou doporučovací systémy pro webové články. Tato práce nejdříve uvádí nejpopulárnější metody z této oblasti a vysvětluje jejich principy, následně navrhuje požití vlastní architektury, založené na neuronových sítích, která aplikuje metodu Skip-gram negative sampling na problematiku doporučování. V další části pak implementuje tuto architekturu společně s několika dalšími modely, požívající algoritmus SVD, collaborative filtering s algoritmem ALS a také metodu Doc2Vec k vytvoření vektorové reprezentace z obsahu získaných článků. Na závěr vytváří tři evaluační metriky, konkrétně metriky RANK, Recall at k a Precision at k, a vyhodnocuje kvalitu implementovaných modelů srovnáním výsledků s nejmodernějšími modely. Kromě toho také diskutuje o roli a smyslu doporučovacích systémů ve společnosti a uvádí motivaci pro jejich používání.
Recommender systems for web articles are the main interest of this thesis. It explains the most popular approaches used to build these systems, proposes a neural-network-based architecture applying the Skip-gram inspired negative sampling method to the recommendation problem, implements this architecture together with several other models, using Singular value decomposition, collaborative filtering with Alternating Least Squares (ALS) algorithm and a content-based approach using the Doc2Vec algorithm to create document vectors from the obtained articles. Finally, it implements three evaluation metrics - namely the RANK metric, Recall at k and Precision at k - and compares the models with state-of-the-art. Apart from that it also gives a brief discussion on the role and purpose of these systems together with the motivation of using them.
Recommender systems for web articles are the main interest of this thesis. It explains the most popular approaches used to build these systems, proposes a neural-network-based architecture applying the Skip-gram inspired negative sampling method to the recommendation problem, implements this architecture together with several other models, using Singular value decomposition, collaborative filtering with Alternating Least Squares (ALS) algorithm and a content-based approach using the Doc2Vec algorithm to create document vectors from the obtained articles. Finally, it implements three evaluation metrics - namely the RANK metric, Recall at k and Precision at k - and compares the models with state-of-the-art. Apart from that it also gives a brief discussion on the role and purpose of these systems together with the motivation of using them.
Description
Keywords
Doporučovací systémy , Strojové učení , Hluboké učení , Zpracování textu , Kolaborativní filtrování , Faktorizace matic , Filtrování založené na obsahu. , Recommender Systems , Machine Learning , Deep Learning , Document Embedding , Collaborative Filtering , Matrix Factorization , Content-based filtering.
Citation
KOČÍ, J. Doporučovací systém pro webové články [online]. Brno: Vysoké učení technické v Brně. Fakulta informačních technologií. 2019.
Document type
Document version
Date of access to the full text
Language of document
en
Study field
Informační technologie
Comittee
prof. Dr. Ing. Jan Černocký (předseda)
doc. Ing. Jiří Jaroš, Ph.D. (místopředseda)
doc. RNDr. Dana Hliněná, Ph.D. (člen)
Ing. Filip Orság, Ph.D. (člen)
RNDr. Marek Rychlý, Ph.D. (člen)
Date of acceptance
2019-06-14
Defence
Student nejprve prezentoval výsledky, kterých dosáhl v rámci své práce. Komise se poté seznámila s hodnocením vedoucího a posudkem oponenta práce. Student následně odpověděl na otázky oponenta a na další otázky přítomných. Komise se na základě posudku oponenta, hodnocení vedoucího, přednesené prezentace a odpovědí studenta na položené otázky rozhodla práci hodnotit stupněm B. Otázky u obhajoby: 1) Why was the negative sampling chosen instead of the complete objective function, given that the dataset is of moderate size? Why only 20 negative samples? 2) The experiments showed that the proposed skip-gram based under-performs as compared to the baseline ALS system. What are the reasons? (Apart from the size of the dataset)
Result of defence
práce byla úspěšně obhájena
