Vyhledávání kurzů na základě podobnosti
Loading...
Date
Authors
Petrjanoš, Dominik
Advisor
Referee
Mark
B
Journal Title
Journal ISSN
Volume Title
Publisher
Vysoké učení technické v Brně. Fakulta informačních technologií
ORCID
Abstract
Tato diplomová práce se zabývá návrhem a implementací systému pro vyhledávání kurzů na základě jejich podobnosti. Cílem je usnadnit srovnávání univerzitních předmětů napříč různými institucemi, zejména v kontextu mezinárodních výměnných programů, jako je například Erasmus. Práce se opírá o techniky dolování dat, analýzy textu a metod strojového učení. Pro reprezentaci obsahu kurzů byly využity vektorové modely TF-IDF a SBERT, na které byly aplikovány aproximační algoritmy pro vyhledávání k-nejbližších sousedů. Součástí řešení je webová aplikace s REST API a uživatelským rozhraním, která umožňuje efektivní vyhledávání podobných kurzů. Výsledky testování ukazují, že metoda HNSW v kombinaci s jazykovým modelem SBERT dosahuje nejvyšší přesnosti i rychlosti.
This master's thesis focuses on the design and implementation of a system for searching courses based on their similarity. The goal is to facilitate the comparison of university courses across various institutions, especially in the context of international exchange programs such as Erasmus. The work is based on data mining techniques, text analysis, and machine learning methods. To represent the content of courses, TF-IDF and SBERT vector models were used, followed by the application of approximate nearest neighbor search algorithms. The solution includes a web application with a REST API and user interface, enabling efficient retrieval of similar courses. Test results show that the HNSW method, combined with the SBERT language model, achieves the highest accuracy and speed.
This master's thesis focuses on the design and implementation of a system for searching courses based on their similarity. The goal is to facilitate the comparison of university courses across various institutions, especially in the context of international exchange programs such as Erasmus. The work is based on data mining techniques, text analysis, and machine learning methods. To represent the content of courses, TF-IDF and SBERT vector models were used, followed by the application of approximate nearest neighbor search algorithms. The solution includes a web application with a REST API and user interface, enabling efficient retrieval of similar courses. Test results show that the HNSW method, combined with the SBERT language model, achieves the highest accuracy and speed.
Description
Keywords
EULiST , podobnost kurzů , vyhledávání , TF-IDF , SBERT , K-nejbližších sousedů , Annoy , HNSW , BallTree , analýza textu , dolování dat , webová aplikace , EULiST , course similarity , search , TF-IDF , SBERT , k-nearest neighbors , Annoy , HNSW , BallTree , text analysis , data mining , web application
Citation
PETRJANOŠ, D. Vyhledávání kurzů na základě podobnosti [online]. Brno: Vysoké učení technické v Brně. Fakulta informačních technologií. 2025.
Document type
Document version
Date of access to the full text
Language of document
cs
Study field
Informační systémy a databáze
Comittee
doc. Dr. Ing. Dušan Kolář (předseda)
RNDr. Marek Rychlý, Ph.D. (člen)
Ing. Zbyněk Křivka, Ph.D. (člen)
Ing. Šárka Květoňová, Ph.D. (člen)
Ing. Radek Hranický, Ph.D. (člen)
Ing. Jiří Hynek, Ph.D. (člen)
Date of acceptance
2025-06-23
Defence
Student nejprve prezentoval výsledky, kterých dosáhl v rámci své práce. Komise se poté seznámila s hodnocením vedoucího a posudkem oponenta práce. Student následně odpověděl na otázky oponenta. Komise se na základě posudku oponenta, hodnocení vedoucího, přednesené prezentace a odpovědí studenta na položené otázky rozhodla práci hodnotit stupněm B - velmi dobře.
Result of defence
práce byla úspěšně obhájena
