Detekce tématu webové stránky

but.committeeprof. Ing. Adam Herout, Ph.D. (předseda) Dr. Ing. Petr Peringer (člen) Ing. Jaroslav Dytrych, Ph.D. (člen) Ing. Ivana Burgetová, Ph.D. (člen) doc. Ing. Michal Bidlo, Ph.D. (člen)cs
but.defenceStudent nejprve prezentoval výsledky, kterých dosáhl v rámci své práce. Komise se poté seznámila s hodnocením vedoucího a posudkem oponenta práce. Student následně odpověděl na otázky oponenta a na další otázky přítomných. Komise se na základě posudku oponenta, hodnocení vedoucího, přednesené prezentace a odpovědí studenta na položené otázky rozhodla práci hodnotit stupněm D.cs
but.jazykčeština (Czech)
but.programInformační technologiecs
but.resultpráce byla úspěšně obhájenacs
dc.contributor.advisorHranický, Radekcs
dc.contributor.authorJakubec, Milancs
dc.contributor.refereeŽádník, Martincs
dc.date.created2025cs
dc.description.abstractNa internetu se dnes nachází více než miliarda webových stránek, které se zaměřují na celou řadu různých témat. Hlavním cílem této práce je s pomocí metod strojového učení a analýzy textu vytvořit model, který dokáže predikovat, o jakém tématu z určité zvolené podmnožiny témat web pojednává. Pro trénování byla vytvořena anotovaná datová sada obsahující URL, HTML obsah webu a kategorii, do které se řadí. Na této datové sadě byly natrénovány klasifikátory využívající vektor vlastností složený ze skupin charakteristik TF-IDF, HTML a LDA. Nejlepších výsledků dosáhl klasifikátor s algoritmem LightGBM, který klasifikoval s průměrnou přesností 80% na testovacích datech s 11 různými třídami témat. Nad rámec zadání bylo implementováno prohlížečové rozšíření pro klasifikaci webů v reálném čase.cs
dc.description.abstractThere are more than a billion websites on the Internet today that focus on a wide variety of topics. The main goal of this work is to use machine learning and text analysis methods to create a model that can predict which topic from a selected subset of topics a website is about. For training, an annotated dataset containing the URL, the HTML content of the site and the category it belongs to was created. Classifiers were trained on this dataset using a feature vector composed of TF-IDF, HTML and LDA feature sets. The classifier with the LightGBM algorithm achieved the best results, classifying with an average accuracy of 80% on test data with 11 different topic classes. Beyond the assignment, a browser extension was implemented for real-time classification of websites.en
dc.description.markDcs
dc.identifier.citationJAKUBEC, M. Detekce tématu webové stránky [online]. Brno: Vysoké učení technické v Brně. Fakulta informačních technologií. 2025.cs
dc.identifier.other162573cs
dc.identifier.urihttp://hdl.handle.net/11012/253179
dc.language.isocscs
dc.publisherVysoké učení technické v Brně. Fakulta informačních technologiícs
dc.rightsStandardní licenční smlouva - přístup k plnému textu bez omezenícs
dc.subjectstrojové učenícs
dc.subjectklasifikacecs
dc.subjectwebcs
dc.subjectanalýza obsahucs
dc.subjectzpracování přirozeného jazykacs
dc.subjectmachine learningen
dc.subjectclassificationen
dc.subjectweben
dc.subjectcontent analysisen
dc.subjectnatural language processingen
dc.titleDetekce tématu webové stránkycs
dc.title.alternativeWeb page topic detectionen
dc.typeTextcs
dc.type.driverbachelorThesisen
dc.type.evskpbakalářská prácecs
dcterms.dateAccepted2025-06-17cs
dcterms.modified2025-06-17-11:16:10cs
eprints.affiliatedInstitution.facultyFakulta informačních technologiícs
sync.item.dbid162573en
sync.item.dbtypeZPen
sync.item.insts2025.08.26 23:05:06en
sync.item.modts2025.08.26 19:54:34en
thesis.disciplineInformační technologiecs
thesis.grantorVysoké učení technické v Brně. Fakulta informačních technologií. Ústav informačních systémůcs
thesis.levelBakalářskýcs
thesis.nameBc.cs

Files

Original bundle

Now showing 1 - 2 of 2
Loading...
Thumbnail Image
Name:
final-thesis.pdf
Size:
2.46 MB
Format:
Adobe Portable Document Format
Description:
file final-thesis.pdf
Loading...
Thumbnail Image
Name:
review_162573.html
Size:
10.46 KB
Format:
Hypertext Markup Language
Description:
file review_162573.html

Collections