Metody strojového učení nad webovými dokumenty

but.committeedoc. Dr. Ing. Dušan Kolář (předseda) prof. RNDr. Alexandr Meduna, CSc. (člen) Ing. Vladimír Veselý, Ph.D. (člen) Dr. Ing. Petr Peringer (člen) Ing. Aleš Smrčka, Ph.D. (člen) doc. RNDr. Jitka Kreslíková, CSc. (člen)cs
but.defenceStudent nejprve prezentoval výsledky, kterých dosáhl v rámci své práce. Komise se poté seznámila s hodnocením vedoucího a posudkem oponenta práce. Student následně odpověděl na otázky oponenta a na další otázky přítomných, např. ohledně přesnosti implementovaných metod. Komise se na základě posudku oponenta, hodnocení vedoucího, přednesené prezentace a odpovědí studenta na položené otázky rozhodla práci hodnotit stupněm výborně / A.cs
but.jazykčeština (Czech)
but.programInformační technologie a umělá inteligencecs
but.resultpráce byla úspěšně obhájenacs
dc.contributor.advisorBurget, Radekcs
dc.contributor.authorKatrňák, Josefcs
dc.contributor.refereeBartík, Vladimírcs
dc.date.accessioned2023-07-17T08:06:47Z
dc.date.available2023-07-17T08:06:47Z
dc.date.created2023cs
dc.description.abstractCílem práce je využití metod strojového učení pro klasifikaci specifických částí obsahu webových stránek. Nejprve jsou popsány současné metody reprezentace a klasifikace obsahu webových stránek s využitím metod strojového učení. Pro reprezentaci webové stránky se práce zaměřuje na experimentální nástroj FitLayout, jehož vizuální reprezentace webových stránek slouží jako vstup pro další zpracování a následné trénování modelů strojového učení. Výsledkem práce jsou natrénované modely, které klasifikují konkrétní části obsahu webových stránek. Architektura modelu je založena na grafových neuronových sítích. Pro experimenty je použita datová sada veřejně dostupných webových stránek, které obsahují stránky on-line prodávaných produktů. Výhodou navrženého a implementovaného přístupu je extrakce informací nezávislá na struktuře a jazyku webové stránky.cs
dc.description.abstractThis work aims to use machine learning techniques for the classification of specific parts of web page content. First, current methods for representing and classifying web page content using machine learning methods are described. For web page representation, the thesis focuses on the experimental tool FitLayout, whose visual representation of web pages serves as input for further processing and subsequent training of machine learning models. The work results in trained models that classify specific parts of the web page content. The model architecture is based on graph neural networks. For the experiments, a dataset of publicly available websites containing pages of products sold online is used. The advantage of the proposed and implemented approach is information extraction independent of the structure and language of a web page.en
dc.description.markAcs
dc.identifier.citationKATRŇÁK, J. Metody strojového učení nad webovými dokumenty [online]. Brno: Vysoké učení technické v Brně. Fakulta informačních technologií. 2023.cs
dc.identifier.other144822cs
dc.identifier.urihttp://hdl.handle.net/11012/211918
dc.language.isocscs
dc.publisherVysoké učení technické v Brně. Fakulta informačních technologiícs
dc.rightsStandardní licenční smlouva - přístup k plnému textu bez omezenícs
dc.subjectstrojové učenícs
dc.subjectgrafové neuronové sítěcs
dc.subjectklasifikacecs
dc.subjectwebové dokumentycs
dc.subjectextrakce informací z webucs
dc.subjectdolování obsahu webucs
dc.subjectreprezentace webových dokumentůcs
dc.subjectFitLayoutcs
dc.subjectmachine learningen
dc.subjectgraph neural networksen
dc.subjectclassificationen
dc.subjectweb documentsen
dc.subjectweb information extractionen
dc.subjectweb content miningen
dc.subjectweb documents representationen
dc.subjectFitLayouten
dc.titleMetody strojového učení nad webovými dokumentycs
dc.title.alternativeMachine Learning Methods for Web Documentsen
dc.typeTextcs
dc.type.drivermasterThesisen
dc.type.evskpdiplomová prácecs
dcterms.dateAccepted2023-06-20cs
dcterms.modified2023-06-20-11:27:57cs
eprints.affiliatedInstitution.facultyFakulta informačních technologiícs
sync.item.dbid144822en
sync.item.dbtypeZPen
sync.item.insts2023.07.17 10:06:47en
sync.item.modts2023.07.17 09:23:41en
thesis.disciplineInformační systémy a databázecs
thesis.grantorVysoké učení technické v Brně. Fakulta informačních technologií. Ústav informačních systémůcs
thesis.levelInženýrskýcs
thesis.nameIng.cs
Files
Original bundle
Now showing 1 - 2 of 2
Loading...
Thumbnail Image
Name:
final-thesis.pdf
Size:
2.97 MB
Format:
Adobe Portable Document Format
Description:
final-thesis.pdf
Loading...
Thumbnail Image
Name:
review_144822.html
Size:
9.4 KB
Format:
Hypertext Markup Language
Description:
review_144822.html
Collections