Metody strojového učení nad webovými dokumenty
but.committee | doc. Dr. Ing. Dušan Kolář (předseda) prof. RNDr. Alexandr Meduna, CSc. (člen) Ing. Vladimír Veselý, Ph.D. (člen) Dr. Ing. Petr Peringer (člen) Ing. Aleš Smrčka, Ph.D. (člen) doc. RNDr. Jitka Kreslíková, CSc. (člen) | cs |
but.defence | Student nejprve prezentoval výsledky, kterých dosáhl v rámci své práce. Komise se poté seznámila s hodnocením vedoucího a posudkem oponenta práce. Student následně odpověděl na otázky oponenta a na další otázky přítomných, např. ohledně přesnosti implementovaných metod. Komise se na základě posudku oponenta, hodnocení vedoucího, přednesené prezentace a odpovědí studenta na položené otázky rozhodla práci hodnotit stupněm výborně / A. | cs |
but.jazyk | čeština (Czech) | |
but.program | Informační technologie a umělá inteligence | cs |
but.result | práce byla úspěšně obhájena | cs |
dc.contributor.advisor | Burget, Radek | cs |
dc.contributor.author | Katrňák, Josef | cs |
dc.contributor.referee | Bartík, Vladimír | cs |
dc.date.accessioned | 2023-07-17T08:06:47Z | |
dc.date.available | 2023-07-17T08:06:47Z | |
dc.date.created | 2023 | cs |
dc.description.abstract | Cílem práce je využití metod strojového učení pro klasifikaci specifických částí obsahu webových stránek. Nejprve jsou popsány současné metody reprezentace a klasifikace obsahu webových stránek s využitím metod strojového učení. Pro reprezentaci webové stránky se práce zaměřuje na experimentální nástroj FitLayout, jehož vizuální reprezentace webových stránek slouží jako vstup pro další zpracování a následné trénování modelů strojového učení. Výsledkem práce jsou natrénované modely, které klasifikují konkrétní části obsahu webových stránek. Architektura modelu je založena na grafových neuronových sítích. Pro experimenty je použita datová sada veřejně dostupných webových stránek, které obsahují stránky on-line prodávaných produktů. Výhodou navrženého a implementovaného přístupu je extrakce informací nezávislá na struktuře a jazyku webové stránky. | cs |
dc.description.abstract | This work aims to use machine learning techniques for the classification of specific parts of web page content. First, current methods for representing and classifying web page content using machine learning methods are described. For web page representation, the thesis focuses on the experimental tool FitLayout, whose visual representation of web pages serves as input for further processing and subsequent training of machine learning models. The work results in trained models that classify specific parts of the web page content. The model architecture is based on graph neural networks. For the experiments, a dataset of publicly available websites containing pages of products sold online is used. The advantage of the proposed and implemented approach is information extraction independent of the structure and language of a web page. | en |
dc.description.mark | A | cs |
dc.identifier.citation | KATRŇÁK, J. Metody strojového učení nad webovými dokumenty [online]. Brno: Vysoké učení technické v Brně. Fakulta informačních technologií. 2023. | cs |
dc.identifier.other | 144822 | cs |
dc.identifier.uri | http://hdl.handle.net/11012/211918 | |
dc.language.iso | cs | cs |
dc.publisher | Vysoké učení technické v Brně. Fakulta informačních technologií | cs |
dc.rights | Standardní licenční smlouva - přístup k plnému textu bez omezení | cs |
dc.subject | strojové učení | cs |
dc.subject | grafové neuronové sítě | cs |
dc.subject | klasifikace | cs |
dc.subject | webové dokumenty | cs |
dc.subject | extrakce informací z webu | cs |
dc.subject | dolování obsahu webu | cs |
dc.subject | reprezentace webových dokumentů | cs |
dc.subject | FitLayout | cs |
dc.subject | machine learning | en |
dc.subject | graph neural networks | en |
dc.subject | classification | en |
dc.subject | web documents | en |
dc.subject | web information extraction | en |
dc.subject | web content mining | en |
dc.subject | web documents representation | en |
dc.subject | FitLayout | en |
dc.title | Metody strojového učení nad webovými dokumenty | cs |
dc.title.alternative | Machine Learning Methods for Web Documents | en |
dc.type | Text | cs |
dc.type.driver | masterThesis | en |
dc.type.evskp | diplomová práce | cs |
dcterms.dateAccepted | 2023-06-20 | cs |
dcterms.modified | 2023-06-20-11:27:57 | cs |
eprints.affiliatedInstitution.faculty | Fakulta informačních technologií | cs |
sync.item.dbid | 144822 | en |
sync.item.dbtype | ZP | en |
sync.item.insts | 2023.07.17 10:06:47 | en |
sync.item.modts | 2023.07.17 09:23:41 | en |
thesis.discipline | Informační systémy a databáze | cs |
thesis.grantor | Vysoké učení technické v Brně. Fakulta informačních technologií. Ústav informačních systémů | cs |
thesis.level | Inženýrský | cs |
thesis.name | Ing. | cs |