Metody strojového učení nad webovými dokumenty

Loading...
Thumbnail Image

Date

Authors

Katrňák, Josef

Mark

A

Journal Title

Journal ISSN

Volume Title

Publisher

Vysoké učení technické v Brně. Fakulta informačních technologií

ORCID

Abstract

Cílem práce je využití metod strojového učení pro klasifikaci specifických částí obsahu webových stránek. Nejprve jsou popsány současné metody reprezentace a klasifikace obsahu webových stránek s využitím metod strojového učení. Pro reprezentaci webové stránky se práce zaměřuje na experimentální nástroj FitLayout, jehož vizuální reprezentace webových stránek slouží jako vstup pro další zpracování a následné trénování modelů strojového učení. Výsledkem práce jsou natrénované modely, které klasifikují konkrétní části obsahu webových stránek. Architektura modelu je založena na grafových neuronových sítích. Pro experimenty je použita datová sada veřejně dostupných webových stránek, které obsahují stránky on-line prodávaných produktů. Výhodou navrženého a implementovaného přístupu je extrakce informací nezávislá na struktuře a jazyku webové stránky.
This work aims to use machine learning techniques for the classification of specific parts of web page content. First, current methods for representing and classifying web page content using machine learning methods are described. For web page representation, the thesis focuses on the experimental tool FitLayout, whose visual representation of web pages serves as input for further processing and subsequent training of machine learning models. The work results in trained models that classify specific parts of the web page content. The model architecture is based on graph neural networks. For the experiments, a dataset of publicly available websites containing pages of products sold online is used. The advantage of the proposed and implemented approach is information extraction independent of the structure and language of a web page.

Description

Citation

KATRŇÁK, J. Metody strojového učení nad webovými dokumenty [online]. Brno: Vysoké učení technické v Brně. Fakulta informačních technologií. 2023.

Document type

Document version

Date of access to the full text

Language of document

cs

Study field

Informační systémy a databáze

Comittee

doc. Dr. Ing. Dušan Kolář (předseda) prof. RNDr. Alexandr Meduna, CSc. (člen) Ing. Vladimír Veselý, Ph.D. (člen) Dr. Ing. Petr Peringer (člen) Ing. Aleš Smrčka, Ph.D. (člen) doc. RNDr. Jitka Kreslíková, CSc. (člen)

Date of acceptance

2023-06-20

Defence

Student nejprve prezentoval výsledky, kterých dosáhl v rámci své práce. Komise se poté seznámila s hodnocením vedoucího a posudkem oponenta práce. Student následně odpověděl na otázky oponenta a na další otázky přítomných, např. ohledně přesnosti implementovaných metod. Komise se na základě posudku oponenta, hodnocení vedoucího, přednesené prezentace a odpovědí studenta na položené otázky rozhodla práci hodnotit stupněm výborně / A.

Result of defence

práce byla úspěšně obhájena

DOI

Collections

Endorsement

Review

Supplemented By

Referenced By

Citace PRO