Rozpoznání významných prvků v textu webových stránek

Loading...
Thumbnail Image

Date

Authors

Svítková, Veronika

Mark

B

Journal Title

Journal ISSN

Volume Title

Publisher

Vysoké učení technické v Brně. Fakulta informačních technologií

ORCID

Abstract

Cieľom tejto práce je natrénovanie modelov pre rozpoznávanie pomenovaných entít na dátovej sade vytvorenej použitím štruktúrovaných dát webových stránok. Dátové sady sú vytvorené z názvov produktov a kníh z štruktúrovaných dát formátu JSON-LD a Microdata. Štruktúrované dáta boli získané zo stránok internetového obchodu a katalogizačnej stránky web scrapingom. Použité boli názvy samostatne a taktiež textový obsah stránok s automaticky anotovanými výskytmi názvov. Bolo natrénovaných celkom osem modelov v českom jazyku pre rozpoznanie názvov produktov a kníh použitím knižnice spaCy. Výsledné modely dosahujú f-score až 89.94 pre triedu produktov a 84.26 pre triedu kníh na vlastnej testovacej dátovej sade.
The aim of this thesis is training named entity recognition model on a dataset created using structured data. Datasets were created from the names of products and books extracted from structured data in JSON-LD and Microdata format. Structured data were extracted from e-shop and social cataloging websites by web scraping. Names were used as a dataset by themselves as well as webpage text with automatically annotated matches of the names. In total eight models in Czech language were trained for recognizing names of products and books using spaCy library. F-score results are up to 89.94 for products and up to 84.26 for books evaluated on a created testing dataset.

Description

Citation

SVÍTKOVÁ, V. Rozpoznání významných prvků v textu webových stránek [online]. Brno: Vysoké učení technické v Brně. Fakulta informačních technologií. 2023.

Document type

Document version

Date of access to the full text

Language of document

sk

Study field

Informační technologie

Comittee

doc. Ing. František Zbořil, Ph.D. (předseda) doc. Mgr. Adam Rogalewicz, Ph.D. (člen) Ing. David Bařina, Ph.D. (člen) doc. Ing. Michal Bidlo, Ph.D. (člen) doc. Ing. Radek Burget, Ph.D. (člen)

Date of acceptance

2023-06-13

Defence

Studentka nejprve prezentovala výsledky, kterých dosáhla v rámci své práce. Komise se poté seznámila s hodnocením vedoucího a posudkem oponenta práce. Studentka následně odpověděla na otázky oponenta a na další otázky přítomných. Komise se na základě posudku oponenta, hodnocení vedoucího, přednesené prezentace a odpovědí studentky na položené otázky rozhodla práci hodnotit stupněm B.

Result of defence

práce byla úspěšně obhájena

DOI

Collections

Endorsement

Review

Supplemented By

Referenced By

Citace PRO