Rozpoznání významných prvků v textu webových stránek

Loading...
Thumbnail Image
Date
Authors
Svítková, Veronika
ORCID
Mark
B
Journal Title
Journal ISSN
Volume Title
Publisher
Vysoké učení technické v Brně. Fakulta informačních technologií
Abstract
Cieľom tejto práce je natrénovanie modelov pre rozpoznávanie pomenovaných entít na dátovej sade vytvorenej použitím štruktúrovaných dát webových stránok. Dátové sady sú vytvorené z názvov produktov a kníh z štruktúrovaných dát formátu JSON-LD a Microdata. Štruktúrované dáta boli získané zo stránok internetového obchodu a katalogizačnej stránky web scrapingom. Použité boli názvy samostatne a taktiež textový obsah stránok s automaticky anotovanými výskytmi názvov. Bolo natrénovaných celkom osem modelov v českom jazyku pre rozpoznanie názvov produktov a kníh použitím knižnice spaCy. Výsledné modely dosahujú f-score až 89.94 pre triedu produktov a 84.26 pre triedu kníh na vlastnej testovacej dátovej sade.
The aim of this thesis is training named entity recognition model on a dataset created using structured data. Datasets were created from the names of products and books extracted from structured data in JSON-LD and Microdata format. Structured data were extracted from e-shop and social cataloging websites by web scraping. Names were used as a dataset by themselves as well as webpage text with automatically annotated matches of the names. In total eight models in Czech language were trained for recognizing names of products and books using spaCy library. F-score results are up to 89.94 for products and up to 84.26 for books evaluated on a created testing dataset.
Description
Citation
SVÍTKOVÁ, V. Rozpoznání významných prvků v textu webových stránek [online]. Brno: Vysoké učení technické v Brně. Fakulta informačních technologií. 2023.
Document type
Document version
Date of access to the full text
Language of document
sk
Study field
Informační technologie
Comittee
doc. Ing. František Zbořil, Ph.D. (předseda) doc. Mgr. Adam Rogalewicz, Ph.D. (člen) Ing. David Bařina, Ph.D. (člen) doc. Ing. Michal Bidlo, Ph.D. (člen) doc. Ing. Radek Burget, Ph.D. (člen)
Date of acceptance
2023-06-13
Defence
Studentka nejprve prezentovala výsledky, kterých dosáhla v rámci své práce. Komise se poté seznámila s hodnocením vedoucího a posudkem oponenta práce. Studentka následně odpověděla na otázky oponenta a na další otázky přítomných. Komise se na základě posudku oponenta, hodnocení vedoucího, přednesené prezentace a odpovědí studentky na položené otázky rozhodla práci hodnotit stupněm B.
Result of defence
práce byla úspěšně obhájena
Document licence
Standardní licenční smlouva - přístup k plnému textu bez omezení
DOI
Collections
Citace PRO