Rozpoznání významných prvků v textu webových stránek
but.committee | doc. Ing. František Zbořil, Ph.D. (předseda) doc. Mgr. Adam Rogalewicz, Ph.D. (člen) Ing. David Bařina, Ph.D. (člen) doc. Ing. Michal Bidlo, Ph.D. (člen) doc. Ing. Radek Burget, Ph.D. (člen) | cs |
but.defence | Studentka nejprve prezentovala výsledky, kterých dosáhla v rámci své práce. Komise se poté seznámila s hodnocením vedoucího a posudkem oponenta práce. Studentka následně odpověděla na otázky oponenta a na další otázky přítomných. Komise se na základě posudku oponenta, hodnocení vedoucího, přednesené prezentace a odpovědí studentky na položené otázky rozhodla práci hodnotit stupněm B. | cs |
but.jazyk | slovenština (Slovak) | |
but.program | Informační technologie | cs |
but.result | práce byla úspěšně obhájena | cs |
dc.contributor.advisor | Burget, Radek | sk |
dc.contributor.author | Svítková, Veronika | sk |
dc.contributor.referee | Hynek, Jiří | sk |
dc.date.created | 2023 | cs |
dc.description.abstract | Cieľom tejto práce je natrénovanie modelov pre rozpoznávanie pomenovaných entít na dátovej sade vytvorenej použitím štruktúrovaných dát webových stránok. Dátové sady sú vytvorené z názvov produktov a kníh z štruktúrovaných dát formátu JSON-LD a Microdata. Štruktúrované dáta boli získané zo stránok internetového obchodu a katalogizačnej stránky web scrapingom. Použité boli názvy samostatne a taktiež textový obsah stránok s automaticky anotovanými výskytmi názvov. Bolo natrénovaných celkom osem modelov v českom jazyku pre rozpoznanie názvov produktov a kníh použitím knižnice spaCy. Výsledné modely dosahujú f-score až 89.94 pre triedu produktov a 84.26 pre triedu kníh na vlastnej testovacej dátovej sade. | sk |
dc.description.abstract | The aim of this thesis is training named entity recognition model on a dataset created using structured data. Datasets were created from the names of products and books extracted from structured data in JSON-LD and Microdata format. Structured data were extracted from e-shop and social cataloging websites by web scraping. Names were used as a dataset by themselves as well as webpage text with automatically annotated matches of the names. In total eight models in Czech language were trained for recognizing names of products and books using spaCy library. F-score results are up to 89.94 for products and up to 84.26 for books evaluated on a created testing dataset. | en |
dc.description.mark | B | cs |
dc.identifier.citation | SVÍTKOVÁ, V. Rozpoznání významných prvků v textu webových stránek [online]. Brno: Vysoké učení technické v Brně. Fakulta informačních technologií. 2023. | cs |
dc.identifier.other | 147037 | cs |
dc.identifier.uri | http://hdl.handle.net/11012/211124 | |
dc.language.iso | sk | cs |
dc.publisher | Vysoké učení technické v Brně. Fakulta informačních technologií | cs |
dc.rights | Standardní licenční smlouva - přístup k plnému textu bez omezení | cs |
dc.subject | rozpoznávanie pomenovaných entít | sk |
dc.subject | spaCy | sk |
dc.subject | štruktúrované dáta | sk |
dc.subject | extrakcia informácií | sk |
dc.subject | korpus | sk |
dc.subject | web scraping | sk |
dc.subject | named entity recognition | en |
dc.subject | spaCy | en |
dc.subject | structured data | en |
dc.subject | information extraction | en |
dc.subject | corpus | en |
dc.subject | web scraping | en |
dc.title | Rozpoznání významných prvků v textu webových stránek | sk |
dc.title.alternative | Important Entity Recognition in Web Page Text | en |
dc.type | Text | cs |
dc.type.driver | bachelorThesis | en |
dc.type.evskp | bakalářská práce | cs |
dcterms.dateAccepted | 2023-06-13 | cs |
dcterms.modified | 2023-08-21-14:56:58 | cs |
eprints.affiliatedInstitution.faculty | Fakulta informačních technologií | cs |
sync.item.dbid | 147037 | en |
sync.item.dbtype | ZP | en |
sync.item.insts | 2025.03.18 20:59:18 | en |
sync.item.modts | 2025.01.15 23:42:32 | en |
thesis.discipline | Informační technologie | cs |
thesis.grantor | Vysoké učení technické v Brně. Fakulta informačních technologií. Ústav informačních systémů | cs |
thesis.level | Bakalářský | cs |
thesis.name | Bc. | cs |