Rozpoznání významných prvků v textu webových stránek

but.committeedoc. Ing. František Zbořil, Ph.D. (předseda) doc. Mgr. Adam Rogalewicz, Ph.D. (člen) Ing. David Bařina, Ph.D. (člen) doc. Ing. Michal Bidlo, Ph.D. (člen) doc. Ing. Radek Burget, Ph.D. (člen)cs
but.defenceStudentka nejprve prezentovala výsledky, kterých dosáhla v rámci své práce. Komise se poté seznámila s hodnocením vedoucího a posudkem oponenta práce. Studentka následně odpověděla na otázky oponenta a na další otázky přítomných. Komise se na základě posudku oponenta, hodnocení vedoucího, přednesené prezentace a odpovědí studentky na položené otázky rozhodla práci hodnotit stupněm B.cs
but.jazykslovenština (Slovak)
but.programInformační technologiecs
but.resultpráce byla úspěšně obhájenacs
dc.contributor.advisorBurget, Radeksk
dc.contributor.authorSvítková, Veronikask
dc.contributor.refereeHynek, Jiřísk
dc.date.created2023cs
dc.description.abstractCieľom tejto práce je natrénovanie modelov pre rozpoznávanie pomenovaných entít na dátovej sade vytvorenej použitím štruktúrovaných dát webových stránok. Dátové sady sú vytvorené z názvov produktov a kníh z štruktúrovaných dát formátu JSON-LD a Microdata. Štruktúrované dáta boli získané zo stránok internetového obchodu a katalogizačnej stránky web scrapingom. Použité boli názvy samostatne a taktiež textový obsah stránok s automaticky anotovanými výskytmi názvov. Bolo natrénovaných celkom osem modelov v českom jazyku pre rozpoznanie názvov produktov a kníh použitím knižnice spaCy. Výsledné modely dosahujú f-score až 89.94 pre triedu produktov a 84.26 pre triedu kníh na vlastnej testovacej dátovej sade.sk
dc.description.abstractThe aim of this thesis is training named entity recognition model on a dataset created using structured data. Datasets were created from the names of products and books extracted from structured data in JSON-LD and Microdata format. Structured data were extracted from e-shop and social cataloging websites by web scraping. Names were used as a dataset by themselves as well as webpage text with automatically annotated matches of the names. In total eight models in Czech language were trained for recognizing names of products and books using spaCy library. F-score results are up to 89.94 for products and up to 84.26 for books evaluated on a created testing dataset.en
dc.description.markBcs
dc.identifier.citationSVÍTKOVÁ, V. Rozpoznání významných prvků v textu webových stránek [online]. Brno: Vysoké učení technické v Brně. Fakulta informačních technologií. 2023.cs
dc.identifier.other147037cs
dc.identifier.urihttp://hdl.handle.net/11012/211124
dc.language.isoskcs
dc.publisherVysoké učení technické v Brně. Fakulta informačních technologiícs
dc.rightsStandardní licenční smlouva - přístup k plnému textu bez omezenícs
dc.subjectrozpoznávanie pomenovaných entítsk
dc.subjectspaCysk
dc.subjectštruktúrované dátask
dc.subjectextrakcia informáciísk
dc.subjectkorpussk
dc.subjectweb scrapingsk
dc.subjectnamed entity recognitionen
dc.subjectspaCyen
dc.subjectstructured dataen
dc.subjectinformation extractionen
dc.subjectcorpusen
dc.subjectweb scrapingen
dc.titleRozpoznání významných prvků v textu webových stráneksk
dc.title.alternativeImportant Entity Recognition in Web Page Texten
dc.typeTextcs
dc.type.driverbachelorThesisen
dc.type.evskpbakalářská prácecs
dcterms.dateAccepted2023-06-13cs
dcterms.modified2023-08-21-14:56:58cs
eprints.affiliatedInstitution.facultyFakulta informačních technologiícs
sync.item.dbid147037en
sync.item.dbtypeZPen
sync.item.insts2025.03.18 20:59:18en
sync.item.modts2025.01.15 23:42:32en
thesis.disciplineInformační technologiecs
thesis.grantorVysoké učení technické v Brně. Fakulta informačních technologií. Ústav informačních systémůcs
thesis.levelBakalářskýcs
thesis.nameBc.cs
Files
Original bundle
Now showing 1 - 2 of 2
Loading...
Thumbnail Image
Name:
final-thesis.pdf
Size:
1.8 MB
Format:
Adobe Portable Document Format
Description:
final-thesis.pdf
Loading...
Thumbnail Image
Name:
review_147037.html
Size:
9.08 KB
Format:
Hypertext Markup Language
Description:
file review_147037.html
Collections