Inteligentní extrakce dat ve webovém prohlížeči

but.committeedoc. RNDr. Pavel Smrž, Ph.D. (předseda) doc. RNDr. Jitka Kreslíková, CSc. (místopředseda) Ing. Ivana Burgetová, Ph.D. (člen) Dr. Ing. Petr Peringer (člen) Ing. Josef Strnadel, Ph.D. (člen)cs
but.defenceStudent nejprve prezentoval výsledky, kterých dosáhl v rámci své práce. Komise se poté seznámila s hodnocením vedoucího a posudkem oponenta práce. Student následně odpověděl na otázky oponenta a na další otázky přítomných. Komise se na základě posudku oponenta, hodnocení vedoucího, přednesené prezentace a odpovědí studenta na položené otázky rozhodla práci hodnotit stupněm A. Otázky u obhajoby: Existuje podobný systém, se kterým by bylo možné vaše výsledky porovnat? Popište, jak si představujete, že byste rozšířil vaše řešení o metody strojového učení, jak zmiňujete v závěru. V čem spočívá inteligence z názvu práce?cs
but.jazykčeština (Czech)
but.programInformační technologiecs
but.resultpráce byla úspěšně obhájenacs
dc.contributor.advisorBurget, Radekcs
dc.contributor.authorMaštera, Františekcs
dc.contributor.refereeBartík, Vladimírcs
dc.date.created2021cs
dc.description.abstractCílem této práce je získání dat z webových stránek bez znalosti jejich vnitřní struktury. Podstatou je rozpoznání této struktury pomocí algoritmu a zadaným vstupním informacím o obsahu, který chce uživatel extrahovat. Po analýze struktury následuje extrakce samotného obsahu. Na vybraných sadách internetových stránek se podařilo dosáhnout průměrné úspěšnosti přes 80%. Výsledný algoritmus představuje nový přístup k extrakci dat a může být nasazen v reálném světě, nebo může být součástí dalšího vývoje.cs
dc.description.abstractThe goal of this thesis is to extract data from web pages without the knowledge of their internal structure. The point is to recognize the structure using an algorithm and a given input information about the content that the user wants to extract. The structure analysis is then followed by the content extraction itself. An average success rate of over 80% was achieved on selected sets of websites. The resulting algorithm represents a new approach to data extraction and can be deployed in the real world or can be a part of further development.en
dc.description.markAcs
dc.identifier.citationMAŠTERA, F. Inteligentní extrakce dat ve webovém prohlížeči [online]. Brno: Vysoké učení technické v Brně. Fakulta informačních technologií. 2021.cs
dc.identifier.other136478cs
dc.identifier.urihttp://hdl.handle.net/11012/198926
dc.language.isocscs
dc.publisherVysoké učení technické v Brně. Fakulta informačních technologiícs
dc.rightsStandardní licenční smlouva - přístup k plnému textu bez omezenícs
dc.subjectZpracování dokumentucs
dc.subjectextrakce datcs
dc.subjectrozpoznávání struktur dokumentucs
dc.subjectwebcs
dc.subjectTypeScriptcs
dc.subjectPuppeteercs
dc.subjectDocument processingen
dc.subjectdata extractionen
dc.subjectdocument structure recognitionen
dc.subjectweben
dc.subjectTypeScripten
dc.subjectPuppeteeren
dc.titleInteligentní extrakce dat ve webovém prohlížečics
dc.title.alternativeIntelligent Data Scraping in a Web Browseren
dc.typeTextcs
dc.type.driverbachelorThesisen
dc.type.evskpbakalářská prácecs
dcterms.dateAccepted2021-06-16cs
dcterms.modified2022-08-24-21:52:01cs
eprints.affiliatedInstitution.facultyFakulta informačních technologiícs
sync.item.dbid136478en
sync.item.dbtypeZPen
sync.item.insts2025.03.18 19:33:56en
sync.item.modts2025.01.17 10:20:02en
thesis.disciplineInformační technologiecs
thesis.grantorVysoké učení technické v Brně. Fakulta informačních technologií. Ústav informačních systémůcs
thesis.levelBakalářskýcs
thesis.nameBc.cs
Files
Original bundle
Now showing 1 - 4 of 4
Loading...
Thumbnail Image
Name:
final-thesis.pdf
Size:
1.67 MB
Format:
Adobe Portable Document Format
Description:
final-thesis.pdf
Loading...
Thumbnail Image
Name:
Posudek-Vedouci prace-23533_v.pdf
Size:
85.57 KB
Format:
Adobe Portable Document Format
Description:
Posudek-Vedouci prace-23533_v.pdf
Loading...
Thumbnail Image
Name:
Posudek-Oponent prace-23533_o.pdf
Size:
88.29 KB
Format:
Adobe Portable Document Format
Description:
Posudek-Oponent prace-23533_o.pdf
Loading...
Thumbnail Image
Name:
review_136478.html
Size:
1.45 KB
Format:
Hypertext Markup Language
Description:
file review_136478.html
Collections