Metody extrakce dat z webových stránek

but.committeedoc. RNDr. Pavel Smrž, Ph.D. (předseda) doc. RNDr. Jitka Kreslíková, CSc. (místopředseda) Ing. Ivana Burgetová, Ph.D. (člen) Dr. Ing. Petr Peringer (člen) Ing. Josef Strnadel, Ph.D. (člen)cs
but.defenceStudent nejprve prezentoval výsledky, kterých dosáhl v rámci své práce. Komise se poté seznámila s hodnocením vedoucího a posudkem oponenta práce. Student následně odpověděl na otázky oponenta a na další otázky přítomných. Komise se na základě posudku oponenta, hodnocení vedoucího, přednesené prezentace a odpovědí studenta na položené otázky rozhodla práci hodnotit stupněm B Otázky u obhajoby: U knihovny Puppeteer jste zmiňoval především výhody, můžete se zamyslet i nad nevýhodami použití této knihovny? Chápu, že v současné době není k dispozici žádná srovnávací testovací sada pro alternativní nástroje, ale dle zmínky v textu byl vytvořen jiným studentem alternativní nástroj s jiným přístupem k extrakci, ale využívající stejné testovací sady. Můžete provést alespoň srovnání s kolegou z hlediska přesnosti a časové náročnosti pro jednotlivé sady? Jaký programovací jazyk jste použil a kolik řádků jste přibližně implementoval?cs
but.jazykslovenština (Slovak)
but.programInformační technologiecs
but.resultpráce byla úspěšně obhájenacs
dc.contributor.advisorBurget, Radeksk
dc.contributor.authorPerina, Lukášsk
dc.contributor.refereeKřivka, Zbyněksk
dc.date.created2021cs
dc.description.abstractCieľom tejto bakalárskej práce je návrh architektúry a následná implementácia aplikácie, ktorá je určená na extrakciu dát (web scraping) z webových dokumentov. Na rozdiel od konvenčných metód sa jedná o extrakciu založenú na definovaní dátových typov a regulárnych výrazov hľadaných prvkov. Extrakcia prebieha tak, aby nebolo potrebné poznať detailnú štruktúru daného webového dokumentu a aby bolo umožnené použitie jednej definície na detekciu hľadaných prvkov na rôznych webových stránkach. Algoritmus dosahuje priemernú presnosť 85,51% a recall 80,28%. Týmto prístupom sa umožní zredukovať čas potrebný na analýzu jednotlivých stránok na minimum a nebrať štruktúru kódu, ako určujúci faktor pri vytváraní požiadaviek na web scraping.sk
dc.description.abstractThe purpose of this bachelor thesis is to design an architecture and subsequent implementation of an application designed for data extraction (web scraping) from web documents. Unlike conventional methods, it is an extraction based on defining data types and regular expressions of requested elements. Extraction is executed in such a manner, where it is not necessary to know the detailed structure of given web document and the possibility of using just one definition to detect requested elements on different web pages. Algorithm is able to achieve overall accuracy of 85,51% and recall 80,28%. This approach can reduce the time required for analysis of web pages significantly and not to take the structure of the code as a determining factor while creating web scraping requests.en
dc.description.markBcs
dc.identifier.citationPERINA, L. Metody extrakce dat z webových stránek [online]. Brno: Vysoké učení technické v Brně. Fakulta informačních technologií. 2021.cs
dc.identifier.other136542cs
dc.identifier.urihttp://hdl.handle.net/11012/198940
dc.language.isoskcs
dc.publisherVysoké učení technické v Brně. Fakulta informačních technologiícs
dc.rightsStandardní licenční smlouva - přístup k plnému textu bez omezenícs
dc.subjectWeb scrapingsk
dc.subjectJavascriptsk
dc.subjectNode.jssk
dc.subjectGoogle Chromesk
dc.subjectChromiumsk
dc.subjectJSONsk
dc.subjectExtrakcia dátsk
dc.subjectscrapingsk
dc.subjectwebsk
dc.subjectDOMsk
dc.subjectCSSsk
dc.subjectHTMLsk
dc.subjectPuppeteersk
dc.subjectWeb scrapingen
dc.subjectJavascripten
dc.subjectNode.jsen
dc.subjectGoogle Chromeen
dc.subjectChromiumen
dc.subjectJSONen
dc.subjectdata extractionen
dc.subjectscrapingen
dc.subjectweben
dc.subjectDOMen
dc.subjectCSSen
dc.subjectHTMLen
dc.subjectPuppeteeren
dc.titleMetody extrakce dat z webových stráneksk
dc.title.alternativeMethods of Data Extraction from the Weben
dc.typeTextcs
dc.type.driverbachelorThesisen
dc.type.evskpbakalářská prácecs
dcterms.dateAccepted2021-06-16cs
dcterms.modified2021-06-17-14:25:03cs
eprints.affiliatedInstitution.facultyFakulta informačních technologiícs
sync.item.dbid136542en
sync.item.dbtypeZPen
sync.item.insts2025.03.18 19:34:10en
sync.item.modts2025.01.17 09:55:11en
thesis.disciplineInformační technologiecs
thesis.grantorVysoké učení technické v Brně. Fakulta informačních technologií. Ústav informačních systémůcs
thesis.levelBakalářskýcs
thesis.nameBc.cs
Files
Original bundle
Now showing 1 - 4 of 4
Loading...
Thumbnail Image
Name:
final-thesis.pdf
Size:
1.04 MB
Format:
Adobe Portable Document Format
Description:
final-thesis.pdf
Loading...
Thumbnail Image
Name:
Posudek-Vedouci prace-23941_v.pdf
Size:
85.65 KB
Format:
Adobe Portable Document Format
Description:
Posudek-Vedouci prace-23941_v.pdf
Loading...
Thumbnail Image
Name:
Posudek-Oponent prace-23941_o.pdf
Size:
90.64 KB
Format:
Adobe Portable Document Format
Description:
Posudek-Oponent prace-23941_o.pdf
Loading...
Thumbnail Image
Name:
review_136542.html
Size:
1.43 KB
Format:
Hypertext Markup Language
Description:
file review_136542.html
Collections