Metody extrakce dat z webových stránek

Perina, Lukáš

Metody extrakce dat z webových stránek

but.committee	doc. RNDr. Pavel Smrž, Ph.D. (předseda) doc. RNDr. Jitka Kreslíková, CSc. (místopředseda) Ing. Ivana Burgetová, Ph.D. (člen) Dr. Ing. Petr Peringer (člen) Ing. Josef Strnadel, Ph.D. (člen)	cs
but.defence	Student nejprve prezentoval výsledky, kterých dosáhl v rámci své práce. Komise se poté seznámila s hodnocením vedoucího a posudkem oponenta práce. Student následně odpověděl na otázky oponenta a na další otázky přítomných. Komise se na základě posudku oponenta, hodnocení vedoucího, přednesené prezentace a odpovědí studenta na položené otázky rozhodla práci hodnotit stupněm B Otázky u obhajoby: U knihovny Puppeteer jste zmiňoval především výhody, můžete se zamyslet i nad nevýhodami použití této knihovny? Chápu, že v současné době není k dispozici žádná srovnávací testovací sada pro alternativní nástroje, ale dle zmínky v textu byl vytvořen jiným studentem alternativní nástroj s jiným přístupem k extrakci, ale využívající stejné testovací sady. Můžete provést alespoň srovnání s kolegou z hlediska přesnosti a časové náročnosti pro jednotlivé sady? Jaký programovací jazyk jste použil a kolik řádků jste přibližně implementoval?	cs
but.jazyk	slovenština (Slovak)
but.program	Informační technologie	cs
but.result	práce byla úspěšně obhájena	cs
dc.contributor.advisor	Burget, Radek	sk
dc.contributor.author	Perina, Lukáš	sk
dc.contributor.referee	Křivka, Zbyněk	sk
dc.date.created	2021	cs
dc.description.abstract	Cieľom tejto bakalárskej práce je návrh architektúry a následná implementácia aplikácie, ktorá je určená na extrakciu dát (web scraping) z webových dokumentov. Na rozdiel od konvenčných metód sa jedná o extrakciu založenú na definovaní dátových typov a regulárnych výrazov hľadaných prvkov. Extrakcia prebieha tak, aby nebolo potrebné poznať detailnú štruktúru daného webového dokumentu a aby bolo umožnené použitie jednej definície na detekciu hľadaných prvkov na rôznych webových stránkach. Algoritmus dosahuje priemernú presnosť 85,51% a recall 80,28%. Týmto prístupom sa umožní zredukovať čas potrebný na analýzu jednotlivých stránok na minimum a nebrať štruktúru kódu, ako určujúci faktor pri vytváraní požiadaviek na web scraping.	sk
dc.description.abstract	The purpose of this bachelor thesis is to design an architecture and subsequent implementation of an application designed for data extraction (web scraping) from web documents. Unlike conventional methods, it is an extraction based on defining data types and regular expressions of requested elements. Extraction is executed in such a manner, where it is not necessary to know the detailed structure of given web document and the possibility of using just one definition to detect requested elements on different web pages. Algorithm is able to achieve overall accuracy of 85,51% and recall 80,28%. This approach can reduce the time required for analysis of web pages significantly and not to take the structure of the code as a determining factor while creating web scraping requests.	en
dc.description.mark	B	cs
dc.identifier.citation	PERINA, L. Metody extrakce dat z webových stránek [online]. Brno: Vysoké učení technické v Brně. Fakulta informačních technologií. 2021.	cs
dc.identifier.other	136542	cs
dc.identifier.uri	http://hdl.handle.net/11012/198940
dc.language.iso	sk	cs
dc.publisher	Vysoké učení technické v Brně. Fakulta informačních technologií	cs
dc.rights	Standardní licenční smlouva - přístup k plnému textu bez omezení	cs
dc.subject	Web scraping	sk
dc.subject	Javascript	sk
dc.subject	Node.js	sk
dc.subject	Google Chrome	sk
dc.subject	Chromium	sk
dc.subject	JSON	sk
dc.subject	Extrakcia dát	sk
dc.subject	scraping	sk
dc.subject	web	sk
dc.subject	DOM	sk
dc.subject	CSS	sk
dc.subject	HTML	sk
dc.subject	Puppeteer	sk
dc.subject	Web scraping	en
dc.subject	Javascript	en
dc.subject	Node.js	en
dc.subject	Google Chrome	en
dc.subject	Chromium	en
dc.subject	JSON	en
dc.subject	data extraction	en
dc.subject	scraping	en
dc.subject	web	en
dc.subject	DOM	en
dc.subject	CSS	en
dc.subject	HTML	en
dc.subject	Puppeteer	en
dc.title	Metody extrakce dat z webových stránek	sk
dc.title.alternative	Methods of Data Extraction from the Web	en
dc.type	Text	cs
dc.type.driver	bachelorThesis	en
dc.type.evskp	bakalářská práce	cs
dcterms.dateAccepted	2021-06-16	cs
dcterms.modified	2021-06-17-14:25:03	cs
eprints.affiliatedInstitution.faculty	Fakulta informačních technologií	cs
sync.item.dbid	136542	en
sync.item.dbtype	ZP	en
sync.item.insts	2025.03.18 19:34:10	en
sync.item.modts	2025.01.17 09:55:11	en
thesis.discipline	Informační technologie	cs
thesis.grantor	Vysoké učení technické v Brně. Fakulta informačních technologií. Ústav informačních systémů	cs
thesis.level	Bakalářský	cs
thesis.name	Bc.	cs

Files

Original bundle

Now showing 1 - 4 of 4

Name:: final-thesis.pdf
Size:: 1.04 MB
Format:: Adobe Portable Document Format
Description:: final-thesis.pdf

Download

Name:: Posudek-Vedouci prace-23941_v.pdf
Size:: 85.65 KB
Format:: Adobe Portable Document Format
Description:: Posudek-Vedouci prace-23941_v.pdf

Download

Name:: Posudek-Oponent prace-23941_o.pdf
Size:: 90.64 KB
Format:: Adobe Portable Document Format
Description:: Posudek-Oponent prace-23941_o.pdf

Download

Name:: review_136542.html
Size:: 1.43 KB
Format:: Hypertext Markup Language
Description:: file review_136542.html

Download

Collections

2021