Metody extrakce dat z webových stránek
but.committee | doc. RNDr. Pavel Smrž, Ph.D. (předseda) doc. RNDr. Jitka Kreslíková, CSc. (místopředseda) Ing. Ivana Burgetová, Ph.D. (člen) Dr. Ing. Petr Peringer (člen) Ing. Josef Strnadel, Ph.D. (člen) | cs |
but.defence | Student nejprve prezentoval výsledky, kterých dosáhl v rámci své práce. Komise se poté seznámila s hodnocením vedoucího a posudkem oponenta práce. Student následně odpověděl na otázky oponenta a na další otázky přítomných. Komise se na základě posudku oponenta, hodnocení vedoucího, přednesené prezentace a odpovědí studenta na položené otázky rozhodla práci hodnotit stupněm B Otázky u obhajoby: U knihovny Puppeteer jste zmiňoval především výhody, můžete se zamyslet i nad nevýhodami použití této knihovny? Chápu, že v současné době není k dispozici žádná srovnávací testovací sada pro alternativní nástroje, ale dle zmínky v textu byl vytvořen jiným studentem alternativní nástroj s jiným přístupem k extrakci, ale využívající stejné testovací sady. Můžete provést alespoň srovnání s kolegou z hlediska přesnosti a časové náročnosti pro jednotlivé sady? Jaký programovací jazyk jste použil a kolik řádků jste přibližně implementoval? | cs |
but.jazyk | slovenština (Slovak) | |
but.program | Informační technologie | cs |
but.result | práce byla úspěšně obhájena | cs |
dc.contributor.advisor | Burget, Radek | sk |
dc.contributor.author | Perina, Lukáš | sk |
dc.contributor.referee | Křivka, Zbyněk | sk |
dc.date.created | 2021 | cs |
dc.description.abstract | Cieľom tejto bakalárskej práce je návrh architektúry a následná implementácia aplikácie, ktorá je určená na extrakciu dát (web scraping) z webových dokumentov. Na rozdiel od konvenčných metód sa jedná o extrakciu založenú na definovaní dátových typov a regulárnych výrazov hľadaných prvkov. Extrakcia prebieha tak, aby nebolo potrebné poznať detailnú štruktúru daného webového dokumentu a aby bolo umožnené použitie jednej definície na detekciu hľadaných prvkov na rôznych webových stránkach. Algoritmus dosahuje priemernú presnosť 85,51% a recall 80,28%. Týmto prístupom sa umožní zredukovať čas potrebný na analýzu jednotlivých stránok na minimum a nebrať štruktúru kódu, ako určujúci faktor pri vytváraní požiadaviek na web scraping. | sk |
dc.description.abstract | The purpose of this bachelor thesis is to design an architecture and subsequent implementation of an application designed for data extraction (web scraping) from web documents. Unlike conventional methods, it is an extraction based on defining data types and regular expressions of requested elements. Extraction is executed in such a manner, where it is not necessary to know the detailed structure of given web document and the possibility of using just one definition to detect requested elements on different web pages. Algorithm is able to achieve overall accuracy of 85,51% and recall 80,28%. This approach can reduce the time required for analysis of web pages significantly and not to take the structure of the code as a determining factor while creating web scraping requests. | en |
dc.description.mark | B | cs |
dc.identifier.citation | PERINA, L. Metody extrakce dat z webových stránek [online]. Brno: Vysoké učení technické v Brně. Fakulta informačních technologií. 2021. | cs |
dc.identifier.other | 136542 | cs |
dc.identifier.uri | http://hdl.handle.net/11012/198940 | |
dc.language.iso | sk | cs |
dc.publisher | Vysoké učení technické v Brně. Fakulta informačních technologií | cs |
dc.rights | Standardní licenční smlouva - přístup k plnému textu bez omezení | cs |
dc.subject | Web scraping | sk |
dc.subject | Javascript | sk |
dc.subject | Node.js | sk |
dc.subject | Google Chrome | sk |
dc.subject | Chromium | sk |
dc.subject | JSON | sk |
dc.subject | Extrakcia dát | sk |
dc.subject | scraping | sk |
dc.subject | web | sk |
dc.subject | DOM | sk |
dc.subject | CSS | sk |
dc.subject | HTML | sk |
dc.subject | Puppeteer | sk |
dc.subject | Web scraping | en |
dc.subject | Javascript | en |
dc.subject | Node.js | en |
dc.subject | Google Chrome | en |
dc.subject | Chromium | en |
dc.subject | JSON | en |
dc.subject | data extraction | en |
dc.subject | scraping | en |
dc.subject | web | en |
dc.subject | DOM | en |
dc.subject | CSS | en |
dc.subject | HTML | en |
dc.subject | Puppeteer | en |
dc.title | Metody extrakce dat z webových stránek | sk |
dc.title.alternative | Methods of Data Extraction from the Web | en |
dc.type | Text | cs |
dc.type.driver | bachelorThesis | en |
dc.type.evskp | bakalářská práce | cs |
dcterms.dateAccepted | 2021-06-16 | cs |
dcterms.modified | 2021-06-17-14:25:03 | cs |
eprints.affiliatedInstitution.faculty | Fakulta informačních technologií | cs |
sync.item.dbid | 136542 | en |
sync.item.dbtype | ZP | en |
sync.item.insts | 2025.03.18 19:34:10 | en |
sync.item.modts | 2025.01.17 09:55:11 | en |
thesis.discipline | Informační technologie | cs |
thesis.grantor | Vysoké učení technické v Brně. Fakulta informačních technologií. Ústav informačních systémů | cs |
thesis.level | Bakalářský | cs |
thesis.name | Bc. | cs |
Files
Original bundle
1 - 4 of 4
Loading...
- Name:
- final-thesis.pdf
- Size:
- 1.04 MB
- Format:
- Adobe Portable Document Format
- Description:
- final-thesis.pdf
Loading...
- Name:
- Posudek-Vedouci prace-23941_v.pdf
- Size:
- 85.65 KB
- Format:
- Adobe Portable Document Format
- Description:
- Posudek-Vedouci prace-23941_v.pdf
Loading...
- Name:
- Posudek-Oponent prace-23941_o.pdf
- Size:
- 90.64 KB
- Format:
- Adobe Portable Document Format
- Description:
- Posudek-Oponent prace-23941_o.pdf
Loading...
- Name:
- review_136542.html
- Size:
- 1.43 KB
- Format:
- Hypertext Markup Language
- Description:
- file review_136542.html