Automatizovaná extrakce údajů z HTML

Loading...
Thumbnail Image
Date
Authors
Onderka, Jakub
ORCID
Mark
A
Journal Title
Journal ISSN
Volume Title
Publisher
Vysoké učení technické v Brně. Fakulta elektrotechniky a komunikačních technologií
Abstract
Tato práce se zabývá problematikou extrakce údajů z webových stránek zapsaných v jazyce HTML. Popisuje metody stažení stránek ze vzdáleného serveru protokolem HTTP, řešení převodu kódování dokumentu a možnosti pro extrakci obsahu elementů. Také uvádí postupy, kterými můžou autoři webových stránek zabránit automatickému web scrapingu a jak tyto postupy obejít. Popsané metody byly užity ve vytvořeních aplikacích v jazyce C# pro extrakci údajů ze dvou databází Policie ČR – Pátrání po osobách a Pátrání po vozidlech. Aplikace umožňují stažení údajů ze vzdálené databáze, uložení do lokální databáze a následné vyhledávání a zobrazování požadovaných dat.
This thesis deals with data extraction from web pages created in HTML language. It describes methods of downloading pages from remote server using HTTP protocol, document charset encoding and options for extraction content from elements. It also shows ways in which authors of web sites can prevent automatic web scraping. These were used to create C# applications for extraction data from two Czech Police databases – Investigation for person and Investigation for cars. These applications allow to download data from remote database, save to local database and search or show required data.
Description
Citation
ONDERKA, J. Automatizovaná extrakce údajů z HTML [online]. Brno: Vysoké učení technické v Brně. Fakulta elektrotechniky a komunikačních technologií. 2012.
Document type
Document version
Date of access to the full text
Language of document
cs
Study field
Teleinformatika
Comittee
prof. Ing. Jiří Mišurec, CSc. (předseda) doc. Ing. Petr Sysel, Ph.D. (místopředseda) Ing. Martin Sýkora (člen) doc. Ing. Radim Burget, Ph.D. (člen) prof. Ing. Jaroslav Koton, Ph.D. (člen) Ing. Radim Číž, Ph.D. (člen) Ing. Vladimír Červenka, Ph.D. (člen)
Date of acceptance
2012-06-13
Defence
Je možné použít aplikaci i pro obecné dolování z další stránek jako například novinky.cz?
Result of defence
práce byla úspěšně obhájena
Document licence
Standardní licenční smlouva - přístup k plnému textu bez omezení
DOI
Collections
Citace PRO