Automatizovaná extrakce údajů z HTML

Loading...
Thumbnail Image

Date

Authors

Onderka, Jakub

Mark

A

Journal Title

Journal ISSN

Volume Title

Publisher

Vysoké učení technické v Brně. Fakulta elektrotechniky a komunikačních technologií

ORCID

Abstract

Tato práce se zabývá problematikou extrakce údajů z webových stránek zapsaných v jazyce HTML. Popisuje metody stažení stránek ze vzdáleného serveru protokolem HTTP, řešení převodu kódování dokumentu a možnosti pro extrakci obsahu elementů. Také uvádí postupy, kterými můžou autoři webových stránek zabránit automatickému web scrapingu a jak tyto postupy obejít. Popsané metody byly užity ve vytvořeních aplikacích v jazyce C# pro extrakci údajů ze dvou databází Policie ČR – Pátrání po osobách a Pátrání po vozidlech. Aplikace umožňují stažení údajů ze vzdálené databáze, uložení do lokální databáze a následné vyhledávání a zobrazování požadovaných dat.
This thesis deals with data extraction from web pages created in HTML language. It describes methods of downloading pages from remote server using HTTP protocol, document charset encoding and options for extraction content from elements. It also shows ways in which authors of web sites can prevent automatic web scraping. These were used to create C# applications for extraction data from two Czech Police databases – Investigation for person and Investigation for cars. These applications allow to download data from remote database, save to local database and search or show required data.

Description

Citation

ONDERKA, J. Automatizovaná extrakce údajů z HTML [online]. Brno: Vysoké učení technické v Brně. Fakulta elektrotechniky a komunikačních technologií. 2012.

Document type

Document version

Date of access to the full text

Language of document

cs

Study field

Teleinformatika

Comittee

prof. Ing. Jiří Mišurec, CSc. (předseda) doc. Ing. Petr Sysel, Ph.D. (místopředseda) Ing. Martin Sýkora (člen) doc. Ing. Radim Burget, Ph.D. (člen) prof. Ing. Jaroslav Koton, Ph.D. (člen) Ing. Radim Číž, Ph.D. (člen) Ing. Vladimír Červenka, Ph.D. (člen)

Date of acceptance

2012-06-13

Defence

Je možné použít aplikaci i pro obecné dolování z další stránek jako například novinky.cz?

Result of defence

práce byla úspěšně obhájena

DOI

Collections

Endorsement

Review

Supplemented By

Referenced By

Citace PRO