Automatizovaná extrakce údajů z HTML
but.committee | prof. Ing. Jiří Mišurec, CSc. (předseda) doc. Ing. Petr Sysel, Ph.D. (místopředseda) Ing. Martin Sýkora (člen) doc. Ing. Radim Burget, Ph.D. (člen) prof. Ing. Jaroslav Koton, Ph.D. (člen) Ing. Radim Číž, Ph.D. (člen) Ing. Vladimír Červenka, Ph.D. (člen) | cs |
but.defence | Je možné použít aplikaci i pro obecné dolování z další stránek jako například novinky.cz? | cs |
but.jazyk | čeština (Czech) | |
but.program | Elektrotechnika, elektronika, komunikační a řídicí technika | cs |
but.result | práce byla úspěšně obhájena | cs |
dc.contributor.advisor | Vrba, Kamil | cs |
dc.contributor.author | Onderka, Jakub | cs |
dc.contributor.referee | Koutný, Martin | cs |
dc.date.created | 2012 | cs |
dc.description.abstract | Tato práce se zabývá problematikou extrakce údajů z webových stránek zapsaných v jazyce HTML. Popisuje metody stažení stránek ze vzdáleného serveru protokolem HTTP, řešení převodu kódování dokumentu a možnosti pro extrakci obsahu elementů. Také uvádí postupy, kterými můžou autoři webových stránek zabránit automatickému web scrapingu a jak tyto postupy obejít. Popsané metody byly užity ve vytvořeních aplikacích v jazyce C# pro extrakci údajů ze dvou databází Policie ČR – Pátrání po osobách a Pátrání po vozidlech. Aplikace umožňují stažení údajů ze vzdálené databáze, uložení do lokální databáze a následné vyhledávání a zobrazování požadovaných dat. | cs |
dc.description.abstract | This thesis deals with data extraction from web pages created in HTML language. It describes methods of downloading pages from remote server using HTTP protocol, document charset encoding and options for extraction content from elements. It also shows ways in which authors of web sites can prevent automatic web scraping. These were used to create C# applications for extraction data from two Czech Police databases – Investigation for person and Investigation for cars. These applications allow to download data from remote database, save to local database and search or show required data. | en |
dc.description.mark | A | cs |
dc.identifier.citation | ONDERKA, J. Automatizovaná extrakce údajů z HTML [online]. Brno: Vysoké učení technické v Brně. Fakulta elektrotechniky a komunikačních technologií. 2012. | cs |
dc.identifier.other | 52190 | cs |
dc.identifier.uri | http://hdl.handle.net/11012/9702 | |
dc.language.iso | cs | cs |
dc.publisher | Vysoké učení technické v Brně. Fakulta elektrotechniky a komunikačních technologií | cs |
dc.rights | Standardní licenční smlouva - přístup k plnému textu bez omezení | cs |
dc.subject | Data mining | cs |
dc.subject | web scraping | cs |
dc.subject | HTML | cs |
dc.subject | HTTP | cs |
dc.subject | mikroformáty | cs |
dc.subject | mikrodata | cs |
dc.subject | CAPTCHA | cs |
dc.subject | Policie ČR | cs |
dc.subject | pátrání po osobách | cs |
dc.subject | pátrání po vozidlech. | cs |
dc.subject | Data mining | en |
dc.subject | web scraping | en |
dc.subject | HTML | en |
dc.subject | HTTP | en |
dc.subject | microformats | en |
dc.subject | micro data | en |
dc.subject | CAPTCHA | en |
dc.subject | Police of the Czech Republic | en |
dc.subject | search for persons | en |
dc.subject | search for cars. | en |
dc.title | Automatizovaná extrakce údajů z HTML | cs |
dc.title.alternative | Automated extraction of data from HTML | en |
dc.type | Text | cs |
dc.type.driver | bachelorThesis | en |
dc.type.evskp | bakalářská práce | cs |
dcterms.dateAccepted | 2012-06-13 | cs |
dcterms.modified | 2012-06-18-08:11:06 | cs |
eprints.affiliatedInstitution.faculty | Fakulta elektrotechniky a komunikačních technologií | cs |
sync.item.dbid | 52190 | en |
sync.item.dbtype | ZP | en |
sync.item.insts | 2025.03.16 13:23:58 | en |
sync.item.modts | 2025.01.15 20:45:31 | en |
thesis.discipline | Teleinformatika | cs |
thesis.grantor | Vysoké učení technické v Brně. Fakulta elektrotechniky a komunikačních technologií. Ústav telekomunikací | cs |
thesis.level | Bakalářský | cs |
thesis.name | Bc. | cs |
Files
Original bundle
1 - 3 of 3
Loading...
- Name:
- final-thesis.pdf
- Size:
- 2.19 MB
- Format:
- Adobe Portable Document Format
- Description:
- final-thesis.pdf
Loading...
- Name:
- review_52190.html
- Size:
- 4.55 KB
- Format:
- Hypertext Markup Language
- Description:
- file review_52190.html