Automatizovaná extrakce údajů z HTML

but.committeeprof. Ing. Jiří Mišurec, CSc. (předseda) doc. Ing. Petr Sysel, Ph.D. (místopředseda) Ing. Martin Sýkora (člen) doc. Ing. Radim Burget, Ph.D. (člen) prof. Ing. Jaroslav Koton, Ph.D. (člen) Ing. Radim Číž, Ph.D. (člen) Ing. Vladimír Červenka, Ph.D. (člen)cs
but.defenceJe možné použít aplikaci i pro obecné dolování z další stránek jako například novinky.cz?cs
but.jazykčeština (Czech)
but.programElektrotechnika, elektronika, komunikační a řídicí technikacs
but.resultpráce byla úspěšně obhájenacs
dc.contributor.advisorVrba, Kamilcs
dc.contributor.authorOnderka, Jakubcs
dc.contributor.refereeKoutný, Martincs
dc.date.created2012cs
dc.description.abstractTato práce se zabývá problematikou extrakce údajů z webových stránek zapsaných v jazyce HTML. Popisuje metody stažení stránek ze vzdáleného serveru protokolem HTTP, řešení převodu kódování dokumentu a možnosti pro extrakci obsahu elementů. Také uvádí postupy, kterými můžou autoři webových stránek zabránit automatickému web scrapingu a jak tyto postupy obejít. Popsané metody byly užity ve vytvořeních aplikacích v jazyce C# pro extrakci údajů ze dvou databází Policie ČR – Pátrání po osobách a Pátrání po vozidlech. Aplikace umožňují stažení údajů ze vzdálené databáze, uložení do lokální databáze a následné vyhledávání a zobrazování požadovaných dat.cs
dc.description.abstractThis thesis deals with data extraction from web pages created in HTML language. It describes methods of downloading pages from remote server using HTTP protocol, document charset encoding and options for extraction content from elements. It also shows ways in which authors of web sites can prevent automatic web scraping. These were used to create C# applications for extraction data from two Czech Police databases – Investigation for person and Investigation for cars. These applications allow to download data from remote database, save to local database and search or show required data.en
dc.description.markAcs
dc.identifier.citationONDERKA, J. Automatizovaná extrakce údajů z HTML [online]. Brno: Vysoké učení technické v Brně. Fakulta elektrotechniky a komunikačních technologií. 2012.cs
dc.identifier.other52190cs
dc.identifier.urihttp://hdl.handle.net/11012/9702
dc.language.isocscs
dc.publisherVysoké učení technické v Brně. Fakulta elektrotechniky a komunikačních technologiícs
dc.rightsStandardní licenční smlouva - přístup k plnému textu bez omezenícs
dc.subjectData miningcs
dc.subjectweb scrapingcs
dc.subjectHTMLcs
dc.subjectHTTPcs
dc.subjectmikroformátycs
dc.subjectmikrodatacs
dc.subjectCAPTCHAcs
dc.subjectPolicie ČRcs
dc.subjectpátrání po osobáchcs
dc.subjectpátrání po vozidlech.cs
dc.subjectData miningen
dc.subjectweb scrapingen
dc.subjectHTMLen
dc.subjectHTTPen
dc.subjectmicroformatsen
dc.subjectmicro dataen
dc.subjectCAPTCHAen
dc.subjectPolice of the Czech Republicen
dc.subjectsearch for personsen
dc.subjectsearch for cars.en
dc.titleAutomatizovaná extrakce údajů z HTMLcs
dc.title.alternativeAutomated extraction of data from HTMLen
dc.typeTextcs
dc.type.driverbachelorThesisen
dc.type.evskpbakalářská prácecs
dcterms.dateAccepted2012-06-13cs
dcterms.modified2012-06-18-08:11:06cs
eprints.affiliatedInstitution.facultyFakulta elektrotechniky a komunikačních technologiícs
sync.item.dbid52190en
sync.item.dbtypeZPen
sync.item.insts2025.03.16 13:23:58en
sync.item.modts2025.01.15 20:45:31en
thesis.disciplineTeleinformatikacs
thesis.grantorVysoké učení technické v Brně. Fakulta elektrotechniky a komunikačních technologií. Ústav telekomunikacícs
thesis.levelBakalářskýcs
thesis.nameBc.cs
Files
Original bundle
Now showing 1 - 3 of 3
Loading...
Thumbnail Image
Name:
final-thesis.pdf
Size:
2.19 MB
Format:
Adobe Portable Document Format
Description:
final-thesis.pdf
Loading...
Thumbnail Image
Name:
appendix-1.zip
Size:
1.18 MB
Format:
zip
Description:
appendix-1.zip
Loading...
Thumbnail Image
Name:
review_52190.html
Size:
4.55 KB
Format:
Hypertext Markup Language
Description:
file review_52190.html
Collections