Extrakce textových dat z internetových stránek

Tato práce se zabývá získávání textových dat z webových stránek, přehledem jednotlivých wrpapperů a způsobů jejich extrakce. Obsahuje i přehled nejpoužívanějších programů pro extrakci dat z internetu. Součástí je program, vytvořený v programovacím jazyku Java, který umožňuje získávat textová data z konkrétních webových stránek a ukládat je do xml souboru.
This work focus at data and especially text mining from Web pages, an overview of programs for downloading the text and ways of their extraction. It also contains an overview of the most frequently used programs for extracting data from internet. The output of this thesis is a Java program that can download text from a selection of servers and save them into xml le.

Keywords

Extrakce informací , wrappery , problémy při extrakci dat , Java program , získání textových dat z webu. , Information extraction , wrapper , problems with extraction data , the Java program , mining text from Web pages

Citation

MAZAL, Z. Extrakce textových dat z internetových stránek [online]. Brno: Vysoké učení technické v Brně. Fakulta elektrotechniky a komunikačních technologií. 2011.

Language of document

cs

Study field

Telekomunikační a informační technika

Comittee

doc. Ing. Karel Burda, CSc. (předseda) prof. Ing. Miroslav Vozňák, Ph.D. (místopředseda) doc. Ing. Kamil Říha, Ph.D. (člen) Ing. Radim Pust, Ph.D. (člen) Ing. Stanislav Uchytil, Ph. D. (člen) Ing. Tomáš Pelka (člen) Ing. Ondřej Morský (člen)

Date of acceptance

2011-06-08

Defence

Otázky k obhajobě: - co je to stemmer? - proč ukládat stažený HTML soubor a až poté zpracovávat, proč to nedělat v paměti? - formální připomínky k obrázkům v DP - proč jsou napevno zakódovány parsery jednotlivých zdrojů?

Result of defence

práce byla úspěšně obhájena

URI

http://hdl.handle.net/11012/20916

Collections

2011

Citace PRO

Full item page

Extrakce textových dat z internetových stránek

Files

Date

Authors

Advisor

Referee

Mark

Journal Title

Journal ISSN

Volume Title

Publisher

ORCID

Abstract

Description

Keywords

Citation

Document type

Document version

Date of access to the full text

Language of document

Study field

Comittee

Date of acceptance

Defence

Result of defence

DOI

URI

Collections

Endorsement

Review

Supplemented By

Referenced By

Citace PRO