Extrakce textových dat z internetových stránek

Loading...
Thumbnail Image

Date

Authors

Mazal, Zdeněk

Mark

C

Journal Title

Journal ISSN

Volume Title

Publisher

Vysoké učení technické v Brně. Fakulta elektrotechniky a komunikačních technologií

ORCID

Abstract

Tato práce se zabývá získávání textových dat z webových stránek, přehledem jednotlivých wrpapperů a způsobů jejich extrakce. Obsahuje i přehled nejpoužívanějších programů pro extrakci dat z internetu. Součástí je program, vytvořený v programovacím jazyku Java, který umožňuje získávat textová data z konkrétních webových stránek a ukládat je do xml souboru.
This work focus at data and especially text mining from Web pages, an overview of programs for downloading the text and ways of their extraction. It also contains an overview of the most frequently used programs for extracting data from internet. The output of this thesis is a Java program that can download text from a selection of servers and save them into xml le.

Description

Citation

MAZAL, Z. Extrakce textových dat z internetových stránek [online]. Brno: Vysoké učení technické v Brně. Fakulta elektrotechniky a komunikačních technologií. 2011.

Document type

Document version

Date of access to the full text

Language of document

cs

Study field

Telekomunikační a informační technika

Comittee

doc. Ing. Karel Burda, CSc. (předseda) prof. Ing. Miroslav Vozňák, Ph.D. (místopředseda) doc. Ing. Kamil Říha, Ph.D. (člen) Ing. Radim Pust, Ph.D. (člen) Ing. Stanislav Uchytil, Ph. D. (člen) Ing. Tomáš Pelka (člen) Ing. Ondřej Morský (člen)

Date of acceptance

2011-06-08

Defence

Otázky k obhajobě: - co je to stemmer? - proč ukládat stažený HTML soubor a až poté zpracovávat, proč to nedělat v paměti? - formální připomínky k obrázkům v DP - proč jsou napevno zakódovány parsery jednotlivých zdrojů?

Result of defence

práce byla úspěšně obhájena

DOI

Collections

Endorsement

Review

Supplemented By

Referenced By

Citace PRO