Extrakce textových dat z internetových stránek

Loading...
Thumbnail Image

Date

Authors

Troják, David

Mark

A

Journal Title

Journal ISSN

Volume Title

Publisher

Vysoké učení technické v Brně. Fakulta elektrotechniky a komunikačních technologií

ORCID

Abstract

Tato práce se zabývá dolováním textových údajů z webových stránek, přehledem možných programů a způsoby extrakce textu. Součástí je program, vytvořený v programovacím jazyku Java, který umožňuje získávat textová data z konkrétních webových stránek a ukládat je do xml souboru.
This work deals with text mining from web pages, an overview of available programs and its methods of text extraction. Part of this work is the program created in Java language, which allows text to obtain data from specific web pages and save them into XML file.

Description

Citation

TROJÁK, D. Extrakce textových dat z internetových stránek [online]. Brno: Vysoké učení technické v Brně. Fakulta elektrotechniky a komunikačních technologií. 2012.

Document type

Document version

Date of access to the full text

Language of document

cs

Study field

Teleinformatika

Comittee

doc. Ing. Karel Němec, CSc. (předseda) doc. Ing. Václav Zeman, Ph.D. (místopředseda) Ing. Radomír Svoboda, Ph.D. (člen) doc. Ing. Lukáš Malina, Ph.D. (člen) doc. Ing. Pavel Šilhavý, Ph.D. (člen) doc. Ing. Zdeněk Martinásek, Ph.D. (člen) Ing. Ondřej Krajsa, Ph.D. (člen)

Date of acceptance

2012-06-13

Defence

Váš program pracuje s webovými stránkami pouze jednoho serveru. Jak byste změnil architekturu programu, aby bylo možné jednoduše přidat libovolný jiný server? V kapitole 2.8 uvádíte, že není možné editovat XML soubor. Je to skutečně pravda? Jaké máte možnosti pro úpravu XML souboru? Jaké má práce uplatnění?

Result of defence

práce byla úspěšně obhájena

DOI

Collections

Endorsement

Review

Supplemented By

Referenced By

Citace PRO