Extrakce textových dat z internetových stránek

Tato práce se zabývá dolováním textových údajů z webových stránek, přehledem možných programů a způsoby extrakce textu. Součástí je program, vytvořený v programovacím jazyku Java, který umožňuje získávat textová data z konkrétních webových stránek a ukládat je do xml souboru.
This work deals with text mining from web pages, an overview of available programs and its methods of text extraction. Part of this work is the program created in Java language, which allows text to obtain data from specific web pages and save them into XML file.

Keywords

Extrakce informací , získání textových dat z webu , problémy při extrakci dat , wrappery , Java program , Information extraction , text mining from Web pages , problems with extraction data , wrapper , the Java program

Citation

TROJÁK, D. Extrakce textových dat z internetových stránek [online]. Brno: Vysoké učení technické v Brně. Fakulta elektrotechniky a komunikačních technologií. 2012.

Language of document

cs

Study field

Teleinformatika

Comittee

doc. Ing. Karel Němec, CSc. (předseda) doc. Ing. Václav Zeman, Ph.D. (místopředseda) Ing. Radomír Svoboda, Ph.D. (člen) doc. Ing. Lukáš Malina, Ph.D. (člen) doc. Ing. Pavel Šilhavý, Ph.D. (člen) doc. Ing. Zdeněk Martinásek, Ph.D. (člen) Ing. Ondřej Krajsa, Ph.D. (člen)

Date of acceptance

2012-06-13

Defence

Váš program pracuje s webovými stránkami pouze jednoho serveru. Jak byste změnil architekturu programu, aby bylo možné jednoduše přidat libovolný jiný server? V kapitole 2.8 uvádíte, že není možné editovat XML soubor. Je to skutečně pravda? Jaké máte možnosti pro úpravu XML souboru? Jaké má práce uplatnění?

Result of defence

práce byla úspěšně obhájena

URI

http://hdl.handle.net/11012/9845

Collections

2012

Citace PRO

Full item page

Extrakce textových dat z internetových stránek

Files

Date

Authors

Advisor

Referee

Mark

Journal Title

Journal ISSN

Volume Title

Publisher

ORCID

Abstract

Description

Keywords

Citation

Document type

Document version

Date of access to the full text

Language of document

Study field

Comittee

Date of acceptance

Defence

Result of defence

DOI

URI

Collections

Endorsement

Review

Supplemented By

Referenced By

Citace PRO