Extrakce hlavního textu z webových dokumentů

Loading...
Thumbnail Image

Date

Authors

Mrózek, Daniel

Mark

B

Journal Title

Journal ISSN

Volume Title

Publisher

Vysoké učení technické v Brně. Fakulta informačních technologií

ORCID

Abstract

Tato práce se zabývá extrakcí hlavního textu z webových dokumentů ve formátu HTML. Jsou zde popsány již použité metody a jejich rozdělení. Praktická část se pak zabývá návrhem algoritmu pro detekci hlavního textu v HTML stránkách založeném na analýze především textových rysů stránky v kombinaci s vlastnostmi založených na pozici v dokumentu. Výsledná klasifikace je řešena pomocí vícevrstvé perceptonové sítě. Je zde rovněž popsána implementace navrhnutého algoritmu, postup při testování a prezentace zjištěných výsledků.
This thesis deals with the main text extraction from the web documents in HTML format. It describes some methods that are already used and their separation. The goal of the practical part is to propose an algorithm for main text detection in HTML pages using primarily text features in combination with position features. Block classification is solved by multilayer perceptron. It also describes implementation of the proposed algorithm, the testing procedure and presentation of the obtained results.

Description

Citation

MRÓZEK, D. Extrakce hlavního textu z webových dokumentů [online]. Brno: Vysoké učení technické v Brně. Fakulta informačních technologií. 2014.

Document type

Document version

Date of access to the full text

Language of document

cs

Study field

Informační technologie

Comittee

prof. Ing. Miroslav Švéda, CSc. (předseda) doc. Dr. Ing. Petr Hanáček (místopředseda) doc. Ing. Vítězslav Beran, Ph.D. (člen) doc. Ing. Michal Bidlo, Ph.D. (člen) Ing. Bohuslav Křena, Ph.D. (člen)

Date of acceptance

2014-08-26

Defence

Student nejprve prezentoval výsledky, kterých dosáhl v rámci své práce. Komise se poté seznámila s hodnocením vedoucího a posudkem oponenta práce. Student následně odpověděl na otázku oponenta a na další otázky přítomných. Komise se na základě posudku oponenta, hodnocení vedoucího, přednesené prezentace a odpovědí studenta na položené otázky rozhodla práci hodnotit stupněm " B ". Otázky u obhajoby: Jaké úpravy v implementovaném nástroji by bylo nutné provést, aby byl reálně použitelný běžnými uživateli?

Result of defence

práce byla úspěšně obhájena

DOI

Collections

Endorsement

Review

Supplemented By

Referenced By

Citace PRO