Metody sumarizace dokumentů na webu

Loading...
Thumbnail Image

Date

Authors

Belica, Michal

Mark

B

Journal Title

Journal ISSN

Volume Title

Publisher

Vysoké učení technické v Brně. Fakulta informačních technologií

ORCID

Abstract

Práce se zabývá sumarizací dokumentů ve formátu HTML. Jako jazyk webových dokumentů byla zvolena čeština. Práce je zaměřená na algoritmy sumarizace textů. Součástí práce je však i předzpracování sumarizovaného dokumentu a převod textu na reprezentaci vhodnou pro sumarizační algoritmy. Práce krátce pojednává o všeobecném dolování textů a později se zaměřuje na sumarizaci. Představené jsou dva jednoduché sumarizační algoritmy, přičemž práce se zaměřuje na pokročilý algoritmus využívající latentní sémantické analýzy. Výsledkem práce je návrh a implementace sumarizačního modulu pro jazyk Python. Souhrny generované implementovanými sumarizačními metodami jsou v závěrečné kapitole porovnány pomocí evaluačních metod i z pohledu subjektivního hodnocení autora práce.
The work deals with automatic summarization of documents in HTML format. As a language of web documents, Czech language has been chosen. The project is focused on algorithms of text summarization. The work also includes document preprocessing for summarization and conversion of text into representation suitable for summarization algorithms. General text mining is also briefly discussed but the project is mainly focused on the automatic document summarization. Two simple summarization algorithms are introduced. Then, the main attention is paid to an advanced algorithm that uses latent semantic analysis. Result of the work is a design and implementation of summarization module for Python language. Final part of the work contains evaluation of summaries generated by implemented summarization methods and their subjective comparison of the author.

Description

Citation

BELICA, M. Metody sumarizace dokumentů na webu [online]. Brno: Vysoké učení technické v Brně. Fakulta informačních technologií. 2013.

Document type

Document version

Date of access to the full text

Language of document

cs

Study field

Inteligentní systémy

Comittee

doc. Ing. František Zbořil, CSc. (předseda) doc. Dr. Ing. Dušan Kolář (místopředseda) prof. RNDr. Milan Češka, CSc. (člen) Mgr. Ing. Pavel Očenášek, Ph.D. (člen) Dr. Ing. Petr Peringer (člen) doc. Ing. Stanislav Racek, CSc. (člen)

Date of acceptance

2013-06-14

Defence

Student nejprve prezentoval výsledky, kterých dosáhl v rámci své práce. Komise se pak seznámila s hodnocením vedoucího a posudkem oponenta práce. Student následně odpověděl na otázky oponenta a na další otázky přítomných. Komise se na základě posudku oponenta, hodnocení vedoucího, přednesené prezentace a odpovědí studenta na položené otázky rozhodla práci hodnotit stupněm B Otázky u obhajoby: Která sumarizační metoda je nevhodnější pro použití na sémanticky značkované jazyky? Co jsou to anaforické vztahy a jak s nimi v práci pracujete?

Result of defence

práce byla úspěšně obhájena

DOI

Collections

Endorsement

Review

Supplemented By

Referenced By

Citace PRO