Metody sumarizace dokumentů na webu
but.committee | doc. Ing. František Zbořil, CSc. (předseda) doc. Dr. Ing. Dušan Kolář (místopředseda) prof. RNDr. Milan Češka, CSc. (člen) Mgr. Ing. Pavel Očenášek, Ph.D. (člen) Dr. Ing. Petr Peringer (člen) doc. Ing. Stanislav Racek, CSc. (člen) | cs |
but.defence | Student nejprve prezentoval výsledky, kterých dosáhl v rámci své práce. Komise se pak seznámila s hodnocením vedoucího a posudkem oponenta práce. Student následně odpověděl na otázky oponenta a na další otázky přítomných. Komise se na základě posudku oponenta, hodnocení vedoucího, přednesené prezentace a odpovědí studenta na položené otázky rozhodla práci hodnotit stupněm B Otázky u obhajoby: Která sumarizační metoda je nevhodnější pro použití na sémanticky značkované jazyky? Co jsou to anaforické vztahy a jak s nimi v práci pracujete? | cs |
but.jazyk | čeština (Czech) | |
but.program | Informační technologie | cs |
but.result | práce byla úspěšně obhájena | cs |
dc.contributor.advisor | Bartík, Vladimír | cs |
dc.contributor.author | Belica, Michal | cs |
dc.contributor.referee | Očenášek, Pavel | cs |
dc.date.created | 2013 | cs |
dc.description.abstract | Práce se zabývá sumarizací dokumentů ve formátu HTML. Jako jazyk webových dokumentů byla zvolena čeština. Práce je zaměřená na algoritmy sumarizace textů. Součástí práce je však i předzpracování sumarizovaného dokumentu a převod textu na reprezentaci vhodnou pro sumarizační algoritmy. Práce krátce pojednává o všeobecném dolování textů a později se zaměřuje na sumarizaci. Představené jsou dva jednoduché sumarizační algoritmy, přičemž práce se zaměřuje na pokročilý algoritmus využívající latentní sémantické analýzy. Výsledkem práce je návrh a implementace sumarizačního modulu pro jazyk Python. Souhrny generované implementovanými sumarizačními metodami jsou v závěrečné kapitole porovnány pomocí evaluačních metod i z pohledu subjektivního hodnocení autora práce. | cs |
dc.description.abstract | The work deals with automatic summarization of documents in HTML format. As a language of web documents, Czech language has been chosen. The project is focused on algorithms of text summarization. The work also includes document preprocessing for summarization and conversion of text into representation suitable for summarization algorithms. General text mining is also briefly discussed but the project is mainly focused on the automatic document summarization. Two simple summarization algorithms are introduced. Then, the main attention is paid to an advanced algorithm that uses latent semantic analysis. Result of the work is a design and implementation of summarization module for Python language. Final part of the work contains evaluation of summaries generated by implemented summarization methods and their subjective comparison of the author. | en |
dc.description.mark | B | cs |
dc.identifier.citation | BELICA, M. Metody sumarizace dokumentů na webu [online]. Brno: Vysoké učení technické v Brně. Fakulta informačních technologií. 2013. | cs |
dc.identifier.other | 79364 | cs |
dc.identifier.uri | http://hdl.handle.net/11012/53529 | |
dc.language.iso | cs | cs |
dc.publisher | Vysoké učení technické v Brně. Fakulta informačních technologií | cs |
dc.rights | Standardní licenční smlouva - přístup k plnému textu bez omezení | cs |
dc.subject | dolování z dat | cs |
dc.subject | sumarizace textů | cs |
dc.subject | redukce dat | cs |
dc.subject | extrakce dat z webu | cs |
dc.subject | Python | cs |
dc.subject | NLP | cs |
dc.subject | zpracovávání přirozeného jazyka | cs |
dc.subject | latentní sémantická analýza | cs |
dc.subject | LSA | cs |
dc.subject | singulární dekompozice | cs |
dc.subject | SVD | cs |
dc.subject | data mining | en |
dc.subject | text summarization | en |
dc.subject | data reduction | en |
dc.subject | web-data extraction | en |
dc.subject | Python | en |
dc.subject | NLP | en |
dc.subject | natural language processing | en |
dc.subject | latent semantic analysis | en |
dc.subject | LSA | en |
dc.subject | singular value decomposition | en |
dc.subject | SVD | en |
dc.title | Metody sumarizace dokumentů na webu | cs |
dc.title.alternative | Methods of Document Summarization on the Web | en |
dc.type | Text | cs |
dc.type.driver | masterThesis | en |
dc.type.evskp | diplomová práce | cs |
dcterms.dateAccepted | 2013-06-14 | cs |
dcterms.modified | 2020-05-10-16:11:13 | cs |
eprints.affiliatedInstitution.faculty | Fakulta informačních technologií | cs |
sync.item.dbid | 79364 | en |
sync.item.dbtype | ZP | en |
sync.item.insts | 2025.03.26 15:15:54 | en |
sync.item.modts | 2025.01.15 23:35:05 | en |
thesis.discipline | Inteligentní systémy | cs |
thesis.grantor | Vysoké učení technické v Brně. Fakulta informačních technologií. Ústav informačních systémů | cs |
thesis.level | Inženýrský | cs |
thesis.name | Ing. | cs |