Extrakce hlavního textu z webových dokumentů

Mrózek, Daniel

Extrakce hlavního textu z webových dokumentů

but.committee	prof. Ing. Miroslav Švéda, CSc. (předseda) doc. Dr. Ing. Petr Hanáček (místopředseda) doc. Ing. Vítězslav Beran, Ph.D. (člen) doc. Ing. Michal Bidlo, Ph.D. (člen) Ing. Bohuslav Křena, Ph.D. (člen)	cs
but.defence	Student nejprve prezentoval výsledky, kterých dosáhl v rámci své práce. Komise se poté seznámila s hodnocením vedoucího a posudkem oponenta práce. Student následně odpověděl na otázku oponenta a na další otázky přítomných. Komise se na základě posudku oponenta, hodnocení vedoucího, přednesené prezentace a odpovědí studenta na položené otázky rozhodla práci hodnotit stupněm " B ". Otázky u obhajoby: Jaké úpravy v implementovaném nástroji by bylo nutné provést, aby byl reálně použitelný běžnými uživateli?	cs
but.jazyk	čeština (Czech)
but.program	Informační technologie	cs
but.result	práce byla úspěšně obhájena	cs
dc.contributor.advisor	Bartík, Vladimír	cs
dc.contributor.author	Mrózek, Daniel	cs
dc.contributor.referee	Burget, Radek	cs
dc.date.created	2014	cs
dc.description.abstract	Tato práce se zabývá extrakcí hlavního textu z webových dokumentů ve formátu HTML. Jsou zde popsány již použité metody a jejich rozdělení. Praktická část se pak zabývá návrhem algoritmu pro detekci hlavního textu v HTML stránkách založeném na analýze především textových rysů stránky v kombinaci s vlastnostmi založených na pozici v dokumentu. Výsledná klasifikace je řešena pomocí vícevrstvé perceptonové sítě. Je zde rovněž popsána implementace navrhnutého algoritmu, postup při testování a prezentace zjištěných výsledků.	cs
dc.description.abstract	This thesis deals with the main text extraction from the web documents in HTML format. It describes some methods that are already used and their separation. The goal of the practical part is to propose an algorithm for main text detection in HTML pages using primarily text features in combination with position features. Block classification is solved by multilayer perceptron. It also describes implementation of the proposed algorithm, the testing procedure and presentation of the obtained results.	en
dc.description.mark	B	cs
dc.identifier.citation	MRÓZEK, D. Extrakce hlavního textu z webových dokumentů [online]. Brno: Vysoké učení technické v Brně. Fakulta informačních technologií. 2014.	cs
dc.identifier.other	88527	cs
dc.identifier.uri	http://hdl.handle.net/11012/56629
dc.language.iso	cs	cs
dc.publisher	Vysoké učení technické v Brně. Fakulta informačních technologií	cs
dc.rights	Standardní licenční smlouva - přístup k plnému textu bez omezení	cs
dc.subject	extrakce	cs
dc.subject	dolování	cs
dc.subject	hlavní obsah	cs
dc.subject	textové rysy	cs
dc.subject	HTML	cs
dc.subject	MLP	cs
dc.subject	umělá neuronová síť	cs
dc.subject	extraction	en
dc.subject	mining	en
dc.subject	main text	en
dc.subject	text features	en
dc.subject	HTML	en
dc.subject	MLP	en
dc.subject	artificial neural network	en
dc.title	Extrakce hlavního textu z webových dokumentů	cs
dc.title.alternative	Main Text Extraction from Web Documents	en
dc.type	Text	cs
dc.type.driver	bachelorThesis	en
dc.type.evskp	bakalářská práce	cs
dcterms.dateAccepted	2014-08-26	cs
dcterms.modified	2020-05-10-16:11:53	cs
eprints.affiliatedInstitution.faculty	Fakulta informačních technologií	cs
sync.item.dbid	88527	en
sync.item.dbtype	ZP	en
sync.item.insts	2025.03.18 18:48:22	en
sync.item.modts	2025.01.17 14:54:03	en
thesis.discipline	Informační technologie	cs
thesis.grantor	Vysoké učení technické v Brně. Fakulta informačních technologií. Ústav informačních systémů	cs
thesis.level	Bakalářský	cs
thesis.name	Bc.	cs

Files

Original bundle

Now showing 1 - 2 of 2

Name:: final-thesis.pdf
Size:: 608.39 KB
Format:: Adobe Portable Document Format
Description:: final-thesis.pdf

Download

Name:: review_88527.html
Size:: 1.44 KB
Format:: Hypertext Markup Language
Description:: file review_88527.html

Download

Collections

2014