Extrakce hlavního textu z webových dokumentů
but.committee | prof. Ing. Miroslav Švéda, CSc. (předseda) doc. Dr. Ing. Petr Hanáček (místopředseda) doc. Ing. Vítězslav Beran, Ph.D. (člen) doc. Ing. Michal Bidlo, Ph.D. (člen) Ing. Bohuslav Křena, Ph.D. (člen) | cs |
but.defence | Student nejprve prezentoval výsledky, kterých dosáhl v rámci své práce. Komise se poté seznámila s hodnocením vedoucího a posudkem oponenta práce. Student následně odpověděl na otázku oponenta a na další otázky přítomných. Komise se na základě posudku oponenta, hodnocení vedoucího, přednesené prezentace a odpovědí studenta na položené otázky rozhodla práci hodnotit stupněm " B ". Otázky u obhajoby: Jaké úpravy v implementovaném nástroji by bylo nutné provést, aby byl reálně použitelný běžnými uživateli? | cs |
but.jazyk | čeština (Czech) | |
but.program | Informační technologie | cs |
but.result | práce byla úspěšně obhájena | cs |
dc.contributor.advisor | Bartík, Vladimír | cs |
dc.contributor.author | Mrózek, Daniel | cs |
dc.contributor.referee | Burget, Radek | cs |
dc.date.created | 2014 | cs |
dc.description.abstract | Tato práce se zabývá extrakcí hlavního textu z webových dokumentů ve formátu HTML. Jsou zde popsány již použité metody a jejich rozdělení. Praktická část se pak zabývá návrhem algoritmu pro detekci hlavního textu v HTML stránkách založeném na analýze především textových rysů stránky v kombinaci s vlastnostmi založených na pozici v dokumentu. Výsledná klasifikace je řešena pomocí vícevrstvé perceptonové sítě. Je zde rovněž popsána implementace navrhnutého algoritmu, postup při testování a prezentace zjištěných výsledků. | cs |
dc.description.abstract | This thesis deals with the main text extraction from the web documents in HTML format. It describes some methods that are already used and their separation. The goal of the practical part is to propose an algorithm for main text detection in HTML pages using primarily text features in combination with position features. Block classification is solved by multilayer perceptron. It also describes implementation of the proposed algorithm, the testing procedure and presentation of the obtained results. | en |
dc.description.mark | B | cs |
dc.identifier.citation | MRÓZEK, D. Extrakce hlavního textu z webových dokumentů [online]. Brno: Vysoké učení technické v Brně. Fakulta informačních technologií. 2014. | cs |
dc.identifier.other | 88527 | cs |
dc.identifier.uri | http://hdl.handle.net/11012/56629 | |
dc.language.iso | cs | cs |
dc.publisher | Vysoké učení technické v Brně. Fakulta informačních technologií | cs |
dc.rights | Standardní licenční smlouva - přístup k plnému textu bez omezení | cs |
dc.subject | extrakce | cs |
dc.subject | dolování | cs |
dc.subject | hlavní obsah | cs |
dc.subject | textové rysy | cs |
dc.subject | HTML | cs |
dc.subject | MLP | cs |
dc.subject | umělá neuronová síť | cs |
dc.subject | extraction | en |
dc.subject | mining | en |
dc.subject | main text | en |
dc.subject | text features | en |
dc.subject | HTML | en |
dc.subject | MLP | en |
dc.subject | artificial neural network | en |
dc.title | Extrakce hlavního textu z webových dokumentů | cs |
dc.title.alternative | Main Text Extraction from Web Documents | en |
dc.type | Text | cs |
dc.type.driver | bachelorThesis | en |
dc.type.evskp | bakalářská práce | cs |
dcterms.dateAccepted | 2014-08-26 | cs |
dcterms.modified | 2020-05-10-16:11:53 | cs |
eprints.affiliatedInstitution.faculty | Fakulta informačních technologií | cs |
sync.item.dbid | 88527 | en |
sync.item.dbtype | ZP | en |
sync.item.insts | 2025.03.18 18:48:22 | en |
sync.item.modts | 2025.01.17 14:54:03 | en |
thesis.discipline | Informační technologie | cs |
thesis.grantor | Vysoké učení technické v Brně. Fakulta informačních technologií. Ústav informačních systémů | cs |
thesis.level | Bakalářský | cs |
thesis.name | Bc. | cs |