Rámec pro extrakci informace z WWW
but.jazyk | čeština (Czech) | |
but.program | Informační technologie | cs |
but.result | práce byla úspěšně obhájena | cs |
dc.contributor.advisor | Burget, Radek | cs |
dc.contributor.author | Brychta, Filip | cs |
dc.contributor.referee | Bartík, Vladimír | cs |
dc.date.created | cs | |
dc.description.abstract | Prostředí webu se postupně vyvinulo v nejrozsáhlejší zdroj dokumentů v elektronické podobě, takže by bylo velice výhodné, informace v těchto dokumentech zpracovávat automaticky. To však není jednoduchý úkol, protože většina dokumentů je napsána v HTML (Hypertext Markup Language), který neumožňuje definovat sémantiku dat v těchto dokumentech. Cílem této práce je vytvořit modulární systém pro extrakci informací z HTML dokumentů a jejich další zpracování. Dalším zpracováním se myslí ukládání získaných informací například do XML souboru nebo do relační databáze. Modularita systému umožňuje využití různých extrakčních metod a různých metod pro uložení získaných dat. Díky tomu je systém použitelný pro mnoho různých úloh. | cs |
dc.description.abstract | Web environment has developed into the largest source of electronic documents, so it would be very useful, to process this information automatically. This is however not a trivial problem. Most documents are written in HTML (Hypertext Markup Language), which does not support semantic description of the content. The goal of this work is to create modular system for information extraction and further processing of this information from HTML documents. Further processing of information means to store this information in XML document or relational database. System modularity makes it possible to use various information extraction and storing methods, thus the system can be used for various tasks. | en |
dc.description.mark | B | cs |
dc.identifier.citation | BRYCHTA, F. Rámec pro extrakci informace z WWW [online]. Brno: Vysoké učení technické v Brně. Fakulta informačních technologií. . | cs |
dc.identifier.other | 25755 | cs |
dc.identifier.uri | http://hdl.handle.net/11012/53846 | |
dc.language.iso | cs | cs |
dc.publisher | Vysoké učení technické v Brně. Fakulta informačních technologií | cs |
dc.rights | Standardní licenční smlouva - přístup k plnému textu bez omezení | cs |
dc.subject | extrakce informací | cs |
dc.subject | wrapper | cs |
dc.subject | World Wide Web | cs |
dc.subject | XML | cs |
dc.subject | HTML | cs |
dc.subject | detekce znakové sady | cs |
dc.subject | java class loader | cs |
dc.subject | information extraction | en |
dc.subject | wrapper | en |
dc.subject | World Wide Web | en |
dc.subject | XML | en |
dc.subject | HTML | en |
dc.subject | charset detection | en |
dc.subject | java class loader | en |
dc.title | Rámec pro extrakci informace z WWW | cs |
dc.title.alternative | Framework for Information Exctration from WWW | en |
dc.type | Text | cs |
dc.type.driver | masterThesis | en |
dc.type.evskp | diplomová práce | cs |
dcterms.modified | 2020-05-09-23:41:19 | cs |
eprints.affiliatedInstitution.faculty | Fakulta informačních technologií | cs |
sync.item.dbid | 25755 | en |
sync.item.dbtype | ZP | en |
sync.item.insts | 2025.03.26 15:08:25 | en |
sync.item.modts | 2025.01.15 12:59:55 | en |
thesis.discipline | Informační systémy | cs |
thesis.grantor | Vysoké učení technické v Brně. Fakulta informačních technologií. Ústav informačních systémů | cs |
thesis.level | Inženýrský | cs |
thesis.name | Ing. | cs |