Rámec pro extrakci informace z WWW

Brychta, Filip

Rámec pro extrakci informace z WWW

but.jazyk	čeština (Czech)
but.program	Informační technologie	cs
but.result	práce byla úspěšně obhájena	cs
dc.contributor.advisor	Burget, Radek	cs
dc.contributor.author	Brychta, Filip	cs
dc.contributor.referee	Bartík, Vladimír	cs
dc.date.created		cs
dc.description.abstract	Prostředí webu se postupně vyvinulo v nejrozsáhlejší zdroj dokumentů v elektronické podobě, takže by bylo velice výhodné, informace v těchto dokumentech zpracovávat automaticky. To však není jednoduchý úkol, protože většina dokumentů je napsána v HTML (Hypertext Markup Language), který neumožňuje definovat sémantiku dat v těchto dokumentech. Cílem této práce je vytvořit modulární systém pro extrakci informací z HTML dokumentů a jejich další zpracování. Dalším zpracováním se myslí ukládání získaných informací například do XML souboru nebo do relační databáze. Modularita systému umožňuje využití různých extrakčních metod a různých metod pro uložení získaných dat. Díky tomu je systém použitelný pro mnoho různých úloh.	cs
dc.description.abstract	Web environment has developed into the largest source of electronic documents, so it would be very useful, to process this information automatically. This is however not a trivial problem. Most documents are written in HTML (Hypertext Markup Language), which does not support semantic description of the content. The goal of this work is to create modular system for information extraction and further processing of this information from HTML documents. Further processing of information means to store this information in XML document or relational database. System modularity makes it possible to use various information extraction and storing methods, thus the system can be used for various tasks.	en
dc.description.mark	B	cs
dc.identifier.citation	BRYCHTA, F. Rámec pro extrakci informace z WWW [online]. Brno: Vysoké učení technické v Brně. Fakulta informačních technologií. .	cs
dc.identifier.other	25755	cs
dc.identifier.uri	http://hdl.handle.net/11012/53846
dc.language.iso	cs	cs
dc.publisher	Vysoké učení technické v Brně. Fakulta informačních technologií	cs
dc.rights	Standardní licenční smlouva - přístup k plnému textu bez omezení	cs
dc.subject	extrakce informací	cs
dc.subject	wrapper	cs
dc.subject	World Wide Web	cs
dc.subject	XML	cs
dc.subject	HTML	cs
dc.subject	detekce znakové sady	cs
dc.subject	java class loader	cs
dc.subject	information extraction	en
dc.subject	wrapper	en
dc.subject	World Wide Web	en
dc.subject	XML	en
dc.subject	HTML	en
dc.subject	charset detection	en
dc.subject	java class loader	en
dc.title	Rámec pro extrakci informace z WWW	cs
dc.title.alternative	Framework for Information Exctration from WWW	en
dc.type	Text	cs
dc.type.driver	masterThesis	en
dc.type.evskp	diplomová práce	cs
dcterms.modified	2020-05-09-23:41:19	cs
eprints.affiliatedInstitution.faculty	Fakulta informačních technologií	cs
sync.item.dbid	25755	en
sync.item.dbtype	ZP	en
sync.item.insts	2025.03.26 15:08:25	en
sync.item.modts	2025.01.15 12:59:55	en
thesis.discipline	Informační systémy	cs
thesis.grantor	Vysoké učení technické v Brně. Fakulta informačních technologií. Ústav informačních systémů	cs
thesis.level	Inženýrský	cs
thesis.name	Ing.	cs

Files

Original bundle

Now showing 1 - 2 of 2

Name:: final-thesis.pdf
Size:: 597.58 KB
Format:: Adobe Portable Document Format
Description:: file final-thesis.pdf

Download

Name:: review_25755.html
Size:: 1.42 KB
Format:: Hypertext Markup Language
Description:: file review_25755.html

Download

Collections

2008