Rámec pro extrakci informace z WWW

but.jazykčeština (Czech)
but.programInformační technologiecs
but.resultpráce byla úspěšně obhájenacs
dc.contributor.advisorBurget, Radekcs
dc.contributor.authorBrychta, Filipcs
dc.contributor.refereeBartík, Vladimírcs
dc.date.createdcs
dc.description.abstractProstředí webu se postupně vyvinulo v nejrozsáhlejší zdroj dokumentů v elektronické podobě, takže by bylo velice výhodné, informace v těchto dokumentech zpracovávat automaticky. To však není jednoduchý úkol, protože většina dokumentů je napsána v HTML (Hypertext Markup Language), který neumožňuje definovat sémantiku dat v těchto dokumentech. Cílem této práce je vytvořit modulární systém pro extrakci informací z HTML dokumentů a jejich další zpracování. Dalším zpracováním se myslí ukládání získaných informací například do XML souboru nebo do relační databáze. Modularita systému umožňuje využití různých extrakčních metod a různých metod pro uložení získaných dat. Díky tomu je systém použitelný pro mnoho různých úloh.cs
dc.description.abstractWeb environment has developed into the largest source of electronic documents, so it would be very useful, to process this information automatically. This is however not a trivial problem. Most documents are written in HTML (Hypertext Markup Language), which does not support semantic description of the content. The goal of this work is to create modular system for information extraction and further processing of this information from HTML documents. Further processing of information means to store this information in XML document or relational database. System modularity makes it possible to use various information extraction and storing methods, thus the system can be used for various tasks.en
dc.description.markBcs
dc.identifier.citationBRYCHTA, F. Rámec pro extrakci informace z WWW [online]. Brno: Vysoké učení technické v Brně. Fakulta informačních technologií. .cs
dc.identifier.other25755cs
dc.identifier.urihttp://hdl.handle.net/11012/53846
dc.language.isocscs
dc.publisherVysoké učení technické v Brně. Fakulta informačních technologiícs
dc.rightsStandardní licenční smlouva - přístup k plnému textu bez omezenícs
dc.subjectextrakce informacícs
dc.subjectwrappercs
dc.subjectWorld Wide Webcs
dc.subjectXMLcs
dc.subjectHTMLcs
dc.subjectdetekce znakové sadycs
dc.subjectjava class loadercs
dc.subjectinformation extractionen
dc.subjectwrapperen
dc.subjectWorld Wide Weben
dc.subjectXMLen
dc.subjectHTMLen
dc.subjectcharset detectionen
dc.subjectjava class loaderen
dc.titleRámec pro extrakci informace z WWWcs
dc.title.alternativeFramework for Information Exctration from WWWen
dc.typeTextcs
dc.type.drivermasterThesisen
dc.type.evskpdiplomová prácecs
dcterms.modified2020-05-09-23:41:19cs
eprints.affiliatedInstitution.facultyFakulta informačních technologiícs
sync.item.dbid25755en
sync.item.dbtypeZPen
sync.item.insts2025.03.26 15:08:25en
sync.item.modts2025.01.15 12:59:55en
thesis.disciplineInformační systémycs
thesis.grantorVysoké učení technické v Brně. Fakulta informačních technologií. Ústav informačních systémůcs
thesis.levelInženýrskýcs
thesis.nameIng.cs
Files
Original bundle
Now showing 1 - 2 of 2
Loading...
Thumbnail Image
Name:
final-thesis.pdf
Size:
597.58 KB
Format:
Adobe Portable Document Format
Description:
file final-thesis.pdf
Loading...
Thumbnail Image
Name:
review_25755.html
Size:
1.42 KB
Format:
Hypertext Markup Language
Description:
file review_25755.html
Collections