Extrakce textových dat z internetových stránek

but.committeedoc. Ing. Karel Burda, CSc. (předseda) prof. Ing. Miroslav Vozňák, Ph.D. (místopředseda) doc. Ing. Kamil Říha, Ph.D. (člen) Ing. Radim Pust, Ph.D. (člen) Ing. Stanislav Uchytil, Ph. D. (člen) Ing. Tomáš Pelka (člen) Ing. Ondřej Morský (člen)cs
but.defenceOtázky k obhajobě: - co je to stemmer? - proč ukládat stažený HTML soubor a až poté zpracovávat, proč to nedělat v paměti? - formální připomínky k obrázkům v DP - proč jsou napevno zakódovány parsery jednotlivých zdrojů?cs
but.jazykčeština (Czech)
but.programElektrotechnika, elektronika, komunikační a řídicí technikacs
but.resultpráce byla úspěšně obhájenacs
dc.contributor.advisorFojtová, Luciecs
dc.contributor.authorMazal, Zdeněkcs
dc.contributor.refereeMorský, Ondřejcs
dc.date.created2011cs
dc.description.abstractTato práce se zabývá získávání textových dat z webových stránek, přehledem jednotlivých wrpapperů a způsobů jejich extrakce. Obsahuje i přehled nejpoužívanějších programů pro extrakci dat z internetu. Součástí je program, vytvořený v programovacím jazyku Java, který umožňuje získávat textová data z konkrétních webových stránek a ukládat je do xml souboru.cs
dc.description.abstractThis work focus at data and especially text mining from Web pages, an overview of programs for downloading the text and ways of their extraction. It also contains an overview of the most frequently used programs for extracting data from internet. The output of this thesis is a Java program that can download text from a selection of servers and save them into xml le.en
dc.description.markCcs
dc.identifier.citationMAZAL, Z. Extrakce textových dat z internetových stránek [online]. Brno: Vysoké učení technické v Brně. Fakulta elektrotechniky a komunikačních technologií. 2011.cs
dc.identifier.other39956cs
dc.identifier.urihttp://hdl.handle.net/11012/20916
dc.language.isocscs
dc.publisherVysoké učení technické v Brně. Fakulta elektrotechniky a komunikačních technologiícs
dc.rightsStandardní licenční smlouva - přístup k plnému textu bez omezenícs
dc.subjectExtrakce informacícs
dc.subjectwrapperycs
dc.subjectproblémy při extrakci datcs
dc.subjectJava programcs
dc.subjectzískání textových dat z webu.cs
dc.subjectInformation extractionen
dc.subjectwrapperen
dc.subjectproblems with extraction dataen
dc.subjectthe Java programen
dc.subjectmining text from Web pagesen
dc.titleExtrakce textových dat z internetových stránekcs
dc.title.alternativeExtracting text data from the webpagesen
dc.typeTextcs
dc.type.drivermasterThesisen
dc.type.evskpdiplomová prácecs
dcterms.dateAccepted2011-06-08cs
dcterms.modified2011-07-15-10:45:15cs
eprints.affiliatedInstitution.facultyFakulta elektrotechniky a komunikačních technologiícs
sync.item.dbid39956en
sync.item.dbtypeZPen
sync.item.insts2025.03.26 11:25:32en
sync.item.modts2025.01.15 11:35:10en
thesis.disciplineTelekomunikační a informační technikacs
thesis.grantorVysoké učení technické v Brně. Fakulta elektrotechniky a komunikačních technologií. Ústav telekomunikacícs
thesis.levelInženýrskýcs
thesis.nameIng.cs
Files
Original bundle
Now showing 1 - 3 of 3
Loading...
Thumbnail Image
Name:
final-thesis.pdf
Size:
1.36 MB
Format:
Adobe Portable Document Format
Description:
final-thesis.pdf
Loading...
Thumbnail Image
Name:
appendix-1.zip
Size:
4.16 MB
Format:
zip
Description:
appendix-1.zip
Loading...
Thumbnail Image
Name:
review_39956.html
Size:
6.32 KB
Format:
Hypertext Markup Language
Description:
file review_39956.html
Collections