Extrakce textových dat z internetových stránek
but.committee | doc. Ing. Karel Burda, CSc. (předseda) prof. Ing. Miroslav Vozňák, Ph.D. (místopředseda) doc. Ing. Kamil Říha, Ph.D. (člen) Ing. Radim Pust, Ph.D. (člen) Ing. Stanislav Uchytil, Ph. D. (člen) Ing. Tomáš Pelka (člen) Ing. Ondřej Morský (člen) | cs |
but.defence | Otázky k obhajobě: - co je to stemmer? - proč ukládat stažený HTML soubor a až poté zpracovávat, proč to nedělat v paměti? - formální připomínky k obrázkům v DP - proč jsou napevno zakódovány parsery jednotlivých zdrojů? | cs |
but.jazyk | čeština (Czech) | |
but.program | Elektrotechnika, elektronika, komunikační a řídicí technika | cs |
but.result | práce byla úspěšně obhájena | cs |
dc.contributor.advisor | Fojtová, Lucie | cs |
dc.contributor.author | Mazal, Zdeněk | cs |
dc.contributor.referee | Morský, Ondřej | cs |
dc.date.created | 2011 | cs |
dc.description.abstract | Tato práce se zabývá získávání textových dat z webových stránek, přehledem jednotlivých wrpapperů a způsobů jejich extrakce. Obsahuje i přehled nejpoužívanějších programů pro extrakci dat z internetu. Součástí je program, vytvořený v programovacím jazyku Java, který umožňuje získávat textová data z konkrétních webových stránek a ukládat je do xml souboru. | cs |
dc.description.abstract | This work focus at data and especially text mining from Web pages, an overview of programs for downloading the text and ways of their extraction. It also contains an overview of the most frequently used programs for extracting data from internet. The output of this thesis is a Java program that can download text from a selection of servers and save them into xml le. | en |
dc.description.mark | C | cs |
dc.identifier.citation | MAZAL, Z. Extrakce textových dat z internetových stránek [online]. Brno: Vysoké učení technické v Brně. Fakulta elektrotechniky a komunikačních technologií. 2011. | cs |
dc.identifier.other | 39956 | cs |
dc.identifier.uri | http://hdl.handle.net/11012/20916 | |
dc.language.iso | cs | cs |
dc.publisher | Vysoké učení technické v Brně. Fakulta elektrotechniky a komunikačních technologií | cs |
dc.rights | Standardní licenční smlouva - přístup k plnému textu bez omezení | cs |
dc.subject | Extrakce informací | cs |
dc.subject | wrappery | cs |
dc.subject | problémy při extrakci dat | cs |
dc.subject | Java program | cs |
dc.subject | získání textových dat z webu. | cs |
dc.subject | Information extraction | en |
dc.subject | wrapper | en |
dc.subject | problems with extraction data | en |
dc.subject | the Java program | en |
dc.subject | mining text from Web pages | en |
dc.title | Extrakce textových dat z internetových stránek | cs |
dc.title.alternative | Extracting text data from the webpages | en |
dc.type | Text | cs |
dc.type.driver | masterThesis | en |
dc.type.evskp | diplomová práce | cs |
dcterms.dateAccepted | 2011-06-08 | cs |
dcterms.modified | 2011-07-15-10:45:15 | cs |
eprints.affiliatedInstitution.faculty | Fakulta elektrotechniky a komunikačních technologií | cs |
sync.item.dbid | 39956 | en |
sync.item.dbtype | ZP | en |
sync.item.insts | 2025.03.26 11:25:32 | en |
sync.item.modts | 2025.01.15 11:35:10 | en |
thesis.discipline | Telekomunikační a informační technika | cs |
thesis.grantor | Vysoké učení technické v Brně. Fakulta elektrotechniky a komunikačních technologií. Ústav telekomunikací | cs |
thesis.level | Inženýrský | cs |
thesis.name | Ing. | cs |
Files
Original bundle
1 - 3 of 3
Loading...
- Name:
- final-thesis.pdf
- Size:
- 1.36 MB
- Format:
- Adobe Portable Document Format
- Description:
- final-thesis.pdf
Loading...
- Name:
- review_39956.html
- Size:
- 6.32 KB
- Format:
- Hypertext Markup Language
- Description:
- file review_39956.html