Systém pro vyhledávání a výběry relevantních článků z Wikipedie podle tématu
but.committee | doc. Ing. Jaroslav Zendulka, CSc. (předseda) doc. Ing. Zdeněk Kotásek, CSc. (místopředseda) doc. Ing. Lukáš Burget, Ph.D. (člen) Ing. Radek Kočí, Ph.D. (člen) Ing. Zbyněk Křivka, Ph.D. (člen) | cs |
but.defence | Student nejprve prezentoval výsledky, kterých dosáhl v rámci své práce. Komise se poté seznámila s hodnocením vedoucího a posudkem oponenta práce. Student následně odpověděl na otázky oponenta a na další otázky přítomných. Komise se na základě posudku oponenta, hodnocení vedoucího, přednesené prezentace a odpovědí studenta na položené otázky rozhodla práci hodnotit stupněm C. Otázky u obhajoby: Proč jste namísto normální anglické Wikipedie použil Simple English Wikipedii, která je mnohem menší (cca 100 MB v komprimované formě) a není u ní problém s nedostatkem místa při offline použití tak znatelný? Z práce je zřejmé, že jste u textů z Wikipedie neodstraňoval MediaWiki značkování. Tímto se do dalšího zpracování dostala spousta nežádoucích termů, které mohly negativně ovlinit výsledky. Proč jste toto značkování neodstraňoval? | cs |
but.jazyk | čeština (Czech) | |
but.program | Informační technologie | cs |
but.result | práce byla úspěšně obhájena | cs |
dc.contributor.advisor | Smrž, Pavel | cs |
dc.contributor.author | Suchý, Ondřej | cs |
dc.contributor.referee | Otrusina, Lubomír | cs |
dc.date.created | 2015 | cs |
dc.description.abstract | Cílem této práce je navrhnout a implementovat systém, který umožní výběr tematicky zaměřených článků z Wikipedie za účelem úspory místa při jejím offline uložení. Řešení tohoto problému je dosaženo s využitím metod spadajících do oblasti vyhledávání informací a jejich konkrétní implementací v rámci nástroje Elasticsearch. Systém se na základě zadaných klíčových slov snaží určit, o jakou tematickou oblast se uživatel zajímá a články z této oblasti zařadit do výsledného výběru. K tomu využívá především mechanismy pro určení podobných dokumentů a zahrnutí všech článků z kategorií, které se ve výběru často opakují. Velikosti souborů generovaných výsledným systémem na základě dotazů nad Simple English Wikipedia se obvykle pohybují pod 30 MB. | cs |
dc.description.abstract | The goal of this paper is to design and implement a system for selection of Wikipedia articles relevant to a given topic in order to reduce the amount of memory taken by its offline version. The solution of this problem was achieved with use of methods from information retrieval and theirs implementation using Elasticsearch search engine. The system tries to determine the area of user's interest by given keywords and make a selection of articles from that area. This is achieved by measuring of similarity of articles and adding all articles from frequent categories in the selection. The sizes of the output files for queries over Simple English Wikipedia are usually below 30 MB. | en |
dc.description.mark | C | cs |
dc.identifier.citation | SUCHÝ, O. Systém pro vyhledávání a výběry relevantních článků z Wikipedie podle tématu [online]. Brno: Vysoké učení technické v Brně. Fakulta informačních technologií. 2015. | cs |
dc.identifier.other | 88724 | cs |
dc.identifier.uri | http://hdl.handle.net/11012/52382 | |
dc.language.iso | cs | cs |
dc.publisher | Vysoké učení technické v Brně. Fakulta informačních technologií | cs |
dc.rights | Standardní licenční smlouva - přístup k plnému textu bez omezení | cs |
dc.subject | vyhledávání informací | cs |
dc.subject | Wikipedie | cs |
dc.subject | Elasticsarch | cs |
dc.subject | podobnost dokumentů | cs |
dc.subject | vyhledávací systém | cs |
dc.subject | information retrieval | en |
dc.subject | Wikipedia | en |
dc.subject | Elasticsarch | en |
dc.subject | document similarity | en |
dc.subject | search engine | en |
dc.title | Systém pro vyhledávání a výběry relevantních článků z Wikipedie podle tématu | cs |
dc.title.alternative | Wikipedia Page Classification | en |
dc.type | Text | cs |
dc.type.driver | bachelorThesis | en |
dc.type.evskp | bakalářská práce | cs |
dcterms.dateAccepted | 2015-06-17 | cs |
dcterms.modified | 2020-05-10-16:12:09 | cs |
eprints.affiliatedInstitution.faculty | Fakulta informačních technologií | cs |
sync.item.dbid | 88724 | en |
sync.item.dbtype | ZP | en |
sync.item.insts | 2025.03.18 18:49:24 | en |
sync.item.modts | 2025.01.15 21:14:28 | en |
thesis.discipline | Informační technologie | cs |
thesis.grantor | Vysoké učení technické v Brně. Fakulta informačních technologií. Ústav počítačové grafiky a multimédií | cs |
thesis.level | Bakalářský | cs |
thesis.name | Bc. | cs |
Files
Original bundle
1 - 4 of 4
Loading...
- Name:
- final-thesis.pdf
- Size:
- 667.1 KB
- Format:
- Adobe Portable Document Format
- Description:
- final-thesis.pdf
Loading...
- Name:
- Posudek-Vedouci prace-17707_v.pdf
- Size:
- 85.52 KB
- Format:
- Adobe Portable Document Format
- Description:
- Posudek-Vedouci prace-17707_v.pdf
Loading...
- Name:
- Posudek-Oponent prace-17707_o.pdf
- Size:
- 89.03 KB
- Format:
- Adobe Portable Document Format
- Description:
- Posudek-Oponent prace-17707_o.pdf
Loading...
- Name:
- review_88724.html
- Size:
- 1.48 KB
- Format:
- Hypertext Markup Language
- Description:
- file review_88724.html