Systém pro vyhledávání a výběry relevantních článků z Wikipedie podle tématu

but.committeedoc. Ing. Jaroslav Zendulka, CSc. (předseda) doc. Ing. Zdeněk Kotásek, CSc. (místopředseda) doc. Ing. Lukáš Burget, Ph.D. (člen) Ing. Radek Kočí, Ph.D. (člen) Ing. Zbyněk Křivka, Ph.D. (člen)cs
but.defenceStudent nejprve prezentoval výsledky, kterých dosáhl v rámci své práce. Komise se poté seznámila s hodnocením vedoucího a posudkem oponenta práce. Student následně odpověděl na otázky oponenta a na další otázky přítomných. Komise se na základě posudku oponenta, hodnocení vedoucího, přednesené prezentace a odpovědí studenta na položené otázky rozhodla práci hodnotit stupněm C. Otázky u obhajoby: Proč jste namísto normální anglické Wikipedie použil Simple English Wikipedii, která je mnohem menší (cca 100 MB v komprimované formě) a není u ní problém s nedostatkem místa při offline použití tak znatelný? Z práce je zřejmé, že jste u textů z Wikipedie neodstraňoval MediaWiki značkování. Tímto se do dalšího zpracování dostala spousta nežádoucích termů, které mohly negativně ovlinit výsledky. Proč jste toto značkování neodstraňoval?cs
but.jazykčeština (Czech)
but.programInformační technologiecs
but.resultpráce byla úspěšně obhájenacs
dc.contributor.advisorSmrž, Pavelcs
dc.contributor.authorSuchý, Ondřejcs
dc.contributor.refereeOtrusina, Lubomírcs
dc.date.created2015cs
dc.description.abstractCílem této práce je navrhnout a implementovat systém, který umožní výběr tematicky zaměřených článků z Wikipedie za účelem úspory místa při jejím offline uložení. Řešení tohoto problému je dosaženo s využitím metod spadajících do oblasti vyhledávání informací a jejich konkrétní implementací v rámci nástroje Elasticsearch. Systém se na základě zadaných klíčových slov snaží určit, o jakou tematickou oblast se uživatel zajímá a články z této oblasti zařadit do výsledného výběru. K tomu využívá především mechanismy pro určení podobných dokumentů a zahrnutí všech článků z kategorií, které se ve výběru často opakují. Velikosti souborů generovaných výsledným systémem na základě dotazů nad Simple English Wikipedia se obvykle pohybují pod 30 MB.cs
dc.description.abstractThe goal of this paper is to design and implement a system for selection of Wikipedia articles relevant to a given topic in order to reduce the amount of memory taken by its offline version. The solution of this problem was achieved with use of methods from information retrieval and theirs implementation using Elasticsearch search engine. The system tries to determine the area of user's interest by given keywords and make a selection of articles from that area. This is achieved by measuring of similarity of articles and adding all articles from frequent categories in the selection. The sizes of the output files for queries over Simple English Wikipedia are usually below 30 MB.en
dc.description.markCcs
dc.identifier.citationSUCHÝ, O. Systém pro vyhledávání a výběry relevantních článků z Wikipedie podle tématu [online]. Brno: Vysoké učení technické v Brně. Fakulta informačních technologií. 2015.cs
dc.identifier.other88724cs
dc.identifier.urihttp://hdl.handle.net/11012/52382
dc.language.isocscs
dc.publisherVysoké učení technické v Brně. Fakulta informačních technologiícs
dc.rightsStandardní licenční smlouva - přístup k plnému textu bez omezenícs
dc.subjectvyhledávání informacícs
dc.subjectWikipediecs
dc.subjectElasticsarchcs
dc.subjectpodobnost dokumentůcs
dc.subjectvyhledávací systémcs
dc.subjectinformation retrievalen
dc.subjectWikipediaen
dc.subjectElasticsarchen
dc.subjectdocument similarityen
dc.subjectsearch engineen
dc.titleSystém pro vyhledávání a výběry relevantních článků z Wikipedie podle tématucs
dc.title.alternativeWikipedia Page Classificationen
dc.typeTextcs
dc.type.driverbachelorThesisen
dc.type.evskpbakalářská prácecs
dcterms.dateAccepted2015-06-17cs
dcterms.modified2020-05-10-16:12:09cs
eprints.affiliatedInstitution.facultyFakulta informačních technologiícs
sync.item.dbid88724en
sync.item.dbtypeZPen
sync.item.insts2025.03.18 18:49:24en
sync.item.modts2025.01.15 21:14:28en
thesis.disciplineInformační technologiecs
thesis.grantorVysoké učení technické v Brně. Fakulta informačních technologií. Ústav počítačové grafiky a multimédiícs
thesis.levelBakalářskýcs
thesis.nameBc.cs
Files
Original bundle
Now showing 1 - 4 of 4
Loading...
Thumbnail Image
Name:
final-thesis.pdf
Size:
667.1 KB
Format:
Adobe Portable Document Format
Description:
final-thesis.pdf
Loading...
Thumbnail Image
Name:
Posudek-Vedouci prace-17707_v.pdf
Size:
85.52 KB
Format:
Adobe Portable Document Format
Description:
Posudek-Vedouci prace-17707_v.pdf
Loading...
Thumbnail Image
Name:
Posudek-Oponent prace-17707_o.pdf
Size:
89.03 KB
Format:
Adobe Portable Document Format
Description:
Posudek-Oponent prace-17707_o.pdf
Loading...
Thumbnail Image
Name:
review_88724.html
Size:
1.48 KB
Format:
Hypertext Markup Language
Description:
file review_88724.html
Collections