Vyhledávání nejčastějších n-tic slov

Holec, Matúš

Vyhledávání nejčastějších n-tic slov

but.jazyk	čeština (Czech)
but.program	Informační technologie	cs
but.result	práce byla úspěšně obhájena	cs
dc.contributor.advisor	Smrž, Pavel	cs
dc.contributor.author	Holec, Matúš	cs
dc.contributor.referee	Szőke, Igor	cs
dc.date.created		cs
dc.description.abstract	Tato práce se zabývá návrhem a implementací efektivního systému vyhledávání n-tic slov v textu. Systém je založen na principu dávkového zpracování, což umožňuje zpracování rozsáhlých textů. V první části práce jsou shrnuty principy stávajících metod sloužících pro extrakci n-gramů. V další části je popsán implementovaný systém a následně i jeho urychlení pomocí paralelizace dávkového zpracování. V závěru je uvedeno srovnání výkonnosti dostupných implementací s navrženým systémem, jakož i porovnání časové náročnosti sekvenčního přístupu s paralelním.	cs
dc.description.abstract	This thesis deals with design and implementation of effective system for word n-grams extraction from texts. System is based on batch processing therefore it is able to process large text corpuses. The first part contains principles of existing methods for an n-gram extraction. The next part includes description of the implemented system as well as the approach of acceleration system by paralelizing the batch processing. The last part contains efficiency comparison between available implementations and designed system and time complexity comparison between sequential and paralelized approach.	en
dc.description.mark	B	cs
dc.identifier.citation	HOLEC, M. Vyhledávání nejčastějších n-tic slov [online]. Brno: Vysoké učení technické v Brně. Fakulta informačních technologií. .	cs
dc.identifier.other	25621	cs
dc.identifier.uri	http://hdl.handle.net/11012/54698
dc.language.iso	cs	cs
dc.publisher	Vysoké učení technické v Brně. Fakulta informačních technologií	cs
dc.rights	Přístup k plnému textu prostřednictvím internetu byl licenční smlouvou omezen na dobu 10 roku/let	cs
dc.subject	zpracování přirozeného jazyka	cs
dc.subject	extrakce n-gramů	cs
dc.subject	dávkové zpracování	cs
dc.subject	rozsáhlé textové korpusy	cs
dc.subject	natural language processing	en
dc.subject	n-gram extraction	en
dc.subject	batch processing	en
dc.subject	text corpuses of large size	en
dc.title	Vyhledávání nejčastějších n-tic slov	cs
dc.title.alternative	The Most Frequent Word n-Grams	en
dc.type	Text	cs
dc.type.driver	bachelorThesis	en
dc.type.evskp	bakalářská práce	cs
dcterms.modified	2020-05-09-23:41:03	cs
eprints.affiliatedInstitution.faculty	Fakulta informačních technologií	cs
sync.item.dbid	25621	en
sync.item.dbtype	ZP	en
sync.item.insts	2025.03.19 16:54:16	en
sync.item.modts	2025.01.15 20:56:32	en
thesis.discipline	Informační technologie	cs
thesis.grantor	Vysoké učení technické v Brně. Fakulta informačních technologií. Ústav počítačové grafiky a multimédií	cs
thesis.level	Bakalářský	cs
thesis.name	Bc.	cs

Files

Original bundle

Now showing 1 - 1 of 1

Name:: review_25621.html
Size:: 1.42 KB
Format:: Hypertext Markup Language
Description:: file review_25621.html

Download

Collections

2008