Vyhledávání nejčastějších n-tic slov

Holec, Matúš

Vyhledávání nejčastějších n-tic slov

Files

review_25621.html (1.42 KB)

Authors

Holec, Matúš

Advisor

Smrž, Pavel

Referee

Szőke, Igor

Mark

B

Publisher

Vysoké učení technické v Brně. Fakulta informačních technologií

Abstract

Tato práce se zabývá návrhem a implementací efektivního systému vyhledávání n-tic slov v textu. Systém je založen na principu dávkového zpracování, což umožňuje zpracování rozsáhlých textů. V první části práce jsou shrnuty principy stávajících metod sloužících pro extrakci n-gramů. V další části je popsán implementovaný systém a následně i jeho urychlení pomocí paralelizace dávkového zpracování. V závěru je uvedeno srovnání výkonnosti dostupných implementací s navrženým systémem, jakož i porovnání časové náročnosti sekvenčního přístupu s paralelním.
This thesis deals with design and implementation of effective system for word n-grams extraction from texts. System is based on batch processing therefore it is able to process large text corpuses. The first part contains principles of existing methods for an n-gram extraction. The next part includes description of the implemented system as well as the approach of acceleration system by paralelizing the batch processing. The last part contains efficiency comparison between available implementations and designed system and time complexity comparison between sequential and paralelized approach.

Keywords

zpracování přirozeného jazyka , extrakce n-gramů , dávkové zpracování , rozsáhlé textové korpusy , natural language processing , n-gram extraction , batch processing , text corpuses of large size

Citation

HOLEC, M. Vyhledávání nejčastějších n-tic slov [online]. Brno: Vysoké učení technické v Brně. Fakulta informačních technologií. .

Language of document

cs

Study field

Informační technologie

Result of defence

práce byla úspěšně obhájena

URI

http://hdl.handle.net/11012/54698

Collections

2008

Citace PRO

Full item page

Vyhledávání nejčastějších n-tic slov

Files

Date

Authors

Advisor

Referee

Mark

Journal Title

Journal ISSN

Volume Title

Publisher

ORCID

Abstract

Description

Keywords

Citation

Document type

Document version

Date of access to the full text

Language of document

Study field

Comittee

Date of acceptance

Defence

Result of defence

DOI

URI

Collections

Endorsement

Review

Supplemented By

Referenced By

Citace PRO