Určení základního tvaru slova

Loading...
Thumbnail Image

Date

Authors

Šanda, Pavel

Mark

A

Journal Title

Journal ISSN

Volume Title

Publisher

Vysoké učení technické v Brně. Fakulta elektrotechniky a komunikačních technologií

ORCID

Abstract

Lemmatizace je důležitou procedurou před dolováním v textu v mnoha aplikacích. Proces lemmatizace je podobný procesu stemmingu, s tím rozdílem, že neurčuje pouze kořen slova, ale snaží se slovo převést pomocí metod Brute Force a Suffix Stripping do jeho základního tvaru. Hlavním cílem této práce je prezentovat metody pro vylepšení algoritmů lemmatizace českého jazyka. Obsahem je vytvoření trénovací množiny dat, kterou lze libovolně použít pro studentské i vědecké práce zabývající se podobnou problematikou.
Lemmatization is an important preprocessing step for many applications of text mining. Lemmatization process is similar to the stemming process, with the difference that determines not only the word stem, but it´s trying to determines the basic form of the word using the methods Brute Force and Suffix Stripping. The main aim of this paper is to present methods for algorithmic improvements Czech lemmatization. The created training set of data are content of this paper and can be freely used for student and academic works dealing with similar problematics.

Description

Citation

ŠANDA, P. Určení základního tvaru slova [online]. Brno: Vysoké učení technické v Brně. Fakulta elektrotechniky a komunikačních technologií. 2011.

Document type

Document version

Date of access to the full text

Language of document

cs

Study field

Telekomunikační a informační technika

Comittee

prof. Ing. Zdeněk Smékal, CSc. (předseda) Ing. Robert Vích, DrSc. (místopředseda) doc. Ing. Otto Dostál, CSc. (člen) Ing. Jaromír Hrad, Ph.D. (člen) Ing. Jan Karásek, Ph.D. (člen) Ing. Hicham Atassi, Ph.D. (člen) Ing. Peter Stančík (člen)

Date of acceptance

2011-06-08

Defence

Z formálního pohledu je práce na vysoké úrovni. Vytknul bych ale používání anglictiny v cesky psaném textu („brute force“). V textu uvádíte, že použití hrubé síly je výkonnostne nárocné. Uvedte metody, kterými lze výpocetní cas redukovat. Jaká je casová závislost pro jednotlivé prístupy. Jaký je přínos práce z hlediska programování. - Optimalizace již existujícícho softwaru. Jak probíhá lematizace v případě slova "nejsem".

Result of defence

práce byla úspěšně obhájena

DOI

Collections

Endorsement

Review

Supplemented By

Referenced By

Citace PRO