Poloautomatická normalizace slov z matričních záznamů

Loading...
Thumbnail Image

Date

Authors

Hříbek, David

Mark

A

Journal Title

Journal ISSN

Volume Title

Publisher

Vysoké učení technické v Brně. Fakulta informačních technologií

ORCID

Abstract

V této práci je řešeno rozšíření webové aplikace DEMoS pro správu matričních záznamů o možnost normalizace (přiřazení normalizované podoby zápisu jednotlivým slovům) jmen, příjmení, povolání, obcí a dalších typů slov, která se vyskytují v matričních záznamech. V řešení byl použit proces detekce duplicitních záznamů, který umožnil roztřídění slov z matričních záznamů do shluků podobných slov. Díky vzniklým shlukům bylo následně možné sdílet normalizované varianty slov v rámci těchto shluků. Aplikace DEMoS tak pro uživatelem zadaná slova navrhuje normalizované varianty použité nejen u stejných slov, ale i u podobných slov. V rámci této práce bylo navrženo automatické testování úspěšnosti shlukování slov. Celkem bylo pro každý typ slov otestováno 640 různých kombinací parametrů shlukování. Následně byly pro každý typ slov vybrány nejlepší parametry shlukování. Díky normalizaci slov je v aplikaci DEMoS výrazně zvýšena efektivita vyhledávání matričních záznamů. Záznamy jsou také lépe čitelné.
This work deals with the extension of DEMoS web application for the management of parish records by the possibility of normalization (assignment of a normalized form of writing to individual words) of names, surnames, occupations, domiciles and other types of words occurring in parish records. In the solution, a duplicate record detection process was used, which allowed sorting of the records from parish records into clusters of similar words. As a result of the clustering, it was possible to share normalized word variants within these clusters. Thus, DEMoS suggests normalized variants for words entered by users, used not only for the same words, but also for similar words. In this work, automatic testing of word clustering was proposed. In total, 640 different combinations of clustering parameters were tested for each word type. Subsequently, the best clustering parameters were selected for each word type. By normalizing words, DEMoS application significantly increases the efficiency of searching in parish records. Records are also easier to read.

Description

Citation

HŘÍBEK, D. Poloautomatická normalizace slov z matričních záznamů [online]. Brno: Vysoké učení technické v Brně. Fakulta informačních technologií. 2019.

Document type

Document version

Date of access to the full text

Language of document

cs

Study field

Informační technologie

Comittee

doc. Ing. František Zbořil, Ph.D. (předseda) doc. RNDr. Dana Hliněná, Ph.D. (místopředseda) doc. Ing. Lukáš Burget, Ph.D. (člen) Ing. František Grézl, Ph.D. (člen) Ing. Josef Strnadel, Ph.D. (člen)

Date of acceptance

2019-06-13

Defence

Student nejprve prezentoval výsledky, kterých dosáhl v rámci své práce. Komise se poté seznámila s hodnocením vedoucího a posudkem oponenta práce. Student následně odpověděl na otázky oponenta a na další otázky přítomných. Komise se na základě posudku oponenta, hodnocení vedoucího, přednesené prezentace a odpovědí studenta na položené otázky rozhodla práci hodnotit stupněm A. Otázky u obhajoby: Co je míněno shlukem, co jej tvoří, co vše jej určuje a jak se příslušnost ke shluku přesně určuje, neboli jaký konkrétní algoritmus byl pro roztřídění objektů do shluků použit? Jak provádíte tranzitivní uzavření? Jsou prvky shluku ekvivalentní? Podobnost berete jako fuzzy? Jak jste vyhodnocoval funkčnost aplikace?

Result of defence

práce byla úspěšně obhájena

DOI

Collections

Endorsement

Review

Supplemented By

Referenced By

Citace PRO