Poloautomatická normalizace slov z matričních záznamů

Loading...
Thumbnail Image
Date
Authors
Hříbek, David
ORCID
Mark
A
Journal Title
Journal ISSN
Volume Title
Publisher
Vysoké učení technické v Brně. Fakulta informačních technologií
Abstract
V této práci je řešeno rozšíření webové aplikace DEMoS pro správu matričních záznamů o možnost normalizace (přiřazení normalizované podoby zápisu jednotlivým slovům) jmen, příjmení, povolání, obcí a dalších typů slov, která se vyskytují v matričních záznamech. V řešení byl použit proces detekce duplicitních záznamů, který umožnil roztřídění slov z matričních záznamů do shluků podobných slov. Díky vzniklým shlukům bylo následně možné sdílet normalizované varianty slov v rámci těchto shluků. Aplikace DEMoS tak pro uživatelem zadaná slova navrhuje normalizované varianty použité nejen u stejných slov, ale i u podobných slov. V rámci této práce bylo navrženo automatické testování úspěšnosti shlukování slov. Celkem bylo pro každý typ slov otestováno 640 různých kombinací parametrů shlukování. Následně byly pro každý typ slov vybrány nejlepší parametry shlukování. Díky normalizaci slov je v aplikaci DEMoS výrazně zvýšena efektivita vyhledávání matričních záznamů. Záznamy jsou také lépe čitelné.
This work deals with the extension of DEMoS web application for the management of parish records by the possibility of normalization (assignment of a normalized form of writing to individual words) of names, surnames, occupations, domiciles and other types of words occurring in parish records. In the solution, a duplicate record detection process was used, which allowed sorting of the records from parish records into clusters of similar words. As a result of the clustering, it was possible to share normalized word variants within these clusters. Thus, DEMoS suggests normalized variants for words entered by users, used not only for the same words, but also for similar words. In this work, automatic testing of word clustering was proposed. In total, 640 different combinations of clustering parameters were tested for each word type. Subsequently, the best clustering parameters were selected for each word type. By normalizing words, DEMoS application significantly increases the efficiency of searching in parish records. Records are also easier to read.
Description
Citation
HŘÍBEK, D. Poloautomatická normalizace slov z matričních záznamů [online]. Brno: Vysoké učení technické v Brně. Fakulta informačních technologií. 2019.
Document type
Document version
Date of access to the full text
Language of document
cs
Study field
Informační technologie
Comittee
doc. Ing. František Zbořil, Ph.D. (předseda) doc. RNDr. Dana Hliněná, Ph.D. (místopředseda) doc. Ing. Lukáš Burget, Ph.D. (člen) Ing. František Grézl, Ph.D. (člen) Ing. Josef Strnadel, Ph.D. (člen)
Date of acceptance
2019-06-13
Defence
Student nejprve prezentoval výsledky, kterých dosáhl v rámci své práce. Komise se poté seznámila s hodnocením vedoucího a posudkem oponenta práce. Student následně odpověděl na otázky oponenta a na další otázky přítomných. Komise se na základě posudku oponenta, hodnocení vedoucího, přednesené prezentace a odpovědí studenta na položené otázky rozhodla práci hodnotit stupněm A. Otázky u obhajoby: Co je míněno shlukem, co jej tvoří, co vše jej určuje a jak se příslušnost ke shluku přesně určuje, neboli jaký konkrétní algoritmus byl pro roztřídění objektů do shluků použit? Jak provádíte tranzitivní uzavření? Jsou prvky shluku ekvivalentní? Podobnost berete jako fuzzy? Jak jste vyhodnocoval funkčnost aplikace?
Result of defence
práce byla úspěšně obhájena
Document licence
Standardní licenční smlouva - přístup k plnému textu bez omezení
DOI
Collections
Citace PRO