Vyhledávání duplicitních textů
Loading...
Date
Authors
Pekař, Tomáš
ORCID
Advisor
Referee
Mark
D
Journal Title
Journal ISSN
Volume Title
Publisher
Vysoké učení technické v Brně. Fakulta informačních technologií
Abstract
Cílem této práce je navrhnout a implementovat systém pro vyhledávání duplicitních textů. Výsledná aplikace by měla umět dokumenty indexovat a také je v indexu vyhledávat. V naší práci se zabýváme předzpracováním dokumentů, jejich fragmentací a indexací. Dále rozebíráme metody vyhledávání duplicit, s čímž je spojena také strategie selekce podřetězců. Práce obsahuje i popis základních datových struktur, které lze použít pro indexaci n-gramů.
The aim of this work is to design and implement a system for duplicate text identification. The application should be able to index documents and also searching documents at index. In our work we deal with preprocessing documents, their fragmentation and indexing. Furthermore we analyze methods for duplicate text identification, that are also linked with strategies for selecting substrings. The thesis includes a description of the basic data structures that can be used to index n-grams.
The aim of this work is to design and implement a system for duplicate text identification. The application should be able to index documents and also searching documents at index. In our work we deal with preprocessing documents, their fragmentation and indexing. Furthermore we analyze methods for duplicate text identification, that are also linked with strategies for selecting substrings. The thesis includes a description of the basic data structures that can be used to index n-grams.
Description
Citation
PEKAŘ, T. Vyhledávání duplicitních textů [online]. Brno: Vysoké učení technické v Brně. Fakulta informačních technologií. 2015.
Document type
Document version
Date of access to the full text
Language of document
cs
Study field
Informační technologie
Comittee
prof. RNDr. Alexandr Meduna, CSc. (předseda)
doc. Ing. Vladimír Drábek, CSc. (místopředseda)
doc. Ing. Vítězslav Beran, Ph.D. (člen)
Ing. Bohuslav Křena, Ph.D. (člen)
Mgr. Ing. Pavel Očenášek, Ph.D. (člen)
Date of acceptance
2015-06-16
Defence
Student nejprve prezentoval výsledky, kterých dosáhl v rámci své práce. Komise se poté seznámila s hodnocením vedoucího a posudkem oponenta práce. Student následně odpověděl na otázky oponenta a na další otázky přítomných. Komise se na základě posudku oponenta, hodnocení vedoucího, přednesené prezentace a odpovědí studenta na položené otázky rozhodla práci hodnotit stupněm D. Otázky u obhajoby: Čím si ve vašem řešení vysvětlujete nemonotónní počet výsledných n-gramů v závislosti na jejich délce?
Result of defence
práce byla úspěšně obhájena
Document licence
Standardní licenční smlouva - přístup k plnému textu bez omezení