Analýza a získávání informací ze souboru dokumentů spojených do jednoho celku
but.committee | doc. Dr. Ing. Petr Hanáček (předseda) prof. Ing. Martin Drahanský, Ph.D. (místopředseda) doc. Ing. Vladimír Drábek, CSc. (člen) doc. Mgr. Lukáš Holík, Ph.D. (člen) Ing. Vladimír Veselý, Ph.D. (člen) doc. Ing. Václav Zeman, Ph.D. (člen) | cs |
but.defence | Student nejprve prezentoval výsledky, kterých dosáhl v rámci své práce. Komise se poté seznámila s hodnocením vedoucího a posudkem oponenta práce. Student následně odpověděl na otázky oponenta a na další otázky přítomných. Komise se na základě posudku oponenta, hodnocení vedoucího, přednesené prezentace a odpovědí studenta na položené otázky rozhodla práci hodnotit stupněm " C ". Otázky u obhajoby: Uvažoval jste o využití tzv. stemmingu při předzpracování textu? Mělo by to pro vaši úlohu význam? Popište, jakým způsobem byl vytvořen rozhodovací strom na str. 34. | cs |
but.jazyk | čeština (Czech) | |
but.program | Informační technologie | cs |
but.result | práce byla úspěšně obhájena | cs |
dc.contributor.advisor | Kreslíková, Jitka | cs |
dc.contributor.author | Jarolím, Jordán | cs |
dc.contributor.referee | Bartík, Vladimír | cs |
dc.date.created | 2018 | cs |
dc.description.abstract | Tato práce se zabývá získáváním relevantních informací z dokumentů, automatizovaným rozdělováním vícero dokumentů spojených do jednoho celku a tvorbou nástroje, který umožňuje získání relevantních informací z dokumentů a jejich automatizované rozdělení. Jsou diskutovány především metody pro získání textových dat ze skenovaných dokumentů, rozpoznávání pojmenovaných entit, shlukování dokumentů, jejich podpůrné algoritmy a jsou popisovány metriky sloužící pro automatizované rozdělování dokumentů. Dále je vysvětlen algoritmus implementovaného prototypu daného systému, jsou popsány použité nástroje a techniky a je evaluována jeho úspěšnost. Nakonec jsou diskutována možná rozšíření a budoucí rozvoj této práce. | cs |
dc.description.abstract | This thesis deals with mining of relevant information from documents and automatic splitting of multiple documents merged together. Moreover, it describes the design and implementation of software for data mining from documents and for automatic splitting of multiple documents. Methods for acquiring textual data from scanned documents, named entity recognition, document clustering, their supportive algorithms and metrics for automatic splitting of documents are described in this thesis. Furthermore, an algorithm of implemented software is explained and tools and techniques used by this software are described. Lastly, the success rate of the implemented software is evaluated. In conclusion, possible extensions and further development of this thesis are discussed at the end. | en |
dc.description.mark | C | cs |
dc.identifier.citation | JAROLÍM, J. Analýza a získávání informací ze souboru dokumentů spojených do jednoho celku [online]. Brno: Vysoké učení technické v Brně. Fakulta informačních technologií. 2018. | cs |
dc.identifier.other | 114762 | cs |
dc.identifier.uri | http://hdl.handle.net/11012/84912 | |
dc.language.iso | cs | cs |
dc.publisher | Vysoké učení technické v Brně. Fakulta informačních technologií | cs |
dc.rights | Standardní licenční smlouva - přístup k plnému textu bez omezení | cs |
dc.subject | Dokument | cs |
dc.subject | spojené dokumenty | cs |
dc.subject | rozdělování | cs |
dc.subject | automatické rozdělování dokumentů | cs |
dc.subject | získávání informací | cs |
dc.subject | rozpoznávání pojmenovaných entit | cs |
dc.subject | RAKE | cs |
dc.subject | SIFT points | cs |
dc.subject | histogram | cs |
dc.subject | K-means | cs |
dc.subject | metrické prostory | cs |
dc.subject | vektorové prostory | cs |
dc.subject | euklidova vzdálenost | cs |
dc.subject | cosinova podobnost | cs |
dc.subject | shlukování dokumentů | cs |
dc.subject | Document | en |
dc.subject | merged documents | en |
dc.subject | splitting | en |
dc.subject | automatic document splitting | en |
dc.subject | data mining | en |
dc.subject | named entity recognition | en |
dc.subject | RAKE | en |
dc.subject | SIFT points | en |
dc.subject | histogram | en |
dc.subject | K-means | en |
dc.subject | metric spaces | en |
dc.subject | vector spaces | en |
dc.subject | euclid distance | en |
dc.subject | cosine similarity | en |
dc.subject | document clustering | en |
dc.title | Analýza a získávání informací ze souboru dokumentů spojených do jednoho celku | cs |
dc.title.alternative | Analysis and Data Extraction from a Set of Documents Merged Together | en |
dc.type | Text | cs |
dc.type.driver | masterThesis | en |
dc.type.evskp | diplomová práce | cs |
dcterms.dateAccepted | 2018-06-21 | cs |
dcterms.modified | 2020-05-10-16:13:21 | cs |
eprints.affiliatedInstitution.faculty | Fakulta informačních technologií | cs |
sync.item.dbid | 114762 | en |
sync.item.dbtype | ZP | en |
sync.item.insts | 2025.03.26 15:26:52 | en |
sync.item.modts | 2025.01.15 13:46:47 | en |
thesis.discipline | Bezpečnost informačních technologií | cs |
thesis.grantor | Vysoké učení technické v Brně. Fakulta informačních technologií. Ústav informačních systémů | cs |
thesis.level | Inženýrský | cs |
thesis.name | Ing. | cs |
Files
Original bundle
1 - 4 of 4
Loading...
- Name:
- final-thesis.pdf
- Size:
- 7.05 MB
- Format:
- Adobe Portable Document Format
- Description:
- final-thesis.pdf
Loading...
- Name:
- Posudek-Vedouci prace-20912_v.pdf
- Size:
- 86.95 KB
- Format:
- Adobe Portable Document Format
- Description:
- Posudek-Vedouci prace-20912_v.pdf
Loading...
- Name:
- Posudek-Oponent prace-20912_o.pdf
- Size:
- 89.51 KB
- Format:
- Adobe Portable Document Format
- Description:
- Posudek-Oponent prace-20912_o.pdf
Loading...
- Name:
- review_114762.html
- Size:
- 1.49 KB
- Format:
- Hypertext Markup Language
- Description:
- file review_114762.html