Rozšíření Apache Tika o extrakci textu ze souborů průmyslových formátů
but.committee | doc. Dr. Ing. Dušan Kolář (předseda) doc. Ing. Peter Chudý, Ph.D., MBA (místopředseda) Ing. Ondřej Lengál, Ph.D. (člen) RNDr. Marek Rychlý, Ph.D. (člen) doc. Ing. Zdeněk Vašíček, Ph.D. (člen) | cs |
but.defence | Student nejprve prezentoval výsledky, kterých dosáhl v rámci své práce. Komise se poté seznámila s hodnocením vedoucího a posudkem oponenta práce. Student následně odpověděl na otázky oponenta a na další otázky přítomných. Komise se na základě posudku oponenta, hodnocení vedoucího, přednesené prezentace a odpovědí studenta na položené otázky rozhodla práci hodnotit stupněm C. Otázky u obhajoby: Mohl byste vysvětlit testování rychlosti Vašeho nástroje oproti Tika v kapitole 7.2? Co se vlastně srovnává a proč? | cs |
but.jazyk | čeština (Czech) | |
but.program | Informační technologie | cs |
but.result | práce byla úspěšně obhájena | cs |
dc.contributor.advisor | Rychlý, Marek | cs |
dc.contributor.author | Rešetár, René | cs |
dc.contributor.referee | Burget, Radek | cs |
dc.date.created | 2021 | cs |
dc.description.abstract | Cieľom bakalárskej práce bolo rozšíriť syntaktické analyzátory projektu Apache Tika o extrakciu tabuliek a dát z priemyslových formátov dokumentov z laboratórnych prístrojov. Tieto dáta majú byť uložené v štruktúrovanom formáte podľa určitej schémy. V teoretickej časti boli preskúmané dodané industriálne formáty, projekt Apache Tika a možnosti jeho rozšírenia. V praktickej časti bol navrhnutý a implementovaný nástroj, ktorý dokumenty pomocou projektu Apache Tika klasifikuje, spracuje, vytvára z nich štruktúrované dáta vo formáte JSON a tie následne validuje. Na záver bola vytvorená sada testov pre overenie a demonštráciu vlastností riešenia. | cs |
dc.description.abstract | The goal of the bachelor's thesis was to extend the parsers of the Apache Tika project with data and table extraction from industrial document formats from laboratory instruments. These data will be stored in a structured format according to a certain scheme. In the theoretical part, the supplied industrial formats, the Apache Tika project and the possibilities of its expansion were examined. In the practical part, a tool was designed and implemented, which classifies documents using the Apache Tika project, processes them, creates structured data from them in the JSON format and subsequently validates them. Finally, a set of tests was created to verify and demonstrate the properties of the solution. | en |
dc.description.mark | C | cs |
dc.identifier.citation | REŠETÁR, R. Rozšíření Apache Tika o extrakci textu ze souborů průmyslových formátů [online]. Brno: Vysoké učení technické v Brně. Fakulta informačních technologií. 2021. | cs |
dc.identifier.other | 136487 | cs |
dc.identifier.uri | http://hdl.handle.net/11012/199350 | |
dc.language.iso | cs | cs |
dc.publisher | Vysoké učení technické v Brně. Fakulta informačních technologií | cs |
dc.rights | Standardní licenční smlouva - přístup k plnému textu bez omezení | cs |
dc.subject | Java | cs |
dc.subject | Apache Tika | cs |
dc.subject | Maven | cs |
dc.subject | weka | cs |
dc.subject | .arff | cs |
dc.subject | JSON | cs |
dc.subject | cs | |
dc.subject | xlsx | cs |
dc.subject | csv | cs |
dc.subject | software | cs |
dc.subject | laboratória | cs |
dc.subject | kontrolné laboratória | cs |
dc.subject | bez papierové laboratórium | cs |
dc.subject | SVP | cs |
dc.subject | farmaceutický priemysel | cs |
dc.subject | integrita dát | cs |
dc.subject | Service Provider | cs |
dc.subject | štruktúrované dáta | cs |
dc.subject | MIME-typy | cs |
dc.subject | extrakcia dát | cs |
dc.subject | extrakcia tabuliek | cs |
dc.subject | Java | en |
dc.subject | Apache Tika | en |
dc.subject | Maven | en |
dc.subject | weka | en |
dc.subject | .arff | en |
dc.subject | JSON | en |
dc.subject | en | |
dc.subject | xlsx | en |
dc.subject | csv | en |
dc.subject | software | en |
dc.subject | laboratories | en |
dc.subject | control laboratories | en |
dc.subject | non-paper laboratories | en |
dc.subject | SVP | en |
dc.subject | farmaceutic industry | en |
dc.subject | data integrity | en |
dc.subject | Service Provider | en |
dc.subject | structured data | en |
dc.subject | MIME-types | en |
dc.subject | data extraction | en |
dc.subject | table extraction | en |
dc.title | Rozšíření Apache Tika o extrakci textu ze souborů průmyslových formátů | cs |
dc.title.alternative | Extension of Apache Tika with Industrial File Formats Text Extraction | en |
dc.type | Text | cs |
dc.type.driver | bachelorThesis | en |
dc.type.evskp | bakalářská práce | cs |
dcterms.dateAccepted | 2021-06-14 | cs |
dcterms.modified | 2021-06-19-12:15:44 | cs |
eprints.affiliatedInstitution.faculty | Fakulta informačních technologií | cs |
sync.item.dbid | 136487 | en |
sync.item.dbtype | ZP | en |
sync.item.insts | 2025.03.18 19:35:25 | en |
sync.item.modts | 2025.01.15 18:36:20 | en |
thesis.discipline | Informační technologie | cs |
thesis.grantor | Vysoké učení technické v Brně. Fakulta informačních technologií. Ústav informačních systémů | cs |
thesis.level | Bakalářský | cs |
thesis.name | Bc. | cs |
Files
Original bundle
1 - 4 of 4
Loading...
- Name:
- final-thesis.pdf
- Size:
- 1.32 MB
- Format:
- Adobe Portable Document Format
- Description:
- final-thesis.pdf
Loading...
- Name:
- Posudek-Vedouci prace-23586_v.pdf
- Size:
- 86.43 KB
- Format:
- Adobe Portable Document Format
- Description:
- Posudek-Vedouci prace-23586_v.pdf
Loading...
- Name:
- Posudek-Oponent prace-23586_o.pdf
- Size:
- 88.42 KB
- Format:
- Adobe Portable Document Format
- Description:
- Posudek-Oponent prace-23586_o.pdf
Loading...
- Name:
- review_136487.html
- Size:
- 1.47 KB
- Format:
- Hypertext Markup Language
- Description:
- file review_136487.html