Rozšíření Apache Tika o extrakci textu ze souborů průmyslových formátů

but.committeedoc. Dr. Ing. Dušan Kolář (předseda) doc. Ing. Peter Chudý, Ph.D., MBA (místopředseda) Ing. Ondřej Lengál, Ph.D. (člen) RNDr. Marek Rychlý, Ph.D. (člen) doc. Ing. Zdeněk Vašíček, Ph.D. (člen)cs
but.defenceStudent nejprve prezentoval výsledky, kterých dosáhl v rámci své práce. Komise se poté seznámila s hodnocením vedoucího a posudkem oponenta práce. Student následně odpověděl na otázky oponenta a na další otázky přítomných. Komise se na základě posudku oponenta, hodnocení vedoucího, přednesené prezentace a odpovědí studenta na položené otázky rozhodla práci hodnotit stupněm C. Otázky u obhajoby: Mohl byste vysvětlit testování rychlosti Vašeho nástroje oproti Tika v kapitole 7.2? Co se vlastně srovnává a proč?cs
but.jazykčeština (Czech)
but.programInformační technologiecs
but.resultpráce byla úspěšně obhájenacs
dc.contributor.advisorRychlý, Marekcs
dc.contributor.authorRešetár, Renécs
dc.contributor.refereeBurget, Radekcs
dc.date.created2021cs
dc.description.abstractCieľom bakalárskej práce bolo rozšíriť syntaktické analyzátory projektu Apache Tika o extrakciu tabuliek a dát z priemyslových formátov dokumentov z laboratórnych prístrojov. Tieto dáta majú byť uložené v štruktúrovanom formáte podľa určitej schémy. V teoretickej časti boli preskúmané dodané industriálne formáty, projekt Apache Tika a možnosti jeho rozšírenia. V praktickej časti bol navrhnutý a implementovaný nástroj, ktorý dokumenty pomocou projektu Apache Tika klasifikuje, spracuje, vytvára z nich štruktúrované dáta vo formáte JSON a tie následne validuje. Na záver bola vytvorená sada testov pre overenie a demonštráciu vlastností riešenia.cs
dc.description.abstractThe goal of the bachelor's thesis was to extend the parsers of the Apache Tika project with data and table extraction from industrial document formats from laboratory instruments. These data will be stored in a structured format according to a certain scheme. In the theoretical part, the supplied industrial formats, the Apache Tika project and the possibilities of its expansion were examined. In the practical part, a tool was designed and implemented, which classifies documents using the Apache Tika project, processes them, creates structured data from them in the JSON format and subsequently validates them. Finally, a set of tests was created to verify and demonstrate the properties of the solution.en
dc.description.markCcs
dc.identifier.citationREŠETÁR, R. Rozšíření Apache Tika o extrakci textu ze souborů průmyslových formátů [online]. Brno: Vysoké učení technické v Brně. Fakulta informačních technologií. 2021.cs
dc.identifier.other136487cs
dc.identifier.urihttp://hdl.handle.net/11012/199350
dc.language.isocscs
dc.publisherVysoké učení technické v Brně. Fakulta informačních technologiícs
dc.rightsStandardní licenční smlouva - přístup k plnému textu bez omezenícs
dc.subjectJavacs
dc.subjectApache Tikacs
dc.subjectMavencs
dc.subjectwekacs
dc.subject.arffcs
dc.subjectJSONcs
dc.subjectpdfcs
dc.subjectxlsxcs
dc.subjectcsvcs
dc.subjectsoftwarecs
dc.subjectlaboratóriacs
dc.subjectkontrolné laboratóriacs
dc.subjectbez papierové laboratóriumcs
dc.subjectSVPcs
dc.subjectfarmaceutický priemyselcs
dc.subjectintegrita dátcs
dc.subjectService Providercs
dc.subjectštruktúrované dátacs
dc.subjectMIME-typycs
dc.subjectextrakcia dátcs
dc.subjectextrakcia tabuliekcs
dc.subjectJavaen
dc.subjectApache Tikaen
dc.subjectMavenen
dc.subjectwekaen
dc.subject.arffen
dc.subjectJSONen
dc.subjectpdfen
dc.subjectxlsxen
dc.subjectcsven
dc.subjectsoftwareen
dc.subjectlaboratoriesen
dc.subjectcontrol laboratoriesen
dc.subjectnon-paper laboratoriesen
dc.subjectSVPen
dc.subjectfarmaceutic industryen
dc.subjectdata integrityen
dc.subjectService Provideren
dc.subjectstructured dataen
dc.subjectMIME-typesen
dc.subjectdata extractionen
dc.subjecttable extractionen
dc.titleRozšíření Apache Tika o extrakci textu ze souborů průmyslových formátůcs
dc.title.alternativeExtension of Apache Tika with Industrial File Formats Text Extractionen
dc.typeTextcs
dc.type.driverbachelorThesisen
dc.type.evskpbakalářská prácecs
dcterms.dateAccepted2021-06-14cs
dcterms.modified2021-06-19-12:15:44cs
eprints.affiliatedInstitution.facultyFakulta informačních technologiícs
sync.item.dbid136487en
sync.item.dbtypeZPen
sync.item.insts2025.03.18 19:35:25en
sync.item.modts2025.01.15 18:36:20en
thesis.disciplineInformační technologiecs
thesis.grantorVysoké učení technické v Brně. Fakulta informačních technologií. Ústav informačních systémůcs
thesis.levelBakalářskýcs
thesis.nameBc.cs
Files
Original bundle
Now showing 1 - 4 of 4
Loading...
Thumbnail Image
Name:
final-thesis.pdf
Size:
1.32 MB
Format:
Adobe Portable Document Format
Description:
final-thesis.pdf
Loading...
Thumbnail Image
Name:
Posudek-Vedouci prace-23586_v.pdf
Size:
86.43 KB
Format:
Adobe Portable Document Format
Description:
Posudek-Vedouci prace-23586_v.pdf
Loading...
Thumbnail Image
Name:
Posudek-Oponent prace-23586_o.pdf
Size:
88.42 KB
Format:
Adobe Portable Document Format
Description:
Posudek-Oponent prace-23586_o.pdf
Loading...
Thumbnail Image
Name:
review_136487.html
Size:
1.47 KB
Format:
Hypertext Markup Language
Description:
file review_136487.html
Collections