Extrakce informací z osobních dokladů
but.committee | doc. Ing. Vladislav Škorpil, CSc. (předseda) prof. Mgr. Pavel Rajmic, Ph.D. (místopředseda) Ing. Tomáš Caha (člen) Ing. Ondřej Krajsa, Ph.D. (člen) Ing. Radim Číž, Ph.D. (člen) | cs |
but.defence | Student prezentoval výsledky své práce a komise byla seznámena s posudky. Student obhájil bakalářskou práci a odpověděl na otázky členů komise a oponenta. Otázky oponenta: Proč jste použil pro OCR právě Tesseract 4, v čem se liší od Google Cloud Vision? Proč je metoda v ukázce a na GitHubu velkým písmenem (Extractor.Process), zatímco při volání z nuget balíčku je nutno ji volat s malým písmenem (Extractor.process)? | cs |
but.jazyk | slovenština (Slovak) | |
but.program | Telekomunikační a informační systémy | cs |
but.result | práce byla úspěšně obhájena | cs |
dc.contributor.advisor | Caha, Tomáš | sk |
dc.contributor.author | Hudcovský, Erik | sk |
dc.contributor.referee | Lattenberg, Ivo | sk |
dc.date.created | 2020 | cs |
dc.description.abstract | Táto práca sa zaoberá spracovaním informácií z osobných dokladov (občianskeho preukazu alebo cestovného pasu) do formy, ktorá je ďalej jednoducho spracovateľná pre počítače a celkovo pre IT odvetvie. Toto spracovanie je implementované aplikáciou, ktorú som v rámci mojej bakalárskej práce vypracoval. Aplikácia obsahuje na vstupe naskenovaný doklad, typ dokladu a formu požadovaného výstupu. Na výstupe dostaneme typ dokladu v požadovanom formáte. Celá aplikácia používa ku svojmu fungovaniu externý OCR nástroj (OpticalCharacter Recognition, v preklade Optické rozoznávanie znakov), ktorý je implementovaný tak, aby sa dal čo najjednoduchšie nahradiť iným OCR nástrojom. V mojej aplikácií som použil Tesseract. Tento OCR nástroj je v rámci bezplatných OCR nástrojov ten najjednoduchší a najpresnejší zároveň. Taktiež má stále silnú podporu komunity a je naďalej rozvíjaný. V tejto práci som sa taktiež venoval jeho testovaniu, ako na mnou vytvorených vzorkách textu, tak aj na reálnych skenoch dokladov. Aplikácia je tiež spracovaná ako inštalačný balíček, takže môže byť jednoducho importovaná do iných projektov. Celá aplikácia je vystavená ako OpenSource na GitHube pod slobodnou licenciou MIT. | sk |
dc.description.abstract | This thesis is about the processing information from personal documents (ID card or passport) into the form that is further easily to be processed for computers and the IT industry in general. This process is implemented by the application I developed as part of my bachelor's thesis. The application contains the scanned document, the document type and the form of the required output. As the output we get the document type in the required format. The entire application is using in process an external OCR tool (OpticalCharacter Recognition), which is implemented so that it can be easily replaced by another OCR tool. I used Tesseract in my application. This OCR tool is the simpliest and most accurate of the free OCR tools at the same time. It also has strong community support and is still being developed. In this thesis, I also focused on its testing, both on the samples of text I created, and on real scans of documents. The application is also processed as an installation package, so it can be easily imported into other projects. The entire application is displayed as OpenSource on GitHube under the free license of MIT. | en |
dc.description.mark | B | cs |
dc.identifier.citation | HUDCOVSKÝ, E. Extrakce informací z osobních dokladů [online]. Brno: Vysoké učení technické v Brně. Fakulta elektrotechniky a komunikačních technologií. 2020. | cs |
dc.identifier.other | 125961 | cs |
dc.identifier.uri | http://hdl.handle.net/11012/190283 | |
dc.language.iso | sk | cs |
dc.publisher | Vysoké učení technické v Brně. Fakulta elektrotechniky a komunikačních technologií | cs |
dc.rights | Standardní licenční smlouva - přístup k plnému textu bez omezení | cs |
dc.subject | extrakcia informácií | sk |
dc.subject | identifikačné doklady | sk |
dc.subject | optické rozoznávanie znakov | sk |
dc.subject | tesseract | sk |
dc.subject | information extraction | en |
dc.subject | identification cards | en |
dc.subject | optical character recognizion | en |
dc.subject | tesseract | en |
dc.title | Extrakce informací z osobních dokladů | sk |
dc.title.alternative | Extraction of information from identity documents | en |
dc.type | Text | cs |
dc.type.driver | bachelorThesis | en |
dc.type.evskp | bakalářská práce | cs |
dcterms.dateAccepted | 2020-06-23 | cs |
dcterms.modified | 2020-09-07-08:37:19 | cs |
eprints.affiliatedInstitution.faculty | Fakulta elektrotechniky a komunikačních technologií | cs |
sync.item.dbid | 125961 | en |
sync.item.dbtype | ZP | en |
sync.item.insts | 2025.03.17 00:44:41 | en |
sync.item.modts | 2025.01.17 09:55:31 | en |
thesis.discipline | bez specializace | cs |
thesis.grantor | Vysoké učení technické v Brně. Fakulta elektrotechniky a komunikačních technologií. Ústav telekomunikací | cs |
thesis.level | Bakalářský | cs |
thesis.name | Bc. | cs |
Files
Original bundle
1 - 3 of 3
Loading...
- Name:
- final-thesis.pdf
- Size:
- 11.69 MB
- Format:
- Adobe Portable Document Format
- Description:
- final-thesis.pdf
Loading...
- Name:
- review_125961.html
- Size:
- 5.05 KB
- Format:
- Hypertext Markup Language
- Description:
- file review_125961.html