Skripty pro hromadnou úpravu fontů v PDF dokumentech

but.committeedoc. Ing. Jiří Mekyska, Ph.D. (předseda) prof. Ing. Miroslav Vozňák, Ph.D. (místopředseda) Ing. Pavel Hanák, Ph.D. (člen) Ing. Jaromír Hrad, Ph.D. (člen) Ing. et Ing. Petr Musil (člen) Ing. Kryštof Novotný (člen) doc. Ing. Petr Sysel, Ph.D. (člen)cs
but.defenceStudent prezentoval výsledky své práce a komise byla seznámena s posudky. Otázky oponenta: Při opravě kódování a vytváření ToUnicode objektu využíváte relativně velké množství pomocných údajů a knihoven. Nedalo by se využít pro získání unicode reprezentace daného znaku využít OCR? Co by bylo potřeba upravit pro zautomatizování celého procesu, respektive sjednocení jednotlivých standalone souborů (opravAR.exe a Type1toUnicode.exe)? Student obhájil diplomovou práci a odpověděl na otázky členů komise a oponenta.cs
but.jazykslovenština (Slovak)
but.programTelekomunikační a informační technikacs
but.resultpráce byla úspěšně obhájenacs
dc.contributor.advisorHanák, Pavelsk
dc.contributor.authorGmitter, Jakubsk
dc.contributor.refereeZeman, Kryštofsk
dc.date.created2024cs
dc.description.abstractDiplomová práca sa venuje problematike kódovania fontov v PDF dokumentoch. Správne kódovanie fontov je potrebné pre vyhľadávanie v dokumente a kopírovanie textu z dokumentu. Práca obsahuje popis vnútornej štruktúry PDF dokumentov, reprezentáciu strán, typy fontov a ich kódovanie a dôležité objekty potrebné pre správnu reprezentáciu fontov. Znalosti z týchto oblastí sú kľúčové pre vývoj skriptov na opravu kódovania fontov. V rámci diplomovej práce boli vytvorené dva skripty v jazyku Python. Prvý zo skriptov overuje integritu opravovaných PDF súborov pomocou hešov SHA-256 vypočítaných z ich obsahu. Druhý skript opravuje poškodené kódovania fontov v dokumentoch. Potrebné informácie pre funkčnosť oboch skriptov boli uložené do zodpovedajúcich JSON štruktúr. Opravný skript sa zameriava na PostSciptové fonty typu 1. Kľúčovým prvkom opravného skriptu je generovanie objektu ToUnicode, ktorý v rámci fontu správne mapuje glyfy na Unicode kódy. Skript bol testovaný na približne 200 elektronických vydaniach českého časopisu, ktoré boli poskytnuté ako vzorové údaje. Zo vzorových súborov boli vybrané tie, ktoré mali kompletne poškodené kódovania fontov. Ostatné vzorové časopisy mali poškodené iba kódovanie znakov s diakritickými znamienkami. Tieto časopisy boli analyzované, ale skript ich nedokáže opraviť. Komentované zdrojové kódy jazyka Python, skompilované spustiteľné súbory systému Windows a používateľská príručka sú k dispozícii v elektronickej prílohe a v autorovom GitHub repoziráti.sk
dc.description.abstractMaster's thesis deals with the issue of font encoding in PDF documents. Proper font encoding is necessary for searching and copying text from such documents. Thesis includes a description of the internal structure of PDF documents, page representation, font types and their encoding, and important objects needed for proper font representation. Understanding of these areas was necessary for development of scripts that are able to repair incorrect font encoding. Two Python scripts were developed as part of the thesis. The first one verifies the integrity of repaired PDF files using SHA-256 hashes computed from their contents. The second script repairs corrupted font encodings in the documents. The necessary information for the functionality of both scripts has been stored in the corresponding JSON structures. The repair script targets PostScipt fonts of type 1. Core function of the repair script is the generation of a ToUnicode object that correctly maps glyphs to Unicode codes within the font. The script has been tested on approximately 200 electronic issues of a Czech magazine that have been provided as sample data. From these sample files, only those that had completely corrupted font encodings were chosen for further work. Other sample magazines only had corrupt encoding of characters with diacritical marks. These magazines were analyzed, but the script is unable to repair them. Commented Python source code, compiled Windows executables and a user guide are available in the electronic attachment and in the author's GitHub repository.en
dc.description.markAcs
dc.identifier.citationGMITTER, J. Skripty pro hromadnou úpravu fontů v PDF dokumentech [online]. Brno: Vysoké učení technické v Brně. Fakulta elektrotechniky a komunikačních technologií. 2024.cs
dc.identifier.other159139cs
dc.identifier.urihttp://hdl.handle.net/11012/246071
dc.language.isoskcs
dc.publisherVysoké učení technické v Brně. Fakulta elektrotechniky a komunikačních technologiícs
dc.rightsStandardní licenční smlouva - přístup k plnému textu bez omezenícs
dc.subjectFontsk
dc.subjectJSONsk
dc.subjectPDFsk
dc.subjectPythonsk
dc.subjectSkriptsk
dc.subjectUnicodesk
dc.subjectFonten
dc.subjectJSONen
dc.subjectPDFen
dc.subjectPythonen
dc.subjectScripten
dc.subjectUnicodeen
dc.titleSkripty pro hromadnou úpravu fontů v PDF dokumentechsk
dc.title.alternativeScripts for automated editing of fonts in PDF filesen
dc.typeTextcs
dc.type.drivermasterThesisen
dc.type.evskpdiplomová prácecs
dcterms.dateAccepted2024-06-06cs
dcterms.modified2024-06-07-07:50:53cs
eprints.affiliatedInstitution.facultyFakulta elektrotechniky a komunikačních technologiícs
sync.item.dbid159139en
sync.item.dbtypeZPen
sync.item.insts2025.03.26 14:41:58en
sync.item.modts2025.01.17 09:50:40en
thesis.disciplinebez specializacecs
thesis.grantorVysoké učení technické v Brně. Fakulta elektrotechniky a komunikačních technologií. Ústav telekomunikacícs
thesis.levelInženýrskýcs
thesis.nameIng.cs
Files
Original bundle
Now showing 1 - 3 of 3
Loading...
Thumbnail Image
Name:
final-thesis.pdf
Size:
2.17 MB
Format:
Adobe Portable Document Format
Description:
file final-thesis.pdf
Loading...
Thumbnail Image
Name:
appendix-1.zip
Size:
14.29 MB
Format:
Unknown data format
Description:
file appendix-1.zip
Loading...
Thumbnail Image
Name:
review_159139.html
Size:
4.71 KB
Format:
Hypertext Markup Language
Description:
file review_159139.html
Collections