Automatické rozpoznávání tabulek pomocí neuronových sítí

but.committeeprof. Dr. Ing. Pavel Zemčík, dr. h. c. (předseda) doc. Ing. Martin Čadík, Ph.D. (místopředseda) Ing. Vítězslav Beran, Ph.D. (člen) Ing. Roman Juránek, Ph.D. (člen) Ing. Zbyněk Křivka, Ph.D. (člen) Ing. Tomáš Milet, Ph.D. (člen)cs
but.defenceStudent nejprve prezentoval výsledky, kterých dosáhl v rámci své práce. Komise se poté seznámila s hodnocením vedoucího a posudkem oponenta práce. Student následně odpověděl na otázky oponenta a na další otázky přítomných. Komise se na základě posudku oponenta, hodnocení vedoucího, přednesené prezentace a odpovědí studenta na položené otázky rozhodla práci hodnotit stupněm A. Otázky u obhajoby: Jak byly trénovány CNN pro extrakci vizuálních příznaků pro buňky a hrany? Využíváte nějak informaci o klasifikaci buněk z trénovacích dat? Výstupy OCR využíváte jako vstup Vaší metody i pro tvorbu ground truth anotací. Jak kvalitní jsou výstupy OCR a jaký mají dopad na přesnost  rozpoznání tabulek? Zvládá kupříkladu vertikální text? Jak si poradí s textem přetékajícím do sousedních buněk? Dle tabulky 6.2 se zdá, že detekce strukturovaných záhlaví je problematická a síť buňky záhlaví klasifikuje jako datové. Zvažoval jste řešení pro tento problém? Problematická je i detekce prázdných buňek. Jsou prázdné buňky významné pro další zpracování rozpoznaných tabulek? Jak by vypadaly výsledky Vaší metody, pokud byste prázdné buňky při výpočtu metrik vyloučil?cs
but.jazykangličtina (English)
but.programInformační technologie a umělá inteligencecs
but.resultpráce byla úspěšně obhájenacs
dc.contributor.advisorHradiš, Michalen
dc.contributor.authorPiwowarski, Lukášen
dc.contributor.refereeŠpaněl, Michalen
dc.date.accessioned2022-06-24T06:55:47Z
dc.date.available2022-06-24T06:55:47Z
dc.date.created2022cs
dc.description.abstractTato práce seznamuje čtenáře se současnými technikami rozpoznávání tabulek, které se používají především k získávání informací z ručně psaných nebo tištěných historických tabulek. Představujeme také metodu založenou na grafové neuronové síti, která je inspirována představenými přístupy. Metoda se skládá ze tří fází: fáze inicializace grafu, fáze klasifikace uzlů/hran a fáze transformace grafu na text. Ve fázi inicializace grafu používáme algoritmus viditelnosti uzlů a OCR k vytvoření počáteční grafové reprezentace vstupní tabulky. Ve fázi klasifikace uzlů a hran jsou uzly a hrany klasifikovány a ve fázi transformace grafu na text zarovnáváme uzly grafu do mřížky, která je pak použita k vytvoření konečné textové reprezentace tabulky. Náš implementovaný model byl schopen dosáhnout přesnosti 68 % u detekce horizontálních sousedů, přesnosti 71 % u detekce vertikálních sousedů a přesnosti 83 % u detekce buněk na datové sadě ABP.en
dc.description.abstractThis thesis introduces the reader to the current table recognition techniques mainly used to extract information from historical handwritten and printed tables. We also introduce a method based on graph neural network, which is inspired by the presented techniques. The method consists of three phases: graph initialization, node/edge classification and graph to text transformation phase. In the graph initialization phase, we use the node visibility algorithm and OCR to create an initial graph representation of the input table. In the node and edge classification phase, the nodes and edges are classified, and in the graph to text transformation phase, we fit the graph's nodes into a grid which is then used to produce the final text representation of the table. The implemented model achieved horizontal neighbours detection precision of 68 %, vertical neighbours detection precision of 71 % and cell detection precision of 85 % on the ABP dataset.cs
dc.description.markAcs
dc.identifier.citationPIWOWARSKI, L. Automatické rozpoznávání tabulek pomocí neuronových sítí [online]. Brno: Vysoké učení technické v Brně. Fakulta informačních technologií. 2022.cs
dc.identifier.other145454cs
dc.identifier.urihttp://hdl.handle.net/11012/207853
dc.language.isoencs
dc.publisherVysoké učení technické v Brně. Fakulta informačních technologiícs
dc.rightsStandardní licenční smlouva - přístup k plnému textu bez omezenícs
dc.subjectrozpoznávání tabuleken
dc.subjectgrafové neuronové sítěen
dc.subjectneuronová síť Transformeren
dc.subjectnalezení hranen
dc.subjectnalezení uzlůen
dc.subjectopticke rozpoznávání znakůen
dc.subjectinicializace grafuen
dc.subjecthodnocení rozpoznávání tabuleken
dc.subjecttable recognitioncs
dc.subjectgraph neural networkcs
dc.subjecttransformer neural networkcs
dc.subjectedge discovercs
dc.subjectnode discoverycs
dc.subjectoptical character recognitioncs
dc.subjecttable recognition datasetscs
dc.subjectgraph initializationcs
dc.subjecttable recognition evaluationcs
dc.titleAutomatické rozpoznávání tabulek pomocí neuronových sítíen
dc.title.alternativeNeural Networks for Automatic Table Recognitioncs
dc.typeTextcs
dc.type.drivermasterThesisen
dc.type.evskpdiplomová prácecs
dcterms.dateAccepted2022-06-20cs
dcterms.modified2022-06-23-09:13:55cs
eprints.affiliatedInstitution.facultyFakulta informačních technologiícs
sync.item.dbid145454en
sync.item.dbtypeZPen
sync.item.insts2022.06.24 08:55:47en
sync.item.modts2022.06.24 08:14:56en
thesis.disciplinePočítačové viděnícs
thesis.grantorVysoké učení technické v Brně. Fakulta informačních technologií. Ústav počítačové grafiky a multimédiícs
thesis.levelInženýrskýcs
thesis.nameIng.cs
Files
Original bundle
Now showing 1 - 4 of 4
Loading...
Thumbnail Image
Name:
final-thesis.pdf
Size:
15.59 MB
Format:
Adobe Portable Document Format
Description:
final-thesis.pdf
Loading...
Thumbnail Image
Name:
Posudek-Vedouci prace-24864_v.pdf
Size:
86.1 KB
Format:
Adobe Portable Document Format
Description:
Posudek-Vedouci prace-24864_v.pdf
Loading...
Thumbnail Image
Name:
Posudek-Oponent prace-24864_o.pdf
Size:
94.63 KB
Format:
Adobe Portable Document Format
Description:
Posudek-Oponent prace-24864_o.pdf
Loading...
Thumbnail Image
Name:
review_145454.html
Size:
1.46 KB
Format:
Hypertext Markup Language
Description:
review_145454.html
Collections