Analýza rozložení stran textových dokumentů pomocí hlubokých neuronových sítí

but.committeeprof. Ing. Adam Herout, Ph.D. (předseda) doc. Mgr. Adam Rogalewicz, Ph.D. (místopředseda) doc. Ing. Michal Bidlo, Ph.D. (člen) doc. Ing. Martin Čadík, Ph.D. (člen) Ing. Zbyněk Křivka, Ph.D. (člen)cs
but.defenceStudent nejprve prezentoval výsledky, kterých dosáhl v rámci své práce. Komise se poté seznámila s hodnocením vedoucího a posudkem oponenta práce. Student následně odpověděl na otázky přítomných. Komise se na základě posudku oponenta, hodnocení vedoucího, přednesené prezentace a odpovědí studenta na položené otázky rozhodla práci hodnotit stupněm B. Otázky u obhajoby: Co v kontextu Vaši práce znamená "batch"? Jakým způsobem jste v práci počítal úspěšnost? V práci vybíráte odstavce na základě jejich velikosti. Proč?cs
but.jazykčeština (Czech)
but.programInformační technologiecs
but.resultpráce byla úspěšně obhájenacs
dc.contributor.advisorKodym, Oldřichcs
dc.contributor.authorEndrych, Davidcs
dc.contributor.refereeHerout, Adamcs
dc.date.created2019cs
dc.description.abstractCílem této bakalářské práce je vytvořit nástroj pro analýzu rozložení stran textových dokumentů. Problém je řešen pomocí konvolučních neuronových sítí. Architekturou zvolenou v téhle bakalářské práci je architektura U-Net. Pro trénování modelu sítě se používá chybová funkce cross entropy s použitím mapy vah. Pomocí hledání spojitých komponent dochází k získávání regionů odstavců. Experimenty se vyhodnocují pomocí objektové metriky Symmetric Best Dice. Z experimentů vyplynulo, že je lepší používat všechny hrany odstavců než se zaměřovat pouze na vertikální hrany odstavců. Dále experimenty ukazují, že trénovací strategie vzorkování batche a adaptativní rozlišení pomáhají ke zlepšení výsledků analýzy. V experimentech je také popsána aplikace separátorů, která je užitečná při analýze vícesloupcových dokumentů.cs
dc.description.abstractThe goal of this thesis is to create a tool for analyzig the page layouts of text documents. The problem is solved by convolution neural networks. The architecture chosen in this thesis is the U-Net architecture. The cross entropy error function with weight map is used for train the network model. Paragraph regions are obtained throught connected component analysis. Experiments are evaluated using the Symmetric Best Dice object metric. Experiments have shown that it is better to use all paragraph edges than to focus only on vertical paragraph edges. In addition, experiments show that batche sampling strategies and adaptive resolution help to improve analysis results. The experiments also describe the application of separators, which is useful in analyzing multi-column documents.en
dc.description.markBcs
dc.identifier.citationENDRYCH, D. Analýza rozložení stran textových dokumentů pomocí hlubokých neuronových sítí [online]. Brno: Vysoké učení technické v Brně. Fakulta informačních technologií. 2019.cs
dc.identifier.other121886cs
dc.identifier.urihttp://hdl.handle.net/11012/180113
dc.language.isocscs
dc.publisherVysoké učení technické v Brně. Fakulta informačních technologiícs
dc.rightsStandardní licenční smlouva - přístup k plnému textu bez omezenícs
dc.subjectpočítačové viděnícs
dc.subjecthluboké neuronové sítěcs
dc.subjectanalýza rozložení strancs
dc.subjectsegmentace obrazucs
dc.subjectU-Netcs
dc.subjectumělá inteligencecs
dc.subjectcomputer visionen
dc.subjectdeep neural networksen
dc.subjectpage layout analysisen
dc.subjectimage segmentationen
dc.subjectU-Neten
dc.subjectartificial intelligenceen
dc.titleAnalýza rozložení stran textových dokumentů pomocí hlubokých neuronových sítícs
dc.title.alternativeConvolutional Networks for Document Layout Analysisen
dc.typeTextcs
dc.type.driverbachelorThesisen
dc.type.evskpbakalářská prácecs
dcterms.dateAccepted2019-06-11cs
dcterms.modified2019-07-08-13:31:16cs
eprints.affiliatedInstitution.facultyFakulta informačních technologiícs
sync.item.dbid121886en
sync.item.dbtypeZPen
sync.item.insts2025.03.18 19:09:50en
sync.item.modts2025.01.17 11:49:19en
thesis.disciplineInformační technologiecs
thesis.grantorVysoké učení technické v Brně. Fakulta informačních technologií. Ústav počítačové grafiky a multimédiícs
thesis.levelBakalářskýcs
thesis.nameBc.cs
Files
Original bundle
Now showing 1 - 4 of 4
Loading...
Thumbnail Image
Name:
final-thesis.pdf
Size:
9.85 MB
Format:
Adobe Portable Document Format
Description:
final-thesis.pdf
Loading...
Thumbnail Image
Name:
Posudek-Vedouci prace-20900_v.pdf
Size:
85.92 KB
Format:
Adobe Portable Document Format
Description:
Posudek-Vedouci prace-20900_v.pdf
Loading...
Thumbnail Image
Name:
Posudek-Oponent prace-20900_o.pdf
Size:
87.02 KB
Format:
Adobe Portable Document Format
Description:
Posudek-Oponent prace-20900_o.pdf
Loading...
Thumbnail Image
Name:
review_121886.html
Size:
1.48 KB
Format:
Hypertext Markup Language
Description:
file review_121886.html
Collections