Automatizovaná extrakce informací z emailů

Kanda, Rastislav

Automatizovaná extrakce informací z emailů

but.committee	doc. RNDr. Pavel Smrž, Ph.D. (předseda) doc. Dr. Ing. Otto Fučík (místopředseda) doc. Mgr. Lukáš Holík, Ph.D. (člen) Ing. Igor Szőke, Ph.D. (člen) Ing. Vladimír Veselý, Ph.D. (člen)	cs
but.defence	Student nejprve prezentoval výsledky, kterých dosáhl v rámci své práce. Komise se poté seznámila s hodnocením vedoucího a posudkem oponenta práce. Student následně odpověděl na otázky oponenta a na další otázky přítomných. Komise se na základě posudku oponenta, hodnocení vedoucího, přednesené prezentace a odpovědí studenta na položené otázky rozhodla práci hodnotit stupněm B. Otázky u obhajoby: Na straně 20 píšete, že spolehlivost 51.9% při zpracování emailů je přijatelná. Na jakém základě jste toto hodnocení udělal a kde je hranice přijatelnosti a jak s určí? Můžete konkrétněji vysvětlit vaše konstatování v sekci 4.7, že "Byť webovou aplikáciou, znamená dokázať zvládnuť niekoľko požiadavkov v jeden moment."? Bude Vaše práce použita v praxi?	cs
but.jazyk	čeština (Czech)
but.program	Informační technologie	cs
but.result	práce byla úspěšně obhájena	cs
dc.contributor.advisor	Vídeňský, František	cs
dc.contributor.author	Kanda, Rastislav	cs
dc.contributor.referee	Zbořil, František	cs
dc.date.created	2019	cs
dc.description.abstract	Táto práca má za úlohu oboznámiť sa s možnosťami extrakcie informácií z textu. Na základe získaných poznatkov navrhnúť a implementovať systém, ktorý bude schopný získať potrebné informácie z emailových správ. Navrhnutý systém má pomôcť firme Kiwi.com s.r.o. v spracovávaní emailových správ od dopravných spoločností. V momentálnej sitácii je možné tieto emailové správy spracovávať automaticky. Avšak na to aby mohli byť automaticky spracované, je nutné manuálne vytvoriť šablónu pre extrakciu dát zo správy. Zmenou v tomto prístupe je algoritmus ROBULA+, ktorý dokáže po zadaní lokátoru XPath, vygenerovať robustnejší XPath lokátor, ktorý bude odolnejší voči zmenám štruktúry v zdrojovom kóde HTML. Algoritmus ROBULA+ je použitý ako centrálny prvok pri automatizácii vytvárania šablón pre spracovávanie emailových správ. Úspešnosť implementovaného systému je možné označiť za dostačujúcu (približne 75%), čo znamená že v troch zo štyroch správach je možné úspešne získať referenciu k vytvorenej rezervácii.	cs
dc.description.abstract	The purpose of this thesis is to familiarize oneself with methodology of information extraction from text. On the basis of acquired knowledge, propose a design and implement a system, which should be capable of gathering information from email messages. Proposed system should help Kiwi.com s.r.o. with processing of incoming email messages from travel companies. In current situation it is possible to process those email messages automatically. However, to process those messages automatically, it is necessary to manually create a template suitable for extraction. Possible alteration could be algorithm ROBULA+, which can generate more robust XPath locator from given XPath locator. These locators should be more resistant to changes in the HTML structure. ROBULA+ algorithm is a central point of automated creation of templates suitable for parsing email messages. Implemented system can be qualified with satisfactory successivity (approximately 75%). This means that system is able to find reference to created reservation in three out of four cases.	en
dc.description.mark	B	cs
dc.identifier.citation	KANDA, R. Automatizovaná extrakce informací z emailů [online]. Brno: Vysoké učení technické v Brně. Fakulta informačních technologií. 2019.	cs
dc.identifier.other	122122	cs
dc.identifier.uri	http://hdl.handle.net/11012/180238
dc.language.iso	cs	cs
dc.publisher	Vysoké učení technické v Brně. Fakulta informačních technologií	cs
dc.rights	Standardní licenční smlouva - přístup k plnému textu bez omezení	cs
dc.subject	extrakcia informácií	cs
dc.subject	email	cs
dc.subject	ROBULA+	cs
dc.subject	automatizácia	cs
dc.subject	REST API	cs
dc.subject	XPath	cs
dc.subject	Python	cs
dc.subject	information extraction	en
dc.subject	email	en
dc.subject	ROBULA+	en
dc.subject	automation	en
dc.subject	REST API	en
dc.subject	XPath	en
dc.subject	Python	en
dc.title	Automatizovaná extrakce informací z emailů	cs
dc.title.alternative	Automated Extraction of Information from Emails	en
dc.type	Text	cs
dc.type.driver	bachelorThesis	en
dc.type.evskp	bakalářská práce	cs
dcterms.dateAccepted	2019-06-10	cs
dcterms.modified	2019-07-08-13:31:29	cs
eprints.affiliatedInstitution.faculty	Fakulta informačních technologií	cs
sync.item.dbid	122122	en
sync.item.dbtype	ZP	en
sync.item.insts	2025.03.18 19:25:17	en
sync.item.modts	2025.01.16 00:10:54	en
thesis.discipline	Informační technologie	cs
thesis.grantor	Vysoké učení technické v Brně. Fakulta informačních technologií. Ústav inteligentních systémů	cs
thesis.level	Bakalářský	cs
thesis.name	Bc.	cs

Files

Original bundle

Now showing 1 - 4 of 4

Name:: final-thesis.pdf
Size:: 1.03 MB
Format:: Adobe Portable Document Format
Description:: final-thesis.pdf

Download

Name:: Posudek-Vedouci prace-22028_v.pdf
Size:: 85.4 KB
Format:: Adobe Portable Document Format
Description:: Posudek-Vedouci prace-22028_v.pdf

Download

Name:: Posudek-Oponent prace-22028_o.pdf
Size:: 88.85 KB
Format:: Adobe Portable Document Format
Description:: Posudek-Oponent prace-22028_o.pdf

Download

Name:: review_122122.html
Size:: 1.45 KB
Format:: Hypertext Markup Language
Description:: file review_122122.html

Download

Collections

2019