Detekce vizuálních vzorů ve webových stránkách
but.committee | doc. Dr. Ing. Dušan Kolář (předseda) prof. Ing. Tomáš Hruška, CSc. (místopředseda) Ing. Vladimír Bartík, Ph.D. (člen) Ing. Jiří Hynek, Ph.D. (člen) Ing. Vladimír Veselý, Ph.D. (člen) prof. Ing. Tomáš Vojnar, Ph.D. (člen) | cs |
but.defence | Student nejprve prezentoval výsledky, kterých dosáhl v rámci své práce. Komise se poté seznámila s hodnocením vedoucího a posudkem oponenta práce. Student následně odpověděl na otázky oponenta a na další otázky přítomných. Komise se na základě posudku oponenta, hodnocení vedoucího, přednesené prezentace a odpovědí studenta na položené otázky rozhodla práci hodnotit stupněm ... Otázky u obhajoby: Existuje nějaký algoritmus, který by se dal s vašim řešením porovnat? Pokud ano, stručně ho porovnejte s vašim řešením. Bylo by možné nahradit vstup ve formátu ontologie jiným, pro běžného uživatele jednodušším vstupem? Mohl byste uvést jak identifikujete jednotlivé části html stránek, například nadpis? | cs |
but.jazyk | čeština (Czech) | |
but.program | Informační technologie a umělá inteligence | cs |
but.result | práce byla úspěšně obhájena | cs |
dc.contributor.advisor | Burget, Radek | cs |
dc.contributor.author | Kotraš, Martin | cs |
dc.contributor.referee | Bartík, Vladimír | cs |
dc.date.accessioned | 2022-06-24T06:55:16Z | |
dc.date.available | 2022-06-24T06:55:16Z | |
dc.date.created | 2022 | cs |
dc.description.abstract | Práce řeší extrakci informací z webových stránek pomocí techniky vyhledávání vizuálních vzorů - prostorových vztahů mezi oblastmi na webové stránce a stejných vizuálních stylů těchto oblastí - s rozšířením o nové techniky zlepšení výsledků. Využívá přitom uživatelem zadaného ontologického modelu dat, který popisuje, které datové položky se budou ze zadané webové stránky extrahovat a jak jednotlivé položky na stránce vypadají zejména z textového pohledu. V rámci práce vznikla konzolová aplikace VizGet v jazyce Java využívající aplikační rámec FitLayout pro získání vizuálního modelu webové stránky. Testování aplikace na 7 různých doménách zahrnujících mj. žebříček nejlepších filmů, produktů v elektronickém obchodě nebo předpovědi počasí ukázalo, že se úspěšnost aplikace pohybuje ve zhruba 75 % dílčích testů nad 85 % F-skóre a ve více než 90 % testů nad 60 % F-skóre, kde 45 % testů dosahuje F-skóre 100 %. Aplikace VizGet tak může být nasazena pro praktické využití v nekritických aplikacích, přičemž je otevřena dalším rozšířením a možnostem zlepšení. | cs |
dc.description.abstract | The work solves the extraction of information from websites using the technique of searching for visual patterns - spatial relations between areas on the website and the same visual styles of these areas - with the extension of new techniques to improve results. It uses a user-specified ontological data model, which describes which data items will be extracted from the specified web page and how the individual items on the page look, mainly from a text point of view. As part of the work, a console application VizGet in Java was created using the FitLayout framework to obtain a visual model of the website. Testing the application on 7 different domains, including a list of the best movies, e-shop products, or weather forecasts, showed that the success rate of the application ranges in about 75 % of subtests above 85 % F-score and in more than 90 % of subtests above 60 % F-score, where 45 % of subtests achieve an F-score of 100 %. The VizGet application can thus be deployed for practical use in non-critical applications, while it is open to further extensions and possibilities for improvement. | en |
dc.description.mark | A | cs |
dc.identifier.citation | KOTRAŠ, M. Detekce vizuálních vzorů ve webových stránkách [online]. Brno: Vysoké učení technické v Brně. Fakulta informačních technologií. 2022. | cs |
dc.identifier.other | 145418 | cs |
dc.identifier.uri | http://hdl.handle.net/11012/207822 | |
dc.language.iso | cs | cs |
dc.publisher | Vysoké učení technické v Brně. Fakulta informačních technologií | cs |
dc.rights | Standardní licenční smlouva - přístup k plnému textu bez omezení | cs |
dc.subject | extrakce informací | cs |
dc.subject | extraktor | cs |
dc.subject | vizuální vzory | cs |
dc.subject | webové stránky | cs |
dc.subject | VizGet | cs |
dc.subject | FitLayout | cs |
dc.subject | information extraction | en |
dc.subject | extractor | en |
dc.subject | visual patterns | en |
dc.subject | web pages | en |
dc.subject | VizGet | en |
dc.subject | FitLayout | en |
dc.title | Detekce vizuálních vzorů ve webových stránkách | cs |
dc.title.alternative | Visual Pattern Detection in Web Pages | en |
dc.type | Text | cs |
dc.type.driver | masterThesis | en |
dc.type.evskp | diplomová práce | cs |
dcterms.dateAccepted | 2022-06-21 | cs |
dcterms.modified | 2022-06-23-09:13:52 | cs |
eprints.affiliatedInstitution.faculty | Fakulta informačních technologií | cs |
sync.item.dbid | 145418 | en |
sync.item.dbtype | ZP | en |
sync.item.insts | 2022.06.24 08:55:16 | en |
sync.item.modts | 2022.06.24 08:14:51 | en |
thesis.discipline | Informační systémy a databáze | cs |
thesis.grantor | Vysoké učení technické v Brně. Fakulta informačních technologií. Ústav informačních systémů | cs |
thesis.level | Inženýrský | cs |
thesis.name | Ing. | cs |
Files
Original bundle
1 - 4 of 4
Loading...
- Name:
- final-thesis.pdf
- Size:
- 1.82 MB
- Format:
- Adobe Portable Document Format
- Description:
- final-thesis.pdf
Loading...
- Name:
- Posudek-Vedouci prace-24460_v.pdf
- Size:
- 86.03 KB
- Format:
- Adobe Portable Document Format
- Description:
- Posudek-Vedouci prace-24460_v.pdf
Loading...
- Name:
- Posudek-Oponent prace-24460_o.pdf
- Size:
- 88.83 KB
- Format:
- Adobe Portable Document Format
- Description:
- Posudek-Oponent prace-24460_o.pdf
Loading...
- Name:
- review_145418.html
- Size:
- 1.45 KB
- Format:
- Hypertext Markup Language
- Description:
- review_145418.html