Detekce vizuálních vzorů ve webových stránkách

but.committeedoc. Dr. Ing. Dušan Kolář (předseda) prof. Ing. Tomáš Hruška, CSc. (místopředseda) Ing. Vladimír Bartík, Ph.D. (člen) Ing. Jiří Hynek, Ph.D. (člen) Ing. Vladimír Veselý, Ph.D. (člen) prof. Ing. Tomáš Vojnar, Ph.D. (člen)cs
but.defenceStudent nejprve prezentoval výsledky, kterých dosáhl v rámci své práce. Komise se poté seznámila s hodnocením vedoucího a posudkem oponenta práce. Student následně odpověděl na otázky oponenta a na další otázky přítomných. Komise se na základě posudku oponenta, hodnocení vedoucího, přednesené prezentace a odpovědí studenta na položené otázky rozhodla práci hodnotit stupněm ... Otázky u obhajoby: Existuje nějaký algoritmus, který by se dal s vašim řešením porovnat? Pokud ano, stručně ho porovnejte s vašim řešením. Bylo by možné nahradit vstup ve formátu ontologie jiným, pro běžného uživatele jednodušším vstupem? Mohl byste uvést jak identifikujete jednotlivé části html stránek, například nadpis?cs
but.jazykčeština (Czech)
but.programInformační technologie a umělá inteligencecs
but.resultpráce byla úspěšně obhájenacs
dc.contributor.advisorBurget, Radekcs
dc.contributor.authorKotraš, Martincs
dc.contributor.refereeBartík, Vladimírcs
dc.date.accessioned2022-06-24T06:55:16Z
dc.date.available2022-06-24T06:55:16Z
dc.date.created2022cs
dc.description.abstractPráce řeší extrakci informací z webových stránek pomocí techniky vyhledávání vizuálních vzorů - prostorových vztahů mezi oblastmi na webové stránce a stejných vizuálních stylů těchto oblastí - s rozšířením o nové techniky zlepšení výsledků. Využívá přitom uživatelem zadaného ontologického modelu dat, který popisuje, které datové položky se budou ze zadané webové stránky extrahovat a jak jednotlivé položky na stránce vypadají zejména z textového pohledu. V rámci práce vznikla konzolová aplikace VizGet v jazyce Java využívající aplikační rámec FitLayout pro získání vizuálního modelu webové stránky. Testování aplikace na 7 různých doménách zahrnujících mj. žebříček nejlepších filmů, produktů v elektronickém obchodě nebo předpovědi počasí ukázalo, že se úspěšnost aplikace pohybuje ve zhruba 75 % dílčích testů nad 85 % F-skóre a ve více než 90 % testů nad 60 % F-skóre, kde 45 % testů dosahuje F-skóre 100 %. Aplikace VizGet tak může být nasazena pro praktické využití v nekritických aplikacích, přičemž je otevřena dalším rozšířením a možnostem zlepšení.cs
dc.description.abstractThe work solves the extraction of information from websites using the technique of searching for visual patterns - spatial relations between areas on the website and the same visual styles of these areas - with the extension of new techniques to improve results. It uses a user-specified ontological data model, which describes which data items will be extracted from the specified web page and how the individual items on the page look, mainly from a text point of view. As part of the work, a console application VizGet in Java was created using the FitLayout framework to obtain a visual model of the website. Testing the application on 7 different domains, including a list of the best movies, e-shop products, or weather forecasts, showed that the success rate of the application ranges in about 75 % of subtests above 85 % F-score and in more than 90 % of subtests above 60 % F-score, where 45 % of subtests achieve an F-score of 100 %. The VizGet application can thus be deployed for practical use in non-critical applications, while it is open to further extensions and possibilities for improvement.en
dc.description.markAcs
dc.identifier.citationKOTRAŠ, M. Detekce vizuálních vzorů ve webových stránkách [online]. Brno: Vysoké učení technické v Brně. Fakulta informačních technologií. 2022.cs
dc.identifier.other145418cs
dc.identifier.urihttp://hdl.handle.net/11012/207822
dc.language.isocscs
dc.publisherVysoké učení technické v Brně. Fakulta informačních technologiícs
dc.rightsStandardní licenční smlouva - přístup k plnému textu bez omezenícs
dc.subjectextrakce informacícs
dc.subjectextraktorcs
dc.subjectvizuální vzorycs
dc.subjectwebové stránkycs
dc.subjectVizGetcs
dc.subjectFitLayoutcs
dc.subjectinformation extractionen
dc.subjectextractoren
dc.subjectvisual patternsen
dc.subjectweb pagesen
dc.subjectVizGeten
dc.subjectFitLayouten
dc.titleDetekce vizuálních vzorů ve webových stránkáchcs
dc.title.alternativeVisual Pattern Detection in Web Pagesen
dc.typeTextcs
dc.type.drivermasterThesisen
dc.type.evskpdiplomová prácecs
dcterms.dateAccepted2022-06-21cs
dcterms.modified2022-06-23-09:13:52cs
eprints.affiliatedInstitution.facultyFakulta informačních technologiícs
sync.item.dbid145418en
sync.item.dbtypeZPen
sync.item.insts2022.06.24 08:55:16en
sync.item.modts2022.06.24 08:14:51en
thesis.disciplineInformační systémy a databázecs
thesis.grantorVysoké učení technické v Brně. Fakulta informačních technologií. Ústav informačních systémůcs
thesis.levelInženýrskýcs
thesis.nameIng.cs
Files
Original bundle
Now showing 1 - 4 of 4
Loading...
Thumbnail Image
Name:
final-thesis.pdf
Size:
1.82 MB
Format:
Adobe Portable Document Format
Description:
final-thesis.pdf
Loading...
Thumbnail Image
Name:
Posudek-Vedouci prace-24460_v.pdf
Size:
86.03 KB
Format:
Adobe Portable Document Format
Description:
Posudek-Vedouci prace-24460_v.pdf
Loading...
Thumbnail Image
Name:
Posudek-Oponent prace-24460_o.pdf
Size:
88.83 KB
Format:
Adobe Portable Document Format
Description:
Posudek-Oponent prace-24460_o.pdf
Loading...
Thumbnail Image
Name:
review_145418.html
Size:
1.45 KB
Format:
Hypertext Markup Language
Description:
review_145418.html
Collections