Automatická kategorizace a extrakce dat z webových stránek

but.committeedoc. Ing. František Zbořil, Ph.D. (předseda) doc. Mgr. Adam Rogalewicz, Ph.D. (člen) RNDr. Marek Rychlý, Ph.D. (člen) Ing. Libor Polčák, Ph.D. (člen) Ing. Jiří Hynek, Ph.D. (člen) Ing. Vladimír Bartík, Ph.D. (člen)cs
but.defenceStudent nejprve prezentoval výsledky, kterých dosáhl v rámci své práce. Komise se poté seznámila s hodnocením vedoucího a posudkem oponenta práce. Student následně odpověděl na otázky přítomných. Komise se na základě posudku oponenta, hodnocení vedoucího, přednesené prezentace a odpovědí studenta na položené otázky rozhodla práci hodnotit stupněm B.cs
but.jazykangličtina (English)
but.programInformační technologie a umělá inteligencecs
but.resultpráce byla úspěšně obhájenacs
dc.contributor.advisorDolejška, Danielen
dc.contributor.authorRein, Michalen
dc.contributor.refereeKoutenský, Michalen
dc.date.created2023cs
dc.description.abstractTato práce popisuje vývoj flexibilního systému pro automatickou kategorizaci a extrakci obsahu z webových stránek, se zaměřením na prostředí darknetu. Navrhli jsme vysoce přizpůsobitelný a škálovatelný systém, který dokáže zpracovávat různorodý typ obsahu, přičemž jsme dbali na kvalitu návrhu celkové architektury, struktury databáze a samotného algoritmu pro zpracování dat. Použitím nejmodernějšího jazykového modelu trénovaného na úkolu inference přirozeného jazyka demonstrujeme potenciál modelu efektivně kategorizovat obsah v zcela neznámém prostředí, přičemž jsme provedli analýzu výkonu daného modelu za použití různých hypotetických šablon. Dále jsme do systému integrovali model pro rozpoznávání pojmenovaných entit a metodologii šablonování pro extrakci obsahu, přičemž jsme navrhli automatizovaný přístup k segmentaci obsahu webových stránek za pomocí modelu ChatGPT od společnosti OpenAI. V neposlední řadě jsme vyvinuli uživatelsky přívětivou webovou aplikaci pro zlepšení dostupnosti a snadné použití systému, zhodnotili dosažené výsledky a navrhli možnosti pro další výzkum a vývoj v dané oblasti.en
dc.description.abstractThis thesis describes the development of a flexible system for automatically categorising and extracting content from web pages, with a focus on the darknet environment. We have designed a highly adaptable and scalable system capable of handling any type of content, while taking great care in considering the overall architecture, database structure, and processing pipeline. Using the state-of-the-art language model trained on the natural language inference task, we demonstrate the model's potential to categorise content effectively in a zero-shot environment. We also conduct an analysis of the performance of various hypothesis templates. To further enhance the data extraction process, we have integrated a named entity recognition model and templating methodology for content extraction and proposed an automated segmentation approach using OpenAI's ChatGPT model. In addition, we have developed a user-friendly web client application to enhance the system's accessibility and ease-of-use, evaluated the achieved results, and identified areas for further research and development in this field.cs
dc.description.markBcs
dc.identifier.citationREIN, M. Automatická kategorizace a extrakce dat z webových stránek [online]. Brno: Vysoké učení technické v Brně. Fakulta informačních technologií. 2023.cs
dc.identifier.other145581cs
dc.identifier.urihttp://hdl.handle.net/11012/213201
dc.language.isoencs
dc.publisherVysoké učení technické v Brně. Fakulta informačních technologiícs
dc.rightsStandardní licenční smlouva - přístup k plnému textu bez omezenícs
dc.subjectkategorizace obsahuen
dc.subjectzpracování přirozeného jazykaen
dc.subjectinference přirozeného jazykaen
dc.subjectrozpoznávání pojmenovaných entiten
dc.subjectšablonováníen
dc.subjectarchitektura mikroslužeben
dc.subjectdarkneten
dc.subjectcontent categorisationcs
dc.subjectnatural language processingcs
dc.subjectnatural language inferencecs
dc.subjectnamed entity recognitioncs
dc.subjecttemplatingcs
dc.subjectmicroservice architecturecs
dc.subjectdarknetcs
dc.titleAutomatická kategorizace a extrakce dat z webových stráneken
dc.title.alternativeAutomatic Webpage Content Categorisation and Extractioncs
dc.typeTextcs
dc.type.drivermasterThesisen
dc.type.evskpdiplomová prácecs
dcterms.dateAccepted2023-06-16cs
dcterms.modified2023-06-16-12:27:50cs
eprints.affiliatedInstitution.facultyFakulta informačních technologiícs
sync.item.dbid145581en
sync.item.dbtypeZPen
sync.item.insts2025.03.26 15:37:27en
sync.item.modts2025.01.15 19:07:53en
thesis.disciplineVývoj aplikacícs
thesis.grantorVysoké učení technické v Brně. Fakulta informačních technologií. Ústav informačních systémůcs
thesis.levelInženýrskýcs
thesis.nameIng.cs
Files
Original bundle
Now showing 1 - 2 of 2
Loading...
Thumbnail Image
Name:
final-thesis.pdf
Size:
6.35 MB
Format:
Adobe Portable Document Format
Description:
final-thesis.pdf
Loading...
Thumbnail Image
Name:
review_145581.html
Size:
9.83 KB
Format:
Hypertext Markup Language
Description:
file review_145581.html
Collections