Automatická kategorizace a extrakce dat z webových stránek
but.committee | doc. Ing. František Zbořil, Ph.D. (předseda) doc. Mgr. Adam Rogalewicz, Ph.D. (člen) RNDr. Marek Rychlý, Ph.D. (člen) Ing. Libor Polčák, Ph.D. (člen) Ing. Jiří Hynek, Ph.D. (člen) Ing. Vladimír Bartík, Ph.D. (člen) | cs |
but.defence | Student nejprve prezentoval výsledky, kterých dosáhl v rámci své práce. Komise se poté seznámila s hodnocením vedoucího a posudkem oponenta práce. Student následně odpověděl na otázky přítomných. Komise se na základě posudku oponenta, hodnocení vedoucího, přednesené prezentace a odpovědí studenta na položené otázky rozhodla práci hodnotit stupněm B. | cs |
but.jazyk | angličtina (English) | |
but.program | Informační technologie a umělá inteligence | cs |
but.result | práce byla úspěšně obhájena | cs |
dc.contributor.advisor | Dolejška, Daniel | en |
dc.contributor.author | Rein, Michal | en |
dc.contributor.referee | Koutenský, Michal | en |
dc.date.created | 2023 | cs |
dc.description.abstract | Tato práce popisuje vývoj flexibilního systému pro automatickou kategorizaci a extrakci obsahu z webových stránek, se zaměřením na prostředí darknetu. Navrhli jsme vysoce přizpůsobitelný a škálovatelný systém, který dokáže zpracovávat různorodý typ obsahu, přičemž jsme dbali na kvalitu návrhu celkové architektury, struktury databáze a samotného algoritmu pro zpracování dat. Použitím nejmodernějšího jazykového modelu trénovaného na úkolu inference přirozeného jazyka demonstrujeme potenciál modelu efektivně kategorizovat obsah v zcela neznámém prostředí, přičemž jsme provedli analýzu výkonu daného modelu za použití různých hypotetických šablon. Dále jsme do systému integrovali model pro rozpoznávání pojmenovaných entit a metodologii šablonování pro extrakci obsahu, přičemž jsme navrhli automatizovaný přístup k segmentaci obsahu webových stránek za pomocí modelu ChatGPT od společnosti OpenAI. V neposlední řadě jsme vyvinuli uživatelsky přívětivou webovou aplikaci pro zlepšení dostupnosti a snadné použití systému, zhodnotili dosažené výsledky a navrhli možnosti pro další výzkum a vývoj v dané oblasti. | en |
dc.description.abstract | This thesis describes the development of a flexible system for automatically categorising and extracting content from web pages, with a focus on the darknet environment. We have designed a highly adaptable and scalable system capable of handling any type of content, while taking great care in considering the overall architecture, database structure, and processing pipeline. Using the state-of-the-art language model trained on the natural language inference task, we demonstrate the model's potential to categorise content effectively in a zero-shot environment. We also conduct an analysis of the performance of various hypothesis templates. To further enhance the data extraction process, we have integrated a named entity recognition model and templating methodology for content extraction and proposed an automated segmentation approach using OpenAI's ChatGPT model. In addition, we have developed a user-friendly web client application to enhance the system's accessibility and ease-of-use, evaluated the achieved results, and identified areas for further research and development in this field. | cs |
dc.description.mark | B | cs |
dc.identifier.citation | REIN, M. Automatická kategorizace a extrakce dat z webových stránek [online]. Brno: Vysoké učení technické v Brně. Fakulta informačních technologií. 2023. | cs |
dc.identifier.other | 145581 | cs |
dc.identifier.uri | http://hdl.handle.net/11012/213201 | |
dc.language.iso | en | cs |
dc.publisher | Vysoké učení technické v Brně. Fakulta informačních technologií | cs |
dc.rights | Standardní licenční smlouva - přístup k plnému textu bez omezení | cs |
dc.subject | kategorizace obsahu | en |
dc.subject | zpracování přirozeného jazyka | en |
dc.subject | inference přirozeného jazyka | en |
dc.subject | rozpoznávání pojmenovaných entit | en |
dc.subject | šablonování | en |
dc.subject | architektura mikroslužeb | en |
dc.subject | darknet | en |
dc.subject | content categorisation | cs |
dc.subject | natural language processing | cs |
dc.subject | natural language inference | cs |
dc.subject | named entity recognition | cs |
dc.subject | templating | cs |
dc.subject | microservice architecture | cs |
dc.subject | darknet | cs |
dc.title | Automatická kategorizace a extrakce dat z webových stránek | en |
dc.title.alternative | Automatic Webpage Content Categorisation and Extraction | cs |
dc.type | Text | cs |
dc.type.driver | masterThesis | en |
dc.type.evskp | diplomová práce | cs |
dcterms.dateAccepted | 2023-06-16 | cs |
dcterms.modified | 2023-06-16-12:27:50 | cs |
eprints.affiliatedInstitution.faculty | Fakulta informačních technologií | cs |
sync.item.dbid | 145581 | en |
sync.item.dbtype | ZP | en |
sync.item.insts | 2025.03.26 15:37:27 | en |
sync.item.modts | 2025.01.15 19:07:53 | en |
thesis.discipline | Vývoj aplikací | cs |
thesis.grantor | Vysoké učení technické v Brně. Fakulta informačních technologií. Ústav informačních systémů | cs |
thesis.level | Inženýrský | cs |
thesis.name | Ing. | cs |