Automatizované vyhledávání informací z historie webových zdrojů
Loading...
Date
Authors
Růžička, Michal
Advisor
Referee
Mark
A
Journal Title
Journal ISSN
Volume Title
Publisher
Vysoké učení technické v Brně. Fakulta elektrotechniky a komunikačních technologií
ORCID
Abstract
Cílem této práce bylo navrhnout a vytvořit automatizovaný nástroj pro vyhledávání a extrahování informací z webových archivů. Na základě zadaných vstupů, jako jsou klíčová slova, věty nebo obrázky, program umožní uživateli vyhledat a získat požadované archivované články z webových archivů archive.org a archive.ph. Výsledky jsou doplněny o dodatečné informace, jako jsou archivované verze, data z API a ilustrační obrázky v závislosti na použitém vyhledávacím systému archivu. Nástroj je navržen s důrazem na optimalizaci získávání dat, která je realizována pomocí paralelního zpracování. Program díky paralelizaci dokáže zpracovávat více vstupů od uživatele, a případně čerpat data z obou archivů současně. Pro snadnější interakci s programem je k dispozici příkazové rozhraní (CLI). Nástroj lze spustit ve dvou režimech, a to základním a rychlém. Výsledky jsou ukládány ve formátu JSON. Dokumentace je rozdělena na teoretickou a praktickou část. Teoretická část popisuje termín OSINT, a detailně vysvětluje pojem zpravodajství a související techniky. Popsány jsou jednotlivé archivy a jejich veřejně dostupné funkce. Jsou také zmíněny technologie, které byly použity k realizaci programu. Praktická část je zaměřena na vývoj a implementaci nástroje.
The aim of this thesis was to design and develop an automated tool for searching and extracting information from web archives. Based on user inputs such as keywords, phrases, or images, the user can search for and retrieve relevant archived articles from the web archives archive.org and archive.ph. The retrieved results are supplemented with additional information, such as archived versions, data from APIs, and illustrative article images, depending on the search system used by the archive. The tool is optimized for data extraction through the implementation of parallel processing. Thanks to this parallelization, the program can handle multiple user inputs and retrieve data from both archives simultaneously. For easier user interaction the program was expanded with a command-line interface (CLI). The tool can be run in basic and fast mode. The results are stored in JSON format. The documentation is divided into two parts. The theoretical part describes the concept of OSINT and explains the notion of intelligence and related techniques of information gathering in detail. It also provides an overview of the archives and their publicly accessible functions. The technologies used in the development of this application are also mentioned. The practical part focuses on the development and implementation of the tool.
The aim of this thesis was to design and develop an automated tool for searching and extracting information from web archives. Based on user inputs such as keywords, phrases, or images, the user can search for and retrieve relevant archived articles from the web archives archive.org and archive.ph. The retrieved results are supplemented with additional information, such as archived versions, data from APIs, and illustrative article images, depending on the search system used by the archive. The tool is optimized for data extraction through the implementation of parallel processing. Thanks to this parallelization, the program can handle multiple user inputs and retrieve data from both archives simultaneously. For easier user interaction the program was expanded with a command-line interface (CLI). The tool can be run in basic and fast mode. The results are stored in JSON format. The documentation is divided into two parts. The theoretical part describes the concept of OSINT and explains the notion of intelligence and related techniques of information gathering in detail. It also provides an overview of the archives and their publicly accessible functions. The technologies used in the development of this application are also mentioned. The practical part focuses on the development and implementation of the tool.
Description
Keywords
OSINT , webové archivy , archive.org , archive.ph , příkazové rozhraní (CLI) , automatizovaný nástroj , vyhledávání informací , JSON , API , paralelní zpracování , extrakce dat , OSINT , web archives , Archive.org , Archive.ph , command-line (CLI) , automated tool , API , JSON , parallel processing , data extraction
Citation
RŮŽIČKA, M. Automatizované vyhledávání informací z historie webových zdrojů [online]. Brno: Vysoké učení technické v Brně. Fakulta elektrotechniky a komunikačních technologií. 2025.
Document type
Document version
Date of access to the full text
Language of document
cs
Study field
bez specializace
Comittee
prof. Ing. Jan Hajný, Ph.D. (předseda)
Ing. Tomáš Gerlich (člen)
Ing. František Urban, Ph.D. (člen)
Ing. Martin Zukal, Ph.D. (člen)
JUDr. MgA. Jakub Míšek, Ph.D. (místopředseda)
Ing. Willi Lazarov (člen)
Date of acceptance
2025-06-17
Defence
Student prezentoval výsledky své práce a komise byla seznámena s posudky.
Student obhájil bakalářskou práci a odpověděl na otázky členů komise a oponenta.
Result of defence
práce byla úspěšně obhájena
