Automatizované vyhledávání informací z historie webových zdrojů

Loading...
Thumbnail Image

Date

Authors

Růžička, Michal

Mark

A

Journal Title

Journal ISSN

Volume Title

Publisher

Vysoké učení technické v Brně. Fakulta elektrotechniky a komunikačních technologií

ORCID

Abstract

Cílem této práce bylo navrhnout a vytvořit automatizovaný nástroj pro vyhledávání a extrahování informací z webových archivů. Na základě zadaných vstupů, jako jsou klíčová slova, věty nebo obrázky, program umožní uživateli vyhledat a získat požadované archivované články z webových archivů archive.org a archive.ph. Výsledky jsou doplněny o dodatečné informace, jako jsou archivované verze, data z API a ilustrační obrázky v závislosti na použitém vyhledávacím systému archivu. Nástroj je navržen s důrazem na optimalizaci získávání dat, která je realizována pomocí paralelního zpracování. Program díky paralelizaci dokáže zpracovávat více vstupů od uživatele, a případně čerpat data z obou archivů současně. Pro snadnější interakci s programem je k dispozici příkazové rozhraní (CLI). Nástroj lze spustit ve dvou režimech, a to základním a rychlém. Výsledky jsou ukládány ve formátu JSON. Dokumentace je rozdělena na teoretickou a praktickou část. Teoretická část popisuje termín OSINT, a detailně vysvětluje pojem zpravodajství a související techniky. Popsány jsou jednotlivé archivy a jejich veřejně dostupné funkce. Jsou také zmíněny technologie, které byly použity k realizaci programu. Praktická část je zaměřena na vývoj a implementaci nástroje.
The aim of this thesis was to design and develop an automated tool for searching and extracting information from web archives. Based on user inputs such as keywords, phrases, or images, the user can search for and retrieve relevant archived articles from the web archives archive.org and archive.ph. The retrieved results are supplemented with additional information, such as archived versions, data from APIs, and illustrative article images, depending on the search system used by the archive. The tool is optimized for data extraction through the implementation of parallel processing. Thanks to this parallelization, the program can handle multiple user inputs and retrieve data from both archives simultaneously. For easier user interaction the program was expanded with a command-line interface (CLI). The tool can be run in basic and fast mode. The results are stored in JSON format. The documentation is divided into two parts. The theoretical part describes the concept of OSINT and explains the notion of intelligence and related techniques of information gathering in detail. It also provides an overview of the archives and their publicly accessible functions. The technologies used in the development of this application are also mentioned. The practical part focuses on the development and implementation of the tool.

Description

Citation

RŮŽIČKA, M. Automatizované vyhledávání informací z historie webových zdrojů [online]. Brno: Vysoké učení technické v Brně. Fakulta elektrotechniky a komunikačních technologií. 2025.

Document type

Document version

Date of access to the full text

Language of document

cs

Study field

bez specializace

Comittee

prof. Ing. Jan Hajný, Ph.D. (předseda) Ing. Tomáš Gerlich (člen) Ing. František Urban, Ph.D. (člen) Ing. Martin Zukal, Ph.D. (člen) JUDr. MgA. Jakub Míšek, Ph.D. (místopředseda) Ing. Willi Lazarov (člen)

Date of acceptance

2025-06-17

Defence

Student prezentoval výsledky své práce a komise byla seznámena s posudky. Student obhájil bakalářskou práci a odpověděl na otázky členů komise a oponenta.

Result of defence

práce byla úspěšně obhájena

DOI

Collections

Endorsement

Review

Supplemented By

Referenced By

Citace PRO