Automatizované vyhledávání informací z historie webových zdrojů

but.committeeprof. Ing. Jan Hajný, Ph.D. (předseda) Ing. Tomáš Gerlich (člen) Ing. František Urban, Ph.D. (člen) Ing. Martin Zukal, Ph.D. (člen) JUDr. MgA. Jakub Míšek, Ph.D. (místopředseda) Ing. Willi Lazarov (člen)cs
but.defenceStudent prezentoval výsledky své práce a komise byla seznámena s posudky. Student obhájil bakalářskou práci a odpověděl na otázky členů komise a oponenta.cs
but.jazykčeština (Czech)
but.programInformační bezpečnostcs
but.resultpráce byla úspěšně obhájenacs
dc.contributor.advisorPhan, Viet Anhcs
dc.contributor.authorRůžička, Michalcs
dc.contributor.refereeLazarov, Willics
dc.date.created2025cs
dc.description.abstractCílem této práce bylo navrhnout a vytvořit automatizovaný nástroj pro vyhledávání a extrahování informací z webových archivů. Na základě zadaných vstupů, jako jsou klíčová slova, věty nebo obrázky, program umožní uživateli vyhledat a získat požadované archivované články z webových archivů archive.org a archive.ph. Výsledky jsou doplněny o dodatečné informace, jako jsou archivované verze, data z API a ilustrační obrázky v závislosti na použitém vyhledávacím systému archivu. Nástroj je navržen s důrazem na optimalizaci získávání dat, která je realizována pomocí paralelního zpracování. Program díky paralelizaci dokáže zpracovávat více vstupů od uživatele, a případně čerpat data z obou archivů současně. Pro snadnější interakci s programem je k dispozici příkazové rozhraní (CLI). Nástroj lze spustit ve dvou režimech, a to základním a rychlém. Výsledky jsou ukládány ve formátu JSON. Dokumentace je rozdělena na teoretickou a praktickou část. Teoretická část popisuje termín OSINT, a detailně vysvětluje pojem zpravodajství a související techniky. Popsány jsou jednotlivé archivy a jejich veřejně dostupné funkce. Jsou také zmíněny technologie, které byly použity k realizaci programu. Praktická část je zaměřena na vývoj a implementaci nástroje.cs
dc.description.abstractThe aim of this thesis was to design and develop an automated tool for searching and extracting information from web archives. Based on user inputs such as keywords, phrases, or images, the user can search for and retrieve relevant archived articles from the web archives archive.org and archive.ph. The retrieved results are supplemented with additional information, such as archived versions, data from APIs, and illustrative article images, depending on the search system used by the archive. The tool is optimized for data extraction through the implementation of parallel processing. Thanks to this parallelization, the program can handle multiple user inputs and retrieve data from both archives simultaneously. For easier user interaction the program was expanded with a command-line interface (CLI). The tool can be run in basic and fast mode. The results are stored in JSON format. The documentation is divided into two parts. The theoretical part describes the concept of OSINT and explains the notion of intelligence and related techniques of information gathering in detail. It also provides an overview of the archives and their publicly accessible functions. The technologies used in the development of this application are also mentioned. The practical part focuses on the development and implementation of the tool.en
dc.description.markAcs
dc.identifier.citationRŮŽIČKA, M. Automatizované vyhledávání informací z historie webových zdrojů [online]. Brno: Vysoké učení technické v Brně. Fakulta elektrotechniky a komunikačních technologií. 2025.cs
dc.identifier.other167364cs
dc.identifier.urihttp://hdl.handle.net/11012/252984
dc.language.isocscs
dc.publisherVysoké učení technické v Brně. Fakulta elektrotechniky a komunikačních technologiícs
dc.rightsStandardní licenční smlouva - přístup k plnému textu bez omezenícs
dc.subjectOSINTcs
dc.subjectwebové archivycs
dc.subjectarchive.orgcs
dc.subjectarchive.phcs
dc.subjectpříkazové rozhraní (CLI)cs
dc.subjectautomatizovaný nástrojcs
dc.subjectvyhledávání informacícs
dc.subjectJSONcs
dc.subjectAPIcs
dc.subjectparalelní zpracovánícs
dc.subjectextrakce datcs
dc.subjectOSINTen
dc.subjectweb archivesen
dc.subjectArchive.orgen
dc.subjectArchive.phen
dc.subjectcommand-line (CLI)en
dc.subjectautomated toolen
dc.subjectAPIen
dc.subjectJSONen
dc.subjectparallel processingen
dc.subjectdata extractionen
dc.titleAutomatizované vyhledávání informací z historie webových zdrojůcs
dc.title.alternativeAutomated search for information from the history of web resourcesen
dc.typeTextcs
dc.type.driverbachelorThesisen
dc.type.evskpbakalářská prácecs
dcterms.dateAccepted2025-06-17cs
dcterms.modified2025-06-19-09:30:00cs
eprints.affiliatedInstitution.facultyFakulta elektrotechniky a komunikačních technologiícs
sync.item.dbid167364en
sync.item.dbtypeZPen
sync.item.insts2025.08.26 22:06:04en
sync.item.modts2025.08.26 19:57:56en
thesis.disciplinebez specializacecs
thesis.grantorVysoké učení technické v Brně. Fakulta elektrotechniky a komunikačních technologií. Ústav telekomunikacícs
thesis.levelBakalářskýcs
thesis.nameBc.cs

Files

Original bundle

Now showing 1 - 3 of 3
Loading...
Thumbnail Image
Name:
final-thesis.pdf
Size:
3.48 MB
Format:
Adobe Portable Document Format
Description:
file final-thesis.pdf
Loading...
Thumbnail Image
Name:
appendix-1.zip
Size:
5.16 MB
Format:
Unknown data format
Description:
file appendix-1.zip
Loading...
Thumbnail Image
Name:
review_167364.html
Size:
4.7 KB
Format:
Hypertext Markup Language
Description:
file review_167364.html

Collections