Automatizované vyhledávání informací z historie webových zdrojů
| but.committee | prof. Ing. Jan Hajný, Ph.D. (předseda) Ing. Tomáš Gerlich (člen) Ing. František Urban, Ph.D. (člen) Ing. Martin Zukal, Ph.D. (člen) JUDr. MgA. Jakub Míšek, Ph.D. (místopředseda) Ing. Willi Lazarov (člen) | cs |
| but.defence | Student prezentoval výsledky své práce a komise byla seznámena s posudky. Student obhájil bakalářskou práci a odpověděl na otázky členů komise a oponenta. | cs |
| but.jazyk | čeština (Czech) | |
| but.program | Informační bezpečnost | cs |
| but.result | práce byla úspěšně obhájena | cs |
| dc.contributor.advisor | Phan, Viet Anh | cs |
| dc.contributor.author | Růžička, Michal | cs |
| dc.contributor.referee | Lazarov, Willi | cs |
| dc.date.created | 2025 | cs |
| dc.description.abstract | Cílem této práce bylo navrhnout a vytvořit automatizovaný nástroj pro vyhledávání a extrahování informací z webových archivů. Na základě zadaných vstupů, jako jsou klíčová slova, věty nebo obrázky, program umožní uživateli vyhledat a získat požadované archivované články z webových archivů archive.org a archive.ph. Výsledky jsou doplněny o dodatečné informace, jako jsou archivované verze, data z API a ilustrační obrázky v závislosti na použitém vyhledávacím systému archivu. Nástroj je navržen s důrazem na optimalizaci získávání dat, která je realizována pomocí paralelního zpracování. Program díky paralelizaci dokáže zpracovávat více vstupů od uživatele, a případně čerpat data z obou archivů současně. Pro snadnější interakci s programem je k dispozici příkazové rozhraní (CLI). Nástroj lze spustit ve dvou režimech, a to základním a rychlém. Výsledky jsou ukládány ve formátu JSON. Dokumentace je rozdělena na teoretickou a praktickou část. Teoretická část popisuje termín OSINT, a detailně vysvětluje pojem zpravodajství a související techniky. Popsány jsou jednotlivé archivy a jejich veřejně dostupné funkce. Jsou také zmíněny technologie, které byly použity k realizaci programu. Praktická část je zaměřena na vývoj a implementaci nástroje. | cs |
| dc.description.abstract | The aim of this thesis was to design and develop an automated tool for searching and extracting information from web archives. Based on user inputs such as keywords, phrases, or images, the user can search for and retrieve relevant archived articles from the web archives archive.org and archive.ph. The retrieved results are supplemented with additional information, such as archived versions, data from APIs, and illustrative article images, depending on the search system used by the archive. The tool is optimized for data extraction through the implementation of parallel processing. Thanks to this parallelization, the program can handle multiple user inputs and retrieve data from both archives simultaneously. For easier user interaction the program was expanded with a command-line interface (CLI). The tool can be run in basic and fast mode. The results are stored in JSON format. The documentation is divided into two parts. The theoretical part describes the concept of OSINT and explains the notion of intelligence and related techniques of information gathering in detail. It also provides an overview of the archives and their publicly accessible functions. The technologies used in the development of this application are also mentioned. The practical part focuses on the development and implementation of the tool. | en |
| dc.description.mark | A | cs |
| dc.identifier.citation | RŮŽIČKA, M. Automatizované vyhledávání informací z historie webových zdrojů [online]. Brno: Vysoké učení technické v Brně. Fakulta elektrotechniky a komunikačních technologií. 2025. | cs |
| dc.identifier.other | 167364 | cs |
| dc.identifier.uri | http://hdl.handle.net/11012/252984 | |
| dc.language.iso | cs | cs |
| dc.publisher | Vysoké učení technické v Brně. Fakulta elektrotechniky a komunikačních technologií | cs |
| dc.rights | Standardní licenční smlouva - přístup k plnému textu bez omezení | cs |
| dc.subject | OSINT | cs |
| dc.subject | webové archivy | cs |
| dc.subject | archive.org | cs |
| dc.subject | archive.ph | cs |
| dc.subject | příkazové rozhraní (CLI) | cs |
| dc.subject | automatizovaný nástroj | cs |
| dc.subject | vyhledávání informací | cs |
| dc.subject | JSON | cs |
| dc.subject | API | cs |
| dc.subject | paralelní zpracování | cs |
| dc.subject | extrakce dat | cs |
| dc.subject | OSINT | en |
| dc.subject | web archives | en |
| dc.subject | Archive.org | en |
| dc.subject | Archive.ph | en |
| dc.subject | command-line (CLI) | en |
| dc.subject | automated tool | en |
| dc.subject | API | en |
| dc.subject | JSON | en |
| dc.subject | parallel processing | en |
| dc.subject | data extraction | en |
| dc.title | Automatizované vyhledávání informací z historie webových zdrojů | cs |
| dc.title.alternative | Automated search for information from the history of web resources | en |
| dc.type | Text | cs |
| dc.type.driver | bachelorThesis | en |
| dc.type.evskp | bakalářská práce | cs |
| dcterms.dateAccepted | 2025-06-17 | cs |
| dcterms.modified | 2025-06-19-09:30:00 | cs |
| eprints.affiliatedInstitution.faculty | Fakulta elektrotechniky a komunikačních technologií | cs |
| sync.item.dbid | 167364 | en |
| sync.item.dbtype | ZP | en |
| sync.item.insts | 2025.08.26 22:06:04 | en |
| sync.item.modts | 2025.08.26 19:57:56 | en |
| thesis.discipline | bez specializace | cs |
| thesis.grantor | Vysoké učení technické v Brně. Fakulta elektrotechniky a komunikačních technologií. Ústav telekomunikací | cs |
| thesis.level | Bakalářský | cs |
| thesis.name | Bc. | cs |
Files
Original bundle
1 - 3 of 3
Loading...
- Name:
- final-thesis.pdf
- Size:
- 3.48 MB
- Format:
- Adobe Portable Document Format
- Description:
- file final-thesis.pdf
Loading...
- Name:
- appendix-1.zip
- Size:
- 5.16 MB
- Format:
- Unknown data format
- Description:
- file appendix-1.zip
Loading...
- Name:
- review_167364.html
- Size:
- 4.7 KB
- Format:
- Hypertext Markup Language
- Description:
- file review_167364.html
