Nástroje pro archivaci webových stránek

Loading...
Thumbnail Image

Date

Authors

Kvačkaj, Matúš

Mark

D

Journal Title

Journal ISSN

Volume Title

Publisher

Vysoké učení technické v Brně. Fakulta informačních technologií

ORCID

Abstract

Táto bakalárska práca sa zaoberá problematikou archivácie a reprodukcie webových stránok. Cieľom bolo priniesť nástroj, ktorý po zadaní URL adresy a parametrov vytvorí archív vo formáte WARC danej stránky a tiež vygeneruje jej textový popis, vhodný pre ďalšie spracovanie a analýzu. Nástroj podporuje aj opačný proces - prehratie webu z WARC archívu a vygenerovanie obdobného textového popisu stránky. Pri implementácií nástroja bolo myslené na to, že bude aplikovaný na existujej dátovej sade a bude súčasťou hromadného spracovania dát. Využila sa dátová sada Webis-Web-Archive-17, ktorá obsahuje približne 10 000 WARC archívov zozbieraných od roku 2017. Pre zabezpečenie maximálnej prenositeľnosti nástroja bola využitá kontajnerizácia nástrojom Docker.
This bachelor thesis deals with the issue of archiving and reproduction of web pages. The aim was to provide a tool that, after specifying the URL and parameters, creates an archive in WARC format of a given page and also generates its textual description, suitable for further processing and analysis. The tool also supports the reverse process - replaying a site from a WARC archive and generating a textual description of the page. When implementing the tool, it was intended that it would be applied to an existing dataset and would be part of a bulk data processing. The Webis-Web-Archive-17 dataset was used, which contains approximately 10,000 WARC archives collected since 2017. To ensure maximum portability of the tool, Docker containerization was used.

Description

Citation

KVAČKAJ, M. Nástroje pro archivaci webových stránek [online]. Brno: Vysoké učení technické v Brně. Fakulta informačních technologií. 2023.

Document type

Document version

Date of access to the full text

Language of document

sk

Study field

Informační technologie

Comittee

doc. Dr. Ing. Dušan Kolář (předseda) doc. Ing. Peter Chudý, Ph.D., MBA (člen) RNDr. Marek Rychlý, Ph.D. (člen) Ing. Vojtěch Mrázek, Ph.D. (člen) Ing. Ondřej Lengál, Ph.D. (člen)

Date of acceptance

2023-06-14

Defence

Student nejprve prezentoval výsledky, kterých dosáhl v rámci své práce. Komise se poté seznámila s hodnocením vedoucího a posudkem oponenta práce. Student následně odpověděl na otázky oponenta a na další otázky přítomných. Komise se na základě posudku oponenta, hodnocení vedoucího, přednesené prezentace a odpovědí studenta na položené otázky rozhodla práci hodnotit stupněm ...

Result of defence

práce byla úspěšně obhájena

DOI

Collections

Endorsement

Review

Supplemented By

Referenced By

Citace PRO