Nástroje pro archivaci webových stránek
but.committee | doc. Dr. Ing. Dušan Kolář (předseda) doc. Ing. Peter Chudý, Ph.D., MBA (člen) RNDr. Marek Rychlý, Ph.D. (člen) Ing. Vojtěch Mrázek, Ph.D. (člen) Ing. Ondřej Lengál, Ph.D. (člen) | cs |
but.defence | Student nejprve prezentoval výsledky, kterých dosáhl v rámci své práce. Komise se poté seznámila s hodnocením vedoucího a posudkem oponenta práce. Student následně odpověděl na otázky oponenta a na další otázky přítomných. Komise se na základě posudku oponenta, hodnocení vedoucího, přednesené prezentace a odpovědí studenta na položené otázky rozhodla práci hodnotit stupněm ... | cs |
but.jazyk | slovenština (Slovak) | |
but.program | Informační technologie | cs |
but.result | práce byla úspěšně obhájena | cs |
dc.contributor.advisor | Burget, Radek | sk |
dc.contributor.author | Kvačkaj, Matúš | sk |
dc.contributor.referee | Rychlý, Marek | sk |
dc.date.accessioned | 2023-06-15T06:59:21Z | |
dc.date.available | 2023-06-15T06:59:21Z | |
dc.date.created | 2023 | cs |
dc.description.abstract | Táto bakalárska práca sa zaoberá problematikou archivácie a reprodukcie webových stránok. Cieľom bolo priniesť nástroj, ktorý po zadaní URL adresy a parametrov vytvorí archív vo formáte WARC danej stránky a tiež vygeneruje jej textový popis, vhodný pre ďalšie spracovanie a analýzu. Nástroj podporuje aj opačný proces - prehratie webu z WARC archívu a vygenerovanie obdobného textového popisu stránky. Pri implementácií nástroja bolo myslené na to, že bude aplikovaný na existujej dátovej sade a bude súčasťou hromadného spracovania dát. Využila sa dátová sada Webis-Web-Archive-17, ktorá obsahuje približne 10 000 WARC archívov zozbieraných od roku 2017. Pre zabezpečenie maximálnej prenositeľnosti nástroja bola využitá kontajnerizácia nástrojom Docker. | sk |
dc.description.abstract | This bachelor thesis deals with the issue of archiving and reproduction of web pages. The aim was to provide a tool that, after specifying the URL and parameters, creates an archive in WARC format of a given page and also generates its textual description, suitable for further processing and analysis. The tool also supports the reverse process - replaying a site from a WARC archive and generating a textual description of the page. When implementing the tool, it was intended that it would be applied to an existing dataset and would be part of a bulk data processing. The Webis-Web-Archive-17 dataset was used, which contains approximately 10,000 WARC archives collected since 2017. To ensure maximum portability of the tool, Docker containerization was used. | en |
dc.description.mark | D | cs |
dc.identifier.citation | KVAČKAJ, M. Nástroje pro archivaci webových stránek [online]. Brno: Vysoké učení technické v Brně. Fakulta informačních technologií. 2023. | cs |
dc.identifier.other | 144819 | cs |
dc.identifier.uri | http://hdl.handle.net/11012/210446 | |
dc.language.iso | sk | cs |
dc.publisher | Vysoké učení technické v Brně. Fakulta informačních technologií | cs |
dc.rights | Standardní licenční smlouva - přístup k plnému textu bez omezení | cs |
dc.subject | archivácia webov | sk |
dc.subject | reprodukcia webových archívov | sk |
dc.subject | automatizácia webových prehliadačov | sk |
dc.subject | extrakcia informácií o webe | sk |
dc.subject | kontajnerizácia | sk |
dc.subject | docker | sk |
dc.subject | playwright | sk |
dc.subject | web archiving | en |
dc.subject | replayability of web archives | en |
dc.subject | web browser automation | en |
dc.subject | web data extraction | en |
dc.subject | containerization | en |
dc.subject | docker | en |
dc.subject | playwright | en |
dc.title | Nástroje pro archivaci webových stránek | sk |
dc.title.alternative | Web Page Archiving Tools | en |
dc.type | Text | cs |
dc.type.driver | bachelorThesis | en |
dc.type.evskp | bakalářská práce | cs |
dcterms.dateAccepted | 2023-06-14 | cs |
dcterms.modified | 2023-06-14-16:45:06 | cs |
eprints.affiliatedInstitution.faculty | Fakulta informačních technologií | cs |
sync.item.dbid | 144819 | en |
sync.item.dbtype | ZP | en |
sync.item.insts | 2023.06.15 08:59:20 | en |
sync.item.modts | 2023.06.15 08:13:13 | en |
thesis.discipline | Informační technologie | cs |
thesis.grantor | Vysoké učení technické v Brně. Fakulta informačních technologií. Ústav informačních systémů | cs |
thesis.level | Bakalářský | cs |
thesis.name | Bc. | cs |