Získávání frekventovaných vzorů z proudu dat

Loading...
Thumbnail Image

Date

Authors

Dvořák, Michal

Mark

A

Journal Title

Journal ISSN

Volume Title

Publisher

Vysoké učení technické v Brně. Fakulta informačních technologií

ORCID

Abstract

Dolování frekventovaných vzorů z databází je již dobře prozkoumanou oblastí. Jak se však ukázalo, tyto algoritmy nejsou příliš vhodné pro zpracování proudu dat. Při dolování frekventovaných množin v proudu dat se musí udržovat kromě jednotlivých množin i jejich historie - a to nejen těch frekventovaných, ale i potenciálně frekventovaných, neboť nefrekventovaná množina se může stát časem frekventovanou. To zvyšuje nároky jak na paměť, tak na výpočetní výkon. Tato práce popisuje dva algoritmy: Lossy Counting a FP-stream. Součástí je také efektivní implementace těchto algoritmů v jazyce C# a jejich porovnání na základě měření.
Frequent-pattern mining from databases has been widely studied and frequently observed. Unfortunately, these algorithms are not suitable for data stream processing. In frequent-pattern mining from data streams, it is important to manage sets of items and also their history. There are several reasons for this; it is not just the history of frequent items, but also the history of potentially frequent sets that can become frequent later. This requires more memory and computational power. This thesis describes two algorithms: Lossy Counting and FP-stream. An effective implementation of these algorithms in C# is an integral part of this thesis. In addition, the two algorithms have been compared.

Description

Citation

DVOŘÁK, M. Získávání frekventovaných vzorů z proudu dat [online]. Brno: Vysoké učení technické v Brně. Fakulta informačních technologií. 2012.

Document type

Document version

Date of access to the full text

Language of document

cs

Study field

Informační systémy

Comittee

prof. Ing. Tomáš Hruška, CSc. (předseda) prof. RNDr. Alexandr Meduna, CSc. (místopředseda) Ing. Vladimír Bartík, Ph.D. (člen) Ing. Zbyněk Křivka, Ph.D. (člen) Prof. RNDr. Milan Mišovič, CSc. (člen) doc. Ing. Jaroslav Zendulka, CSc. (člen)

Date of acceptance

2012-06-19

Defence

Student nejprve prezentoval výsledky, kterých dosáhl v rámci své práce. Komise se pak seznámila s hodnocením vedoucího a posudkem oponenta práce. Student následně odpověděl na otázky oponenta a na další otázky přítomných. Komise se na základě posudku oponenta, hodnocení vedoucího, přednesené prezentace a odpovědí studenta na položené otázky rozhodla práci hodnotit stupněm výborně. Otázky u obhajoby: Diskutujte vliv počtu procesorových jader na vámi implementované paralelní verze algoritmů Lossy-Counting a FP-Stream. Jaké zrychlení byste přibližně očekával na 24-jádrovém procesoru pro vaše nejlepší případy na čtyřjádrovém procesoru, tj. zrychlení 36% pro Lossy-Counting a 68% u FP-Stream?

Result of defence

práce byla úspěšně obhájena

DOI

Collections

Endorsement

Review

Supplemented By

Referenced By

Citace PRO