Analýza provozních dat a detekce anomálií při běhu úloh na superpočítači

but.committeedoc. Dr. Ing. Petr Hanáček (předseda) prof. Ing. Martin Drahanský, Ph.D. (místopředseda) doc. Ing. Radim Burget, Ph.D. (člen) doc. Ing. Vladimír Drábek, CSc. (člen) doc. Mgr. Lukáš Holík, Ph.D. (člen) Ing. Petr Matoušek, Ph.D., M.A. (člen)cs
but.defenceStudent nejprve prezentoval výsledky, kterých dosáhl v rámci své práce. Komise se poté seznámila s hodnocením vedoucího a posudkem oponenta práce. Student následně odpověděl na otázky oponenta a na další otázky přítomných. Komise se na základě posudku oponenta, hodnocení vedoucího, přednesené prezentace a odpovědí studenta na položené otázky rozhodla práci hodnotit stupněm " A ". Otázky u obhajoby: Obsahovala testovací databáze i interaktivní joby (tzn. uživatel pracuje přímo s terminálem a zpravidla nevyužívá hardware po celou dobu na 100%), a pokud ano, vykazovaly větší podezřelost? Vykazovaly joby využívající více uzlů, kdy je zpravidla náročnější dosáhnout optimálního využití hardwaru, větší podezřelost než jedno-uzlové joby? Pokud budu chtít sledovat novou alternativní metriku, jak náročné je překonfigurovat a přeučit síť?cs
but.jazykangličtina (English)
but.programInformační technologiecs
but.resultpráce byla úspěšně obhájenacs
dc.contributor.advisorJaroš, Jiříen
dc.contributor.authorStehlík, Petren
dc.contributor.refereeNikl, Vojtěchen
dc.date.accessioned2020-05-11T04:23:14Z
dc.date.available2020-05-11T04:23:14Z
dc.date.created2018cs
dc.description.abstractV posledních letech jsou superpočítače stále větší a složitější, s čímž souvisí problém využití plného potenciálu systému. Tento problém se umocňuje díky nedostatku nástrojů pro monitorování, které jsou specificky přizpůsobeny uživatelům těchto systémů. Cílem práce je vytvořit nástroj, nazvaný Examon Web, pro analýzu a vizualizaci provozních dat superpočítače a provést nad těmito daty hloubkovou analýzu pomocí neurálních sítí. Ty určí, zda daná úloha běžela korektně, či vykazovala známky podezřelého a nežádoucího chování jako je nezarovnaný přístup do operační paměti nebo např. nízké využití alokovaých zdrojů. O těchto  faktech je uživatel informován pomocí GUI. Examon Web je postavený na frameworku Examon, který sbírá a procesuje metrická data ze superpočítače a následně je ukládá do databáze KairosDB. Implementace zahrnuje disciplíny od návrhu a implementace GUI, přes datovou analýzu, těžení dat a neurální sítě až po implementaci rozhraní na serverové straně. Examon Web je zaměřen zejména na uživatele, ale může být také využíván administrátory. GUI je vytvořeno ve frameworku Angular s knihovnami Dygraphs a Bootstrap. Uživatel díky tomu může analyzovat časové řady různých metrik své úlohy a stejně jako administrátor se může informovat o současném stavu superpočítače. Tento stav je zobrazen jako několik globálně agregovaných metrik v posledních 30 minutách nebo jako 3D model (či 2D model) superpočítače, který získává data ze samotných uzlů pomocí protokolu MQTT. Pro kontinuální získávání dat bylo využito rozhraní WebSocket s vlastním mechanismem přihlašování a odhlašování konkretních metrik zobrazovaných v modelu. Při analýze spuštěné úlohy má uživatel dostupné tři různé pohledy na danou úlohu. První nabízí celkový přehled o úloze a informuje o využitých zdrojích, času běhu a vytížení části superpočítače, kterou úloha využila společně s informací z neurálních sítí o podezřelosti úlohy. Další dva pohledy zobrazují metriky z výkonnostiního energetického hlediska. Pro naučení neurálních sítí bylo potřeba vytvořit novou datovou sadu ze superpočítače Galileo. Tato sada obsahuje přes 1100 úloh monitorovaných na tomto superpočítači z čehož 500 úloh bylo ručně anotováno a následně použito pro trénování sítí. Neurální sítě využívají model back-propagation, vhodný pro anotování časových sérií fixní délky. Celkem bylo vytvořeno 12 sítí pro metriky zahrnující vytížení procesoru, paměti a dalších části a např. také podíl celkového času procesoru v úsporném režimu C6. Tyto sítě jsou na sobě nezávislé a po experimentech jejich finální konfigurace 80-20-4-3-1 (80 vstupních až 1 výstupní neuron) podávaly nejlepší výsledky. Poslední síť (v konfiguraci 12-4-3-1) anotovala výsledky předešlých sítí. Celková úspěšnost  systému klasifikace do 2 tříd je 84 %, což je na použitý model velmi dobré. Výstupem této práce jsou dva produkty. Prvním je uživatelské rozhraní a jeho serverová část Examon Web, která jakožto rozšiřující vrstva systému Examon pomůže s rozšířením daného systému mezi další uživatele či přímo další superpočítačová centra. Druhým výstupem je částečně anotovaná datová sada, která může pomoci dalším lidem v jejich výzkumu a je výsledkem spolupráce VUT, UNIBO a CINECA. Oba výstupy budou zveřejněny s otevřenými zdrojovými kódy. Examon Web byl prezentován na konferenci 1st Users' Conference v Ostravě pořádanou IT4Innovations. Další rozšíření práce může být anotace datové sady a také rozšíření Examon Web o rozhodovací stromy, které určí přesný důvod špatného chování dané úlohy.en
dc.description.abstractUsing the full potential of an HPC system can be difficult when such systems reach the exascale size. This problem is increased by the lack of monitoring tools tailored specifically for users of these systems. This thesis discusses the analysis and visualization of operational data gathered by Examon framework of a high-performance computing system. By applying various data mining techniques on the data, deep knowledge of data can be acquired. To fully utilize the acquired knowledge a tool with a soft-computing approach called Examon Web was made. This tool is able to detect anomalies and unwanted behaviour of submitted jobs on a monitored HPC system and inform the users about such behaviour via a simple to use web-based interface. It also makes available the operational data of the system in a visual, easy to use, manner using different views on the available data. Examon Web is an extension layer above the Examon framework which provides various fine-grain operational data of an HPC system. The resulting soft-computing tool is capable of classifying a job with 84 % success rate and currently, no similar tools are being developed. The Examon Web is developed using Angular for front-end and Python, accompanied by various libraries, for the back-end with the usage of IoT technologies for live data retrieval.cs
dc.description.markAcs
dc.identifier.citationSTEHLÍK, P. Analýza provozních dat a detekce anomálií při běhu úloh na superpočítači [online]. Brno: Vysoké učení technické v Brně. Fakulta informačních technologií. 2018.cs
dc.identifier.other128101cs
dc.identifier.urihttp://hdl.handle.net/11012/187282
dc.language.isoencs
dc.publisherVysoké učení technické v Brně. Fakulta informačních technologiícs
dc.rightsStandardní licenční smlouva - přístup k plnému textu bez omezenícs
dc.subjectbig dataen
dc.subjectneurální sítěen
dc.subjecthluboké sítěen
dc.subjectsuperpočítačen
dc.subjectHPCen
dc.subjectdetekce anomáliíen
dc.subjectweben
dc.subjectGUIen
dc.subjectback-propagationen
dc.subjectrozhodovací stromyen
dc.subjectAngularen
dc.subjectPythonen
dc.subjectCassandraen
dc.subjectKairosDBen
dc.subjectMQTTen
dc.subjectInternet of Thingsen
dc.subjectIoTen
dc.subjectWebSocketen
dc.subjectbig datacs
dc.subjectneural networkscs
dc.subjectdeep learningcs
dc.subjecthigh performance computingcs
dc.subjectHPCcs
dc.subjectanomaly detectioncs
dc.subjectwebcs
dc.subjectGUIcs
dc.subjectback-propagationcs
dc.subjectdecision treescs
dc.subjectAngularcs
dc.subjectPythoncs
dc.subjectCassandracs
dc.subjectKairosDBcs
dc.subjectMQTTcs
dc.subjectInternet of Thingscs
dc.subjectIoTcs
dc.subjectWebSocketcs
dc.titleAnalýza provozních dat a detekce anomálií při běhu úloh na superpočítačien
dc.title.alternativeAnalysis of Operational Data and Detection od Anomalies during Supercomputer Job Executioncs
dc.typeTextcs
dc.type.drivermasterThesisen
dc.type.evskpdiplomová prácecs
dcterms.dateAccepted2018-06-20cs
dcterms.modified2020-05-10-16:13:19cs
eprints.affiliatedInstitution.facultyFakulta informačních technologiícs
sync.item.dbid128101en
sync.item.dbtypeZPen
sync.item.insts2021.11.12 12:11:57en
sync.item.modts2021.11.12 11:47:04en
thesis.disciplineBezpečnost informačních technologiícs
thesis.grantorVysoké učení technické v Brně. Fakulta informačních technologií. Ústav počítačových systémůcs
thesis.levelInženýrskýcs
thesis.nameIng.cs
Files
Original bundle
Now showing 1 - 4 of 4
Loading...
Thumbnail Image
Name:
final-thesis.pdf
Size:
4.58 MB
Format:
Adobe Portable Document Format
Description:
final-thesis.pdf
Loading...
Thumbnail Image
Name:
Posudek-Vedouci prace-20848_v.pdf
Size:
88.69 KB
Format:
Adobe Portable Document Format
Description:
Posudek-Vedouci prace-20848_v.pdf
Loading...
Thumbnail Image
Name:
Posudek-Oponent prace-20848_o.pdf
Size:
91.48 KB
Format:
Adobe Portable Document Format
Description:
Posudek-Oponent prace-20848_o.pdf
Loading...
Thumbnail Image
Name:
review_128101.html
Size:
1.48 KB
Format:
Hypertext Markup Language
Description:
review_128101.html
Collections