Systém pro správu distribuovaných kontejnerizovaných výpočtů
Loading...
Date
Authors
Kováč, Kristián
Advisor
Referee
Mark
A
Journal Title
Journal ISSN
Volume Title
Publisher
Vysoké učení technické v Brně. Fakulta informačních technologií
ORCID
Abstract
This work addresses the challenges of secure, distributed genomic data processing by developing a workflow runner as part of the Genomic Data Infrastructure (GDI) compute product. Built on Snakemake, the system integrates robust authentication and authorization via the OAuth standard and uses GA4GH Passports for fine-grained access control. Workflow tasks are managed through the Task Execution Service (TES) API, backed by Funnel, while sensitive input data remains securely stored in the Sensitive Data Archive (SDA) and is only accessible with valid user credentials. The system ensures long-running computations remain authorized by implementing token refreshing within a custom Snakemake executor plugin. A web-based dashboard allows users to select and run predefined workflows, monitor job statuses, and access live logs. Support for federated computation enables workflows to operate across multiple locations, each with its own Funnel instance and SDA, maintaining data isolation and security. The platform is designed to run in both Kubernetes-based deployments and demonstration environments using Docker Compose. The system demonstrates a secure and scalable approach for managing distributed genomic analyses in sensitive environments.
Táto práca sa zaoberá výzvami bezpečného a distribuovaného spracovania genomických dát vývojom workflow runnera ako súčasti výpočtovej platformy Genomic Data Infrastructure (GDI). Systém je postavený na nástroji Snakemake, integruje autentizáciu a autorizáciu prostredníctvom štandardu OAuth a využíva GA4GH Passport pre detailné riadenie prístupov. Úlohy workflowu sú spravované cez Task Execution Service (TES) API, ktoré je implementované systémom Funnel, zatiaľ čo citlivé vstupné dáta zostávajú bezpečne uložené~v~Sensitive Data Archive (SDA) a sú prístupné len na základe platných používateľských poverení. Systém zabezpečuje, aby aj dlhotrvajúce výpočty boli neustále autorizované, a to implementáciou obnovovania tokenov v rámci vlastného Snakemake executor pluginu. Webové rozhranie umožňuje používateľom vyberať a spúšťať preddefinované workflowy, sledovať ich stav počas behu a pristupovať k ich logom v reálnom čase. Podpora federovaného výpočtu umožňuje workflowom bežať naprieč rôznymi miestami, pričom každé z nich má vlastnú inštanciu Funnelu a SDA, čo zaručuje vysokú úroveň izolácie a~bezpečnosti dát. Platforma je navrhnutá tak, aby fungovala v prostredí Kubernetes, ale taktiež aj v demonštračných inštaláciách pomocou Docker Compose. Systém prezentuje bezpečný a škálovateľný prístup k správe distribuovaných genomických analýz v citlivých prostrediach.
Táto práca sa zaoberá výzvami bezpečného a distribuovaného spracovania genomických dát vývojom workflow runnera ako súčasti výpočtovej platformy Genomic Data Infrastructure (GDI). Systém je postavený na nástroji Snakemake, integruje autentizáciu a autorizáciu prostredníctvom štandardu OAuth a využíva GA4GH Passport pre detailné riadenie prístupov. Úlohy workflowu sú spravované cez Task Execution Service (TES) API, ktoré je implementované systémom Funnel, zatiaľ čo citlivé vstupné dáta zostávajú bezpečne uložené~v~Sensitive Data Archive (SDA) a sú prístupné len na základe platných používateľských poverení. Systém zabezpečuje, aby aj dlhotrvajúce výpočty boli neustále autorizované, a to implementáciou obnovovania tokenov v rámci vlastného Snakemake executor pluginu. Webové rozhranie umožňuje používateľom vyberať a spúšťať preddefinované workflowy, sledovať ich stav počas behu a pristupovať k ich logom v reálnom čase. Podpora federovaného výpočtu umožňuje workflowom bežať naprieč rôznymi miestami, pričom každé z nich má vlastnú inštanciu Funnelu a SDA, čo zaručuje vysokú úroveň izolácie a~bezpečnosti dát. Platforma je navrhnutá tak, aby fungovala v prostredí Kubernetes, ale taktiež aj v demonštračných inštaláciách pomocou Docker Compose. Systém prezentuje bezpečný a škálovateľný prístup k správe distribuovaných genomických analýz v citlivých prostrediach.
Description
Keywords
Genomic Data Infrastructure , Distributed computation , Snakemake , Task Execution Service , Funnel , Sensitive Data Archive , OAuth , GA4GH Visa , Správa workflowov , Analýza genomických dát , Genomic Data Infrastructure , Distribuované výpočty , Snakemake , Task Execution Service , Funnel , Sensitive Data Archive , OAuth , GA4GH Visa , Workflow management , Genomic data analysis
Citation
KOVÁČ, K. Systém pro správu distribuovaných kontejnerizovaných výpočtů [online]. Brno: Vysoké učení technické v Brně. Fakulta informačních technologií. 2025.
Document type
Document version
Date of access to the full text
Language of document
en
Study field
Počítačové vidění
Comittee
doc. Ing. Martin Čadík, Ph.D. (předseda)
doc. Ing. Vítězslav Beran, Ph.D. (člen)
prof. RNDr. Alexandr Meduna, CSc. (člen)
Ing. Tomáš Milet, Ph.D. (člen)
Ing. Zdeněk Materna, Ph.D. (člen)
Ing. David Bařina, Ph.D. (člen)
Date of acceptance
2025-06-24
Defence
Student nejprve prezentoval výsledky, kterých dosáhl v rámci své práce. Komise se poté seznámila s hodnocením vedoucího a posudkem oponenta práce. Student následně odpověděl na otázky přítomných. Komise se na základě posudku oponenta, hodnocení vedoucího, přednesené prezentace a odpovědí studenta na položené otázky rozhodla práci hodnotit stupněm A.
Result of defence
práce byla úspěšně obhájena
