Systém pro správu distribuovaných kontejnerizovaných výpočtů

Loading...
Thumbnail Image

Date

Authors

Kováč, Kristián

Mark

A

Journal Title

Journal ISSN

Volume Title

Publisher

Vysoké učení technické v Brně. Fakulta informačních technologií

ORCID

Abstract

This work addresses the challenges of secure, distributed genomic data processing by developing a workflow runner as part of the Genomic Data Infrastructure (GDI) compute product. Built on Snakemake, the system integrates robust authentication and authorization via the OAuth standard and uses GA4GH Passports for fine-grained access control. Workflow tasks are managed through the Task Execution Service (TES) API, backed by Funnel, while sensitive input data remains securely stored in the Sensitive Data Archive (SDA) and is only accessible with valid user credentials. The system ensures long-running computations remain authorized by implementing token refreshing within a custom Snakemake executor plugin. A web-based dashboard allows users to select and run predefined workflows, monitor job statuses, and access live logs. Support for federated computation enables workflows to operate across multiple locations, each with its own Funnel instance and SDA, maintaining data isolation and security. The platform is designed to run in both Kubernetes-based deployments and demonstration environments using Docker Compose. The system demonstrates a secure and scalable approach for managing distributed genomic analyses in sensitive environments.
Táto práca sa zaoberá výzvami bezpečného a distribuovaného spracovania genomických dát vývojom workflow runnera ako súčasti výpočtovej platformy Genomic Data Infrastructure (GDI). Systém je postavený na nástroji Snakemake, integruje autentizáciu a autorizáciu prostredníctvom štandardu OAuth a využíva GA4GH Passport pre detailné riadenie prístupov. Úlohy workflowu sú spravované cez Task Execution Service (TES) API, ktoré je implementované systémom Funnel, zatiaľ čo citlivé vstupné dáta zostávajú bezpečne uložené~v~Sensitive Data Archive (SDA) a sú prístupné len na základe platných používateľských poverení. Systém zabezpečuje, aby aj dlhotrvajúce výpočty boli neustále autorizované, a to implementáciou obnovovania tokenov v rámci vlastného Snakemake executor pluginu. Webové rozhranie umožňuje používateľom vyberať a spúšťať preddefinované workflowy, sledovať ich stav počas behu a pristupovať k ich logom v reálnom čase. Podpora federovaného výpočtu umožňuje workflowom bežať naprieč rôznymi miestami, pričom každé z nich má vlastnú inštanciu Funnelu a SDA, čo zaručuje vysokú úroveň izolácie a~bezpečnosti dát. Platforma je navrhnutá tak, aby fungovala v prostredí Kubernetes, ale taktiež aj v demonštračných inštaláciách pomocou Docker Compose. Systém prezentuje bezpečný a škálovateľný prístup k správe distribuovaných genomických analýz v citlivých prostrediach.

Description

Citation

KOVÁČ, K. Systém pro správu distribuovaných kontejnerizovaných výpočtů [online]. Brno: Vysoké učení technické v Brně. Fakulta informačních technologií. 2025.

Document type

Document version

Date of access to the full text

Language of document

en

Study field

Počítačové vidění

Comittee

doc. Ing. Martin Čadík, Ph.D. (předseda) doc. Ing. Vítězslav Beran, Ph.D. (člen) prof. RNDr. Alexandr Meduna, CSc. (člen) Ing. Tomáš Milet, Ph.D. (člen) Ing. Zdeněk Materna, Ph.D. (člen) Ing. David Bařina, Ph.D. (člen)

Date of acceptance

2025-06-24

Defence

Student nejprve prezentoval výsledky, kterých dosáhl v rámci své práce. Komise se poté seznámila s hodnocením vedoucího a posudkem oponenta práce. Student následně odpověděl na otázky přítomných. Komise se na základě posudku oponenta, hodnocení vedoucího, přednesené prezentace a odpovědí studenta na položené otázky rozhodla práci hodnotit stupněm A.

Result of defence

práce byla úspěšně obhájena

DOI

Collections

Endorsement

Review

Supplemented By

Referenced By

Citace PRO