JANIGOVÁ, P. Identifikace a analýza regulonových struktur v Arabidopsis thaliana [online]. Brno: Vysoké učení technické v Brně. Fakulta elektrotechniky a komunikačních technologií. 2024.

Posudky

Posudek vedoucího

Schwarzerová, Jana

Studentka Patrícia Janigová se ve své bakalářské práci zaměřila na identifikaci a analýzu regulonových struktur v modelovém organismu Arabidopsis thaliana. Práce poskytuje teoretický základ pro pochopení regulace genové exprese, zejména se zaměřením na transkripční jednotky, operony a regulony. Studentka popsala sekvenační techniky s důrazem na technologii Illumina a zahrnula moderní metody pro odvozování transkripčních jednotek, jako je analýza pomocí vyhledávání motivů a shluková analýza, přičemž prostudovala i databáze jako JASPAR a PlantRegMap. Detailně se věnovala popisu Arabidopsis thaliana a jejímu transkriptomu, včetně předzpracování dat z projektu PRJNA779072. Konkrétně byla studentce poskytnuta předzpracovaná CHIP-Seq data ze spolupráce s CEITEC. A sama studentka se zapojila do vytvoření a testování pipeliny pro RNA-Seq. Díky tomu měla v průběhu školního roku dva příspěvky na studentské konferenci EEICT2024 dokazující její aktivitu. Implementovala algoritmus v jazyce Python, který kombinoval Pearsonův korelační koeficient a vzájemnou informaci, čímž vytvořila nástroj pro detekci potenciálně koordinované regulace genové exprese a identifikaci příslušnosti k regulonům. Výsledky následně i vizualizovala pomocí heat-map a UPGMA dendrogramů. Studentka prezentovala a poskytla mnoho významných zjištění k pochopení regulace genové exprese v Arabidopsis thaliana, které mají velký publikační potenciál, po menších korekcích a kombinaci s výsledky z externího pracoviště MoSys, v rámci, kterého se studentka účastnila aktivní diskuse na Vídeňské univerzitě. Studentka prokázala schopnost samostatně řešit komplexní problémy a efektivně používat bioinformatické nástroje. Bohužel samotný text práce obsahuje značné množství gramatických chyb, překlepů a typografických nedostatků, které ztěžují čtení textu, včetně nesprávného použití odborných termínů. V práci se na poslední chvíli objevila i analýza Spearmanova koeficientu, kterou studentka na závěr již řádně nestihla prokonzultovat. Lze tedy pochopit, že čtenář, který nebyl u zrodu veškeré praktické části, se v textu dokáže snadno ztratit a vyvodit falešné závěry. Avšak navzdory těmto nedostatkům, díky nadměrné aktivitě studentky a velmi zajímavým výsledkům v rámci celého akademického roku, hodnotím práci velmi dobře (B – 85 bodů).

Navrhovaná známka
B
Body
85

Posudek oponenta

Bartoň, Vojtěch

Bakalářská práce se zaobírá problematikou identifikace regulonů v sekvenačních datech z transkriptomického experimentu. Práce je vypracována na 30 stranách od úvodu po závěr. Teoretická část obsahuje množství chybných, či nepřesných tvrzení jako je složení mRNA na str. 12, pojem ovlivnění přesnosti transkripce, či popisu induktoru na str. 17. Popis představených nástrojů pro analýzu pak považuji za nedostatečný, zejména z pohledu použité metody identifikace regulonů a výsledky z jejich testování nejsou nikde ukázány. Přitom má na základě jejich metodiky být navržen vlastní postup identifikace. Příprava a zpracování dat pak využívá volně dostupná data, kde se kombinuje chip-seq, bisulfite-seq, atac-seq a RNA-seq. Navržený postup zpracování zobrazený na obr. 3.3. je z hlediska bioinformatiky nepoužitelný. Zcela zbytečné a nesmyslné slouční dat pomocí pear, až poté odtranění adaptorových sekvencí a kontrola kvality. Diferenciální expresní analýza pak rozhodně není udělána softwarem subread/featureCounts, jelikož ten k tomu neslouží. Stejný postup je pak aplikován na všechny zmíněné metody sekvenování, bez zohlednění individuálních parametrů jednotlivých metod. Navržený vlastní postup pak využívá kombinace korelačního koeficientu a výpočtu vzájemné informace. Vlastní implementaci pak považuji za matematicky zcela chybnou a nefunkční. Vstupním souborem je tabulka počtů readů, která však není normalizovaná a vzhledem ke kompozičnímu charakteru zpracovávaných dat ji není možné takto srovnávat. Navržené normalizace po spočítání korelace a vzájemné informace pak popírají smysl výpočtu. Normalizací korelačního koeficientu, zcela ztrácíme informaci o síle závislosti. Min-max normalizace vzájemné informace pak matematicky nedává smysl vzhledem k rozsahu hodnot 0-nekonečno. Spojení těchto informací pak dochází spíše k odhadu genů zapojených do stejných metabolických drah, než k odhadu skupin genů se stejným regulonem. Již na takto spočítaných datech pak používání prahování, které není vysvětleno považuji za nesmyslné. Jde spíše o kategorizaci, a bylo by lepší nechat hodnoty neprahované a neubírat již tak nemnohou obsaženou informaci. Celkově z práce nevyplývá orientace se v dané problematice. Zejména navržené postupy zpracování považuji za chybné a nedostatečné. S příhlednutím k výše zmíněnému předloženou práci nedoporučuji k obhajobě.

Navrhovaná známka
F
Body
45

Otázky

eVSKP id 159695