VALÍK, T. Možnosti neuronových sítí využívajících transformery pro zpracování medicínských obrazů [online]. Brno: Vysoké učení technické v Brně. Fakulta elektrotechniky a komunikačních technologií. 2024.
Diplomová práce se zabývá možnostmi využití transformerových metod strojového učení pro řešení úkolů zpracování medicínských dat. Student provedl literární rešerši metod využívajících transformerů a jejich modifikací. Následně byly zvoleny vhodné veřejně dostupné datasety, dále byly zvoleny, implementovány, optimalizovány a natrénovány dva modely strojového učení; jeden využívající konvoluční neuronové sítě a druhý Visual Transformer. Oba modely byly vhodně porovnány a výsledky diskutovány. Text práce je srozumitelný, čitelný a vhodně navazuje. Po formální stránce je práce na velmi dobré úrovni. Student využíval relevantních, zejména zahraničních zdrojů, které vhodně citoval. Drobné připomínky mám k občasně špatné formě odkazů na reference. Student docházel pravidelně na konzultace, kde řešil konkrétní dotazy; po celou dobu byl samostatný, přicházel s vlastními nápady a aktivně pracoval. Výsledky práce považuji za vhodně diskutované a v souladu s obecně očekávanými. Práce je velmi kvalitní a splňuje požadavky kladené na diplomové práce. Všechny body zadání považuji za splněné a práci hodnotím stupněm A (98 bodů).
Předložená diplomová práce se zabývá možnostmi neuronových sítí využívajících transformery pro zpracování medicínských obrazů. Práce je rozdělena do čtyř kapitol na 36 stranách od úvodu po závěr. V teoretické části práce je čtenář detailně seznámen s architekturou sítě transformer, jejími základními bloky a jejími modifikovanými verzemi pro zpracování obrazů. Je provedena podrobná rešerše využití transformerových sítí a jejich modifikací na klasifikační a segmentační úlohy obsahující medicínské obrazy. Tuto část práce považuji za velmi zdařilou. V praktické části práce student vypracoval rešerši používaných datasetů pro testování různých algoritmů a z dostupných datasetů vybral obecný dataset Intel Image Classification a medicínský dataset ChestXray. Na tyto dva datasety implementoval síť Vision Transformer a standardní neuronovou síť ResNet18. Jednotlivé sítě natrénoval na daných datasetech a provedl optimalizaci hyperparametrů s využitím frameworku Optuna. Optimalizaci prováděl na základě metrik vzájemné entropie a F1 skóre, přičemž provedl analýzu optimalizace a výsledky vhodně diskutuje. Student dále provádí statistickou analýzu a srovnává úspěšnost naučených modelů z hlediska úspěšnosti, výpočetní náročnosti a důležitosti hyperparametrů. Po odborné stránce považuji práci za nadprůměrnou, protože student dokázal implementovat velmi složitý model transformeru. Po formální stránce mám k práci drobné výhrady. Na značnou část obrázků není odkázáno v textu. Některé citace v textu jsou špatně přiřazeny na začátek další věty. Bylo by vhodnější v česky psané práci uvádět jméno autora "a kol.", místo "et al." Bylo by dobré nekončit řádky předložkou. Některé převzaté obrázky by si zasloužily podrobnější popis. Při uvádění velikosti obrazů je vhodnější použít místo písmene x matematický znak krát. Práce cituje 39 položek literatury, převážně odborných publikací, což považuji za dostačující, ale jedna položka [8] není v textu zmíněna. Zdrojové kódy jsou přehledné, komentované a odpovídají normám v programování. Předloženou práci považuji za velmi zdařilou. Zadání je splněné v celém rozsahu a i přes výše zmíněné nedostatky celkově hodnotím práci známkou výborně (A – 92 bodů) a doporučuji ji k obhajobě.
eVSKP id 159777