KLEMENT, D. Vylepšení kvality řeči bez supervize za pomoci neurálních audio kodeků [online]. Brno: Vysoké učení technické v Brně. Fakulta informačních technologií. 2025.

Posudky

Posudek vedoucího

Burget, Lukáš

This is an excellent and highly original thesis, demonstrating strong research skills, initiative, and technical depth. The work addresses a challenging topic, is of high quality, and has strong potential for publication. I would like to take this opportunity to recommend this thesis for the Dean’s or Rector’s Award, or to have the student's outstanding work recognized in another appropriate way.

Dílčí hodnocení
Kritérium Známka Body Slovní hodnocení
Informace k zadání The topic of the thesis was proposed by the student himself as a continuation of a research direction he had actively pursued during his internship at Johns Hopkins University last year. The work addresses a challenging open research question: whether it is possible to train a speech enhancement system in an unsupervised manner, without relying on the conventional input/output pairs of noisy and corresponding clean speech data. To tackle this problem, the student first had to familiarize himself with the field of neural audio codecs and related recent architectures for speech enhancement. He went on to propose extensions to these architectures, as well as a completely novel paradigm for their unsupervised training. This approach led to the successful development of an unsupervised speech enhancement system. Given the complexity of the problem, the originality of the proposed solution, and the relevance of the results to the research community, I consider the assignment to be highly challenging and the resulting thesis to be both original and valuable.
Práce s literaturou Dominik demonstrated strong initiative and independence in seeking out and studying relevant literature and open-source solutions related to the thesis topic. His ability to critically engage with these materials and integrate them into his work reflects both a solid understanding of the subject matter and a mature research approach.
Aktivita během řešení, konzultace, komunikace Dominik was consistently active throughout the course of his work on the thesis. He began consulting on this topic already during his stay at Johns Hopkins University, where we held regular weekly calls involving him and his JHU advisors. For each of these meetings, he prepared clear reports summarizing his latest results and findings. This level of preparation and consistent communication demonstrated his commitment to the project and allowed for continuous and productive feedback.
Aktivita při dokončování The work was completed in a timely manner, and the final content was thoroughly consulted.
Publikační činnost, ocenění Dominik actively collaborates with our Speech@FIT research group and has already co-authored six publications, which have received a total of 17 citations according to Google Scholar. While none of these publications are directly related to the topic of this thesis, a conference paper on this work is currently in preparation and is expected to be followed by a journal submission. The thesis topic was also presented at the Excel@FIT 2025 conference, where it received the Expert Panel Award .
Navrhovaná známka
A
Body
100

Posudek oponenta

Brukner, Jan

Práce přináší nový přístup k úloze vylepšení kvality řeči pomocí neurálního audio kodeku. Jednotlivá rozhodnutí v architektuře modelu jsou pečlivě vyhodnocována a výsledné modely jsou podrobně analyzovány a srovnány s jinými relevantními systémy. Menším nedostatkem je množství překlepů a formálních nepozorností. I tak práce celkově převyšuje standardní úroveň diplomové práce. Proto navrhuji hodnocení stupněm A (95 bodů).

Dílčí hodnocení
Kritérium Známka Body Slovní hodnocení
Náročnost zadání Zadání je dle mého názoru značně obtížné, jelikož vyžaduje nastudování moderních technik strojového učení a vytvoření nové metody pro vylepšení kvality řeči navíc pomocí metod učení bez supervize.
Rozsah splnění požadavků zadání Student zadání naprosto splnil. Z práce je zřejmé, že student má hlubokou znalost veškerých použitých architektur a technik. Vyvinuté a natrénované modely jsou následně detailně vyhodnoceny včetně ablací.
Rozsah technické zprávy
Prezentační úroveň technické zprávy 95 Práce je členěna do kapitol, které na sebe logicky navazují. Nejprve jsou představeny potřebné základy jako samotná úloha vylepšování kvality řeči a neurální audio kodeky. Následně je popsán navrhovaný model pro řešení úlohy a nakonec jsou popsány jednotlivé vykonané experimenty.  Poněkud nešťastné je množství obrázků naskládaných na konci kapitoly 6, které jsou daleko od textu, ve kterém jsou referovány. Nicméně chápu preferenci kompaktnosti textu proti blízkosti obrázků. 
Formální úprava technické zprávy 80 Pokud má práce z nějaké nedostatky, pak je to z formálního pohledu. V práci se vyskytuje několik překlepů a časté je chybné dělení slov na konci řádků. 
Práce s literaturou 85 Práce obsahuje 89 zdrojů, které jsou relevantní. Student jasně odlišuje svoji práci od převzaté. Dojem trochu kazí první bib. citace, která je pravděpodobně špatně zformátovaná a zkompilovala se tak jako prázdný řádek. Podobně citace [3], ta má uvedeny anonymní autory. Ostatní bibliografické citace jsou v pořádku.
Realizační výstup 100 Výstupem práce je sada modelů pro vylepšení kvality řeči. Pro určení optimální architektury, trénovací strategie a pochopení fungování systému je provedeno mnoho ablací a analýz. Modely jsou podrobně vyhodnoceny pomocí 6 různých relevantních metrik. Finální modely jsou následně porovnány se 3 state-of-the-art systémy při učení se supervizí a 3 systémy při učení bez supervize. Dosažené výsledky jsou srovnatelné se zvolenými baselines.  Řešení úlohy pomocí architektury neurálního kodeku také vykazuje významné zrychlení proti ostatním systémům.
Využitelnost výsledků Práce je výzkumného charakteru, přinášející nový přístup k vylepšení kvality řeči. Při vhodném rozdělení a doplnění by výstupy práce mohly být prezentovány i jako více článků na vědeckých konferencích. 
Navrhovaná známka
A
Body
95

Otázky

eVSKP id 165614