KLEMENT, D. Vylepšení kvality řeči bez supervize za pomoci neurálních audio kodeků [online]. Brno: Vysoké učení technické v Brně. Fakulta informačních technologií. 2025.
This is an excellent and highly original thesis, demonstrating strong research skills, initiative, and technical depth. The work addresses a challenging topic, is of high quality, and has strong potential for publication. I would like to take this opportunity to recommend this thesis for the Dean’s or Rector’s Award, or to have the student's outstanding work recognized in another appropriate way.
Kritérium | Známka | Body | Slovní hodnocení |
---|---|---|---|
Informace k zadání | The topic of the thesis was proposed by the student himself as a continuation of a research direction he had actively pursued during his internship at Johns Hopkins University last year. The work addresses a challenging open research question: whether it is possible to train a speech enhancement system in an unsupervised manner, without relying on the conventional input/output pairs of noisy and corresponding clean speech data. To tackle this problem, the student first had to familiarize himself with the field of neural audio codecs and related recent architectures for speech enhancement. He went on to propose extensions to these architectures, as well as a completely novel paradigm for their unsupervised training. This approach led to the successful development of an unsupervised speech enhancement system. Given the complexity of the problem, the originality of the proposed solution, and the relevance of the results to the research community, I consider the assignment to be highly challenging and the resulting thesis to be both original and valuable. | ||
Práce s literaturou | Dominik demonstrated strong initiative and independence in seeking out and studying relevant literature and open-source solutions related to the thesis topic. His ability to critically engage with these materials and integrate them into his work reflects both a solid understanding of the subject matter and a mature research approach. | ||
Aktivita během řešení, konzultace, komunikace | Dominik was consistently active throughout the course of his work on the thesis. He began consulting on this topic already during his stay at Johns Hopkins University, where we held regular weekly calls involving him and his JHU advisors. For each of these meetings, he prepared clear reports summarizing his latest results and findings. This level of preparation and consistent communication demonstrated his commitment to the project and allowed for continuous and productive feedback. | ||
Aktivita při dokončování | The work was completed in a timely manner, and the final content was thoroughly consulted. | ||
Publikační činnost, ocenění | Dominik actively collaborates with our Speech@FIT research group and has already co-authored six publications, which have received a total of 17 citations according to Google Scholar. While none of these publications are directly related to the topic of this thesis, a conference paper on this work is currently in preparation and is expected to be followed by a journal submission. The thesis topic was also presented at the Excel@FIT 2025 conference, where it received the Expert Panel Award . |
Práce přináší nový přístup k úloze vylepšení kvality řeči pomocí neurálního audio kodeku. Jednotlivá rozhodnutí v architektuře modelu jsou pečlivě vyhodnocována a výsledné modely jsou podrobně analyzovány a srovnány s jinými relevantními systémy. Menším nedostatkem je množství překlepů a formálních nepozorností. I tak práce celkově převyšuje standardní úroveň diplomové práce. Proto navrhuji hodnocení stupněm A (95 bodů).
Kritérium | Známka | Body | Slovní hodnocení |
---|---|---|---|
Náročnost zadání | Zadání je dle mého názoru značně obtížné, jelikož vyžaduje nastudování moderních technik strojového učení a vytvoření nové metody pro vylepšení kvality řeči navíc pomocí metod učení bez supervize. | ||
Rozsah splnění požadavků zadání | Student zadání naprosto splnil. Z práce je zřejmé, že student má hlubokou znalost veškerých použitých architektur a technik. Vyvinuté a natrénované modely jsou následně detailně vyhodnoceny včetně ablací. | ||
Rozsah technické zprávy | |||
Prezentační úroveň technické zprávy | 95 | Práce je členěna do kapitol, které na sebe logicky navazují. Nejprve jsou představeny potřebné základy jako samotná úloha vylepšování kvality řeči a neurální audio kodeky. Následně je popsán navrhovaný model pro řešení úlohy a nakonec jsou popsány jednotlivé vykonané experimenty. Poněkud nešťastné je množství obrázků naskládaných na konci kapitoly 6, které jsou daleko od textu, ve kterém jsou referovány. Nicméně chápu preferenci kompaktnosti textu proti blízkosti obrázků. | |
Formální úprava technické zprávy | 80 | Pokud má práce z nějaké nedostatky, pak je to z formálního pohledu. V práci se vyskytuje několik překlepů a časté je chybné dělení slov na konci řádků. | |
Práce s literaturou | 85 | Práce obsahuje 89 zdrojů, které jsou relevantní. Student jasně odlišuje svoji práci od převzaté. Dojem trochu kazí první bib. citace, která je pravděpodobně špatně zformátovaná a zkompilovala se tak jako prázdný řádek. Podobně citace [3], ta má uvedeny anonymní autory. Ostatní bibliografické citace jsou v pořádku. | |
Realizační výstup | 100 | Výstupem práce je sada modelů pro vylepšení kvality řeči. Pro určení optimální architektury, trénovací strategie a pochopení fungování systému je provedeno mnoho ablací a analýz. Modely jsou podrobně vyhodnoceny pomocí 6 různých relevantních metrik. Finální modely jsou následně porovnány se 3 state-of-the-art systémy při učení se supervizí a 3 systémy při učení bez supervize. Dosažené výsledky jsou srovnatelné se zvolenými baselines. Řešení úlohy pomocí architektury neurálního kodeku také vykazuje významné zrychlení proti ostatním systémům. | |
Využitelnost výsledků | Práce je výzkumného charakteru, přinášející nový přístup k vylepšení kvality řeči. Při vhodném rozdělení a doplnění by výstupy práce mohly být prezentovány i jako více článků na vědeckých konferencích. |
eVSKP id 165614