SRNA, K. Impact of Speaker Characteristics on the Performance of Deepfake Speech Detectors [online]. Brno: Vysoké učení technické v Brně. Fakulta informačních technologií. 2025.

Posudky

Posudek vedoucího

Staněk, Vojtěch

Student odvedl velké množství výzkumné i praktické/implementační práce při tvorbě datové sady. Student kladl důraz na praktickou využitelnost výsledků a práci směřoval tak, aby byla prakticky použitelná. Vytvořená datová sada je dostatečně robustní a bude sloužit jako základ pro další výzkum. Datová sada obsahuje detailní metadata, což dále umožňuje její využití i v jiných oblastech výzkumu. Vyhodnocené experimenty poskytují počáteční vhled do problematiky předpojatosti a férovosti detektorů deepfake řeči. Práce byla pravidelně konzultována, kvalita textu je na dobré úrovni. Pozitivně hodnotím zpracování v angličtině. Z těchto důvodu hodnotím práci stupněm A - výborně .

Dílčí hodnocení
Kritérium Známka Body Slovní hodnocení
Informace k zadání Jedná se o bakalářskou práci s výzkumným přesahem. Cílem bylo vytvořit datovou sadu reálné a syntetické řeči, která umožní vyhodnotit vliv charakteristik řečníka a mluvené řeči na výkon detektorů deepfake řeči. Zadání hodnotím jako obtížnější kvůli tématickému přesahu bakalářského studia i celkovému objemu výzkumné i praktické práce. Student splnil všechny body zadání. S výsledky práce jsem spokojen, práce bude sloužit jako základ pro navazující výzkum v oblastech předpojatosti a férovosti AI.
Práce s literaturou Student aktivně vyhledával relevantní dostupnou literaturu a vhodně ji využil při vypracování bakalářské práce. Vyzdvihuji objem prozkoumaných a analyzovaných řečových korpusů včetně posouzení jejich kvality a využitelnosti pro práci.
Aktivita během řešení, konzultace, komunikace Student inicioval pravidelné konzultace, na kterých konzultoval aktuální postup i celkové směřování práce. Na konzultace chodil vždy připraven, přinášel do řešení vlastní nápady a proaktivně řešil problémy, na které narazil.
Aktivita při dokončování Práce byla vypracována průběžně, před odevzdáním byla aktivita vyšší. Definitivní obsah práce byl zaslán k připomínkování v nepříliš velkém předstihu, avšak všechny mé připomínky byly včas zapracovány.
Publikační činnost, ocenění Výsledky práce zatím nebyly publikovány, budou však sloužit jako základ pro budoucí vědeckou publikaci.
Navrhovaná známka
A
Body
94

Posudek oponenta

Zhang, Lin

I believe this thesis successfully meets all the assigned requirements. Although there are some unclear points and a few missing details, the overall work is good and well-structured. I would recommend including more speakers in the database to enhance its value and generalizability. It may also be worth considering a future publication based on this work after introduce more speakers, as the database could be useful to other researchers in the field.

Dílčí hodnocení
Kritérium Známka Body Slovní hodnocení
Náročnost zadání The difficulty of the assignment is in the normal level.
Rozsah splnění požadavků zadání This student meets all requirements of assignment.
Rozsah technické zprávy The length of the thesis is good.
Prezentační úroveň technické zprávy 85 The presentation of this thesis is good.
Formální úprava technické zprávy 85 Chapter 1-6 looks good for me, notes for the second part of the thesis: 1. Page 7: “e.g., or spectrograms” is incomplete. 2. Page 26“The train split was excluded because the synthesis tools may have seen this data during training...” could be misleading. Does this imply that the train split was used for fine-tuning F5-TTS, as stated on page 25? Please clarify the exact usage of the train set and how it relates to fine-tuning. 3. Page 26 – GitHub Repository: While it's great that code is released, much of the content appears identical to the original F5-TTS repo, which might confuse readers. Consider restructuring or documenting the repo to better align with the thesis content. 4. Section 7.1 – Step-by-Step Guide: The written steps are helpful, but some are hard to follow without visual context. Consider adding illustrative examples (e.g., screenshots of the generated file/protocol, flowcharts) to improve clarity. 5. Page 31 / Chapter 8 – Experimental Details: The description of experiments lacks clarity. Some specific questions and suggestions: (1) What dataset was used for evaluation? Was it newly created or based on the same dataset used for training? (2) Section 8.2: The statistical test description is vague. Please clarify: Which exact statistical test was used? What were the exact p-values? What are the “four exceptions”? (3) You mention: “The difference was not confirmed to be statistically significant,” and later: “the difference in score distribution is statistically significant”. This seems contradictory, please clarify. (4) The phrase “suggesting a limited impact in real-life scenarios” is vague. Please expnad this sentence and try to explain what "limited impact" means and under what assumptions. (5) Figure 8.1: The x-axis labels are not aligned with the bars. Also, does “AASIST” mean trained on ASVspoof2019? 6. Please add reference for the Kruskal–Wallis H test properly. 7. Chapter 8.3 The analysis is interesting, but I’m concerned about sample size. For example, the 80+ age group seems to contain only two speakers. Are these results statistically reliable? (You later mention something similar in the education-level experiment, which is good, perhaps extend this approach.) 8. Alternative Analysis – Correlation: In addition to classification tasks, consider computing correlations between speaker attributes (e.g., age, gender) and performance metrics. 9. “There is a statistically significant difference in the score distribution across various speaker characteristics” is confusing. Since "speaker characteristics" include multiple dimensions (e.g., age, gender), it’s better to specify which characteristic(s) showed significance. 10. Conclusion You mention some dataset limitations, which is good. However, in addition to ethnicity, note that the number of speakers is also limited. Please add this.
Práce s literaturou 95 A few references are already accepted, but their citation is still in the arxiv version, which should be updated according to literature’s latest information.
Realizační výstup 85 The quality is good, but github repo need to be revised to be aligned with this thesis.
Využitelnost výsledků The created database is meaningful which can be used for future exploration on generalization/bias exploration on deepfake audio detection.
Navrhovaná známka
A
Body
95

eVSKP id 165219