Knihovna pro parametrizaci hlasu a řeči v jazyce Python

but.committeeprof. Ing. Zdeněk Smékal, CSc. (předseda) Ing. Miroslav Balík, Ph.D. (místopředseda) RNDr. Lubor Přikryl (člen) PhDr. Aleš Dvořák (člen) Ing. Štěpán Miklánek, Ph.D. (člen)cs
but.defenceStudent prezentoval výsledky své práce a komise byla seznámena s posudky. Student obhájil diplomovou práci a odpověděl na otázky členů komise a oponenta Otázky: Jaké další dostupné knihovny určené pro parametrizaci hlasu a řeči existují? Jaké hlavní rozdíly vidíte mezi těmito nástroji a Vámi navrženou knihovnou VuVoPy z hlediska funkcionality, modularity a možnosti klinického využití?cs
but.jazykslovenština (Slovak)
but.programAudio inženýrstvícs
but.resultpráce byla úspěšně obhájenacs
dc.contributor.advisorGaláž, Zoltánsk
dc.contributor.authorLadislav, Richardsk
dc.contributor.refereeNovotný, Kryštofsk
dc.date.created2025cs
dc.description.abstractTáto diplomová práca sa zaoberá využitím moderných metód spracovania rečového signálu na účely diagnostiky hypokinetickej dyzartrie, typickej pre Parkinsonovu chorobu. V práci je najskôr predstavený teoretický základ rečových porúch spojených s neurodegeneratívnymi ochoreniami, ako aj súčasné diagnostické prístupy, vrátane porovnania tradičných metód s algoritmickými riešeniami založenými na spracovaní reči. V praktickej časti bola navrhnutá a implementovaná knižnica VuVoPy, určená na extrakciu vybraných rečových parametrov pomocou algoritmov ako SWIPE’ (pre výpočet základného tónu F0), Levinson-Durbin (pre výpočet LPC koeficientov a formantov F1, F2), detekcia znelosti pomocou Gaussových zmiešaných modelov a výpočet HNR cez autokoreláciu. Knižnica je implementovaná v jazyku Python, dostupná ako open-source balíček na platforme PyPi a je sprevádzaná dokumentáciou a jednotkovými testami. Na validáciu navrhnutého riešenia boli vykonané dve fázy štatistickej analýzy. V prvej fáze boli výsledky základných algoritmov porovnané s výstupmi softvéru PRAAT. V druhej fáze bola knižnica aplikovaná na podmnožinu databázy PARCZ obsahujúcu vyvážený súbor zdravých a postihnutých subjektov. Výsledky analýzy vrátane korelačných máp a boxplotov preukázali schopnosť vybraných parametrov odlíšiť jednotlivé skupiny subjektov. Výsledky práce potvrdzujú potenciál využitia rečovej analýzy ako podporného nástroja pri diagnostike neurologických porúch. Knižnica VuVoPy predstavuje flexibilný nástroj, ktorého ďalší vývoj bude zameraný na optimalizáciu výkonu a rozšírenie funkcionality.sk
dc.description.abstractThis thesis explores the application of modern speech signal processing methods for the diagnosis of hypokinetic dysarthria, a condition commonly associated with Parkinson’s disease. The theoretical part presents an overview of speech disorders linked to neurodegenerative diseases, as well as a comparison of conventional diagnostic approaches with algorithmic solutions based on speech analysis. In the practical part, a Python-based software library called VuVoPy was developed to extract selected speech parameters using algorithms such as SWIPE’ (for estimating the fundamental frequency F0), LevinsonDurbin recursion (for computing LPC coefficients and estimating formants F1 and F2), unvoiced/voiced detection via Gaussian Mixture Models, and harmonic-to-noise ratio (HNR) calculation through autocorrelation. The library is available as an open-source package on the PyPi platform and is supported by full documentation and unit tests. To validate the proposed solution, two stages of statistical analysis were performed. In the first phase, the performance of the core algorithms was compared to results obtained from the PRAAT software. In the second phase, the library was applied to a balanced subset of the PARCZ speech database, containing both healthy controls and Parkinson’s patients. The resulting correlation matrices and boxplots demonstrated the discriminative power of the extracted parameters across diagnostic and demographic groups. The findings confirm the potential of speech analysis as a valuable tool in the support of neurological disease diagnosis. VuVoPy represents a flexible framework, with future development focused on performance optimization and extended functionality.en
dc.description.markAcs
dc.identifier.citationLADISLAV, R. Knihovna pro parametrizaci hlasu a řeči v jazyce Python [online]. Brno: Vysoké učení technické v Brně. Fakulta elektrotechniky a komunikačních technologií. 2025.cs
dc.identifier.other167237cs
dc.identifier.urihttp://hdl.handle.net/11012/252310
dc.language.isoskcs
dc.publisherVysoké učení technické v Brně. Fakulta elektrotechniky a komunikačních technologiícs
dc.rightsStandardní licenční smlouva - přístup k plnému textu bez omezenícs
dc.subjectParinsonova chorobask
dc.subjecthypokinetická dyzartriask
dc.subjectspracovanie rečisk
dc.subjectPDAssk
dc.subjectformantové frekvenicesk
dc.subjectzákladný tón rečisk
dc.subjectPythonsk
dc.subjectpipsk
dc.subjectParkinson’s diseaseen
dc.subjecthypokinetic dysarthriaen
dc.subjectspeech processingen
dc.subjectPDAsen
dc.subjectformant frequenciesen
dc.subjectfundamental frequency of voiceen
dc.subjectPythonen
dc.subjectpipen
dc.titleKnihovna pro parametrizaci hlasu a řeči v jazyce Pythonsk
dc.title.alternativePython library for parametrization of dysarthric voiceen
dc.typeTextcs
dc.type.drivermasterThesisen
dc.type.evskpdiplomová prácecs
dcterms.dateAccepted2025-06-12cs
dcterms.modified2025-06-13-09:36:53cs
eprints.affiliatedInstitution.facultyFakulta elektrotechniky a komunikačních technologiícs
sync.item.dbid167237en
sync.item.dbtypeZPen
sync.item.insts2025.08.27 02:04:00en
sync.item.modts2025.08.26 20:08:37en
thesis.disciplineAkustika a audiovizuální technikacs
thesis.grantorVysoké učení technické v Brně. Fakulta elektrotechniky a komunikačních technologií. Ústav telekomunikacícs
thesis.levelInženýrskýcs
thesis.nameIng.cs

Files

Original bundle

Now showing 1 - 3 of 3
Loading...
Thumbnail Image
Name:
final-thesis.pdf
Size:
4.12 MB
Format:
Adobe Portable Document Format
Description:
file final-thesis.pdf
Loading...
Thumbnail Image
Name:
appendix-1.zip
Size:
12.24 MB
Format:
Unknown data format
Description:
file appendix-1.zip
Loading...
Thumbnail Image
Name:
review_167237.html
Size:
4.51 KB
Format:
Hypertext Markup Language
Description:
file review_167237.html

Collections