Knihovna pro parametrizaci hlasu a řeči v jazyce Python

Loading...
Thumbnail Image

Date

Authors

Ladislav, Richard

Mark

A

Journal Title

Journal ISSN

Volume Title

Publisher

Vysoké učení technické v Brně. Fakulta elektrotechniky a komunikačních technologií

ORCID

Abstract

Táto diplomová práca sa zaoberá využitím moderných metód spracovania rečového signálu na účely diagnostiky hypokinetickej dyzartrie, typickej pre Parkinsonovu chorobu. V práci je najskôr predstavený teoretický základ rečových porúch spojených s neurodegeneratívnymi ochoreniami, ako aj súčasné diagnostické prístupy, vrátane porovnania tradičných metód s algoritmickými riešeniami založenými na spracovaní reči. V praktickej časti bola navrhnutá a implementovaná knižnica VuVoPy, určená na extrakciu vybraných rečových parametrov pomocou algoritmov ako SWIPE’ (pre výpočet základného tónu F0), Levinson-Durbin (pre výpočet LPC koeficientov a formantov F1, F2), detekcia znelosti pomocou Gaussových zmiešaných modelov a výpočet HNR cez autokoreláciu. Knižnica je implementovaná v jazyku Python, dostupná ako open-source balíček na platforme PyPi a je sprevádzaná dokumentáciou a jednotkovými testami. Na validáciu navrhnutého riešenia boli vykonané dve fázy štatistickej analýzy. V prvej fáze boli výsledky základných algoritmov porovnané s výstupmi softvéru PRAAT. V druhej fáze bola knižnica aplikovaná na podmnožinu databázy PARCZ obsahujúcu vyvážený súbor zdravých a postihnutých subjektov. Výsledky analýzy vrátane korelačných máp a boxplotov preukázali schopnosť vybraných parametrov odlíšiť jednotlivé skupiny subjektov. Výsledky práce potvrdzujú potenciál využitia rečovej analýzy ako podporného nástroja pri diagnostike neurologických porúch. Knižnica VuVoPy predstavuje flexibilný nástroj, ktorého ďalší vývoj bude zameraný na optimalizáciu výkonu a rozšírenie funkcionality.
This thesis explores the application of modern speech signal processing methods for the diagnosis of hypokinetic dysarthria, a condition commonly associated with Parkinson’s disease. The theoretical part presents an overview of speech disorders linked to neurodegenerative diseases, as well as a comparison of conventional diagnostic approaches with algorithmic solutions based on speech analysis. In the practical part, a Python-based software library called VuVoPy was developed to extract selected speech parameters using algorithms such as SWIPE’ (for estimating the fundamental frequency F0), LevinsonDurbin recursion (for computing LPC coefficients and estimating formants F1 and F2), unvoiced/voiced detection via Gaussian Mixture Models, and harmonic-to-noise ratio (HNR) calculation through autocorrelation. The library is available as an open-source package on the PyPi platform and is supported by full documentation and unit tests. To validate the proposed solution, two stages of statistical analysis were performed. In the first phase, the performance of the core algorithms was compared to results obtained from the PRAAT software. In the second phase, the library was applied to a balanced subset of the PARCZ speech database, containing both healthy controls and Parkinson’s patients. The resulting correlation matrices and boxplots demonstrated the discriminative power of the extracted parameters across diagnostic and demographic groups. The findings confirm the potential of speech analysis as a valuable tool in the support of neurological disease diagnosis. VuVoPy represents a flexible framework, with future development focused on performance optimization and extended functionality.

Description

Citation

LADISLAV, R. Knihovna pro parametrizaci hlasu a řeči v jazyce Python [online]. Brno: Vysoké učení technické v Brně. Fakulta elektrotechniky a komunikačních technologií. 2025.

Document type

Document version

Date of access to the full text

Language of document

sk

Study field

Akustika a audiovizuální technika

Comittee

prof. Ing. Zdeněk Smékal, CSc. (předseda) Ing. Miroslav Balík, Ph.D. (místopředseda) RNDr. Lubor Přikryl (člen) PhDr. Aleš Dvořák (člen) Ing. Štěpán Miklánek, Ph.D. (člen)

Date of acceptance

2025-06-12

Defence

Student prezentoval výsledky své práce a komise byla seznámena s posudky. Student obhájil diplomovou práci a odpověděl na otázky členů komise a oponenta Otázky: Jaké další dostupné knihovny určené pro parametrizaci hlasu a řeči existují? Jaké hlavní rozdíly vidíte mezi těmito nástroji a Vámi navrženou knihovnou VuVoPy z hlediska funkcionality, modularity a možnosti klinického využití?

Result of defence

práce byla úspěšně obhájena

DOI

Collections

Endorsement

Review

Supplemented By

Referenced By

Citace PRO