Automatizovaná segmentace diadochokinetické úlohy za účelem vzdáleného monitorování řeči
Loading...
Date
Authors
Svojanovský, Jan
ORCID
Advisor
Referee
Mark
C
Journal Title
Journal ISSN
Volume Title
Publisher
Vysoké učení technické v Brně. Fakulta elektrotechniky a komunikačních technologií
Abstract
Práce popisuje zdravotní problémy spojené s Parkinsonovou nemocí, zvláště pak hypokinetickou dysartrii. Popisuje také subjektivní a objektivní metody, kterými se závažnost nemoci stanovuje. Jednou z metod je diadochokinetická (DDK) úloha založena na opakování slabik tak, aby se prověřila funkčnost artikulačního aparátu (např. jazyk, rty či hlasivky). Správná tvorba řeči může být také zkoumána klinickým logopedem v testu 3F, který vážnost poruch v oblastech tvorby řeči bodově hodnotí. V práci jsou popsány přístupy jiných autorů, kteří se také zabývali automatizovaným vyhledáváním slabik v řečovém signálu. Práce popisuje některé příznaky, charakterizující vlastnosti lidské řeči, které jsou potřebné pro trénování modelu strojového učení. Tyto příznaky byly počítány pro každý z 30 ms segmentů nahrávky DDK úlohy, ve které byly opakovány slabiky [Pa]-[Ta]-[Ka]. Hlavním cílem je automatizovaná detekce a klasifikace slabik [Pa]-[Ta]-[Ka] v nahrávkách. K tomu byl aplikován algoritmus využívající logistickou regresi. Výsledná průměrná přesnost detekce slabik v nahrávkách byla 89,4 %, průměrná sensitivita 59,0 % a průměrná specificita 93,79 %. Rozlišovat druhy jednotlivých slabik se dařilo s průměrnou přesností 90,78 %, průměrnou sensitivitou 59,0 % a specificitou 95,39 %. Při úvaze, že se predikovaný začátek nenacházel přímo na manuálně anotovaném začátku, ale v jeho blízkém okolí (až ± 3 segmenty) dosahovala průměrná sensitivita detekce 96,9 % a průměrná sensitivita klasifikace druhu slabik 85,1 % s průměrnými rozdíly manuálně anotovaných a automaticky segmentovaných začátků slabik 10,35 ms. Průměrná přesnost klasifikace řečníků na zdravé a nemocné s PN pomocí logistické regrese (s řečovými parametry získanými po automatizované segmentaci) dosahovala pouze 43,92 %, sensitivita 70,0 % a specificita 30,61 % (práh 70 %). Pomocí lineární regrese proběhla predikce klinických skórů testu 3F. Pro faciokinezi dosahovala odmocnina ze střední kvadratické chyby (RMSE) po manuální anotaci slabik hodnoty 2,764 a po automatizované segmentaci hodnoty 3,271. Hodnoty RMSE u fonetiky byly 3,657 (manuálně) a 0,753 (automatizovaně). Vytvořený algoritmus dokáže relativně úspěšně detekovat slabiky v DDK úlohách a je tak možné určovat parametry kvantifikující poruchy řeči s nízkými rozdíly s manuální segmentací. Pokud nahrávky DDK úloh budou splňovat podmínky pro výpočet všech těchto parametrů, mohl by být algoritmus využit ke klasifikaci řečníků na zdravé a nemocné s PN, u kterých by navíc mohl hodnotit závažnost dysartrie.
The study describes health problems associated with Parkinson’s disease, especially hypokinetic dysarthria. It also points out the subjective and objective methods used to determine the severity of the disease. One of these methods is a diadochokinetic (DDK) task based on rapid syllable repetition to test the functionality of the articulatory apparatus (e.g., tongue, lips, or vocal cords). Correct speech production can also be examined by a speech therapist in the 3F test, which scores the severity of disorders in different areas of speech production. Next, the approaches of other authors, also dealing with the automated search of syllables in the speech signal, are described. The thesis also discusses some features of human speech that are needed for training a machine learning model. These features were computed for each of the 30 ms segments of a DDK task. The main goal is the automated detection and classification of [Pa]-[Ta]-[Ka] syllables in the recordings. For this purpose, an algorithm using a logistic regression was applied. The resulting average accuracy of syllable detection in the recordings was 89.4 %, average sensitivity 59.0 % and average specificity 93.79 %. The identification of individual syllable types was successful with an average accuracy of 90.78 %, an average sensitivity of 59.0 % and an average specificity of 95.39 %. Considering that the predicted onset was not located directly on the manually annotated onset, but in its close vicinity (up to ±3 segments), the average detection sensitivity and average syllable type classification sensitivity were 96.9 % and 85.1 % respectively, with an average difference between manually annotated and automatically segmented syllable onsets of 10.35 ms. The average accuracy of classification of speakers into healthy and PN patients using logistic regression (with speech parameters obtained after automated segmentation) was only 43.92 %, sensitivity 70.0 % and specificity 30.61 % (threshold 70 %). Using linear regression, the clinical scores of the 3F test were predicted. For faciokinesis, the root mean square error (RMSE) was 2.764 after manual syllable annotation and 3.271 after automated segmentation. The RMSE values for phonetics were 3.657 (manual) and 0.753 (automated). The developed algorithm can detect syllables in DDK tasks with relative success, and thus it is possible to determine parameters quantifying speech disorders with low differences with manual segmentation. If the recordings of DDK tasks meet the conditions for computing all these parameters, the algorithm could be used to classify speakers into healthy subjects and PN patients, for whom it could additionally assess the severity of dysarthria.
The study describes health problems associated with Parkinson’s disease, especially hypokinetic dysarthria. It also points out the subjective and objective methods used to determine the severity of the disease. One of these methods is a diadochokinetic (DDK) task based on rapid syllable repetition to test the functionality of the articulatory apparatus (e.g., tongue, lips, or vocal cords). Correct speech production can also be examined by a speech therapist in the 3F test, which scores the severity of disorders in different areas of speech production. Next, the approaches of other authors, also dealing with the automated search of syllables in the speech signal, are described. The thesis also discusses some features of human speech that are needed for training a machine learning model. These features were computed for each of the 30 ms segments of a DDK task. The main goal is the automated detection and classification of [Pa]-[Ta]-[Ka] syllables in the recordings. For this purpose, an algorithm using a logistic regression was applied. The resulting average accuracy of syllable detection in the recordings was 89.4 %, average sensitivity 59.0 % and average specificity 93.79 %. The identification of individual syllable types was successful with an average accuracy of 90.78 %, an average sensitivity of 59.0 % and an average specificity of 95.39 %. Considering that the predicted onset was not located directly on the manually annotated onset, but in its close vicinity (up to ±3 segments), the average detection sensitivity and average syllable type classification sensitivity were 96.9 % and 85.1 % respectively, with an average difference between manually annotated and automatically segmented syllable onsets of 10.35 ms. The average accuracy of classification of speakers into healthy and PN patients using logistic regression (with speech parameters obtained after automated segmentation) was only 43.92 %, sensitivity 70.0 % and specificity 30.61 % (threshold 70 %). Using linear regression, the clinical scores of the 3F test were predicted. For faciokinesis, the root mean square error (RMSE) was 2.764 after manual syllable annotation and 3.271 after automated segmentation. The RMSE values for phonetics were 3.657 (manual) and 0.753 (automated). The developed algorithm can detect syllables in DDK tasks with relative success, and thus it is possible to determine parameters quantifying speech disorders with low differences with manual segmentation. If the recordings of DDK tasks meet the conditions for computing all these parameters, the algorithm could be used to classify speakers into healthy subjects and PN patients, for whom it could additionally assess the severity of dysarthria.
Description
Citation
SVOJANOVSKÝ, J. Automatizovaná segmentace diadochokinetické úlohy za účelem vzdáleného monitorování řeči [online]. Brno: Vysoké učení technické v Brně. Fakulta elektrotechniky a komunikačních technologií. 2024.
Document type
Document version
Date of access to the full text
Language of document
cs
Study field
Zvuková produkce a nahrávání
Comittee
Doc.Ing.MgA. Ondřej Urban, Ph.D. (předseda)
doc. Ing. Kamil Říha, Ph.D. (místopředseda)
Ing. František Rund, Ph.D. (člen)
Mgr. Tomáš Staudek, Ph.D. (člen)
Ing. Matěj Ištvánek, Ph.D. (člen)
RNDr. Lubor Přikryl (člen)
doc. Ing. Petr Sysel, Ph.D. (člen)
Date of acceptance
2024-06-05
Defence
Student prezentoval výsledky své práce a komise byla seznámena s posudky.
Student obhájil diplomovou práci s výhradami a odpověděl na otázky členů komise a oponenta.
Otázky:
Prosím interpretujte matici záměn na obr. 4.4. Čemu např. odpovídá třída 1?
Vysvětlete podstatu parametru relSDSD. Proč byl zrovna tento parametr použit?
Result of defence
práce byla úspěšně obhájena
Document licence
Standardní licenční smlouva - přístup k plnému textu bez omezení