Nástroj pro automatickou segmentaci nahrávek řeči

Loading...
Thumbnail Image
Date
ORCID
Mark
C
Journal Title
Journal ISSN
Volume Title
Publisher
Vysoké učení technické v Brně. Fakulta elektrotechniky a komunikačních technologií
Abstract
Nástroj pre automatickú segmentáciu spracováva nahrávky reči a extrahuje hovorené slovo z nahrávok. Je dôležité, aby pokročilá analýza pracovala iba s rečovými časťami z nahrávky. Nástroj na segmentáciu má ulahčiť spracovanie nahrávok pre analýzu rozdielov medzi hláskami pacientov s parkinsonovou chorobou a tými zdravými. Cieľ tejto práce je navrhnúť a otestovať detektory reči s Google WebRTC detektorom a vybrať ten najvhodnejší detektor reči s minimálnym počtom chýb. Ďalej, vytvoriť nástroj na segmentáciu nahrávok a otestovať rozpoznávanie reči pomocou dynamic time warping. Bola použitá databáza poskytnutá laboratóriom pre analýzu mozgových ochorení. Obsahuje české a maďarské nahrávky s rovnakým počtom mužských a ženských pacientov a aj rovnakým počtom zdravých pacientov a pacientov s parkinsonovou chorobou. Najlepšie výsledky v testoch dosiahol detektor na základe energie reči. Nebol zistený žiaden rozdiel v presnosti detektoru pri spracovaní mužských a ženských nahrávok alebo nahrávok zdravých či chorých pacientov. Nahrávky s nízkym odstupom signálu od šumu boli náročnejšie na spracovanie s frekvenciou chýb od 12%. Na základe výsledkov, bol navrhnutý nový detektor pre spracovanie úplnej nahrávky. Na záver bol testovaný algoritmus pre rozpoznávanie podobnosti reči na základe melovských kepstrálnych koeficientov.
Automatic Segmentation tool processes recordings in order to extract voiced parts. It is important for further speech analysis to work only with extracted speech and not noise. For analysis of the difference between syllables of patients with parkinson disease and heatlhy ones, this segmentation tool should help with processing recordings. Goal of this thesis is to implement and test voice detectors with Google WebRTC detector and pick the best speech detector with minimal error rate. Also, develop a segmentation tool for given recordings and test voice recognition with dymanic time warping. Database from the Brain Diseases Analysis Laboratory was used. It contains czech and hungarian recordings with equal number of male and female as well as heathy and diseased patients. Energy detector performed as the best detetor in the tests. There was no significant difference in error rates between male and female or healthy and diseased patients. Recordings with lower Signal-to-Noise ratio were harder to process with an error rate starting at 12\%. Based on the results, new detector for the segmentation tool was proposed to process examined recordings. Finally, dynamic time warping algorithm was tested with mel frequency cepstral coefficients to recognize similarities between speakers.
Description
Citation
SANTA, R. Nástroj pro automatickou segmentaci nahrávek řeči [online]. Brno: Vysoké učení technické v Brně. Fakulta elektrotechniky a komunikačních technologií. 2021.
Document type
Document version
Date of access to the full text
Language of document
en
Study field
bez specializace
Comittee
prof. Ing. Zdeněk Smékal, CSc. (předseda) doc. Ing. Jaroslav Sklenář, CSc. (místopředseda) Ing. Matěj Ištvánek (člen) Ing. Jan Pospíšil (člen) Ing. Lukáš Benešl (člen) Ing. Vojtěch Fiala (člen)
Date of acceptance
2021-06-15
Defence
Student prezentoval výsledky své práce a komise byla seznámena s posudky. Otázky oponenta: V kapitole 2.4 uvádíte výpočet MFCC koeficientů, můžete vysvětlit metodologii, při výpočtu euklidovské vzdálenosti mezi MFCC koeficienty a šumem? A dále jak tato metrika slouží k detekci řečového signálu? Student obhájil bakalářskou práci s výhradami a odpověděl na otázky členů komise a oponenta.
Result of defence
práce byla úspěšně obhájena
Document licence
Standardní licenční smlouva - přístup k plnému textu bez omezení
DOI
Collections
Citace PRO