Nástroj pro automatickou segmentaci nahrávek řeči

Santa, Roman

Nástroj pro automatickou segmentaci nahrávek řeči

but.committee	prof. Ing. Zdeněk Smékal, CSc. (předseda) doc. Ing. Jaroslav Sklenář, CSc. (místopředseda) Ing. Matěj Ištvánek, Ph.D. (člen) Ing. Jan Pospíšil (člen) Ing. Lukáš Benešl (člen) Ing. Vojtěch Fiala (člen)	cs
but.defence	Student prezentoval výsledky své práce a komise byla seznámena s posudky. Otázky oponenta: V kapitole 2.4 uvádíte výpočet MFCC koeficientů, můžete vysvětlit metodologii, při výpočtu euklidovské vzdálenosti mezi MFCC koeficienty a šumem? A dále jak tato metrika slouží k detekci řečového signálu? Student obhájil bakalářskou práci s výhradami a odpověděl na otázky členů komise a oponenta.	cs
but.jazyk	angličtina (English)
but.program	Telekomunikační a informační systémy	cs
but.result	práce byla úspěšně obhájena	cs
dc.contributor.advisor	Kováč, Daniel	en
dc.contributor.author	Santa, Roman	en
dc.contributor.referee	Zvončák, Vojtěch	en
dc.date.created	2021	cs
dc.description.abstract	Nástroj pre automatickú segmentáciu spracováva nahrávky reči a extrahuje hovorené slovo z nahrávok. Je dôležité, aby pokročilá analýza pracovala iba s rečovými časťami z nahrávky. Nástroj na segmentáciu má ulahčiť spracovanie nahrávok pre analýzu rozdielov medzi hláskami pacientov s parkinsonovou chorobou a tými zdravými. Cieľ tejto práce je navrhnúť a otestovať detektory reči s Google WebRTC detektorom a vybrať ten najvhodnejší detektor reči s minimálnym počtom chýb. Ďalej, vytvoriť nástroj na segmentáciu nahrávok a otestovať rozpoznávanie reči pomocou dynamic time warping. Bola použitá databáza poskytnutá laboratóriom pre analýzu mozgových ochorení. Obsahuje české a maďarské nahrávky s rovnakým počtom mužských a ženských pacientov a aj rovnakým počtom zdravých pacientov a pacientov s parkinsonovou chorobou. Najlepšie výsledky v testoch dosiahol detektor na základe energie reči. Nebol zistený žiaden rozdiel v presnosti detektoru pri spracovaní mužských a ženských nahrávok alebo nahrávok zdravých či chorých pacientov. Nahrávky s nízkym odstupom signálu od šumu boli náročnejšie na spracovanie s frekvenciou chýb od 12%. Na základe výsledkov, bol navrhnutý nový detektor pre spracovanie úplnej nahrávky. Na záver bol testovaný algoritmus pre rozpoznávanie podobnosti reči na základe melovských kepstrálnych koeficientov.	en
dc.description.abstract	Automatic Segmentation tool processes recordings in order to extract voiced parts. It is important for further speech analysis to work only with extracted speech and not noise. For analysis of the difference between syllables of patients with parkinson disease and heatlhy ones, this segmentation tool should help with processing recordings. Goal of this thesis is to implement and test voice detectors with Google WebRTC detector and pick the best speech detector with minimal error rate. Also, develop a segmentation tool for given recordings and test voice recognition with dymanic time warping. Database from the Brain Diseases Analysis Laboratory was used. It contains czech and hungarian recordings with equal number of male and female as well as heathy and diseased patients. Energy detector performed as the best detetor in the tests. There was no significant difference in error rates between male and female or healthy and diseased patients. Recordings with lower Signal-to-Noise ratio were harder to process with an error rate starting at 12\%. Based on the results, new detector for the segmentation tool was proposed to process examined recordings. Finally, dynamic time warping algorithm was tested with mel frequency cepstral coefficients to recognize similarities between speakers.	cs
dc.description.mark	C	cs
dc.identifier.citation	SANTA, R. Nástroj pro automatickou segmentaci nahrávek řeči [online]. Brno: Vysoké učení technické v Brně. Fakulta elektrotechniky a komunikačních technologií. 2021.	cs
dc.identifier.other	133395	cs
dc.identifier.uri	http://hdl.handle.net/11012/197879
dc.language.iso	en	cs
dc.publisher	Vysoké učení technické v Brně. Fakulta elektrotechniky a komunikačních technologií	cs
dc.rights	Standardní licenční smlouva - přístup k plnému textu bez omezení	cs
dc.subject	Rozpoznávanie reči	en
dc.subject	segmentácia	en
dc.subject	detektor rečovej aktivity	en
dc.subject	dynamické borcení časové osy	en
dc.subject	python	en
dc.subject	Speech Recognition	cs
dc.subject	Segmentation	cs
dc.subject	Voice Activity Detection	cs
dc.subject	Dynamic Time Warping	cs
dc.subject	Python	cs
dc.title	Nástroj pro automatickou segmentaci nahrávek řeči	en
dc.title.alternative	Automatic speech recordings segmentation tool	cs
dc.type	Text	cs
dc.type.driver	bachelorThesis	en
dc.type.evskp	bakalářská práce	cs
dcterms.dateAccepted	2021-06-15	cs
dcterms.modified	2021-06-16-08:45:19	cs
eprints.affiliatedInstitution.faculty	Fakulta elektrotechniky a komunikačních technologií	cs
sync.item.dbid	133395	en
sync.item.dbtype	ZP	en
sync.item.insts	2025.03.17 00:50:16	en
sync.item.modts	2025.01.17 10:44:06	en
thesis.discipline	bez specializace	cs
thesis.grantor	Vysoké učení technické v Brně. Fakulta elektrotechniky a komunikačních technologií. Ústav telekomunikací	cs
thesis.level	Bakalářský	cs
thesis.name	Bc.	cs

Files

Original bundle

Now showing 1 - 3 of 3

Name:: final-thesis.pdf
Size:: 1.2 MB
Format:: Adobe Portable Document Format
Description:: final-thesis.pdf

Download

Name:: appendix-1.zip
Size:: 1.89 MB
Format:: zip
Description:: appendix-1.zip

Download

Name:: review_133395.html
Size:: 4.97 KB
Format:: Hypertext Markup Language
Description:: file review_133395.html

Download

Collections

2021