Nástroj pro automatickou segmentaci nahrávek řeči
but.committee | prof. Ing. Zdeněk Smékal, CSc. (předseda) doc. Ing. Jaroslav Sklenář, CSc. (místopředseda) Ing. Matěj Ištvánek (člen) Ing. Jan Pospíšil (člen) Ing. Lukáš Benešl (člen) Ing. Vojtěch Fiala (člen) | cs |
but.defence | Student prezentoval výsledky své práce a komise byla seznámena s posudky. Otázky oponenta: V kapitole 2.4 uvádíte výpočet MFCC koeficientů, můžete vysvětlit metodologii, při výpočtu euklidovské vzdálenosti mezi MFCC koeficienty a šumem? A dále jak tato metrika slouží k detekci řečového signálu? Student obhájil bakalářskou práci s výhradami a odpověděl na otázky členů komise a oponenta. | cs |
but.jazyk | angličtina (English) | |
but.program | Telekomunikační a informační systémy | cs |
but.result | práce byla úspěšně obhájena | cs |
dc.contributor.advisor | Kováč, Daniel | en |
dc.contributor.author | Santa, Roman | en |
dc.contributor.referee | Zvončák, Vojtěch | en |
dc.date.accessioned | 2021-06-16T07:54:40Z | |
dc.date.available | 2021-06-16T07:54:40Z | |
dc.date.created | 2021 | cs |
dc.description.abstract | Nástroj pre automatickú segmentáciu spracováva nahrávky reči a extrahuje hovorené slovo z nahrávok. Je dôležité, aby pokročilá analýza pracovala iba s rečovými časťami z nahrávky. Nástroj na segmentáciu má ulahčiť spracovanie nahrávok pre analýzu rozdielov medzi hláskami pacientov s parkinsonovou chorobou a tými zdravými. Cieľ tejto práce je navrhnúť a otestovať detektory reči s Google WebRTC detektorom a vybrať ten najvhodnejší detektor reči s minimálnym počtom chýb. Ďalej, vytvoriť nástroj na segmentáciu nahrávok a otestovať rozpoznávanie reči pomocou dynamic time warping. Bola použitá databáza poskytnutá laboratóriom pre analýzu mozgových ochorení. Obsahuje české a maďarské nahrávky s rovnakým počtom mužských a ženských pacientov a aj rovnakým počtom zdravých pacientov a pacientov s parkinsonovou chorobou. Najlepšie výsledky v testoch dosiahol detektor na základe energie reči. Nebol zistený žiaden rozdiel v presnosti detektoru pri spracovaní mužských a ženských nahrávok alebo nahrávok zdravých či chorých pacientov. Nahrávky s nízkym odstupom signálu od šumu boli náročnejšie na spracovanie s frekvenciou chýb od 12%. Na základe výsledkov, bol navrhnutý nový detektor pre spracovanie úplnej nahrávky. Na záver bol testovaný algoritmus pre rozpoznávanie podobnosti reči na základe melovských kepstrálnych koeficientov. | en |
dc.description.abstract | Automatic Segmentation tool processes recordings in order to extract voiced parts. It is important for further speech analysis to work only with extracted speech and not noise. For analysis of the difference between syllables of patients with parkinson disease and heatlhy ones, this segmentation tool should help with processing recordings. Goal of this thesis is to implement and test voice detectors with Google WebRTC detector and pick the best speech detector with minimal error rate. Also, develop a segmentation tool for given recordings and test voice recognition with dymanic time warping. Database from the Brain Diseases Analysis Laboratory was used. It contains czech and hungarian recordings with equal number of male and female as well as heathy and diseased patients. Energy detector performed as the best detetor in the tests. There was no significant difference in error rates between male and female or healthy and diseased patients. Recordings with lower Signal-to-Noise ratio were harder to process with an error rate starting at 12\%. Based on the results, new detector for the segmentation tool was proposed to process examined recordings. Finally, dynamic time warping algorithm was tested with mel frequency cepstral coefficients to recognize similarities between speakers. | cs |
dc.description.mark | C | cs |
dc.identifier.citation | SANTA, R. Nástroj pro automatickou segmentaci nahrávek řeči [online]. Brno: Vysoké učení technické v Brně. Fakulta elektrotechniky a komunikačních technologií. 2021. | cs |
dc.identifier.other | 133395 | cs |
dc.identifier.uri | http://hdl.handle.net/11012/197879 | |
dc.language.iso | en | cs |
dc.publisher | Vysoké učení technické v Brně. Fakulta elektrotechniky a komunikačních technologií | cs |
dc.rights | Standardní licenční smlouva - přístup k plnému textu bez omezení | cs |
dc.subject | Rozpoznávanie reči | en |
dc.subject | segmentácia | en |
dc.subject | detektor rečovej aktivity | en |
dc.subject | dynamické borcení časové osy | en |
dc.subject | python | en |
dc.subject | Speech Recognition | cs |
dc.subject | Segmentation | cs |
dc.subject | Voice Activity Detection | cs |
dc.subject | Dynamic Time Warping | cs |
dc.subject | Python | cs |
dc.title | Nástroj pro automatickou segmentaci nahrávek řeči | en |
dc.title.alternative | Automatic speech recordings segmentation tool | cs |
dc.type | Text | cs |
dc.type.driver | bachelorThesis | en |
dc.type.evskp | bakalářská práce | cs |
dcterms.dateAccepted | 2021-06-15 | cs |
dcterms.modified | 2021-06-16-08:45:19 | cs |
eprints.affiliatedInstitution.faculty | Fakulta elektrotechniky a komunikačních technologií | cs |
sync.item.dbid | 133395 | en |
sync.item.dbtype | ZP | en |
sync.item.insts | 2021.11.12 21:59:46 | en |
sync.item.modts | 2021.11.12 21:06:06 | en |
thesis.discipline | bez specializace | cs |
thesis.grantor | Vysoké učení technické v Brně. Fakulta elektrotechniky a komunikačních technologií. Ústav telekomunikací | cs |
thesis.level | Bakalářský | cs |
thesis.name | Bc. | cs |
Files
Original bundle
1 - 3 of 3
Loading...
- Name:
- final-thesis.pdf
- Size:
- 1.2 MB
- Format:
- Adobe Portable Document Format
- Description:
- final-thesis.pdf
Loading...
- Name:
- review_133395.html
- Size:
- 4.98 KB
- Format:
- Hypertext Markup Language
- Description:
- review_133395.html