Nástroj pro automatickou segmentaci nahrávek řeči

but.committeeprof. Ing. Zdeněk Smékal, CSc. (předseda) doc. Ing. Jaroslav Sklenář, CSc. (místopředseda) Ing. Matěj Ištvánek (člen) Ing. Jan Pospíšil (člen) Ing. Lukáš Benešl (člen) Ing. Vojtěch Fiala (člen)cs
but.defenceStudent prezentoval výsledky své práce a komise byla seznámena s posudky. Otázky oponenta: V kapitole 2.4 uvádíte výpočet MFCC koeficientů, můžete vysvětlit metodologii, při výpočtu euklidovské vzdálenosti mezi MFCC koeficienty a šumem? A dále jak tato metrika slouží k detekci řečového signálu? Student obhájil bakalářskou práci s výhradami a odpověděl na otázky členů komise a oponenta.cs
but.jazykangličtina (English)
but.programTelekomunikační a informační systémycs
but.resultpráce byla úspěšně obhájenacs
dc.contributor.advisorKováč, Danielen
dc.contributor.authorSanta, Romanen
dc.contributor.refereeZvončák, Vojtěchen
dc.date.accessioned2021-06-16T07:54:40Z
dc.date.available2021-06-16T07:54:40Z
dc.date.created2021cs
dc.description.abstractNástroj pre automatickú segmentáciu spracováva nahrávky reči a extrahuje hovorené slovo z nahrávok. Je dôležité, aby pokročilá analýza pracovala iba s rečovými časťami z nahrávky. Nástroj na segmentáciu má ulahčiť spracovanie nahrávok pre analýzu rozdielov medzi hláskami pacientov s parkinsonovou chorobou a tými zdravými. Cieľ tejto práce je navrhnúť a otestovať detektory reči s Google WebRTC detektorom a vybrať ten najvhodnejší detektor reči s minimálnym počtom chýb. Ďalej, vytvoriť nástroj na segmentáciu nahrávok a otestovať rozpoznávanie reči pomocou dynamic time warping. Bola použitá databáza poskytnutá laboratóriom pre analýzu mozgových ochorení. Obsahuje české a maďarské nahrávky s rovnakým počtom mužských a ženských pacientov a aj rovnakým počtom zdravých pacientov a pacientov s parkinsonovou chorobou. Najlepšie výsledky v testoch dosiahol detektor na základe energie reči. Nebol zistený žiaden rozdiel v presnosti detektoru pri spracovaní mužských a ženských nahrávok alebo nahrávok zdravých či chorých pacientov. Nahrávky s nízkym odstupom signálu od šumu boli náročnejšie na spracovanie s frekvenciou chýb od 12%. Na základe výsledkov, bol navrhnutý nový detektor pre spracovanie úplnej nahrávky. Na záver bol testovaný algoritmus pre rozpoznávanie podobnosti reči na základe melovských kepstrálnych koeficientov.en
dc.description.abstractAutomatic Segmentation tool processes recordings in order to extract voiced parts. It is important for further speech analysis to work only with extracted speech and not noise. For analysis of the difference between syllables of patients with parkinson disease and heatlhy ones, this segmentation tool should help with processing recordings. Goal of this thesis is to implement and test voice detectors with Google WebRTC detector and pick the best speech detector with minimal error rate. Also, develop a segmentation tool for given recordings and test voice recognition with dymanic time warping. Database from the Brain Diseases Analysis Laboratory was used. It contains czech and hungarian recordings with equal number of male and female as well as heathy and diseased patients. Energy detector performed as the best detetor in the tests. There was no significant difference in error rates between male and female or healthy and diseased patients. Recordings with lower Signal-to-Noise ratio were harder to process with an error rate starting at 12\%. Based on the results, new detector for the segmentation tool was proposed to process examined recordings. Finally, dynamic time warping algorithm was tested with mel frequency cepstral coefficients to recognize similarities between speakers.cs
dc.description.markCcs
dc.identifier.citationSANTA, R. Nástroj pro automatickou segmentaci nahrávek řeči [online]. Brno: Vysoké učení technické v Brně. Fakulta elektrotechniky a komunikačních technologií. 2021.cs
dc.identifier.other133395cs
dc.identifier.urihttp://hdl.handle.net/11012/197879
dc.language.isoencs
dc.publisherVysoké učení technické v Brně. Fakulta elektrotechniky a komunikačních technologiícs
dc.rightsStandardní licenční smlouva - přístup k plnému textu bez omezenícs
dc.subjectRozpoznávanie rečien
dc.subjectsegmentáciaen
dc.subjectdetektor rečovej aktivityen
dc.subjectdynamické borcení časové osyen
dc.subjectpythonen
dc.subjectSpeech Recognitioncs
dc.subjectSegmentationcs
dc.subjectVoice Activity Detectioncs
dc.subjectDynamic Time Warpingcs
dc.subjectPythoncs
dc.titleNástroj pro automatickou segmentaci nahrávek řečien
dc.title.alternativeAutomatic speech recordings segmentation toolcs
dc.typeTextcs
dc.type.driverbachelorThesisen
dc.type.evskpbakalářská prácecs
dcterms.dateAccepted2021-06-15cs
dcterms.modified2021-06-16-08:45:19cs
eprints.affiliatedInstitution.facultyFakulta elektrotechniky a komunikačních technologiícs
sync.item.dbid133395en
sync.item.dbtypeZPen
sync.item.insts2021.11.12 21:59:46en
sync.item.modts2021.11.12 21:06:06en
thesis.disciplinebez specializacecs
thesis.grantorVysoké učení technické v Brně. Fakulta elektrotechniky a komunikačních technologií. Ústav telekomunikacícs
thesis.levelBakalářskýcs
thesis.nameBc.cs
Files
Original bundle
Now showing 1 - 3 of 3
Loading...
Thumbnail Image
Name:
final-thesis.pdf
Size:
1.2 MB
Format:
Adobe Portable Document Format
Description:
final-thesis.pdf
Loading...
Thumbnail Image
Name:
appendix-1.zip
Size:
1.89 MB
Format:
zip
Description:
appendix-1.zip
Loading...
Thumbnail Image
Name:
review_133395.html
Size:
4.98 KB
Format:
Hypertext Markup Language
Description:
review_133395.html
Collections