Detekce lidské řeči v audio nahrávce

but.committeeprof. Dr. Ing. Jan Černocký (předseda) doc. Ing. Jiří Kunovský, CSc. (místopředseda) Ing. Martin Hrubý, Ph.D. (člen) doc. Ing. Ondřej Ryšavý, Ph.D. (člen) Ing. Aleš Smrčka, Ph.D. (člen)cs
but.defenceStudent nejprve prezentoval výsledky, kterých dosáhl v rámci své práce. Komise se pak seznámila s hodnocením vedoucího a posudkem oponenta práce. Student následně odpověděl na otázky oponenta a na další otázky přítomných. Komise se na základě posudku oponenta, hodnocení vedoucího, přednesené prezentace a odpovědí studenta na položené otázky rozhodla práci hodnotit stupněm C. Otázky u obhajoby: Jak je možné, ze v sec.7.2. Tab 3. se nezlepší výsledky pro GMM systém při použití po-zpracování? Prosím prezentujte detailnější analýzu výsledků. Jak by bylo možné zkombinovat jednotlivé systémy pro dosažení lepší VAD?cs
but.jazykčeština (Czech)
but.programInformační technologiecs
but.resultpráce byla úspěšně obhájenacs
dc.contributor.advisorMatějka, Pavelcs
dc.contributor.authorBřenek, Romancs
dc.contributor.refereeGrézl, Františekcs
dc.date.created2011cs
dc.description.abstractTato práce se zabývá technikami detekce lidské řeči v nahrávkách. Je nutné při rozpoznávání správně klasifikovat všechny neřečové segmenty a naopak rozpoznat veškerou řeč i v hlučných a zašuměných prostředích. V práci je popsán celý proces rozpoznávání, tzn. digitalizace audio signálu, extrakce příznaků, trénování klasifikátoru, rozpoznávání a samotné vyhodnocení a úpravy před vyhodnocením. Pro rozpoznávání byly použity tři systémy, z nichž jeden je založen na fonémovém rozpoznávání pomocí neuronových sítí, další dva jsou založené na GMM, přičemž každý systém byl testován na třech datových sadách - Tactical Speaker Identification Speech Corpus (TSID), Ham Radio (HR) a Rich Transcription Evaluation (RT05-RT07).  Nejlepší výsledky každého systému jsou pak zhodnoceny i s výsledky třetích stran.cs
dc.description.abstractThis thesis describes techniques for voice activity detection in audio recordings. It is necessary to  correctly classify all non-speech segments and recognize speech with noisy background.  The whole process of voice activity detection (VAD) is described in this thesis, i.e. digitizing audio  signal, feature extraction, training of the system, post-processing and final evaluation. There are  three different systems compared within the thesis . The first one is based on phoneme recognition using neural network, the other two are variations of Gaussian Mixture Models (GMM). Each system was tested on three data sets - Tactical Speaker Identification Speech Corpus (TSID), Ham Radio (HR) and Rich Transcription Evaluation (RT05-RT07). The best results of each system are compared with the results of the third side.en
dc.description.markCcs
dc.identifier.citationBŘENEK, R. Detekce lidské řeči v audio nahrávce [online]. Brno: Vysoké učení technické v Brně. Fakulta informačních technologií. 2011.cs
dc.identifier.other42720cs
dc.identifier.urihttp://hdl.handle.net/11012/55710
dc.language.isocscs
dc.publisherVysoké učení technické v Brně. Fakulta informačních technologiícs
dc.rightsStandardní licenční smlouva - přístup k plnému textu bez omezenícs
dc.subjectextrakce příznakůcs
dc.subjectVADcs
dc.subjectdetekce řečics
dc.subjectGMM trénovánícs
dc.subjectfonémový rozpoznávačcs
dc.subjectTSIDcs
dc.subjectHRcs
dc.subjectRTcs
dc.subjectfeature extractionen
dc.subjectVADen
dc.subjectvoice activity detectionen
dc.subjectGMMen
dc.subjectphoneme recognizeren
dc.subjectTSIDen
dc.subjectHRen
dc.subjectRTen
dc.titleDetekce lidské řeči v audio nahrávcecs
dc.title.alternativeVoice Activity Detectionen
dc.typeTextcs
dc.type.driverbachelorThesisen
dc.type.evskpbakalářská prácecs
dcterms.dateAccepted2011-06-16cs
dcterms.modified2020-05-09-23:42:50cs
eprints.affiliatedInstitution.facultyFakulta informačních technologiícs
sync.item.dbid42720en
sync.item.dbtypeZPen
sync.item.insts2025.03.18 17:50:07en
sync.item.modts2025.01.15 13:22:39en
thesis.disciplineInformační technologiecs
thesis.grantorVysoké učení technické v Brně. Fakulta informačních technologií. Ústav počítačové grafiky a multimédiícs
thesis.levelBakalářskýcs
thesis.nameBc.cs

Files

Original bundle

Now showing 1 - 2 of 2
Loading...
Thumbnail Image
Name:
final-thesis.pdf
Size:
781.77 KB
Format:
Adobe Portable Document Format
Description:
final-thesis.pdf
Loading...
Thumbnail Image
Name:
review_42720.html
Size:
1.44 KB
Format:
Hypertext Markup Language
Description:
file review_42720.html

Collections