Kdy kdo mluví?
but.committee | prof. Dr. Ing. Pavel Zemčík, dr. h. c. (předseda) prof. RNDr. Milan Češka, CSc. (místopředseda) prof. Ing. Martin Drahanský, Ph.D. (člen) Doc. Ing. Róbert Lórencz, CSc. (člen) RNDr. Marek Rychlý, Ph.D. (člen) doc. Ing. Michal Španěl, Ph.D. (člen) | cs |
but.defence | Student nejprve prezentoval výsledky, kterých dosáhl v rámci své práce. Komise se pak seznámila s hodnocením vedoucího a posudkem oponenta práce. Student následně odpověděl na otázky oponenta a na další otázky přítomných. Komise se na základě posudku oponenta, hodnocení vedoucího, přednesené prezentace a odpovědí studenta na položené otázky rozhodla práci hodnotit stupněm A. Otázky u obhajoby: U detekce řečové aktivity používáte pouze energii. Není to přiliš jednoduchá parametrizace. Nezvažoval ste přidání dalších příznaků - počet průchodů nulou, cepstralní koeficienty... Zkoušel ste experimetovat s fonemovým rozpoznávačem, který se tu hojně pro tyto účely používá? | cs |
but.jazyk | čeština (Czech) | |
but.program | Informační technologie | cs |
but.result | práce byla úspěšně obhájena | cs |
dc.contributor.advisor | Matějka, Pavel | cs |
dc.contributor.author | Tomášek, Pavel | cs |
dc.contributor.referee | Karafiát, Martin | cs |
dc.date.created | 2011 | cs |
dc.description.abstract | Práce se věnuje implementaci diarizace mluvčího. Popisuje jednotlivé komponenty diarizačního systému, který umí zodpovědět otázku "kdy kdo mluví". Mezi součásti takového systému patří postupně extrakce příznaků vstupních dat, detekce řeči/ticha, segmentace mluvčích, jejich následné shlukování a nakonec i techniky zaměřené na zlepšení finální segmentace. Práce pochopitelně uvádí i dosažené výsledky implementovaného systému na testovací sadě nahrávek včetně popisu způsobu hodnocení. Testovací nahrávky pochází z NIST RT evaluací z let 2005 - 2007 a nejnižší dosažená chybovost na této sadě je 18,52% DER. K porovnání výsledků systému na testovací sadě souborů je zde uvedena i úspěšnost Marijna Huijbregtse z Nizozemí, který v roce 2009 pracoval se stejnými nahrávkami a dosáhl chybovosti 12,91% DER. | cs |
dc.description.abstract | This work aims at a task of speaker diarization. The goal is to implement a system which is able to decide "who spoke when". Particular components of implementation are described. The main parts are feature extraction, voice activity detection, speaker segmentation and clustering and finally also postprocessing. This work also contains results of implemented system on test data including a description of evaluation. The test data comes from the NIST RT Evaluation 2005 - 2007 and the lowest error rate for this dataset is 18.52% DER. Results are compared with diarization system implemented by Marijn Huijbregts from The Netherlands, who worked on the same data in 2009 and reached 12.91% DER. | en |
dc.description.mark | A | cs |
dc.identifier.citation | TOMÁŠEK, P. Kdy kdo mluví? [online]. Brno: Vysoké učení technické v Brně. Fakulta informačních technologií. 2011. | cs |
dc.identifier.other | 42396 | cs |
dc.identifier.uri | http://hdl.handle.net/11012/54089 | |
dc.language.iso | cs | cs |
dc.publisher | Vysoké učení technické v Brně. Fakulta informačních technologií | cs |
dc.rights | Standardní licenční smlouva - přístup k plnému textu bez omezení | cs |
dc.subject | Diarizace mluvčího | cs |
dc.subject | segmentace ticho/řeč | cs |
dc.subject | segmentace řeči | cs |
dc.subject | aglomerativní shlukování | cs |
dc.subject | Viterbi algoritmus | cs |
dc.subject | statistické modelování směsicí gaussovských rozložení | cs |
dc.subject | Speaker diarization | en |
dc.subject | voice activity detection | en |
dc.subject | speaker segmentation | en |
dc.subject | agglomerative clustering | en |
dc.subject | Viterbi algorithm | en |
dc.subject | Gaussian mixture modeling | en |
dc.title | Kdy kdo mluví? | cs |
dc.title.alternative | Speaker Diarization | en |
dc.type | Text | cs |
dc.type.driver | masterThesis | en |
dc.type.evskp | diplomová práce | cs |
dcterms.dateAccepted | 2011-06-23 | cs |
dcterms.modified | 2020-05-09-23:41:26 | cs |
eprints.affiliatedInstitution.faculty | Fakulta informačních technologií | cs |
sync.item.dbid | 42396 | en |
sync.item.dbtype | ZP | en |
sync.item.insts | 2025.03.26 14:51:11 | en |
sync.item.modts | 2025.01.15 16:36:27 | en |
thesis.discipline | Počítačová grafika a multimédia | cs |
thesis.grantor | Vysoké učení technické v Brně. Fakulta informačních technologií. Ústav počítačové grafiky a multimédií | cs |
thesis.level | Inženýrský | cs |
thesis.name | Ing. | cs |