Agreements and Disagreements between Automatic and Human Speaker Recognition

Loading...
Thumbnail Image

Date

Authors

Valenta, Jakub

Mark

A

Journal Title

Journal ISSN

Volume Title

Publisher

Vysoké učení technické v Brně. Fakulta informačních technologií

ORCID

Abstract

Tato práce se zabývá problémem rozpoznáváním mluvčího. Uvedený pojem je definován a doplněn o jednotlivé metody, které s ním souvisí. Cílem práce je poukázat na shody a rozdíly mezi lidským a automatickým procesem rozpoznávání mluvčího. V úvodu práce jsou popsány teoretické poznatky z obou zmíněných oblastí, tj. na jaké aspekty lidské řeči se zaměřuje člověk, resp. automatický systém. Následně je provedeno několik experimentů, které mají za úkol srovnat tyto dvě metody. Tyto experimenty jsou vyhodnoceny tak, že je možné pozorovat, které testovací úlohy dokáže lépe vyřešit člověk, aby následně bylo možné tyto poznatky použít ke zlepšení funkce automatického systému. V závěru práce je takovýto návrh na zlepšení automatického systému předveden a otestován. Testování proběhlo úspěšně a byla zaznamenána vyšší přesnost při vyhodnocování. Takový výsledek tedy může být užitý v dalších výzkumech a umožnit tak další vývoj v oblasti automatického rozpoznávání mluvčích.
This thesis deals with the problem of speaker recognition. The term is defined and individual methods related to it are described. The aim of the work is to point out the agreements and disagreements between human and automatic speaker recognition. At the beginning of the thesis, theoretical knowledge from both mentioned areas are described, i.e., what aspects of human speech do people, or automatic system respectively, focus on. Then, several experiments are performed to compare these two methods. These experiments are evaluated in such a way, that it is possible to observe which tasks can be better solved by people, in order to use the knowledge to improve the function of the automated system. At the end of the thesis, such an attempt to improve the automatic system is demonstrated and tested. Testing was successful and higher evaluation accuracy could be observed. Thus, such a result can be used in other research to allow further development in the field of automatic speaker recognition.

Description

Citation

VALENTA, J. Agreements and Disagreements between Automatic and Human Speaker Recognition [online]. Brno: Vysoké učení technické v Brně. Fakulta informačních technologií. 2019.

Document type

Document version

Date of access to the full text

Language of document

en

Study field

Informační technologie

Comittee

prof. Dr. Ing. Jan Černocký (předseda) doc. Ing. Jiří Jaroš, Ph.D. (místopředseda) doc. RNDr. Dana Hliněná, Ph.D. (člen) Ing. Filip Orság, Ph.D. (člen) RNDr. Marek Rychlý, Ph.D. (člen)

Date of acceptance

2019-06-14

Defence

Student nejprve prezentoval výsledky, kterých dosáhl v rámci své práce. Komise se poté seznámila s hodnocením vedoucího a posudkem oponenta práce. Student následně odpověděl na otázky oponenta a na další otázky přítomných. Komise se na základě posudku oponenta, hodnocení vedoucího, přednesené prezentace a odpovědí studenta na položené otázky rozhodla práci hodnotit stupněm A. Otázky u obhajoby: What do you mean - explain the sentence in 3.2.3: "It was found out that although large scale data behave beneficially in the PLDA classifier, they may be a big problem to work with i-vector extractor." Why? What is score calibration and why is it important for presenting scores to users in speaker recognition?

Result of defence

práce byla úspěšně obhájena

DOI

Collections

Endorsement

Review

Supplemented By

Referenced By

Citace PRO