Evaluace a optimalizace výpočetní náročnosti v systémech pro rozpoznání řečníka

Loading...
Thumbnail Image

Date

Authors

Gregušová, Sabína

Mark

C

Journal Title

Journal ISSN

Volume Title

Publisher

Vysoké učení technické v Brně. Fakulta informačních technologií

ORCID

Abstract

Cieľom tejto práce je navrhnúť hodnotiacu metriku, ktorá zahŕňa výpočetné náklady. Všeobecne výpočetné náklady nepredstavujú vo výskume problém, ale môžu byť problematické v komerčnom produkčnom systéme, kedy je rýchlosť dôležitá. Navrhnuté metriky rozširujú existujúci rámec pre hodnotenie od NIST a pridávajú k nim parametre pre časovú jednotku a náklady pre časovú jednotku. Tieto metriky sú aplikované na skutočný ASV a experimenty ukazujú potenciál pre hlbší výskum a možné použitie. Vrámci experimentov bola limitovaná maximálna dĺžka nahrávok, ale aj maximálne dĺžka rámcov pre spracovanie pri extrakcii x-vektorov. Obe optimalizácie znížili celkové výpočetné náklady a dosiahli priaznivé výsledky pre nové metriky. Na záver sú výsledky z experimentov porovnané a jednotlivé modifikácie ohodnotené a zoradené podľa nových metrík.
The goal of this thesis is to propose an evaluation metric that includes computational costs. Computational costs generally do not pose a problem in research, but it can become problematic in a commercial production system, where speed is essential. The proposed metric extends existing evaluation framework from NIST and adds parameter for time unit and time unit cost. These metrics are applied on real ASV and experiments show the potential for further research and possible use. The experiments focus on reducing the computational cost by posing a limit on maximum length of the utterance, but also limiting number of frames for x-vector extraction. Both optimizations reduced the computational costs and reached favorable results for the new metrics. Finally, experiments' results are compared and each system modification is ranked according to the new metrics.

Description

Citation

GREGUŠOVÁ, S. Evaluace a optimalizace výpočetní náročnosti v systémech pro rozpoznání řečníka [online]. Brno: Vysoké učení technické v Brně. Fakulta informačních technologií. 2020.

Document type

Document version

Date of access to the full text

Language of document

en

Study field

Informační technologie

Comittee

prof. Dr. Ing. Jan Černocký (předseda) doc. Ing. Jiří Jaroš, Ph.D. (místopředseda) doc. RNDr. Milan Češka, Ph.D. (člen) Ing. Filip Orság, Ph.D. (člen) RNDr. Marek Rychlý, Ph.D. (člen)

Date of acceptance

2020-07-10

Defence

Studentka nejprve prezentovala výsledky, kterých dosáhla v rámci své práce. Komise se poté seznámila s hodnocením vedoucího a posudkem oponenta práce. Studentka následně odpověděla na otázky oponenta a na další otázky přítomných. Komise se na základě posudku oponenta, hodnocení vedoucího, přednesené prezentace a odpovědí studentky na položené otázky rozhodla práci hodnotit stupněm C. Otázky u obhajoby: You propose a Modified DCF metric and Time Constrained Protocol. Do you think they are interchangeable or there are tasks when one should be preferred over the other? If yes, give an example. In your work, you present two approaches to truncate the input utterances to reduce the processing time (A and B as referenced in the text). How do you think, what are the reasons for the approach B (limiting the number of speech frames for x-vector extraction) to outperform A (simply truncating the audio)?  Have you considered other strategies to reduce the processing time except for those two described in the thesis? If yes, what were they and what advantages and disadvantages they have compared to those that you've used? Kolik metod na rozpoznávání řeči jste použila? Dávaly by vámi použité metriky smysl i pro jinou metodu rozpoznávání řeči?

Result of defence

práce byla úspěšně obhájena

DOI

Collections

Endorsement

Review

Supplemented By

Referenced By

Citace PRO