Automatický přepis řeči pro česká nářečí

Loading...
Thumbnail Image

Date

Authors

Okrucký, Alexander Rastislav

Mark

B

Journal Title

Journal ISSN

Volume Title

Publisher

Vysoké učení technické v Brně. Fakulta informačních technologií

ORCID

Abstract

Táto práca sa zaoberá procesom transforácie existujúceho archívu českých nárečí do vylepšeného datasetu. Práca zahŕňa sanitizáciu textu, zarovnanie dát pomocou nástroja NeMo Force Aligner a nastrihanie nahrávok na segmenty s dialektologickým prepisom. Tento dataset je pripravený na trénovanie modelov automatického rozpoznávania reči. Práca sa taktiež zaoberá adaptáciou modelu Whisper medium na českých nárečiach. S použitím 10 hodín zvukových záznamov bolo možné znížiť hodnotu Word Error Rate zo 75\% na 46\%. Táto bakalárska práce je súčasťou projektu JaMap, ktorý je zameraný na podporu aplikovaného výzkumu národnej a kultúrnej identity regiónov Českej republiky a metódy strojového učenia potrebné pre zachovanie českých nárečí. Tento projekt je súčasťou programu Ministerstva kultúry Českej republiky na podporu aplikovaného výskumu národnej a kultúrnej identity.
This thesis explores the transformation of an existing archive of Czech dialect recordings into an improved dataset. The work includes text sanitization, text alignment using the NeMo Force Aligner, and cutting the recordings into clips with dialectological transcription. This dataset is ready for training automatic speech recognition models. This work also includes adapting the Whisper medium model on Czech dialects. Word Error Rate was improved from 75\% to 46\% by using only 10 hours of audio. This thesis contributes to the JaMap project, focused on linguistic memory of the regions of the Czech Republic and machine learning methods for preserving, documenting, and presenting Czech dialects. The project is part of a program to support applied research in national and cultural identity by the Ministry of Culture of the Czech Republic.

Description

Citation

OKRUCKÝ, A. Automatický přepis řeči pro česká nářečí [online]. Brno: Vysoké učení technické v Brně. Fakulta informačních technologií. 2025.

Document type

Document version

Date of access to the full text

Language of document

sk

Study field

Informační technologie

Comittee

prof. Ing. Adam Herout, Ph.D. (předseda) Ing. Vladimír Bartík, Ph.D. (člen) Ing. Michal Hradiš, Ph.D. (člen) Ing. Josef Strnadel, Ph.D. (člen) doc. Mgr. Adam Rogalewicz, Ph.D. (člen)

Date of acceptance

2025-06-16

Defence

Student nejprve prezentoval výsledky, kterých dosáhl v rámci své práce. Komise se poté seznámila s hodnocením vedoucího a posudkem oponenta práce. Student následně odpověděl na otázky oponenta a na další otázky přítomných. Komise se na základě posudku oponenta, hodnocení vedoucího, přednesené prezentace a odpovědí studenta na položené otázky rozhodla práci hodnotit stupněm B.

Result of defence

práce byla úspěšně obhájena

DOI

Collections

Endorsement

Review

Supplemented By

Referenced By

Citace PRO