Systém pro automatické rozpoznávání českých nářečí

Loading...
Thumbnail Image

Date

Authors

Odehnal, Ondřej

Mark

A

Journal Title

Journal ISSN

Volume Title

Publisher

Vysoké učení technické v Brně. Fakulta informačních technologií

ORCID

Abstract

Tato diplomová práce představuje systém pro automatické rozpoznávání českých dialektů z řeči, řešící úlohu rozpoznávání dialektů (DID) na omezených datech tím, že využívá pokroků v identifikaci jazyka (LID). Pro LID využíváme rozsáhlý korpus VoxLingua107 a stanovujeme baseline modely pomocí ResNet a ECAPA-TDNN, než přistoupíme k doladění self-supervised modelu WavLM Base+ s multi-headed factorized attentive (MHFA) pooling backendem. Nejlepší LID systém dosahuje 94,9 % přesnosti na vývojové sadě VoxLingua107, čímž překonává baseline ECAPA-TDNN a XLSR. Pro DID prozkouváme nový dataset NAKI zahrnující nahrávky rozhovorů mezi explorátory a informátory od 60. let 20. století až do roku 2025, anotované do čtyř hlavních dialektových skupin a třinácti podskupinami a předzpracováváme pomocí pipeline pro odstranění překryvů, diarizaci mluvčích a filtrování segmentů explorátorů. Vytváříme dvě verze (NAKI I a NAKI II) k vyhodnocení dopadu filtrace a nevyváženosti tříd. Porovnáme CNN baseline (ResNet-34) s naším přístupem založeným na WavLM u kterého aplikujeme additive angular margin softmax a vážení tříd pro zmírnění nevyváženosti. Na sadě NAKI II dosahuje doladěný model WavLM + MHFA + AAM 80,98 % přesnosti mezi čtyřmi dialektovými skupinami (F1 = 74,65 %) a 76,04 % normalizované přesnosti podskupin. Podrobné analýzy váhování vrstev ukazují, že rozpoznávání dialektů se rovněž soustředí na střední transformerové vrstvy, podobně jako u LID. Tyto výsledky demonstrují, že velké předtrénované SSL modely, pokud jsou náležitě adaptovány, představují silné a zobecnitelné řešení jak pro úlohy LID, tak i pro DID úlohy.
This thesis presents a system for automatic recognition of Czech dialects from speech, addressing the low-resource nature and fine-grained distinctions of dialect identification from speech (DID) by leveraging advances in spoken language identification (LID). For LID, we employ the large-scale VoxLingua107 corpus and establish baselines with ResNet and ECAPA-TDNN models, before fine-tuning the WavLM Base+ self-supervised model with a multi-headed factorized attentive (MHFA) pooling backend. The best LID system achieves 94.9 % accuracy on the VoxLingua107 development set, outperforming the state-of-the-art baselines of ECAPA-TDNN and XLSR. For DID, we explore the novel NAKI dataset, which consists of interview recordings from the 1960s to 2025 and is annotated into 4 major dialect groups and 13 subgroups, and preprocess it using a pipeline to remove overlap, diarize speakers, and filter interviewer segments. Two snapshots (NAKI I and NAKI II) are created to evaluate filtering and class-imbalance effects. We compare CNN baselines (ResNet-34) with our WavLM-based approach, applying additive angular margin softmax and class weighting to mitigate imbalance. On NAKI II, the fine-tuned WavLM + MHFA + AAM model achieves 80.98 % normalized accuracy across the four dialect groups (F1 = 74.65 %) and 76.04 % normalized subgroup accuracy. Detailed layer-weight analyses reveal that dialect recognition likewise concentrates on intermediate transformer layers, similar to LID or speaker identification. These results demonstrate that large pre-trained SSL models, when properly adapted, offer a powerful and generalizable solution for both LID and low-resource DID tasks.

Description

Citation

ODEHNAL, O. Systém pro automatické rozpoznávání českých nářečí [online]. Brno: Vysoké učení technické v Brně. Fakulta informačních technologií. 2025.

Document type

Document version

Date of access to the full text

Language of document

en

Study field

Zpracování zvuku, řeči a přirozeného jazyka

Comittee

doc. Mgr. Adam Rogalewicz, Ph.D. (předseda) doc. RNDr. Pavel Smrž, Ph.D. (člen) doc. Ing. František Zbořil, CSc. (člen) Dr. Ing. Petr Peringer (člen) Ing. Aleš Smrčka, Ph.D. (člen) Ing. Ondřej Lengál, Ph.D. (člen)

Date of acceptance

2025-06-26

Defence

Student nejprve prezentoval výsledky, kterých dosáhl v rámci své práce. Komise se poté seznámila s hodnocením vedoucího a posudkem oponenta práce. Student následně odpověděl na otázky přítomných. Komise se na základě posudku oponenta, hodnocení vedoucího, přednesené prezentace a odpovědí studenta na položené otázky rozhodla práci hodnotit stupněm A.

Result of defence

práce byla úspěšně obhájena

DOI

Collections

Endorsement

Review

Supplemented By

Referenced By

Citace PRO