Automatický přepis řeči letecké komunikace do textu

Loading...
Thumbnail Image
Date
Authors
Balok, Petr
ORCID
Mark
D
Journal Title
Journal ISSN
Volume Title
Publisher
Vysoké učení technické v Brně. Fakulta informačních technologií
Abstract
Tato práce řeší problematiku získání přepsaného textu z audio souborů obsahujících záznamy letecké komunikace a audio soubory obsahující řeč ve dvou jazycích. Zvolenou problematiku řeším pomocí strojového učení. Konkrétně nástroji vytvořenými v jazyce Python, NeMo a Whisper. Před fine-tuningem modelů jsem získal WER 78 % na datech letecké komunikace a 60 % na bilinguálním datasetu. Pomocí těchto technologií se mi podařilo zmenšit chybovost přepisů na 24 % v přepisech letecké komunikace. Na dvojjazyčném datasetu jsem dosáhl 19 % WER (Word Error Rate - četnost chybně přepsaných slov). Výsledky této práce umožňují automatický přepis nahrávek letecké komunikace s nízkým počtem chyb v přepisu. Modely trénované na dvojjazyčném datasetu umožňují přepis nahrávek obsahujících angličtinu i češtinu zároveň.
This thesis solves the problem of getting text transcription from audio files containing air-traffic communication and audio files containing speech in two languages. I solved this problem using machine learning, specifically by using toolkits written in Python called NeMo and Whisper. Before fine-tuning, I got a 78 % word error rate on an ATC dataset and a 60 % word error rate on a bilingual dataset. Using these technologies, I managed to lower the word error rate to 24 % in transcriptions of air-traffic communication. I also got a 19 % word error rate for bilingual speech. The results of this thesis allow automatic transcription of air-traffic communication with a low rate of errors in the transcript. Furthermore, models trained on bilingual dataset allow transcribing audio files containing both English and Czech speech in one file.
Description
Citation
BALOK, P. Automatický přepis řeči letecké komunikace do textu [online]. Brno: Vysoké učení technické v Brně. Fakulta informačních technologií. 2023.
Document type
Document version
Date of access to the full text
Language of document
cs
Study field
Informační technologie
Comittee
prof. Dr. Ing. Jan Černocký (předseda) doc. Ing. Zdeněk Vašíček, Ph.D. (člen) Ing. Václav Šátek, Ph.D. (člen) Ing. Filip Orság, Ph.D. (člen) Ing. Vladimír Bartík, Ph.D. (člen)
Date of acceptance
2023-06-15
Defence
Student nejprve prezentoval výsledky, kterých dosáhl v rámci své práce. Komise se poté seznámila s hodnocením vedoucího a posudkem oponenta práce. Student následně odpověděl na otázky oponenta a na další otázky přítomných. Komise se na základě posudku oponenta, hodnocení vedoucího, přednesené prezentace a odpovědí studenta na položené otázky rozhodla práci hodnotit stupněm D.
Result of defence
práce byla úspěšně obhájena
Document licence
Standardní licenční smlouva - přístup k plnému textu bez omezení
DOI
Collections
Citace PRO