Automatický přepis řeči letecké komunikace do textu

but.committeeprof. Dr. Ing. Jan Černocký (předseda) doc. Ing. Zdeněk Vašíček, Ph.D. (člen) Ing. Václav Šátek, Ph.D. (člen) Ing. Filip Orság, Ph.D. (člen) Ing. Vladimír Bartík, Ph.D. (člen)cs
but.defenceStudent nejprve prezentoval výsledky, kterých dosáhl v rámci své práce. Komise se poté seznámila s hodnocením vedoucího a posudkem oponenta práce. Student následně odpověděl na otázky oponenta a na další otázky přítomných. Komise se na základě posudku oponenta, hodnocení vedoucího, přednesené prezentace a odpovědí studenta na položené otázky rozhodla práci hodnotit stupněm D.cs
but.jazykčeština (Czech)
but.programInformační technologiecs
but.resultpráce byla úspěšně obhájenacs
dc.contributor.advisorSzőke, Igorcs
dc.contributor.authorBalok, Petrcs
dc.contributor.refereeKarafiát, Martincs
dc.date.created2023cs
dc.description.abstractTato práce řeší problematiku získání přepsaného textu z audio souborů obsahujících záznamy letecké komunikace a audio soubory obsahující řeč ve dvou jazycích. Zvolenou problematiku řeším pomocí strojového učení. Konkrétně nástroji vytvořenými v jazyce Python, NeMo a Whisper. Před fine-tuningem modelů jsem získal WER 78 % na datech letecké komunikace a 60 % na bilinguálním datasetu. Pomocí těchto technologií se mi podařilo zmenšit chybovost přepisů na 24 % v přepisech letecké komunikace. Na dvojjazyčném datasetu jsem dosáhl 19 % WER (Word Error Rate - četnost chybně přepsaných slov). Výsledky této práce umožňují automatický přepis nahrávek letecké komunikace s nízkým počtem chyb v přepisu. Modely trénované na dvojjazyčném datasetu umožňují přepis nahrávek obsahujících angličtinu i češtinu zároveň.cs
dc.description.abstractThis thesis solves the problem of getting text transcription from audio files containing air-traffic communication and audio files containing speech in two languages. I solved this problem using machine learning, specifically by using toolkits written in Python called NeMo and Whisper. Before fine-tuning, I got a 78 % word error rate on an ATC dataset and a 60 % word error rate on a bilingual dataset. Using these technologies, I managed to lower the word error rate to 24 % in transcriptions of air-traffic communication. I also got a 19 % word error rate for bilingual speech. The results of this thesis allow automatic transcription of air-traffic communication with a low rate of errors in the transcript. Furthermore, models trained on bilingual dataset allow transcribing audio files containing both English and Czech speech in one file.en
dc.description.markDcs
dc.identifier.citationBALOK, P. Automatický přepis řeči letecké komunikace do textu [online]. Brno: Vysoké učení technické v Brně. Fakulta informačních technologií. 2023.cs
dc.identifier.other139625cs
dc.identifier.urihttp://hdl.handle.net/11012/212676
dc.language.isocscs
dc.publisherVysoké učení technické v Brně. Fakulta informačních technologiícs
dc.rightsStandardní licenční smlouva - přístup k plnému textu bez omezenícs
dc.subjectautomatický přepis řečics
dc.subjectstrojové učenícs
dc.subjectNeMocs
dc.subjectWhispercs
dc.subjectletecká komunikacecs
dc.subjectumělé neuronové sítěcs
dc.subjectautomatic speech recognitionen
dc.subjectmachine learningen
dc.subjectNeMoen
dc.subjectWhisperen
dc.subjectair-traffic communicationen
dc.subjectartificial neural networksen
dc.titleAutomatický přepis řeči letecké komunikace do textucs
dc.title.alternativeAutomatic Transcription of Air-Traffic Communication to Texten
dc.typeTextcs
dc.type.driverbachelorThesisen
dc.type.evskpbakalářská prácecs
dcterms.dateAccepted2023-06-15cs
dcterms.modified2023-06-15-16:12:55cs
eprints.affiliatedInstitution.facultyFakulta informačních technologiícs
sync.item.dbid139625en
sync.item.dbtypeZPen
sync.item.insts2025.03.18 20:59:48en
sync.item.modts2025.01.15 13:48:00en
thesis.disciplineInformační technologiecs
thesis.grantorVysoké učení technické v Brně. Fakulta informačních technologií. Ústav počítačové grafiky a multimédiícs
thesis.levelBakalářskýcs
thesis.nameBc.cs
Files
Original bundle
Now showing 1 - 2 of 2
Loading...
Thumbnail Image
Name:
final-thesis.pdf
Size:
1.8 MB
Format:
Adobe Portable Document Format
Description:
final-thesis.pdf
Loading...
Thumbnail Image
Name:
review_139625.html
Size:
10.64 KB
Format:
Hypertext Markup Language
Description:
file review_139625.html
Collections