Automatický přepis řeči letecké komunikace do textu
Loading...
Date
Authors
Holáň, Jan
Advisor
Referee
Mark
B
Journal Title
Journal ISSN
Volume Title
Publisher
Vysoké učení technické v Brně. Fakulta informačních technologií
ORCID
Abstract
Tato práce se zabývá automatickým přepisem letecké komunikace do textové podoby s využitím modelu Whisper. Úvodní část představuje specifika letecké komunikace, proces přípravy dat a stručný přehled architektury modelu Whisper založeného na principu transformerů. Hlavní část práce se zaměřuje na experimentální využití promptů, konkrétně na začlenění volacích znaků jako klíčových informací v promluvách. Předpokládá se, že pro každou komunikaci jsou známy volací znaky letadel, se kterými může být vedena. Byly testovány různé typy promptů s cílem analyzovat, jak model Whisper zpracovává tyto informace v kontextu použitých dat. Pro testování vlivu promptů byly natrénovány různé varianty modelů na základě použitých datových sad, přičemž trénování i testování probíhalo na datech s plnou i zkrácenou formou přepisu. Výsledky ukazují, že použití promptů obecně zvyšuje kvalitu přepisu, přičemž nejlepších výsledků bylo dosaženo při použití promptů obsahujících pouze volací znaky přítomné v jednotlivých promluvách. Dále se ukázalo, že množství trénovacích dat má vliv na stabilitu modelů při provádění experimentů s promptem.
This thesis deals with the automatic transcription of air traffic into text form using the Whisper model. The introductory part presents the specifics of air traffic, the data preparation process and a brief overview of the architecture of the Whisper model based on the principle of transformers. The main part of the thesis focuses on the experimental use of prompts, specifically the incorporation of call signs as key information in speech. It is assumed that for each communication the call signs of the planes with which it can be conducted are known. Different types of prompts were tested to analyze how the Whisper model handles this information in the context of the data used. To test the effect of the prompts, different variants of the models were trained on the datasets used, with both training and testing performed on both full and short form transcript data. The results show that the use of prompts generally improves transcription quality, with the best results achieved when using prompts containing only the call signs present in individual utterances. Furthermore, the amount of training data was shown to affect the stability of the models when performing experiments with the prompt.
This thesis deals with the automatic transcription of air traffic into text form using the Whisper model. The introductory part presents the specifics of air traffic, the data preparation process and a brief overview of the architecture of the Whisper model based on the principle of transformers. The main part of the thesis focuses on the experimental use of prompts, specifically the incorporation of call signs as key information in speech. It is assumed that for each communication the call signs of the planes with which it can be conducted are known. Different types of prompts were tested to analyze how the Whisper model handles this information in the context of the data used. To test the effect of the prompts, different variants of the models were trained on the datasets used, with both training and testing performed on both full and short form transcript data. The results show that the use of prompts generally improves transcription quality, with the best results achieved when using prompts containing only the call signs present in individual utterances. Furthermore, the amount of training data was shown to affect the stability of the models when performing experiments with the prompt.
Description
Keywords
finetuning , Whisper , Whisper Medium , NLP , zpracování přirozeného jazyka , transformery , příprava datasetů , trénování neuronových sítí , prompt , letecká komunikace , finetuning , Whisper , Whisper Medium , NLP , natural language processing , transformers , dataset preparation , neural network training , prompt , air traffic communication
Citation
HOLÁŇ, J. Automatický přepis řeči letecké komunikace do textu [online]. Brno: Vysoké učení technické v Brně. Fakulta informačních technologií. 2025.
Document type
Document version
Date of access to the full text
Language of document
cs
Study field
Strojové učení
Comittee
doc. Ing. Lukáš Burget, Ph.D. (předseda)
prof. Dr. Ing. Jan Černocký (člen)
doc. Ing. Vladimír Janoušek, Ph.D. (člen)
Ing. Michal Hradiš, Ph.D. (člen)
Ing. Jaroslav Rozman, Ph.D. (člen)
Ing. František Grézl, Ph.D. (člen)
Date of acceptance
2025-06-26
Defence
Student nejprve prezentoval výsledky, kterých dosáhl v rámci své práce. Komise se poté seznámila s hodnocením vedoucího a posudkem oponenta práce. Student následně odpověděl na otázky oponenta a na další otázky přítomných. Komise se na základě posudku oponenta, hodnocení vedoucího, přednesené prezentace a odpovědí studenta na položené otázky rozhodla práci hodnotit stupněm B.
Result of defence
práce byla úspěšně obhájena
