Automatický přepis řeči s podporou code switching

but.committeeprof. Dr. Ing. Jan Černocký (předseda) Ing. Ondřej Lengál, Ph.D. (člen) doc. Ing. Peter Chudý, Ph.D., MBA (člen) Ing. Radim Kocman, Ph.D. (člen) doc. Ing. Michal Bidlo, Ph.D. (člen)cs
but.defenceStudent nejprve prezentoval výsledky, kterých dosáhl v rámci své práce. Komise se poté seznámila s hodnocením vedoucího a posudkem oponenta práce. Oponent hodnotil práci stupněm 4F, protože zadání bylo splněno pouze částečně a technická zpráva obsahuje zásadní nedostatky neodpovídající standardům FIT pro bakalářskou práci. Student nedokázal vyvrátit výtky oponenta. Komise shledala nedostatky práce natolik závažné, že se práci rozhodla hodnotit jako nevyhovující.cs
but.jazykčeština (Czech)
but.programInformační technologiecs
but.resultpráce nebyla úspěšně obhájenacs
dc.contributor.advisorSzőke, Igorcs
dc.contributor.authorBílek, Štěpáncs
dc.contributor.refereeKarafiát, Martincs
dc.date.created2024cs
dc.description.abstractTato práce se zabývá problematikou automatického rozpoznávání řeči. Zaměřuje se na rozpoznávání audia obsahující vícejazyčné promluvy, tzv. code-switching. Problém nedostatku vícejazyčných dat pro trénování je řešen kombinováním nahrávek v angličtině a němčině dohromady. Pro co největší přiblížení ke skutečné dvojjazyčné řeči je část datasetů tvořena spojováním nahrávek podobných mluvčích. Na vytvořených datech je trénován a testován model Whisper. Ten v původní neadaptované verzi dosahuje chybovosti až 70 %. Nejlepší modely trénované na kombinovaných datasetech dosahují chybovosti jen lehce přes 7 %. Výsledky této práce ukazují způsoby jak modely trénovat, aby dosahovaly co nejlepších výsledků.cs
dc.description.abstractThis thesis addresses the issue of automatic speech recognition, focusing on the recognition of audio containing multilingual speech, known as code-switching. The problem of a lack of multilingual data for training is addressed by combining recordings in English and German. To achieve the closest approximation to real bilingual speech, a portion of the datasets is created by merging recordings of similar speakers. The Whisper model is trained and tested on the created data. In its original unadapted version, the model achieves an error rate of up to 70 %. The best models trained on combined datasets achieve error rates slightly above 7 %. The results of this study demonstrate methods for training models to achieve the best possible performance.en
dc.description.markFcs
dc.identifier.citationBÍLEK, Š. Automatický přepis řeči s podporou code switching [online]. Brno: Vysoké učení technické v Brně. Fakulta informačních technologií. 2024.cs
dc.identifier.other156791cs
dc.identifier.urihttp://hdl.handle.net/11012/247497
dc.language.isocscs
dc.publisherVysoké učení technické v Brně. Fakulta informačních technologiícs
dc.rightsStandardní licenční smlouva - přístup k plnému textu bez omezenícs
dc.subjectAutomatické rozpoznávání řečics
dc.subjectstrojové učenícs
dc.subjectWhispercs
dc.subjectcode switchingcs
dc.subjectfine-tuningcs
dc.subjectvícejazyčná řečcs
dc.subjectAutomatic speech recognitionen
dc.subjectmachine learningen
dc.subjectWhisperen
dc.subjectcode switchingen
dc.subjectfine-tuningen
dc.subjectmultilingual speech.en
dc.titleAutomatický přepis řeči s podporou code switchingcs
dc.title.alternativeAutomatic Transcription of Speech Supporting Code Switchingen
dc.typeTextcs
dc.type.driverbachelorThesisen
dc.type.evskpbakalářská prácecs
dcterms.dateAccepted2024-06-12cs
dcterms.modified2024-11-12-15:55:56cs
eprints.affiliatedInstitution.facultyFakulta informačních technologiícs
sync.item.dbid156791en
sync.item.dbtypeZPen
sync.item.insts2025.03.18 21:01:36en
sync.item.modts2025.01.16 00:15:01en
thesis.disciplineInformační technologiecs
thesis.grantorVysoké učení technické v Brně. Fakulta informačních technologií. Ústav počítačové grafiky a multimédiícs
thesis.levelBakalářskýcs
thesis.nameBc.cs
Files
Original bundle
Now showing 1 - 2 of 2
Loading...
Thumbnail Image
Name:
final-thesis.pdf
Size:
1.28 MB
Format:
Adobe Portable Document Format
Description:
file final-thesis.pdf
Loading...
Thumbnail Image
Name:
review_156791.html
Size:
10.1 KB
Format:
Hypertext Markup Language
Description:
file review_156791.html
Collections