Adaptace jazykového modelu na cílovou doménu využívající stahování veřejných dat

but.committeeprof. Dr. Ing. Jan Černocký (předseda) doc. Ing. František Zbořil, Ph.D. (místopředseda) Ing. Michal Hradiš, Ph.D. (člen) doc. Ing. Vladimír Janoušek, Ph.D. (člen) Ing. Ondřej Kanich, Ph.D. (člen) Ing. Jaroslav Rozman, Ph.D. (člen)cs
but.defenceStudentka nejprve prezentovala výsledky, kterých dosáhla v rámci své práce. Komise se poté seznámila s hodnocením vedoucího a posudkem oponenta práce. Studentka následně odpověděla na otázky oponenta a na další otázky přítomných. Komise se na základě posudku oponenta, hodnocení vedoucího, přednesené prezentace a odpovědí studentky na položené otázky rozhodla práci hodnotit stupněm C. Otázky u obhajoby: Zvažovala jste použití existujících nástrojů pro bloky Vašeho nástroje? Například Scrapy pro procházení webů a Hydra pro pokročilou práci s parametry? Máte v plánů publikovat celý nástroj, nebo aspoň jeho části veřejně? Pracovala jste i s neurálními jazykovými modely? Jaká je velikost českého slovníku, který jste použila?cs
but.jazykčeština (Czech)
but.programInformační technologie a umělá inteligencecs
but.resultpráce byla úspěšně obhájenacs
dc.contributor.advisorKarafiát, Martincs
dc.contributor.authorGregušová, Sabínacs
dc.contributor.refereeŠvec, Jáncs
dc.date.accessioned2022-06-21T07:58:10Z
dc.date.available2022-06-21T07:58:10Z
dc.date.created2022cs
dc.description.abstractCieľom práce je implementovať systém pre automatickú adaptáciu jazykového modelu pre Phonexia ASR systém. Systém prijíma vstupný súbor, ktorý analyzuje a vyberie vhodné výrazy pre webové vyhľadávanie. Každé webové vyhľadávanie prináša množinu dokumentov, ktoré podstupujú čistenie a filtrovanie. Výsledný webový korpus sa zmieša s Phonexia modelom a vykoná sa evaluácia. Pre odhad optimálnych parametrov boli vykonané viaceré experimenty pre hindštinu, češtinu a mandarínsku čínštinu. Výsledky experimentov boli pozitívne a implementovaný systém bol schopný znížiť perplexitu a Word Error Rate vo väčšine experimentov.cs
dc.description.abstractThe goal of this thesis is to implement a system for automatic language model adaptation for Phonexia ASR system. System expects input in the form of source that, which is analysed and appropriate terms for web search are chosen. Every web search results in a set of documents that undergo cleaning and filtering procedures. The resulting web corpora is mixed with Phonexia model and evaluated. In order to estimate the most optimal parameters, I conducted 3 sets of experiments for Hindi, Czech and Mandarin. The results of the experiments were very favourable and the implemented system managed to decrease perplexity and Word Error Rate in most cases.en
dc.description.markCcs
dc.identifier.citationGREGUŠOVÁ, S. Adaptace jazykového modelu na cílovou doménu využívající stahování veřejných dat [online]. Brno: Vysoké učení technické v Brně. Fakulta informačních technologií. 2022.cs
dc.identifier.other145238cs
dc.identifier.urihttp://hdl.handle.net/11012/207465
dc.language.isocscs
dc.publisherVysoké učení technické v Brně. Fakulta informačních technologiícs
dc.rightsStandardní licenční smlouva - přístup k plnému textu bez omezenícs
dc.subjectspeech-to-textcs
dc.subjectautomatické rozpoznávanie rečics
dc.subjectjazykový modelcs
dc.subjectadaptácia jazykového modelucs
dc.subjectautomatické prehľadávanie webucs
dc.subjectautomatické čistenie webových dokumentovcs
dc.subjectautomatické vyhodnotenie webových dokumentovcs
dc.subjectspeech-to-texten
dc.subjectautomatic speech recognitionen
dc.subjectlanguage modelen
dc.subjectlanguage model adaptationen
dc.subjectautomatic web searchen
dc.subjectautomatic web document scrapingen
dc.subjectautomatic assessment of web documentsen
dc.titleAdaptace jazykového modelu na cílovou doménu využívající stahování veřejných datcs
dc.title.alternativeDomain Specific Data Crawling for Language Model Adaptationen
dc.typeTextcs
dc.type.drivermasterThesisen
dc.type.evskpdiplomová prácecs
dcterms.dateAccepted2022-06-17cs
dcterms.modified2022-06-20-08:23:45cs
eprints.affiliatedInstitution.facultyFakulta informačních technologiícs
sync.item.dbid145238en
sync.item.dbtypeZPen
sync.item.insts2022.06.21 09:58:10en
sync.item.modts2022.06.21 08:17:48en
thesis.disciplineZpracování zvuku, řeči a přirozeného jazykacs
thesis.grantorVysoké učení technické v Brně. Fakulta informačních technologií. Ústav počítačové grafiky a multimédiícs
thesis.levelInženýrskýcs
thesis.nameIng.cs
Files
Original bundle
Now showing 1 - 4 of 4
Loading...
Thumbnail Image
Name:
final-thesis.pdf
Size:
2.26 MB
Format:
Adobe Portable Document Format
Description:
final-thesis.pdf
Loading...
Thumbnail Image
Name:
Posudek-Vedouci prace-24957_v.pdf
Size:
86.88 KB
Format:
Adobe Portable Document Format
Description:
Posudek-Vedouci prace-24957_v.pdf
Loading...
Thumbnail Image
Name:
Posudek-Oponent prace-24957_o.pdf
Size:
92.58 KB
Format:
Adobe Portable Document Format
Description:
Posudek-Oponent prace-24957_o.pdf
Loading...
Thumbnail Image
Name:
review_145238.html
Size:
1.49 KB
Format:
Hypertext Markup Language
Description:
review_145238.html
Collections