Adaptace jazykového modelu na cílovou doménu využívající stahování veřejných dat
but.committee | prof. Dr. Ing. Jan Černocký (předseda) doc. Ing. František Zbořil, Ph.D. (místopředseda) Ing. Michal Hradiš, Ph.D. (člen) doc. Ing. Vladimír Janoušek, Ph.D. (člen) Ing. Ondřej Kanich, Ph.D. (člen) Ing. Jaroslav Rozman, Ph.D. (člen) | cs |
but.defence | Studentka nejprve prezentovala výsledky, kterých dosáhla v rámci své práce. Komise se poté seznámila s hodnocením vedoucího a posudkem oponenta práce. Studentka následně odpověděla na otázky oponenta a na další otázky přítomných. Komise se na základě posudku oponenta, hodnocení vedoucího, přednesené prezentace a odpovědí studentky na položené otázky rozhodla práci hodnotit stupněm C. Otázky u obhajoby: Zvažovala jste použití existujících nástrojů pro bloky Vašeho nástroje? Například Scrapy pro procházení webů a Hydra pro pokročilou práci s parametry? Máte v plánů publikovat celý nástroj, nebo aspoň jeho části veřejně? Pracovala jste i s neurálními jazykovými modely? Jaká je velikost českého slovníku, který jste použila? | cs |
but.jazyk | čeština (Czech) | |
but.program | Informační technologie a umělá inteligence | cs |
but.result | práce byla úspěšně obhájena | cs |
dc.contributor.advisor | Karafiát, Martin | cs |
dc.contributor.author | Gregušová, Sabína | cs |
dc.contributor.referee | Švec, Ján | cs |
dc.date.accessioned | 2022-06-21T07:58:10Z | |
dc.date.available | 2022-06-21T07:58:10Z | |
dc.date.created | 2022 | cs |
dc.description.abstract | Cieľom práce je implementovať systém pre automatickú adaptáciu jazykového modelu pre Phonexia ASR systém. Systém prijíma vstupný súbor, ktorý analyzuje a vyberie vhodné výrazy pre webové vyhľadávanie. Každé webové vyhľadávanie prináša množinu dokumentov, ktoré podstupujú čistenie a filtrovanie. Výsledný webový korpus sa zmieša s Phonexia modelom a vykoná sa evaluácia. Pre odhad optimálnych parametrov boli vykonané viaceré experimenty pre hindštinu, češtinu a mandarínsku čínštinu. Výsledky experimentov boli pozitívne a implementovaný systém bol schopný znížiť perplexitu a Word Error Rate vo väčšine experimentov. | cs |
dc.description.abstract | The goal of this thesis is to implement a system for automatic language model adaptation for Phonexia ASR system. System expects input in the form of source that, which is analysed and appropriate terms for web search are chosen. Every web search results in a set of documents that undergo cleaning and filtering procedures. The resulting web corpora is mixed with Phonexia model and evaluated. In order to estimate the most optimal parameters, I conducted 3 sets of experiments for Hindi, Czech and Mandarin. The results of the experiments were very favourable and the implemented system managed to decrease perplexity and Word Error Rate in most cases. | en |
dc.description.mark | C | cs |
dc.identifier.citation | GREGUŠOVÁ, S. Adaptace jazykového modelu na cílovou doménu využívající stahování veřejných dat [online]. Brno: Vysoké učení technické v Brně. Fakulta informačních technologií. 2022. | cs |
dc.identifier.other | 145238 | cs |
dc.identifier.uri | http://hdl.handle.net/11012/207465 | |
dc.language.iso | cs | cs |
dc.publisher | Vysoké učení technické v Brně. Fakulta informačních technologií | cs |
dc.rights | Standardní licenční smlouva - přístup k plnému textu bez omezení | cs |
dc.subject | speech-to-text | cs |
dc.subject | automatické rozpoznávanie reči | cs |
dc.subject | jazykový model | cs |
dc.subject | adaptácia jazykového modelu | cs |
dc.subject | automatické prehľadávanie webu | cs |
dc.subject | automatické čistenie webových dokumentov | cs |
dc.subject | automatické vyhodnotenie webových dokumentov | cs |
dc.subject | speech-to-text | en |
dc.subject | automatic speech recognition | en |
dc.subject | language model | en |
dc.subject | language model adaptation | en |
dc.subject | automatic web search | en |
dc.subject | automatic web document scraping | en |
dc.subject | automatic assessment of web documents | en |
dc.title | Adaptace jazykového modelu na cílovou doménu využívající stahování veřejných dat | cs |
dc.title.alternative | Domain Specific Data Crawling for Language Model Adaptation | en |
dc.type | Text | cs |
dc.type.driver | masterThesis | en |
dc.type.evskp | diplomová práce | cs |
dcterms.dateAccepted | 2022-06-17 | cs |
dcterms.modified | 2022-06-20-08:23:45 | cs |
eprints.affiliatedInstitution.faculty | Fakulta informačních technologií | cs |
sync.item.dbid | 145238 | en |
sync.item.dbtype | ZP | en |
sync.item.insts | 2022.06.21 09:58:10 | en |
sync.item.modts | 2022.06.21 08:17:48 | en |
thesis.discipline | Zpracování zvuku, řeči a přirozeného jazyka | cs |
thesis.grantor | Vysoké učení technické v Brně. Fakulta informačních technologií. Ústav počítačové grafiky a multimédií | cs |
thesis.level | Inženýrský | cs |
thesis.name | Ing. | cs |
Files
Original bundle
1 - 4 of 4
Loading...
- Name:
- final-thesis.pdf
- Size:
- 2.26 MB
- Format:
- Adobe Portable Document Format
- Description:
- final-thesis.pdf
Loading...
- Name:
- Posudek-Vedouci prace-24957_v.pdf
- Size:
- 86.88 KB
- Format:
- Adobe Portable Document Format
- Description:
- Posudek-Vedouci prace-24957_v.pdf
Loading...
- Name:
- Posudek-Oponent prace-24957_o.pdf
- Size:
- 92.58 KB
- Format:
- Adobe Portable Document Format
- Description:
- Posudek-Oponent prace-24957_o.pdf
Loading...
- Name:
- review_145238.html
- Size:
- 1.49 KB
- Format:
- Hypertext Markup Language
- Description:
- review_145238.html