Bilingual Dictionary Based Neural Machine Translation
Loading...
Date
Authors
Tikhonov, Maksim
ORCID
Advisor
Referee
Mark
A
Journal Title
Journal ISSN
Volume Title
Publisher
Vysoké učení technické v Brně. Fakulta informačních technologií
Abstract
Vývoj v oblasti strojového překladu v posledních několika letech ukázal, že moderní neuronové systémy strojového překladu jsou schopny poskytovat výsledky vynikající kvality. Pro získání takového systému je však zapotřebí velké množství paralelních trénovacích dat, která nejsou pro většinu jazyků k dispozici. Jedním ze způsobů zlepšení kvality strojového překladu pro low-resource jazyky je augmentace dat. Tato práce zkoumá úlohu neuronového strojového překladu založeného na bilingválních slovnících, jejíž základem je použití augmentační techniky umožňující generování zašuměných dat na základě bilingválních slovníků. Mým cílem bylo prozkoumat možnosti systémů založených na této metodě na různých jazykových párech a za různých výchozích podmínek a následně porovnat získané výsledky s výsledky tradičních neuronových systémů strojového překladu.
The development in the recent few years in the field of machine translation showed us that modern neural machine translation systems are capable of providing results of outstanding quality. However, in order to obtain such a system, one requires an abundant amount of parallel training data, which is not available for most languages. One of the ways to improve the quality of machine translation of low-resource languages is data augmentation. This work investigates the task of Bilingual dictionary-based neural machine translation (BDBNMT), the basis of which is the use of the augmentation technique that allows the generation of noised data based on bilingual dictionaries. My aim was to explore the capabilities of BDBNMT systems on different language pairs and under different initial conditions and then compare the obtained results with those of traditional neural machine translation systems.
The development in the recent few years in the field of machine translation showed us that modern neural machine translation systems are capable of providing results of outstanding quality. However, in order to obtain such a system, one requires an abundant amount of parallel training data, which is not available for most languages. One of the ways to improve the quality of machine translation of low-resource languages is data augmentation. This work investigates the task of Bilingual dictionary-based neural machine translation (BDBNMT), the basis of which is the use of the augmentation technique that allows the generation of noised data based on bilingual dictionaries. My aim was to explore the capabilities of BDBNMT systems on different language pairs and under different initial conditions and then compare the obtained results with those of traditional neural machine translation systems.
Description
Keywords
Umělá inteligence, zpracování přirozeného jazyka, strojový překlad, neurální strojový překlad, bilingvální slovníky, neurální strojový překlad založený na bilingválních slovnících, low-resource strojový překlad, trénování, Artificial intelligence, natural language processing, machine translation, neural machine translation, bilingual dictionaries, bilingual dictionary based neural machine translation, low-resource machine translation, training
Citation
TIKHONOV, M. Bilingual Dictionary Based Neural Machine Translation [online]. Brno: Vysoké učení technické v Brně. Fakulta informačních technologií. 2023.
Document type
Document version
Date of access to the full text
Language of document
en
Study field
Informační technologie
Comittee
prof. Dr. Ing. Jan Černocký (předseda)
doc. Ing. Zdeněk Vašíček, Ph.D. (člen)
Ing. Václav Šátek, Ph.D. (člen)
Ing. Filip Orság, Ph.D. (člen)
Ing. Vladimír Bartík, Ph.D. (člen)
Date of acceptance
2023-06-15
Defence
Student nejprve prezentoval výsledky, kterých dosáhl v rámci své práce. Komise se poté seznámila s hodnocením vedoucího a posudkem oponenta práce. Student následně odpověděl na otázky přítomných. Komise se na základě posudku oponenta, hodnocení vedoucího, přednesené prezentace a odpovědí studenta na položené otázky rozhodla práci hodnotit stupněm A.
Result of defence
práce byla úspěšně obhájena
Document licence
Standardní licenční smlouva - přístup k plnému textu bez omezení