Překlad z češtiny do angličtiny

but.committeeprof. Ing. Miroslav Švéda, CSc. (předseda) doc. Dr. Ing. Dušan Kolář (místopředseda) prof. Ing. Adam Herout, Ph.D. (člen) Doc. Věra Rozinajová, Ph.D. (člen) prof. Ing. Jiří Šafařík, CSc. (člen) prof. Ing. Tomáš Vojnar, Ph.D. (člen)cs
but.defenceStudent nejprve prezentoval výsledky, kterých dosáhl v rámci své práce. Komise se pak seznámila s hodnocením vedoucího a posudkem oponenta práce. Student následně odpověděl na otázky oponenta a na další otázky přítomných. Komise se na základě posudku oponenta, hodnocení vedoucího, přednesené prezentace a odpovědí studenta na položené otázky rozhodla práci hodnotit stupněm B. Otázky u obhajoby: Describe the principles of the Kneser-Ney discounting. Describe what information is stored in the co-occurrence files produced by the snt2cooc tool.cs
but.jazykangličtina (English)
but.programInformační technologiecs
but.resultpráce byla úspěšně obhájenacs
dc.contributor.advisorSmrž, Pavelen
dc.contributor.authorPetrželka, Jiříen
dc.contributor.refereeSchmidt, Mareken
dc.date.created2010cs
dc.description.abstractTato diplomová práce popisuje principy statistického strojového překladu a demonstruje, jak sestavit systém pro statistický strojový překlad Moses. V přípravné fázi jsou prozkoumány volně dostupné bilingvní česko-anglické korpusy. Empirická analýza časové náročnosti vícevláknových nástrojů pro zarovnání slov demonstruje, že MGIZA++ může dosáhnout až pětinásobného zrychlení, zatímco PGIZA++ až osminásobného zrychlení (v porovnání s GIZA++). Jsou otestovány tři způsoby morfologického pre-processingu českých trénovacích dat za použití jednoduchých nefaktorových modelů. Zatímco jednoduchá lemmatizace může snížit BLEU, sofistikovanější přístupy většinou BLEU zvyšují. Positivní efekty morfologického pre-processingu se vytrácejí s růstem velikosti korpusu. Vztah mezi dalšími charakteristikami korpusu (velikost, žánr, další data) a výsledným BLEU je empiricky měřen. Koncový systém je natrénován na korpusu CzEng 0.9 a vyhodnocen na testovacím vzorku z workshopu WMT 2010.en
dc.description.abstractThis Master's thesis describes the principles of statistical machine translation and demonstrates how to assemble the Moses statistical machine translation system. In the preparation step, a research on freely available bilingual Czech-English corpora is done. An empirical analysis of time requirements of multithreaded word alignment tools demonstrates that MGIZA++ can achieve a five-fold speed-up, while PGIZA++ can reach an eight-fold speed-up (compared to GIZA++).Three scenarios of morphological pre-processing of Czech training data are tested, using simple unfactored models. While pure lemmatization can aggravate the BLEU, more sophisticated approaches usually raise BLEU. The positive effect of morphological pre-processing diminishes as corpus size rises. The relation between other corpora characteristics (size, genre, extra data) and the resulting BLEU are empirically gauged. A final system is trained on the CzEng 0.9 corpus and evaluated on the testing set from WMT 2010 workshop.cs
dc.description.markBcs
dc.identifier.citationPETRŽELKA, J. Překlad z češtiny do angličtiny [online]. Brno: Vysoké učení technické v Brně. Fakulta informačních technologií. 2010.cs
dc.identifier.other34581cs
dc.identifier.urihttp://hdl.handle.net/11012/54268
dc.language.isoencs
dc.publisherVysoké učení technické v Brně. Fakulta informačních technologiícs
dc.rightsStandardní licenční smlouva - přístup k plnému textu bez omezenícs
dc.subjectstatistický strojový překladen
dc.subjectzpracování přirozeného jazykaen
dc.subjectpřekladový modelen
dc.subjectjazykový modelen
dc.subjectdekodéren
dc.subjectzarovnání sloven
dc.subjectGIZA++en
dc.subjectMGIZA++en
dc.subjectPGIZA++en
dc.subjectSRILMen
dc.subjecthunalignen
dc.subjectplain2snten
dc.subjectsnt2coocen
dc.subjectmkclsen
dc.subjectBLEUen
dc.subjectbilingvní korpusen
dc.subjectKačenkaen
dc.subjectAcquis Communautaireen
dc.subjectCzEngen
dc.subjectOpenSubtitlesen
dc.subjectskrytý Markovův modelen
dc.subjectHMMen
dc.subjectviterbien
dc.subjectIBM modelen
dc.subjectQin Gaoen
dc.subjectÚFALen
dc.subjectEuroMatrixen
dc.subjectMosesen
dc.subjectčeská morfologieen
dc.subjectlemmatizaceen
dc.subjectPražský závislostní korpusen
dc.subjectPDTen
dc.subjectLibmaen
dc.subjectBLEUen
dc.subjectWMTen
dc.subjectstatistical machine translationcs
dc.subjectnatural language processingcs
dc.subjecttranslation modelcs
dc.subjectlanguage modelcs
dc.subjectdecodercs
dc.subjectword alignmentcs
dc.subjectGIZA++cs
dc.subjectMGIZA++cs
dc.subjectPGIZA++cs
dc.subjectSRILMcs
dc.subjecthunaligncs
dc.subjectplain2sntcs
dc.subjectsnt2cooccs
dc.subjectmkclscs
dc.subjectBLEUcs
dc.subjectbilingual corpuscs
dc.subjectKačenkacs
dc.subjectAcquis Communautairecs
dc.subjectCzEngcs
dc.subjectOpenSubtitlescs
dc.subjecthidden Markov modelcs
dc.subjectHMMcs
dc.subjectviterbics
dc.subjectIBM modelcs
dc.subjectQin Gaocs
dc.subjectÚFALcs
dc.subjectIFALcs
dc.subjectEuroMatrixcs
dc.subjectMosescs
dc.subjectCzech morphologycs
dc.subjectlemmatizationcs
dc.subjectPrague Dependency Treebankcs
dc.subjectPDTcs
dc.subjectLibmacs
dc.subjectBLEUcs
dc.subjectWMTcs
dc.titlePřeklad z češtiny do angličtinyen
dc.title.alternativeCzech-English Translationcs
dc.typeTextcs
dc.type.drivermasterThesisen
dc.type.evskpdiplomová prácecs
dcterms.dateAccepted2010-06-23cs
dcterms.modified2020-05-09-23:41:02cs
eprints.affiliatedInstitution.facultyFakulta informačních technologiícs
sync.item.dbid34581en
sync.item.dbtypeZPen
sync.item.insts2025.03.26 14:48:16en
sync.item.modts2025.01.15 23:24:17en
thesis.disciplineInformační systémycs
thesis.grantorVysoké učení technické v Brně. Fakulta informačních technologií. Ústav počítačové grafiky a multimédiícs
thesis.levelInženýrskýcs
thesis.nameIng.cs
Files
Original bundle
Now showing 1 - 2 of 2
Loading...
Thumbnail Image
Name:
final-thesis.pdf
Size:
2.73 MB
Format:
Adobe Portable Document Format
Description:
final-thesis.pdf
Loading...
Thumbnail Image
Name:
review_34581.html
Size:
1.43 KB
Format:
Hypertext Markup Language
Description:
file review_34581.html
Collections