KADLEC, L. Technologie strojového překladu [online]. Brno: Vysoké učení technické v Brně. Fakulta elektrotechniky a komunikačních technologií. 2022.
Lukás Kadlec's Bachelor thesis examines different types of Machine Translation (MT) technology. After a description of the history of MT technology, an analysis of different types of MT technology is given, including statistical machine translation (SMT) and neural machine translations (NMT). In relation to NMT, Mr. Kadlec discusses three applications which use it, one of them being Google Translate which he admits to having experience with. Overall, the author gives a pretty good summary of all the types of Machine Translation technology since the 1990s. Moreover, while there are some typos, this is a cleanly written paper overall, and the language is lucid too. He does give a good and apt analysis in some parts of the paper, especially in chapter 2.2.1.3 where the writer gives a very good example of a mistranslation due to statistical anomalies in SMT. Mr. Kadlec has a wide bibliography (though incomplete, see below) and his sources are aptly used overall in his thesis. While a lot of information is given in this paper, I feel it falls short in its use of examples for analysis, with not enough of the author's opinion being given. Lukás admits to having a lot of experience with Google Translate, and while he writes a lot of it, he fails to give an example as he did in chapter 2.2.1.3. Mr. Kadlec could have takens a simple sentence like, "My cousin, Chris, has received a Bachelor's degree in Film Studies," which translated in Czech is "Můj bratranec Chris získal bakalářský titul ve filmových studiích;" but when a possessive pronoun is used like "My cousin, Chris, has received her Bachelor's degree in Film Studies," the Czech, "Moje sestřenice Chris získala bakalářský titul ve filmových studiích." Instead the reader is treated to Fig. 1, a list of 109 languages Google translate can translate, a list more appropriate in an Appendix at the end of the paper, instead of within the body of the work. Finally, I wish the author had been a bit bolder in stating his opinion on the future of MT in the final paragraph of his Conclusion, instead of using phrases like "we can only guess what the future will bring" and the use of "maybe" twice. The style used in the thesis is pretty good overall, but as mentioned above, his lists of languages should have been placed in an Appendix. One serious error though is his omission of some sources in the bibliography which were used in the body of his paper. Mr. Kadlec was previously warned by this reviewer to find the bibliographical source for Collins, 2011 used on p. 15, but it still cannot be found in the References! Unfortunately, (Lin, 2004) on p. 38 is also not found. To sum up, while one can learn one can gain some very pertinent and good information on Machine Translation technology in reading this papre, because of the drawbacks given above, this is only a pretty good work at best. Therefore, I can only give Lukás Kadlec a mark of 73%/C.
Bakalářská práce Lukáše Kadlece přináší charakterizaci postupů a algoritmů užívaných v rozmanitých formách strojového překladu. Práce je koncipována víceméně diachronicky, byť počátky jsou zmíněny spíše nedbale a nefunkčně, a proto mohou být zavádějící či matoucí (zmínka o 9. a 16. – 17. století na s. 11). Jakkoli je výstavba práce logická, samotná realizace a výstavba textu není šťastná. Celý text v podstatě sestává jen z parafrází sekundární literatury (v drtivé většině čerpané z internetu, často ze zdrojů, které nelze označit ani jako populárně vědecké: jedním zdrojem je např. zpráva z Deutsche Welle). Některé zdroje uvedené v textu v seznamu literatury zcela chybí (Jozefowicz et al. 2016; Sutskever et al. 2014; Ehlion Team 2021; Brooks 2016 – v seznamu je jen Brooks 2020). Mnohé odkazy se objevují v nedohledatelné podobě („Cho 2015“ v textu má být zřejmě „Bahdanau and Cho 2015“ ze seznamu literatury; textový odkaz „Lin 2004“ je uveden v literatuře jako „Information Science Institute and Lin 2004“; to samé platí o textových odkazech na Denkowski a Lavie 2004; Banerjee and Lavie 2005; Ganesan 2017). Pokud je v seznamu literatury od jednoho autora ze stejného roku více zdrojů, správně jsou rozlišeny malým písmenem, bohužel při citaci z těchto zdrojů v textu už autor toto upřesnění neuvádí (Tondak 2022; Turovsky 2016; Donges 2021). Odkazový aparát tak až příliš často neplní svou funkci, což je při množství použitého materiálu na pováženou – nejzávažnějším prohřeškem je samozřejmě neuvedení některých zdrojů. Stylisticky se jedná, jak už jsem naznačil, o relativně mechanicky kompilované abstrakty sekundární literatury, z čehož vyplývá fragmentárnost informací, kdy jedna nebo dvě věty tvoří samostatný odstavec či dokonce numericky odlišenou „podkapitolu“. Jednotlivé informace se skládají v text jen jaksi implicitně – tím, že stojí vedle sebe. O mechaničnosti napovídá i zařazení tří tabulek uvádějících seznam jazyků, s nimiž jednotlivé překladové programy pracují. Místy se objevují chybné předložkové vazby, místy chyba ve shodě podmětu a přísudku („corpus are“ – s. 16). V rozšířeném abstraktu se objevují neslovesné věty. Vzhledem ke zmíněným problémum (především co se týče citačního aparátu), minimu osobního přínosu (možná stálo za úvahu použít nějaký testovací text a vyzkoušet, jak jej jednotlivé programy přeloží a výsledky okomentovat), stylizační neucelenosti celého textu (úvod, stejně jako závěr, jen referují o tom, co se kde v práci čtenář dozví), sice navrhuji práci k obhajobě, ale popsané nedostatky nutně ovlivnily mnou navrhované výsledné hodnocení.
eVSKP id 142542