Automatická detekce jazyka textového dokumentu

but.committeeprof. Dr. Ing. Jan Černocký (předseda) prof. Ing. Martin Drahanský, Ph.D. (místopředseda) doc. Ing. Michal Bidlo, Ph.D. (člen) RNDr. Marek Rychlý, Ph.D. (člen) doc. Ing. Michal Španěl, Ph.D. (člen)cs
but.defenceStudent nejprve prezentoval výsledky, kterých dosáhl v rámci své práce. Komise se poté seznámila s hodnocením vedoucího a posudkem oponenta práce. Student následně odpověděl na otázky oponenta a na další otázky přítomných. Komise se na základě posudku oponenta, hodnocení vedoucího, přednesené prezentace a odpovědí studenta na položené otázky rozhodla práci hodnotit stupněm velmi dobře (B). Otázky u obhajoby: Při získávání datových sad jste se zaměřil na paralelní korpusy, má to nějaký vliv na trénování systému? A pokud ano, jaký? U klasifikace češtiny a slovenštiny s diakritikou a bez (tabulka 5.3) se objevuje častá záměna Cestina za Slovenstina/Neznamy, ale tento výsledek není symetrický (Slovenstina má 98% přesnost). Proč tomu tak je? Při návrhu datových sad (tabulka 3.2) není stejné množství slov ve všech jazycích. Jak to může ovlivnit výkon klasifikátoru?cs
but.jazykčeština (Czech)
but.programInformační technologiecs
but.resultpráce byla úspěšně obhájenacs
dc.contributor.advisorSzőke, Igorcs
dc.contributor.authorCakl, Jancs
dc.contributor.refereePešán, Jancs
dc.date.created2016cs
dc.description.abstractTato práce se zabývá rozpoznáním jazyka textového dokumentu. Výsledný program obsahuje implementaci dvou odlišných metod určených pro rozpoznání jazyka textu. První metoda je založena na frekvenčních statistikách N-gramu. Druhou metodou jsou Markovské řetězce a poslední metoda za účelem rozpoznání jazyka využívá umělou neuronovou síť. Řešení je implementováno v jazyce Python.cs
dc.description.abstractThe thesis deals with a language identification of a text document. The final program includes three different implementation methods of language identification. The first method is based on a frequency statistics of N-gram. The second one represents Markov chains and the last one uses the simulated neural net for the identification purposes. The result is implemented in the Python language.en
dc.description.markBcs
dc.identifier.citationCAKL, J. Automatická detekce jazyka textového dokumentu [online]. Brno: Vysoké učení technické v Brně. Fakulta informačních technologií. 2016.cs
dc.identifier.other96438cs
dc.identifier.urihttp://hdl.handle.net/11012/62156
dc.language.isocscs
dc.publisherVysoké učení technické v Brně. Fakulta informačních technologiícs
dc.rightsStandardní licenční smlouva - přístup k plnému textu bez omezenícs
dc.subjectN-gramcs
dc.subjectumělá neuronová síťcs
dc.subjectrozpoznání jazykacs
dc.subjectMarkovské řetězcecs
dc.subjectN-gramen
dc.subjectartificial neural networken
dc.subjectlanguage identificationen
dc.subjectMarkov chainsen
dc.titleAutomatická detekce jazyka textového dokumentucs
dc.title.alternativeLanguage Identification of Text Documenten
dc.typeTextcs
dc.type.driverbachelorThesisen
dc.type.evskpbakalářská prácecs
dcterms.dateAccepted2016-06-15cs
dcterms.modified2020-05-10-16:12:33cs
eprints.affiliatedInstitution.facultyFakulta informačních technologiícs
sync.item.dbid96438en
sync.item.dbtypeZPen
sync.item.insts2025.03.18 18:56:56en
sync.item.modts2025.01.15 15:29:52en
thesis.disciplineInformační technologiecs
thesis.grantorVysoké učení technické v Brně. Fakulta informačních technologií. Ústav počítačové grafiky a multimédiícs
thesis.levelBakalářskýcs
thesis.nameBc.cs
Files
Original bundle
Now showing 1 - 4 of 4
Loading...
Thumbnail Image
Name:
final-thesis.pdf
Size:
1.03 MB
Format:
Adobe Portable Document Format
Description:
final-thesis.pdf
Loading...
Thumbnail Image
Name:
Posudek-Vedouci prace-18569_v.pdf
Size:
85.89 KB
Format:
Adobe Portable Document Format
Description:
Posudek-Vedouci prace-18569_v.pdf
Loading...
Thumbnail Image
Name:
Posudek-Oponent prace-18569_o.pdf
Size:
89.18 KB
Format:
Adobe Portable Document Format
Description:
Posudek-Oponent prace-18569_o.pdf
Loading...
Thumbnail Image
Name:
review_96438.html
Size:
1.43 KB
Format:
Hypertext Markup Language
Description:
file review_96438.html
Collections