Automatická detekce jazyka textového dokumentu
but.committee | prof. Dr. Ing. Jan Černocký (předseda) prof. Ing. Martin Drahanský, Ph.D. (místopředseda) doc. Ing. Michal Bidlo, Ph.D. (člen) RNDr. Marek Rychlý, Ph.D. (člen) doc. Ing. Michal Španěl, Ph.D. (člen) | cs |
but.defence | Student nejprve prezentoval výsledky, kterých dosáhl v rámci své práce. Komise se poté seznámila s hodnocením vedoucího a posudkem oponenta práce. Student následně odpověděl na otázky oponenta a na další otázky přítomných. Komise se na základě posudku oponenta, hodnocení vedoucího, přednesené prezentace a odpovědí studenta na položené otázky rozhodla práci hodnotit stupněm velmi dobře (B). Otázky u obhajoby: Při získávání datových sad jste se zaměřil na paralelní korpusy, má to nějaký vliv na trénování systému? A pokud ano, jaký? U klasifikace češtiny a slovenštiny s diakritikou a bez (tabulka 5.3) se objevuje častá záměna Cestina za Slovenstina/Neznamy, ale tento výsledek není symetrický (Slovenstina má 98% přesnost). Proč tomu tak je? Při návrhu datových sad (tabulka 3.2) není stejné množství slov ve všech jazycích. Jak to může ovlivnit výkon klasifikátoru? | cs |
but.jazyk | čeština (Czech) | |
but.program | Informační technologie | cs |
but.result | práce byla úspěšně obhájena | cs |
dc.contributor.advisor | Szőke, Igor | cs |
dc.contributor.author | Cakl, Jan | cs |
dc.contributor.referee | Pešán, Jan | cs |
dc.date.created | 2016 | cs |
dc.description.abstract | Tato práce se zabývá rozpoznáním jazyka textového dokumentu. Výsledný program obsahuje implementaci dvou odlišných metod určených pro rozpoznání jazyka textu. První metoda je založena na frekvenčních statistikách N-gramu. Druhou metodou jsou Markovské řetězce a poslední metoda za účelem rozpoznání jazyka využívá umělou neuronovou síť. Řešení je implementováno v jazyce Python. | cs |
dc.description.abstract | The thesis deals with a language identification of a text document. The final program includes three different implementation methods of language identification. The first method is based on a frequency statistics of N-gram. The second one represents Markov chains and the last one uses the simulated neural net for the identification purposes. The result is implemented in the Python language. | en |
dc.description.mark | B | cs |
dc.identifier.citation | CAKL, J. Automatická detekce jazyka textového dokumentu [online]. Brno: Vysoké učení technické v Brně. Fakulta informačních technologií. 2016. | cs |
dc.identifier.other | 96438 | cs |
dc.identifier.uri | http://hdl.handle.net/11012/62156 | |
dc.language.iso | cs | cs |
dc.publisher | Vysoké učení technické v Brně. Fakulta informačních technologií | cs |
dc.rights | Standardní licenční smlouva - přístup k plnému textu bez omezení | cs |
dc.subject | N-gram | cs |
dc.subject | umělá neuronová síť | cs |
dc.subject | rozpoznání jazyka | cs |
dc.subject | Markovské řetězce | cs |
dc.subject | N-gram | en |
dc.subject | artificial neural network | en |
dc.subject | language identification | en |
dc.subject | Markov chains | en |
dc.title | Automatická detekce jazyka textového dokumentu | cs |
dc.title.alternative | Language Identification of Text Document | en |
dc.type | Text | cs |
dc.type.driver | bachelorThesis | en |
dc.type.evskp | bakalářská práce | cs |
dcterms.dateAccepted | 2016-06-15 | cs |
dcterms.modified | 2020-05-10-16:12:33 | cs |
eprints.affiliatedInstitution.faculty | Fakulta informačních technologií | cs |
sync.item.dbid | 96438 | en |
sync.item.dbtype | ZP | en |
sync.item.insts | 2025.03.18 18:56:56 | en |
sync.item.modts | 2025.01.15 15:29:52 | en |
thesis.discipline | Informační technologie | cs |
thesis.grantor | Vysoké učení technické v Brně. Fakulta informačních technologií. Ústav počítačové grafiky a multimédií | cs |
thesis.level | Bakalářský | cs |
thesis.name | Bc. | cs |
Files
Original bundle
1 - 4 of 4
Loading...
- Name:
- final-thesis.pdf
- Size:
- 1.03 MB
- Format:
- Adobe Portable Document Format
- Description:
- final-thesis.pdf
Loading...
- Name:
- Posudek-Vedouci prace-18569_v.pdf
- Size:
- 85.89 KB
- Format:
- Adobe Portable Document Format
- Description:
- Posudek-Vedouci prace-18569_v.pdf
Loading...
- Name:
- Posudek-Oponent prace-18569_o.pdf
- Size:
- 89.18 KB
- Format:
- Adobe Portable Document Format
- Description:
- Posudek-Oponent prace-18569_o.pdf
Loading...
- Name:
- review_96438.html
- Size:
- 1.43 KB
- Format:
- Hypertext Markup Language
- Description:
- file review_96438.html