Strojové učení pro odpovídání na otázky v přirozeném jazyce
but.committee | doc. RNDr. Pavel Smrž, Ph.D. (předseda) doc. RNDr. Jitka Kreslíková, CSc. (místopředseda) Ing. Ivana Burgetová, Ph.D. (člen) Dr. Ing. Petr Peringer (člen) Ing. Josef Strnadel, Ph.D. (člen) | cs |
but.defence | Student nejprve prezentoval výsledky, kterých dosáhl v rámci své práce. Komise se poté seznámila s hodnocením vedoucího a posudkem oponenta práce. Student následně odpověděl na otázky oponenta a na další otázky přítomných. Komise se na základě posudku oponenta, hodnocení vedoucího, přednesené prezentace a odpovědí studenta na položené otázky rozhodla práci hodnotit stupněm B. Otázky u obhajoby: Uvedťe či sú rozdiely spôsobené rodzielnou lematizáciou pri získavaní dokumentov (uvedené v tabuľkách 8.1 a 8.2) štatisticky signifikantné pre metriku EM. Stačí keď sa zameriate pre najlepšie výsledky pre každý typ lematizácie. | cs |
but.jazyk | čeština (Czech) | |
but.program | Informační technologie | cs |
but.result | práce byla úspěšně obhájena | cs |
dc.contributor.advisor | Smrž, Pavel | cs |
dc.contributor.author | Sasín, Jonáš | cs |
dc.contributor.referee | Fajčík, Martin | cs |
dc.date.created | 2021 | cs |
dc.description.abstract | Práce se zabývá odpovídáním na otázky v přirozeném jazyce nad českou Wikipedií. Systémy pro odpovídání na otázky získávají rostoucí popularitu, většina jich ale vzniká pro angličtinu. Cílem této práce je prozkoumat dostupné možnosti a datové sady a vytvořit takový systém pro češtinu. V práci jsem se zaměřil na dva přístupy. Jeden z nich využívá pro extrakci odpovědi anglický model ALBERT a strojový překlad pasáží. Druhý využívá vícejazyčný model BERT. V práci je provedeno porovnání několika variant systému. Diskutovány jsou také možnosti získávání relevantních pasáží. Pro všechny varianty testovaných systémů je provedeno vyhodnocení pomocí standardních metrik. Nejlepší varianta systému byla vyhodnocena na datové sadě SQAD v3.0 s úspěšností 0,44 EM a 0,55 F1 skóre, což je v porovnání s existujícími systémy vynikající výsledek. Hlavním přínosem této práce je analýza možností a nasazení laťky pro další vývoj lepších systémů pro češtinu. | cs |
dc.description.abstract | This thesis deals with natural language question answering using Czech Wikipedia. Question answering systems are experiencing growing popularity, but most of them are developed for English. The main purpose of this work is to explore possibilities and datasets available and create such system for Czech. In the thesis I focused on two approaches. One of them uses English model ALBERT and machine translation of passages. The other one utilizes the multilingual BERT. Several variants of the system are compared in this work. Possibilities of relevant passage retrieval are also discussed. Standard evaluation is provided for every variant of the tested system. The best system version has been evaluated on the SQAD v3.0 dataset, reaching 0.44 EM and 0.55 F1 score, which is an excellent result compared to other existing systems. The main contribution of this work is the analysis of existing possibilities and setting a benchmark for further development of better systems for Czech. | en |
dc.description.mark | B | cs |
dc.identifier.citation | SASÍN, J. Strojové učení pro odpovídání na otázky v přirozeném jazyce [online]. Brno: Vysoké učení technické v Brně. Fakulta informačních technologií. 2021. | cs |
dc.identifier.other | 136538 | cs |
dc.identifier.uri | http://hdl.handle.net/11012/198939 | |
dc.language.iso | cs | cs |
dc.publisher | Vysoké učení technické v Brně. Fakulta informačních technologií | cs |
dc.rights | Standardní licenční smlouva - přístup k plnému textu bez omezení | cs |
dc.subject | zpracování přirozeného jazyka | cs |
dc.subject | NLP | cs |
dc.subject | čeština | cs |
dc.subject | odpovídání na otázky | cs |
dc.subject | strojové učení | cs |
dc.subject | dolování znalostí | cs |
dc.subject | Wikipedie | cs |
dc.subject | otevřená doména | cs |
dc.subject | SQAD | cs |
dc.subject | ALBERT | cs |
dc.subject | BERT | cs |
dc.subject | BM25 | cs |
dc.subject | natural language processing | en |
dc.subject | NLP | en |
dc.subject | Czech | en |
dc.subject | question answering | en |
dc.subject | machine learning | en |
dc.subject | knowledge mining | en |
dc.subject | Wikipedia | en |
dc.subject | open-domain | en |
dc.subject | SQAD | en |
dc.subject | ALBERT | en |
dc.subject | BERT | en |
dc.subject | BM25 | en |
dc.title | Strojové učení pro odpovídání na otázky v přirozeném jazyce | cs |
dc.title.alternative | Machine Learning for Natural Language Question Answering | en |
dc.type | Text | cs |
dc.type.driver | bachelorThesis | en |
dc.type.evskp | bakalářská práce | cs |
dcterms.dateAccepted | 2021-06-16 | cs |
dcterms.modified | 2021-06-17-14:25:02 | cs |
eprints.affiliatedInstitution.faculty | Fakulta informačních technologií | cs |
sync.item.dbid | 136538 | en |
sync.item.dbtype | ZP | en |
sync.item.insts | 2025.03.18 19:34:09 | en |
sync.item.modts | 2025.01.15 12:49:04 | en |
thesis.discipline | Informační technologie | cs |
thesis.grantor | Vysoké učení technické v Brně. Fakulta informačních technologií. Ústav počítačové grafiky a multimédií | cs |
thesis.level | Bakalářský | cs |
thesis.name | Bc. | cs |
Files
Original bundle
1 - 4 of 4
Loading...
- Name:
- final-thesis.pdf
- Size:
- 1.95 MB
- Format:
- Adobe Portable Document Format
- Description:
- final-thesis.pdf
Loading...
- Name:
- Posudek-Vedouci prace-23912_v.pdf
- Size:
- 86.45 KB
- Format:
- Adobe Portable Document Format
- Description:
- Posudek-Vedouci prace-23912_v.pdf
Loading...
- Name:
- Posudek-Oponent prace-23912_o.pdf
- Size:
- 134.63 KB
- Format:
- Adobe Portable Document Format
- Description:
- Posudek-Oponent prace-23912_o.pdf
Loading...
- Name:
- review_136538.html
- Size:
- 1.46 KB
- Format:
- Hypertext Markup Language
- Description:
- file review_136538.html