Tvorba vícejazyčné datové sady pro fact-checking z existujících dat pro odpovídání na otázky
but.committee | prof. Ing. Tomáš Hruška, CSc. (předseda) doc. RNDr. Jitka Kreslíková, CSc. (člen) Ing. Zbyněk Křivka, Ph.D. (člen) doc. RNDr. Pavel Smrž, Ph.D. (člen) Ing. Libor Polčák, Ph.D. (člen) doc. Ing. Michal Bidlo, Ph.D. (člen) | cs |
but.defence | Student nejprve prezentoval výsledky, kterých dosáhl v rámci své práce. Komise se poté seznámila s hodnocením vedoucího a posudkem oponenta práce. Student následně odpověděl na otázky oponenta a na další otázky přítomných. Komise se na základě posudku oponenta, hodnocení vedoucího, přednesené prezentace a odpovědí studenta na položené otázky rozhodla práci hodnotit stupněm C. | cs |
but.jazyk | angličtina (English) | |
but.program | Informační technologie a umělá inteligence | cs |
but.result | práce byla úspěšně obhájena | cs |
dc.contributor.advisor | Fajčík, Martin | en |
dc.contributor.author | Kamenický, Daniel | en |
dc.contributor.referee | Aparovich, Maksim | en |
dc.date.created | 2023 | cs |
dc.description.abstract | Tato práce se zabývá nedostatkem vícejazyčných datových sad pro kontrolu faktů, které by obsahovaly důkazy podporující nebo vyvracející fakt. Proto se tato práce zabývá převodem datového souboru pro kontrolu faktů z již existujícího datového souboru otázek a odpovědí. V této práci jsou studovány dva přístupy ke konverzi datové sady. Prvním přístupem je vytvoření datové sady založené na jednojazyčném předem natrénovaném seq-2-seq modelu T5. Model je trénován na anglickém datovém souboru. Vstupy a výstupy jsou překládány do požadovaných jazyků. Druhým přístupem je využití vícejazyčného modelu mT5, který přebírá vstup a generuje výstup v požadovaném jazyce. Pro vícejazyčný model je zapotřebí přeložit trénovací datové sady. Jako hlavní problém této práce se ukázal překlad, který v málo zdrojovém jazyce dosáhl kolem 30 % úspěšnosti. Experimenty ukázaly lepší výsledky v tvrzeních generovaných z jednojazyčného modelu s využitím strojového překladu. Na druhou stranu, tvrzení generované z vícejazyčného modelu dosáhly úspěšnosti 73 % oproti tvrzením z jednojazyčného modelu s dosaženou úspěšností 88 %. Modely byly vyhodnoceny modelem ověřování faktů založeném na TF-IDF. Dosažená přesnost modelu na obou datových sadách se blíží 0,5. Z toho lze usoudit, že výsledné datové sady mohou být náročné pro modely ověřování faktů. | en |
dc.description.abstract | This thesis adresses the lack of multilingual fact-Checking datasets, which contain annotated evidence grounding the supporting or refuting verdict for a fact. Therefore, this work explores the conversion into the fact-checking dataset from an already existing question-answering dataset. In this work, two approaches for converting question-answer pairs into claims are studied. The first approach is to create a dataset based on a monolingual pre-trained seq-2-seq model T5. The model is trained on an English dataset and the inputs and outputs are translated into the desired languages. The second approach is to use the multilingual mT5 model, which can take input and generate output in the desired language. For multilingual model, training datasets need to be translated. The main problem of this work is the machine translation, which achieved around 30 % success rate in a low-resource languages. The experiments showed better results for claims generated from monolingual model using machine translation. On the other hand, the claims generated from multilingual model achieved a success rate of 73 % compared to monolingual model with a success rate of 88 %. Finally, to analyze possible biases label specific claim biases, a logistic-regression based TF-IDF classifier is trained. The classifier, that computes the probability of the claim's veracity just from itself achieves accuracy close to 0.5 for both converted datasets. Thus the converted datasets can be challenging for fact-checking models. | cs |
dc.description.mark | C | cs |
dc.identifier.citation | KAMENICKÝ, D. Tvorba vícejazyčné datové sady pro fact-checking z existujících dat pro odpovídání na otázky [online]. Brno: Vysoké učení technické v Brně. Fakulta informačních technologií. 2023. | cs |
dc.identifier.other | 143409 | cs |
dc.identifier.uri | http://hdl.handle.net/11012/211905 | |
dc.language.iso | en | cs |
dc.publisher | Vysoké učení technické v Brně. Fakulta informačních technologií | cs |
dc.rights | Standardní licenční smlouva - přístup k plnému textu bez omezení | cs |
dc.subject | Zpracování Přirozeného jazyka | en |
dc.subject | Ověřování Faktů | en |
dc.subject | Získávání Informací | en |
dc.subject | Transformers | en |
dc.subject | mDPR | en |
dc.subject | Natural Language Processing | cs |
dc.subject | Fact-Checking | cs |
dc.subject | Information Retrieval | cs |
dc.subject | Multilingual | cs |
dc.subject | Transformers | cs |
dc.subject | mDPR | cs |
dc.title | Tvorba vícejazyčné datové sady pro fact-checking z existujících dat pro odpovídání na otázky | en |
dc.title.alternative | Designing a Multilingual Fact-Checking Dataset from Existing Question-Answering Data | cs |
dc.type | Text | cs |
dc.type.driver | masterThesis | en |
dc.type.evskp | diplomová práce | cs |
dcterms.dateAccepted | 2023-06-21 | cs |
dcterms.modified | 2023-06-21-12:27:33 | cs |
eprints.affiliatedInstitution.faculty | Fakulta informačních technologií | cs |
sync.item.dbid | 143409 | en |
sync.item.dbtype | ZP | en |
sync.item.insts | 2025.03.26 15:36:30 | en |
sync.item.modts | 2025.01.17 10:37:04 | en |
thesis.discipline | Softwarové inženýrství | cs |
thesis.grantor | Vysoké učení technické v Brně. Fakulta informačních technologií. Ústav počítačové grafiky a multimédií | cs |
thesis.level | Inženýrský | cs |
thesis.name | Ing. | cs |
Files
Original bundle
1 - 3 of 3
Loading...
- Name:
- final-thesis.pdf
- Size:
- 3.23 MB
- Format:
- Adobe Portable Document Format
- Description:
- final-thesis.pdf
Loading...
- Name:
- appendix-1.pdf
- Size:
- 317.71 KB
- Format:
- Adobe Portable Document Format
- Description:
- appendix-1.pdf
Loading...
- Name:
- review_143409.html
- Size:
- 12 KB
- Format:
- Hypertext Markup Language
- Description:
- file review_143409.html