Automatické odpovídání na faktické otázky a ověřování faktů v přirozeném jazyce

but.committeedoc. RNDr. Milan Češka, Ph.D. (předseda) prof. Ing. Mária Bieliková, Ph.D. (člen) doc. Ing. Lukáš Burget, Ph.D. (člen) doc. RNDr. Aleš Horák, Ph.D. (člen) doc. Ing. Zdeněk Žabokrtský, Ph.D. (člen)cs
but.defenceV rozpravě student odpověděl na otázky komise a oponentů a hostů. Diskuze je zaznamenána na diskuzních lístcích, které jsou přílohou protokolu. Počet diskuzních lístků: 7. Komise se v závěru jednomyslně usnesla, že student splnil podmínky pro udělení akademického titulu doktor. Komise jednomyslně doporučuje, aby studentovi byla udělena cena za výjimečně kvalitní disertační práci. The student presented the goals and results, which he achieved within the solution of the dissertation. The student has competently answered the questions of the committee members and reviewers and guests. The discussion is recorded on the discussion sheets, which are attached to the protocol. Number of discussion sheets: 7. The committee has agreed unanimously that the student has fulfilled requirements for being awarded the academic title Ph.D. The committee recommends awarding the thesis the deans prize.cs
but.jazykangličtina (English)
but.programVýpočetní technika a informatikacs
but.resultpráce byla úspěšně obhájenacs
dc.contributor.advisorSmrž, Pavelen
dc.contributor.authorFajčík, Martinen
dc.contributor.refereeBoyd-Graber, Jordan Leeen
dc.contributor.refereeThorne, Jamesen
dc.date.createdcs
dc.description.abstractTato práce se zabývá dvěma problémy, které spoléhají na přesné pochopení faktických informací. Ve faktoidním zodpovídání otázek (QA) se práce zabýva třemi tématy. Nejprve je představena nová objektivní funkce a formulace složené pravděpodobnosti pro systémy, které extrahují odpověď jako textový úsek. Experimenty ukazují, že navrhovaná objektivní funkce se složeným pravděpodobnostním prostorem je Pareto optimální vůči jiným, běžně používaným objektivním funkcím. V druhé části se práce zabývá problematikou QA nad otevřenou doménou. Ukazuje vzájemně doplňující se vlastnosti extraktivních a abstraktivních přístupů a navrhuje nový modulární systém R2-D2, který slouží jako silný systém pro srovnání (baseline) v komunitě. V třetí části práce studuje vliv zmenšovaní korpusu pro vyhledávání pomocí mechanismu prořezávání při použití R2-D2. Experimenty ukazují, že u dvou populárních datových sad - NaturalQuestions a TriviaQA - lze odstranit dvě třetiny korpusu pro vyhledávání, aniž by došlo ke zhoršení výsledných odpovědí systému a 92 % lze odstranit se zhoršením pouze do -3 skóre přesné shody (exact match). Zjištené poznatky naznačují, že stejný mechanismus prořezávání je implicitně přítomen v moderních metodách učeného vyhledávání, jako je DPR. Dále v oblasti ověřování faktů se práce dotýká dvou témat. Jednak ukazuje, že předtrénované modely, které nepoužívají žádné ručně vytvořené příznaky nebo metadata, mohou dosáhnout konkurenceschopných výsledků v detekci postoje lidí k fámám. Vytvořený systém se konkrétně zaměřuje na zjišťování postojů k fámám ve vláknech sociálních sítí a určuje, jestli daný příspěvek ve vlákně podporuje, odmítá, zpochybňuje nebo komentuje fámu přítomnou v diskusním vláknu. Provedené experimenty ukazují, že použití pouze prvního příspevku vlákna a předchozího příspevku vlákna stačí k tomu, aby model určil aktuální postoj příspevku. Posledním tématem, kterým se práce zabývá, je ověřování faktů založené na vyhledávání podporující evidence. Je navržen systém Claim-Dissector, který společně identifikuje relevantní evidenci a určuje věrohodnost diskutabilního tvrzení. Navržený systém dokáže najít podpůrnou a vyvracející evidenci pro tvrzení v jakékoli jazykové granularitě, na úrovni tokenů, vět nebo odstavců, a propojit je interpretovatelným způsobem s verdiktem. Dále je ukázáno, že model umožňuje úspěšný přenos učení z hrubé granularity poskytnuté během učení na jemnou granularitu predikcí. Zejména je ukázano, že učení identifikace relevance na úrovni vět je dostatečné k získání relevantních zdůvodnění na úrovni tokenu a učení na úrovni bloku je dostatečné k získání relevantních zdůvodnění na úrovni vět. Silné výsledky systému Claim-Dissector jsou demonstrovány na 5 datových sadách, včetně nově shromážděné sady TLR-FEVER, a dvou různých předtrénovaných modelech. Kód pro všechny experimenty je k dispozici online.en
dc.description.abstractThis thesis examines two problems, that rely on a precise understanding of factual information. In factoid question answering (QA) , it addresses three topics, Firstly, it shows a novel  probability formulation and training objective for systems that extract answer as a span of text. The experiments show that the proposed compound objective with joint probability space is Pareto optimal to other used objectives. Secondly, the thesis studies the problem of open-domain QA. It shows that extractive approaches and abstractive approaches have complementary strengths and proposes a pipelined state-of-the-art system R2-D2 that serves as a strong baseline for the community. Thirdly, it studies the effect of pruning down the retrieval corpus under R2-D2. The experiments demonstrate that for two popular datasets, NaturalQuestions and TriviaQA, two-thirds of the retrieval corpus can be removed without the loss of performance, and 92 % can be removed with a loss of performance up to -3 exact match score. Findings also indicate that the same pruning mechanism is implicitly present in modern supervised retrieval mechanisms, such as DPR.  In fact-checking , the thesis studies two topics. Firstly, it shows that pretrained model approaches can reach competitive performance in rumor stance detection without using of any handcrafted features or metadata. Specifically, our system targets rumor stance detection in social media threads and selects whether each post supports, denies, queries, or comments on the rumor present in the discussion thread. Experiments demonstrate that using just the first thread post and the previous thread post is sufficient in obtaining strong performance of determining the current post stance. Secondly, the thesis studies evidence-grounded fact-checking. Claim-Dissector-a system that jointly identifies the relevant evidence and produces a veracity verdict-is proposed. The proposed system can find supporting and refuting evidence for a claim at any language granularity, including tokens, sentences, or paragraphs, and link them in an interpretable way with the verdict. It is demonstrated that the model allows successful transfer learning from the coarse granularity of supervision to the fine granularity of predictions. In particular, it is shown that training on sentence level of relevance is sufficient to obtain relevant token-level rationales, and training on block level indeed provides competitive sentence-level cues. The strong performance of Claim-Dissector is demonstrated across 5 datasets and 2 underlying pretrained models, including a newly collected dataset TLR-FEVER. The code for all experiments is available online.cs
dc.description.markPcs
dc.identifier.citationFAJČÍK, M. Automatické odpovídání na faktické otázky a ověřování faktů v přirozeném jazyce [online]. Brno: Vysoké učení technické v Brně. Fakulta informačních technologií. .cs
dc.identifier.other161515cs
dc.identifier.urihttp://hdl.handle.net/11012/249421
dc.language.isoencs
dc.publisherVysoké učení technické v Brně. Fakulta informačních technologiícs
dc.rightsStandardní licenční smlouva - přístup k plnému textu bez omezenícs
dc.subjectodpovídaní na otázkyen
dc.subjectfaktoidné zodpovídaní otázeken
dc.subjectoveřovaní faktůen
dc.subjectfact-checkingen
dc.subjectQAen
dc.subjectFCen
dc.subjectextraktivní zodpovídaní otázeken
dc.subjectprořezávaní korpusu u QAen
dc.subjectcompound objectiveen
dc.subjectTriviaQAen
dc.subjectEfficientQAen
dc.subjectNaturalQuestionsen
dc.subjectR2-D2en
dc.subjectClaim-Dissectoren
dc.subjectquestion answeringcs
dc.subjectfact checkingcs
dc.subjectfact-checkingcs
dc.subjectQAcs
dc.subjectFCcs
dc.subjectextractive question answeringcs
dc.subjectR2-D2cs
dc.subjectClaim-Dissectorcs
dc.subjectRumourEvalcs
dc.subjectQA corpus pruningcs
dc.subjectcompound objectivecs
dc.subjectTriviaQAcs
dc.subjectEfficientQAcs
dc.subjectNaturalQuestionscs
dc.titleAutomatické odpovídání na faktické otázky a ověřování faktů v přirozeném jazyceen
dc.title.alternativeAutomated Factoid Question Answering and Fact-Checking in Natural Languagecs
dc.typeTextcs
dc.type.driverdoctoralThesisen
dc.type.evskpdizertační prácecs
dcterms.modified2024-04-25-15:38:25cs
eprints.affiliatedInstitution.facultyFakulta informačních technologiícs
sync.item.dbid161515en
sync.item.dbtypeZPen
sync.item.insts2025.03.27 12:20:48en
sync.item.modts2025.01.15 16:06:54en
thesis.disciplineVýpočetní technika a informatikacs
thesis.grantorVysoké učení technické v Brně. Fakulta informačních technologií. Ústav počítačové grafiky a multimédiícs
thesis.levelDoktorskýcs
thesis.namePh.D.cs
Files
Original bundle
Now showing 1 - 4 of 4
Loading...
Thumbnail Image
Name:
final-thesis.pdf
Size:
3.44 MB
Format:
Adobe Portable Document Format
Description:
file final-thesis.pdf
Loading...
Thumbnail Image
Name:
Posudek-Oponent prace-1224_o1.pdf
Size:
64.61 KB
Format:
Adobe Portable Document Format
Description:
file Posudek-Oponent prace-1224_o1.pdf
Loading...
Thumbnail Image
Name:
Posudek-Oponent prace-1224_o2.pdf
Size:
100.01 KB
Format:
Adobe Portable Document Format
Description:
file Posudek-Oponent prace-1224_o2.pdf
Loading...
Thumbnail Image
Name:
review_161515.html
Size:
1.7 KB
Format:
Hypertext Markup Language
Description:
file review_161515.html
Collections