Automatické Oveřovaní Pravdivosti Dokumentů

Kočí, Jan

Automatické Oveřovaní Pravdivosti Dokumentů

but.committee	doc. Ing. Vladimír Drábek, CSc. (člen) Ing. Ondřej Lengál, Ph.D. (člen) Mgr. Kamil Malinka, Ph.D. (člen) Ing. Ondřej Kanich, Ph.D. (člen) Mgr. Ing. Pavel Očenášek, Ph.D. (člen) doc. Ing. František Zbořil, CSc. (předseda)	cs
but.defence	Student nejprve prezentoval výsledky, kterých dosáhl v rámci své práce. Komise se poté seznámila s hodnocením vedoucího a posudkem oponenta práce. Student následně odpověděl na otázky přítomných. Komise se na základě posudku oponenta, hodnocení vedoucího, přednesené prezentace a odpovědí studenta na položené otázky rozhodla práci hodnotit stupněm B.	cs
but.jazyk	angličtina (English)
but.program	Informační technologie a umělá inteligence	cs
but.result	práce byla úspěšně obhájena	cs
dc.contributor.advisor	Fajčík, Martin	en
dc.contributor.author	Kočí, Jan	en
dc.contributor.referee	Ondřej, Karel	en
dc.date.created	2023	cs
dc.description.abstract	Cílem práce je (i) porozumět jaké vlastnosti textu jsou využívány content-based metodami při klasifikaci fake news a (ii) vyhodnotit kvality těchto metod na určování spolehlivosti článků a zdrojů. Práce implementuje dva klasifikační modely. První model (baseline), je založen na TF-IDF a Multinomial Naive Bayes klasifikátoru. Druhý model používá architekturu BERT transformeru. K interpretaci výsledků těchto modelů jsou v práci implementovány metody interpretability. Metoda interpretability pro BERT model je založena na Integrovaných gradientech. K trénování obou klasifikátorů je v práci použita datová sada NELA-GT-2021, která je předzpracována vyfiltrováním klíčových slov. V práci je také představena nová datová sada nazvaná FNI dataset. Tato sada obsahuje 46 manuálně vybraných článků a je použita k analýze klasifikátorů. FNI dataset umožňuje analyzovat klasifikátory na článcích z různých oblastí (například covid, fotbal, věda, politika, etc.). Výsledky analýzy odhalily několik nedostatků vytvořených klasifikátorů. Baseline model nebyl schopen správně klasifikovat nedůvěryhodné články na téma fotbal (recall 0\% na FNI datasetu), důvěryhodné vědecké články (recall 0\% na FNI datasetu), etc. Oba klasifikátory byly úspěšnější v identifikování nedůvěryhodných článků. BERT model dosáhl recall 91\% pro třídu unreliable a pouze 78\% pro třídu reliable na FNI datasetu. Metody interpretability dosahovaly také lepších výsledků na třídě unreliable kde se jim dařilo identifikovat šokující titulky používané ve fake news. Klasifikátory jsou také použity k určení důvěryhodnosti zdrojů. Jejich výsledky jsou srovnány s referenčními hodnotami získanými ze state-of-the-art metody, která posuzuje věrohodnost zdrojů na základě vzájemných citací. Jedním z výstupů práce je také challenge datová sada, obsahující články z NELA datasetu, které klasifikátory nedokázaly správně klasifikovat. Tato datová sada může být použita pro budoucí výzkum v tomto oboru.	en
dc.description.abstract	This thesis aims to (i) better understand the biases and cues exploited by content-based methods in the text of fake news articles and (ii) evaluate their performance in predicting the reliability of articles and media sources. Two different models are implemented. The baseline model uses TF-IDF and Multinomial Naive Bayes (MNB) classifier. The second model uses the BERT transformer. To study the cues exploited in the text a method of interpretability is implemented. While MNB is interpretable by design, the BERT model is analyzed through the Integrated gradients explainability method. Both classifiers were trained on a modified version of the NELA-GT-2021 dataset. This thesis suggests application of preprocessing to this dataset which could lead to creating a more robust classifier, e.g., removing keywords that provide simple cues. This thesis also presents a novel FNI dataset consisting of 46 manually selected articles. The FNI dataset enables topic-wise analysis (on topics such as covid, football, science, politics, etc.). The analysis revealed several biases of the classifiers. The baseline model was not able to identify unreliable articles about football (0\% recall on the FNI dataset), reliable scientific articles (0\% recall on the FNI dataset), etc. Both classifiers were more successful in identifying unreliable articles with the BERT classifier having a recall of 91\% on unreliable and only 78\% on reliable articles in the FNI dataset. The methods of interpretability also performed better on unreliable articles and were able to identify the sensationalism and shocking headlines used in fake news. The classifiers are also used to predict the credibility of sources. The results are compared with a state-of-the-art method that employs a different approach of using mutual citations of sources to predict their credibility. One of the outcomes of this thesis is also a new challenge set, containing articles from the NELA dataset on which the classifiers failed. This challenge set can be used for future research in this area.	cs
dc.description.mark	B	cs
dc.identifier.citation	KOČÍ, J. Automatické Oveřovaní Pravdivosti Dokumentů [online]. Brno: Vysoké učení technické v Brně. Fakulta informačních technologií. 2023.	cs
dc.identifier.other	144936	cs
dc.identifier.uri	http://hdl.handle.net/11012/213197
dc.language.iso	en	cs
dc.publisher	Vysoké učení technické v Brně. Fakulta informačních technologií	cs
dc.rights	Standardní licenční smlouva - přístup k plnému textu bez omezení	cs
dc.subject	Detekce fake news	en
dc.subject	zaujatost content-based metod	en
dc.subject	kredibilita článů	en
dc.subject	kredibilita zdrojů	en
dc.subject	interpretovatelný klasifikátor	en
dc.subject	zpracování přirozeného jazyka	en
dc.subject	strojové učení	en
dc.subject	neuronové sítě.	en
dc.subject	Fake news detection	cs
dc.subject	biases of content-based methods	cs
dc.subject	credibility of articles	cs
dc.subject	credibility of sources	cs
dc.subject	interpretable classifier	cs
dc.subject	natural language processing	cs
dc.subject	machine learning	cs
dc.subject	neural networks.	cs
dc.title	Automatické Oveřovaní Pravdivosti Dokumentů	en
dc.title.alternative	Automated Truth Discovery	cs
dc.type	Text	cs
dc.type.driver	masterThesis	en
dc.type.evskp	diplomová práce	cs
dcterms.dateAccepted	2023-06-20	cs
dcterms.modified	2023-06-20-11:34:28	cs
eprints.affiliatedInstitution.faculty	Fakulta informačních technologií	cs
sync.item.dbid	144936	en
sync.item.dbtype	ZP	en
sync.item.insts	2025.03.26 15:37:24	en
sync.item.modts	2025.01.15 16:52:09	en
thesis.discipline	Kybernetická bezpečnost	cs
thesis.grantor	Vysoké učení technické v Brně. Fakulta informačních technologií. Ústav počítačové grafiky a multimédií	cs
thesis.level	Inženýrský	cs
thesis.name	Ing.	cs

Files

Original bundle

Now showing 1 - 2 of 2

Name:: final-thesis.pdf
Size:: 3.61 MB
Format:: Adobe Portable Document Format
Description:: final-thesis.pdf

Download

Name:: review_144936.html
Size:: 8.76 KB
Format:: Hypertext Markup Language
Description:: file review_144936.html

Download

Collections

2023