Cross Lingual News Article Classification and Automatic Topic Discovery Using Multilingual Language Models
but.committee | doc. Ing. Lukáš Burget, Ph.D. (předseda) doc. Ing. Martin Čadík, Ph.D. (člen) doc. Ing. Vladimír Janoušek, Ph.D. (člen) Ing. Michal Hradiš, Ph.D. (člen) Ing. Jaroslav Rozman, Ph.D. (člen) Ing. Tomáš Milet, Ph.D. (člen) | cs |
but.defence | Studentka nejprve prezentovala výsledky, kterých dosáhla v rámci své práce. Komise se poté seznámila s hodnocením vedoucího a posudkem oponenta práce. Studentka následně odpověděla na otázky oponenta a na další otázky přítomných. Komise se na základě posudku oponenta, hodnocení vedoucího, přednesené prezentace a odpovědí studentky na položené otázky rozhodla práci hodnotit stupněm B. | cs |
but.jazyk | angličtina (English) | |
but.program | Informační technologie a umělá inteligence | cs |
but.result | práce byla úspěšně obhájena | cs |
dc.contributor.advisor | Kesiraju, Santosh | en |
dc.contributor.author | Dufková, Aneta | en |
dc.contributor.referee | Fajčík, Martin | en |
dc.date.created | 2023 | cs |
dc.description.abstract | Cílem této diplomové práce je provést mezijazykovou klasifikaci a automatickou detekci témat novinových článků s využitím předtrénovaných multijazykových modelů. Jelikož pro tento úkol nebyla k dispozici žádná vhodná datová sada, prvním přínosem této práce je vůbec takovou sadu vytvořit. Dalším krokem práce je porovnat multijazykové modely LaBSE a LASER2 v úloze klasifikace. K tomu je využita řada experiment zaměřených na trénování na omezeném počtu článků a samozřejmě testování na jazycích, které nebyly použity při tréninku. Poté je provedena automatická detekce témat, takže článek může být reprezentován nejen kategoriemi, ale také odpovídajícími slovy. Na závěr jsou výsledky popsaného procesu vizualizovány v podobě webové aplikace. | en |
dc.description.abstract | The goal of this thesis is to perform cross-lingual classification and automatic topic discovery of news articles using pre-trained multilingual language models. For this task, no large multilingual dataset is available, so the first contribution of this thesis is to create one. The other aim of this thesis is to benchmark multilingual embedding models LaBSE and LASER2 in a classification task. This is done through various experiments, such as training on a limited number of articles and naturally zero-shot learning. Then, a topic discovery is performed so that an article can be represented not only by categories but also by the most representative words. Lastly, the results of classification and topic discovery are visualized in a simple web application. | cs |
dc.description.mark | B | cs |
dc.identifier.citation | DUFKOVÁ, A. Cross Lingual News Article Classification and Automatic Topic Discovery Using Multilingual Language Models [online]. Brno: Vysoké učení technické v Brně. Fakulta informačních technologií. 2023. | cs |
dc.identifier.other | 148255 | cs |
dc.identifier.uri | http://hdl.handle.net/11012/211947 | |
dc.language.iso | en | cs |
dc.publisher | Vysoké učení technické v Brně. Fakulta informačních technologií | cs |
dc.rights | Standardní licenční smlouva - přístup k plnému textu bez omezení | cs |
dc.subject | zpracování přirozeného jazyka | en |
dc.subject | LaBSE | en |
dc.subject | LASER | en |
dc.subject | multijazyčná klasifikace | en |
dc.subject | objevování témat | en |
dc.subject | Natural Language Processing | cs |
dc.subject | LaBSE | cs |
dc.subject | LASER | cs |
dc.subject | multilingual classification | cs |
dc.subject | topic discovery | cs |
dc.title | Cross Lingual News Article Classification and Automatic Topic Discovery Using Multilingual Language Models | en |
dc.title.alternative | Cross Lingual News Article Classification and Automatic Topic Discovery Using Multilingual Language Models | cs |
dc.type | Text | cs |
dc.type.driver | masterThesis | en |
dc.type.evskp | diplomová práce | cs |
dcterms.dateAccepted | 2023-06-16 | cs |
dcterms.modified | 2023-06-16-10:23:36 | cs |
eprints.affiliatedInstitution.faculty | Fakulta informačních technologií | cs |
sync.item.dbid | 148255 | en |
sync.item.dbtype | ZP | en |
sync.item.insts | 2025.03.26 15:37:00 | en |
sync.item.modts | 2025.01.17 11:06:57 | en |
thesis.discipline | Strojové učení | cs |
thesis.grantor | Vysoké učení technické v Brně. Fakulta informačních technologií. Ústav počítačové grafiky a multimédií | cs |
thesis.level | Inženýrský | cs |
thesis.name | Ing. | cs |