Cross Lingual News Article Classification and Automatic Topic Discovery Using Multilingual Language Models

but.committeedoc. Ing. Lukáš Burget, Ph.D. (předseda) doc. Ing. Martin Čadík, Ph.D. (člen) doc. Ing. Vladimír Janoušek, Ph.D. (člen) Ing. Michal Hradiš, Ph.D. (člen) Ing. Jaroslav Rozman, Ph.D. (člen) Ing. Tomáš Milet, Ph.D. (člen)cs
but.defenceStudentka nejprve prezentovala výsledky, kterých dosáhla v rámci své práce. Komise se poté seznámila s hodnocením vedoucího a posudkem oponenta práce. Studentka následně odpověděla na otázky oponenta a na další otázky přítomných. Komise se na základě posudku oponenta, hodnocení vedoucího, přednesené prezentace a odpovědí studentky na položené otázky rozhodla práci hodnotit stupněm B.cs
but.jazykangličtina (English)
but.programInformační technologie a umělá inteligencecs
but.resultpráce byla úspěšně obhájenacs
dc.contributor.advisorKesiraju, Santoshen
dc.contributor.authorDufková, Anetaen
dc.contributor.refereeFajčík, Martinen
dc.date.accessioned2023-07-17T08:06:54Z
dc.date.available2023-07-17T08:06:54Z
dc.date.created2023cs
dc.description.abstractCílem této diplomové práce je provést mezijazykovou klasifikaci a automatickou detekci témat novinových článků s využitím předtrénovaných multijazykových modelů. Jelikož pro tento úkol nebyla k dispozici žádná vhodná datová sada, prvním přínosem této práce je vůbec takovou sadu vytvořit. Dalším krokem práce je porovnat multijazykové modely LaBSE a LASER2 v úloze klasifikace. K tomu je využita řada experiment zaměřených na trénování na omezeném počtu článků a samozřejmě testování na jazycích, které nebyly použity při tréninku. Poté je provedena automatická detekce témat, takže článek může být reprezentován nejen kategoriemi, ale také odpovídajícími slovy. Na závěr jsou výsledky popsaného procesu vizualizovány v podobě webové aplikace.en
dc.description.abstractThe goal of this thesis is to perform cross-lingual classification and automatic topic discovery of news articles using pre-trained multilingual language models. For this task, no large multilingual dataset is available, so the first contribution of this thesis is to create one. The other aim of this thesis is to benchmark multilingual embedding models LaBSE and LASER2 in a classification task. This is done through various experiments, such as training on a limited number of articles and naturally zero-shot learning. Then, a topic discovery is performed so that an article can be represented not only by categories but also by the most representative words. Lastly, the results of classification and topic discovery are visualized in a simple web application.cs
dc.description.markBcs
dc.identifier.citationDUFKOVÁ, A. Cross Lingual News Article Classification and Automatic Topic Discovery Using Multilingual Language Models [online]. Brno: Vysoké učení technické v Brně. Fakulta informačních technologií. 2023.cs
dc.identifier.other148255cs
dc.identifier.urihttp://hdl.handle.net/11012/211947
dc.language.isoencs
dc.publisherVysoké učení technické v Brně. Fakulta informačních technologiícs
dc.rightsStandardní licenční smlouva - přístup k plnému textu bez omezenícs
dc.subjectzpracování přirozeného jazykaen
dc.subjectLaBSEen
dc.subjectLASERen
dc.subjectmultijazyčná klasifikaceen
dc.subjectobjevování tématen
dc.subjectNatural Language Processingcs
dc.subjectLaBSEcs
dc.subjectLASERcs
dc.subjectmultilingual classificationcs
dc.subjecttopic discoverycs
dc.titleCross Lingual News Article Classification and Automatic Topic Discovery Using Multilingual Language Modelsen
dc.title.alternativeCross Lingual News Article Classification and Automatic Topic Discovery Using Multilingual Language Modelscs
dc.typeTextcs
dc.type.drivermasterThesisen
dc.type.evskpdiplomová prácecs
dcterms.dateAccepted2023-06-16cs
dcterms.modified2023-06-16-10:23:36cs
eprints.affiliatedInstitution.facultyFakulta informačních technologiícs
sync.item.dbid148255en
sync.item.dbtypeZPen
sync.item.insts2023.07.17 10:06:54en
sync.item.modts2023.07.17 09:47:12en
thesis.disciplineStrojové učenícs
thesis.grantorVysoké učení technické v Brně. Fakulta informačních technologií. Ústav počítačové grafiky a multimédiícs
thesis.levelInženýrskýcs
thesis.nameIng.cs
Files
Original bundle
Now showing 1 - 2 of 2
Loading...
Thumbnail Image
Name:
final-thesis.pdf
Size:
3.86 MB
Format:
Adobe Portable Document Format
Description:
final-thesis.pdf
Loading...
Thumbnail Image
Name:
review_148255.html
Size:
12.88 KB
Format:
Hypertext Markup Language
Description:
review_148255.html
Collections