Topic Identification from Spoken TED-Talks

Loading...
Thumbnail Image

Date

Authors

Vašš, Adam

Mark

C

Journal Title

Journal ISSN

Volume Title

Publisher

Vysoké učení technické v Brně. Fakulta informačních technologií

ORCID

Abstract

Táto práca sa zaoberá problémom spracovania prirodzeného jazyka a následnej klasifikácie. Použité systémy boli modelované na TED-LIUM korpuse. Systém automatického spracovania jazyka bol modelovaný s použitím sady nástrojov Kaldi. Vo výsledku bol dosiahnutý WER s hodnotou 16.6\%. Problém klasifikácie textu bol adresovaný s pomocou metód na lineárnu klasifikáciu, konkrétne Multinomial Naive Bayes a Linear Support Vector Machines, kde druhá technika dosiahla vyššiu presnosť klasifikácie.
This thesis deals with the problems of language recognition and topic classification, using TED-LIUM corpus to train both the ASR and classification models. The ASR system is built using the Kaldi toolkit, achieving the WER of 16.6\%. The classification problem is addressed using linear classification methods, specifically Multinomial Naive Bayes and Linear Support Vector Machines, the latter method achieving higher topic classification accuracy.

Description

Citation

VAŠŠ, A. Topic Identification from Spoken TED-Talks [online]. Brno: Vysoké učení technické v Brně. Fakulta informačních technologií. 2019.

Document type

Document version

Date of access to the full text

Language of document

en

Study field

Informační technologie

Comittee

prof. Dr. Ing. Jan Černocký (předseda) doc. Ing. Jiří Jaroš, Ph.D. (místopředseda) doc. RNDr. Dana Hliněná, Ph.D. (člen) Ing. Filip Orság, Ph.D. (člen) RNDr. Marek Rychlý, Ph.D. (člen)

Date of acceptance

2019-06-14

Defence

Student nejprve prezentoval výsledky, kterých dosáhl v rámci své práce. Komise se poté seznámila s hodnocením vedoucího a posudkem oponenta práce. Komise shledala nedostatky práce natolik závažné, že se práci rozhodla hodnotit jako nevyhovující. Práce je nedokončená, obsahuje řadu nekompletních sekcí, implementace není popsána, práce nemá minimální rozsah, a není splněn bod zadání číslo 6. Otázky u obhajoby: * How to describe in a few sentences the main components of an ASR system? * How to analyze the results of the topic identification system? Is there any comparable results already published on similar corpus?

Result of defence

práce nebyla úspěšně obhájena

DOI

Collections

Endorsement

Review

Supplemented By

Referenced By

Citace PRO