Verifikace osob podle hlasu bez extrakce příznaků

but.committeedoc. Dr. Ing. Jan Černocký (předseda) prof. Ing. Adam Herout, Ph.D. (místopředseda) Ing. David Bařina, Ph.D. (člen) Ing. Vítězslav Beran, Ph.D. (člen) Ing. Ondřej Lengál, Ph.D. (člen) prof. Dr. Ing. Pavel Zemčík (člen)cs
but.defenceStudent nejprve prezentoval výsledky, kterých dosáhl v rámci své práce. Komise se poté seznámila s hodnocením vedoucího a posudkem oponenta práce. Student následně odpověděl na otázky oponenta a na další otázky přítomných. Komise se na základě posudku oponenta, hodnocení vedoucího, přednesené prezentace a odpovědí studenta na položené otázky rozhodla práci hodnotit stupněm A. Otázky u obhajoby: On p6 you say that 2D convolutions such as in ResNet are ideal when the input is a feature and that 1D convolutions are ideal for processing raw waveforms. But what about having first one or more 1D convolutions that extracts "features" from the raw waveform and then continue to process them with 2D convolutions? What kind of patterns do you think the RawNet can extract from the waveform that are missing in standard features such as fbank or MFCC? Myslíte, že by druhá konvoluční vrstva mohla nahradit využitý high-pass filtr (HPF)?cs
but.jazykangličtina (English)
but.programInformační technologie a umělá inteligencecs
but.resultpráce byla úspěšně obhájenacs
dc.contributor.advisorMošner, Ladislaven
dc.contributor.authorLukáč, Peteren
dc.contributor.refereeRohdin, Johan Andréasen
dc.date.accessioned2021-06-25T07:55:36Z
dc.date.available2021-06-25T07:55:36Z
dc.date.created2021cs
dc.description.abstractVerifikácia osôb je oblasť, ktorá sa stále modernizuje, zlepšuje a snaží sa vyhovieť požiadavkám, ktoré sa na ňu kladú vo oblastiach využitia ako sú autorizačné systmémy, forenzné analýzy, atď. Vylepšenia sa uskutočňujú vďaka pokrom v hlbokom učení, tvorením nových trénovacích a testovacích dátovych sad a rôznych súťaží vo verifikácií osôb a workshopov. V tejto práci preskúmame modely pre verifikáciu osôb bez extrakcie príznakov. Používanie nespracovaných zvukových stôp ako vstupy modelov zjednodušuje spracovávanie vstpu a teda znižujú sa výpočetné a pamäťové požiadavky a redukuje sa počet hyperparametrov potrebných pre tvorbu príznakov z nahrávok, ktoré ovplivňujú výsledky. Momentálne modely bez extrakcie príznakov nedosahujú výsledky modelov s extrakciou príznakov. Na základných modeloch budeme experimentovať s modernými technikamy a budeme sa snažiť zlepšiť presnosť modelov. Experimenty s modernými technikamy značne zlepšili výsledky základných modelov ale stále sme nedosiahli výsledky vylepšeného modelu s extrakciou príznakov. Zlepšenie je ale dostatočné nato aby sme vytovrili fúziu so s týmto modelom. Záverom diskutujeme dosiahnuté výsledky a navrhujeme zlepšenia na základe týchto výsledkov.en
dc.description.abstractSpeaker verification is a field that is still improving its state of the art (SotA) and tries to meet the demands of its use in speaker authentication systems, forensic applications, etc. The improvements are made by the advancements in deep learning, the creation of new training and testing datasets and various speaker recognition challenges and speech workshops. In this thesis, we will explore models for speaker verification without feature extraction. Inputting the models with raw speaker waveform simplifies the pipeline of the systems, thus saving computational and memory resources and reducing the number of hyperparameters needed for creating the features from waveforms that affect the results. Currently, the models without feature extraction do not achieve the performance of the models with feature extraction. By applying various techniques to the models we will try to improve the baseline performance of the current models without feature extraction. The experiments with SotA techniques improved the performance of a model without feature extraction considerably however we still did not achieve the performance of a SotA model with feature extraction. However, the improvement is considerable enough so that we can use the improved model in a fusion with feature extraction model. We also discussed the experimental results and proposed improvements that aim to solve discovered limitations.cs
dc.description.markAcs
dc.identifier.citationLUKÁČ, P. Verifikace osob podle hlasu bez extrakce příznaků [online]. Brno: Vysoké učení technické v Brně. Fakulta informačních technologií. 2021.cs
dc.identifier.other136783cs
dc.identifier.urihttp://hdl.handle.net/11012/200155
dc.language.isoencs
dc.publisherVysoké učení technické v Brně. Fakulta informačních technologiícs
dc.rightsStandardní licenční smlouva - přístup k plnému textu bez omezenícs
dc.subjectverifikácia osôben
dc.subjectbez extrakcie príznakoven
dc.subjectobtisk rečníkaen
dc.subjectresiduálne sieteen
dc.subjectRawNeten
dc.subjectVoxCeleb1en
dc.subjectVoxCeleb2en
dc.subjectVoxSRCen
dc.subjectškálovenie máp príznakoven
dc.subjectSincNeten
dc.subjectAditívna Uhlová Okrajová funkciaen
dc.subjectfúziaen
dc.subjectspeaker verificationcs
dc.subjectfeatureless extractioncs
dc.subjectspeaker embeddingcs
dc.subjectresidual networkcs
dc.subjectRawNetcs
dc.subjectVoxCeleb1cs
dc.subjectVoxCeleb2cs
dc.subjectVoxSRCcs
dc.subjectFeature Map Scalingcs
dc.subjectSincNetcs
dc.subjectAdditive Angular Margin losscs
dc.subjectfusioncs
dc.titleVerifikace osob podle hlasu bez extrakce příznakůen
dc.title.alternativeSpeaker Verification without Feature Extractioncs
dc.typeTextcs
dc.type.drivermasterThesisen
dc.type.evskpdiplomová prácecs
dcterms.dateAccepted2021-06-24cs
dcterms.modified2021-09-01-13:10:32cs
eprints.affiliatedInstitution.facultyFakulta informačních technologiícs
sync.item.dbid136783en
sync.item.dbtypeZPen
sync.item.insts2021.11.23 00:10:59en
sync.item.modts2021.11.22 23:42:54en
thesis.disciplineZpracování zvuku, řeči a přirozeného jazykacs
thesis.grantorVysoké učení technické v Brně. Fakulta informačních technologií. Ústav počítačové grafiky a multimédiícs
thesis.levelInženýrskýcs
thesis.nameIng.cs
Files
Original bundle
Now showing 1 - 4 of 4
Loading...
Thumbnail Image
Name:
final-thesis.pdf
Size:
2.57 MB
Format:
Adobe Portable Document Format
Description:
final-thesis.pdf
Loading...
Thumbnail Image
Name:
Posudek-Vedouci prace-23746_v.pdf
Size:
87.18 KB
Format:
Adobe Portable Document Format
Description:
Posudek-Vedouci prace-23746_v.pdf
Loading...
Thumbnail Image
Name:
Posudek-Oponent prace-23746_o.pdf
Size:
88.09 KB
Format:
Adobe Portable Document Format
Description:
Posudek-Oponent prace-23746_o.pdf
Loading...
Thumbnail Image
Name:
review_136783.html
Size:
1.46 KB
Format:
Hypertext Markup Language
Description:
review_136783.html
Collections