Moderní optimalizační metody pro interpolaci chybějících úseků v audio signálech

Abstract
Poškození audio signálů je v praxi běžným, avšak nežádoucím faktem. Ke ztrátě informace může dojít nevhodným záznamem (nízký vzorkovací kmitočet či dynamický rozsah), chybou přenosu (výpadek vzorků), poškozením média či z důvodu rušení. Odstraňování takových poruch je možné pomocí inverzních úloh. Tato práce se konkrétně zaměřuje na situaci, kdy jsou úseky audio signálu o délce v řádu desítek milisekund zcela ztraceny a cílem je chybějící vzorky interpolovat na základě kontextu a vhodného modelu signálu. První část dizertační práce se věnuje metodám konvexní i nekonvexní optimalizace, které hledají řešení interpolační úlohy na základě předpokladu řídkosti časově-kmitočtového spektra. Obecný základ i některé algoritmy jsou převzaté z literatury a přizpůsobené interpolační úloze, řada modifikací a experimentálních přístupů je originální. Druhá část práce je zaměřena na využití nezáporné faktorizace matic, s níž lze sestavit pravděpodobnostní model spektrogramu signálu a tento využít pro jeho interpolaci. Z tohoto modelu pak vychází úspěšný rekonstrukční algoritmus, k němuž jsou v této práci odvozeny dvě alternativní metody. Závěr práce se věnuje rozsáhlému experimentálnímu ověření funkčnosti metod na skupině hudebních signálů. S využitím objektivních ukazatelů kvality interpolovaného signálu je ukázáno, že v jednotlivých třídách metod vedou navržené modifikace ke znatelnému zlepšení kvality či zlepšení konvergence oproti metodám základním. V rámci studovaného rozsahu poškození pak zejména algoritmy využívající faktorizace konkurují současným nejlepším metodám pro interpolaci chybějících úseků audio signálu.
Damage to audio signals is in practice common, yet undesirable. Information loss can occur due to improper recording (low sample rate or dynamic range), transmission error (sample dropout), media damage, or because of noise. The removal of such disturbances is possible using inverse problems. Specifically, this work focuses on the situation where sections of an audio signal of length in the order of tens of milliseconds are completely lost, and the goal is to interpolate the missing samples based on the unimpaired context and a suitable signal model. The first part of the dissertation is devoted to convex and non-convex optimization methods, which are designed to find a solution to the interpolation problem based on the assumption of sparsity of the time-frequency spectrum. The general background and some algorithms are taken from the literature and adapted to the interpolation problem, many modifications and experimental approaches are original. The second part of the thesis focuses on the use of non-negative matrix factorization, with which a probabilistic model of the signal spectrogram can be constructed and used for the interpolation of the signal. This model is then used as the basis for a successful reconstruction algorithm, to which two alternative methods are derived in the present thesis. Finally, an extensive experimental validation of the methods on a group of musical signals is conducted. Using objective indicators of the quality of the interpolated signal, it is shown, that in each class of methods, the proposed modifications lead to a noticeable improvement in quality or convergence over the baseline methods. In particular, within the studied range of impairments, algorithms using factorization compete with the current best methods for interpolating missing sections of the audio signal.
Description
Citation
MOKRÝ, O. Moderní optimalizační metody pro interpolaci chybějících úseků v audio signálech [online]. Brno: Vysoké učení technické v Brně. Fakulta elektrotechniky a komunikačních technologií. 2024.
Document type
Document version
Date of access to the full text
Language of document
en
Study field
bez specializace
Comittee
doc. Ing. Jiří Hošek, Ph.D. (předseda) prof. Ing. Zdeněk Smékal, CSc. (člen) doc. Ing. Jaroslav Sklenář, CSc. (člen) prof. Dr. Ing. Jan Černocký (člen) Dr. Valentin Emiya (člen) dr. Matthieu Kowalski - opponent (člen) prof. Ing. Zbyněk Koldovský - opponent (člen)
Date of acceptance
2024-05-21
Defence
Obhajoba disertační práce probíhala hybridní formou za přítomnosti většiny členů komise, ostatní se připojili online pomocí nástroje MS Teams. Obhajobu zahájil předseda komise doc. Jiří Hošek, který přivítal doktoranda, členy komise a hosty. Následně byl požádán Ing. Mokrý o představení své disertační práce, v rámci které prezentoval zejména motivaci, dosažené výsledky a perspektivy dalšího výzkuu v oblasti tématu disertační práce. Po prezentaci následovalo shrnutí posudků jak ze strany obou oponentů, tak školitele. Poté Ph.D. kandidát odpověděl na dotazy obou oponentů a následovala otevřená diskuse, během níž vznesli své dotazy i další členové komise (např. prof. Černocký, Dr. Emiya, doc. Sklenář, prof. Smékal a další). Podrobně byl diskutován hlavní přínos disertační práce i použitá metodika. Pozornost byla věnována i budoucím směrům a alternativním metodám a algoritmům. Ing. Mokrý byl velmi dobře připraven a vždy pohotově reagoval a prokázal svou erudici v dané oblasti. Ve veřejné části byli kromě členů komise přítomni také 2 hosté. Veřejná část obhajoby trvala více než 1,5 hodiny a po ní následovalo neveřejné jednání členů komise a tajné hlasování pomocí nástroje MS Teams. The dissertation defense took place in a hybrid form with majority of the committee members being present while the rest joined online using MS Teams tool. The event was initiated by the committee chair Assoc. Prof. Jiri Hosek, who welcomed the doctoral candidate, the committee members, and guests. Ing. Mokrý was asked to give his presentation, who within his speech discussed the motivation, reached results and perspectives for further research in the area of the dissertation topic. The presentation followed by the summary of the assessments made by both opponents as well as supervisor. After that, Ph.D. candidate responded to the questions asked by both opponents, followed by an open discussion, during which also other committee members (including Prof. Cernocky, Dr. Emiya, Assoc. Prof. Sklenar, Prof. Smekal and others) raised their questions. The main contribution of the dissertation as well as utilized methodology were discussed in detail. The attention was also paid to future directions and alternative methods and algorithms. Ing. Mokrý was very well prepared and always responded promptly and proved his erudition in the area. Next to the committee members, 2 guests were also present during the public part. The public part of the defense took more than 1.5 hours and it was followed by non-public meeting of the committee members and secrete vote using the MS Teams tool.
Result of defence
práce byla úspěšně obhájena
Document licence
Standardní licenční smlouva - přístup k plnému textu bez omezení
DOI
Collections
Citace PRO