Syntéza zvuku z video dat

V tejto diplomovej práci je vyhotovená rešerš metód syntézy zvuku z obrazových a video dát na dáta zvukové a relizovaná je implementácia troch nových metód syntézy. Prvá časť práce poskytuje prehľad o existujúcich prístupoch k tvorbe zvuku z obrazu, identifikuje ich výhody, obmedzenia a prípadné možnosti rozšírenia. V druhej časti je popísaná implementácia aplikácie Vsyntha, ktorá syntetizuje zvuk z videa v reálnom čase s možnosťou ovládania hudobných parametrov. V tretej časti je opísaná aplikácia ReAmper, ktorá ozvučuje scény pomocou zvukových objektov a hudobných tónov na základe detekcie a sledovania objektov v obraze. Vo štvrtej časti je popísaná aplikácia SegMentor, ktorá vytvára MIDI súbory z videa pomocou rôznych techník segmentácie obrazu. Implementované metódy poskytujú nové nástroje pre tvorbu zvuku a multimediálnych diel, otvárajú priestor pre ďalší výskum a vývoj v oblasti syntézy zvuku z obrazu a poskytujú užitočné nástroje pre tvorbu zvukového obsahu a interakciu s vizuálnymi dátami vo forme zvuku. Výsledky tejto práce poskytujú prehľad o súčasnom stave výskumu a praxe v tejto oblasti a ponúkajú možnosti pre ďalší rozvoj a aplikácie v praxi.
In this thesis, a survey of audio synthesis methods from image and video data to audio data is performed and the implementation of three new synthesis methods is reviewed. The first part of the thesis provides an overview of existing approaches to sound from image, identifying their advantages, limitations and possible extensions. The second part describes the implementation of VSyntha, an application that synthesizes audio from video in real-time with the ability to control musical parameters. The third section describes the ReAmper application, which performs soundscaping using sound objects and musical cues based on the detection and tracking of objects in the image. The fourth section describes the SegMentor application, which creates MIDI files from video using various image segmentation techniques. The implemented methods provide new tools for the creation of audio and multimedia works, open the way for further research and development in the field of sound-from-image synthesis, and provide useful tools for creating audio content and interacting with visual data in the form of audio. The results of this work provide an overview of the current state of research and practice in this area and offer opportunities for further development and applications in practice.

Citation

LAZORČÁK, D. Syntéza zvuku z video dat [online]. Brno: Vysoké učení technické v Brně. Fakulta elektrotechniky a komunikačních technologií. 2023.

Language of document

sk

Study field

Zvuková produkce a nahrávání

Comittee

Doc.Ing.MgA. Ondřej Urban, Ph.D. (předseda) doc. Ing. Kamil Říha, Ph.D. (místopředseda) Ing. František Rund, Ph.D. (člen) MgA. et Mgr. Ondřej Jirásek, Ph.D. (člen) Mgr. Tomáš Staudek, Ph.D. (člen) Ing. Štěpán Miklánek, Ph.D. (člen) MgA. Jan Kavan, Ph.D. (člen)

Date of acceptance

2023-06-08

Defence

Student prezentoval výsledky své práce a komise byla seznámena s posudky. Student obhájil diplomovou práci. Student odpověděl na otázky členů komise a oponenta: Popište rozdíl mezi formáty RGB, HSV, HSL a YCbCr a uveďte, jaký mohou mít tyto formáty vliv na syntézu zvuku. Jaký je rozdíl mezi diskrétní kosinovou transformací a diskrétní vlnkovou transformací s diskrétním časem a jak jsou využitelné pro syntézu zvuku. Uveďte několik aplikací, kde se Vámi navržené metody syntézy mohou uplatnit. Jaký je rozdíl mezi stupnicí a tóninou, co z této dvojice využíváte?

Result of defence

práce byla úspěšně obhájena

Document licence

Standardní licenční smlouva - přístup k plnému textu bez omezení