Sonifikace videa pomocí technik umělé inteligence
Loading...
Date
Authors
ORCID
Advisor
Referee
Mark
A
Journal Title
Journal ISSN
Volume Title
Publisher
Vysoké učení technické v Brně. Fakulta elektrotechniky a komunikačních technologií
Abstract
Táto práca sa zaoberá sonifikáciou videa – prevodom obrazu na zvuk. Jej cieľom je využitie moderných techník počítačového videnia založených na umelej inteligencii pre vytvorenie systému schopného algoritmickej tvorby zvuku použiteľného v umeleckom kontexte. Sústredí sa na oblasti sound artu, algoritmickej kompozície a generatívnej hudby. Súčasťou práce je implementácia modulárneho sonifikačného systému v jazyku Python využívajúceho moderný detektor objektov YOLOv7 spolu s algoritmom pre sledovanie viacerých objektov z knižnice Norfair. Princíp je založený na systematickom prideľovaní zvukových objektov sledovaným objektom vo videu. Zvuk je tvorený prostredníctvom platformy SuperCollider a jej API pre Python s názvom Supriya, využívajúc rozličné typy zvukovej syntézy spolu s automatizovane vytvorenou databankou zvukov.
This thesis deals with the topic of video sonification – the transformation of image into sound. It aims to use state-of-the-art techniques of computer vision based on artificial intelligence to create a system capable of algorithmic sound creation applicable in the art context. The focus is put on the fields of sound art, algorithmic composition and generative music. The thesis includes an implementation of a modular sonification system which utilizes the modern object detector YOLOv7 along with a multiple object tracking algorithm (implemented in the library Norfair), built using the programming language Python. The fundementals of the system lie in systematic assignment of sound objects to objects tracked in the video. The sound creation relies on the SuperCollider platform using the Python API Supriya, incorporating various methods of sound synthesis along with a programmatically created sound database.
This thesis deals with the topic of video sonification – the transformation of image into sound. It aims to use state-of-the-art techniques of computer vision based on artificial intelligence to create a system capable of algorithmic sound creation applicable in the art context. The focus is put on the fields of sound art, algorithmic composition and generative music. The thesis includes an implementation of a modular sonification system which utilizes the modern object detector YOLOv7 along with a multiple object tracking algorithm (implemented in the library Norfair), built using the programming language Python. The fundementals of the system lie in systematic assignment of sound objects to objects tracked in the video. The sound creation relies on the SuperCollider platform using the Python API Supriya, incorporating various methods of sound synthesis along with a programmatically created sound database.
Description
Keywords
sonifikácia, interaktívna hudba, algoritmická kompozícia, sound art, počítačové videnie, umelá inteligencia, detekcia objektov, sledovanie objektov, YOLO, SuperCollider, sonification, interactive music, algorithmic composition, sound art, computer vision, artificial intelligence, object detection, multiple object tracking, YOLO, SuperCollider
Citation
DOBROCKÝ, F. Sonifikace videa pomocí technik umělé inteligence [online]. Brno: Vysoké učení technické v Brně. Fakulta elektrotechniky a komunikačních technologií. 2023.
Document type
Document version
Date of access to the full text
Language of document
cs
Study field
Zvuková produkce a nahrávání
Comittee
Doc.Ing.MgA. Ondřej Urban, Ph.D. (předseda)
doc. Ing. Kamil Říha, Ph.D. (místopředseda)
Ing. František Rund, Ph.D. (člen)
MgA. et Mgr. Ondřej Jirásek, Ph.D. (člen)
Mgr. Tomáš Staudek, Ph.D. (člen)
Ing. Štěpán Miklánek (člen)
MgA. Jan Kavan, Ph.D. (člen)
Date of acceptance
2023-06-08
Defence
Student prezentoval výsledky své práce a komise byla seznámena s posudky.
Student obhájil diplomovou práci.
Student odpověděl na otázky členů komise a oponenta:
Existují projekty, které s pomocí sonifikace umožňují lepší vhled pro monitoring datového provozu v síti? Uveďte srovnání výhod a nevýhod mezi vizualizací a sonifikací.
Jak byly propojeny vizuální parametry do zvuku?
Jaká syntéza a její parametry byly použity?
V jaké části práce byla použita umělá inteligence? Na mapování atribut?
Result of defence
práce byla úspěšně obhájena
Document licence
Standardní licenční smlouva - přístup k plnému textu bez omezení