Systém pro nalezení duplikátů nahrávek na základě audio informace
Loading...
Date
Authors
ORCID
Advisor
Referee
Mark
B
Journal Title
Journal ISSN
Volume Title
Publisher
Vysoké učení technické v Brně. Fakulta elektrotechniky a komunikačních technologií
Abstract
Tato diplomová práce se zabývá metodami pro rozpoznání hudebních duplikátů v databázi souborů. Problém tkví v tom, že soubory hudebních duplikátů nemusí být vždy zcela shodné - mohou se lišit například v kvalitě či obsaženém potlesku na konci jedné z nahrávek. Cílem bylo navrhnout a implementovat systém, který shodné nahrávky identifikuje, vzájemně k sobě přiřadí a zapíše do výstupního souboru. Systém by měl být dostatečně robustní vůči již zmíněným drobným rozdílům mezi duplikáty, zároveň by měl být natolik přesný, aby nedocházelo k chybnému přiřazení vzájemně neshodných nahrávek. K těmto účelům byl použit programovací jazyk Python společně s dostupnými knihovnami pro výpočet chromagramů, techniky Image Hashing a různých variant algoritmu dynamického borcení časové osy. V rámci výsledného systému byly implementované tři různé metody, lišící se v jejich přesnosti a výpočetní náročnosti. Metody byly následně otestované na předem připraveném datasetu a na základě získaných výsledků byly vytvořeny čtyři různé úrovně přednastavené přesnosti výsledného systému. Výsledný systém se jeví jako vysoce přesný a zároveň robustní vůči nahrávkám, které jsou si velmi podobné, nikoli však shodné, jako je tomu u různých interpretací stejné skladby.
This diploma thesis discusses different methods of detecting duplicates in a music file database. The problem at hand is that files containing the same recording may differ in sound quality, applause at the end of a performance and other such parameters. The aim of this thesis is to design and implement a system that identifies duplicate recordings and provides an output file for the comparison. The system needs to not be affected by the mentioned parameters but precise enough to prevent matching non-identical recordings. The system is realized using the Python programming language, freely available libraries for computing chroma features, Image Hashing technique and multiple variants of the dynamic time warping algorithm. Three comparison methods were implemented in the system, differing in precision and computation complexity. The methods were then tested on a prepared dataset and four preset precision options were created. The final system seems very precise and insusceptible to detecting recordings that are very similar but not identical as duplicates, for example in case of different interpretations of the same musical piece.
This diploma thesis discusses different methods of detecting duplicates in a music file database. The problem at hand is that files containing the same recording may differ in sound quality, applause at the end of a performance and other such parameters. The aim of this thesis is to design and implement a system that identifies duplicate recordings and provides an output file for the comparison. The system needs to not be affected by the mentioned parameters but precise enough to prevent matching non-identical recordings. The system is realized using the Python programming language, freely available libraries for computing chroma features, Image Hashing technique and multiple variants of the dynamic time warping algorithm. Three comparison methods were implemented in the system, differing in precision and computation complexity. The methods were then tested on a prepared dataset and four preset precision options were created. The final system seems very precise and insusceptible to detecting recordings that are very similar but not identical as duplicates, for example in case of different interpretations of the same musical piece.
Description
Citation
ŠVEJCAR, M. Systém pro nalezení duplikátů nahrávek na základě audio informace [online]. Brno: Vysoké učení technické v Brně. Fakulta elektrotechniky a komunikačních technologií. 2022.
Document type
Document version
Date of access to the full text
Language of document
cs
Study field
Zvuková produkce a nahrávání
Comittee
prof. Mgr. Pavel Rajmic, Ph.D. (předseda)
doc. Ing. MgA. Mgr. Dan Dlouhý, Ph.D. (místopředseda)
doc. Ing. Jiří Schimmel, Ph.D. (člen)
RNDr. Lubor Přikryl (člen)
Ing. Jaromír Mačák, Ph.D. (člen)
Ing.MgA. Edgar Mojdl, Ph.D. (člen)
Ing. Štěpán Miklánek (člen)
Date of acceptance
2022-06-09
Defence
Student prezentoval výsledky své práce a komise byla seznámena s posudky.
Otázky oponenta:
1. Na obrázku 2.1 je třetí osa grafu označena jako „Výkonová spektrální hustota (dBW/Hz)“. Dávalo by v případě číslicového zvukového signálu smysl tuto osu vyjádřit v dBFS?
2. Hodnoty chromagramu na obrázku 2.2 se pohybují podle všeho v rozsahu 0 až 1. Opravdu lze pro tyto hodnoty použít výkonovou spektrální hustotu?
Doplňující otázky:
Definujte hudební duplikát.
Student obhájil diplomovou práci a odpověděl na otázky členů komise a oponenta.
Result of defence
práce byla úspěšně obhájena
Document licence
Standardní licenční smlouva - přístup k plnému textu bez omezení