KRISTEK, L. Detekce tónů z audio signálu metodou zpracování signálu [online]. Brno: Vysoké učení technické v Brně. Fakulta informačních technologií. 2024.

Posudky

Posudek vedoucího

Veselý, Karel

Student splnil zadání, které rozšířil o metodu detekce tónů založenou na přítomnosti alikvotních tónů. Jednalo se o zajímavou spolupráci na hudebním tématu s výzkumným přesahem.

Dílčí hodnocení
Kritérium Známka Body Slovní hodnocení
Informace k zadání Student si téma detekce hudebních tónů zvolil sám. Jednalo se o novou oblast i pro vedoucího. Student naimplementoval DFT, detektor založený na přítomnosti alikvotních tónů a vyhodnocení pomocí F1 score. Dále použil knihovní funkci CQT jako alternativní metodu detekce tónů. S dosaženými výsledky jsem spokojený. 
Práce s literaturou Student pracoval s literaturou. Částečně podle doporučení vedoucího, částečně samostatně.
Aktivita během řešení, konzultace, komunikace Student pracoval průběžně. V části zimního semestru vedoucí nemohl konzultovat, a proto byl odložen termín odevzdání.
Aktivita při dokončování Práce byla dokončována průběžně, technická zpráva konzultována po kapitolách.
Publikační činnost, ocenění -
Navrhovaná známka
B
Body
85

Posudek oponenta

Doležal, Jan

Oceňuji, že student má vlastní vztah k tématu práce. Výsledný systém je funkční. Technická zpráva se dobře četla, ale obsahovala uvedené nedostatky. Z těchto důvodů navrhuji hodnocení stupněm C (70 bodů).

Dílčí hodnocení
Kritérium Známka Body Slovní hodnocení
Náročnost zadání
Rozsah splnění požadavků zadání
Rozsah technické zprávy V technické zprávě jsou navíc úryvky zdrojového kódu v jazyce Python, které jsou přes půl stránky. Konkrétně v kapitole 4.1.2 a 4.3.1 Implementace v jazyce python .
Prezentační úroveň technické zprávy 68 Ohledně návaznosti kapitol bych vytkl použití pojmů před jejich definicí. Např. kapitola 2.3 Noty a frekvence by měla předcházet kap. 2.6 Hudební teorie a kap. 2.5 Ladění , protože kap. 2.3 obsahuje tabulku frekvencí používaných not. Přitom ještě není definováno, že uvažujeme pouze rovnoměrně temperované ladění a který systém označování not bude v technické zprávě použit. Dále kapitola 4.3 F1 score na str. 46 by měla být před prvním výpočtem precision , recall a F1 score , jenž je na str. 26. Číslo odkazující na jinou kapitolu, vzorec či obrázek, by mělo být slovně uvedeno, aby byl zřejmý jeho význam v textu. Je třeba rozlišit, jestli se jedná o číselný odkaz a na co odkazuje (kapitolu, vzorec či obrázek). Např. na str. 48, je v textu metoda STFT 3.2, CQT 3.3 a vlastní metoda 4.1. Zkratky a méně používané pojmy by bylo vhodné připomenout v poznámce pod čarou. V kapitole 3.2.6 Detekce začátku tónů není z textu jasné, jestli se aplikuje po potlačení šumu (kap. 3.2.5) nebo nad původním signálem. Pouze z uvedeného úryvku kódu lze odhadnout, že se aplikuje na výstup z preemfáze (kap. 3.2.4). Objevují se nekonzistence v pojmech a označení. Často jsou zaměňovány pojmy nota a tón . V kapitole 3.2.6 na str. 21 a 22 je v textu a vzorci koeficient preemfáze označen písmenem , ale na obrázku 3.8 je písmeno .
Formální úprava technické zprávy 78 Ohledně typografické stránky technické zprávy jsem přišel na několik nedostatků. Student není konzistentní v používání desetinné čárky a často používá desetinnou tečku. Děje se to i v rámci jedné strany (např. na str. 18). Dále bych vytkl časté použití spojovníku místo pomlčky. Co se týče jazykové stránky práce, občas jsem narazil na špatně formulované věty a překlepy.
Práce s literaturou 52 Vybrané studijní prameny jsou relevantní. Student ale uvádí pouze 10 studijních pramenů, z nichž 5 zdrojů jsou webové stránky. Bibliografické citace na webové stránky neodpovídají normě. V celé kapitole 2 je uveden pouze jeden zdroj a to pro tabulku frekvencí používaných not. V téže kapitole jsou definovány pojmy jako zvuk, tón, nota, alikvótní tóny, vzorkování a kvantizace bez uvedení zdroje. Odkaz v poznámce pod čarou na str. 35 je již v literatuře pod číslem [4] a poprvé byl odkazován na str. 13. Není mi známo proč student nevyužil žádný ze základních literárních pramenů, doporučených vedoucím práce.
Realizační výstup 70 Student vytvořil funkční řešení, které otestoval na vygenerovaném audio signálu ze souborů MIDI pomocí jedné konkrétní banky nástrojů. Ve vyhodnocení výsledků mi chybí porovnání s existujícími řešeními. Mezi přiloženými soubory jsou dvě verze skladby Twinkle Twinkle Little Star . Není explicitně uvedeno, který z přiložených souborů byl použit v kapitole 3. Lze pouze z uvedené délky a počtu tónů usoudit, že se jedná o kratší verzi (soubor ttls_short.mid ). Oproti tomu v kap. 4.3.2 Testování metod je použita delší verze (soubor ttls.mid ). Chybí informace o generování audio signálu ze souboru MIDI. Z textu technické zprávy není zřejmé, jaká knihovna byla pro tento účel použita. Dále není stanovena vzorkovací frekvence a počet kanálů vygenerovaného audio signálu. V grafickém uživatelském rozhraní chybí popis významu jednotlivých grafů.
Využitelnost výsledků Student implementoval metody pro detekci tónů z audio signálu pomocí Fourierovi transformace, konstantní Q-transformace a pomocí Fourierovi transformace s využitím alikvótních tónu. Detekci tónů testoval pouze na vygenerovaném audio signálu ze souborů MIDI pomocí jedné konkrétní banky nástrojů se zvoleným nástrojem piáno.
Navrhovaná známka
C
Body
70

eVSKP id 157933