KRISTEK, L. Detekce tónů z audio signálu metodou zpracování signálu [online]. Brno: Vysoké učení technické v Brně. Fakulta informačních technologií. 2024.
Student splnil zadání, které rozšířil o metodu detekce tónů založenou na přítomnosti alikvotních tónů. Jednalo se o zajímavou spolupráci na hudebním tématu s výzkumným přesahem.
Kritérium | Známka | Body | Slovní hodnocení |
---|---|---|---|
Informace k zadání | Student si téma detekce hudebních tónů zvolil sám. Jednalo se o novou oblast i pro vedoucího. Student naimplementoval DFT, detektor založený na přítomnosti alikvotních tónů a vyhodnocení pomocí F1 score. Dále použil knihovní funkci CQT jako alternativní metodu detekce tónů. S dosaženými výsledky jsem spokojený. | ||
Práce s literaturou | Student pracoval s literaturou. Částečně podle doporučení vedoucího, částečně samostatně. | ||
Aktivita během řešení, konzultace, komunikace | Student pracoval průběžně. V části zimního semestru vedoucí nemohl konzultovat, a proto byl odložen termín odevzdání. | ||
Aktivita při dokončování | Práce byla dokončována průběžně, technická zpráva konzultována po kapitolách. | ||
Publikační činnost, ocenění | - |
Oceňuji, že student má vlastní vztah k tématu práce. Výsledný systém je funkční. Technická zpráva se dobře četla, ale obsahovala uvedené nedostatky. Z těchto důvodů navrhuji hodnocení stupněm C (70 bodů).
Kritérium | Známka | Body | Slovní hodnocení |
---|---|---|---|
Náročnost zadání | |||
Rozsah splnění požadavků zadání | |||
Rozsah technické zprávy | V technické zprávě jsou navíc úryvky zdrojového kódu v jazyce Python, které jsou přes půl stránky. Konkrétně v kapitole 4.1.2 a 4.3.1 Implementace v jazyce python . | ||
Prezentační úroveň technické zprávy | 68 | Ohledně návaznosti kapitol bych vytkl použití pojmů před jejich definicí. Např. kapitola 2.3 Noty a frekvence by měla předcházet kap. 2.6 Hudební teorie a kap. 2.5 Ladění , protože kap. 2.3 obsahuje tabulku frekvencí používaných not. Přitom ještě není definováno, že uvažujeme pouze rovnoměrně temperované ladění a který systém označování not bude v technické zprávě použit. Dále kapitola 4.3 F1 score na str. 46 by měla být před prvním výpočtem precision , recall a F1 score , jenž je na str. 26. Číslo odkazující na jinou kapitolu, vzorec či obrázek, by mělo být slovně uvedeno, aby byl zřejmý jeho význam v textu. Je třeba rozlišit, jestli se jedná o číselný odkaz a na co odkazuje (kapitolu, vzorec či obrázek). Např. na str. 48, je v textu metoda STFT 3.2, CQT 3.3 a vlastní metoda 4.1. Zkratky a méně používané pojmy by bylo vhodné připomenout v poznámce pod čarou. V kapitole 3.2.6 Detekce začátku tónů není z textu jasné, jestli se aplikuje po potlačení šumu (kap. 3.2.5) nebo nad původním signálem. Pouze z uvedeného úryvku kódu lze odhadnout, že se aplikuje na výstup z preemfáze (kap. 3.2.4). Objevují se nekonzistence v pojmech a označení. Často jsou zaměňovány pojmy nota a tón . V kapitole 3.2.6 na str. 21 a 22 je v textu a vzorci koeficient preemfáze označen písmenem , ale na obrázku 3.8 je písmeno . | |
Formální úprava technické zprávy | 78 | Ohledně typografické stránky technické zprávy jsem přišel na několik nedostatků. Student není konzistentní v používání desetinné čárky a často používá desetinnou tečku. Děje se to i v rámci jedné strany (např. na str. 18). Dále bych vytkl časté použití spojovníku místo pomlčky. Co se týče jazykové stránky práce, občas jsem narazil na špatně formulované věty a překlepy. | |
Práce s literaturou | 52 | Vybrané studijní prameny jsou relevantní. Student ale uvádí pouze 10 studijních pramenů, z nichž 5 zdrojů jsou webové stránky. Bibliografické citace na webové stránky neodpovídají normě. V celé kapitole 2 je uveden pouze jeden zdroj a to pro tabulku frekvencí používaných not. V téže kapitole jsou definovány pojmy jako zvuk, tón, nota, alikvótní tóny, vzorkování a kvantizace bez uvedení zdroje. Odkaz v poznámce pod čarou na str. 35 je již v literatuře pod číslem [4] a poprvé byl odkazován na str. 13. Není mi známo proč student nevyužil žádný ze základních literárních pramenů, doporučených vedoucím práce. | |
Realizační výstup | 70 | Student vytvořil funkční řešení, které otestoval na vygenerovaném audio signálu ze souborů MIDI pomocí jedné konkrétní banky nástrojů. Ve vyhodnocení výsledků mi chybí porovnání s existujícími řešeními. Mezi přiloženými soubory jsou dvě verze skladby Twinkle Twinkle Little Star . Není explicitně uvedeno, který z přiložených souborů byl použit v kapitole 3. Lze pouze z uvedené délky a počtu tónů usoudit, že se jedná o kratší verzi (soubor ttls_short.mid ). Oproti tomu v kap. 4.3.2 Testování metod je použita delší verze (soubor ttls.mid ). Chybí informace o generování audio signálu ze souboru MIDI. Z textu technické zprávy není zřejmé, jaká knihovna byla pro tento účel použita. Dále není stanovena vzorkovací frekvence a počet kanálů vygenerovaného audio signálu. V grafickém uživatelském rozhraní chybí popis významu jednotlivých grafů. | |
Využitelnost výsledků | Student implementoval metody pro detekci tónů z audio signálu pomocí Fourierovi transformace, konstantní Q-transformace a pomocí Fourierovi transformace s využitím alikvótních tónu. Detekci tónů testoval pouze na vygenerovaném audio signálu ze souborů MIDI pomocí jedné konkrétní banky nástrojů se zvoleným nástrojem piáno. |
eVSKP id 157933