KOZÁK, O. Metody dolování dat pro analýzu textů [online]. Brno: Vysoké učení technické v Brně. Fakulta elektrotechniky a komunikačních technologií. 2022.
Práce představuje metodiku a specifické možnosti textové analýzy v rámci dolování a třídění lingvistických dat z odborných studií v elektrotechnice. Autorské řešení jednotlivých praktických úkonů vychází z programovacího jazyka Python, včetně příslušných knihoven, a prostředí PyCharm; pro srovnání je nicméně vymezen i potenciál platformy Matlab. Z hlediska struktury i vlastního uspořádání obsahu lze výklad označit za systematický a přehledný; teoretická část postupuje od obecného (byť velmi stručného) úvodu do problematiky ke konkrétním metodám předzpracování a analýzy textu, zatímco praktické kapitoly obdobně přecházejí od jednodušších reálných úloh ke složitějším. Rozbor analytických přístupů a prvků je celkově vyvážený: autor ve většině případů posuzuje funkční vlastnosti i vhodnost metody pro daný účel a na tomto základě pak provádí volbu prostředků k zajištění experimentu. Praktické partie přinášejí popis a hodnocení nejen standardních experimentálních úkonů, k nimž náleží především určení četnosti a významu slov, ale také komplexnějších zadání, jež zahrnují mj. stanovení podobnosti textu a definování jeho témat. Bakalářská práce p. Kozáka se zakládá na rozsáhlém a kvalitním rešeršním výzkumu; autor prostudoval značnou část dostupné literatury k tématu a získané poznatky následně využil při experimentech, které vykazují aplikační potenciál v rámci tvorby a úprav specializovaných písemných materiálů ve vědě a technice. Stanovené cíle a úkoly byly vhodným způsobem splněny, a tedy předložené výsledky lze hodnotit kladně; ucelené a vyrovnané pojetí celé práce, společně s perspektivními experimentálními výstupy, mohu s klidným svědomím označit za její nosný prvek. Současně je ovšem třeba uvést, že i odevzdaná finální podoba textu k mé nelibosti zahrnuje řadu gramatických, syntaktických i stylistických nedostatků (např. „Převedení… se dělá, protože…“, „U velkých písmen by mohlo dojít, že…“, „tyto slova“, „v euklidovským prostoru“, „každý slovo textu“, „vyplívá“); na dané formální úrovni tedy text významně zaostává za prezentovaným obsahem. Do budoucna zůstává prostor pro další relevantní náměty, např. zpracování chybovosti v odborných překladech a srovnání postupů založených na Pythonu s možnostmi on-line nástrojů pro textovou analýzu. Vzhledem k výše představeným skutečnostem, s přihlédnutím ke snaze a zájmu autora, navrhuji hodnocení „A“.
Student Ondřej Kozák se ve své bakalářské práci věnuje metodám dolování dat pro analýzu textů. V práci nejprve čtenáře seznamuje s problematikou dolování dat. Používá prostředí pycharm a programovací jazyk python. Jako první krok správně uvádí nutné předzpracování textů. Dále se věnuje metodám pro textovou analýzu. Navrhl metody vhodné pro příkladné aplikace použitelné pro analýzu anglických textů v oblasti elektrotechniky a komunikačních technologií. V poslední části práce uvádí praktické příklady analýzy textů a vyhodnocuje výsledky. Ty, i když mají textovou formu, často vkládá formou obrázku místo např. tabulky. Svými znalostmi student prokázal velmi dobrou odbornou úroveň. Stinnou stránkou práce je však formální úroveň. Doporučuji studentovi, aby vyhodnotil četnost opakujících se slov v kapitole 5.2.4. Zcela nevhodně jsou použity odkazy na obrázky (velká písmena, slovo „obrázek“ není skloňováno). V první části práce tyto odkazy na obrázky v textu zcela chybí. Např. obr. 1.1 má anglické popisky, ale odkaz a popis v textu čtenář hledá marně. Rovnice jsou součástí vět, a proto by i zde měla být řešena interpunkce. Zadání práce bylo splněno. Zejména z pohledu formálního zpracování hodnotím práci jako dobrou.
eVSKP id 141631