ONDERKA, J. Automatizovaná extrakce údajů z HTML [online]. Brno: Vysoké učení technické v Brně. Fakulta elektrotechniky a komunikačních technologií. 2012.
Student v bakalářské práci úspěšně řešil problematiku získávání a zpracování dat z webových stránek. V teoretické části práce přehledně popsal termíny web scraping a data mining. Detailně se zabýval popsáním a zhodnocením vhodnosti metod získávání a zpracování dat z webových stránek. Výsledky zkoumání poté úspěšně aplikoval v praxi vytvořením dvou aplikací, ve kterých se podařilo efektivně a rychle získávat a ukládat veškerá data ze zadaných webových zdrojů. Na získaných datech poté provedl ukázku data miningu, čímž prokázal praktické využití web scrapingu. Student tím úspěšně splnil zadání práce. Student se práci pravidelně věnoval a prokázal i aktivní přístup, který vedl k úspěšnému a efektivnímu vyřešení problému se změnou podmínek přístupu k webové databázi, která se objevila až v průběhu zpracování práce. Práce je zpracována srozumitelně, kapitoly jsou řazeny v logickém pořadí popisující nejprve teorii získávání dat a poté popis praktického řešení. Výsledky jsou vhodně prezentovány přehlednými obrázky, tabulkami a grafy. Vytvořené aplikace plní svůj účel a poskytují i nadstandardní funkce, které nebyly v zadání práce uvedené.
Předložená bakalářská práce se zabývá moderním způsobem dolování dat z veřejných databází. Student ve své práci realizoval dvě aplikace pro dolování dat z veřejných databází policie ČR. První aplikace se zabývá dolováním dat pohřešovaných osob, druhá pak ukradenými vozy. Z práce je vidět, že i přes různá úskalí si student s danou problematikou poradil a obě databáze dokázal různými způsoby naklonovat. Je vidět, že student dané problematice porozuměl, avšak způsob dolování je dost statický. Představa, že při každé úpravě zdrojových stránek by musela být aplikace systematicky upravována a kompilována, je děsivá. Z tohoto důvodu se domnívám, že by se dalo vymyslet lepší řešení, založené na intuitivním dynamickém dolování se samoučícími nebo poloautomatickými algoritmy. Z věcného hlediska nemám žádné výtky. Z formálního hlediska je práce psána spíše populárně naučnou formou než odborným textem.
eVSKP id 52190