MAZAL, Z. Extrakce textových dat z internetových stránek [online]. Brno: Vysoké učení technické v Brně. Fakulta elektrotechniky a komunikačních technologií. 2011.

Posudky

Posudek vedoucího

Fojtová, Lucie

Práce popisuje extrakci textových dat z vybraných webových stránek. V teoretické části student přehledně a uceleně uvedl popis současného stavu této problematiky včetně konkrétních příkladů. V praktické části diplomant navrhnul a realizoval jednoduchý program pro extrakci dat z webových serverů. Zadání práce bylo splněno, k práci mám tyto poznámky: po formální stránce mi chybí větší provázanost s literaturou (ačkoliv její seznam je dostatečný) a v některých pasážích více formální jazyk. Vlastní program mohl být více detailně propracován (např. uživatelské nastavení), hlavní účel však splňuje.

Dílčí hodnocení
Kritérium Známka Body Slovní hodnocení
Splnění zadání A 46/50
Aktivita během řešení a zpracování práce (práce s literaturou, využívání konzultací, atd.) C 15/20
Formální zpracování práce C 15/20
Využití literatury D 6/10
Navrhovaná známka
B
Body
82

Posudek oponenta

Morský, Ondřej

Práce se zabývá dolováním textů a ukládáním výsledků do XML. Teoretická část obsahuje základní informace o zpracování HTML stránek i o přepokládaném dalším zpracování dat. Vytvořený program je poměrně jednoduchý, ale svou úlohu plní. V textu so objevují některé nevysvětlené zkratky - např. N-LR, N-HLRT. Na stránce 17 popisuje student strukturu jakéhosi neznámého dokument, která není nikde zobrazena. V části měření rychlosti mohly být vypsány hodnoty čekacích časů mezi stažením jednotlivých stránek. Praktická část má také několik nedostatků. Data ve výsledných XML souborech mohla být lépe zpracována. Formát data se mírně liší pro každý datový zdroj. Např. datum z denik.cz je zapsáno ve formátu "12.05.2011". Z novinky.cz je však datum ve formátu "čtvrtek 12. května 2011", přičemž ani jedno z nich není doporučený formát data pro XML. Stejně tak nekonzistentní je zápis titulku a zdroje dat.

Dílčí hodnocení
Kritérium Známka Body Slovní hodnocení
Splnění požadavků zadání A 18/20
Odborná úroveň práce B 40/50
Interpretace výsledků a jejich diskuse C 15/20
Formální zpracování práce E 5/10
Navrhovaná známka
C
Body
78

Otázky

eVSKP id 39956