NOREK, K. Automatizováné zpracování webových stránek vyžadujících JavaScript [online]. Brno: Vysoké učení technické v Brně. Fakulta informačních technologií. 2023.

Posudky

Posudek vedoucího

Dolejška, Daniel

Zpracování výsledné aplikace pokrývá pouze část knihovny třetí strany pro orchestraci a automatizaci webových prohlížečů. Řešení samotné je v určitých ohledech značně limitované a ztěžuje tedy jeho efektivní uživatelské využití. Body zadání považuji za splněné. Dosažené výsledky jsou svým způsobem využitelné i přes nižší technickou kvalitu vlastní implementace.

Dílčí hodnocení
Kritérium Známka Body Slovní hodnocení
Informace k zadání Automatizované zpracování a extrakce dat z webových stránek vyžadující JavaScript je netriviální problematikou. Autor ovšem implementuje pouze systém umožňující uživatelskou konfiguraci knihovny třetí strany pro orchestraci a automatizované ovládání prohlížečů za účelem zpracování webových stránek. Zadání hodnotím jako snazší.
Práce s literaturou Práce čerpá z 19 zdrojů, kde ovšem pouze 4 citované zdroje nejsou čistě online webové zdroje. Student nebyl příliš aktivní v oblasti samostatného vyhledávání a používání relevantních zdrojů. Citace jsou autorem v textu práce často používány nevhodně za celými odstavci i přes to, že ne všechny obsažené informace vždy pocházejí z citovaného zdroje.
Aktivita během řešení, konzultace, komunikace V průběhu roku student svůj postup konzultoval pouze velice sporadicky, na konzultace ovšem přicházel připraven s relevantními otázkami a problémy k řešení. Proaktivita a zapojení studenta při řešení práce bylo bohužel podprůměrné.
Aktivita při dokončování Student svůj postup při dokončování průběžně a pravidelně konzultoval na osobních konzultacích. Text práce byl dokončován na poslední chvíli a ne všechny diskutované poznámky k formální úpravě a obsahové kvalitě byly do textu zakomponovány, ovšem text byl před odevzdáním konzultován.
Publikační činnost, ocenění -
Navrhovaná známka
D
Body
61

Posudek oponenta

Pluskal, Jan

Autor provádí velmi omezenou studii přístupů automatizovaného dolování dat z dynamického webu. Zvolená metoda dolování je dle slov autora "nejsnazší". K samotnému získání a zpracování dynamického obsahu webových stránek pak autor využívá standardní knihovnu Selenium. Dá se tedy říci, že autor vytvořil wrapper nad touto knihovnou jakožto běhové prostředí konfiguračního souboru, který vytváří v webové aplikaci (kterou samostatně implementoval). Tato aplikace je velmi neintuitivní a popírá standardy UX. Doporučuji hodnotit stupněm D (60 b). 

Dílčí hodnocení
Kritérium Známka Body Slovní hodnocení
Náročnost zadání Obtížnost zadání je přímo úměrná míře pečlivosti, s jakou se autor ujme vypracování. V pojetí této práce se jedná o vytvoření automatizace nástroje Selenium a jeho manipulace k získání zájmových dat. Práce staví tedy na existujících aplikacích/zdrojích a nepřináší nové poznání.
Rozsah splnění požadavků zadání Kapitola 2 odrážející body zadání 1 a 2 je slabá v úrovni detailu. Aktuální možnosti by měly být získány z vyššího množství zdrojů a zdroje porovnány. Autor si vybral dle svých slov "nejlehčí" metodu, kterou následně implementoval. Srovnání metod použitých pro webscraping v sekci 2.2, která čerpá z jediného zdroje považuji na hranici splnění zadání.
Rozsah technické zprávy Práce je dle https://app.fit.vut.cz/normostrany o rozsahu 57.64 normostran v části kapitol, a tedy splňuje obvyklé rozmezí svým rozsahem.
Prezentační úroveň technické zprávy 60 Obsah práce reflektuje zadání. Jednotlivé kapitoly na sebe navazují a jsou pro čtenáře převážně pochopitelné. Čitelnost zesložiťuje autorův styl skladby vět, který mnohdy nerespektuje slovosled anglické věty (SVOMPT). Autor často nedrží úroveň abstrakce popisu a velmi rychle přechází od obecného k přílišným detailům viz sekce 2.1, kde staví na stejnou úroveň popis HTTP POST, GET metod a "user-agent" hlavičku. Dále, např. v následujícím odstavci autor nadužívá idiomatické výrazy např. 5násobný výskyt "the way".
Formální úprava technické zprávy 55 Autor se dopouští často fabulací, používá příliš tvrdé prohlášení a nepodkládá je patřičně zdroji. Příkladem budiž sekce 2.4, kde autor tvrdí "It is fairly easy to extract data from websites that use plain HTML and CSS.", s čímž by vedoucí práce jistě nesouhlasil. Nebo, v sekci 2.5.1 autor tvrdí, že headless prohlížeč neprovádí rendering DOM. Autor se výjimečně dopouští nekonzistencí např. sekce 3.3 vysázení zkratky RGBa vs RGBA. Autor často používá odstavce obsahující pouze jednu větu, viz sekce 3.3.1.  Autor taktéž nadbytečně využívá číslované nadpisy zapouzdřující sekce, které obsahují pouze jeden odstavec, např. sekce 2.2 a vnořené, 2.5.2, 2.5.3 a jiné.  Sekce 3.3.1 by nemusela být číslovanou sekcí, protože je jediná v této úrovni zanoření. Nedokážu rozlišit, zdali se jedná o horší čitelnost práce způsobenou použitím cizího jazyka, nebo neznalostí, ale nemohu souhlasit se spoustou tvrzení, které autor v práci uvádí, např: "For the database will be used Entity Framework." (sekce 3.4) "Several supported databases like SQLite, MySQL, and PostgreSQL for Entity Framework exist." (sekce 3.4) evokuje pochopení, že zmíněné databáze existují kvůli podpoře v EF. Autor taktéž v práci nepoužívá knihovnu Entity Framework, ale Entity Framework Core. Jedná se o dvě podstatně se odlišující knihovny a záměna názvu je zavádějící.
Práce s literaturou 50 Autor neprovedl dostatečnou rešerši existujících přístupů a teoretickou část staví na malém počtu zdrojů, kde nekombinuje informace získané z více zdrojů. Sekce 2.2 popisující "aktuální" přístup je založena pouze na jediném zdroji a je velmi obecná. Reference ke zdroji je často vysázena až za tečkou odstavce z čehož není patrné k čemu se citace váže. V naprosté většině převládají zdroje online. Autor samostatně nalezl pouze jeden recenzovaný zdroj.
Realizační výstup 70 Realizačním výstupem práce je webová aplikace, která obsahuje konfigurátor předpisu pro získání dat z dynamické webové stránky. Tuto webovou aplikaci je možné taktéž spustit jako konzolovou s předpřipraveným konfiguračním souborem. V módu "konzolové" aplikace je možné použít i opakováné získání dat rozložené v čase. Autor tyto módy v práci popisuje velmi nejasně pojmy "hosted console service", "console service" a "web application".
Využitelnost výsledků Vzhledem k tomu, že práce nepřináší nové poznání, ale pouze znovu implementuje "nejsnazší" přístup z zvolené literatury tak nespatřuji možné praktické aplikaci či využitelnost v běžících projektech.
Navrhovaná známka
D
Body
60

Otázky

eVSKP id 145378