Čištění, extrakce textu a převod webových stránek do vertikálního formátu

but.committeedoc. Ing. Jaroslav Zendulka, CSc. (předseda) doc. Ing. Zdeněk Kotásek, CSc. (místopředseda) Ing. František Grézl, Ph.D. (člen) Ing. Petr Matoušek, Ph.D., M.A. (člen) Ing. Filip Orság, Ph.D. (člen)cs
but.defenceStudent nejprve prezentoval výsledky, kterých dosáhl v rámci své práce. Komise se poté seznámila s hodnocením vedoucího a posudkem oponenta práce. Student následně odpověděl na otázky oponenta a na další otázky přítomných. Komise se na základě posudku oponenta, hodnocení vedoucího, přednesené prezentace a odpovědí studenta na položené otázky rozhodla práci hodnotit stupněm A. Otázky u obhajoby: Na straně 14, v sekci popisující způsoby porovnávání nástrojů Justext a Boilerpipe píšete, že když jeden z nástrojů selže, bod je přidělen automaticky jeho konkurentovi. Co když ale bude výstup konkurenčního nástroje zcela špatný? Taká mu přidělíte bod? Na straně 16 uvádíte, že celý vertikalizátor je navržen jako sada nástrojů, které mezi sebou komunikují podobně jako roury v Unixu. Jak přesně jednotlivé nástroje v proudu dat rozpoznají hranice mezi jednotlivými dokumenty?cs
but.jazykčeština (Czech)
but.programInformační technologiecs
but.resultpráce byla úspěšně obhájenacs
dc.contributor.advisorDytrych, Jaroslavcs
dc.contributor.authorŠvaňa, Milošcs
dc.contributor.refereeOtrusina, Lubomírcs
dc.date.accessioned2020-06-23T09:02:22Z
dc.date.available2020-06-23T09:02:22Z
dc.date.created2016cs
dc.description.abstractTáto práca za zaoberá problematikou extrakcie textu z webových stránok, rozlíšením dôležitého obsahu a jeho prevodom do vertikálneho formátu, ktorý je vhodný na ďalšie spracovanie z pohľadu analýzy prirodzeného jazyka. Analyzuje existujúce riešenie a jeho komponenty so zameraním predovšetkým na jeho nedostatky a popisuje návrh a implemetáciu riešenia nového využívajúce získané znalosti.cs
dc.description.abstractThis thesis deals with the topic of extraction of text from web page, recognition of important contents and its transformation to vertical format, which can be used as a suitable input for other natural language processing tasks. It analyzes the existing solution and its components with emphasis on its disadvantages and describes the design and implementation of new solution based on obtained knowledge.en
dc.description.markAcs
dc.identifier.citationŠVAŇA, M. Čištění, extrakce textu a převod webových stránek do vertikálního formátu [online]. Brno: Vysoké učení technické v Brně. Fakulta informačních technologií. 2016.cs
dc.identifier.other96502cs
dc.identifier.urihttp://hdl.handle.net/11012/62205
dc.language.isocscs
dc.publisherVysoké učení technické v Brně. Fakulta informačních technologiícs
dc.rightsStandardní licenční smlouva - přístup k plnému textu bez omezenícs
dc.subjectVertikalizáciacs
dc.subjectwebcs
dc.subjectCommonCrawlcs
dc.subjectextrakcia textucs
dc.subjectJustextcs
dc.subjectBoilerpipecs
dc.subjectklasifikácia textucs
dc.subjectspracovanie prirodzeného jazyka.cs
dc.subjectVertcalizationen
dc.subjectweben
dc.subjectCommonCrawlen
dc.subjecttext extractionen
dc.subjectJustexten
dc.subjectBoilerpipeen
dc.subjecttext classificationen
dc.subjectnatural language processing.en
dc.titleČištění, extrakce textu a převod webových stránek do vertikálního formátucs
dc.title.alternativeCleaning, extraction of text and transformation of web pages into vertical formaten
dc.typeTextcs
dc.type.driverbachelorThesisen
dc.type.evskpbakalářská prácecs
dcterms.dateAccepted2016-06-15cs
dcterms.modified2020-05-10-16:12:38cs
eprints.affiliatedInstitution.facultyFakulta informačních technologiícs
sync.item.dbid96502en
sync.item.dbtypeZPen
sync.item.insts2021.11.23 01:00:23en
sync.item.modts2021.11.22 23:56:10en
thesis.disciplineInformační technologiecs
thesis.grantorVysoké učení technické v Brně. Fakulta informačních technologií. Ústav počítačové grafiky a multimédiícs
thesis.levelBakalářskýcs
thesis.nameBc.cs
Files
Original bundle
Now showing 1 - 4 of 4
Loading...
Thumbnail Image
Name:
final-thesis.pdf
Size:
1.89 MB
Format:
Adobe Portable Document Format
Description:
final-thesis.pdf
Loading...
Thumbnail Image
Name:
Posudek-Vedouci prace-18729_v.pdf
Size:
86.21 KB
Format:
Adobe Portable Document Format
Description:
Posudek-Vedouci prace-18729_v.pdf
Loading...
Thumbnail Image
Name:
Posudek-Oponent prace-18729_o.pdf
Size:
87.53 KB
Format:
Adobe Portable Document Format
Description:
Posudek-Oponent prace-18729_o.pdf
Loading...
Thumbnail Image
Name:
review_96502.html
Size:
1.48 KB
Format:
Hypertext Markup Language
Description:
review_96502.html
Collections