Čištění, extrakce textu a převod webových stránek do vertikálního formátu
but.committee | doc. Ing. Jaroslav Zendulka, CSc. (předseda) doc. Ing. Zdeněk Kotásek, CSc. (místopředseda) Ing. František Grézl, Ph.D. (člen) Ing. Petr Matoušek, Ph.D., M.A. (člen) Ing. Filip Orság, Ph.D. (člen) | cs |
but.defence | Student nejprve prezentoval výsledky, kterých dosáhl v rámci své práce. Komise se poté seznámila s hodnocením vedoucího a posudkem oponenta práce. Student následně odpověděl na otázky oponenta a na další otázky přítomných. Komise se na základě posudku oponenta, hodnocení vedoucího, přednesené prezentace a odpovědí studenta na položené otázky rozhodla práci hodnotit stupněm A. Otázky u obhajoby: Na straně 14, v sekci popisující způsoby porovnávání nástrojů Justext a Boilerpipe píšete, že když jeden z nástrojů selže, bod je přidělen automaticky jeho konkurentovi. Co když ale bude výstup konkurenčního nástroje zcela špatný? Taká mu přidělíte bod? Na straně 16 uvádíte, že celý vertikalizátor je navržen jako sada nástrojů, které mezi sebou komunikují podobně jako roury v Unixu. Jak přesně jednotlivé nástroje v proudu dat rozpoznají hranice mezi jednotlivými dokumenty? | cs |
but.jazyk | čeština (Czech) | |
but.program | Informační technologie | cs |
but.result | práce byla úspěšně obhájena | cs |
dc.contributor.advisor | Dytrych, Jaroslav | cs |
dc.contributor.author | Švaňa, Miloš | cs |
dc.contributor.referee | Otrusina, Lubomír | cs |
dc.date.accessioned | 2020-06-23T09:02:22Z | |
dc.date.available | 2020-06-23T09:02:22Z | |
dc.date.created | 2016 | cs |
dc.description.abstract | Táto práca za zaoberá problematikou extrakcie textu z webových stránok, rozlíšením dôležitého obsahu a jeho prevodom do vertikálneho formátu, ktorý je vhodný na ďalšie spracovanie z pohľadu analýzy prirodzeného jazyka. Analyzuje existujúce riešenie a jeho komponenty so zameraním predovšetkým na jeho nedostatky a popisuje návrh a implemetáciu riešenia nového využívajúce získané znalosti. | cs |
dc.description.abstract | This thesis deals with the topic of extraction of text from web page, recognition of important contents and its transformation to vertical format, which can be used as a suitable input for other natural language processing tasks. It analyzes the existing solution and its components with emphasis on its disadvantages and describes the design and implementation of new solution based on obtained knowledge. | en |
dc.description.mark | A | cs |
dc.identifier.citation | ŠVAŇA, M. Čištění, extrakce textu a převod webových stránek do vertikálního formátu [online]. Brno: Vysoké učení technické v Brně. Fakulta informačních technologií. 2016. | cs |
dc.identifier.other | 96502 | cs |
dc.identifier.uri | http://hdl.handle.net/11012/62205 | |
dc.language.iso | cs | cs |
dc.publisher | Vysoké učení technické v Brně. Fakulta informačních technologií | cs |
dc.rights | Standardní licenční smlouva - přístup k plnému textu bez omezení | cs |
dc.subject | Vertikalizácia | cs |
dc.subject | web | cs |
dc.subject | CommonCrawl | cs |
dc.subject | extrakcia textu | cs |
dc.subject | Justext | cs |
dc.subject | Boilerpipe | cs |
dc.subject | klasifikácia textu | cs |
dc.subject | spracovanie prirodzeného jazyka. | cs |
dc.subject | Vertcalization | en |
dc.subject | web | en |
dc.subject | CommonCrawl | en |
dc.subject | text extraction | en |
dc.subject | Justext | en |
dc.subject | Boilerpipe | en |
dc.subject | text classification | en |
dc.subject | natural language processing. | en |
dc.title | Čištění, extrakce textu a převod webových stránek do vertikálního formátu | cs |
dc.title.alternative | Cleaning, extraction of text and transformation of web pages into vertical format | en |
dc.type | Text | cs |
dc.type.driver | bachelorThesis | en |
dc.type.evskp | bakalářská práce | cs |
dcterms.dateAccepted | 2016-06-15 | cs |
dcterms.modified | 2020-05-10-16:12:38 | cs |
eprints.affiliatedInstitution.faculty | Fakulta informačních technologií | cs |
sync.item.dbid | 96502 | en |
sync.item.dbtype | ZP | en |
sync.item.insts | 2021.11.23 01:00:23 | en |
sync.item.modts | 2021.11.22 23:56:10 | en |
thesis.discipline | Informační technologie | cs |
thesis.grantor | Vysoké učení technické v Brně. Fakulta informačních technologií. Ústav počítačové grafiky a multimédií | cs |
thesis.level | Bakalářský | cs |
thesis.name | Bc. | cs |
Files
Original bundle
1 - 4 of 4
Loading...
- Name:
- final-thesis.pdf
- Size:
- 1.89 MB
- Format:
- Adobe Portable Document Format
- Description:
- final-thesis.pdf
Loading...
- Name:
- Posudek-Vedouci prace-18729_v.pdf
- Size:
- 86.21 KB
- Format:
- Adobe Portable Document Format
- Description:
- Posudek-Vedouci prace-18729_v.pdf
Loading...
- Name:
- Posudek-Oponent prace-18729_o.pdf
- Size:
- 87.53 KB
- Format:
- Adobe Portable Document Format
- Description:
- Posudek-Oponent prace-18729_o.pdf
Loading...
- Name:
- review_96502.html
- Size:
- 1.48 KB
- Format:
- Hypertext Markup Language
- Description:
- review_96502.html