Automatická tvorba korpusů
but.committee | cs | |
but.defence | cs | |
but.jazyk | čeština (Czech) | |
but.program | Informační technologie | cs |
but.result | práce byla úspěšně obhájena | cs |
dc.contributor.advisor | Smrž, Pavel | cs |
dc.contributor.author | Šantavý, Marek | cs |
dc.contributor.referee | Černocký, Jan | cs |
dc.date.accessioned | 2019-06-14T10:51:15Z | |
dc.date.available | 2019-06-14T10:51:15Z | |
dc.date.created | 2009 | cs |
dc.description.abstract | Obsahem práce je představení způsobu formátování a značkování textových dat korpusu. Nad vhodně reprezentovanými dokumenty vytváří vrstvu pro jejich vzájemné porovnání s cílem určení míry podobnosti mezi nimi. Nástroje, které výpočty podobnosti zajišťují, jsou základem automatizovaného systému pro vytváření a doplňování existujícího korpusu dat. Mezi dvěma základními přístupy je možno volit podle požadavku výpovědní hodnoty výsledku. Prostředkem pro získávání dat nových je nástroj stahování obsahu webu. | cs |
dc.description.abstract | This work is a presentation of tagging and formatting of text-data corpus. It creates a layer above suitable represented documents for their mutual comparison in order to determine the similarity among them. Tools that provide near-duplicate calculations are the basis for an automated system for creation and expansion of the existing text-data corpus. There is an option to choose between two basic approaches according to the significance of the outcome. Means of new text-data acquiring is the tool for web crawling. | en |
dc.description.mark | C | cs |
dc.identifier.citation | ŠANTAVÝ, M. Automatická tvorba korpusů [online]. Brno: Vysoké učení technické v Brně. Fakulta informačních technologií. 2009. | cs |
dc.identifier.other | 25643 | cs |
dc.identifier.uri | http://hdl.handle.net/11012/54503 | |
dc.language.iso | cs | cs |
dc.publisher | Vysoké učení technické v Brně. Fakulta informačních technologií | cs |
dc.rights | Standardní licenční smlouva - přístup k plnému textu bez omezení | cs |
dc.subject | korpus | cs |
dc.subject | duplicity | cs |
dc.subject | Rabin otisk | cs |
dc.subject | redundance | cs |
dc.subject | podobnost textových dat | cs |
dc.subject | stahování obsahu webu | cs |
dc.subject | vertikální text | cs |
dc.subject | SHA-384 | cs |
dc.subject | corpus | en |
dc.subject | near-duplicate | en |
dc.subject | Rabin fingerprint | en |
dc.subject | redundancy | en |
dc.subject | text-data similarity | en |
dc.subject | web crawl | en |
dc.subject | vertical format | en |
dc.subject | SHA-384 | en |
dc.title | Automatická tvorba korpusů | cs |
dc.title.alternative | Automatic Creation of Corpora | en |
dc.type | Text | cs |
dc.type.driver | bachelorThesis | en |
dc.type.evskp | bakalářská práce | cs |
dcterms.dateAccepted | 2009-06-18 | cs |
dcterms.modified | 2020-05-09-23:41:06 | cs |
eprints.affiliatedInstitution.faculty | Fakulta informačních technologií | cs |
sync.item.dbid | 25643 | en |
sync.item.dbtype | ZP | en |
sync.item.insts | 2020.05.10 02:13:18 | en |
sync.item.modts | 2020.05.10 01:53:04 | en |
thesis.discipline | Informační technologie | cs |
thesis.grantor | Vysoké učení technické v Brně. Fakulta informačních technologií. Ústav počítačové grafiky a multimédií | cs |
thesis.level | Bakalářský | cs |
thesis.name | Bc. | cs |