Automatická tvorba korpusů
| but.jazyk | čeština (Czech) | |
| but.program | Informační technologie | cs |
| but.result | práce byla úspěšně obhájena | cs |
| dc.contributor.advisor | Smrž, Pavel | cs |
| dc.contributor.author | Šantavý, Marek | cs |
| dc.contributor.referee | Černocký, Jan | cs |
| dc.date.created | cs | |
| dc.description.abstract | Obsahem práce je představení způsobu formátování a značkování textových dat korpusu. Nad vhodně reprezentovanými dokumenty vytváří vrstvu pro jejich vzájemné porovnání s cílem určení míry podobnosti mezi nimi. Nástroje, které výpočty podobnosti zajišťují, jsou základem automatizovaného systému pro vytváření a doplňování existujícího korpusu dat. Mezi dvěma základními přístupy je možno volit podle požadavku výpovědní hodnoty výsledku. Prostředkem pro získávání dat nových je nástroj stahování obsahu webu. | cs |
| dc.description.abstract | This work is a presentation of tagging and formatting of text-data corpus. It creates a layer above suitable represented documents for their mutual comparison in order to determine the similarity among them. Tools that provide near-duplicate calculations are the basis for an automated system for creation and expansion of the existing text-data corpus. There is an option to choose between two basic approaches according to the significance of the outcome. Means of new text-data acquiring is the tool for web crawling. | en |
| dc.description.mark | C | cs |
| dc.identifier.citation | ŠANTAVÝ, M. Automatická tvorba korpusů [online]. Brno: Vysoké učení technické v Brně. Fakulta informačních technologií. . | cs |
| dc.identifier.other | 25643 | cs |
| dc.identifier.uri | http://hdl.handle.net/11012/54503 | |
| dc.language.iso | cs | cs |
| dc.publisher | Vysoké učení technické v Brně. Fakulta informačních technologií | cs |
| dc.rights | Standardní licenční smlouva - přístup k plnému textu bez omezení | cs |
| dc.subject | korpus | cs |
| dc.subject | duplicity | cs |
| dc.subject | Rabin otisk | cs |
| dc.subject | redundance | cs |
| dc.subject | podobnost textových dat | cs |
| dc.subject | stahování obsahu webu | cs |
| dc.subject | vertikální text | cs |
| dc.subject | SHA-384 | cs |
| dc.subject | corpus | en |
| dc.subject | near-duplicate | en |
| dc.subject | Rabin fingerprint | en |
| dc.subject | redundancy | en |
| dc.subject | text-data similarity | en |
| dc.subject | web crawl | en |
| dc.subject | vertical format | en |
| dc.subject | SHA-384 | en |
| dc.title | Automatická tvorba korpusů | cs |
| dc.title.alternative | Automatic Creation of Corpora | en |
| dc.type | Text | cs |
| dc.type.driver | bachelorThesis | en |
| dc.type.evskp | bakalářská práce | cs |
| dcterms.modified | 2020-05-09-23:41:06 | cs |
| eprints.affiliatedInstitution.faculty | Fakulta informačních technologií | cs |
| sync.item.dbid | 25643 | en |
| sync.item.dbtype | ZP | en |
| sync.item.insts | 2025.03.19 16:53:04 | en |
| sync.item.modts | 2025.01.17 14:37:43 | en |
| thesis.discipline | Informační technologie | cs |
| thesis.grantor | Vysoké učení technické v Brně. Fakulta informačních technologií. Ústav počítačové grafiky a multimédií | cs |
| thesis.level | Bakalářský | cs |
| thesis.name | Bc. | cs |
