Automatická tvorba korpusů

but.committeecs
but.defencecs
but.jazykčeština (Czech)
but.programInformační technologiecs
but.resultpráce byla úspěšně obhájenacs
dc.contributor.advisorSmrž, Pavelcs
dc.contributor.authorŠantavý, Marekcs
dc.contributor.refereeČernocký, Jancs
dc.date.accessioned2019-06-14T10:51:15Z
dc.date.available2019-06-14T10:51:15Z
dc.date.created2009cs
dc.description.abstractObsahem práce je představení způsobu formátování a značkování textových dat korpusu. Nad vhodně reprezentovanými dokumenty vytváří vrstvu pro jejich vzájemné porovnání s cílem určení míry podobnosti mezi nimi. Nástroje, které výpočty podobnosti zajišťují, jsou základem automatizovaného systému pro vytváření a doplňování existujícího korpusu dat. Mezi dvěma základními přístupy je možno volit podle požadavku výpovědní hodnoty výsledku. Prostředkem pro získávání dat nových je nástroj stahování obsahu webu.cs
dc.description.abstractThis work is a presentation of tagging and formatting of text-data corpus. It creates a layer above suitable represented documents for their mutual comparison in order to determine the similarity among them. Tools that provide near-duplicate calculations are the basis for an automated system for creation and expansion of the existing text-data corpus. There is an option to choose between two basic approaches according to the significance of the outcome. Means of new text-data acquiring is the tool for web crawling.en
dc.description.markCcs
dc.identifier.citationŠANTAVÝ, M. Automatická tvorba korpusů [online]. Brno: Vysoké učení technické v Brně. Fakulta informačních technologií. 2009.cs
dc.identifier.other25643cs
dc.identifier.urihttp://hdl.handle.net/11012/54503
dc.language.isocscs
dc.publisherVysoké učení technické v Brně. Fakulta informačních technologiícs
dc.rightsStandardní licenční smlouva - přístup k plnému textu bez omezenícs
dc.subjectkorpuscs
dc.subjectduplicitycs
dc.subjectRabin otiskcs
dc.subjectredundancecs
dc.subjectpodobnost textových datcs
dc.subjectstahování obsahu webucs
dc.subjectvertikální textcs
dc.subjectSHA-384cs
dc.subjectcorpusen
dc.subjectnear-duplicateen
dc.subjectRabin fingerprinten
dc.subjectredundancyen
dc.subjecttext-data similarityen
dc.subjectweb crawlen
dc.subjectvertical formaten
dc.subjectSHA-384en
dc.titleAutomatická tvorba korpusůcs
dc.title.alternativeAutomatic Creation of Corporaen
dc.typeTextcs
dc.type.driverbachelorThesisen
dc.type.evskpbakalářská prácecs
dcterms.dateAccepted2009-06-18cs
dcterms.modified2020-05-09-23:41:06cs
eprints.affiliatedInstitution.facultyFakulta informačních technologiícs
sync.item.dbid25643en
sync.item.dbtypeZPen
sync.item.insts2020.05.10 02:13:18en
sync.item.modts2020.05.10 01:53:04en
thesis.disciplineInformační technologiecs
thesis.grantorVysoké učení technické v Brně. Fakulta informačních technologií. Ústav počítačové grafiky a multimédiícs
thesis.levelBakalářskýcs
thesis.nameBc.cs
Files
Original bundle
Now showing 1 - 2 of 2
Loading...
Thumbnail Image
Name:
final-thesis.pdf
Size:
312 KB
Format:
Adobe Portable Document Format
Description:
final-thesis.pdf
Loading...
Thumbnail Image
Name:
review_25643.html
Size:
1.42 KB
Format:
Hypertext Markup Language
Description:
review_25643.html
Collections