Automatické doplňování a opravy Wikidat a Wikipedie na základě extrakce informací
Loading...
Date
Authors
Hložek, Matej
ORCID
Advisor
Referee
Mark
E
Journal Title
Journal ISSN
Volume Title
Publisher
Vysoké učení technické v Brně. Fakulta informačních technologií
Abstract
Táto bakalárska práca sa zaoberá vytvorením systému pre automatickú extrakciu dát z článkov v anglickom jazyku na internetovej encyklopédií Wikipédia. Z textu prirodzeného jazyka a z takzvaných infoboxov jednotlivých článkov na Wikipédií sú extrahované rôzne informácie podľa triedy, ktorá je určená textovým klasifikátorom. Výsledkom tohto systému je vedomostná základňa obsahujúca všetky vyextrahované dáta a klasifikáciu získaných Wikipédia článkov. Súčasťou systému je aj extraktor článkov, ktorý z takzvaného wikidump súboru vyextrahuje infoboxy a úvodné odseky jednotlivých článkov.
This bachelor's thesis is focused on creation of system for automatic extraction of data from articles in English language from internet encyclopedia site Wikipedia. Depending on class given by text classifier, different types of information are extracted from natural language text and from so called infoboxes of individual articles from Wikipedia. Final product of this system is a knowledge base containing all extracted data and classified type. A notable part of this system is an article extractor that extracts infoboxes and first paragraphs of articles from so called wikidump file.
This bachelor's thesis is focused on creation of system for automatic extraction of data from articles in English language from internet encyclopedia site Wikipedia. Depending on class given by text classifier, different types of information are extracted from natural language text and from so called infoboxes of individual articles from Wikipedia. Final product of this system is a knowledge base containing all extracted data and classified type. A notable part of this system is an article extractor that extracts infoboxes and first paragraphs of articles from so called wikidump file.
Description
Citation
HLOŽEK, M. Automatické doplňování a opravy Wikidat a Wikipedie na základě extrakce informací [online]. Brno: Vysoké učení technické v Brně. Fakulta informačních technologií. 2024.
Document type
Document version
Date of access to the full text
Language of document
sk
Study field
Informační technologie
Comittee
doc. Dr. Ing. Dušan Kolář (předseda)
RNDr. Marek Rychlý, Ph.D. (člen)
doc. Dr. Ing. Otto Fučík (člen)
Ing. František Grézl, Ph.D. (člen)
Ing. Filip Orság, Ph.D. (člen)
Date of acceptance
2024-06-10
Defence
Student nejprve prezentoval výsledky, kterých dosáhl v rámci své práce. Komise se poté seznámila s hodnocením vedoucího a posudkem oponenta práce. Student následně odpověděl na otázky oponenta a na další otázky přítomných. Komise se na základě posudku oponenta, hodnocení vedoucího, přednesené prezentace a odpovědí studenta na položené otázky rozhodla práci hodnotit stupněm E.
Result of defence
práce byla úspěšně obhájena
Document licence
Standardní licenční smlouva - přístup k plnému textu bez omezení