Extrakce informací z Wikipedie
but.committee | doc. RNDr. Pavel Smrž, Ph.D. (předseda) doc. Dr. Ing. Otto Fučík (místopředseda) doc. Mgr. Lukáš Holík, Ph.D. (člen) Ing. Igor Szőke, Ph.D. (člen) Ing. Vladimír Veselý, Ph.D. (člen) | cs |
but.defence | Student nejprve prezentoval výsledky, kterých dosáhl v rámci své práce. Komise se poté seznámila s hodnocením vedoucího a posudkem oponenta práce. Student následně odpověděl na otázky oponenta. Komise se na základě posudku oponenta, hodnocení vedoucího, přednesené prezentace a odpovědí studenta na položené otázky rozhodla práci hodnotit stupněm D. Otázky u obhajoby: Na straně 7 uvádíte, že jste do vyhodnocení zahrnul pouze typy entit, které získaly úspěšnost alespoň 80 %. Můžete komisi ukázat, jaká byla úspěšnost pro ostatní typy entit, které jste do práce nezahrnul? Na straně 39 uvádíte, že v květnové verzi dumpu Wikipedie bylo smazáno 144 820 článků, které se nacházely v dubnové verzi. Můžete zkusit tyto smazané články zběžně analyzovat a shrnout komisi předpokládané hlavní důvody jejich smazání? Nemohlo se stát, že došlo pouze k jejich přejmenování? | cs |
but.jazyk | čeština (Czech) | |
but.program | Informační technologie | cs |
but.result | práce byla úspěšně obhájena | cs |
dc.contributor.advisor | Smrž, Pavel | cs |
dc.contributor.author | Valušek, Ondřej | cs |
dc.contributor.referee | Otrusina, Lubomír | cs |
dc.date.created | 2019 | cs |
dc.description.abstract | Tato práce se zabývá automatickou extrakcí typů entit ve článcích anglické Wikipedie a jejich vybraných atributů. Jsou v ní představeny postupy za využití prvků strojového učení, které lze ke splnění tohoto účelu využít. Z článků jsou také extrahovány některé důležité atributy, jako například data narození u osob, rozlohy u jezer a podobně. Pomocí systému představeného v této práci je možné ze souboru obsahující všechny články Wikipedie (tzv. dump souboru) vytvořit znalostní databázi, ve které budou klasifikovány miliony článků, dle typu entity o které pojednávají, na základě malé tréninkové sady. Při tomto procesu je také generován soubor, kde jsou kromě ostatních příznaků z článků extrahována tzv. definiční slova, což jsou klíčová slova nalezena pomocí analýzy přirozeného textu. Ta je možno použít také v jiných oblastech, než pouze při určování typů entit. Součástí celého systému je také modul, který označí změny mezi jednotlivými verzemi znalostní databáze, tedy například, které články byly přidány, které smazány a u kterých se udála změna. | cs |
dc.description.abstract | This thesis deals with automatic type extraction in English Wikipedia articles and their attributes. Several approaches with the use of machine learning will be presented. Furthermore, important features like date of birth in articles regarding people, or area in those about lakes, and many more, will be extracted. With the use of the system presented in this thesis, one can generate a well structured knowledge base, using a file with Wikipedia articles (called dump file) and a small training set containing a few well-classed articles. Such knowledge base can then be used for semantic enrichment of text. During this process a file with so called definition words is generated. Definition words are features extracted by natural text analysis, which could be used also in other ways than in this thesis. There is also a component that can determine, which articles were added, deleted or modified in between the creation of two different knowledge bases. | en |
dc.description.mark | D | cs |
dc.identifier.citation | VALUŠEK, O. Extrakce informací z Wikipedie [online]. Brno: Vysoké učení technické v Brně. Fakulta informačních technologií. 2019. | cs |
dc.identifier.other | 121835 | cs |
dc.identifier.uri | http://hdl.handle.net/11012/180089 | |
dc.language.iso | cs | cs |
dc.publisher | Vysoké učení technické v Brně. Fakulta informačních technologií | cs |
dc.rights | Standardní licenční smlouva - přístup k plnému textu bez omezení | cs |
dc.subject | klasifikace článků | cs |
dc.subject | určování typů entit | cs |
dc.subject | přirozený text | cs |
dc.subject | zpracování přirozeného jazyka | cs |
dc.subject | určováníslovních druhů | cs |
dc.subject | SpaCy | cs |
dc.subject | Stanford CoreNLP | cs |
dc.subject | Wikipedie | cs |
dc.subject | SVM | cs |
dc.subject | Metoda podpůrnýchvektorů | cs |
dc.subject | strojové učení | cs |
dc.subject | umělá inteligence | cs |
dc.subject | extrakce atributů | cs |
dc.subject | article classification | en |
dc.subject | entity type detection | en |
dc.subject | natural text | en |
dc.subject | natural language processing | en |
dc.subject | partof-speech tagging | en |
dc.subject | SpaCy | en |
dc.subject | Stanford CoreNLP | en |
dc.subject | Wikipedia | en |
dc.subject | SVM | en |
dc.subject | Support Vector Machine | en |
dc.subject | machine learning | en |
dc.subject | artificial intelligence | en |
dc.subject | attribute extraction | en |
dc.title | Extrakce informací z Wikipedie | cs |
dc.title.alternative | Information Extraction from Wikipedia | en |
dc.type | Text | cs |
dc.type.driver | bachelorThesis | en |
dc.type.evskp | bakalářská práce | cs |
dcterms.dateAccepted | 2019-06-10 | cs |
dcterms.modified | 2019-07-08-13:31:13 | cs |
eprints.affiliatedInstitution.faculty | Fakulta informačních technologií | cs |
sync.item.dbid | 121835 | en |
sync.item.dbtype | ZP | en |
sync.item.insts | 2025.03.18 19:09:26 | en |
sync.item.modts | 2025.01.17 14:11:44 | en |
thesis.discipline | Informační technologie | cs |
thesis.grantor | Vysoké učení technické v Brně. Fakulta informačních technologií. Ústav počítačové grafiky a multimédií | cs |
thesis.level | Bakalářský | cs |
thesis.name | Bc. | cs |
Files
Original bundle
1 - 4 of 4
Loading...
- Name:
- final-thesis.pdf
- Size:
- 1.73 MB
- Format:
- Adobe Portable Document Format
- Description:
- final-thesis.pdf
Loading...
- Name:
- Posudek-Vedouci prace-18942_v.pdf
- Size:
- 86.55 KB
- Format:
- Adobe Portable Document Format
- Description:
- Posudek-Vedouci prace-18942_v.pdf
Loading...
- Name:
- Posudek-Oponent prace-18942_o.pdf
- Size:
- 91.35 KB
- Format:
- Adobe Portable Document Format
- Description:
- Posudek-Oponent prace-18942_o.pdf
Loading...
- Name:
- review_121835.html
- Size:
- 1.43 KB
- Format:
- Hypertext Markup Language
- Description:
- file review_121835.html