Zpracování vědeckých článků ve formátu PDF
Loading...
Date
Authors
Adamčíková, Tímea
Advisor
Referee
Mark
A
Journal Title
Journal ISSN
Volume Title
Publisher
Vysoké učení technické v Brně. Fakulta informačních technologií
ORCID
Abstract
Cieľom tejto práce je navrhnúť a implementovať spôsob spracovania vedeckých článkov vo formáte PDF a extrakcie ich názvov, autorov, kľúčových slov a bibliografických citácií. Vytvorená aplikácia umožňuje automatizovane extrahovať tieto informácie, uložiť ich v štruktúrovanej podobe do databázy a vykonať nad nimi analýzu pomocou vygenerovaných grafov, medzi ktoré patrí aj strom znázorňujúci citačné vzťahy medzi analyzovanými článkami. Aplikácia integruje veľký jazykový model Mistral pre alternatívnu identifikáciu bibliografických údajov z citácií. Implementovaný spôsob extrakcie bol porovnaný s existujúcimi riešeniami, otestovaný na vlastnej automaticky vygenerovanej dátovej sade a vyhodnotený na verejnej dátovej sade s takmer 10 000 vedeckými publikáciami.
This work aims to design and implement a method for processing scientific articles in PDF format and extracting their titles, authors, keywords, and bibliographic citations. The developed application automatically extracts this information, stores it in a structured format in a database, and enables analysis using the generated graphs, including a tree visualising the citation relationships between the analysed articles. The application integrates the Mistral large language model for the alternative identification of bibliographic data from citations. The implemented extraction method is compared with existing solutions, tested on a custom automatically generated dataset, and evaluated on a public dataset containing nearly 10,000 scientific publications.
This work aims to design and implement a method for processing scientific articles in PDF format and extracting their titles, authors, keywords, and bibliographic citations. The developed application automatically extracts this information, stores it in a structured format in a database, and enables analysis using the generated graphs, including a tree visualising the citation relationships between the analysed articles. The application integrates the Mistral large language model for the alternative identification of bibliographic data from citations. The implemented extraction method is compared with existing solutions, tested on a custom automatically generated dataset, and evaluated on a public dataset containing nearly 10,000 scientific publications.
Description
Citation
ADAMČÍKOVÁ, T. Zpracování vědeckých článků ve formátu PDF [online]. Brno: Vysoké učení technické v Brně. Fakulta informačních technologií. 2025.
Document type
Document version
Date of access to the full text
Language of document
sk
Study field
Informační technologie
Comittee
doc. Dr. Ing. Dušan Kolář (předseda)
doc. Ing. Vladimír Janoušek, Ph.D. (člen)
Ing. Radek Hranický, Ph.D. (člen)
doc. Ing. Jan Kořenek, Ph.D. (člen)
Ing. Zdeněk Materna, Ph.D. (člen)
Date of acceptance
2025-06-19
Defence
Studentka nejprve prezentovala výsledky, kterých dosáhla v rámci své práce. Komise se poté seznámila s hodnocením vedoucího a posudkem oponenta práce. Studentka následně odpověděla na otázky oponenta a na další otázky přítomných. Komise se na základě posudku oponenta, hodnocení vedoucího, přednesené prezentace a odpovědí studentky na položené otázky rozhodla práci hodnotit stupněm A.
Result of defence
práce byla úspěšně obhájena
