Zpracování vědeckých článků ve formátu PDF

Loading...
Thumbnail Image

Date

Authors

Adamčíková, Tímea

Mark

A

Journal Title

Journal ISSN

Volume Title

Publisher

Vysoké učení technické v Brně. Fakulta informačních technologií

ORCID

Abstract

Cieľom tejto práce je navrhnúť a implementovať spôsob spracovania vedeckých článkov vo formáte PDF a extrakcie ich názvov, autorov, kľúčových slov a bibliografických citácií. Vytvorená aplikácia umožňuje automatizovane extrahovať tieto informácie, uložiť ich v štruktúrovanej podobe do databázy a vykonať nad nimi analýzu pomocou vygenerovaných grafov, medzi ktoré patrí aj strom znázorňujúci citačné vzťahy medzi analyzovanými článkami. Aplikácia integruje veľký jazykový model Mistral pre alternatívnu identifikáciu bibliografických údajov z citácií. Implementovaný spôsob extrakcie bol porovnaný s existujúcimi riešeniami, otestovaný na vlastnej automaticky vygenerovanej dátovej sade a vyhodnotený na verejnej dátovej sade s takmer 10 000 vedeckými publikáciami.
This work aims to design and implement a method for processing scientific articles in PDF format and extracting their titles, authors, keywords, and bibliographic citations. The developed application automatically extracts this information, stores it in a structured format in a database, and enables analysis using the generated graphs, including a tree visualising the citation relationships between the analysed articles. The application integrates the Mistral large language model for the alternative identification of bibliographic data from citations. The implemented extraction method is compared with existing solutions, tested on a custom automatically generated dataset, and evaluated on a public dataset containing nearly 10,000 scientific publications.

Description

Citation

ADAMČÍKOVÁ, T. Zpracování vědeckých článků ve formátu PDF [online]. Brno: Vysoké učení technické v Brně. Fakulta informačních technologií. 2025.

Document type

Document version

Date of access to the full text

Language of document

sk

Study field

Informační technologie

Comittee

doc. Dr. Ing. Dušan Kolář (předseda) doc. Ing. Vladimír Janoušek, Ph.D. (člen) Ing. Radek Hranický, Ph.D. (člen) doc. Ing. Jan Kořenek, Ph.D. (člen) Ing. Zdeněk Materna, Ph.D. (člen)

Date of acceptance

2025-06-19

Defence

Studentka nejprve prezentovala výsledky, kterých dosáhla v rámci své práce. Komise se poté seznámila s hodnocením vedoucího a posudkem oponenta práce. Studentka následně odpověděla na otázky oponenta a na další otázky přítomných. Komise se na základě posudku oponenta, hodnocení vedoucího, přednesené prezentace a odpovědí studentky na položené otázky rozhodla práci hodnotit stupněm A.

Result of defence

práce byla úspěšně obhájena

DOI

Collections

Endorsement

Review

Supplemented By

Referenced By

Citace PRO