Systém pro odpovídaní na otázky s využitím obrazu

but.committeeprof. Dr. Ing. Jan Černocký (předseda) doc. Ing. Jiří Jaroš, Ph.D. (místopředseda) doc. RNDr. Milan Češka, Ph.D. (člen) Ing. Filip Orság, Ph.D. (člen) RNDr. Marek Rychlý, Ph.D. (člen)cs
but.defenceStudent nejprve prezentoval výsledky, kterých dosáhl v rámci své práce. Komise se poté seznámila s hodnocením vedoucího a posudkem oponenta práce. Student následně odpověděl na otázky oponenta a na další otázky přítomných. Komise se na základě posudku oponenta, hodnocení vedoucího, přednesené prezentace a odpovědí studenta na položené otázky rozhodla práci hodnotit stupněm B. Otázky u obhajoby: V čem se liší architektura sítě Pythia od architektury up-down? Srovnejte síť Pythia se sítí OSCAR. Použil jste předtrénované modely, nebo jste je sám trénoval?cs
but.jazykangličtina (English)
but.programInformační technologiecs
but.resultpráce byla úspěšně obhájenacs
dc.contributor.advisorFajčík, Martinen
dc.contributor.authorKocurek, Pavelen
dc.contributor.refereeOndřej, Karelen
dc.date.created2021cs
dc.description.abstractVisual Question Answering (VQA) je systém, kde je vstupem obrázek s otázkou a výstupem je odpověď. Navzdory mnoha pokrokům ve výzkumu se VQA, na rozdíl od počítačově generovaných popisů obrázků, v praxi používá jen zřídka. Cílem této práce je zúžit mezeru mezi výzkumem a praxí. Z tohoto důvodu byla kontaktována komunita zrakově postižených a byla jim nabídnuta demonstrativní aplikace VQA a následně byla vytvořena mobilní aplikace. Byla provedena studie s 20 účastníky z komunity. Nejprve účastníci zkoušeli demonstrativní aplikaci po dobu dvou týdnů a následně byli požádáni o vyplnění dotazníku.   80 % respondentů hodnotilo přesnost aplikace VQA jako dostatečnou nebo lepší a většina z nich by ocenila, kdyby jejich aplikace pro generování popisů podporovala také VQA. Po tomto zjištění práce porovná získané znalosti z VQA se znalostmi z popisů v různých scénářích. Byla vytvořena datová sada 111 obrázků různorodých scén s ručně anotovanými popisky. Experiment porovnávající získané znalosti ukázal úspěšnost 69,9 % pro VQA a 46,2 % pro popisy obrázků. V dalším experimentu v 70,9 % případů účastníci vybrali správný popis za pomocí VQA. Výsledky naznačují, že pomocí VQA je možné zjistit více znalostí o detailech obrázků než je to v případě generovaných popisů.en
dc.description.abstractVisual Question Answering (VQA) is a system where an image and a question are used as input and the output is an answer. Despite many research advances, unlike image captioning, VQA is rarely used in practice. This work aims to narrow the gap between research and practice. To examine the possibility of using VQA by blind and visually impaired people, this thesis proposes a demonstrative VQA application and then, a smartphone application. The study with 20 participants from the community was conducted. Firstly, the participants received an application for two weeks. Then, each of them was asked to fill out the questionnaire. 80 % of respondents rated the accuracy of VQA application as sufficient or better and most of them would appreciate it if their image captioning application also supported VQA. Following this discovery, this work tries to establish the link between image captioning and VQA. In particular, the work studies the informativeness provided by both systems in different scenarios. It collects a novel dataset of 111 images with manually annotated captions and diverse scenes. An experiment comparing obtained knowledge showed a success rate of 69.9 % and 46.2 % for VQA and image captioning, respectively. In another experiment 70.9 % of the time, participants were able to select the correct caption based on VQA. The results suggest that VQA outperforms image captioning regarding image details, therefore should be used in practice more often.cs
dc.description.markBcs
dc.identifier.citationKOCUREK, P. Systém pro odpovídaní na otázky s využitím obrazu [online]. Brno: Vysoké učení technické v Brně. Fakulta informačních technologií. 2021.cs
dc.identifier.other136422cs
dc.identifier.urihttp://hdl.handle.net/11012/198908
dc.language.isoencs
dc.publisherVysoké učení technické v Brně. Fakulta informačních technologiícs
dc.rightsStandardní licenční smlouva - přístup k plnému textu bez omezenícs
dc.subjectodpovídání na otázky z obrazuen
dc.subjectzpracování přirozeného jazykaen
dc.subjectodpovídání na otázkyen
dc.subjectpopisování obrázkuen
dc.subjecthluboké učeníen
dc.subjectdotazníken
dc.subjectrnnen
dc.subjectlstmen
dc.subjectberten
dc.subjectdetekce objetkůen
dc.subjectvisual question answeringcs
dc.subjectcomputer visioncs
dc.subjectnatural language processingcs
dc.subjectquestion answeringcs
dc.subjectimage captioningcs
dc.subjectdeep learningcs
dc.subjectquestionnairecs
dc.subjectrnncs
dc.subjectlstmcs
dc.subjectbertcs
dc.subjectobject detectioncs
dc.titleSystém pro odpovídaní na otázky s využitím obrazuen
dc.title.alternativeVisual Question Answeringcs
dc.typeTextcs
dc.type.driverbachelorThesisen
dc.type.evskpbakalářská prácecs
dcterms.dateAccepted2021-06-16cs
dcterms.modified2022-08-24-21:52:01cs
eprints.affiliatedInstitution.facultyFakulta informačních technologiícs
sync.item.dbid136422en
sync.item.dbtypeZPen
sync.item.insts2025.03.18 19:33:41en
sync.item.modts2025.01.15 22:41:53en
thesis.disciplineInformační technologiecs
thesis.grantorVysoké učení technické v Brně. Fakulta informačních technologií. Ústav počítačové grafiky a multimédiícs
thesis.levelBakalářskýcs
thesis.nameBc.cs
Files
Original bundle
Now showing 1 - 4 of 4
Loading...
Thumbnail Image
Name:
final-thesis.pdf
Size:
11.83 MB
Format:
Adobe Portable Document Format
Description:
final-thesis.pdf
Loading...
Thumbnail Image
Name:
Posudek-Vedouci prace-22598_v.pdf
Size:
85.81 KB
Format:
Adobe Portable Document Format
Description:
Posudek-Vedouci prace-22598_v.pdf
Loading...
Thumbnail Image
Name:
Posudek-Oponent prace-22598_o.pdf
Size:
89.14 KB
Format:
Adobe Portable Document Format
Description:
Posudek-Oponent prace-22598_o.pdf
Loading...
Thumbnail Image
Name:
review_136422.html
Size:
1.45 KB
Format:
Hypertext Markup Language
Description:
file review_136422.html
Collections