Systém pro odpovídaní na otázky s využitím obrazu

Kocurek, Pavel

Systém pro odpovídaní na otázky s využitím obrazu

but.committee	prof. Dr. Ing. Jan Černocký (předseda) doc. Ing. Jiří Jaroš, Ph.D. (místopředseda) doc. RNDr. Milan Češka, Ph.D. (člen) Ing. Filip Orság, Ph.D. (člen) RNDr. Marek Rychlý, Ph.D. (člen)	cs
but.defence	Student nejprve prezentoval výsledky, kterých dosáhl v rámci své práce. Komise se poté seznámila s hodnocením vedoucího a posudkem oponenta práce. Student následně odpověděl na otázky oponenta a na další otázky přítomných. Komise se na základě posudku oponenta, hodnocení vedoucího, přednesené prezentace a odpovědí studenta na položené otázky rozhodla práci hodnotit stupněm B. Otázky u obhajoby: V čem se liší architektura sítě Pythia od architektury up-down? Srovnejte síť Pythia se sítí OSCAR. Použil jste předtrénované modely, nebo jste je sám trénoval?	cs
but.jazyk	angličtina (English)
but.program	Informační technologie	cs
but.result	práce byla úspěšně obhájena	cs
dc.contributor.advisor	Fajčík, Martin	en
dc.contributor.author	Kocurek, Pavel	en
dc.contributor.referee	Ondřej, Karel	en
dc.date.created	2021	cs
dc.description.abstract	Visual Question Answering (VQA) je systém, kde je vstupem obrázek s otázkou a výstupem je odpověď. Navzdory mnoha pokrokům ve výzkumu se VQA, na rozdíl od počítačově generovaných popisů obrázků, v praxi používá jen zřídka. Cílem této práce je zúžit mezeru mezi výzkumem a praxí. Z tohoto důvodu byla kontaktována komunita zrakově postižených a byla jim nabídnuta demonstrativní aplikace VQA a následně byla vytvořena mobilní aplikace. Byla provedena studie s 20 účastníky z komunity. Nejprve účastníci zkoušeli demonstrativní aplikaci po dobu dvou týdnů a následně byli požádáni o vyplnění dotazníku. 80 % respondentů hodnotilo přesnost aplikace VQA jako dostatečnou nebo lepší a většina z nich by ocenila, kdyby jejich aplikace pro generování popisů podporovala také VQA. Po tomto zjištění práce porovná získané znalosti z VQA se znalostmi z popisů v různých scénářích. Byla vytvořena datová sada 111 obrázků různorodých scén s ručně anotovanými popisky. Experiment porovnávající získané znalosti ukázal úspěšnost 69,9 % pro VQA a 46,2 % pro popisy obrázků. V dalším experimentu v 70,9 % případů účastníci vybrali správný popis za pomocí VQA. Výsledky naznačují, že pomocí VQA je možné zjistit více znalostí o detailech obrázků než je to v případě generovaných popisů.	en
dc.description.abstract	Visual Question Answering (VQA) is a system where an image and a question are used as input and the output is an answer. Despite many research advances, unlike image captioning, VQA is rarely used in practice. This work aims to narrow the gap between research and practice. To examine the possibility of using VQA by blind and visually impaired people, this thesis proposes a demonstrative VQA application and then, a smartphone application. The study with 20 participants from the community was conducted. Firstly, the participants received an application for two weeks. Then, each of them was asked to fill out the questionnaire. 80 % of respondents rated the accuracy of VQA application as sufficient or better and most of them would appreciate it if their image captioning application also supported VQA. Following this discovery, this work tries to establish the link between image captioning and VQA. In particular, the work studies the informativeness provided by both systems in different scenarios. It collects a novel dataset of 111 images with manually annotated captions and diverse scenes. An experiment comparing obtained knowledge showed a success rate of 69.9 % and 46.2 % for VQA and image captioning, respectively. In another experiment 70.9 % of the time, participants were able to select the correct caption based on VQA. The results suggest that VQA outperforms image captioning regarding image details, therefore should be used in practice more often.	cs
dc.description.mark	B	cs
dc.identifier.citation	KOCUREK, P. Systém pro odpovídaní na otázky s využitím obrazu [online]. Brno: Vysoké učení technické v Brně. Fakulta informačních technologií. 2021.	cs
dc.identifier.other	136422	cs
dc.identifier.uri	http://hdl.handle.net/11012/198908
dc.language.iso	en	cs
dc.publisher	Vysoké učení technické v Brně. Fakulta informačních technologií	cs
dc.rights	Standardní licenční smlouva - přístup k plnému textu bez omezení	cs
dc.subject	odpovídání na otázky z obrazu	en
dc.subject	zpracování přirozeného jazyka	en
dc.subject	odpovídání na otázky	en
dc.subject	popisování obrázku	en
dc.subject	hluboké učení	en
dc.subject	dotazník	en
dc.subject	rnn	en
dc.subject	lstm	en
dc.subject	bert	en
dc.subject	detekce objetků	en
dc.subject	visual question answering	cs
dc.subject	computer vision	cs
dc.subject	natural language processing	cs
dc.subject	question answering	cs
dc.subject	image captioning	cs
dc.subject	deep learning	cs
dc.subject	questionnaire	cs
dc.subject	rnn	cs
dc.subject	lstm	cs
dc.subject	bert	cs
dc.subject	object detection	cs
dc.title	Systém pro odpovídaní na otázky s využitím obrazu	en
dc.title.alternative	Visual Question Answering	cs
dc.type	Text	cs
dc.type.driver	bachelorThesis	en
dc.type.evskp	bakalářská práce	cs
dcterms.dateAccepted	2021-06-16	cs
dcterms.modified	2022-08-24-21:52:01	cs
eprints.affiliatedInstitution.faculty	Fakulta informačních technologií	cs
sync.item.dbid	136422	en
sync.item.dbtype	ZP	en
sync.item.insts	2025.03.18 19:33:41	en
sync.item.modts	2025.01.15 22:41:53	en
thesis.discipline	Informační technologie	cs
thesis.grantor	Vysoké učení technické v Brně. Fakulta informačních technologií. Ústav počítačové grafiky a multimédií	cs
thesis.level	Bakalářský	cs
thesis.name	Bc.	cs

Files

Original bundle

Now showing 1 - 4 of 4

Name:: final-thesis.pdf
Size:: 11.83 MB
Format:: Adobe Portable Document Format
Description:: final-thesis.pdf

Download

Name:: Posudek-Vedouci prace-22598_v.pdf
Size:: 85.81 KB
Format:: Adobe Portable Document Format
Description:: Posudek-Vedouci prace-22598_v.pdf

Download

Name:: Posudek-Oponent prace-22598_o.pdf
Size:: 89.14 KB
Format:: Adobe Portable Document Format
Description:: Posudek-Oponent prace-22598_o.pdf

Download

Name:: review_136422.html
Size:: 1.45 KB
Format:: Hypertext Markup Language
Description:: file review_136422.html

Download

Collections

2021