Pořízení podrobné a gigantické fotografie a lokalizace v ní
Loading...
Date
Authors
Dubovec, Pavol
ORCID
Advisor
Referee
Mark
C
Journal Title
Journal ISSN
Volume Title
Publisher
Vysoké učení technické v Brně. Fakulta informačních technologií
Abstract
Cieľom tejto práce bolo vytvoriť veľký obrázok a novú techniku na lokalizáciu fotografie vo väčšom obrázku, aby sa zvýšila rýchlosť a presnosť bežných metód. Navrhovaná technika využíva architektúru CNN na extrakciu embeddings z dopytovaného obrázka, ktoré sa použijú na vyhľadávanie v databáze embeddings z veľkej fotografie. Boli natrénované dva modely na veľkom súbore údajov: klasifikačný (CE) a dištančný (triplet). Na určenie umiestnenia obrázkov a na generovanie veľkého obrázka sa použili konvenčné metódy. Databáza vkladov sa vytvorila rozdelením veľkej fotografie pomocou natrénovaného modelu. V databáze sa vyhľadá K-najbližších embeddings výrezov query obrázka. Tieto embeddings sa generujú rozdelením query fotografie na rovnako veľké časti ako vstupy CNN. Optimálny model homografie sa určí náhodným výberom na základe pozícií štyroch výrezov query obrazov a ich zodpovedajúcich pozícií vo veľkom obraze. Ako výsledná pozícia sa vyberie model homografie s najnižším harmonickým priemerom embedding vzdialenosti. Homografia sa optimalizuje pomocou párovania šablón, kde je to možné. Metóda vykazuje dostatočnú presnosť a vysokú rýchlosť na testovacích súboroch údajov. Najlepší model dosiahol presnosť top-1 97.71% a presnosť top-3 99.67 %. V ďalšom výskume sa budú zisťovať výsledky metódy pri zvyšujúcej sa heterogenite povrchu, možnosti automatizácie vyhľadávania videí na získanie veľkého súboru údajov s fotografiami a jej účinnosť pri lokalizácii fotografií, keď bežné metódy zlyhávajú.
The goal of this work was to create a large image and a new technique to localize the photo in the larger image to increase the speed and accuracy of conventional methods. The proposed technique uses CNN architecture to extract embeddings from the queried image which will be used to search the database of embeddings from the large photo. Two models have been trained on a large dataset: based on classification (CE) and distance (triplet) Conventional methods were used to determine the location of the images and to generate the large image. A database of embeddings was created by partitioning the large image using the trained model. The database is searched for the K-nearest embeddings of the cutouts of the query image. These embeddings are generated by dividing the query photo into the same size parts as the CNN inputs. The optimal homography model is determined by random selection based on the positions of the four query image cutouts and their corresponding positions in the big picture. The homography model with the lowest harmonic mean of the embedding distance is selected as the final position. The homography is optimized using template matching where possible. The method shows sufficient accuracy and high speed on test datasets. The best model achieved a top-1 accuracy of 97.71% and a top-3 accuracy of 99.67%. Future research will investigate the performance of the method under increasing surface heterogeneity, the possibility of automating video retrieval to obtain a large dataset with photos, and its effectiveness in locating photos when conventional methods fail.
The goal of this work was to create a large image and a new technique to localize the photo in the larger image to increase the speed and accuracy of conventional methods. The proposed technique uses CNN architecture to extract embeddings from the queried image which will be used to search the database of embeddings from the large photo. Two models have been trained on a large dataset: based on classification (CE) and distance (triplet) Conventional methods were used to determine the location of the images and to generate the large image. A database of embeddings was created by partitioning the large image using the trained model. The database is searched for the K-nearest embeddings of the cutouts of the query image. These embeddings are generated by dividing the query photo into the same size parts as the CNN inputs. The optimal homography model is determined by random selection based on the positions of the four query image cutouts and their corresponding positions in the big picture. The homography model with the lowest harmonic mean of the embedding distance is selected as the final position. The homography is optimized using template matching where possible. The method shows sufficient accuracy and high speed on test datasets. The best model achieved a top-1 accuracy of 97.71% and a top-3 accuracy of 99.67%. Future research will investigate the performance of the method under increasing surface heterogeneity, the possibility of automating video retrieval to obtain a large dataset with photos, and its effectiveness in locating photos when conventional methods fail.
Description
Citation
DUBOVEC, P. Pořízení podrobné a gigantické fotografie a lokalizace v ní [online]. Brno: Vysoké učení technické v Brně. Fakulta informačních technologií. 2024.
Document type
Document version
Date of access to the full text
Language of document
sk
Study field
Počítačové vidění
Comittee
prof. Ing. Adam Herout, Ph.D. (předseda)
doc. Ing. Michal Španěl, Ph.D. (člen)
prof. Ing. Tomáš Vojnar, Ph.D. (člen)
doc. Ing. Vítězslav Beran, Ph.D. (člen)
doc. Ing. Peter Chudý, Ph.D., MBA (člen)
Ing. David Bařina, Ph.D. (člen)
Date of acceptance
2024-06-18
Defence
Student nejprve prezentoval výsledky, kterých dosáhl v rámci své práce. Komise se poté seznámila s hodnocením vedoucího a posudkem oponenta práce. Student následně odpověděl na otázky oponenta a na další otázky přítomných. Komise se na základě posudku oponenta, hodnocení vedoucího, přednesené prezentace a odpovědí studenta na položené otázky rozhodla práci hodnotit stupněm C.
Result of defence
práce byla úspěšně obhájena
Document licence
Standardní licenční smlouva - přístup k plnému textu bez omezení