Automatická geo-lokalizace fotografií

Loading...
Thumbnail Image

Date

Authors

Novotný Mlinárcsik, Martin

Mark

D

Journal Title

Journal ISSN

Volume Title

Publisher

Vysoké učení technické v Brně. Fakulta informačních technologií

ORCID

Abstract

Geolokalizácia fotografií je v dnešnej dobe aktuálny problém. V počiatkoch boli pre potreby geolokalizácie využívané ručne vytvorené príznaky, ako napríklad príznaky vytvorené pomocou algoritmu SIFT. V nedávnych časoch sa v tejto oblasti začali skúmať prístupy založené na neurónových sieťach, ktoré dokážu vytvárať presnejšie reprezentácie, avšak sú závislé na veľkom množstve dát. V prípade slabo osídlených alebo ťažko dostupných oblastí, akými sú napríklad horské oblasti, je týchto dát príliš málo pre tréning neurónových sietí. Táto práca využíva umelo vytvorených obrazových modalít pre potrebu geolokalizácie fotografií, keďže umelo vytvorené dáta sú jednoducho dostupné. Model predstavený v tejto práci je inšpirovaný modelom Crosslocate, pričom je jeho pôvodná štruktúra upravená podľa vzoru populárnych architektúr, akými sú napríklad CLIP alebo SimCLR, za použitia neurónových sietí typu Vision Encoder pre potreby spracovania vstupných fotografií a obrazových modalít. Lineárna vrstva je použitá ako projekčná hlava, ktorá transformuje výstup Vision Encoder modelov do rovnakého priestoru príznakov. Ako výsledná lokácia pre dotazovanú fotografiu bude vybraná lokácia tej obrazovej modality, ktorej projekčný vektor bude mať navyššiu mieru podobnosti ku projekčnému vektoru dotazovanej fotografie.
Geo-localization of photographs is a currently an actual problem. At first, hand-crafted features, such as features created by SIFT, were used for the purposes of geo-localization. In recent years, approaches using neural networks were explored, and while such approaches can create more precise representations, they rely on a large number of data. In the case of weakly inhabited areas, such as mountains, the amount of such data is insufficient for training of neural networks. This thesis uses synthetic modalities for the purpose of photograph geo-localization, as synthetic data are easily accessible. The model presented in this work is inspired by Crosslocate, with its original structure modified according to popular architectures such as CLIP or SimCLR, using Vision Encoder neural networks for processing input photos and image modalities. A linear layer is used as a projection head that transforms the output of Vision Encoder models into the same feature space. The location of the image modality, whose projection vector has the highest similarity to the projection vector of the query photo, will be selected as the resulting location for the query photo.

Description

Citation

NOVOTNÝ MLINÁRCSIK, M. Automatická geo-lokalizace fotografií [online]. Brno: Vysoké učení technické v Brně. Fakulta informačních technologií. 2025.

Document type

Document version

Date of access to the full text

Language of document

en

Study field

Počítačové vidění

Comittee

doc. Ing. Richard Růžička, Ph.D., MBA (předseda) doc. Ing. František Zbořil, Ph.D. (člen) prof. Ing. Jiří Jaroš, Ph.D. (člen) doc. Mgr. Adam Rogalewicz, Ph.D. (člen) Mgr. Kamil Malinka, Ph.D. (člen) Ing. Tomáš Milet, Ph.D. (člen)

Date of acceptance

2025-08-26

Defence

Student nejprve prezentoval výsledky, kterých dosáhl v rámci své práce. Komise se poté seznámila s hodnocením vedoucího a posudkem oponenta práce. Student následně odpověděl na otázky oponenta a na další otázky přítomných, např. ke zohlednění výpočetní náročnosti metod při jejich trénování, charakteru trénovacích dat či navržených metod pro zvýšení robustnosti. Komise se na základě posudku oponenta, hodnocení vedoucího, přednesené prezentace a odpovědí studenta na položené otázky rozhodla práci hodnotit stupněm D - uspokojivě.

Result of defence

práce byla úspěšně obhájena

DOI

Collections

Endorsement

Review

Supplemented By

Referenced By

Citace PRO