Rozpoznávání osob a jejich činnosti ve videu z bezpečnostních kamer

Loading...
Thumbnail Image

Date

Authors

Skalka, David

Mark

A

Journal Title

Journal ISSN

Volume Title

Publisher

Vysoké učení technické v Brně. Fakulta informačních technologií

ORCID

Abstract

Tato práce se zabývá návrhem a implementací systému pro vyhledávání ve videozáznamech z bezpečnostních kamer na základě dotazu v přirozeném jazyce. Cílem je zkrátit a zefektivnit proces analýzy videa pomocí vícestupňového přístupu, který využívá klasické detekční metody, sledovací algoritmy a moderní multimodální modely, a uživateli následně nabízí potenciálně relevantní snímky k rychlé vizuální kontrole. Navržený systém zahrnuje tři úrovně zpracování. První úroveň využívá model YOLO k vyhledávání objektů podle jejich třídy, barvy a prostorových vztahů. Druhá úroveň aplikuje na tyto detekce algoritmus ByteTrack, čímž přidává možnost vyhledávání na základě směru pohybu. Třetí úroveň pak umožňuje vyhledávání komplexních činností prostřednictvím multimodálních modelů X-CLIP a SigLIP, které propojují vizuální a textovou reprezentaci. Systém byl otestován na vlastní datové sadě 41 videozáznamů. Výsledky ukazují, že detekční modely dosahují nejvyšší přesnosti při základních dotazech, zatímco multimodální modely umožňují flexibilnější, obecnější dotazy za cenu nižší přesnosti. Nasazení více modelů umožňuje přizpůsobit vyhledávání typu dotazu a dosáhnout vyšší celkové efektivity.
This thesis focuses on the design and implementation of a system for query-based search in security camera video. The goal is to shorten and streamline the video analysis process by using a multi-stage approach that uses traditional detection methods, tracking algorithms and modern multimodal models, ultimately presenting the user with potentially relevant images for quick visual inspection. The proposed system consists of three processing levels. The first level uses the YOLO model to search for objects based on their class, color and spatial relationships. The second level applies the ByteTrack algorithm to these detections for object tracking, adding the ability to search based on direction of motion. The third level then allows complex activity to be retrieved using multimodal models X-CLIP and SigLIP, that combine visual and textual representations. The system was tested on a custom dataset of 41 video recordings. Results show that the detection models achieve the highest accuracy for basic queries, while the multimodal models allow for more flexible, general queries at the cost of lower accuracy. The use of multiple models allows the system to the type of query and achieve higher overall efficiency.

Description

Citation

SKALKA, D. Rozpoznávání osob a jejich činnosti ve videu z bezpečnostních kamer [online]. Brno: Vysoké učení technické v Brně. Fakulta informačních technologií. 2025.

Document type

Document version

Date of access to the full text

Language of document

cs

Study field

Informační technologie

Comittee

prof. Ing. Adam Herout, Ph.D. (předseda) Dr. Ing. Petr Peringer (člen) Ing. Matěj Grégr, Ph.D. (člen) Ing. Jaroslav Rozman, Ph.D. (člen) Ing. Jiří Matoušek, Ph.D. (člen)

Date of acceptance

2025-06-18

Defence

Student nejprve prezentoval výsledky, kterých dosáhl v rámci své práce. Komise se poté seznámila s hodnocením vedoucího a posudkem oponenta práce. Student následně odpověděl na otázky oponenta a na další otázky přítomných. Komise se na základě posudku oponenta, hodnocení vedoucího, přednesené prezentace a odpovědí studenta na položené otázky rozhodla práci hodnotit stupněm A.

Result of defence

práce byla úspěšně obhájena

DOI

Collections

Endorsement

Review

Supplemented By

Referenced By

Citace PRO