Rozpoznávání osob a jejich činnosti ve videu z bezpečnostních kamer
| but.committee | prof. Ing. Adam Herout, Ph.D. (předseda) Dr. Ing. Petr Peringer (člen) Ing. Matěj Grégr, Ph.D. (člen) Ing. Jaroslav Rozman, Ph.D. (člen) Ing. Jiří Matoušek, Ph.D. (člen) | cs |
| but.defence | Student nejprve prezentoval výsledky, kterých dosáhl v rámci své práce. Komise se poté seznámila s hodnocením vedoucího a posudkem oponenta práce. Student následně odpověděl na otázky oponenta a na další otázky přítomných. Komise se na základě posudku oponenta, hodnocení vedoucího, přednesené prezentace a odpovědí studenta na položené otázky rozhodla práci hodnotit stupněm A. | cs |
| but.jazyk | čeština (Czech) | |
| but.program | Informační technologie | cs |
| but.result | práce byla úspěšně obhájena | cs |
| dc.contributor.advisor | Smrž, Pavel | cs |
| dc.contributor.author | Skalka, David | cs |
| dc.contributor.referee | Juránková, Markéta | cs |
| dc.date.created | 2025 | cs |
| dc.description.abstract | Tato práce se zabývá návrhem a implementací systému pro vyhledávání ve videozáznamech z bezpečnostních kamer na základě dotazu v přirozeném jazyce. Cílem je zkrátit a zefektivnit proces analýzy videa pomocí vícestupňového přístupu, který využívá klasické detekční metody, sledovací algoritmy a moderní multimodální modely, a uživateli následně nabízí potenciálně relevantní snímky k rychlé vizuální kontrole. Navržený systém zahrnuje tři úrovně zpracování. První úroveň využívá model YOLO k vyhledávání objektů podle jejich třídy, barvy a prostorových vztahů. Druhá úroveň aplikuje na tyto detekce algoritmus ByteTrack, čímž přidává možnost vyhledávání na základě směru pohybu. Třetí úroveň pak umožňuje vyhledávání komplexních činností prostřednictvím multimodálních modelů X-CLIP a SigLIP, které propojují vizuální a textovou reprezentaci. Systém byl otestován na vlastní datové sadě 41 videozáznamů. Výsledky ukazují, že detekční modely dosahují nejvyšší přesnosti při základních dotazech, zatímco multimodální modely umožňují flexibilnější, obecnější dotazy za cenu nižší přesnosti. Nasazení více modelů umožňuje přizpůsobit vyhledávání typu dotazu a dosáhnout vyšší celkové efektivity. | cs |
| dc.description.abstract | This thesis focuses on the design and implementation of a system for query-based search in security camera video. The goal is to shorten and streamline the video analysis process by using a multi-stage approach that uses traditional detection methods, tracking algorithms and modern multimodal models, ultimately presenting the user with potentially relevant images for quick visual inspection. The proposed system consists of three processing levels. The first level uses the YOLO model to search for objects based on their class, color and spatial relationships. The second level applies the ByteTrack algorithm to these detections for object tracking, adding the ability to search based on direction of motion. The third level then allows complex activity to be retrieved using multimodal models X-CLIP and SigLIP, that combine visual and textual representations. The system was tested on a custom dataset of 41 video recordings. Results show that the detection models achieve the highest accuracy for basic queries, while the multimodal models allow for more flexible, general queries at the cost of lower accuracy. The use of multiple models allows the system to the type of query and achieve higher overall efficiency. | en |
| dc.description.mark | A | cs |
| dc.identifier.citation | SKALKA, D. Rozpoznávání osob a jejich činnosti ve videu z bezpečnostních kamer [online]. Brno: Vysoké učení technické v Brně. Fakulta informačních technologií. 2025. | cs |
| dc.identifier.other | 162620 | cs |
| dc.identifier.uri | http://hdl.handle.net/11012/253698 | |
| dc.language.iso | cs | cs |
| dc.publisher | Vysoké učení technické v Brně. Fakulta informačních technologií | cs |
| dc.rights | Standardní licenční smlouva - přístup k plnému textu bez omezení | cs |
| dc.subject | počítačové vidění | cs |
| dc.subject | analýza videozáznamu | cs |
| dc.subject | detekce objektů | cs |
| dc.subject | sledování objektů | cs |
| dc.subject | multimodální modely | cs |
| dc.subject | computer vision | en |
| dc.subject | video analysis | en |
| dc.subject | object detection | en |
| dc.subject | object tracking | en |
| dc.subject | multimodal models | en |
| dc.title | Rozpoznávání osob a jejich činnosti ve videu z bezpečnostních kamer | cs |
| dc.title.alternative | Recognizing People and Their Activities in Video from Security Cameras | en |
| dc.type | Text | cs |
| dc.type.driver | bachelorThesis | en |
| dc.type.evskp | bakalářská práce | cs |
| dcterms.dateAccepted | 2025-06-18 | cs |
| dcterms.modified | 2025-06-18-15:11:19 | cs |
| eprints.affiliatedInstitution.faculty | Fakulta informačních technologií | cs |
| sync.item.dbid | 162620 | en |
| sync.item.dbtype | ZP | en |
| sync.item.insts | 2025.08.26 23:06:48 | en |
| sync.item.modts | 2025.08.26 20:19:19 | en |
| thesis.discipline | Informační technologie | cs |
| thesis.grantor | Vysoké učení technické v Brně. Fakulta informačních technologií. Ústav počítačové grafiky a multimédií | cs |
| thesis.level | Bakalářský | cs |
| thesis.name | Bc. | cs |
