Velké jazykové modely pro vyhledávání v dopravních videích
Loading...
Date
Authors
Pyšík, Michal
Advisor
Referee
Mark
A
Journal Title
Journal ISSN
Volume Title
Publisher
Vysoké učení technické v Brně. Fakulta informačních technologií
ORCID
Abstract
Existující systémy pro vyhledávání a analýzu záznamů z dopravních kamer často spoléhají na předem definované metody detekce událostí a postrádají schopnost interagovat s uživateli prostřednictvím přirozeného jazyka. Hlavním cílem této diplomové práce je vytvořit takový systém s využítím multimodálních velkých jazykových modelů (MLLM) a souvisejících technologií, konkrétně multimodálních embedovacích modelů, přičemž oba typy modelů v nedávných letech zaznamenaly rychlý rozvoj. Systém je vytvořen tak, že podporuje výběr mezi více modely obou typů, čímž umožňuje jejich flexibilní integraci a porovnání. Všechny dostupné modely jsou dále porovnány specificky v oblasti dopravních záznamů za účelem zhodnocení jejich výkonu a vhodnosti pro praktické nasazení.
Existing systems for searching and analyzing traffic surveillance footage often rely on predefined event detection methods and lack the ability to interact with users through natural language. The main goal of this thesis is to create such system by utilizing multimodal large language models (MLLMs) and related technologies, namely multimodal embedding models, both of which have seen rapid advancements in recent years. The system is designed to support multiple models of both types, enabling flexible integration and comparison. Furthermore, the available models are benchmarked specifically in the domain of traffic footage to evaluate their performance and suitability for practical deployment.
Existing systems for searching and analyzing traffic surveillance footage often rely on predefined event detection methods and lack the ability to interact with users through natural language. The main goal of this thesis is to create such system by utilizing multimodal large language models (MLLMs) and related technologies, namely multimodal embedding models, both of which have seen rapid advancements in recent years. The system is designed to support multiple models of both types, enabling flexible integration and comparison. Furthermore, the available models are benchmarked specifically in the domain of traffic footage to evaluate their performance and suitability for practical deployment.
Description
Keywords
doprava , videa , CCTV , systém , hledání , analýza , multimodální , model , embedding , velký jazykový model , CLIP , GPT , porovnání , strojové učení , umělá inteligence , auta , dopravní značky , Python , traffic , videos , CCTV , system , search , analysis , multimodal , model , embedding , large language model , CLIP , GPT , benchmark , machine learning , artificial intelligence , cars , traffic signs , Python
Citation
PYŠÍK, M. Velké jazykové modely pro vyhledávání v dopravních videích [online]. Brno: Vysoké učení technické v Brně. Fakulta informačních technologií. 2025.
Document type
Document version
Date of access to the full text
Language of document
en
Study field
Matematické metody
Comittee
doc. Mgr. Adam Rogalewicz, Ph.D. (předseda)
doc. RNDr. Pavel Smrž, Ph.D. (člen)
doc. Ing. František Zbořil, CSc. (člen)
Dr. Ing. Petr Peringer (člen)
Ing. Aleš Smrčka, Ph.D. (člen)
Ing. Ondřej Lengál, Ph.D. (člen)
Date of acceptance
2025-06-26
Defence
Student nejprve prezentoval výsledky, kterých dosáhl v rámci své práce. Komise se poté seznámila s hodnocením vedoucího a posudkem oponenta práce. Student následně odpověděl na otázky oponenta a na další otázky přítomných. Komise se na základě posudku oponenta, hodnocení vedoucího, přednesené prezentace a odpovědí studenta na položené otázky rozhodla práci hodnotit stupněm A.
Result of defence
práce byla úspěšně obhájena
