Rozpoznávání opakujících se vzorů SMS zpráv

but.committeeprof. Ing. Tomáš Hruška, CSc. (předseda) prof. Ing. Adam Herout, Ph.D. (místopředseda) doc. Ing. Michal Bidlo, Ph.D. (člen) Ing. František Grézl, Ph.D. (člen) Ing. Aleš Smrčka, Ph.D. (člen)cs
but.defenceStudent nejprve prezentoval výsledky, kterých dosáhl v rámci své práce. Komise se poté seznámila s hodnocením vedoucího a posudkem oponenta práce. Student následně odpověděl na otázky oponenta a na další otázky přítomných. Komise se na základě posudku oponenta, hodnocení vedoucího, přednesené prezentace a odpovědí studenta na položené otázky rozhodla práci hodnotit stupněm D. Otázky u obhajoby: Jak jste testoval kvalitu získané klasifikace SMS spamů (tj. detekci kampaní a získané přiřazení spamů)? Lze toto testování nějak automatizovat?  Můžete rigorózně ukázat, že navržený přístup je lepší než aktuální řešení použité ve firmě Mavenir s.r.o založené na specializovaných hashovacích funkcích? Jaký je vliv jednotlivých "hyper-parametrů" navrženého přístupu na výslednou kvalitu klasifikace SMS spamů. Jak bude vaše práce dál použita?cs
but.jazykangličtina (English)
but.programInformační technologiecs
but.resultpráce byla úspěšně obhájenacs
dc.contributor.advisorHolík, Lukášen
dc.contributor.authorKočalka, Jakuben
dc.contributor.refereeČeška, Milanen
dc.date.created2021cs
dc.description.abstractVďaka pokroku v rozpoznávaní spamu v e-mailoch a zvyšovaní povedomia používateľov smerujú spameri k menej preskúmaným médiám. Jedným z nich je \emph{short messaging service} (SMS). Táto služba poskytuje užívateľom možnosť reagovať na správy v krátkom čase a v skoro ľubovolnom prostredí. Tieto vlastnosti sú atraktívne aj pre legitímne podniky, ktoré potrebujú svojim klinetom zasielať krátke hromadné správy. Aj keď sú tieto správy z pohladu koncového užívateľa vyžiadané, pre poskytovateľa služieb SMS môžu predstavovať stratu, pretože tieto podniky často zneužívajú neobmedzené SMS plány určené pre bežných zákazníkov, aby sa vyhli plateniu za pre nich určené, ale drahšie produkty. Je preto žiaduce vedieť rozpoznať nevyžiadané aj vyžiadané hromadné správy. Hromadné správy sa zvyčajne generujú zo šablóny. Cieľom tejto práce je navrhnúť zhlukovací algoritmus ktorý správy analyzuje ako sekvencie lexikálnych jednotiek (slov), a vyhodnotiť jeho efektivitu v porovnaní s \emph{locality sensitivity hashing} metódou ktorá správy analyzuje ako reťazce symbolov. Práca vyhodnocuje vhodnosť algoritmu Smith-Waterman pre túto úlohu. Práca popisuje, prečo je Smith-Waterman (a ďalšie lokálne zarovnávania) nevhodný, a ako je možné ho nahradiť algoritmom Needleman-Wunsch (globálnym zarovnávaním), aby sa dosiahli oveľa lepšie výsledky. Výsledný algoritmus dokáže uspokojivo zhlukovať skutočné správy do kampaní a funguje dobre aj v situáciách, kde \emph{locality sensitivity hashing} kampane fragmentuje.en
dc.description.abstractWith the advances in e-mail spam recognition and user awareness, spammers are moving towards less researched media. One of those is the short messaging system (SMS), which boasts high availability and open rates. Those characteristics are also attractive to legitimate businesses that need to send short, bulk messages to their clients. However, while these messages might be solicited by the end-user, they might represent a loss for the SMS service provider, as these businesses often misuse unlimited SMS plans meant for regular customers to avoid paying for more expensive solutions designated for them. It is therefore desirable to be able to recognize both unsolicited and solicited bulk messages. Bulk messages are generally generated from a template. The goal of this work is to design a clustering algorithm that treats a message as a sequence of lexical units (words), and evaluate it's effectiveness compared to a locality sensitivity hashing method that treats the message as a string of symbols. The work evaluates the suitability of the Smith-Waterman alignment algorithm for this task. The work details why Smith-Waterman (and other local alignment techniques) is unsuitable, and how it can be replaced by Needleman-Wunsch (global alignment) to produce much better results. The resulting algorithm is able to cluster real messages into campaigns satisfactorily, and performs well even in situations where the benchmark locality sensitivity hashing method fragments campaigns.cs
dc.description.markDcs
dc.identifier.citationKOČALKA, J. Rozpoznávání opakujících se vzorů SMS zpráv [online]. Brno: Vysoké učení technické v Brně. Fakulta informačních technologií. 2021.cs
dc.identifier.other137608cs
dc.identifier.urihttp://hdl.handle.net/11012/201259
dc.language.isoencs
dc.publisherVysoké učení technické v Brně. Fakulta informačních technologiícs
dc.rightsStandardní licenční smlouva - přístup k plnému textu bez omezenícs
dc.subjectSmith-Watermanen
dc.subjectNeedleman-Wunschen
dc.subjectSMSen
dc.subjectspamen
dc.subjectzarovnanie sekvenciíen
dc.subjectzhlukovanie reťazcoven
dc.subjectSmith-Watermancs
dc.subjectNeedleman-Wunschcs
dc.subjectSMScs
dc.subjectspamcs
dc.subjectsequence alignmentcs
dc.subjectstring clusteringcs
dc.titleRozpoznávání opakujících se vzorů SMS zpráven
dc.title.alternativeRecegnition of Repeating SMS Patternscs
dc.typeTextcs
dc.type.driverbachelorThesisen
dc.type.evskpbakalářská prácecs
dcterms.dateAccepted2021-08-24cs
dcterms.modified2022-08-24-21:52:01cs
eprints.affiliatedInstitution.facultyFakulta informačních technologiícs
sync.item.dbid137608en
sync.item.dbtypeZPen
sync.item.insts2025.03.18 19:38:56en
sync.item.modts2025.01.16 00:33:59en
thesis.disciplineInformační technologiecs
thesis.grantorVysoké učení technické v Brně. Fakulta informačních technologií. Ústav inteligentních systémůcs
thesis.levelBakalářskýcs
thesis.nameBc.cs
Files
Original bundle
Now showing 1 - 4 of 4
Loading...
Thumbnail Image
Name:
final-thesis.pdf
Size:
1.03 MB
Format:
Adobe Portable Document Format
Description:
final-thesis.pdf
Loading...
Thumbnail Image
Name:
Posudek-Vedouci prace-24169_v.pdf
Size:
88.28 KB
Format:
Adobe Portable Document Format
Description:
Posudek-Vedouci prace-24169_v.pdf
Loading...
Thumbnail Image
Name:
Posudek-Oponent prace-24169_o.pdf
Size:
89.46 KB
Format:
Adobe Portable Document Format
Description:
Posudek-Oponent prace-24169_o.pdf
Loading...
Thumbnail Image
Name:
review_137608.html
Size:
1.44 KB
Format:
Hypertext Markup Language
Description:
file review_137608.html
Collections