2023
Browse
Recent Submissions
Now showing 1 - 5 of 22
- ItemJazykové modely pro nedokonalé systémy rozpoznání řeči a písma(Vysoké učení technické v Brně. Fakulta informačních technologií, ) Beneš, Karel; Burget, Lukáš; Wiesner, Matthew; Hrúz, MarekÚkolem statistických jazykových modelů je odhalit a kvantifikovat opakující se vzory v přirozeném jazyce. V této disertační práci je používáme ke zpřesňování automatického přepisu řeči a písma. Nejprve demonstrujeme, jak využít vektor reprezentující téma textu k zavedení dlouhého kontextu do výpočetně velmi levného dopředného jazykového modelu. Ukazujeme, že tato jednoduchá technika překonává zhruba polovinu rozdílu v přesnosti mezi těmito jazykovými modely a podstatně silnějšími modely rekurentními. Poté prověřujeme schopnost těchto tematických vektorů vyhladit chyby přepisu a tím zpřesnit dvouprůchodový přepis řeči. Takto získané zpřesnění je konzistentní, byť malé. Zkoumáme rovněž schopnost jazykových modelů učit se na automatických přepisech, s cílem adaptovat jazykový model na novou doménu při minimalizaci potřeby lidského manuálního přepisu. V sérii experimentů s přepisem písma ukazujeme, že jazykové modely jsou poměrně robustní vůči chybám v automatickém přepisu, což ve většině případů umožňuje vynechat filtrování dat. V nejnáročnějším uvažovaném scénáři ukazujeme, že zatímco původní systém pro přepis má chybovost na úrovni znaků 6.43 % (5.34 % při použití jazykového modelu natrénovaného na lidských anotacích), plné využití strojově přepsaných dat umožní snížit chybovost až na 2.88 %. V druhé části této práce studujeme přímočaré způsoby regularizace jazykových modelů pomocí augmentace trénovacích dat, jež napodobuje chyby způsobené automatickým přepisem. Nejlepších výsledků dosahujeme, když augmentace nesleduje podrobné rozložení chyb konkrétního rozpoznávače, ale pouze jejich povšechné statistiky. Další analýzou tohoto nečekaného výsledku docházíme k závěru, že dosažené zlepšení je důsledkem regularizace namísto adaptace na chyby konkrétního rozpoznávače. Nakonec se věnujeme znovuzavedení slovních jistot do výstupu různých end-to-end rozpoznávačů, jejichž výstup v podobě seznamu N-nejlepších hypotéz (N-best) byl ohodnocen samostatným jazykovým modelem. Tyto konfidence se nejen ukazují jako dobře kalibrované, ale v kvalitativním vyhodnocení prostřednictvím fůze rozpoznávačů prokazují značnou sílu, když jejich využití zlepšuje výsledný systém zhruba tolik jako celý jeden dodatečný rozpoznávač.
- ItemŘadič rekonfigurace FPGA odolný proti poruchám(Vysoké učení technické v Brně. Fakulta informačních technologií, ) Pánek, Richard; Kořenek, Jan; Fišer, Petr; Schölzel, MarioProgramovatelná hradlová pole (FPGAs) jsou hojně využívána pro svůj výpočetní výkon, avšak jejich náchylnost k poruchám způsobeným radiací představuje výzvu zejména ve vesmírných aplikacích. FPGA mohou být využita při zpracování nashromážděných dat při zkoumání vesmírných těles během nejrůznějších vesmírných misí. Tato práce se zabývá využitím rekonfigurace pro zotavení se z poruch konfigurační paměti FPGA. Rekonfigurace je využita k opravě poškozených modulů v odolném systému založeném na tří modulové redundanci (TMR). Pro návrháře odolných systémů je důležité rychle odhadnout odolnost navrhovaného systému v prostředí jeho zamýšleného nasazení. Proto jsme vyvinuli simulační nástroj pro odhad odolnosti systému v nepříznivém prostředí. Odolnost systému založeného na TMR s rekonfigurací je ovlivněna poruchovostí a dobou potřebnou k opravě. Za parametry nástroje pro odhad odolnosti jsme proto navrhli náchylnost FPGA k poruchám konfigurační paměti a čas potřebný k opravě TMR modulu. Náš nástroj je založen na závislosti mezi odolností systému, četností poruch a dobou nutnou k opravě. Pochopení, jak se doba rekonfigurace mění s velikostí modulu, je zásadní pro optimalizaci odolnosti systému. Z experimentálně pozorované nelineární závislosti mezi těmito parametry jsme odvodili, že doba rekonfigurace má významnější vliv na odolnost v prostředích s vyšší frekvencí poruch. Přesnost navrženého nástroje je ověřena na reálném systému, kdy jsou umělé poruchy injektovány přímo do konfigurační paměti FPGA. Dále se tato práce zaměřuje na zlepšení odolnosti proti poruchám samotného řadiče rekonfigurace. Odolnost řadiče je vyhodnocena identifikací jeho kritických bitů, tj. specifických bitů konfigurační paměti, jejichž změna vede k selhání. Stěžejním vlastností odolného řadiče rekonfigurace je jeho schopnost samočinné opravy rekonfigurací. V této práci je takový řadič navržen a důkladně testován injektáží umělých poruch do konfigurační paměti FPGA, aby se vyhodnotila odolnost proti poruchám celého systému. Vyhodnocovací systém zahrnuje benchmarkové obvody a řadič rekonfigurace, což umožňuje analyzovat vliv řadiče na životnost celého systému. Samo opravný řadič vždy prodloužil životnost odolného systému na jednom FPGA a dosáhl až 69 % nárůstu odolnosti ve srovnání s obvody pouze v TMR.
- ItemVyhledávání vzorů založené na hash funkcích pro vysokorychlostní sítě(Vysoké učení technické v Brně. Fakulta informačních technologií, ) Fukač, Tomáš; Kořenek, Jan; Pontarelli, Salvatore; Zdeněk, MatějNeustále se zvyšující rychlost síťových linek zvyšuje požadavky na výkonnost systémů zajišťujících zabezpečení a monitorování sítě, zejména Intrusion Detection System (IDS). Systémy IDS provádějí hloubkovou kontrolu paketů a detekují síťové hrozby pomocí sady pravidel obsahující velké množství vzorů. Vzhledem k vysoké výpočetní náročnosti musí systémy IDS využívat hardwarovou akceleraci, aby dosáhly propustnosti 100 Gb/s. Vyhledávání vzorů v síťovém provozu je výpočetně nejnáročnější částí zpracování paketů v IDS a bývá proto obvykle hardwarově akcelerováno. Současné hardwarové architektury však používají masivní replikaci pamětí a datových struktur a mohou podporovat pouze malé sady vzorů. Pro podporu velkých sad pravidel mohou rychlé aproximované pre-filtry předzpracovat síťový provoz a výrazně snížit zátěž na následující přesné vyhledávání vzorů realizovaní v softwaru nebo hardwaru. Tato práce se proto zabývá návrhem vysoce efektivní architektury pre-filtru založené na hashování, která nahrazuje složité vyhledávání vzorů podstatně jednodušším vyhledáváním krátkých řetězců. Pre-filtr provádí vyhledávání pomocí několika paralelních hashovacích funkcí a vhodně sdílené sady paměťových bloků uchovávajících krátké řetězce. Díky absenci replikace obsahu paměti jsou efektivně využívány hardwarové prostředky. Architektura dosahuje vysoké míry pre-filtrace, podporuje velké sady pravidel a její propustností je škálovatelnost na stovky Gb/s. Kromě toho práce dále představuje optimalizace zaměřené na zvyšování efektivity využití hardwarových zdrojů a ukazuje jejich přínos pro open-source systém akcelerující IDS Snort - Pigasus. Navržený koncept hardwarové architektury je navíc použit v hardwarově akcelerovaných zařízeních pro zabezpečení a monitorování sítí používaných Ministerstvem vnitra ČR a byl také komercializována firmou BrnoLogic.
- ItemAutomatické odpovídání na faktické otázky a ověřování faktů v přirozeném jazyce(Vysoké učení technické v Brně. Fakulta informačních technologií, ) Fajčík, Martin; Smrž, Pavel; Boyd-Graber, Jordan Lee; Thorne, JamesTato práce se zabývá dvěma problémy, které spoléhají na přesné pochopení faktických informací. Ve faktoidním zodpovídání otázek (QA) se práce zabýva třemi tématy. Nejprve je představena nová objektivní funkce a formulace složené pravděpodobnosti pro systémy, které extrahují odpověď jako textový úsek. Experimenty ukazují, že navrhovaná objektivní funkce se složeným pravděpodobnostním prostorem je Pareto optimální vůči jiným, běžně používaným objektivním funkcím. V druhé části se práce zabývá problematikou QA nad otevřenou doménou. Ukazuje vzájemně doplňující se vlastnosti extraktivních a abstraktivních přístupů a navrhuje nový modulární systém R2-D2, který slouží jako silný systém pro srovnání (baseline) v komunitě. V třetí části práce studuje vliv zmenšovaní korpusu pro vyhledávání pomocí mechanismu prořezávání při použití R2-D2. Experimenty ukazují, že u dvou populárních datových sad - NaturalQuestions a TriviaQA - lze odstranit dvě třetiny korpusu pro vyhledávání, aniž by došlo ke zhoršení výsledných odpovědí systému a 92 % lze odstranit se zhoršením pouze do -3 skóre přesné shody (exact match). Zjištené poznatky naznačují, že stejný mechanismus prořezávání je implicitně přítomen v moderních metodách učeného vyhledávání, jako je DPR. Dále v oblasti ověřování faktů se práce dotýká dvou témat. Jednak ukazuje, že předtrénované modely, které nepoužívají žádné ručně vytvořené příznaky nebo metadata, mohou dosáhnout konkurenceschopných výsledků v detekci postoje lidí k fámám. Vytvořený systém se konkrétně zaměřuje na zjišťování postojů k fámám ve vláknech sociálních sítí a určuje, jestli daný příspěvek ve vlákně podporuje, odmítá, zpochybňuje nebo komentuje fámu přítomnou v diskusním vláknu. Provedené experimenty ukazují, že použití pouze prvního příspevku vlákna a předchozího příspevku vlákna stačí k tomu, aby model určil aktuální postoj příspevku. Posledním tématem, kterým se práce zabývá, je ověřování faktů založené na vyhledávání podporující evidence. Je navržen systém Claim-Dissector, který společně identifikuje relevantní evidenci a určuje věrohodnost diskutabilního tvrzení. Navržený systém dokáže najít podpůrnou a vyvracející evidenci pro tvrzení v jakékoli jazykové granularitě, na úrovni tokenů, vět nebo odstavců, a propojit je interpretovatelným způsobem s verdiktem. Dále je ukázáno, že model umožňuje úspěšný přenos učení z hrubé granularity poskytnuté během učení na jemnou granularitu predikcí. Zejména je ukázano, že učení identifikace relevance na úrovni vět je dostatečné k získání relevantních zdůvodnění na úrovni tokenu a učení na úrovni bloku je dostatečné k získání relevantních zdůvodnění na úrovni vět. Silné výsledky systému Claim-Dissector jsou demonstrovány na 5 datových sadách, včetně nově shromážděné sady TLR-FEVER, a dvou různých předtrénovaných modelech. Kód pro všechny experimenty je k dispozici online.
- ItemVyužití formálních metod v přibližném počítání(Vysoké učení technické v Brně. Fakulta informačních technologií, ) Matyáš, Jiří; Češka, Milan; Kubátová, Hana; Kumar, Akash; Pozzi, LauraV minulosti se výkon počítačových systémů zvyšoval hlavně díky tzv. Mooreovu zákonu - každé dva roky se počet transistorů na čipu přibližně zdvojnásobí. V současné době tento zákon přestává platit a tak se objevují a vyvíjí nové alternativní výpočetní přístupy, které mají za úkol zrychlit a zefektivnit výpočetní systémy. Jedním z těchto přístupů je tzv. aproximované počítání, které se snaží urychlit a zefektivnit výpočty za cenu přijatelných nepřesností ve výsledcích. Tento přístup je aplikovatelný hlavně v oblastech, které jsou přirozeně odolné vůči chybám - např. neuronové sítě nebo zpracování multimédií. Techniky pro aproximované počítání se postupně vyvinuly na všech úrovních výpočetních systémů. V rámci této práce se zaměřujeme na prohledávací algoritmy pro přibližný návrh hardwarových aritmetických obvodů. Aproximace aritmetických obvodů má velký potenciál, protože tyto obvody slouží jako základní stavební kameny větších systémů. Automatizované prohledávací aproximační algoritmy často pracují iterativně. V každé iteraci se nejprve vytvoří kandidátní aproximovaná řešení (pomocí komponenty zvané syntetizér), a poté se vyhodnotí jejich chyba vzhledem ke správnému řešení (komponenta analyzátor). Pro získání kvalitních aproximovaných obvodů musí prohledávací algoritmy vykonat velké množství těchto iterací. Proto je nutná vysoká efektivita syntetizéru i analyzátoru. Abychom zvýšili výkonnost těchto komponent, zapojujeme do prohledávacího algoritmu založeném na Kartézském genetickém programování (CGP) metody formální verifikace. Analyzátor je akcelerován za použití speciálního obvodu zvaného aproximační miter, který nám umožňuje převést vyhodnocení chyby obvodu na rozhodovací problém a tento problém vyřešit pomocí nástrojů zvaných SAT solvery. Další zrychlení aproximačního algoritmu přináší nově navržená strategie, která uvaluje limit na prostředky, které může SAT solver využít při vyhodnocování chyby kandidátních řešení. Díky tomuto limitu je evoluční algoritmus motivován hledat rychle verifikovatelná řešení. Výsledkem je větší množství iterací prohledávacího algoritmu a tím pádem také vyšší kvalita výsledných aproximovaných obvodů. Použitý evoluční algoritmus se může během aproximace "zaseknout" v tzv. lokálních optimech. Navržené vylepšení syntetizéru integruje CGP a optimalizaci pod-obvodů využívající SAT solver umožňuje evolučnímu algoritmu uniknout z lokálních optim. Díky tomu může algoritmus dále zlepšovat řešení i v případech, v nichž by se původní varianta CGP již dále nezlepšila. Dalším navrženým vylepšením syntetizéru je nový mutační operátor pro CGP, vytvořený speciálně pro co nejefektivnější aproximaci obvodů. Výsledky prezentované v rámci této dizertační práce výrazně vylepšují výkonnost prohledávacích algoritmů pro aproximaci aritmetických obvodů. Díky tomu můžeme získat aproximace obvodů velkých bitových šířek se složitou vnitřní strukturou (např. 32bitové násobičky nebo 128bitové sčítačky), které poskytují doposud nejlepší známý poměr mezi aproximační chybou a spotřebou elektrické energie.