Automatická kvantizace neuronových sítí

Loading...
Thumbnail Image
Date
ORCID
Mark
A
Journal Title
Journal ISSN
Volume Title
Publisher
Vysoké učení technické v Brně. Fakulta informačních technologií
Abstract
Kvantizace hlubokých neuronových sítí je častou technikou optimalizace jejich paměťové a energetické náročnosti, aby mohly být nasazeny na zařízení s omezenými zdroji. Kvantizace se smíšenou přesností umožňuje ještě lepší paměťové a energetické úspory. Volba kvantizačních úrovní jednotlivých vrstev však vyžaduje odborné znalosti a hlubokou analýzu sítě, což je časově velmi náročná činnost. V této bakalářské práci se věnuji návrhu systému pro automatické určování kvantizační úrovně jednotlivých vrstev vstupní neuronové sítě. Využívám k tomu evoluční algoritmus NSGA-II a quantization-aware učení k doladění parametrů kvantizované sítě. S navrženým systémem jsem provedl experimenty s neuronovou sítí MobileNet a podmnožinou datové sady ImageNet. Navržený systém nalezl řešení, které téměř desetkrát zmenšuje velikost modelu při zachování jeho Top-1 klasifikační přesnosti, což v tomto případě překonalo uniformní kvantizaci téměř o 100 %. Tyto úspory lze využít ke snížení výrobních nákladů pamětí do hardwarových akcelerátorů nebo k nasazení hlubokých neuronových sítí na ještě menší zařízení.
Quantization of deep neural networks is a common way to optimize the networks for deployment on energy and memory-constrained devices while maintaining an acceptable accuracy loss. Mixed-precision quantization for weights and activations allows even better memory and energy savings. But selecting the precision for each layer needs expert knowledge and a deep network analysis. In this work, we address this problem and we present a system for automated mixed-precision quantization of neural networks. We utilize the multi-objective evolutionary algorithm NSGA-II and quantization-aware training for fine-tuning the quantization configurations. We conducted experiments with a subset of the ImageNet dataset and MobileNet network. We achieved accuracies comparable to floating-point models while making the memory footprint of the model about ten times smaller. The proposed approach outperforms a widely-used uniform quantization by almost 100 %. These size savings result in the costs of memories in the hardware accelerator savings. Therefore the proposed approach allows deploying deep neural networks to even smaller devices.
Description
Citation
ŠAFÁŘ, M. Automatická kvantizace neuronových sítí [online]. Brno: Vysoké učení technické v Brně. Fakulta informačních technologií. 2023.
Document type
Document version
Date of access to the full text
Language of document
cs
Study field
Informační technologie
Comittee
doc. Ing. František Zbořil, Ph.D. (předseda) doc. RNDr. Dana Hliněná, Ph.D. (člen) Ing. Michal Hradiš, Ph.D. (člen) doc. Ing. Michal Bidlo, Ph.D. (člen) Ing. Vladimír Veselý, Ph.D. (člen)
Date of acceptance
2023-06-15
Defence
Student nejprve prezentoval výsledky, kterých dosáhl v rámci své práce. Komise se poté seznámila s hodnocením vedoucího a posudkem oponenta práce. Student následně odpověděl na otázky oponenta a na další otázky přítomných. Komise se na základě posudku oponenta, hodnocení vedoucího, přednesené prezentace a odpovědí studenta na položené otázky rozhodla práci hodnotit stupněm A.
Result of defence
práce byla úspěšně obhájena
Document licence
Standardní licenční smlouva - přístup k plnému textu bez omezení
DOI
Collections
Citace PRO