Paralelizace ultrazvukových simulací pomocí 2D dekompozice

but.committeeprof. Ing. Lukáš Sekanina, Ph.D. (předseda) prof. RNDr. Milan Češka, CSc. (místopředseda) Ing. Vladimír Bartík, Ph.D. (člen) Prof. RNDr. Mária Lucká, Ph.D. (člen) Ing. Tomáš Martínek, Ph.D. (člen) doc. Ing. František Zbořil, CSc. (člen)cs
but.defenceStudent nejprve prezentoval výsledky, kterých dosáhl v rámci své práce. Komise se poté seznámila s hodnocením vedoucího a posudkem oponenta práce. Student následně odpověděl na otázky oponenta a na další otázky přítomných. Komise se na základě posudku oponenta, hodnocení vedoucího, přednesené prezentace a odpovědí studenta na položené otázky rozhodla práci hodnotit stupněm velmi dobře (B). Otázky u obhajoby: It is stated on page 12 that the FFTE library is not used for the numerical comparisons as it does not support in-place transforms. However, on page 13, it states that the experiments were all performed using out-of-place transforms (so FFTE could have been compared). Why were out-of-place transforms used? What conclusions can be made about the analogous in-place results? What would be the optimal network topology (Torus, hypercube, fat tree, etc) for computing the 3D FFT on a cluster? Explain how non-blocking communications might be used in the context of an ultrasound simulation using k-Wave?cs
but.jazykčeština (Czech)
but.programInformační technologiecs
but.resultpráce byla úspěšně obhájenacs
dc.contributor.advisorJaroš, Jiřícs
dc.contributor.authorNikl, Vojtěchcs
dc.contributor.refereeDvořák, Václavcs
dc.date.accessioned2020-06-23T09:09:14Z
dc.date.available2020-06-23T09:09:14Z
dc.date.created2014cs
dc.description.abstractTato práce je součástí projektu k-Wave, což je simulační nástroj akustické tomografie sloužící k simulaci a rekonstrukci akustických vlnových polí a jeho hlavním přínosem je plánování ultrazvukových operací lidské tkáně, např. nádoru na mozku. Dopředné simulace jsou založeny na řešení k-prostorové pseudospektrální časové domény. Simulace jsou časově a výpočetně velice náročné. Simulace probíhají na 3D maticích, které reprezentují určité vlastnosti reálné tkáně, např. hustotu absorbce nebo rychlost šíření zvuku. K výpočtu gradientu se používá Rychlá Fourierova transformace (dále jen FFT), jejíž výpočet zabere zhruba 60% simulačního času. 3D FFT byla do této doby počítána pomocí softwarové knihovny FFTW, která interně využívá 1D dekompozici, tj. dekompozici podél jedné osy. Hlavní nevýhoda 1D dekompozice je relativně malý maximální počet výpočetních jader, přes které lze paralelizovat výpočet. Matice mají velikost řádově 1024x2048x3072, tím pádem lze efektivně paralelizovat přes maximálně 1024 jader. Dnešní superpočítače umožnují využít až stovky tisíc jader a tomu bychom se rádi přiblížili.  Řešením je využití 2D dekompozice, která by teoretický maximální počet jader posunula až do řádu milionů. Její efektivní implementací se zabývá právě tato práce. 2D dekompozice je obecně paralelizována pouze pomocí MPI procesů, např. v~knihovnách PFFT nebo P3DFFT, v této práci ale využíváme pokročilejší kombinace MPI procesů a OpenMP vláken, kterou jsme nazvali hybridní 2D dekompozice (HybridFFT). Má tři hlavní části: výpočet 1D FFTs, lokální transpozice dat a globální transpozice dat. Pro výpočet sérií 1D FFT je využita knihovna FFTW.Lokální transpozice jsou implementovány pomocí blokové transpozice 2D matice, která je vektorizována pomocí SSE/AVX instrukcí. Jak 1D FFT, tak lokální lokální transpozice, jsou akcelerovány pomocí OpenMP vláken. Globální transpozice je opět implementována prostřednictvím knihovny FFTW, která při použití pokročilého plánování dokáže výrazně snížit dobu potřebnou pro její realizaci. Hlavním cílem této práce je tedy dosáhnout maximálního možného zrychlení a škálovatelnosti oproti předchozímu řešení, zároveň ale i zachovat kompatibilitu a přenositelnost. Hybridní transformace pracuje nejlépe, pokud na jednom socketu spustíme jeden MPI proces a v rámci tohoto socketu využijeme tolik vláken, kolik máme k dispozici jader. Díky tomu nemusí jádra v rámci jednoho socketu komunikovat přes MPI zprávy, ale využívají rychlejší sdílenou paměť, a zároveň je MPI komunikace efektivnější, protože máme pouze jeden MPI proces na socket a tím pádem jsou MPI zprávy vetší a je jich méně, což vede k menšímu zahlcení propojovací sítě a lepší efektivitě komunikace. Řešení bylo testováno na superpočítačích Anselm (Ostrava), Zapat (Brno) a Supernova (Wroclaw). Pro nižší počty jader, v řádu několika set, je výkon přibližně stejný nebo o pár procent lepší, než původně použitá 1D dekompozice FFTW knihovny nebo knihony PFFT a P3DFFT. Jeden z velmi dobrých výsledků je např. 512^3 FFT na 512 jádrech, kde hybridní dekompozice dosáhla času 31 ms, zatímco FFTW 39 ms a PFFT 44ms. Na stroji Anselm jsme spustili výpočet až na 2048 jádrech a škálovatelnost byla stále lineární. Nejlepší nárust výkonu oproti ostatním knihovnám by se měl projevit při počtu zhruba 8-16 tisíc jader pro kostky velikosti 1024^3, protože v této konfiguraci bude mít jeden MPI proces na starosti jednu desku matice a zároveň budou MPI zprávy dostatečně velké a v takovém počtu, že by se měla projevit lepší efektivita komunikace oproti ostatním knihovnám.cs
dc.description.abstractThis thesis is a part of the k-Wave project, which is a toolbox for the simulation and reconstruction of acoustic wave felds and one of its main contributions is the planning of focused ultrasound surgeries (HIFU). One simulation can take tens of hours and about 60% of the simulation time is taken by the calculation of the 3D Fast Fourier transforms. Up until now the 3D FFT has been calculated purely by the FFTW library and its 1D decomposition, whose major limitation is the maximum number of employable cores. Therefore we introduce a new approach, called the 2D hybrid decomposition of the 3D FFT (HybridFFT), where we combine both MPI processes and OpenMP threads to reach as best performance as possible. On a low number of cores, on the order of a few hundreds, we are about as fast or slightly faster than FFTW and pure MPI 2D decomposition libraries (PFFT and P3DFFT). One of the best results was achieved on a 512^3FFT using 512 cores, where our hybrid version run 31ms, FFTW run 39ms and PFFT run 44ms. The most significant performance advantage should be seen when employing around 8-16 thousand cores, however we haven't had an access to a machine with such resources. Almost a linear scalability has been proven for up to 2048 employed cores.en
dc.description.markBcs
dc.identifier.citationNIKL, V. Paralelizace ultrazvukových simulací pomocí 2D dekompozice [online]. Brno: Vysoké učení technické v Brně. Fakulta informačních technologií. 2014.cs
dc.identifier.other128384cs
dc.identifier.urihttp://hdl.handle.net/11012/188799
dc.language.isocscs
dc.publisherVysoké učení technické v Brně. Fakulta informačních technologiícs
dc.rightsStandardní licenční smlouva - přístup k plnému textu bez omezenícs
dc.subjectk-Wavecs
dc.subjectFFTcs
dc.subjectRychlá Fourierova transformacecs
dc.subjecttranspozicecs
dc.subjectdekompozicecs
dc.subjectoptimalizacecs
dc.subjectclustercs
dc.subjectsuperpočítačcs
dc.subjectMPIcs
dc.subjectOpenMPIcs
dc.subjectOpenMPcs
dc.subjectvláknacs
dc.subjectFFTWcs
dc.subjectSSEcs
dc.subjectAVXcs
dc.subjectk-Waveen
dc.subjectFFTen
dc.subjectfast Fourier transformen
dc.subjecttranspositionen
dc.subjectdecompositionen
dc.subjectoptimizationen
dc.subjectclusteren
dc.subjectsupercomputeren
dc.subjectMPIen
dc.subjectOpenMPIen
dc.subjectOpenMPen
dc.subjectthreadsen
dc.subjectFFTWen
dc.subjectSSEen
dc.subjectAVXen
dc.titleParalelizace ultrazvukových simulací pomocí 2D dekompozicecs
dc.title.alternativeParallelization of Ultrasound Simulations Using 2D Decompositionen
dc.typeTextcs
dc.type.drivermasterThesisen
dc.type.evskpdiplomová prácecs
dcterms.dateAccepted2014-06-25cs
dcterms.modified2020-06-01-09:43:31cs
eprints.affiliatedInstitution.facultyFakulta informačních technologiícs
sync.item.dbid128384en
sync.item.dbtypeZPen
sync.item.insts2021.11.12 23:07:50en
sync.item.modts2021.11.12 22:27:17en
thesis.disciplineBioinformatika a biocomputingcs
thesis.grantorVysoké učení technické v Brně. Fakulta informačních technologií. Ústav počítačových systémůcs
thesis.levelInženýrskýcs
thesis.nameIng.cs
Files
Original bundle
Now showing 1 - 2 of 2
Loading...
Thumbnail Image
Name:
final-thesis.pdf
Size:
6.92 MB
Format:
Adobe Portable Document Format
Description:
final-thesis.pdf
Loading...
Thumbnail Image
Name:
review_128384.html
Size:
1.46 KB
Format:
Hypertext Markup Language
Description:
review_128384.html
Collections