Šíření tepla

2D destička ohřívaná z jedné strany

$$ { \partial u \over \partial t} = \alpha \nabla^2 u $$

technika konečných diferencí druhého řádu
,,Stencil computing’’ a iterační výpočet

$$ u_{i,j}^{n+1} = u_{i,j}^{n} + \frac{\alpha k}{h^2} (\dots - 4 \cdot u_{i,j}^{n}) $$

Předená na gpu

smyčka while(eps > thres) je sekveční - bude na cpu
std::swap - potřeba bariéry
zbytek může být kernel
typická otázka memory bound problému
vždy když skončí kernel, tak se vymaže sdílená paměť!

2D dekompozice problému

return - vlákna se stane neaktivní - nemusí se účastnit bariéry

Mapování warpů na destičku

nezarovnaný přístup do paměti - 14x14 zápis
- metoda 8. řádu - odskakuje lépe

Natažení dat do sdílené paměti -

natahujeme více dat do sdílené paměti, jinak jsou bloky zarovnané
nevadí nám divergence mezi warpy, ale uvnitř warpů
proč více warpu
- mene vede na divergenci warpu, kdyz pracuje jen část, lze použít přepínání

minimum divergence

Jak zjistím ID Warpu?
- threadIdx.x / 32
Kde je problém?

Více bodů na vlákno - neefektivní

změní bloky na 8x32
asynchronní kopie

Paměť textur

CUDA ARRAY

cudaMemcpy - nakopíruje na správné pozice do paměti

šíření tepla

rychlejší než beztexturní varianta!
nvidia používá např pro více rozměrný fourier transform

Surface paměť

indexace po bajtech!

Paměť konstant

64KB v glob. paměti
při adresování používá cache
funguje dobře, když v rámci warpu, čtou stejnou konstantu
lepší mít AoS než SoA!
- často chceme x y i | x y i | ...
při větší počtu můžeme volat po fázích - prvních X světel, poté dalších X světel