Synchronizace v rámci CUDA

poslední přednáška na půlsemestrálku
atomické instrukce - ještě pomalejší než?
bariéra __syncthreads()
paměťové zábrany jako ompflush()
atom v shared mem
- rychlejší než v globální
- ale pomalejší než normální přístup - až 10 taktů (musí se vypláchnout)
v warpech
- synchwarp() - ze synchronizaci nejrychlejší

Atomické operace

Nad globální pamětí

velmi drahé při přístupu do 1 proměnné
to stejné, když je zámek z 2 vláken na 1 cache line

Cache L2 nebo SM

L2 = latence 100 taktů, stále hodně, ale 10x než global mem
SM = poměrně levné při dobrém přístupu

Paralelní redukce

Pokud máme asociativní operaci - můžeme paralelizovat!

Správná implementace

často na zkoušce!!

optimalizace

volatile zaručí zápis do paměti, ale stačí __syncwarp()

redukce uvnitř warpu přes registry

pokud warp nebyl zasynchronizovaný, tak se použitím této operace za synchronizuje

Skalární součin

Kdo zajistí, že proměnná res byla inicializována na 0?
- kernel předtím nebo z procesoru

Scan nad velkými vektory

při velkém počtu prvků může mezi část potřebovat udělat víckrát