Synchronizace v rámci CUDA

Atomické operace

Nad globální pamětí

Cache L2 nebo SM

Paralelní redukce

Správná implementace

optimalizace

redukce uvnitř warpu přes registry

Skalární součin

Scan nad velkými vektory