- funkční paralelismus = abych pokryl latenci
- redukuji zátěž na zpracování instrukce, zátěž na frontend - prediktory atd.
- Iterace musí být nezávislé - jde o rozbalení smyčky
- typická jednotka 256 b
- časová složitost / prostorová složitost
c[i] = a[i] + b[i]
1 / (3 x 4B) = 1/12
- intel hodnota = 10 operací nad bytem
- amd ~18
- GPU 50 - 100
- pohybujeme se pod šikmou čárou -> je potřeba upravit kód - brzdí nás RAMka, případně cache