Opakování

Sdílená paměť CUDA

Paralelní přístup ke sdílené paměti

Distribuovaná sdílená paměť

Násobení matic

Základní implementace

Krok 4:

Víceblokové násobení matic

Vhodná velikost pro Ampere

Výkonnost víceblokového násobení A100

Využití sdílené paměti

Dvojité bufferování

Eliminace zbytečných instrukcí - Rozbalování smyček