g: VRAM→メインメモリ p:メインメモリ→VRAMで見てみたけど、これは粒度が細かすぎて(転送コストが高すぎて)メインメモリ上でAVXに任せた方が速いに決まってる案件なのかも。
g 1024
g 128
g 1536
g 192
g 2048
g 3072
g 4608
g 512
g 64
p 1024
p 11348
p 1224
p 128
p 1536
p 157184
p 192
p 197120
p 2048
p 3072
p 3264
p 34816
p 416
p 4608
p 479232
p 512
p 576
p 594432
p 64
p 66048
p 98496