g: VRAM→メインメモリ p:メインメモリ→VRAMで見てみたけど、これは粒度が細かすぎて(転送コストが高すぎて)メインメモリ上でAVXに任せた方が速いに決まってる案件なのかも。

g 1024

g 128

g 1536

g 192

g 2048

g 3072

g 4608

g 512

g 64

p 1024

p 11348

p 1224

p 128

p 1536

p 157184

p 192

p 197120

p 2048

p 3072

p 3264

p 34816

p 416

p 4608

p 479232

p 512

p 576

p 594432

p 64

p 66048

p 98496

Reply to this note

Please Login to reply.

Discussion

No replies yet.