GPUだとなんで行列の積と和が高速にこなせるのかピンと来てないです。後で調べてみます。ありがとうございます。
Discussion
条件付きジャンプやメモリアクセス先の変更が少なくて、纏まった量の決まった演算が多いから、と聞いています
信号処理の分野で昔からdspっていう概念がありますよね。連続したメモリ領域で分岐予測が必要ない演算を高速に行うものだと思います。それのより汎用的なシステムなんでしょうかね。最近だとコンパイラの最適化も人が追いかけるの難しいレベルでしょうし、色んな要素技術が集まって高速に動かしてるんでしょうね。調べて見たいと思います。CUDAの本とか、GPUのレジスタとか命令セットは斜め読みだと難しくてよく分かんないんですよね…。意外と複雑なのかも…。