./note122.html

ToC

121. ワイドSIMDの諸問題(2014/8/10)

Xeon Phi で既にそうなっているように、「汎用」コアでは1コアあたりの SIMD 幅がどんどん増える方向に向かっています。「京」の Venus では倍精度2演算の SIMD ユニットが2つでしたが、ポスト FX-10 ではユニットを増やすのはまず無理なので幅が2倍、さらに単精度演算もサポート、その次ではさらに2倍になるのがありそうなストーリーでしょう。そうすると、 1サイクルあたり、単精度では1コアで 64演算(加算32、乗算32)することになります。

これくらい幅が広い時にどのような問題が発生するかを、以下割合簡単な差分法コードを例に考えてみます。

波動方程式のFDTD空間4次精度差分では、こんな感じの差分式を使います。

     x(i,j,k)= (V(i-1,j,k)-V(i+2,j,k))*a+(V(i,j,k)-V(i+1,j,k))*b

これは x 方向(添字が x,y,z の順番として)ですが、もちろんy、z方向の微分も計算します。これは最内側ループを微分の方向に無関係に i で回すと、古典的ベクトル計算機なら問題なくベクトル化され、 B/F=4 とかあれば理論ピークに近い性能(まあ 50%とか)がでます。

これがキャッシュありになるととたんに話がややこしくなって、まず右辺の差分が i 方向だとSIMD 幅でアラインしていないので、レジスタ内でのローテートや理想的にはレジスタ2本から任意の場所を切り出すという命令が必要で、レジスタの本数が少ないとさらにメモリアクセス自体も増えます。

j方向の差分では、 j-1 の時と j の時でアクセスする配列がオーバーラップするので、それが L1キャッシュにはいる程度に最内側ループが短いと原理的には性能がでますが、最内側ループが短いと「京」では性能がでないという問題もあります。まあ、「京」に限ったことではないですが「京」では特に大きな問題でした。

ここでの問題は、SIMD 幅が広くなる、ということは、最内側ループの反復回数がそれだけ小さくなる、ということに直結する、ということです。例えば、最内側ループ長が256だった時、「京」での実際の繰り返し回数は64ですが、単精度32演算のマシンではわずか8になり、ループ長が短くなりすぎます。一方、L1やL2のサイズはSIMD幅が大きくなっても増えないし、バンド幅はなんとか減らさなかったとしてレイテンシは増える方向にいきます。

「京」では、このために i 方向のサイズを大きくして(空間分割を直方体形状にする)、なんとか性能がでるようにする、というアプローチをとっている場合が多いです。これは、メインメモリのバンド幅が B/F で実効0.35 程度はあり、上のループで十分な再利用ができて1要素の計算につき 1 load, 1 store 程度になれば名目ピークの20%程度はでるからです。しかし、SIMD幅が 8倍とかメインメモリのバンド幅が相対的に半分とかになると、実行効率が 1/2ないし 1/3 程度に低下してしまうことになります。

実行効率が主記憶バンド幅依存になれば、ハードウェアの B/F が下がると必ず性能は下がるわけで、なんとかするには主記憶依存にならないようにするしかありません。具体的には、 L2 にはいるサイズ程度で計算して、時間方向に複数タイムステップ進める、最近は temporal blocking と呼ばれるらしい方法を使う必要があります。

これは原理的には美しいのですが、上で述べた、最内側ループが短くなる、という問題は必然的に発生します。おそらく、コンパイラに対しては、最内側ループは手で(あるいは自動生成で)完全にアンロールし、さらにその次のループまでアンロールしたコードを渡す必要があるでしょう。また、横との通信も、メッセージサイズが短くなるため、低レイテンシであることが必須となります。レイテンシ3マイクロ秒とかでは論外で、1マイクロ秒を大きく切らないと、というのが色々なコードででてくる見積もりです。

なお、上のような、最内側の次のループの展開だけでは、L2 の再利用しかできなくてL1 の再利用は k 方向の微分ではできません。k 方向の微分については、配列の j,k 方向での転置を行えば、ループ本体での L2 アクセスは減らすことが原理的には可能です。

そういうわけで、「汎用」プロセッサでは世代が変わる毎にSIMD幅が広くなったり、相対的にメインメモリやキャッシュのバンド幅が下がったりレイテンシが増えたりするので、そういったものに依存したチューニングがされているコードの実行効率はプロセッサの世代が変わると必ず大きく低下します。歴史的には、SIMD が導入された Pentium 4 でそういうフェーズにはいり、それがすでに10年以上続いているわけです。

まあ、ソフトウェアが大事だとかいって人件費をとるにはこういうアプローチがいいのかもしれないのですが、こういう、賽の河原で石を積むようなことを将来ある若い人にやってもらうのは好ましいことではないと私は考えます。

何がいいたいかというと、こういう問題に対してもうちょっと一般化したアプローチをするべきである、ということです。具体的には、というのはすでにこの文章の前のほうに書いたわけですが、、、

Previous ToC Next