84. Top500, Fermi (2010/5/31)
というわけで Top 500 の数字がでています。今回の注目はなんといっても2位
にきた NSCS の
Nebulaeでしょう。システムの詳細はまだ情報がないようですが、コア数の
120640 という数字からは、Westmere 2 ソケットのブレード1つ当り Tesla
C2050 を1枚つけて、コア数を1ノード当り 14 (C2050 のSIMD コアの数)+12
(Westmere 2 個) で 4640 ノードのシステムと思われます。Tesla のピークが
515 Gflops、Xeon が 64 として、ピーク性能も 2.98Pflops になるので多分こ
れで計算があってます。メモリはおそらく 48 GB でしょう。
GRAPE-DR の1ノードの構成に比べると、ホスト計算機の能力が3倍、メモリバン
ド幅は2倍、メモリ量は 2.67 倍、ネットワーク速度は倍、アクセラレータの性
能は6割で、実行効率が GRAPE-DR ではなんとか 49% ですが Nebulae では42%
と若干低くなっています。これだけ贅沢な構成なのに効率が低いのは、前項で
書いたように HPL の普通のソースを使っているための効率低下もあるかもしれ
ませんが、それ以上に Tesla 自体の行列乗算の効率があまり高くない、おそら
く 70% 程度である、ということではないかと思われます。
まあ、ピーク性能に対する割合、というのはそれほど意味があるものではない、
というのはすでに何度か書いた通りです。が、上の数学を Xeon だけの数字と
比べると、Xeon だけで 590Tflops のピーク性能があり、Westmere ならピーク
の9割くらいはでるでしょうから 540Tflops で、Tesla つけて性能 2.4 倍、消
費電力 1.6 倍、価格 1.4 倍といったところでしょう。 価格当りでも電力あた
りでも性能は倍にはならないわけです。RoadRunner の時もそうでしたが、アク
セラレータに意味があるのかどうかかなり微妙な数字です。特に、 AMD なら
12 コアの Opteron 6000 系がピーク性能は Intel Xeon よりも高くておそらく
安価に購入できるし、電力あたりの性能も若干は上と思われるので、差はさら
に小さくなってしまいます。差が小さい根本的な理由は、アクセラレータによっ
て性能が2倍ちょっとにしかなっていないことです。このため、アクセラレー
タ自体の価格性能比がかなり良くても、ホスト計算機がお金や電力を食い潰し
てしまうわけです。
これを、アクセラレータというアプローチそのものに無理がある、と見るか
アクセラレータはまだ発展途上と見るかは人によると思います。私はもちろん
後者です。 83 で見たように、適切なチューニングやア
ルゴリズムの変更を行えば Linpack 性能をホストだけの場合の 10 倍程度に
引き上げることは可能であり、こうなって初めてアクセラレータの意味がでて
きます。
まあ、Linpack ベンチマークにさほど実用上の意味があるわけではないので、
これで数学が出ないといけないというわけでもありません。が、Linpack ベン
チマークは粒子法の色々な計算に比べると主記憶バンド幅、ネットワークバン
ド幅のどちらも比較的高いものを要求するので、Linpack ベンチマークである
程度の数字がでるならかなり色々な応用がある、という目安にはなると思いま
す。
もっとも、現在のLinpack ベンチマークの一つの問題は、原理的に主記憶を大
きくすれば主記憶バンド幅、ネットワークバンド幅の問題を隠蔽できる、とい
うことで、効率が高いように見える数字がでていても巨大な主記憶で長時間か
けた計算で結果を出しているものは実際に他のアプリケーションで使えるかど
うかは?なところがあります。