71. June 2009 Top 500 (2009/6/23)
2009/6 の Top 500 リスト がでました。とりあえず自分のところの話を書くと、
69 に書いたようにまだ効率がでていな
いのと、建物その他の関係もあってまだ 128ノード、1ノード1カードで動いて
いるので理論ピーク 85Tflops、実測22 Tflops と低い数字です。まだチューニ
ング作業その他の真最中、というのが現状で、秋にはもうちょっとまともな数
字にもっていけると思います。が、これは主に場所の手配が間に合うかとかそ
ういう話です。
GRAPE-DR のエントリーの特色は、 Nmax が 368640 と、非常に小さい、という
ことです。1位の RoadRunner は 2329599、2位の ORNL Cray XT5 は 4712799
ですから、 10倍程度違い、メモリ量で 100 倍、計算量では 1000倍以上の違い
があります。これは、もちろん、我々がGRAPE-DR のホスト計算機に掛けるお金
をけちっていて、メモリがあまり沢山ついていないからです。この、メモリが
少ない、ということが、HPL の実行効率が低いもっとも大きな要因であるのは
既に69 に書いた通りです。 GRAPE-DR
システムは、あくまでも天文を含む様々な大規模シミュレーションのために構
築したシステムで、 LINPACK 専用機ではないので、実際に使う時にあまりいら
ない大きなメモリにお金を使ってもしょうがない、ということもあります。
この数字から色々雑音を立てる人もいるとは思いますが、まあ、効率はあと
何割かはあがると思います。で、動作クロックは現在既にかなり上げて動くよ
うになったので、これもいけるとは思います。
まあ、実際上の意味として重要なのは、現在のあまりチューニングが進んでい
ない段階でも、ホスト計算機の性能をアクセラレータを使うことで5倍程度引き
上げることに成功した、ということだと考えています。アクセラレータ、といっ
ても、例えば TSUBAME のようにアクセラレータのほうが遅いのでそんなに大き
な効果はないシステムとか、 RoadRunner のように HPL が全部そっち側で走る
ことができるので Opteron の側が(HPLに関する限り)むしろ意味がないシステ
ムとかと違って、実際に汎用の x86 PC にアクセラレータを搭載し、DGEMM だ
けを加速した上にHPL のソースコードを一部変更するだけで 5 倍の加速を実現
した、ということは、アクセラレータの有用性を十分に示すものと思います。
まあ、もうちょっとメモリがあってチューニングすれば5倍ではなくて20倍くら
いに、、、というのは繰り言になってしまいますね。Top 500 のリリース文か
らは
Energy Efficiency and Other Trends
As energy efficiency becomes a more critical issue for
supercomputing centers, the TOP500 list now provides data on energy
use, expressed as the number of megaflop/s per watt. While the most
energy efficient supercomputers are based on IBM QS22 Cell processor
blades (up to 536 Mflop/watt), A GRAPE-DR custom accelerator system
(429 Mflop/watt) and IBM BlueGene/P systems (up to 372 Mflop/watt),
the Intel quad-core blades are catching up fast, with the
Nehalem-based system achieving up to 273 Mflops/watt and
Harpertown-based systems up to 265 Mflop/watt.
というところで、現在の恐ろしく低い実行効率でも energy efficiency では
Cell 以外の全てのシステムにまさる、ということになります。さすがにあと2
倍くらいはあがるので、そうするとしばらく Energy Efficiency ではトップ
になれるといいなあ、と思います。
世界では、上位のシステムはあまり変わりがなくて、BG/P が増えたとかくら
いですが、国内では色々変化があります。天文台までの日本のシステムは
22 JAMSTEC SX-9 122.4 131.07
28 JAXA FX-1 110.6 121.28
40 RIKEN Xeon 87.89 96.75 <--- Nehalem EP
41 TIT ??? 87.01 163.19
42 U-Tokyo Opteron 82.98 113.05
47 Tsukuba Opteron 77.28 95.39
65 NIFS IBM 56.65 77.00
69 U-Tokyo Xeon 54.21 69.12
78 Kyoto-U Opteron 50.51 61.24
93 NIMS Xeon 42.69 45.88 <--- Nehalem EP
259 NAOJ Opteron 22.93 28.58
277 NAOJ GDR 21.96 84.48
で、天文台は11位、上位10位は Xeon が3、 Opteron 3、後は SX-9, FX
(Sparc), Power 6 (IBM), 東工大のヘテロジニアス、となります。数字をみて
感心するのは Nehalem-EP のシステムの驚異的な実行効率で、 SX-9 や FX-1
に見劣りしないものになっています。これは、なんといっても、素晴らしく高
いメモリアクセス性能が貢献していると思います。基本的に、コードを一切い
じらなくても、行列乗算以外のところの速度が Harpertown とかの数倍になっ
ているわけですから。
この、素晴らしく高いメモリアクセス性能は、 GRAPE-DR のホストとしては理
想的だというのは既に述べた通りですが、普通に使う上で一体何の役に立つん
だろう?というのは疑問でなくもないです。まあ、 HPC では多くのアプリケー
ションがメモリバンド幅リミットなので、大変素晴らしいプロセッサです。
HPC 以外でも、例えばデータベースサーバとかならやはりメモリアクセスリミッ
トでしょうから、方向性としては良いのだと思います。