Previous | ToC | Next |
2009/6 の Top 500 リスト がでました。とりあえず自分のところの話を書くと、 69 に書いたようにまだ効率がでていな いのと、建物その他の関係もあってまだ 128ノード、1ノード1カードで動いて いるので理論ピーク 85Tflops、実測22 Tflops と低い数字です。まだチューニ ング作業その他の真最中、というのが現状で、秋にはもうちょっとまともな数 字にもっていけると思います。が、これは主に場所の手配が間に合うかとかそ ういう話です。
GRAPE-DR のエントリーの特色は、 Nmax が 368640 と、非常に小さい、という ことです。1位の RoadRunner は 2329599、2位の ORNL Cray XT5 は 4712799 ですから、 10倍程度違い、メモリ量で 100 倍、計算量では 1000倍以上の違い があります。これは、もちろん、我々がGRAPE-DR のホスト計算機に掛けるお金 をけちっていて、メモリがあまり沢山ついていないからです。この、メモリが 少ない、ということが、HPL の実行効率が低いもっとも大きな要因であるのは 既に69 に書いた通りです。 GRAPE-DR システムは、あくまでも天文を含む様々な大規模シミュレーションのために構 築したシステムで、 LINPACK 専用機ではないので、実際に使う時にあまりいら ない大きなメモリにお金を使ってもしょうがない、ということもあります。
この数字から色々雑音を立てる人もいるとは思いますが、まあ、効率はあと 何割かはあがると思います。で、動作クロックは現在既にかなり上げて動くよ うになったので、これもいけるとは思います。
まあ、実際上の意味として重要なのは、現在のあまりチューニングが進んでい ない段階でも、ホスト計算機の性能をアクセラレータを使うことで5倍程度引き 上げることに成功した、ということだと考えています。アクセラレータ、といっ ても、例えば TSUBAME のようにアクセラレータのほうが遅いのでそんなに大き な効果はないシステムとか、 RoadRunner のように HPL が全部そっち側で走る ことができるので Opteron の側が(HPLに関する限り)むしろ意味がないシステ ムとかと違って、実際に汎用の x86 PC にアクセラレータを搭載し、DGEMM だ けを加速した上にHPL のソースコードを一部変更するだけで 5 倍の加速を実現 した、ということは、アクセラレータの有用性を十分に示すものと思います。
まあ、もうちょっとメモリがあってチューニングすれば5倍ではなくて20倍くら いに、、、というのは繰り言になってしまいますね。Top 500 のリリース文か らは
Energy Efficiency and Other Trends As energy efficiency becomes a more critical issue for supercomputing centers, the TOP500 list now provides data on energy use, expressed as the number of megaflop/s per watt. While the most energy efficient supercomputers are based on IBM QS22 Cell processor blades (up to 536 Mflop/watt), A GRAPE-DR custom accelerator system (429 Mflop/watt) and IBM BlueGene/P systems (up to 372 Mflop/watt), the Intel quad-core blades are catching up fast, with the Nehalem-based system achieving up to 273 Mflops/watt and Harpertown-based systems up to 265 Mflop/watt.というところで、現在の恐ろしく低い実行効率でも energy efficiency では Cell 以外の全てのシステムにまさる、ということになります。さすがにあと2 倍くらいはあがるので、そうするとしばらく Energy Efficiency ではトップ になれるといいなあ、と思います。
世界では、上位のシステムはあまり変わりがなくて、BG/P が増えたとかくら いですが、国内では色々変化があります。天文台までの日本のシステムは
22 JAMSTEC SX-9 122.4 131.07 28 JAXA FX-1 110.6 121.28 40 RIKEN Xeon 87.89 96.75 <--- Nehalem EP 41 TIT ??? 87.01 163.19 42 U-Tokyo Opteron 82.98 113.05 47 Tsukuba Opteron 77.28 95.39 65 NIFS IBM 56.65 77.00 69 U-Tokyo Xeon 54.21 69.12 78 Kyoto-U Opteron 50.51 61.24 93 NIMS Xeon 42.69 45.88 <--- Nehalem EP 259 NAOJ Opteron 22.93 28.58 277 NAOJ GDR 21.96 84.48で、天文台は11位、上位10位は Xeon が3、 Opteron 3、後は SX-9, FX (Sparc), Power 6 (IBM), 東工大のヘテロジニアス、となります。数字をみて 感心するのは Nehalem-EP のシステムの驚異的な実行効率で、 SX-9 や FX-1 に見劣りしないものになっています。これは、なんといっても、素晴らしく高 いメモリアクセス性能が貢献していると思います。基本的に、コードを一切い じらなくても、行列乗算以外のところの速度が Harpertown とかの数倍になっ ているわけですから。
この、素晴らしく高いメモリアクセス性能は、 GRAPE-DR のホストとしては理 想的だというのは既に述べた通りですが、普通に使う上で一体何の役に立つん だろう?というのは疑問でなくもないです。まあ、 HPC では多くのアプリケー ションがメモリバンド幅リミットなので、大変素晴らしいプロセッサです。 HPC 以外でも、例えばデータベースサーバとかならやはりメモリアクセスリミッ トでしょうから、方向性としては良いのだと思います。
Previous | ToC | Next |