Previous ToC Next

90. 2010/11 Top500 (2010/11/15-2010/11/20 追記)

2010/11 の Top 500 リストがでました。上位は中国の GPU システムが 1, 3 を占めましたが、東工大の TSUBAME2 が 1.2 Pflops を達成して4位にはいった のは素晴らしい成果と思います。なんといっても、中国の Tianhe-1A, 2 ソケッ トあたり Fermi 1枚の構成ではなく、2ソケットに3枚というかなり難しい構成 でちゃんと効率をだしてきたのはすごいことです。

GRAPE-DR は、前回とは違ってなんとか Top500 にはいっています。まあ、相変 わらず性能というか、 HPL を動かすことができたシステムの規模はあまり上がっ てなくて、100カードで 40Tflops 弱です。技術的な問題はまだ1ノードにカー ド2枚では満足な性能がでていないことです。単一ノードでの LU 分解で、カー ド1枚では 450 Gflops(24GB メモリ一杯まで使った時)でるのですが、2枚にし ても 700 程度までしか上がっていません。さらに、依然としてカード2枚での 計算と IB による通信が干渉するという問題が解決出来ていません。これは力 技でなんとかならないこともないのですが、力技にはお金がいるわけですね、、、

技術とあんまり関係ない問題は、今年度中に天文台内でもうちょっと電力と空 調を確保するのに失敗したことです。天文台上層部の方針ですから文句をいっ てもどうにもなりません。これは、もうちょっと色々な方策を考えています。

さて、Top 500 にははいったとして電力当りの性能はどうか?というわけです が、どういうわけか Top500 の電力の数字はこちらが登録したのではないもの (というか、ちゃんとそこから計算していないもの)がはいっています。 383 位にでている、 81 ノードシステムのほうの数字をみていただくと、

   Rmax    Rpeak   kW
   34.55   66.36   362.60
となっているのですが、天文台のどこに 362kW もあるんだよ?という話で、 これはノード当り 362.6W と書いたら何故かそれを 362kW とむこうが間違っ て変換した、というものです。なので、81ノードシステムの消費電力は 29.4kW となっています。これは 100ノードシステムよりだいぶ低いのですが、 それは色々非常にいじましい努力をした成果です。なお、Green500 の〆切ま でにさらに色々いじましい努力を積み重ねて、Rmax 自体および電力性能をさ らにかなりあげています。上の数字だと 1176Mflops/W なのですが、 (平木先生からまだ書くなといわれてた気もしますが、1位でないし、もういい ですね?)

   Rmax    Rpeak   kW
   37.44   66.36   25.41
で、1473Mflops/W です。まあ、Green500 にしても Top500 にしても、アメリ カ人はあまり計算が得意ではないようなので、ちゃんとこの数字でリストして くれるかどうかわかりません。

というわけで、前回の Little Green 500 に出した 815 からは 1.8 倍と、前 回のプレスリリース等に書いた目標は達成し、さらに Top500 にももぐりこむ ことに成功はしたのですが、では Green 500 で1位になれるか?というと今回 おそらく駄目です。これは、 IBM BG/Q がでてきたからです。

   Rmax    Rpeak   kW
   65.35   104.86  38.80
で、100ラックくらいで 20PF という話からはまだラック半分くらいと思いま すが、(ということは、ラック1本で 80kW ということで、これはこれですさま じい数字です。天文台の Cray XT4 がラック当り 20kW くらいなので、、、)

この数字は 1.68Gflops/W、実行効率 62% というところで、BG/Q の目標とし ていたところから見るとちょっとアレ?と思うようなところはあります。 我々の Green500 に提出した数字とは 14% しか違わないわけで、それくらい なの?ならもうちょっとこっちも頑張って、次は、、、と思わなくもないわけ ですね。

元々、20PF、 6MW という話をしていたはずなのですが、効率 62% の段階で ピーク 20PF にスケールすると 8MW になってしまっています。実行効 率が上がった時に電力が増えない、というのも考えにくいので、例えば20% 向 上して (62*1.2 の) 75% になった時には、電力も 10-20% 増えて 9-10MW に なってしまいそうです。

まあ、Green 500 に IBM の連中がどういう数字をだしてくるか見てからいった ほうがいいのですが、もしもその数字が今回でてきた程度であるなら、それは BG/Q の最終的な数字と1-2割程度しか違わないとみてよい、つまり、 BG/Q の 数字は 2012 年でも 1.9Gflops/W 程度になる、ということと思われます。 この事情は次世代の「京」でも同様、というより、こちらはすでに 90% を超 える効率をだしてしまっただけにもう伸び代がなく、1Gflops/W を超えること はありません。 1.1Gflops/W 辺りまではいくかもと前にみつもってみたので すが、900 Mflops/W 辺りに留まりそうです。

Sandy Bridge は 32nm で

   Core i7 2600K 4-core/8-thread 3.40GHz TDP95W SR00C
   Core i7 2600  4-core/8-thread 3.40GHz TDP95W SR00B
   Core i5 2500K 4-core/4-thread 3.30GHz TDP95W SR00T
   Core i5 2500  4-core/4-thread 3.30GHz TDP95W SR00S
   Core i5 2400  4-core/4-thread 3.10GHz TDP95W SR00D
   Core i5 2400S 4-core/4-thread 2.50GHz TDP65W SR00Q
   Core i5 2300  4-core/4-thread 2.80GHz TDP95W SR05Y
   Core i3 2120  2-core/4-thread 3.30GHz TDP65W SR05Y
   Core i3 2100  2-core/4-thread 3.10GHz TDP65W SR05C
   Core i3 2100T 2-core/4-thread 2.50GHz TDP35W SR05C
というようなラインナップだそうで、これが来年 Q1 にでるならi5-2400S を使 うと TDP65W、システム全体で 100W に収まるとそれだけで80Gflops/100W となっ て、800Mflops/W と6月の GRAPE-DR なみになってしまいます。まあ、この 800Mflops/W というのは、AVX ならこの辺、と予想した値でして、これく らいでしょう。2012年の、 BG/Q や「京」が完成するころには Intel は 22nm がでてきているので、そうすると 1.2Gflops/W までくることになります。

今の瞬間では BG/Q は結構素晴らしいように見えるのですが、シ ステムが完成する時点では Intel を使ったシステムのせいぜい 1.5 倍で、そ れは半導体技術が2世代遅れになっているため、ということになり、 2008年頃 の BG/P とあまり変わりません。まあ、 20Pflops/6MW ならだいぶ違うのです が、 15-16Pflops/9-10MW となると厳しい、という話です。

さて、こうなってくると、アクセラレータは意外に悪くなさそうです。前項に も書いたように GRAPE-DR は DGEMM に関しては 750Gflops/250W(以下)、 HD5870 も 500Gflops/200W, Fermi はよくわからないですが 300Gflops/200W くらい、と、 DGEMM 性能に関する限り 1.5-3Gflops/W 程度にすでにきている からです。 来年のどこかには AMD, NVIDIA ともに 28nm になっているはずで、 そうすると 3-5Gflops/W 辺りまで計算上はくることになり(私としては GRAPE-DR がGPUに抜かれてしまうというのは問題なわけですが)、汎用プロセッ サ、あるいは完全に HPC 向けに作った専用のプロセッサ(ここでは BG/Q のこ とを指します)を倍程度上回ります。 x86 と組合せて BG/Q より良い数字をだ すのは来年には容易でしょう。まあ、その、今回(東工大がもっとよい数字で なければ) GRAPE-DR は Green500 で2位、となるわけですが、ホスト交換でも う一度ひっくり返すことは原理的には不可能ではない(お金がない、という問 題はありますが)わけです。

まあ、IBM の人々もこれくらいの計算はできるので、抜かれないように努力す ると思います。そういった競争から進歩というものが生まれるわけですから、 生産的な競争であると考えています。

(以下 2010/11/19 追記)

というわけで、よくない予想はちゃんとあたって、 SC10 BOF でアナウンスさ れた Green 500 List では、 1473Mflops/W より低いものが2位になっていた ようです。

現在、Wuchun Feng に確認と訂正を依頼してます。

(以下 2010/11/20 追記)

まだ直っていないリストが公開されたので、さらに文句をいったら(私だけでな く平木さんが)、週末のうちに皆で相談する、みたいなメイルがきました。現状 では、Top500 の GRAPE-DR の数字は 29.37kW(1176Mflops/W相当)、Green500 の対応するエントリーの数字は 362.6kW, 95.28Mflops/W という状態で、2つの リストが全く違う数字を載せる、という非常におかしなことになっています。

まあ、今回、

という複数のミスがたまたま重なった結果なのですが、とはいえ、公表された Green 500 リストを見ると、明らかに間違っていると思われるものが他にも大 量にあるのはなかなか問題と思います。

例えば 468位のエントリー

  468 48.35 IT Service Provider
  Cluster Platform 3000 BL460c G6, Xeon E5520 2.26 GHz, GigE
  921.20
というものは、 Top500 リストでは 204位にはいっている HP のシステムですが、 9400コアの Xeon E5520 です。TDP 80W ですから、多めに 1 ソケット当り 200W としても 470kW にしかならないのに、 921kW と倍以上、1ソケット当り 400W もの消費電力であるということになっていて、しかも、これは Top500 のほうには電力の数字がでていないのでどういう根拠の数字なのか 全く不明です。同じような構成の IBM のクラスタは 250位前後、 130Mflops/W 程度となっていて、これくらいの数字が本当でしょう。

Green 500 のサイトでベンダー毎の統計をだすと、

 Manufacturer   Average MFLOPS/W Average Green500 ranking
 Hewlett-Packard              71.67                      399
 IBM201             218.99                      165
と、HP と IBM で3倍くらい電力効率が違う、という驚くべき数字がでてくる のですが、これは全く意味がない数字である可能性が高い、ということです。 なかなか困ったものですね。
Previous ToC Next