./note051.html

ToC

50. 次世代スーパーコンピュータ概念設計評価報告書(2007/6/27- 2007/7/9追記)

次世代スーパーコンピュータ概念設計評価作業部会の報告書が 6/13 にでました。

安藤さんのところ、マイコミジャーナルのはこっちに概要の紹介と解釈がありますが、要するに、評価報告はあるけど評価されるものがなんだかわからないので良くわからない、という話です。

まあ、とはいえ、行間を読んで見るとなかなか面白いレポートで、例えば p13 に

   従来のベクトル型の課題を解決する新規のアーキテクチャによる CPU を搭
   載するベクトル部

なる記述があります。これは、つまり、地球シミュレータの

2演算に対して1語 (Byte/flops で 4) の高いメモリバンド幅
8プロセッサ程度での共有メモリ
単段(かどうか知らないけど)クロスバー

の1つあるいはおそらくそれ以上を諦めた、ということでしょう。さらに p14 には光インタコネクトについて奥歯にものがはさまったような

    特に光インタコネクト技術は、少なくともシステムワイドなネットワーク
    技術として発展する可能性が高い

という評価がでています。素直にシステムワイドネットワークに光を使うシステムならこんな妙な表現にはならないので、これは少なくとも評価のためにでてきた案ではシステムワイドでないところに光が使われていたという意味になるでしょう。つまり、メモリ-プロセッサ間は光であるということです。ということは、複数プロセッサでのメモリ共有は従来の通りであり、おそらく他の 2つ、つまり高いメモリバンド幅とクロスバーは断念した設計になっているのでしょう。

ネットワークはまあ大した問題ではなくて、問題はどこまでメモリバンド幅を落としたかです。 SX-8R で SX-8 や地球シミュレータの半分に落としてきたわけですから、新規アーキテクチャという以上もっと落としたと思われます。つまり、

   SX-8   1語/2演算     (4 B/f)
   SX-8R  1語/4演算     (2 B/f)
   次世代 1語/8演算以下 (1 B/f 以下)

となるわけです。この、 1 B/f というのはかなりすさまじい数字で、最初の Pentium 4 は 3.4Gflops (1.7GHzのもので) に対して3.2GB/s ものメモリバンド幅がありましたから、これとほぼ同じです。つまり、 Pentium 4 並のものに「ベクトル」という名前をつけてるわけです。まあ、例えば STREAM で SX は 64GB/s と本当にこのバンド幅がでますが Pentium 4 あたりだとせいぜい 6 割なので、倍くらいは違う、と思うべきかもしれません。

ちなみに Cray Blackwidow では load は 2B/f、 store が 1B/f 程度のようですから、実は SX-8R と大差ありません。

なお、48 でも書いたように、ピーク性能に対する実効性能が高いことは良いことである、という、私の考えでは誤解である考え方があるわけですが、そのような考え方の問題点が明確に現われているグラフがたるさんのパソコンフィールドにありました。興味深いものなのですみませんが紹介させていただきます。

図は「ベクトルとスカラのクロスポイント」というもので、要するに価格性能比はメモリバンド幅要求が低いところでは PC が有利、高いところでは地球シミュレータのようなベクトル機が有利、というものです。

実際に数字をいれてみればすぐにわかりますが、この図は定性的に正しくありません。地球シミュレータは 32GB/s のメモリバンド幅が 1200万円、つまり 1GB/s が 38万円だったわけです。これを PC と比べると、2002年なのでまだ Pentium 4 ですが、これは実効 2GB/s のものが20万円で買うことができましたから、1GB/s が 10万、つまり

   メモリバンド幅が性能を決めるアプリケーションでも P4 のほうが ES の
   4倍価格性能比が良い

のです。まあ、これが Cray XT3 のような並列機になると1ソケット100万程度ですから、メモリバンド幅あたりの値段は当時 XT3 があったとすれば ES と同等です。現時点では Opteron のソケット当りのメモリバンド幅は P4 のほぼ 4倍になっています。SX-8R は ES の2倍しかないので、相対的には悪くなっていて、アプリケーションの B/f がどんな数字でも SX-8R のほうが XT3 より価格性能比が悪い、という状態です。

Figure 1: アプリケーションの要求するバイト/フロップス値 (B/f、横軸)と価格性能比 (P/C、縦軸)の関係。黒は普通の PC を1ノード100万で買った時の値。赤はメモリバンド幅当りの価格が PC より安い、現実には存在しないベクトルプロセッサ、緑は現実のベクトルプロセッサ。

図 1 に状況を示してみました。ベクトル機のほうが価格性能比が良い領域がある、と思っている、ということは、ベクトル機は図の赤線のように振る舞う、つまりはメモリバンド幅当りの価格が PC より安い、と思っている、ということです。これは15年前にはそうだったかもしれませんが、今はそうではなくなっています。

話を戻すと、次世代で提案されている「ベクトルプロセッサ」は大体緑の破線で書いたような、 B/f が低いところで少し性能がましになったものになりそうです。あらゆるところで PC より悪い、というのは改善されないでしょう。このシステムの意義は、基本的には性能ではなくソフトウェアやアルゴリズムの連続性、つまり、今あるプログラムがまあ動く、というものです。これはこれで極めて大事なことで、それを前面に出した主張でこのようなベクトルとスカラが両方必要、という議論を組み立てるべきではないかと思います。それをしなかったために両方をうまく使うアプリケーションを開発するとかいった机上の空論を述べる羽目になっているのです。

(以下 2007/7/9 追加)というようなことを書いたところ、上の、たるさんのパソコンフィールドに新しい記事がはいっています。私のこの文章は元々「思いつくまま」に書いたもので、必ずしも多くの読者にわかりやすい、というふうにはなっていないとは思います。例えば、上のグラフに「黒は普通の PC を1ノード100万で買った時の値」と書いたわけですが、これは、普通の PC はノード20万であり、これを 5 倍の値段で買うというのは Cray XT とか、あるいはまともなネットワークをつけたものを買う、というのが書いたほうの意図でした。が、この記事では、「ノード当り100万」というところは省略されて

    しかし、今回のように京速計算機レベルを議論している場合に、PCの図を
    直接書き込んで判断する事に問題はないのであろうか？

という疑問がでています。もちろん、これに対する答は、そういうことをしていたとすればそれは問題だが、上の図はそういう図ではない、ということです。

SX-8R は大体 1Tflops 4億くらいでしょう。 1GB/s 当り 20万円です。 Cray XT4 はどうもノード当り 100万よりちょっと安いようですが、 100万だとして DDR2 800 がつくなら(つくかどうか知らないですが) 12.8GB/s ですから 1GB/s 当り 8万円です。これが上の図での黒線 (XT4)と緑線(SX-8R)の関係です。ついでに、

    ただし、当サイトの考えではベクトル機のB/F比が低いと言うことは、そ
    の分価格も安いという事を意味すると思う。

とありますが、これも上の図にある通りです。 B/f を下げることで、緑実線を緑破線のように左上方向に持ち上げることができます。が、もちろん、これをしてもあらゆる領域でベクトルがスカラ並列機よりも悪い、というのは変わらないわけです。念のため、普通の PC を図にいれたらどうなるか見てみましょう。

Figure 2: 上の図に、1ノード20万の普通の PC を黒破線で加えたもの。黒実線は Cray XT4 等のそこそこ高いスカラ並列機、赤は現在に存在しない極めて価格性能比の良いベクトルプロセッサ、緑実線は現実に存在しているベクトルプロセッサ、緑破線はベクトルプロセッサの今後の方向(推定)。

いうまでもないことですが、黒破線は黒実線の5倍上にきます。

この辺は、まあ、結局、なんにしても正しい理解をうながすのは難しい、ということなのですが、それでおわっては話にならないので稿を改めてもうちょっと論点を整理してみたいと思います。

Previous ToC Next