Previous ToC Next

50. 次世代スーパーコンピュータ概念設計評価報告書(2007/6/27- 2007/7/9追記)

次世代スーパーコンピュータ概念設計評価作業部会の報告書が 6/13 にでました。

安藤さ んのところ マイコミジャーナルのはこっちに概要の紹介と解釈がありますが、 要するに、評価報告はあるけど評価されるものがなんだかわからないので良く わからない、という話です。

まあ、とはいえ、行間を読んで見るとなかなか面白いレポートで、例えば p13 に

   従来のベクトル型の課題を解決する新規のアーキテクチャによる CPU を搭
   載するベクトル部
なる記述があります。これは、つまり、地球シミュレータの

の1つあるいはおそらくそれ以上を諦めた、ということでしょう。さらに p14 には光インタコネクトについて奥歯にものがはさまったような

    特に光インタコネクト技術は、少なくともシステムワイドなネットワーク
    技術として発展する可能性が高い
という評価がでています。素直にシステムワイドネットワークに光を使うシス テムならこんな妙な表現にはならないので、これは少なくとも評価のためにで てきた案ではシステムワイドでないところに光が使われていたという意味にな るでしょう。つまり、メモリ-プロセッサ間は光であるということです。とい うことは、複数プロセッサでのメモリ共有は従来の通りであり、おそらく他の 2つ、つまり高いメモリバンド幅とクロスバーは断念した設計になっているの でしょう。

ネットワークはまあ大した問題ではなくて、問題はどこまでメモリバンド幅を 落としたかです。 SX-8R で SX-8 や地球シミュレータの半分に落としてきた わけですから、新規アーキテクチャという以上もっと落としたと思われます。 つまり、

   SX-8   1語/2演算     (4 B/f)
   SX-8R  1語/4演算     (2 B/f)
   次世代 1語/8演算以下 (1 B/f 以下)
となるわけです。この、 1 B/f というのはかなりすさまじい数字で、 最初の Pentium 4 は 3.4Gflops (1.7GHzのもので) に対して3.2GB/s ものメ モリバンド幅がありましたから、これとほぼ同じです。つまり、 Pentium 4 並のものに「ベクトル」という名前をつけてるわけです。まあ、例えば STREAM で SX は 64GB/s と本当にこのバンド幅がでますが Pentium 4 あたり だとせいぜい 6 割なので、倍くらいは違う、と思うべきかもしれません。

ちなみに Cray Blackwidow では load は 2B/f、 store が 1B/f 程度のよう ですから、実は SX-8R と大差ありません。

なお、48 でも書いたように、ピーク性能に対する実効性 能が高いことは良いことである、という、私の考えでは誤解である考え方があ るわけですが、そのような考え方の問題点が明確に現われているグラフが たるさんのパソコ ンフィールドにありました。興味深いものなのですみませんが紹介させ ていただきます。

図は「ベクトルとスカラのクロスポイント」というもので、要するに価格性能 比はメモリバンド幅要求が低いところでは PC が有利、高いところでは地球シ ミュレータのようなベクトル機が有利、というものです。

実際に数字をいれてみればすぐにわかりますが、この は定性的に正 しくありません。地球シミュレータは 32GB/s のメモリバンド幅が 1200万円、 つまり 1GB/s が 38万円だったわけです。これを PC と比べると、2002年なの でまだ Pentium 4 ですが、これは実効 2GB/s のものが20万円で買うことがで きましたから、1GB/s が 10万、つまり

   メモリバンド幅が性能を決めるアプリケーションでも P4 のほうが ES の
   4倍価格性能比が良い
のです。まあ、これが Cray XT3 のような並列機になると1ソケット100万程度 ですから、メモリバンド幅あたりの値段は当時 XT3 があったとすれば ES と 同等です。現時点では Opteron のソケット当りのメモリバンド幅は P4 のほぼ 4倍 になっています。SX-8R は ES の2倍しかないので、相対的には悪くなってい て、アプリケーションの B/f がどんな数字でも SX-8R のほうが XT3 より価 格性能比が悪い、という状態です。

Figure 1: アプリケーションの要求するバイト/フロップス値 (B/f、横軸)と価格性能比 (P/C、 縦軸)の関係。黒は普通の PC を1ノード100万で買った時の値。赤はメモリバンド幅当りの価格が PC より安い、現実には存在しないベクトルプロセッサ、緑は現実のベクトル プロセッサ。

1 に状況を示してみました。ベクトル機のほうが価格性能比が 良い領域がある、と思っている、ということは、ベクトル機は図の赤線のよう に振る舞う、つまりはメモリバンド幅当りの価格が PC より安い、と思ってい る、ということです。これは15年前にはそうだったかもしれませんが、今はそ うではなくなっています。

話を戻すと、次世代で提案されている「ベクトルプロセッサ」は大体緑の破線 で書いたような、 B/f が低いところで少し性能がましになったものになりそ うです。あらゆるところで PC より悪い、というのは改善されないでしょう。 このシステムの意義は、基本的には性能ではなくソフトウェアやアルゴリズム の連続性、つまり、今あるプログラムがまあ動く、というものです。これはこ れで極めて大事なことで、それを前面に出した主張でこのようなベクトルとス カラが両方必要、という議論を組み立てるべきではないかと思います。それを しなかったために両方をうまく使うアプリケーションを開発するとかいった机 上の空論を述べる羽目になっているのです。

(以下 2007/7/9 追加)というようなことを書いたところ、上の、たるさんのパ ソコンフィールドに 新しい記事 がはいっています。私のこの文章は元々「思いつくまま」に書いたもので、 必ずしも多くの読者にわかりやすい、というふうにはなっていないとは思いま す。例えば、上のグラフに「黒は普通の PC を1ノード100万で買った時の値」 と書いたわけですが、これは、普通の PC はノード20万であり、これを 5 倍の値段で買うというのは Cray XT とか、あるいはまともなネットワークを つけたものを買う、というのが書いたほうの意図でした。が、 この記事で は、「ノード当り100万」というところは省略されて

    しかし、今回のように京速計算機レベルを議論している場合に、PCの図を
    直接書き込んで判断する事に問題はないのであろうか?  
という疑問がでています。もちろん、これに対する答は、そういうことを していたとすればそれは問題だが、上の図はそういう図ではない、と いうことです。

SX-8R は大体 1Tflops 4億くらいでしょう。 1GB/s 当り 20万円です。 Cray XT4 はど うもノード当り 100万よりちょっと安いようですが、 100万だとして DDR2 800 がつくなら(つくかどうか知らないですが) 12.8GB/s ですから 1GB/s 当 り 8万円です。これが上の図での黒線 (XT4)と緑線(SX-8R)の関係です。ついでに、

    ただし、当サイトの考えではベクトル機のB/F比が低いと言うことは、そ
    の分価格も安いという事を意味すると思う。
とありますが、これも上の図にある通りです。 B/f を下げることで、緑実線 を緑破線のように左上方向に持ち上げることができます。が、もちろん、 これをしてもあらゆる領域でベクトルがスカラ並列機よりも悪い、というのは 変わらないわけです。念のため、普通の PC を図にいれたらどうなるか見てみ ましょう。

Figure 2: 上の図に、1ノード20万の普通の PC を黒破線で加えたもの。黒実線は Cray XT4 等のそこそこ高いスカラ並列機、赤は現在に存在しない極めて 価格性能比の良いベクトルプロセッサ、緑実線は現実に存在しているベクトル プロセッサ、緑破線はベクトルプロセッサの今後の方向(推定)。

いうまでもないことですが、黒破線は黒実線の5倍上にきます。

この辺は、まあ、結局、なんにしても正しい理解をうながすのは難しい、とい うことなのですが、それでおわっては話にならないので稿を改めてもうちょっ と論点を整理してみたいと思います。
Previous ToC Next