Cool Chips 16 で NEC の次世代ベクトルマシンの詳細が発表されました。
今年度中には製品発表があるものと思われます。
詳しい解説は安藤さんのものがあるので、ここでは少し違う視点からまとめます。
CPU チップ1つに 16 チャネルの DDR3 メモリコントローラをつけ、 256GB/s
のバンド幅を達成します。CPU は4コア、それぞれ 64Gflops で、動作速度は
1GHz とのことです。28nm プロセスで 23x25mm と巨大です。
この仕様を
平成19月4月27日に開催された
情報科学技術委員会 次世代スーパーコンピュータ概念設計評価作業部会(第4回)
の
資料
と比べてみると、 256Gflops, 256GB/s, 4 コア、というのは同じで、
動作クロックが 2GHz から 1GHz に落ち、その分演算器の数が倍、
また細かいところでは 8MB の共有 L2 キャッシュがなくなって、
1MB の ADB がコア毎に1つ、合計 4MB となっています。
要するに、「京」用に 40nm で作るはずだった仕様から、L2 にあたるオンチッ
プメモリを若干スペックダウンして、またクロックも落としてやっと 28nm で
同じ性能を実現した、というものです。
ここまでクロックを落とし、さらに共有メモリもやめてCPUチップにDDR3 直結
とすると、消費電力はかなりさがっているはずです。200-300W程度にできてい
ても不思議ではありません。そうすると、メモリバンド幅あたりの消費電力で
は、「京」より若干よい程度になっているかもしれません。ちなみに、「京」
の計画時点では、全部込みでノードあたり 500W となっていて、まあそれくら
いです。とはいえ、そもそも 40nm で実現する予定だったスペックの製品が
28nm で実現されてでてきた、ということからは、そもそもそれは 40nm で実
現できたのか、というのは多少疑問な気もするところです。
そろそろポスト「京」の計画が具体化してきているわけですが、
この方向の延長では 10nm くらいまでいっても電力あたり性能が
3-4Gflops/W というところでしょう。さらに SX-9 ではあまり有効に使えて
いなかった ADB に強く依存した設計であり、クロックも大きく落ちている、
という辺りで、実アプリケーションでの性能はなかなか難しいところかもしれ
ません。
個人的には、GRAPE-DR のようなアクセラレータをつけるための汎用CPU とし
ては、ベクトルプロセッサのようなメモリアクセスに特化したシステムのほう
が現在のスカラープロセッサよりよい、という面もあると考えています。この
理由は簡単で、汎用側に余計な電力を食う演算器やキャッシュ等がないから
です。そのへんでできることはアクセラレータの側でやり、アクセラレータ
にのらないようなバンド幅リミットなアプリケーションはベクトル側でやる、
というのは割り切りかたとしてはありえるでしょう。ADB がキャッシュでは
なくてソフトウェアで制御可能であることも、無駄な電力消費を削減できる
可能性はもたらしています。(実際にできるかどうかはまた別の話ですが)
もうひとつの理由は、曲がりなりにもベクトルプロセッサなので、メモリのラ
ンダムアクセスやストライドアクセスで極端には性能が低下しないとような配
慮が少しは残っていると期待されることです。
とはいえ、それは、ベクトルプロセッサのバンド幅あたりの消費電力が
スカラープロセッサに比べてどの程度よいかに依存するわけです。「京」の
時点での提案ではほとんど差がなかったのですが。