./note117.html

ToC

116. NEC の次世代ベクトル

Cool Chips 16 で NEC の次世代ベクトルマシンの詳細が発表されました。今年度中には製品発表があるものと思われます。

詳しい解説は安藤さんのものがあるので、ここでは少し違う視点からまとめます。

CPU チップ1つに 16 チャネルの DDR3 メモリコントローラをつけ、 256GB/s のバンド幅を達成します。CPU は4コア、それぞれ 64Gflops で、動作速度は 1GHz とのことです。28nm プロセスで 23x25mm と巨大です。

この仕様を平成19月4月27日に開催された情報科学技術委員会次世代スーパーコンピュータ概念設計評価作業部会（第4回）の資料と比べてみると、 256Gflops, 256GB/s, 4 コア、というのは同じで、動作クロックが 2GHz から 1GHz に落ち、その分演算器の数が倍、また細かいところでは 8MB の共有 L2 キャッシュがなくなって、 1MB の ADB がコア毎に1つ、合計 4MB となっています。

要するに、「京」用に 40nm で作るはずだった仕様から、L2 にあたるオンチップメモリを若干スペックダウンして、またクロックも落としてやっと 28nm で同じ性能を実現した、というものです。

ここまでクロックを落とし、さらに共有メモリもやめてCPUチップにDDR3 直結とすると、消費電力はかなりさがっているはずです。200-300W程度にできていても不思議ではありません。そうすると、メモリバンド幅あたりの消費電力では、「京」より若干よい程度になっているかもしれません。ちなみに、「京」の計画時点では、全部込みでノードあたり 500W となっていて、まあそれくらいです。とはいえ、そもそも 40nm で実現する予定だったスペックの製品が 28nm で実現されてでてきた、ということからは、そもそもそれは 40nm で実現できたのか、というのは多少疑問な気もするところです。

そろそろポスト「京」の計画が具体化してきているわけですが、この方向の延長では 10nm くらいまでいっても電力あたり性能が 3-4Gflops/W というところでしょう。さらに SX-9 ではあまり有効に使えていなかった ADB に強く依存した設計であり、クロックも大きく落ちている、という辺りで、実アプリケーションでの性能はなかなか難しいところかもしれません。

個人的には、GRAPE-DR のようなアクセラレータをつけるための汎用CPU としては、ベクトルプロセッサのようなメモリアクセスに特化したシステムのほうが現在のスカラープロセッサよりよい、という面もあると考えています。この理由は簡単で、汎用側に余計な電力を食う演算器やキャッシュ等がないからです。そのへんでできることはアクセラレータの側でやり、アクセラレータにのらないようなバンド幅リミットなアプリケーションはベクトル側でやる、というのは割り切りかたとしてはありえるでしょう。ADB がキャッシュではなくてソフトウェアで制御可能であることも、無駄な電力消費を削減できる可能性はもたらしています。(実際にできるかどうかはまた別の話ですが)

もうひとつの理由は、曲がりなりにもベクトルプロセッサなので、メモリのランダムアクセスやストライドアクセスで極端には性能が低下しないとような配慮が少しは残っていると期待されることです。

とはいえ、それは、ベクトルプロセッサのバンド幅あたりの消費電力がスカラープロセッサに比べてどの程度よいかに依存するわけです。「京」の時点での提案ではほとんど差がなかったのですが。

Previous ToC Next