./note119.html

Previous

ToC

Next

118. エクサはなぜ大変か(2014/4/25)

日記のは tw 仕様で読みにくいかもしれないので文体変えてまとめてみます。

エクサスケールスパコンが大変なのは何故か、という話です。

まず半導体の性能が上がらない、というのが最大の問題です。これまでのように18ヶ月での世代交代が進んだとしても、トランジスタ密度はその期間で2倍です。昔と違って動作電圧が下がらないので、演算あたりの消費電力は単純には 3年で半分(フィーチャーサイズに比例)、つまり、10年で1/10弱にしかなりません。しかも、18ヶ月での世代交代がかなり無理になってきていて、2019年に大規模システム組むのは Intel 以外では 10nm でないと難しいと思われます。 Intel はさすがに 7nm になっているとと思いますが。そうすると、「京」が 2011年で45nm だったのから見ると4世代、1世代2年です。まあでも SX-6 が 150nm で製品 2001 年だから1世代2年は同じでIntel がちょっと速い時期があっただけかもしれません。1993年には 0.8um だから90年代は1.5年ちょっとでした。

0.8um 5V から 150nm 1.8V (例えば)に変わると、トランジスタのダイナミック消費電力は単純には 1/40 になるので、阿呆なことをしなければ計算機の電力あたり性能は40倍になる計算です。但し、この時期は電力あたり性能の向上はもっと低いものでした。つまり、この時期はまだスパコンの消費電力増えても良かったわけです。

一方、150nm 1.8V から 45nm 0.9V では電力あたり性能は 13倍です。これは、プロセッサアーキテクチャを演算あたりの消費電力が下がる側にふる、つまり、演算器以外のコアロジックを単純化するとか SIMD 幅を増やすとかしないと消費電力が現実的な範囲に収まらなくなってくることを意味します。計算機の演算性能は ES の 40TF から「京」の10PFに250倍あげてますから、これがトランジスタの電力性能向上だけだとすると消費電力が10倍になってしまうからです。

さて、これがではエクサではどうなるかが問題です。10nm といってるものが実質11だとしても、0.7V まで下げたとして電力性能は 45nm の6.8 倍にしかなりません。なので、アーキテクチャで7倍あげて、エクサになって電力が「京」の 2倍にはいることになります。

じゃあ7倍かせげるか？というと、「京」と同じ 40nm 世代の GPU だって「京」の3倍もいかないわけでまともにやったのでは到底無理です。実際問題としては SIMD 幅をいくら増やしても2倍ちょっと改善すれば万歳というところです。

つまり、汎用プロセッサでものすごく SIMD 幅を増やしたもの (まあ要するに Intel MIC みたいなもの)でも、エクサスケールでは消費電力が 60-100MW になり、空調とか入れるともっと増えます。

これは原発0.1基分くらいで、関西電力の販売電力量は年間平均では 1700万KW、つまり、17,000MW なので、その 0.3-0.6%にもなります。電気代だけで年間 100億円くらいです。

と、ここまでは3年前からわかっている話です。

しかし、ここにきて問題になってきているのは半導体ウェハの値段で、ずーっと長い間面積あたりの値段が同じか下がる傾向だったのが、28nm から先はどんどん上がる、という話になっています。10nm だと28nm の 3倍くらいにはなりそうです。45nm に比べても同じです。クロックが同じとするとアーキテクチャ同じだと面積あたり性能が16倍なので、チップの値段あたり性能が5倍にしかなりません。なんとかしてトランジスタあたりの性能を10倍あげてやっと値段が倍で収まることになります。が、電力あたり性能と面積あたり性能はだいたい比例していて、上の議論からまあ2倍ちょっとにしかなりません。つまり、普通に考えると値段が10倍になってしまいます。

もっとも、「京」は富士通の社内プロセスだったので、TSMC のプロセスなら 10倍になってもまだたいしてことはないかもしれませんが、良品率が相当高くないと大変なことになります。

GRAPE-X/PACS-G はどうかというと、28nm での試作結果がチップ単体30GF/W (まあちょっと無理してクロック落として低電圧でとかだけど)。なので、チップ単体 2GF/W の「京」に比べると15倍、28nmで1世代進んでいることを考慮しアーキテクチャで10倍は実現できたことになります。面積効率も大体そんな感じでアーキテクチャで10倍程度です。まあ、メモリは試作チップは小さいので、増やすと面積効率は落ちます。これは良品率にはあんまり影響しないはずではあります。

まあその、エクサへの道にはハードウェアとして大変な道とそうでもないのと色々ある、ということです。

Top500 では、最近20年間は Top 1 の性能は10年で500倍です。1000倍よりちょっと少ないくらいでした。これに対して、電力増加は、1993 年を NWT じゃなくて T3D におくとまあ50倍です。このほとんどは ES の6MW までで食いつぶされています。

T3D から ES までは、性能 250倍、電力20倍、半導体の電力効率は40倍なので、アーキテクチャの電力効率は1/3程度にさがっています。日議論した通り。これに対して、ESから「京」へはアーキテクチャの電力効率は8倍と驚異的な向上をしています。ESが悪いから驚異的に見えるだけというところはありますが、 T3D に比べてもさらに 2.5倍です。T3D は B/F が現在の NEC SX-9 並みの 2.5 あり、「京」は 0.5なので電力性能のほとんどはここで決まっていると考えられます。

さて、Top500 のトレンドからずれないためには2019年にエクサなのですが、10nm だとすると半導体の電力効率は7倍しか上がりません。なので、「京」並みの電力にするだけでもアーキテクチャの電力効率を14倍にしなければならないわけです。これには、 B/F を落とすことと、制御コアを単純にするか SIMD幅を増やすかその両方かで対応するしかありません。

メモリに HMC とか HBM とか使っても、トランジスタ自体の性能向上ほどは DRAM の転送性能の向上はないわけですから、結局 B/F は 0.05 程度まで落とす必要がでてきます。

制御コアは、商業ベースのプロセッサでは、同じ命令セットで単純にするのは困難です。これは同じコア数で実行した時の性能が下がるからです。なので、 SIMD幅をどんどん増やすことになります。が、SIMD 幅を増やすと使いにくくなるし、使えるようにすると電力が増える、というのは以前書いた通りです。ではコア数を増やせばいいかというと、共有メモリでコア増やすのは共有メモリベクトルプロセッサと同じで 16 前後が限界で、それを大きく超えた KNC は破綻しているのも不思議ではありません。次は1チップといってもNUMA 構成にならざるを得ないわけです。まあそれだと何故1チップにするの？というところはあります。

この観点からは、チップ内分散メモリ SIMD が電力性能的にはもっとも有利です。メモリアクセス機構が単純なままですみ、また制御コアの数が圧倒的に少ないからです。まあアプリケーションの実行効率に問題がでないかどうかは難しいところです。が、例えば、差分法で境界のメッシュでは違う(通常低次の) スキームになる、といったケースでは、式は同じで係数の値だけが違う形に、計算量が増えてもいいから書き直す、といった対応は可能です。多くの問題で、問題の並列度は計算機の並列度よりはるかに大きいのに対して、処理の種類は人間が書ける程度なので10とかせいぜい100とかです。なので、全体SIMDでやっても大した効率低下はないわけです。

というのが Danny Hillis の主張でした。

B/F 0.05 も、まあ頑張れば(人がというよりコード生成、アルゴリズム生成みたいなところで)なんとか対応できる話ではあります。なので、10nm, 20MW でエクサを、という話にはこの程度で十分で、まあできなくはない話なわけです。

では原理的にはどこまでいけるか、を最後にちょっと考えてみます。GRAPE-X のSIMD コアでも演算器自体の消費電力はまだコア全体の 1/4 程度です。これはマイクロアーキテクチャの細かい修正で 1/3 程度まであげることはできると思います。あと演算器を FMA にしてレジスタ等のポート数やセレクタの数をちょっと減らすとかでも若干効率は向上します。(GRAPE-DR の演算器はFMAではないので)でも、でもまあ電力性能が1.5倍にはなかなかならないと思われます。メモリやレジスタファイルの消費電力も見えているからです。

そうすると、28nm で 50GF/W、電圧がさらに低いほうにふって70GF/W というあたりが限界かなと思います。単精度に最適化すれば160-200 くらいまではいけるでしょう。

これを専用パイプラインの GRAPE-6 と比べると、GRAPE-6 は単精度倍精度混合演算で2GF/W でした。電圧 2.5V の 250nm プロセスです。28nm 0.9Vでは 70倍で、140GF/W、電圧下げて倍にできたとして 300GF/W です。つまり、 SIMDコアでも単精度専用に作るなら、専用パイプラインの半分くらいはいけるかも、というところです。これはちょっと楽観的で、 1/3 程度が現在的な気もします。

これは、専用機もそんなにメリットがなくなってくるところまで、プログラマブルな計算機の性能をあげても、エクサとかその先は厳しい、ということです。

Previous ToC Next