./note157.html

ToC

155. 「次世代先端的計算基盤に関する白書」について(2021/11/27)

次世代計算基盤検討部会中間取りまとめというものが少し前にでていますが、これにちょっと気になる記述があります。「2-(3) 計算科学、計算機科学技術の動向」の、9ページの最後あたりからで

  これまでに、学術界及び産業界の計算機科学分野の研究者を中心に行われて
  いる検討においては、電力消費量を「富岳」の開発目標と同程度と仮定した
  場合の 2028 年9の予測性能は、最も積極的な予測で「富岳」の性能の 3.37
  倍(メニーコア型システム)、33.5 倍(GPU 混載型システム)と予測されてお
  り(NGACI:Next-Generation Advanced Computing Infrastructure「次世代先
  端的計算基盤に関する白書」より引用)

です。富岳の電力性能をFP64 で 15 GF/W として、CPU では 3.37倍なので 50GF/W くらい、GPU ではその10倍の 500GF/W くらい、としています。これはなんだか不思議な数字で、 CPU は異様に電力性能が低く、それに比べると GPU はかなり高くなっています。

異様に低い、というのは、GPU よりはメニーコアに分類されるであろう Sunway 26010Pro プロセッサは既に富岳の2倍程度を実現しているように思われるからです。そうすると、仮に Sunway 26010Pro が最先端に近い TSMC N7相当のプロセスを使っていたとしても、2028年には N2 の次くらいは使えるわけで、4世代先、世代毎の電力削減をちょっとひかえめに 25% としても、さらに3倍程度は電力性能があがります。

まあその、トランジスタ構造の変化もあるので本当にこんなに上がるのか？という気もしますが、26010Pro は 2.25GHz とかなり高いクロックで動作しており、電源電圧は極端に低いわけではないと想像されます。そうすると、世代毎にまだかなり電源電圧を下げることは可能であり、プロセスの進歩だけで3倍程度の電力性能の向上は決して不可能ではありません。従って、プロセスの進歩だけで 90GF/W は達成可能であり、アーキテクチャの進歩でさらに 1.5-2倍にして 140-180GF/W、富岳の 10-12倍が可能なところと思います。

もちろん、26010Pro のプロセッサコアはデータキャッシュをももたない極めて単純なもので、整数ベンチマーク等を実行した時の CPI は決して高くはないですし、コヒーレントなキャッシュがあることが前提のコードでは全く性能がでなくて、コア毎のローカルメモリやコア間の通信を明示的に行なう必要があります。残念ながらこれは既存のコードからコンパイラが自動的に行なうことは困難であることが「わかっている」と思います。

歴史的にも、CDC7600、Cray-2、さらには Sony PS3 とローカルメモリアーキテクチャを採用したプロセッサは色々ありますが、継続して開発が続いたことはありませんでした。

その意味では、 Sunway 26010 の後継である 26010Pro が同じアーキテクチャを踏襲したのはコンピュータアーキテクチャの歴史では画期的といえます。 PEZY SC もローカルメモリを持ちますが、こちらはコヒーレントではないですが階層キャッシュはある、というものなのでより普通のプロセッサに近いです。

ちなみに、CPUで富岳の次にくるのは AMD EPYC で11月の Green500 では52位、 6.06GF/W にきています。ここからの外挿なら 50GF/W は妥当でしょう。

GPU はどうかというと N7 の A100 から10-12倍として 330-400GF/W ですから、まあ妥当なわけですが、 MN-Core は 12FFC で既に 40GF/W を実現していますから、そっちを外挿するともう2倍、600-800GF/W です。そうすると、プロセッサ開発の目標としてはさらにもうちょっと上、 1-1.5TF/W あたりを目指すのでないと開発の意味がない、ということになるように思います。

次世代先端的計算基盤に関する白書では、CPU、GPU についての「予測」が4章で行われています。

これらは基本的にCPUについては「IRDS Systems and Architectures の 2017 年版および2020 年版で予測されている 2028 年の CPU の性能値から主要な項目の値を抜粋して作成したもの」と書いてあり、GPU については「NVIDIA 社の過去 13 年間のハイエンド GPU の性能をもとに線形で外挿する」となっていて、外国の誰かがやったものと、半導体技術の問題を無視して単に外挿したものになっていて、さらにそれではなんか低いね、というのでCPUの性能増加率に合わせたものにしました、となっています(「そこで,より積極的な見積もりとして, 4.1.1 項で示した 2028 年の CPU の性能予測値に現行のCPU と GPU の性能差を乗じることにより, 2028 年の GPU 性能の予測も行う」)

すみません、その、これに基づいて国家プロジェクトを云々するのであればもうちょっとちゃんと考えて欲しいと思います、、、、

ちょっと気になるのは、「NVIDIA 社の過去 13 年間のハイエンド GPU の性能をもとに線形で外挿」してどうして 2028年に 24 TF になってしまったのかです。NVIDIA のGPUの FP64 性能をは以下のようになっていて

 2008 M1060 (0.078)
 2011 M2090 0.666
 2012 K20X  1.31
 2013 K40   1.68
 2016 P100  5.3
 2017 V100  7.47
 2020 A100  19.5

これをグラフにすると 6 のようになります。

Figure 6: NVIDIA GPU の性能と2028年までの性能外挿。横軸は西暦年、縦軸は FP64 ピーク性能(TF)。黒実線はA100まで、赤線はM2090 からA100 までの線を外挿したもの、 NGACI の上の点は NGACI による「線型外挿」

2028年まで線形外挿すると 300TF くらいがでてきますが、何故24TF と1桁下になってしまったのかよくわかりません。

まとめます。

「次世代先端的計算基盤に関する白書」では、2028年のスパコン性能を「予測」しているが、そもそも予測ではなくてこういうものを作るのでこういう性能がでる、というビジョンでなければならない
予想としても、CPUについては外国の機関の数値を引っ張ってきているだけで富岳の外挿にすらなっておらず、ポスト富岳の検討としては意味がない。
GPU については、A100 が既に 19.5TF を実現しているのに、そこから「線型に外挿」してどういうわけか 24TF になっており、おそらく計算が間違っている。
これらの問題のため、CPU、GPU ともに数値が低すぎる。

早期に予測手法、数値を修正しないとポスト富岳のプロジェクト検討が迷子になるように思います。

Previous ToC Next