./note134.html

ToC

133. ShenWei TaihuLight (2016/6/23)

改めて書くまでもありませんが、以下は牧野個人の見解であり AICS の見解を代表するものではありません。

2016年6月の Top 500 では、中国の ShenWei TaihuLight システムが、ピーク性能 125PF、HPL 性能 93PF と驚異的な数値を叩き出して同じ中国の Tianhe-2 が 2013年6月から守っていた1位の数値を3年ぶりに書き換え、6期連続で中国設置のマシンがトップとなりました。

本稿では、この TaihuLight の意義を少し考えたいと思います。

まず、TaihuLight で使われているプロセッサは Tianhe-2 と異なり、設計から(おそらくファブまで)純粋に中国製です。Tianhe-2 はXeon + Xeon Phi (KNC) だったわけですが、TaihuLight は ShenWei SW26010 という中国 Jiangnnn Computing Lab 設計のプロセッサです。これで、単一チップ3TF、4 万チップからなるシステムを構築し、HPL 効率74%を実現したわけです。また、電力性能も 6.05Gflops/W と、PEZY/Zettascaler の SHOUBU, SATSUKIの2システムに続く3位にはいりました。

まず、この「74%」という数字を、最近のいくつかのシステムと比べてみます。まず、2-5位はこんな感じです。

  Tianhe-2  62%
  Titan     65%
  Seqoia    85%
  K         93%

「京」は驚異的に高いですが、TaihuLight はアクセラレータ付きの Tianhe-2, Titan に比べて上という立派な数値です。アクセラレータなしの Xeon システムは

   Trinity (E5-2698v3)   73%

で、おそるべきことに TaihuLight の SW26010 プロセッサは HPL で Hawell Xeon を上回る効率を実現しています。また、大幅にスケジュール遅延していた KNL Xeon Phi (7200 系)がついに Top500 に登場しましたが、これは

    Stanpede-KNL (Xeon Phi 7250) 55%

また、現行の PEZY-SCnp は

    SHOUBU    65%

というところです。まあその GRAPE-DR は59%しかいかなかったのであんまり人のことをあげつらうのもどうかと思いますが、 TaihuLight の 74% は驚異的なものであることはわかっていただけると思います。

この性能が HPL だけで、他のアプリケーション等では使いものにならない、ということなら「直線番長」(どこかで誰かで別のマシンについていっていた言葉ですが)とかいえるかもしれないのですが、まだマシン全体は完成していなかったであろう4月時点でゴードンベル賞に5チームがエントリし、 3チームがファイナリストに選ばれました。2002年に地球シミュレータで 3チームがファイナリストにはいり、受賞もしたことが思い出されます。

ファイナリストのアプリケーションは物性、気候、海洋といったところで、まあその割合スケールしやすいものを選んでいるようにも見えるしTSUBAME や「京」がやってきたところを真似しているようにも見えなくもないですが、そういうやり方をしたということも含めて賞をとるということに対して戦略的なアプローチをしているようにもみえます。 Tianhe-2 ではファイナリストにはいったことはあったのですが明らかに問題のあるアプローチだったのに比べて、長足の進歩といえます。

ここまでをまとめると、 TaihuLight は以下の4点で驚異的といえます

125PF のピーク性能を実現した。これは中国以外のシステムで最高性能の ORNL Titan の4倍弱にあたります。
74% とかなり高いHPL効率と、従って 93PFと中国以外のシステムで最高性能の ORLN Titan の5倍以上の性能を実現した。
電力性能においても、 PEZY-SC システムにつぐ 6.05Gflops/W を実現した。
HPL 以外の実アプリケーションでも、ゴードンベル賞ファイナリストに 3エントリが選ばれるなど、大きな成果をあげている。

2010年11月の Tianhe-1A に始まり、中国のマシンが Top 1 になることは多いのですが、これまでは Top 1 になったのは AMD の GPU や Intel Xeon Phiを使ったマシンであり、予算と電力さえあればどこでも構築できるものでした。ところが、 TaihuLight は中国の独自開発で、電力性能、チップあたり性能で世界最先端を実現することで世界一の性能を達成したものです。つまり、お金で世界一になったわけではなくて、少なくとも HPL 及びいくつかのアプリケーションに関する限り、技術力で世界トップレベルであることを示したわけです。

ここで特に重要なのは電力性能とチップあたり性能です。製造テクノロジーは明らかになっていないのですが、おそらく 28nm から 20nm レベルと思われます。ネット情報では総トランジスタ数 37億、チップ面積 550 ないし 700平方ミリとなっています。一方、 Broadwell Xeon は最大の HCC コアで 72億トランジスタ、456平方ミリです。Intel の技術は面積あたりのトランジスタ数は必ずしも多くはないので、2世代違ってトランジスタ数2倍、面積が若干減る、というのはまあそんなところと思います。少なくとも 20nm 以下ではありません。また、 NVIDIA GK110 は 28nm テクノロジー、600平方ミリ以下で 71億トランジスタです。なので、40nm という可能性もあります (そういう情報もでているようです)。

そうすると、巨大チップとはいえ 28nm かそれ以前のテクノロジー、わずか 37億トランジスタと NVIDIA GK110 の半分程度のトランジスタ数でより高いピーク性能と高い実行効率を実現したわけです。

チップ構成をみていくと、基本ユニットは 64 個の単純なプロセッサと1個のある程度複雑なプロセッサのペアで、これが4ユニットで1チップ、単純なプロセッサのほうは 4SIMD のFPUを1つだけもつ構成です。これにより 1024個のFPUを持ち、1.5GHz 動作で3TFを実現しています。

これを例えば富士通の 20nm での FX100 に使われているプロセッサと比べると、これは 2GHz、4SIMD x 2 の32コアで、演算器の数としては TaihuLight の 1/4で、クロックがちょっと高いので 1/3 の1TFを実現しました。これはチップ面積 700平方ミリを超える巨大チップであり、それに応じて性能あたりは高価なシステムになっているわけです。これは Intel KNL も同様で、 14nm の巨大チップでやっと演算器 1024個以上、ピーク性能 3TF 以上を実現しました。

TaihuLight の演算プロセッサの大きな特徴は、命令キャッシュはあるけれどデータキャッシュはないことです。その代わりに 64KB のスクラッチパッドメモリがついています。 PEZY-SC ではコヒーレンシのない階層キャッシュだったわけですが、それよりさらに極端な設計になっています。

極端な設計にすることで、トランジスタ効率をあげて最新とはいいがたいテクノロジーで多くの演算器を集積し、高いピーク性能と高い電力性能を実現しただけでなく、高い HPL 効率まで実現したわけです。

階層キャッシュは、アプリケーションをチューニングする、という観点からは極めてたちの悪い代物で、必要な時に必要な場所にデータをもってくる、ということを明示的に行うことができません。例えば行列乗算のような、規則的な演算の繰り返しにできるものでも、深い階層キャッシュでは適切な演算アルゴリズムを実現できない、ということも現実に発生します。また、深い階層キャッシュでは、通常下にいくほどキャッシュサイズが大きく、バンド幅が小さくなるため、多重ブロック化をしないと性能がでません。一方、大容量で高速のスクラッチパッドメモリだけをもつ構成では、メモリ階層が2つしかないためにブロック化は単純であり、最内側ループ長も長くとれるために性能を出すことが容易です。

もちろん、キャッシュがない、ということは、「普通に書いただけ」のプログラムではまるで性能がでない、ということをおそらくは意味しています。しかし、これはメニーコアで階層キャッシュでも「普通に書いただけ」では1コアしか使わないしSIMD化もされなくてろくな性能はでないわけで、この時にには大きいほうのコアが使われるならあまり変わりません。

世の中には複雑で大がかりなものを作るほうが偉いみたいな考え方があり、汎用マルチコアはコヒーレントキャッシュでないといけないということになっていますが、それではどうにもならなくなる、とうことを 70コア近い Xeon Phi は示しています。まあ実際、KNLには4分割して18コア程度で使うモードが搭載されている模様です。これを超えて、256コア、1024 コアと増やすには、コヒーレンシをやめるかキャッシュ自体を廃止してローカルメモリにするかが必須であり、キャッシュとローカルメモリの両方をもつ PEZY-SC とローカルメモリだけにした SW26010 はその意味で真に実用性のある超メニーコアの最先端にあり、日米の大企業は遅れをとっているといってよいと思います。

牧野の意見としては、データキャッシュと並んで廃止するべきものは小規模コアの MIMD 動作であり、これを排除し、ローカルメモリをもつSIMDメニーコアとすることでさらなる省電力、高性能化とアプリケーション開発の容易化を実現できるし、方向はそちらということがほぼ明らかになりつつあると考えます。

なお、非常に興味深い設計上の選択として、DDR3 メモリでチップあたり 137GB/s のメモリバンド幅、B/F が 0.05 しかない(「京」の 1/10)ことがあげられます。もちろん、適当な高速メモリがなかったからということと思いますが、それでも HPL やいくつかの実アプリケーションで十分な性能を実現できることを示したわけです。何をどうやっても性能がでないことで悪名を轟かせた KNC 辺りに比べて、B/F が低いからといって劣っているとはいえないのではないでしょうか？

Previous ToC Next