SC10 では、Green 500 のグダグダぶりがなかなかすごい、というか
まだ文句をいっている最中なのですが、それはそれとして
技術的に興味深いことは BG/Q が Top500 及び Green 500 に
でてきて、予想より効率が低く電力が高いものであったことくらいだったと思います。
元々ピーク 20Pflops で 6MW という話だったのが、 Linpack に関する限り
16Pflops 8MW 程度、つまり、2Gflops/W 前後になりそう、また名目ピークで
も 2.5Gflops/W 程度になりそう、ということです。QCDOC に始まる BlueGene
各マシンについて、消費電力当りの性能を書いてみると
Year Mflops/W Design rule(nm)
QCDOC 2004 200? 180
BG/L 2004 211 130
BG/P 2007 357 90
BG/Q 2012 2000 45
というような感じで、デザインルールが1世代上がると大体倍になる、という程
度をほぼ維持しています。 BG/P がかなり悪かったのを、 Q である程度回復し
た、というところですね。QCDOC の数字は正確なものではないですが、デザイ
ンルールが1世代古い割には良い数字になっているのは注目に値します。
x86 系ではアーキテクチャが同じだと1世代で 1.6 倍ですが、 5 年に1度程度
SIMD の幅を広くすることで、2000年代の10年間を平均するとほぼ同様な
1世代2倍を実現してきました。また、最近数年間では Intel の半導体プロセ
スは IBM を始めとする他のグループとの差を徐々に広げており、Intel では
2012 年には 22nm になって、1.2-1.3Gflops/W あたりに到達します。
BG/Q と Sandy Bridge 世代のアーキテクチャでは、半導体テクノロジーが同じ
なら5倍程度の消費電力当り性能の違いがあるのですが、2世代違うことで3倍程
度つめられてしまって、2倍以下の差になってしまう、ということです。
それ以上に問題なのは、開発サイクルが 4-5 年と長いものになっていること
で、こうなるとその間に x86 系の性能は10倍、電力性能でも3-4倍となり、
発売直後しか優位性を維持できないことになります。
BG/L については5年前に 1 で
これからの動向をみていく必要はありますが、 BG/L やその後継が、汎用
の並列計算機として広く受け入れられる可能性はあまりない、と私は思っ
ています。
と書いたわけですが、これは基本的には正解だった、と思います。 L, P のど
ちらも、広く受け入れられた、というのとは全く違う状態に留まっています。
これは、結局、価格性能比、電力性能比のメリットが、アーキテクチャが
違うものの導入を正当化するほどには大きくなかった、ということです。
L, P に比べると Q の相対優位はさらに小さくなってしまっているので、
商業的成功はさらに困難になっていると思われます。
BG/Q プロセッサは
16 (18?) コア
1.6GHz
8演算 (4FMA?)/コア
204.8 Gflops
でチップ自体は 50W くらいかな?(システムとしてはチップ当り 60-80W)と思
われます。130 nm で8演算だった BG/L に比べると演算数は8倍なので、単純に
使えるトランジスタが増えた分演算器が増えているようにみえます。その程度
の性能向上では、QCDOC の発展形のプロセッサでは半導体プロセスでリードを
広げている Intel x86 に対抗できなくなってきているわけです。GRAPE-DR と
比べると、2世代先のテクノロジーで数倍のトランジスタを使い、演算器の数は
1/4、クロック4倍で同じ性能、消費電力もほぼ同じ、ということになります。
なんだか不思議ですね。
まあ、結局のところ、 BG/Q も、開発サイクルの長さを勘定に入れると同じテ
クノロジーでの x86 に比べた優位性が 10倍以下ではプロジェクトは失敗する、
という、 HPC 向け計算機開発の一般則からのがれられてはいないように思い
ます。10倍は価格性能比の場合で、電力性能は 10年で30倍にしかならなので
5倍以下では、となります。BG/Q は境界線上です。