./note036.html

Previous

ToC

Next

35. GRAPE の開発 ---GRAPE-DR (2006/11/4)

GRAPE-6 では 0.25ミクロンのプロセスを使って、 800万トランジスタを1チップにし1チップ当り 30Gflops 相当のピーク性能をだしました。チップが完成したのは 99年のことですから、2006年の現在からは既に7年前です。汎用のマイクロプロセッサは、 1チップでは2006年になって出荷が始まった Intel Core 2 Duoが、クロック 3GHz だと 8 演算で 24 Gflops となり、ほぼ GRAPE-6 の1チップ程度、消費電力は5倍程度となり 7 年前のプロセスを使っているのにいまだ GRAPE-6 のほうが効率でも優れています。

半導体プロセスは現在では 65nm となっていて、GRAPE-6 に比べて 20倍程度の数のトランジスタを使い、 3-4倍のクロックで動作するものをつくることができます。つまり、大体 100倍性能を向上させ、 1 チップで 3 Tflops、 GRAPE-6 のように 32 チップのったボードを作ればそれ1枚で GRAPE-6 全体よりも速く、最大構成の BG/L にもボード 4 枚で勝つことができるようなものを作るのは不可能ではありません。次をつくる、というのを考えはじめたのは 2002年です。この時にはまだ 130nm ですが 500 Gflops 程度のものは作れるわけで、同じプロセスルールの BG/L チップに比べると大体 100 倍の性能になります。

が、ここでの問題は、どうやって予算をとってくるか、ということになります。 GRAPE-6 までは要するに杉本がお金をとってきていて私はあんまり役に立ってなかったのですが、さすがに杉本にお願いしてなんとかしてもらうわけにもいきません。

もうひとつの問題は、必要な予算額自体がどんどん増えてきている、ということです。 GRAPE-4 の時には、2500万円ほどで LSI ロジックが 14mm角の LSI の試作までやってくれて、ダイ1つの量産価格は1万円以下だったのですが、 GRAPE-6 では試作コストが1億以上、チップ量産価格が3万円くらいになりました。大雑把にいって試作コストはプロセスルールに反比例して上がってきていて、90nm で3億、 65nm で 5億といった辺りになります。これはどこのメーカーと話をするかでも変わってくるのですが、現在カスタム LSI では TSMC が世界最大のシェアをもっていて、さすがに安いです。 IBM はこれよりずっと高いですが開発ツールとかは信用できます。国内メーカーは現状では価格は高いてプロセスルールやライブラリの充実度では海外メーカーに1歩遅れる、という感じになってしまっています。

これはこれで日本の半導体産業の将来、というよりは現在の大問題なのですが、 GRAPE プロジェクトとしては元々日本の半導体メーカーはあまり使えなかったのであまり関係ありません。いずれにしても問題は LSI 試作までの費用が莫大になってきたということです。つまり、1億円程度までなら文部省の科学技術研究費補助金という、研究者が文部科学省に申請する種類のお金でなんとかなります。 GRAPE-4 はそういう研究費でやりました。 GRAPE-6 では、既に述べたように運良くもうちょっと大きな額の予算を使うことができました。しかし、その次にはもっと大きな予算が必要になります。チップを作るだけで5億円とするなら、10億円くらい使わないと全体としての価格性能比があまり良くならないからです。

日本の天文学も、野辺山の45m、ミリ波干渉計やハワイのすばる望遠鏡でビッグサイエンスになってきたとはいえ、なかなか1研究室の理論研究に10億円というのは難しいです。というわけで、どうするのがいいかを色々考えてみました。

一つの方法は、少なくとも研究レベルで専用プロセッサをつくるとかはやめてしまうことです。2006年の現時点でも GRAPE-6 チップは汎用プロセッサに比べて電力当りの性能、価格当りの性能の両方でかなり優れていますので、まだ数年は使えます。従って、このプロセッサを使ってまだしばらくは世界をリードする研究ができます。その後のことはまた数年後に考えればいいでしょう。

もうひとつは、 FPGA を使うことです。 FPGA もどんどん実現可能な回路規模が大きくなり、2005年時点だと GRAPE-6 相当はまだ無理にしてもそれに近くなっています。後数年すれば GRAPE-6 よりも性能が高いものが初期の開発費ゼロでできるようになるわけです。なので、これを使うことである程度のことはできます。が、これは言い換えると 10年ほど進歩が止まるということでもあってどうも面白くありません。

全く別な可能性として、天文学で使えそうな研究費以外のところからお金をとってくる、というものがあります。もちろん、そのためには天文研究以外にも使える、といえなければいけません。天文以外に分子動力学によってタンパク質とかの研究に使えるというのは理研で戎崎や泰地が進めていて成果もでていますから、それと同じことを東大天文学教室でやるわけにはいきません。そうすると、もっと違う方法はないか？というのが問題です。

結局、なるべくいろんなことができるようにしたいわけで、一つの方向は FPGA のようなプログラマブルなものにすることです。この方向での研究は実は我々の他にも色々あって、10年ほど前から reconfigurable computing という名前で盛んになってきています。

例えばの話、GRAPE-2 や HARP-1 では汎用の浮動小数点 LSI を基板上で並べて専用パイプラインを作ったわけで、それと同様なことが LSI のなかでできればある程度の性能は出るはずです。つまり、汎用の浮動小数点回路を多数もった FPGA のようなものを作るということが考えられます。実際に、そのような方向の研究は例えば九州大学の村上先生を中心とするグループによって提案されています。

この方法の問題は、ハードウェアの設計、ソフトウェアの開発の両方がとても大変であるということです。GRAPE-2 の場合、基本的には浮動小数点演算なのですが逆数平方根には専用回路を作っています。また、メモリやレジスタもそれなりに必要です。そういったものをどういう割合でチップに配分するか、また演算器間で必要なプログラム可能な配線をどういうふうに準備しておくか、というのはハードウェアを設計する上で重要な決定ですが、どういう基準ですればいいのかよくわかりません。また、多数の演算器の間にプログラム可能な配線がある、というものになるので、動作クロックを上げることは非常に難しくなります。例えば、 2004年にアイピーフレックスが富士通と共通開発した DAP/DNA2 のクロックは 166MHz にとどまり、これは 16 ビットの乗算器を 56個しかもたないので乗算の理論ピーク性能は 7GOPS 程度となっています。

同じように演算器を沢山1チップにいれるもうひとつの方法は SIMD 動作させることです。つまり、複数の演算器をつないでパイプラインを構成するのではなく、それぞれの演算器を単純なプログラム可能なプロセッサにして、それらが同じ演算を同じプログラムに従って実行するのです。

これは、気分としては TMC の CM-2 のようなものを1チップで作る、ということになります。1988 年には CM-2 のような SIMD アーキテクチャはベクトルプロセッサよりもはるかに高い価格性能比を実現していたのですが、その後いくつかのシステムが開発されましたが90年代前半には完全に消えてしまいます。これが何故か、というのを理解しておかないと、 SIMD プロセッサを作っても上手くいくはずがありません。

90年代初めに SIMD 並列計算機が成り立たなくなった理由は簡単で、演算器を多数チップに内蔵させることはできるようになったとして、メモリバンド幅を必要なだけつける方法がなかったからです。 SIMD 計算機のプログラミングモデルはヒリスやスティールによるデータ・パラレルモデルというもので、ここでは、大雑把にいうとベクトル計算機のベクトル化と同じように、例えば大きな配列全体を読み書きするような形のプログラムになってしまいます。この形では、メモリアクセスのバンド幅がネックになって、沢山演算器をいれても有効に使えないのです。

しかし、私達が考えてるのは、そもそも GRAPE でやっているような演算のわりにデータ量が少ないものを扱おうという話です。この場合はプロセッサを大きなメモリに対して高速で接続する必要は全然なくて、例えば重力計算なら20 語程度のレジスタファイルがあれば 2 粒子間の力を計算するのには十分です。力を受ける粒子のデータはレジスタにいれておき、力を及ぼす粒子のデータはメモリから全プロセッサに放送すればいいわけです。実際、 CM-2 で直接計算のプログラムを書いた時にはそういうふうにしたわけですから、違うところは全くありません。

SIMD の計算機でも、プロセッサ間をどのようにつなぐかは問題ですが、GRAPE のように使う、ということを考えると特につなぐ必要はなく、単純に制御部からデータとプログラムが放送でき、結果は各プロセッサを指定して読み出す機能があれば十分です。まあ、GRAPE-4 や 6 ですでにやっている、複数のプロセッサからの結果を合計しながら出力できるようなツリーネットワークがあると色々便利です。これも実は CM-2 であった便利な機能の1つです。

CM-2 では、1チップに16プロセッサが入っていて、ネットワークはチップ間だったので16プロセッサが1つの出力ポートを共有し、その中での合計はネットワークとは別に行うようになっていました。これと同様に、チップ内でもプロセッサを適当ににグループ各して、ツリーネットワークにはグループから1本しか出力をつけないようにすることでツリーネットワークの部分のハードウェアは小さくなります。これは、この部分の演算器の数がプロセッサの数ではなくグループの数程度になるからです。

この、ツリーネットワークは結構色々な場合に有効であることがあとになってわかりました。特に、 Top 500 で必要な LINPACK ベンチマークで高い性能を出すためにはこのネットワークが有効でした。

ということで、このやり方で結構色々できそう、という気がしてきました。演算器毎にレジスタファイルをつけないといけないので、純粋な専用回路で作る GRAPE に比べると5倍程度は損になりますが、まあそれでも他のやり方よりは圧倒的に良いでしょう。

この考え方で研究費に応募してみたのですが、面接での審査員の対応は、「こんなの本当にできるの？」という感じのもので、結局採択られませんでした。これは、考えてみるとまあ当然で、今までプログラム可能な計算機を作ったことがない全くの素人が、突然世界最高速でしかもプログラム可能な計算機を作りますから 15億円よこせ、といってきても私が審査員だったら絶対信用しません。

ではどうすれば信用できる提案になるか、というのが問題です。結局、審査員が見るのは過去の実績ですから、こちらにプログラム可能な計算機を作った実績がなければ決して認められることはありません。なので、そういう実績がある人との共同研究にすることを考えました。日本の大学で計算機アーキテクチャ研究について実績があり、また動く計算機を作ったことがある人といえば東大情報の平木です。早速、平木にこういうのを共同でやってみませんか？というお伺いを立ててみました。幸いなことに平木はのってきてくれて、 GRAPE-DR プロジェクトが始まったわけです。2003年に、科学技術研究費補助金の特別推進研究の枠(こちらは牧野が代表で申請)と、振興調整費の枠(こちらは平木が代表)での申請をしました。幸運なことに、振興調整費の枠は面接までいき、そこで平木が非常にインパクトがあり設定力があるプレゼンテーションを行ったことで予算獲得に成功しました。

こうして、GRAPE-DR プロジェクトが始まりました。その後の開発過程についてはまたの機会に書くことにしたいですが、とりあえず2006年11月現在でチップは完成し、1つ載ったボードができて実際に GRAPE の役割をするプログラムも実行でき、そこそこの性能もでている、という状況です。 GRAPE-6 の開発と同じようなスケジュールで進んでいます。

できあがったチップは 500MHz 動作の 512 プロセッサを集積し、単精度だと 512Gflops のピーク性能、倍精度だとその半分の 256 Gflops となりました。消費電力は 60W 前後です。とりあえず、現在動作しているチップとしては世界最高の演算性能を持つプログラム可能プロセッサ、といえるでしょう。 SIMD 並列プロセッサという私達のアイディアは基本的には実証された、といっていいと思います。

Previous ToC Next