./note034.html

ToC

33. GRAPE の開発---GRAPE-4まで (2006/11/4)

伊藤は早速デジタル回路の勉強や、平方根回路の設計等を始めました。私のほうは、これを作るのは伊藤が、と杉本が決めたので、では私はどうしようか、、、という感じで、「トランジスタ技術」とかを買ってデジタル回路の基礎を勉強したりしてました。そうこうするうちに、伊藤が、初めから近田が提案したような大規模な回路を作るのは大変なので、パイプラインの構造としては同じなんだけれど計算精度(データのビット幅)を減らしたものを作るのはどうか？といってきました。伊藤によると、ビット幅を 8 ビットにすれば、 2入力の任意の演算を 512kbit の ROM (読み出し専用メモリ)でできるので、回路が非常に簡単になるというのです。

杉本はではそれでやろう、といったように思います。私はというと、もちろん最初に作るものはそれでいいけれど、それでなんかシミュレーションできたらそのほうが嬉しいな、、、といった感じのことを考えていました。

8ビット精度でシミュレーションなんて全然無理ではないか？というわけですが、実はそうでもないのです。例えばツリーコードを使う場合、重力加速度の誤差は 1% とか、もっと大きいこともあります。そんな精度でいいか？というと、 1% の誤差といってもステップ毎にランダムに変わるので、求まった軌道の精度はもっと高いということがあり、球状星団の計算のような何千周期、何万周期と計算するような問題には使えないのですが、例えば銀河の合体過程をシミュレーションするような、短い計算ではこれで十分なのです。

もっとも、 8ビットというのは、浮動小数点表現の全部を合わせて 8 ビットなので、例えば指数を 5 ビット、符号を 1 ビットとする仮数は 2 ビットになって誤差は 25% ということになります。これは上のツリーコードの 1% よりずっと大きいのですが、ここでもうひとつ大事ことは、1つの粒子への力は他の沢山の粒子からの力の合計であるということです。粒子数は例えば 1万個程度です。この時に一つの粒子からの力の誤差がランダムだとすると、 1 万個合計した時に力の大きさは大雑把にいって 1万倍になりますが、誤差は平均すると 100倍にしかならず、精度は2桁あがることになります。一般に、このような誤差がランダムなものを積算すると、誤差は積算した項数の平方根でしか増えないのです。

つまり、途中の計算がいい加減でも、積算のところだけ高い精度でやると結構良い精度がでることになります。後は、最初の2tの粒子の座標の引き算にも精度がいります。これは、原点から遠く離れた2粒子の座標を引き算した後で有効数字がのこっている必要があるからです。もっとも、これは固定小数点にしてしまえば LSI 1つで済み、 16 ビットもあれば十分でした。入力の座標を16 ビットにすると、積算の前の答は 32ビット、積算器は桁あがりがあるのでもうちょっと必要になります。

途中の計算をいい加減にやっても本当に大丈夫か？というのは、理論的にはそうであってもやってみないと信じられません。これは、普通の計算機でシミュレーションしてみれば確認できます。早速、そういうプログラムを書いて実験してみたところ、確かに途中の精度を 4 ビットとかまで落としても計算精度に大きな問題は起きないことがわかりました。

それなら、というわけで伊藤に、最初と最後だけ固定小数点でビット長を長くできない？というような話をしたら、できそう、という答でした。それで、座標 16 ビット、積算 48 ビットという GRAPE-1 の回路構成が基本的に決まりました。

ホストインターフェースには、 RS-232C や SCSI 等も検討したのですが、安くでき、設計も割合簡単な上にそこそこの速度がでるはずのもの、ということで GPIB (IEEE-488) を採用しました。これは、学部の学生実験で使っていて PC-9801 用のボードが実験室から借りてこれた、というのも理由でした。これは、大体 10KB/s の速度が出れば、粒子数が大きい時にはまあまあの性能がでるという見積りだったからです。 RS-232C では不足でした。 SCSI は理論ピーク 5MB/s で十分なのですが、難しそうだったので使いませんでした。また、当時研究室に1台だけあった Sony NEWS ワークステーションにも GPIB インターフェースカードがあったので、ちゃんと動いたらそっちにつけることできる、というのが利点でした。もちろん、 SCSI インターフェースも NEWS にはあるのですが、これはハードディスクや光ディスクドライブをつないでいたので、それらとは別に GRAPE をつけて動かせるかどうか、 OS の中身をいじる必要がないか、とか良くわからなかったということもあります。

GPIB は TI の 9914 というインターフェース IC があり、伊藤はまずそれをのせた簡単な基板を作って石の動作を確認したあと本番のボード設計に入りました。GRAPE の名前はそのころに杉本が提案したものでした。最初は名前がなくて近田パイプとか呼んでましたが、もっと格好いい名前がないといけない、というので皆が色々考えたのですがあまり良い案がなくてしばらくしたある日に GRAvity PipE で GRAPE でどうか？と杉本がいって、それは良いとなったものです。

GRAPE-1 について、そういうわけで実際の設計や配線、デバッグは全部伊藤がやっていて、私がしたことは当時助手で着任した戎崎と相談しながら使う部品を検討した(主に、注文してから速く届くとかそういう観点で)こととか、伊藤が当時川合研究室の助手だった朴のところに設計した回路を見せて意見を貰うのについていったとか、それくらいです。夏の間にいつのまにか回路ができていて、8月の終わりころに、回路ができて動いたから ROM テーブルの中身を作ってくれと伊藤にいわれて慌てて作って渡したら、なんだかあっというまに重力計算ができるようになっていました。

ホスト計算機は最初 PC-9801 (多分 VM2という、CPU は V30 のモデル)であり、最初のプログラムはN88-BASIC で書いていました。ハードウェアのデバッグ、テストにはこれで十分なのですが、数千粒子とかでシミュレーションするには速度が足りません。なので、まずは MS-C を使って動かすことにします。 NEC が売っていた純正の GPIB インターフェースボードを使っていたので、これは ROM に GPIB インターフェースライブラリが入っていて、ソフトウェア割り込みで使うことができました。これはそこそこ高速で、ある程度のシミュレーションができたはずです。

しかし、実際に研究に使うような計算をしようと思うと、 MS-DOS が動いているだけの PC-98 ではなかなか大変です。初期条件を作ったり結果を解析したりするプログラムは NEWS 上の UNIX で動いているからです。 UNIX の機械の間では NFS でファイル共有ができていましたが、 UNIX と MS-DOS の間ではまだそんな気の効いたものはありませんでした。

そこで、 NEWS につなぐことにしました。ライブラリを使ってプログラムを書いてみると、、、 PC-98 を使っていた時の 1/10 くらいのスピードしかでません。これは一体どういうことか、と調べてみると、話は単純でメーカーの提供してくれた GPIB のライブラリが遅い、ということがわかりました。何故遅いか、ということですが、 GRAPE-1 では、ホストからの転送は6バイト単位で動いていました。コマンドやアドレスにあたるものが4バイト、データが2 バイトです。で、ハードウェアはこの 6 バイト毎に GPIB のハンドシェイクをするようになっています。このため、ホストのプログラムは 6 バイト毎に転送するライブラリルーチンを呼ぶようになっていました。

ところが、NEWS のほうのライブラリはそんな短い転送長では全く性能がでないものでした。大雑把にいって、1度ライブラリを呼ぶとデータ長に無関係に 1 ミリ秒くらいかかるので、 6バイト単位でライブラリを呼ぶと 6KB/s くらいしか出ないわけです。

これでは使いものにならないので色々姑息な方法を考えました。今ならハードウェアといってもこういったインターフェース回路は FPGA で組むので、 6 バイト単位ではなくもっとまとめて受け取れるようにそっちをプログラムするのですが、 GRAPE-1 では 6 バイト受け取ってハンドシェイクする、という回路を 74系の標準 IC (CMOS のHC シリーズでしたが)のカウンタ IC とかシフトレジスタ IC とかを配線して作っていたので、そんな器用なことをさせるのはボードから作り直す必要がありました。

色々考えたのですが、結局2つの非常に違うアプローチをしました。一つは、 NEWS のライブラリルーチン自体を書き直すことです。最初使っていた NEWS-821 は CPU に 68020 が2個ついたモデルで、ユーザプログラムや OS カーネルは一方の CPU で走るのですが周辺装置の制御はもう一方が行うというものでした。当時やそれ以前のメインフレームでは CPU の他に I/O プロセッサがあるのが当たり前で、そういう構成になっていたわけです。

そんなのだと、ライブラリをいじるには I/O プロセッサのほうのプログラムをいじる必要があって、そんな資料はメーカーから簡単にはでてこないしでてきてもやりたくないわけですが、ちょうどそのころソニーは新しく 68030 を使った廉価版の NEWS を発売しました。これは I/O プロセッサとかそういった邪魔ものはなくなっています。

教養学部宇宙地球科学教室の少ない予算から廉価版の NEWS を買ってもらって、早速 GPIB ボードをさして GRAPE-1 につないでみました。すると、なんと今までの I/O プロセッサつきの NEWS よりさらに遅くなっていて全く話になりません。今度は、データ長に無関係に 1KB/s くらいしか出ないのです。

これは、I/O プロセッサがなくなったので、 1 バイト読むのにハードウェア割り込みを使って OS カーネルに制御を渡し、終わるとスケジューラに戻す、ということをしているかららしい、ということはすぐにわかったのですが、ではどうしよう？というのが問題です。

幸い、この NEWS はソニーの純正商品ではなく、ハードウェアはソニーなのですが、普通の UNIX を載せたモデルは東京エレクトロンが独自に販売していたもので、そちらにお願いすると OS 周りの資料が色々でてきました。結局、その資料を頼りにデバイスドライバを書いてなんとかすることになりました。

といっても、デバイスドライバなんてものを書くのは初めてなので右も左もわかりません。参考書1冊と、サンプルドライバのソースコードだけが頼りです。とはいえNEWS の GPIB ボードは、GRAPE-1 で使ったのと同じ TI の 9914 チップが載ったボードだったので、石に何をすればいいのかは良くわかっていました。問題は、そもそもデバイスドライバとはどういう仕掛けで書くものか、とかそういうことです。

その辺が良くわからなかったので、なるべく安直な方法でやることにしました。具体的には、 9914 の制御レジスタをユーザプロセスのアドレス空間の中にそのままマッピングし、ユーザープロセスから OS を介さないでそのままハードウェアをアクセスすることにしました。これは、セキュリティとかシステムの安定性、つまり、ユーザプロセスが変なことをした時にシステムが落ちないかどうか、といった観点からは問題があるわけですが、 GRAPE-1 の性能を出すことが目的で、ハードウェアにアクセスするのはライブラリだけですからそれがちゃんとしてればいい、ということにします。

さらに、データがくるのを割り込みで処理するのではなく、単純にレジスタをポーリング、つまり、データがくるのを CPU がループで待つ、というふうにしました。これは、マルチタスク OS ではやってはいけないことになっているのですが、別に GRAPE-1 のプログラムだけが速く走ればいいのでそんなことは気にしません。

これらは劇的な効果があり、大変素晴らしい性能がでるようになりました。計算速度ですが、当時我々は2つの粒子間の重力相互作用の計算を全部で 30演算と数えていて、最初はクロック 4MHz だったので 120 Mflops 相当といっていました。しかし、1996 年頃から Los Alamos のグループが重力相互作用の計算を全部で 38 演算と数えるようになったので、我々もそれに合わせて性能を計算するようにしました。この稿ではそれを使うことにすると、 152 Mflops ということになります。年度末くらいには 8MHz でも動いて、 304 Mflops となりました。

速度の計算にこのような曖昧さがあるのは、平方根演算や割算をどう数えればいいかはっきりしないからです。普通計算速度を Mflops とか Gflops で書く時には、掛け算と足し算、引き算の数を数えます。しかし、割算は大抵の計算機で掛け算より時間がかかるので、これも1演算として数えると割算が必要な計算では計算機の性能が見かけ上非常に低くなってしまいます。これは、平方根や、その他数学関数でも同じです。

Cray のベクトル機では割算の時間は掛け算の 7 倍くらいだったので、その程度で換算する、ということが昔は良く行われましたが、最近の計算機はもう少しかかるものが多いのでもう少し大きい目の数字を、Los Alamos の人達はしたようです。

ちなみに、 300Mflops という速度は当時の東大大型計算機センターの日立 S-820 のちょうど 1/10で、ハードウェアコストはだいたい 1万倍くらい違うので結構お買い得だったことがわかるかと思います。もちろん、ハードウェアコストに伊藤やその他関係者の人件費を適当に仮定して入れると(実際には大学院生は給料貰うどころか授業料を払ってますから、人件費はマイナスですがそれを入れると計算機の値段自体がマイナスになってしまいます)差は100倍くらいまで減るのですが、そういう計算をするならベクトル計算機を使うにも人件費がかかるので人件費の差を計算する必要があります。そうすると 1000倍くらいというのが妥当な数字でしょう。

GRAPE-1 は銀河の衝突のシミュレーションなどに使い、90年4月に助手に着任した奥村さんや、同じ時期に卒業研究で研究室にきた船渡さんがシミュレーションに使いました。また、銀河の合体や銀河群の進化などのアニメーションを作って、ノート PC で見せる、といったこともやりました。

GRAPE-1 は伊藤君が中心で設計・製作したのですが、それと時期を同じくしてもっと計算精度が高くて、球状星団の進化の計算もできるようなものを作ろう、と杉本が言い出し、国立天文台から 250万円ほどの研究費をもらってきました。

こちらは戎崎が中心になってやる、ということで、 GRAPE-2 という名前で開発を始めました。計算精度を上げることと、球状星団のような系のための計算アルゴリズムである独立時間刻み法というものを使うことが目的です。

計算精度を上げるのは、基本的には GRAPE-1 で使った ROM の代わりに普通の浮動小数点演算ができる LSI を使う、ということになります。 CM のところで書いたように、当時はちょうどそういうものが利用可能になった数年後で、アナログ・デバイセズ、ワイテック、TI、LSIロジック等の数社からそのような LSI がでていました。多くは32ビットで価格は2-5万円、64ビットのものはだいぶ高かったです。

なので、全部64 ビットでやるのは諦めて、 GRAPE-1 で演算毎に精度を変えたのと同様に最初の座標の引き算と最後の積算は倍精度、それ以外は単精度でやることにしました。汎用計算機では最近になって SSE をもった x86 プロセッサ、CELL や GPU のような単精度が速いシステムがでてきたので、部分的に単精度で実質的に倍精度を実現するアルゴリズム、というのを研究しようという雰囲気がでてきていますが、 GRAPE では 1990 年にこれをやっていたわけです。

ちなみに、SSE 等では演算毎に指定する、というレベルで単精度と倍精度を混ぜて性能を出すのは困難で、それは精度変更自体が命令で、サイクルを消費するからです。 GRAPE のような専用パイプラインでは、精度変更は基本的には配線だけの話なので、演算毎に好きなように変えることができます。

GRAPE-1 に比べると、計算精度が高く、実際に球状星団の計算に使えます。といっても速度は大したことはないので、粒子数はあまり大きくできません。それで性能を出すには通信が速い必要があります。ということで、GPIB ではなく VME バスというものを使いました。これは基本的には 68000 のプロセッサバスをベースに汎用バス規格を作ったもので、当時の産業用コンピュータの他、ワークステーションでも採用例が多かったものです。特に、また同じ研究室の NEWS ですが、これは VME バスのカードを挿すことができる拡張ボックスがありました。

GRAPE-2 は VME バスに対するスレーブとして、またバースト転送にも対応しない単純な回路でやることにしました。と、自分でしたみたいに書いてますが、この辺は実は伊藤がまたやっています。GRAPE-1 に少し遅れて戎崎が中心ということで初めたのですが、 GRAPE-1 が結構すぐに出来て伊藤が時間ができたのでじゃあそっちも、ということになったものです。といっても、伊藤にもなかなか難物だったようで、回路設計、製作が終わってからもかなり苦労してデバッグとかしていました。特に、なかなかノイズでの誤動作が消えない、ということがありました。今から考えてみると、消費電力の大きなLSI のためのボードとしては電源周りの配慮が不足であったと思います。

最終的には、電源電圧を下げて動作速度を落としてノイズを抑える、という方法で解決したようです。

アーキテクチャの話に戻ると、 GRAPE-1 では空間座標の3成分を計算するために 3 個の同じ回路を用意して並列動作させて性能を稼いでいるのですが、 GRAPE-2 ではそれはあまりに製作が大変だということで 1 つの石で x, y, z の3成分を順番に処理することで回路規模をほぼ 1/3 にしました。で、クロックは 4MHz で、速度は GRAPE-1 の 1/3 の 50Mflops、ハードウェア費用は GRAPE-1 の 10倍ですが、これは人件費に比べて小さいとすると汎用スーパーコンピューターに比べて価格性能比が数百倍よいというのはあまり変わらないわけです。GRAPE-2 は色々なシミュレーションに使われました。

GRAPE-1 を始めた 1989年春に私は博士課程3年だったのですが、この年に無事に学位をいただいて、さらに幸運なことに同じ東大教養学部の情報図形科学教室というところで職を得ることができました。この時に同時に現在は東工大の教授になっている井田と、国立天文台の助教授になっている奥村がそれぞれ基礎科学科第二と宇宙地球科学教室の助手として採用され、 GRAPE にもかかわってくれることになりました。井田は早速惑星形成過程の N 体シミュレーションを始め、 GRAPE-2 を使っていくつもの重要な成果を上げました。また、91 年に卒業研究に来た小久保をこの分野では世界をリードする研究者に育てています。井田は 92年には助教授となって東工大に移りました。奥村は銀河の合体のシミュレーションと観測との比較等で成果を出すと同時に次の GRAPE-3 の開発にかかわります。

GRAPE-2 の成果の一つは、中心にブラックホールがある銀河同士の合体で楕円銀河に見られる中心の明るさがフラットな領域の存在を説明できる可能性がある、ということを初めてしめしたことです。 GRAPE-1 での計算で、銀河同士の合体で楕円銀河の色々な性質を良く説明できる、ということは確認できたのですが、一つどうしても上手くいかなかったことがありました。それは、コア半径があわない、というものです。

楕円銀河は一般に中心ほど星の密度が上がり、明るくなるのですが、中心の狭い領域ではそれほど密度が上がらなくなる傾向があります。小さい楕円銀河では、望遠鏡の分解能の限界までみても明るくなっているものが殆どなのですが、銀河団の中心にあるような大きな楕円銀河では必ずしもそうではなく、あるところから密度が上がらなくなるのです。

この密度がほぼ一定になる領域のことを核(コア)といいます。大きな楕円銀河については、銀河自体の大きさとコアの大きさにほぼ比例関係があることがわかっていました。ところが、銀河同士の合体をさせると、出来た銀河のコアは最初の銀河のコアから大きくなりません。銀河全体のサイズは大きくなるので、これは観測で見つかっている比例関係がシミュレーションでは再現できない、ということになります。これまでもそういうことを示唆する結果はあったのですが、 GRAPE-1 で今までやられていなかったような大規模で精度が高い計算をしても結果は同じでした。つまり、何かが正しくなかったのです。

戎崎、奥村と牧野の3人で色々議論しましたが、あんまり展望は開けませんでした。観測の分解能の問題とかを考えても、大きな銀河でコアが大きくなるというのは分解能のせいだけではなさそうでした。

ある日、戎崎が、「中心ブラックホールがあったら影響しない？」といいました。私は言下にそんなのは質量もたいしたことないし効くはずがない、と返事をしたような気がするのですが、戎崎は、そうじゃなくて、質量は結構大きい、楕円銀河だと星の質量の合計の 0.1 パーセント以上とかあるのも珍しくない、と教えてくれました。そうすると、話は全然変わります。球状星団では連星ができる、という話を前のほうで書きましたが、そういう連星では連星の重力エネルギーは他の普通の星の 100倍近くまでもあがることがあります。合体する 2つの銀河が両方ともブラックホールをもっていると、それらは重いために「力学的摩擦」という効果が働いてできた銀河の中心に沈み、連星をつくります。もしもブラックホールの質量が星の質量の合計の 0.1 パーセントもあるなら、その重力エネルギーは銀河全体の重力エネルギーの 10パーセント近くまで増えることができるのです。これは、コアどころか銀河全体の構造に影響するほどの膨大なエネルギーです。

それなら、ということで、できたばかりの GRAPE-2 で合体過程の計算をしました。GRAPE-1 の時には計算プログラムは全く新しく書いたのですが、 GRAPE-2 ではより複雑なプログラムを使うので、ゼロから書くのではなく元々スーパーコンピューターで使っていた、ケンブリッジのアーセスが書いたプログラムを重力相互作用計算のところだけ GRAPE-2 を使うようにしたものを使います。この、部分的にだけプログラムを修正する、という方法は、 GRAPE を使う時の基本的なアプローチになります。

結果は。見事にブラックホールなしの合体だとコアが大きくならないけれど、ブラックホールありだと大きくなる、となりました。この計算結果は Nature に論文として発表することができ、 GRAPE-1 の論文自体が Nature に載ったのにつづいて 2 本目の Nature 論文、ということになりました。

この研究にはずっと続きがあり、巨大ブラックホール連星の進化とその親銀河の構造への影響、というテーマは観測的にも理論的にも大きな分野に成長しました。もちろん、これは私達だけの貢献ではないし、私達が最大の貢献者というわけですらないのですが、親銀河の構造への影響、という観点を持ちこんだのは私達、といっても主に戎崎ですが、の貢献だと思います。

GRAPE-1 と GRAPE-2 で、実際にこういう計算機を作ってちゃんと研究に使って成果を出すことができる、ということは十分にわかったのですが、それができるとなると次はもっと速いものを、ということになります。当時は LSI を試作するのは 1-2千万円でできたのですが、さすがにこれは教室の予算や、天文台からもらってこれる開発費では足りません。また、それ以前にそもそも LSI を設計するっていうのはどういうことでどうやってやるのかも誰も知らないわけです。

お金がどれくらい、というのを見積もるにも、どんなものを作るか決めないとメーカーと相談にもなりません。ということで、伊藤が GRAPE-2 をやっていた89年末、私は博士論文を提出して時間ができたので LSI を作るとしたらこんなもの？という回路図、といってもそんなに詳細ではないブロック図レベルのものを書いていました。これを、半導体開発もやっていた東京エレクトロンに持ち込んで、費用とかの見積もりをしたのです。それででてきた数字が、 GRAPE-1 の精度を少しあげたくらいのものだとまあ開発費が1500万円位という感じでした。プリント基板等にもお金がかかるので、 2000万くらいいることになります。この頃に、本郷で並列計算機の開発をしていた田中先生の研究室にお邪魔して、 LSI 開発の様子を教えてもらったりもしました。

杉本は科研費を申請していましたが、これは当たって 700万円位の枠で出していてとても足りません。そこで、最初は色々違うことを考えました。

一つは、GRAPE-1 の回路をそのまま、あるいは少し改良した上で、10枚くらい作って、並列処理で性能を上げる、というものです。材料費は安いので不可能ではありません。が、性能はなかなか上がらないのがつらいところです。

もう一つは、 FPGA、あるいは当時は LCA (Logic Cell Array) といっていた、中の論理回路を変更可能な LSI を使ってパイプラインを実現することです。当時使えた FPGA は代表的なのが Xilinx の XC3000シリーズというもので、公称 9000 ゲートというものでしたが実際には到底そんなものではなく、数個使って GRAPE-1 相当が入るかどうか、という程度であまりメリットはなくて断念しました。当時、東大物理の大学院生だった泰地が FPGA を使って統計物理のシミュレーション用の専用計算機を作っていたので、その話も聞いたりしたはずです。

実際に LSI を作ると、チップ1つに GRAPE-1 や、あるいは GRAPE-2 相当の回路を入れることが計算上はできます。で、ボードだと我々の技術では 10MHz で動かすのも大変だったのですが、チップにしてしまえばもっとクロックを上げるのはそれほど難しいことはありません。これは、単に長い配線とかがなくなるの、高速で出力しないといけないチップはメモリくらいになってノイズもでにくくなるからです。しかし、もっとも大事なことは、ボード上に沢山チップを載せて並列化できることです。

GRAPE がすることは重力計算だけです。重力計算では、単純なアルゴリズムでは全部の粒子が他の全部の粒子からの力を受けます。従って、これをハードウェアで計算することを考えると、沢山の粒子への力を沢山のパイプラインで並列に計算する時に、力を及ぼすほうの粒子は同じものでかまいません。つまり、メモリユニット1つに沢山のパイプラインチップをぶらさげる形で並列計算機が構成できるわけです。

このやり方だと、普通の並列計算機や、あるいは GRAPE-1 のボードを複数作る、というやり方に比べて、極限まで回路全体に対する演算パイプラインの割合を高くすることができます。この頃の普通の並列計算機だと、ボード1枚に CPU が1つ載って、他にメモリや周辺チップ等が数十個載っています。で、クロック毎に 1-2 演算するわけです。これに対して、カスタム LSI を使った GRAPE だと、数十演算するチップを数十個ボードにのせて、 1000 演算程度させることができます。つまり、ボード当りの性能が、クロックが同じなら 500 倍程度違うわけです。クロックが数倍違ったとしても 100倍以上は性能差がでます。

システム全体の価格を考えると、 LSI チップの量産費用は普通はそんなに大きくなりません。普通の大きさのボードを作ると、量産コストが普通なら 100 万円程度になるのに対して、チップの量産コストは当時ならせいぜい 1-2万円だったからです。このため、数十個 LSI を載せてもコストは倍にもならないのです。しかし、性能は汎用計算機に比べると 1000倍近く、専用パイプラインを汎用チップで作るのに比べても数十倍になるので、チップ開発の初期コストさえなんとか工面できれば素晴らしく高性能なシステムを実現できます。

というようなわけで、89年末から絵を描いていたわけですが、90年度に使えそうな研究費では普通にメーカーに LSI 試作を頼むには十分ではありませんでした。杉本は 90年には特別推進研究というもしもあたったら総額3億円という予算申請をします。これは、専用 LSI を作って数千個並べて、テラフロップスを超える計算速度を実現する、という計画です。が、そんなのをいきなりやるのも大変なので、もしも 90 年度の予算で LSI の開発をやってみることができれば非常にありがたかったのです。

このあたりは杉本の本が詳しいのでここでは繰り返しませんが、杉本や戎崎が色々努力した結果、富士ゼロックスの研究所と共同で LSI を開発する、という話が 90年の 9 月くらいにまとまりました。この研究所は SCS (シリコン・コンパイラ・システムズ) という会社の LSI 自動設計ツールのユーザーで、そのソフトウェアを使って開発するということになりました。

そうすると、結局 LSI 設計の細かい作業はゼロックスのほうでやってくれるので、こちらは詳細な動作記述、特に演算部分の仕様とシミュレータを作るのが主な仕事になります。これは 10月にやって仕様とシミュレータをゼロックスのほうに回しました。

これは、最初であるということもあってあまりチップサイズを大きくしたくなかったのと、設計も簡単にしたかったので GRAPE-2 相当ではなく GRAPE-1 相当を LSI 化することにしました。とはいっても、実は GRAPE-1 そのままでは LSI 化はできません。これは、 GRAPE-1 では演算に ROM を使っていたからです。 ROM には 512kbit とか 1Mbit のものを複数使っていたので、これをそのまま LSI 化すると膨大な面積になってしまいます。

GRAPE-1 の設計の時からこういう問題はあるというのはわかっていました。もしも LSI 化するなら演算器をもっと小さくする必要があったわけです。

ROM はどんなところに使っていたかというと、例えば最初に固定小数点で引き算した結果を対数表現に直すところです。 ROM では引き算の結果をそのまま入力にすれば良いので簡単なのですが、ちゃんとハードウェア設計するならもっと小規模にできます。つまり、普通に固定小数点形式から浮動小数点形式に変換するのと同じように、まず先頭の 0 の数を数えて指数分を求めて、それから小数部をシフタに入力して取り出し、求まった小数部を対数形式に変換すればいいわけです。

こうすると、小数部の変換にはROMテーブルを使ったとしても、そのテーブルの大きさは小数部が 5 ビットとして32しかなく、 512 kbit の ROM は 8bit 64 k語なのでそれに比べると 1/2000 のサイズになります。もちろん、シフタや 0 を数える回路が余計にいりますが、これらはテーブルに比べるととたいしたことはありません。他の ROM も同様な考え方で論理回路と組み合わせることで小さくできました。そのような回路構成と動作記述はこちらでやり、実際に SCS のツールで物理設計や配置配線といった作業をするのはゼロックス側でやりました。SCS の設計ツールは、加算器、シフタといったユニット毎に物理的なトランジスタ配置を生成するもので、当時一般的だったゲートアレイを使うものではなく、例えばシフタならシフタに最適化されたトランジスタを使った物理設計を生成するもので、理論的には小さなチップサイズと高い性能が実現できるはずですが、その代わりに回路生成のアルゴリズムは単純で、例えば乗算器やシフタでは遅延時間がビットサイズに比例するものになるという欠点もありました。その辺も気になっていたのであまりビット長が大きくない回路ですむ GRAPE-1 相当で設計をしました。

これに先だって、 VME インターフェースを使って高速化した GRAPE-1 である GRAPE-1A というのを、これは伊藤と、この年に卒業研究できた福重が開発していました。上の回路構成は部分的には GRAPE-1A のために考えたものです。これは 90年の終わり頃には完成していたはずです。

チップは 91年の春頃には完成して、それを載せるボードは奥村が設計して、チップより少し先に出来ていました。ボードはプリント基板ではなくラッピング配線で、動作クロックは 10 MHz 程度でしたが 40cm 角のボードに 24個チップを載せて 9.1 Gflops と GRAPE-1 に比べると 40倍の性能を出し、さらにこのボードを2枚並列動作させて 18Gflops の理論ピーク性能を実現しました。当時の最高速のスーパーコンピューターは NEC SX-3 の 22 Gflops ですから、ほぼそれに匹敵するところに到達したことになります。 SX-3 のクロック周波数は 340 MHz で、 GRAPE-3 は 10 MHz なので 1/34 ですが、それだけ沢山の演算器を並列動作させた、ということです。

GRAPE-3 では、インターフェースは GRAPE-2 と同様の VME インターフェースを使い、 VME カードが入るように設計された UNIX ワークステーションである SUMIStation S-300 というものを使いました。これは CPU が MIPS R-3000 で、OS は RISC-OS の珍しいマシンでしたが SUN Sparc に比べて高速で、 VME がついて安価なマシンということで導入したものです。

さて、杉本は 90年にも大規模システムを作るための予算申請をしたわけですが、これは落ちました。が、GRAPE-3 で、我々にも LSI を作ったりできる、とわかったので、杉本はもう91 年にもう一度申請します。杉本の本「手作りスーパーコンピューターの挑戦」はちょうどその時期に書かれたものです。

この年にはまず面接審査まで進むことができ、それには私も鞄持ち、というより実際に GRAPE-3 のボードを運ぶ役で杉本にお伴しました。この面接でのプレゼンテーションはかなりインパクトがあったと思われ、結果的には 92 年度から大規模並列システムの開発をスタートさせることができました。これが GRAPE-4 となります。

GRAPE-4 では当初 GRAPE-3 を一緒にやったゼロックスのグループと一緒に、という方針で検討していましたが、これはちょっと難しいということになりました。技術的な理由は、ビット長が長い乗算器やシフタは SCS のシステムでは大きくなりすぎて性能がでないので、別の会社を使う必要があった、というものです。大抵のプロジェクトでは技術的に望ましいことでも政治的な事情とか経緯とかでその方向にいけない、ということになるのですが、杉本の決断で技術的にやりやすい方向で進めることができました。

GRAPE-4 では、 LSI ロジックを使うことになりました。半導体プロセスとしては決して最新ではなかったのですが、乗算器を始めとするライブラリの自動生成ツールが優れていて、試作コストが安かったことが大きな選定理由です。 GRAPE では演算毎に精度を変えたり、入力データの範囲が制限されていることを使って専用の演算回路を作ったりすることで性能を上げるわけですが、そのためには乗算器、加算器、シフタといった演算回路の構成要素をビット長や必要速度を指定すると自動生成してくれるツールが不可欠です。そのあたりが充実しているメーカーというと、少量多品種の経験がある LSI ロジックのような米国企業、ということに当時はなりました。もうひとつの理由は、我々は全部で1000 個とかいう話をするのですが、国内メーカーの多くは月何万個くらい作りますか？という話をしていて2桁くらい話があわなかった、ということです。

GRAPE-4 では GRAPE-2 相当をチップ化するわけですが、色々計算すると GRAPE-3 でやったような x, y, z 3成分を並列処理ではチップサイズが大きくなりすぎて大変だとわかってきました。といっても、では x, y, z を順番に処理では性能が低くなりすぎます。目標を 1テラフロップスとしたので、あんまりそれを大きく下回ると恥ずかしいわけです。

まあ、計算機に限らず、いろんな研究開発のプロジェクトで、予算が予定の数倍かかって性能は数分の1ということはあるわけですが、下をみればきりがないので志は高く持つ必要があります。

というわけで色々考えたのですが、とった対策の一つは、「重力の時間微分も計算する回路をつける」ということです。ちょっと数学的な話になってすみませんが、球状星団の計算では高い精度がいるので、今までは加速度を積分するのに前の何ステップかの加速度をとっておいて、それらを滑らかにつなぐような近似式を作り、その近似式を積分する、という方法を使っていました。この方法ではステップ数を増やすと精度があがる、正確にはステップサイズを小さくした時の精度のあがりかたが良くなります。通常は4ステップを保存する方法を使います。

しかし、時間積分の精度を上げる方法は他にも色々あり、その一つはステップ毎に重力だけでなくその時間微分も計算し、それを使って近似式をつくることです。この方法では、普通にやると 4ステップ必要なのと同じ精度が2ステップででるので、結果的に計算を速くすることができます。この方法がそれまで何故つかわれていなかったのかは良くわからないのですが、1988 年に Piet Hut とそういう方法もあるのでは？という話をして、実際に性能評価もしてうまくいくことはわかっていました。

この方法には、ハードウェアでやる時にには特別なメリットがあります。重力の時間微分は重力自体に比べて小さいので、結果の精度を同じにするため必要なビット長は短くなるのです。重力の精度を 24 ビットとすれば、時間微分のほうは例えば 19 ビットもあれば十分です。乗算器の回路規模はビット長の2乗に比例しますから、 19 ビットでいいと回路規模が 40% くらい小さくてすむことになります。

さらに時間微分の時間微分、といったものも計算すればもっと精度はあげられるし、ハードウェアの場合には回路規模はあまり増えません。今良く考えてみるとそういう計算法もありな気がしますが、とりあえず当時はそれは考えませんでした。

この方法を使うことで、1ミクロンの設計ルールで 14mm 角、 40万トランジスタのチップに演算20個相当の回路を入れることができました。このチップの実際の設計は先にでてきた、現在理研でチームリーダーを務めている泰地が行いました。泰地は92 年に学位をとったのですが、ちょうど井田が東工大に転出した後に助手で採用することができました。このチップの設計は、泰地が赤坂にあった LSI ロジックのデザインセンターで LSI ロジックのツールを使って行い、回路図入力からシミュレーションまでやっています。最後の配置配線は LSI ロジックのエンジニアがやりました。

なお、 GRAPE-4 では重力計算の他に「予測子」といって他の粒子の位置を計算する回路も作っていて、これもチップには入りきらなかったのでもうひとつチップを作りました。これは牧野がやったのですが、浮動小数点演算器等の要素回路は全部泰地が設計したのを流用したので設計は1ヶ月ほどで終わりました。

これらの LSI 開発に先行して、浮動小数点 LSI を並べたパイプラインでこの時間導関数を計算する方式のものも開発しました。これは今は国立天文台助教授になっている小久保がやって、彼はこの時修士1年でした。これには HARP-1 という名前をつけています。

この頃に「半自動配線ツール」というのを開発していたように思います。ラッピング配線では、人が基板の裏側のピンの間を専用のツールで配線していくのですが、どことどこを配線するかを回路図から見ていたのでは時間がかかるし間違いも発生します。設計自体は CAD を使っているので、石のピン配置や基板上での位置をデータとしていれておけば、どこを配線するべきか計算機に指示させることができます。これを画面上で指示するだけでなく、 XY プロッタに腕をつけて基板上で直接位置を指定させるようにしたのです。これによって間違いが少なく、確実に配線ができるようになりました。

91 年から 2 年にかけては他にも色々なものを作っていて、そのなかで重要なのは GRAPE-2A です。これは、 GRAPE-2 を速くするというのと、分子動力学計算に使えるようにするということが目的で、大正製薬の研究グループと共同で開発したものです。実際の設計は例によって伊藤がやりました。これはコピーも作ったりしてあちこちで使われました。

もうひとつ重要なものは GRAPE-3 のプリント基板です。 GRAPE-3 はなかなか速いので、コピーが欲しいという話があちこちの研究グループからきました。色々経緯があって、その頃助手で京都大学から移ってきた蜂巣がプリント基板の設計をし、最終的には動作するものを完成しました。これは、オリジナルの GRAPE-3 で 24 個のっていたプロセッサチップを 8 個に減らし、基板サイズも小さくして標準的な VME カード用のラックに入るようにしたものです。動作クロックもも上がって 20MHz で動作したので、随分高い性能になりました。

これはその後、ロジックハウスという商社の方に紹介していただいた企業から商品化し、特に海外に合計 100枚近く売れたようです。

話は戻って GRAPE-4 です。93年春には2つのチップが完成し、まずそれらが載る評価用ボードをこれもラッピング配線で作りました、というと私がやったみたいですgこれも泰地です。夏頃にはこのボードが無事に動いて、GRAPE-2 の 10倍以上の計算速度を実現しました。このボードは VME 接続です。さらに、このボードをプリント基板化したものも泰地が作りました。

さて、 GRAPE-4 では最終的に 2000個近くのチップを作って並列動作させ、1 台のシステムとして動作させる必要があります。普通に基板を作ると頑張って大きな基板にしても載る LSI の数は 20から 30なので、少なくとも 60枚程度の基板を作る必要があるわけです。また、これらの基板をどうやって制御して、プログラムをどうやって走らせるか、という問題もあります。また、 60枚の基板をどんな箱にいれて、どうやって電源供給してどうやって冷却するか、といったことも考えないといけません。

まず、ホスト計算機をどうするかを考えないといけません。計算速度がテラフロップスくらいしかないので、システムが完成する 1995年頃の汎用 CPUの速度を多少楽観的に見積もると、ホスト CPU 1 つでも計算速度は十分だとわかりました。問題は通信速度ですが、これも当時のワークステーションのいくつかの専用バスなら大丈夫でした。当時使えた高速ばバスは Sun の Sbus と DEC の TURBOchannel です。 IBM の MicroChannel も検討しましたが、規格が複雑で良くわからなかったのでパスしました。 Sbus と TURBOchannel はどちら比較的簡単に作れるもので、また開発キット等も用意されていました。この2つでは、 CPU がより高速なものがあった DEC のほうが良いであろう、ということで TURBOchannel にしました。

TURBOchannel は理論ピーク転送速度が 100MB/s です。この速度を出すためにはカード側が DMA 転送する、つまり、アドレスを出してデータを出すなり受けるなりするのをカード側がする必要があります。

一般にはこういった周辺機器が DMA をするのは色々難しいことがあります。一つは、GRAPE-1 の時にもあったように、割り込み制御をするかどうかです。割り込みを使うと周辺機器が DMA している間に CPU は他の作業をして、周辺機器のデータ転送が終わったら処理を戻す、ということができます。これは、 OS がマルチタスクで動いていて、DMA の間に他の人の他の計算をしたい、というような場合には有用ですが、1つの計算に CPU の全能力を使う時にはあまり意味がありません。むしろ、割り込みの度に OS に制御がいってしまって、実行プログラムから見るとオーバーヘッドになります。

というような理屈をつけて割り込みのような面倒なことはしないことにします。 DMA をするのも、GRAPE-1 の時に 9914 をユーザープログラムから直接制御したのと同様に、こちらで作った TURBOchannel カードを直接制御します。 DMA を起動するために OS に制御を渡したりはしません。これにより、ソフトウェアによるオーバーヘッドを根絶することができます。

最後に問題になるのは、ではカードに、メインメモリのどこをアクセスしろといえばいいか、ということです。 MS-DOS の PC-98 ならともかく、 UNIX が動いているワークステーションでは仮想記憶方式を使っています。これは、つまり、アプリケーションプログラムが見ているメモリアドレスは、実際に CPU やデバイスのアドレス線が出す物理的なアドレスではなく、 CPU の中で変換されたものだということです。このため、例えばアプリケーションプログラムから見えているあるアドレス(仮想アドレス)に書いて欲しい、という時には、その仮想アドレスに対応する物理アドレスがどこかをなんらかの方法で発見して、そこに書けという指示をカードに送る必要があるわけです。

この辺は DEC の資料にもあまりちゃんと書いてなかったのですが、サンプルプログラム等をみてそれらしい関数を呼んで見るとちゃんとその場所にデータが入るのでまあ良かったということにしました。仮想アドレスと物理アドレスの対応は 4KB毎なので、 DMA の最大サイズを 4KB にすることにします。実際には、TUBROchannel の仕様で 256ワードを超えてはいけないというものもあったはずです。

この方法の問題は、仮想アドレスに対応する物理アドレスがない(まだ割り当てられていない)と破綻することと、いつのまにか対応する物理アドレスが変わってしまうような場合にも破綻することです。この辺はまあ実際に作って動いたらいいかな？というふうにやってました。

Linux では、この辺はずっとわかりやすくなっていて、カーネルの機能としてこういった DMA 用の領域をはじめから割り当てらるようになっています。このため、ユーザープロセスでとった空間の物理アドレスを計算するのではなく、逆にあらかじめ物理アドレスをとっておいた領域をユーザ空間の中にマッピングしなおすことになります。この方法では、ページサイズを超えた連続領域を確保できるし、いつのまにかなくなってしまうといったことも起こらず安全です。

TUBBOchannel を使ってピークとしては 100MB/s と今まで使っていた VME に比べて桁違いに高速な転送が可能になったのはいいのですが、まだ 60枚の基板をどうやって1台のホストにつなぐか、という問題は解決していません。

GRAPE-4 では、まず、 MCM (マルチチップ・パッケージ)を作って 8 個のチップを1パッケージに入れることで、ボード 1 枚当り 48 個のチップを載せることにしました。ここでは京セラのお世話になりました。パッケージの値段も数が減る分安くなり、基板の枚数も大幅に減ったのでこれはかなりコスト削減に貢献しています。但し、8個いれたチップが全部動くとは限らないので、ボードの上でどれか死んでいたらアドレスをつけかえて、47個動いているものとして使えるような仕掛けをつけました。

これによりボードは40枚ほど、ということになりました。 GRAPE-4 の最終案では、ボード 36 枚を9枚ずつに分けて、その 9 枚を1枚の「制御ボード」といっていたものにつなぎ、それがさらにホスト計算機につながる、という構成になりました。4枚の制御ボードはそれぞれ別の TURBOchannel カードとフラットケーブルでつなぎます。ここは TURBOchannel と同じ 32 ビット幅 25MHz 転送です。さして速いわけではありませんが、とても高い同軸フラットケーブルを使ってみました。 4本だけなので大した金額にはなりません。

制御ボードとプロセッサボードの間は単純な同期式バスです。バックプレーンとかを新規設計するとまたお金がかかるので、 VME バスのバックプレーンをそのまま使います。しかし、カードは大きいしまたそのままでは速度がでないので、 VME バスのバックプレーンを 3 枚使って、 32幅のデータを3個並列に転送するようにしました。

制御ボードの重要な役割は、計算ボードから返ってきた答を合計することです。各ボードは勝手に自分のところに送られてきた粒子への力を計算するのですが、ここで力を受ける粒子はボード間で共通にすることを考えます。そうすると、各ボードで力を及ぼすほうの粒子は別にすることになり、ボード上の粒子メモリでデータの重複がなくなるのでメモリが小さくてすみます。また、アルゴリズム上も都合がよくて性能が上がります。

ここの合計の計算は、それほど速度は必要ないのですが FPGA でできるほどでもありません。これは、結果が浮動小数点で返ってくるからです。まあ、固定小数点で返せばよかったのですが、作ってしまったものはしょうがありません。ここには、 GRAPE-2 で使った TI の 8847 を使うことにしました。トラブった実績がある石なので不安はあったのですが、電源部分を強化するとかで予定のクロックで動作はしました。しかし、なんだか数年たつと寿命がきたようで、結構どんどん壊れました。バスが3本あるので 8847 も3個あるのですが、1つ壊れるとバス2本で使うことになって性能が 2/3 になり、結構もったいなかったです。

こういうわけで、 GRAPE-4 では 3種類の基板を開発しました。これらは泰地、福重と私が適当に分担して設計、発注、デバッグをしています。 94年終わり頃にはそれぞれが完成し、95年春に9枚のボードで並列動作ができるようになりました。理論ピーク性能としては 270 Gflops に達しました。

この、95年春というのがどういう時期であったかというと、 93 年に航技研数値風洞が完成しています。これは理論ピーク性能が 280 Gflops です。三好先生のアイディアで分散メモリベクトル並列機を実現した画期的なマシンでした。また、Sandia 研究所の Intel Paragon が同程度のピーク性能を実現していました。これは Intel 80860 を使った超並列システムです。そういうわけで、理論ピーク性能としては汎用で世界最高速のスーパーコンピューターと肩を並べるところについに到達したわけです。

そういうところに来たので、少し宣伝をしよう、というわけで、ゴードン・ベル賞というものに応募してみることにしました。これは、元々 DEC のエンジニアであったゴードン・ベルが、並列計算研究を推進するために作った賞で、基本的には実際に科学技術的に意味がある大規模数値計算で最高速を実現したグループに賞が与えられます。スーパーコンピューターの性能比較で有名な LINPACK は、大規模な連立一次方程式を解く速度を競う、というもので実用的な計算ではないので、それで速度を測ることに意味があるのか？という批判がつきまとうのですが、ゴードンベル賞は意味がある計算をしています。

まあ、 GRAPE は重力計算しかできないので LINPACK の速度はだしようがないので、出せるゴードン・ベル賞のほうに出した、というのが正直なところではあります。

応募は、毎年開かれている国際会議 SC|xx への発表申込みの形でやります。論文〆切がアメリカで西海外時間の何時、というものなので、〆切の日は徹夜で計算してでた数字を論文にいれて投稿しました。 112 Gflopsだったと思います。

論文としては受理された、という連絡が 7 月にきて、その後最終の論文の時には4箱 36 枚の全体が動いていたので性能も上がり、実測で 529Gflops となりました。 11 月には会議中に賞の発表があり、 ``Winner, Special-Purpose Machines'' というなんだかよくわからない賞をもらいました。性能の賞は数値風洞での QCD 計算で、 140Gflops くらいのものでした。 GRAPE-4 は 96 年にも、今度はちゃんと ``Winner, Performance'' と書いた賞をもらいます。 95 年の計算はブラックホールバイナリがある銀河の進化、というもので、 96 年は暗黒物質が作る構造のシミュレーションです。特に 96 年の計算結果はその当時に広く信じられていた結果を覆す重要なものでした。

まあ、賞っていうのはどうしても色々な政治的な要因とかもあり、もらうにふさわしい人がもらっていない、といったことはいくらでもあるのですが、この賞は速度という数字がでてしまうので比較的おかしなことが起こりにくい(起こらない、というわけではないことは後で述べることになります)賞です。

95 年夏には、杉本が主催して球状星団の進化に関する国際会議を東京で開きました。ここで、杉本が発見し、私にテーマとして与えた、重力熱力学的振動が多体系で起きるかどうかを報告しよう、というわけでです。研究会の準備は 2年以上前から始めていたので、研究会の時にまだ結果がでてなかったら一体どうするつもりだったのか、今考えると恐ろしくなりますが、実際には6月頃には良い結果がでだして、8月の研究会では確かに振動が起きている、という発表をすることができました。

話が前後しますが、94年には GRAPE-2A を LSI 化した MD-GRAPE の開発を始めます。これは泰地が中心となって、産学共同のプロジェクトとして画像技研と共同で、東京都等から研究費をもらってやったものです。これは画像技研から最初は VME、後に PCIカードとして商品化されました。

94 年になると、 DEC の方針が変わって PCI バスを採用したワークステーションがでてきます。しょうがないので、 TURBOchannel を止めにして PCI インターフェースカードも開発することにしました。これは 95年に修士に進学した川井(現在埼玉工業大学助教授)が修士論文の研究としてやりました。 TURBOchannel 等とは違い、規格が複雑でインターフェースを全部自分で設計できるようなものではないので、 PCIインターフェース専用の PLX 9080 という LSI を使います。これがバグだらけで川井は苦労したようですが、97年にはこれも使えるようになりました。この PCI インターフェースの LSI はその後 GRAPE-5、 GRAPE-6 でも使いました。 GRAPE-6 の開発の最初の頃までは DEC Alpha を使っていましたが、そのうち DEC がなくなってしまったので x86 の PC に移行します。これは 2001 年の話になります。

この頃、 GRAPE-5 の開発もスタートします。これは、ちょっとよくわからない経緯でついた予算で始めたもので、福重が LSI 設計をしました。基本的には GRAPE-3 的な精度が低いパイプラインを2本チップに入れる、というもので、 GRAPE-3 に比べて 8 倍の性能を実現しました。これは浜松メトリックスというところから商品化されます。この時は、インターフェースカードは GRAPE-4 のものをそのまま流用することで開発するものを減らしました。ボードは川井が開発しました。 GRAPE-4 は、商品として売るには大がかり過ぎるものになってしまったのであまり広くは販売とかしないことにしました。

さらにこの頃、戎崎は理研に移って、 MD-GRAPE をベースに大規模並列化した MDM の開発をスタートします。

Previous ToC Next