Next: 4 平成９年度の研究成果の概要 Up: 無題 Previous: 2 研究の目的

3 研究計画の概要

研究の前半において、重力・クーロン相互作用に専用化した、ピーク性能200 テラフロップス程度の専用プロセッサを開発するとともに、粒子系に専用化したアーキテクチャを持つが相互作用を計算するパイプラインを再構成可能論理（FPGA、Field Programmable Gate Array）で実現した多用途粒子系プロセッサを開発する。このプロセッサの性能は、応用にもよるがテラフロップス程度となろう(図3)。後半においては、これらと汎用の並列計算機を組み合わせたヘテロジニアス・マルチコンピュータを実現し、天体シミュレーション、分子動力学計算、粒子的アプローチでの流体計算などに応用する。問題に専用化したプロセッサは特定の問題については汎用計算機に比べて2-3 桁高い絶対性能を実現できる。FPGAを使ったプロセッサは、集積度において専用プロセッサに劣るが、そのかわり多様な問題に適用可能である。我々のアプローチは、FPGA を高度に専用化したプロセッサと組合せることで、双方の長所をいかす、つまり、FPGA のある程度の汎用性と専用プロセッサの高速性を同時に実現しようというものであり、現在のところ世界でも他に例を見ないものである。

図 3: システム全体の構成

以下、重力・クーロン相互作用専用プロセッサと、多用途粒子系プロセッサについてその概略をまとめる。

3.1 重力・クーロン相互作用専用プロセッサ

計算速度の目標は 200 Tflops とする。このために、 50 Gflops の演算速度をもつプロセッサチップを 4096個並列に動作させる。プロセッサチップは、粒子間相互作用を計算するパイプラインを6本格納し、 150 MHz のシステムクロックで動作する。各パイプラインはサイクル毎に60演算を行なう。従ってプロセッサチップ単体のピーク性能は 54 Gflops、消費電力は 10W程度となる見込みである。

基板1枚に16プロセッサをのせてプロセッシングボードとし、プロセッシングボード16枚とコミュニケーションボード1枚で1クラスタ、16クラスタでシステム全体を構成する。これらの16のクラスタは、インターフェースを集中制御するコントロールユニットを介してホスト計算機に接続される。なお、実装に際しては2クラスタを1ラックにまとめる。ラック当たりの発熱量は5KWとなり、強制空冷でそれほど問題はない。また、トータルの発熱量は 40 KW 程度となる。

ホスト計算機とコントロールユニットの通信速度は最低2 GB/s 程度が必要になる。なるべく多様な応用を可能にするためには、それ以上の通信速度があることが望ましいので、必要に応じて拡張可能な構成とする。

プロセッサチップはスタンダードセルによるセミカスタムLSIとして開発する。設計ルールは現在利用可能なを用い、180万ゲート程度を集積する。プロセッサチップは、ほぼ GRAPE-4 のプロセッシングボードを単一のLSIに集積するものであり、メモリとホストへの通信ネットワークへのインターフェースを持つ。メモリとの転送バンド幅は 1 GB/s、ネットワークへのバンド幅は 200MB/s（双方向）程度となる予定である。図4にプロセッサチップの構成を示す。

図 4: 重力・クーロン力相互作用専用プロセッサチップ

プロセッサボード内およびボード間のネットワークのトポロジーと物理的な実装方式についてはこれから検討する必要がある。最近になって、 Gigabit Ethernet や IEEE-1394 などの非常に高速なシリアル接続技術が安価に利用可能になってきたので、これらを利用して高速でしかも柔軟なネットワークを構成する。

3.2 多用途粒子系プロセッサ

こちらは、計算速度などに明確な目標を設定することは難しい。これは、実効性能が応用の種類、特に必要な計算精度によって大きく変わるからである、

現在の時点で、最大のFPGA チップは公称ゲート数で 10万程度である。10万ゲートという数はGRAPE-4のプロセッサチップと同等であり、例えば単精度(32 bit)の浮動小数点演算器ならば10個程度集積できるはずである。

実際には、特に乗算器などに使った場合にはそれほどの規模のものが集積できるわけではなく、現状では実効ゲート数で 2-3万程度である。言い換えれば、単精度の演算器で2-3個であり、倍精度の演算はシングルサイクルでは困難である。

しかしながら、逆に必要とする計算精度が例えば12ビットであれば、10個以上の演算器が集積でき、かなり複雑な計算を行なうパイプラインを実現可能である。

本プロジェクトで開発する多用途粒子系プロセッサでは、以下を目標にする。

単体チップとしては、1999年頃に利用可能になると思われる公称ゲート数で40万程度のものを用い、75MHz程度のクロックで動作させる。
システム全体としては、このチップを1024個並列に動作させる

主要部の演算精度に単精度を要求した場合で、チップ単体の性能は1Gflops、システム全体の性能は1Tflops程度となる。これはもっとも悪い場合で、例えば実効的な精度が12ビット程度で良ければ4Tflops、さらに8ビット程度なら 10Tflops以上の速度が期待できる。

システム構成としては、重力／クーロン用計算機と同様に各プロセッサチップがメモリユニットを持つ構成とし、プロセッサボードやホストとの接続インターフェースのハード・ソフトについては重力／クーロン用計算機と完全に同一のものを利用することで開発の手間を押える。

Jun Makino
Thu Jun 4 17:30:49 JST 1998