./note073.html

ToC

72. Stream Processing モデルと GRAPE-DR モデル (2009/8/4)

日経BPの英語版に nVidia の Bill Dally の講演概要がでてます。日本語記事はユーザー登録がいるのかな？

ここで強調されているのは要するに Stream Computing で、 Dally 先生がまだ Stanford の教授だったころにやっていた Merrimac です。これはどういう話かというと、数式っぽく書くなら要するに

を、沢山の

について並列に計算する、というものです。まあ、ベクトルレジスタが大きなベクトルプロセッサと全く同じですが、それに何か違うものであるかのような名前をつけて人を騙しているわけですね。ベクトルプロセッサの場合には、そうはいってもレジスタ数があまり多くなく、またプログラミングスタイルの問題もあってあまりレジスタがメモリバンド幅要求を小さくすることに貢献できていないというのは既に何度も議論した通りですが、 Stream Computing のモデルの場合にはベクトルプロセッサ並のメモリバンド幅は諦めて、例えばメモリアクセス1語につき100演算くらいはして欲しいな、とするわけです。これにより、ベクトルプロセッサや、あるいはメインストリームのマイクロプロセッサに比べても、 B/F を落としています。例えば Merrimac の設計が書いてある論文では、 128Gflops に対して 20GB/s のメモリバンド幅です。まあ、最近の普通の GPU と同程度です。

問題は、この程度の B/F (0.1 程度)でも、 GPU をみればわかるように実現するのは容易ではない、ということです。例えば GRAPE-DR の場合には 256Gflops に対して 4GB/s と、 Merrimac に比べるとさらに1桁 B/F を落としていますが、それでもボード設計は容易ではありませんし DRAM のコストも馬鹿になりません。2003年の Merrimac の論文を見ると 20GB/s を1つ1ドルの DRAM チップ 16 個で実現するとかいうおちゃらけたことが書いてありますが、そんなことは今でも難しいわけです。

しかし、この Stream computing のモデルを 2015 年まで外挿した結果、 Dally 先生は 11nm プロセスになってもピーク性能(単精度？) 20Tflops に対してメモリバンド幅は 1.2TB/s と、Merrimac とあまり変わらない B/F を想定しています。貫通電極でも使えば実現できますが、GDDR のような技術、あるいは XDR のようなシリアル技術をつかってもピン数、消費電力的には無理な気がします。

AMD から分社した GlobalFoundries では 22nm からDRAM 接続用に TSV (貫通電極)を、という話もありますが、これは汎用 DRAM ではなく IBM のプロセスでの SOI 基板用 eDRAM との接続です。そうすると、 GPU といえどもメインメモリ全部に使うのは無理で、スクラッチエリア的な小サイズ高速メモリに、となります。そうすると、 GPU のレジスタ-ローカルメモリ-オンボードメモリの3階層にもう一つ加わるわけで、 Stream computing 的なモデルでは上手く使うことは困難です。

GRAPE-DR では、そういう観点からすると計算モデルが実は違います。 GRAPE-DR でのモデルは

と書くべきもので、

についての和、という概念がはいってきます。そうすると、

の数に反比例してメモリバンド幅を減らすことが可能になるわけです。和の演算をハードウェアで実現するためにチップ内のプロセッサ配置を階層化し、reduction tree とかももたせています。上のモデルは計算量が

になるものにしか適用できないようにみえますが、実際には

である行列乗算とか、

になるような様々なアルゴリズムにも上手く適用でき、 Stream computing のモデルに比べて大きくメモリバンド幅要求を下げることができます。我々の見積もりでは、結構多くのアプリケーションについて、次世代以降のチップではシリコンの 1/4 から 1/2 程度を eDRAM に当てることで、オンボードメモリを省略してホスト計算機の主記憶に頼ることで十分なバンド幅を得ることができます。

このような、基本的な思想の違いのために、同じメニーコア的プロセッサといっても GPGPU と GRAPE-DR ではトランジスタ利用効率や電力あたり性能が大きく違い、GRAPE-DR は 90nm デザインでも 40nm の GPU と同等の性能、となっているわけです。まあ、同等では商売にならない、というのは問題で、次世代の開発も必要ですが。完全に専用化した GRAPE-6 の場合には、250nm のプロセスのチップで電力性能比では 45nm の x86 や GPGPU よりまだよい、という状態なわけで、もうちょっとそっちに近付けるような、効率の向上が重要です。

Previous ToC Next