./note046.html

ToC

45. Intel 80 core プロセッサ (2007/2/17)

今年の ISSCC で、Intel は昨年の IDF でも見せた 80 コアプロセッサを発表しました。中身をみると、ちょっとこれは何に使うつもりなんだか？という感じの代物ですが、少し紹介してみます。

1つのコアは 120万トランジスタだそうで、かなり大きなものです。が、チップサイズはそれ以上に巨大で、65nm で 275sqmm となっています。1つのコアは 3sqmm だそうです。

1つのコアの構成は以下の通りです

32-bit FP Multiply-and-add unit 2 つ

32-word 10-port register file (32bit長？)

2KB data memory

3KB instruction memory

router unit (on-chip mesh network)

私から見て興味深いのは、この構成は我々の GRAPE-DR に非常に近いことです。 GRAPE-DR は

64-bit Multipler (throughput 0.5)
64-bit Adder
32-word 3-port register file
2KB data memory

となっていて、Intel 80 core と比べると

単精度演算ユニット2つの代わりに倍精度1つ
レジスタファイルのポート数ずっと少ない
データメモリのサイズは同じ
SIMD なので命令メモリはなし
ネットワークは階層構造なのでもっと単純

という感じになります。演算器、レジスタファイル、メモリの公称のサイズはほぼ同じです。しかし、面積は違います。 GRAPE-DR 1PE は TSMC の 90nm プロセスで 0.5sqmm です。仮に 65nm でやったら半分でしょうから、 0.25sqmmとなって Intel 80コアの1コアの 1/12 となります。

ダイの説明資料によると、面積のほぼ 1/3 が2つの FP ユニット、1/5 がルータなど、残りがレジスタファイルを含むメモリ関係となっています。32ビットの演算器1つだけで GRAPE-DR の PE 全部の2倍になる計算です。

トランジスタ数は GRAPE-DR がいくつだったかの詳細は実は良く知らないのですが、PE1つで 400K トランジスタくらいのはずです。なので、Intel プロセッサはやることがあんまり変わらないのにトランジスタ数で3倍あって、面積は 10 倍あることになります。

そんなものなので性能は大したことはないか？というと、しかしこれはそうではありません。そんなに無理に電圧を上げないでも 4-5GHz と GRAPE-DR のほぼ10倍のクロックで動作し、単精度演算器の数は 1/3 なので性能はほぼ 3 倍となっています。消費電力は、3 GHz 動作の時に GRAPE-DR とほぼ同じ 60W で、この時には GRAPE-DR に比べて消費電力当りの演算性能が単精度ならほぼ 2倍です。

なお、現在のところ Intel プロセッサは、一体これをどうやって何に使うのかは明らかではありません。命令メモリが 3KB で命令長が 12 バイトなので、 256 命令しかメモリに入らないのですが、チップ外の命令メモリにアクセスする仕掛けがあるとかそういうものでもないらしいからです。もちろん、なにも考えていないはずはないと思うのですが、、、また、チップ外との転送インターフェースや、転送方式の詳細も不明です。

但し、一つ興味深い特色として、演算器の方式が、加算器はアキュムレータになっていて一方の入力は乗算器、他方はフィードバックに固定されている、ということがあります。これによりレジスタファイルのポート数を減らしています。また、加算器は倍精度になっていると思われるので、やろうと思えばこれで倍精度の行列乗算をすることが可能です。もちろん、倍精度乗算するのには少なくとも単精度4演算はいるので速度は落ちます。3GHz の時に 256Gflops です。まあ、 GRAPE-DR と同じですね。

今のところ、これでなにをしたかったのか、どうやって使うつもりなのか、よくわからない不思議なチップです。 IDF の段階では、このチップと SRAM チップを積み重ねて、大量のパッドで直接接続することである程度の規模のメモリを TB/s 以上のバンド幅で接続する、という話があったような気がします。そうなると、1チップで超並列で、メモリバンド幅もベクトルプロセッサ並、という面白いものになります。それがでてくれば、 GPGPU とか日本の次世代スーパーコンピューター計画とかには大きな影響があるでしょう。今のところはまあ上手く動いて GRAPE-DR 並、という感じです。

なお、あまりメモリをつけないでこういう感じに2次元に簡単な PE を並べよう、というプロジェクトは MIT の RAWとかテキサスの TRIPS とか一杯あって、あまり良い成果は聞いたことがありません。しかし、その大きな理由はこれらが大学のプロジェクトでチップ動作速度が極めて遅い、例えば RAW は IBM SA-27E (150nm) を使って 250MHz でしか動いていないし、もっと新しい TRIPS でも 500MHz であることです。なので、 Intel が作って 10倍のクロックで動くなら、結構使えるものができるのかもしれません。

もちろん、極めて遅いのは我々の GRAPE-DR も同じで、 90nm で 500MHz でしか動いていないのですが。まあ、こちらは非常に無理をして 512 PE を押し込んだので、ある程度の競争力はあると思っている、というより、基本的には GRAPE-DR は現行の GRAPE-6 の後継なので、まあ、その役に立つことが大事です。そういう観点からすると、5年もたって性能が 16 倍にしかなってない、というのがなさけないところです。で、消費電力は5倍ですから。もちろん、完全に専用化したチップと、曲がりなりにもプログラムできるものでは差が大きくのは当然ではありますが、3世代もテクノロジが違うんだからもうちょっとがんばって作っても良かったかもしれません。

と、ちょっと話がずれてますね。Intel 80 core に関する限り、当面、見守ってあげて下さい、というところと思います。

Previous ToC Next