./note160.html

ToC

157. アクセラレータかCPUか?というのはどういう問いなのか (2022/11/13)

今年度からポスト富岳FSも始まって、牧野もシステム調査研究に採択された2つの提案のうち1つの代表として関わることになりました。

まあその、「京」の時にも富岳の時にもアクセラレータ提案して却下になってるので 2度あることは3度あるとは思いますが、とはいえ対抗提案をすることで本命のものがよくなるかもしれないですし、また3度目の正直ということもあるかもしれないので、というところです。

とはいえ、世界の情勢をみると、ホモジニアスな CPU コアの並列システムで世界一の性能をだしたのは2010年以降「京」、 BG/Q、富岳の3システムだけで、それ以外は Tianhe-2A(Xeon Phi ですが)、Sunway TaihuLight、Summit、 Frontiers と全てヘテロジニアス、また現在 1EF 以上を達成しているとみられる中国の 2 システムもヘテロジニアスです。なので、日本だけがガラパゴス的な古いシステムにしがみついているようにもみえます。

中国についてみると、その一つは Sunway OceanLite で、ヘテロジニアスといってもプロセッサコア自体は同一で、普通にキャッシュをもつ MPE (management processing element) とキャッシュのかわりにローカルメモリを持ち、主記憶と DMA 転送ができてまたコア間のレジスタ-レジスタ転送や放送や総和をサポートする CPE (compting processing element) からできています。これはキャッシュコヒーレンシを排除してローカルメモリアクセスに限ることで電力性能とアプリケーション実行効率をあげています。まあそのぶんプログラムは修正は必要ですが、主記憶は一応共有されてるのが使う側からみるとメリットです。データ転送書く必要ないしそこで性能が制約されることもないからです。プログラムも、低レベル環境でもスレッドベースなので、比較的ハードルは低いかもしれません。

他の Tianhe-2A、Summit、Frontiers はCPUとアクセラレータでメモリ空間が別で、使うのはそれなりに大変です。

さて、我々はなんとなく

CPU オンリーのホモジニアスシステムは使いやすいが性能は低い(価格あたり、電力あたり共に)

アクセラレータがあるヘテロジニアスなシステムは使いにくいが性能は高い(価格あたり、電力あたり共に)

と思っているわけですが、これは、マーケットにある製品の観測としては概ね正しいとして、「我々が開発するものはどうあるべきか」ということを考えるには十分ではありません。設計空間の中には少なくともCPU オンリーのホモジニアスシステムだけれど使いにくい、というものは確実に存在しているし、原理的にはアクセラレータがあるヘテロジニアスなシステムだけど使いやすい、とか CPU オンリーのホモジニアスシステムだけれど性能が高いとかいったものも存在しているかもしれなくて、我々はその可能な設計空間の中から「ベスト」 (という言葉が何を意味しているかも問題ですが)なものを選択するべきだからです。

従って、ここでは、我々が CPU、アクセラレータ、といっている時にそれは実際には何をいっているのか、という概念整理を試みます。

さて、CPUベースのシステムについては、我々のイメージは明確です。システムとしては、Xeon、あるいは ARM、SPARC のような、その上のOSが動くマルチタスクなCPU の対称型(これはそうでなくてもいいですが)マルチプロセッサで、 1ノードはコヒーレンシがある階層キャッシュによる物理的共有メモリであるものです。

ノード内の並列化には、プロセス並列の MPI とスレッド並列の OpenMP (OS的には pthread)がどちらも、通常はハイブリッドの形で使えることになります。

これが「使いやすい」というのは、要するに OpenMP で並列化できるので並列化してないプログラムの並列化をインクリメンタルにできるとか、プラグマによるもので並列化しない動作も可能であるとかだと思います。

そうすると、システム側からみた「CPUベース」の条件は

OS が動く対称型マルチプロセッシング CPUコア
コヒーレントな階層キャッシュによる物理共有メモリ

ですが、アプリケーション側からみて「CPUベース」であることの意味は単に OpenMP が動くこと、ということになるでしょう。システム側の条件とアプリケーション側の条件は似てはいますが同じではありません。例えば、OpenMP が実行できるためには共有メモリである必要はありますが、原理的にはキャッシュコヒーレンシは必須ではありません。というか、少なくとも常時維持している必要はありません。これはそもそも OpenMP がrelaxed-consistency モデルによっているからではあります。

例えば、何か並列に実行できるループを OpenMP で並列実行したとします、並列実行できる、ということは、そのループを実行中にあるプロセッサが更新したデータを他のプロセッサが使うことはない、ということです。なので、少なくともループの実行中は、キャッシュが更新された、という情報を他に伝える必要はありません。ループが終わって、他のプロセッサが自分の更新したところをアクセスする可能性がでる直前に、ライトバックして書換え情報を共有するか、そもそも書いたあとでローカルキャッシュを全部クリアすればよいわけです。もちろん、OpenMP のループ毎にプライベートキャッシュを全部捨てるのは必ずしも賢い方法ではありませんが、コヒーレンシだけが解ではありません。プライベートキャッシュを捨てる、という方法は賢くなさそうですが、コヒーレンシプロトコルと違ってコアが数増えてもトラフィックが増えない、スケーラブルな方法であるというメリットもあります。

細かいところまでちゃんと理解していないのでここは嘘を書いているかもしれませんが、PEZY-SC では実際にコヒーレントがないキャッシュが採用されていて、あるPEが更新したデータを他のPEがアクセスする前に実際に2つが属するキャッシュレベルまでのフラッシュが必要で、上に書いたのに近い仕掛けになってるのではないかと思います。なお、PEZY-SC の階層キャッシュの特徴は、L2, L3 と下にいくと非常にラインサイズが大きくなることで、これは(近くのPEが近くのアドレスをアクセスするようになっていれば)アドレストラフィックを減らし、非常にバンド幅が高い L2, L3 の実現を可能にしています。

とはいえ、ここで書いていることは要するに、 OpenMP は

共有メモリ並列プロセッサでの fork-join 型の複数スレッド実行
複数スレッド間の relaxed-consistency

を前提にしている、ということで、これらを完全にサポートするためにはハードウェアとして共通メモリ並列の MIMD プロセッサが必要です。

逆にいうと、完全でないサポートであれば SIMD でも問題ありません。例えば、元々ベクトルプロセッサでベクトル化されていたようなループを OpenMP (+SIMD) で並列化しています、というものは、ベクトルプロセッサ自体が SIMD プロセッサとみなせるわけでもちろん SIMD プロセッサで(主記憶が共有されていれば)実行できます。

ループではなくて配列表記ですが、 HPF の元になったともいえるCM-Fortran はもちろん完全 SIMD で流体とかQCDに普通に使われてたわけでそれなりに広い範囲のアプリケーションを記述するだけの表現力もあります。つまり、並列実行が非常に複雑な、コア毎に全然違うことをするようなものでなければ、「OpenMPが動けばいい」というアプリケーション側の要請に答えるのに原理的には CPU である必要は全くないことになります。

もちろん、データセンターとかで仮想マシンにインスタンスを多数動かすとかウェブサーバーとかだと本当にCPUの並列性が必要(ただそうすると共有メモリである必要が全くない気がしますが、、、)ですが、少なくとも我々がHPCアプリケーションを動かす、という時に求めることは「pragma omp parallel for を並列実行してくれる」ということでしょう。深層学習だと話はもっと簡単で、 PyTorch とか JAX とか(まあこれらがHPFみたいなものですが)が動けばよい。

それなら別に parallel for を動かすところはCPU でなくても大規模 SIMD ユニットでも GPU でもあるいはMN-Core でもいいじゃないかという気もするわけですが、それには、「起動とデータ転送オーバーヘッドが十分小さいなら」という条件があります。例えばカーネル起動に数十マイクロ秒もかかっていては、ものすごくがんばってカーネルの数を減らしても性能をだすことは難しいですし、また、ホストメモリとデバイスメモリの間のデータ転送やその起動にさらに時間がかかっていては話になりません。

これは、

ホストがデバイスメモリに低レイテンシ、高バンド幅でアクセスできる
アクセラレータ側のコードを低レイテンシで起動できる

必要がある、ということです。1 は、Sunway とかのようにCPU とアクセラレータを統合すればよいわけで、これはその気になればできる話だし、2も、ハードウェアレベルで「注意深く」設計すればすむ話ではあります。とはいえ、どちらにしてもキャッシュコヒーレンシとかいっているとそのレイテンシが既に大きいので無理、という問題はあります。例えば、外部DRAM が主記憶で、それをキャッシュコヒーレンシがある形で共有していると、実際のホストとアクセラレータの通信レイテンシはすぐにマイクロ秒オーダーになってしまうわけで、つまり、外部DRAM レベルで共有するものでは十分ではありません。CPUベースのメニーコアでなかなか性能がスケールしない(MPI並列では別)のは結局これが理由で、通信・同期のレイテンシがとてつもなく大きいために折角同じパッケージにはいっていて物理的にはナノ秒で通信できるのに、採用された通信メカニズムのために 100-1000倍遅くなっているからです。

まあその、1 には、どういうコアを使うか問題がもちろんあり、 64 bit ARM コアは高いとか、そういう問題はあります。とはいえ最近だと RISC-V がかなり使えるようになってきています。

そうすると、なんとなく形がみえてくるかな、というところです。

Previous ToC Next