つっても、非公開のを別につけているわけではない。
Copyright 1999- Jun Makino
2025/01 2024/12 2024/11 2024/10 2024/09 2024/08 2024/07 2024/06 2024/05 2024/04 2024/03 2024/02 2024/01 もっと昔スライド54-57 が Logic、DRAM、NAND Flash の今後。Logic はどんどん トランジスタの構造複雑にしてフットプリント小さく。DRAM は若干のシュリ ンクと 6F^2 から 4F^2への構造変化。NAND はひたすら多層化と。
3D構造のDRAM も書いてはある。ただ、現在縦に長いキャパシタを横にね かせるので、多層NANDみたいには上手くいかないよねこれ、、、
スライド96からが後工程、特に貼り合わせ。スライド97がどのへんに使わ れそうかのビジョン。 Cu-Cu (HB) WoW でサブミクロンは当たり前みたいな感 じ。
まあそうじゃないと BSPDN なんかできないよね。なので、WoWは技術的にはもう確立していると。
去年の湯之上氏の記事。 DDR5 はGB単価1-2ドル、HBMは(図15のトランジ スタ数間違ってて bitと byte で8倍違う気がする。なので) GB 10ドルくらい。
さらにインターポーザが高いしパッケージも基板も色々あって高いからまあ大変である。
で、センチュリーのオンラインショップで裸族のゲートハウス 4Bay とい うのを購入。特に問題なく動作した。内蔵電源ではなくてACアダプタなので 寿命は長いかも。
まあ、私がそう考えるのは結構高額の医療費を使って普通に近い生活を維持できてるからではある。高い薬使えなくてもすぐに死ぬわけじゃいけど QOL は滅茶苦茶下がる。
なぜこんなことになるかというと、本当に水平型マイクロコードなので各 パイプラインステージで何をするかを指定しないといけないから。 総和をとるレジスタも複数もってエピローグで処理しないといけない。
こんなのをいちいち書けといわれたらさすがに発狂するわけで、私の愛す るベクトルプロセッサである Cyber 205 とかは call q8dc0000(s,a,b,n) 一 発である。
MN-Core だと総和だとエピローグはいるけどプロローグは不要(最初だけ積和じゃなくて加算にすればいい)。ちなみに記事には3サイクル毎と書いてあるけど完全にベクトル化されるとサイクル毎に積和ができるはず。
AP-120B だと積算じゃなくて単なるベクトル演算でもプロローグとエピロー グがいるので本当にこれは大変そう。性能だすには前のループのエピローグと 次のループのプロローグ重ねないといけないし。
Cyber はベクトル命令自体の起動レイテンシが無限に大きい問題はある。 実行時間が n+51 サイクルとか。 AP-120B は死ぬほどがんばって書くと前の ループの(エピローグじゃなくて)最後の何回かを展開してそれをプロローグと 重ねるとかできそうである。
つまり、ハードウェアからパイプラインステージまでアプリケーションプ ログラマなりコンパイラなりに見せることで極限的な最適化は原理的には可能 だが、一部のプログラマは使えるがコンパイラは結構駄目ということを歴史は教え ている。
あと、命令語長が長くなるというか、サイクル毎に水平型マイクロコード与える必要があって命令バンド幅が大きくなる。 一方、綺麗に「ベクトル命令」とかにしちゃうと起動オーバーヘッドが大 きくなり過ぎる。特にmemory-to-memory だと。
Cray-1 では、ベクトルレジスタを導入して命令起動レイテンシ、メモリ バンド幅を若干節約した。
MN-Core では長さ4とか8の固定長ベクトル命令にして、命令レイテンシは見かけ上0、水平型マイクロコードじゃなくてちゃんと命令で、演算器レイテンシをベクトル長で隠蔽して直前の命令の結果が使えるようにしている。
とかいうことを書いてる場合じゃなくて17時〆切の作文をしないと。今日のうちには送りますといったら朝まででいいですよといわれたけどそれは徹夜で働けということですかみたいな。
要するにある金額に達すると高額療養費制度の対象になって不連続に自己負担が減る。逆にいうとその金額の手前だとすごく負担が大きい。この辺、ルールが基本的に階段関数だから起こる問題で、せめて折れ線くらいになってれば解決というか緩和する問題ではある。n万円の壁とかもそんな話な気が。
アメリカの半導体の対中規制がますますアレになって、TSMC も Samsung も先端(少なくとも8nmくらいから)中国輸出は×になってるみたいである。
要するにEUV は×であると。で、SMIC も14nm の先はまあ力技でやってる ことになってるけど、、、で、HLMC はそもそもこれから14やるかもであると。
フラッシュは中国のYMTC が結構競争力維持してて、これは 3D化のほうが微細化よ り有利になったからということのようである。さらに YMTC はWoWによる積層 も既に導入している。
DRAM は、まああと10年くらいで3D構造になるかもしれないけど、現状で はコンデンサが滅茶苦茶縦長なのでそれをつむことはできてなくて、直近でみ えている安価な積層はTSVとHBによるWoWである(なんだろうねこの略語の山は)。
そうすると、ビット単価は1枚ウェファより安くならないし、WoW のため の加工費用で若干上がるけど、大容量化できるので結構高く売れるはずではあ る。
あと、もちろん、ロジックとの HB ができれば飛躍的にバンド幅が上がる ので、次世代の高性能プロセッサにはこれがでてくる
はずだったのが、中華DRAM+先端ロジックで3D積層の開発やってたところ が中国国内やアメリカにいくつかあったのが、対中規制のあおりで全部ストッ プしたようである。 XMC が規制リストにはいっちゃったのでどうしようもな い。
なので、アメリカの AI プロセッサベンチャーは中華DRAM 3D 積層技術が 使えなくなり、中国の AI プロセッサベンチャーは 8nm 以降が使えなくなっ た。
AI プロセッサってプロセス進んでもたいして値段や電力あたりの性能上 がらないのは A100 と H100 とか 3090以降とか見ればわかる話で、 極端な話 14nm を縦につんでN5 の代わりにできないかといえばできなくはな い。値段的にも。
なので、AIプロセッサとかはそんなのでもいいんだけど、CPU はロジックの 3D 積層では性能上がらないのか?という のがこの話の本題。ここまでは前置き。
例えば AVX-512 というものはあっても結構使いづらくて、 AVX-1024 と いうものは存在しないわけだけど、これは AVX-1024 みたいなのを作ると面積 が大きくなりすぎて、レジスタと演算器やレジスタと L1D$ の間の配線が厳し くなるからである。
単純に SIMD 演算というだけなら長い配線なくてもいいけど、 unaligned load とかテーブル参照とかすると長い配線が一杯必要になる。
原理的には、ロジック積層して AVX ユニットを3次元化すれば配線は短く なり、大幅に消費電力も遅延も減る。
共有 L2D$ や LLC も、縦につめば面積小さくなってCPUコアからの距離も 短くなるので、劇的にレイテンシが減ってバンド幅があげられる。
なので、CPU についてはロジックの多層の積層は結構インパクトがある気 がする。まあ冷却は問題だけど、4層くらいで HB なら多分いける。
1つの CPU コアを複数層に分散とかだとP&R のツールから新しく作る必要 がありそうだけど、結構できれば2nm とか GAA とかでなくても劇的に性能上がる気が。
〆切直前にとりかかるのはいかがなものかとかスタッフにもなって発表練 習しないとかを書くなとか色々みた気がするが、もちろん全ての業務が数ヶ月 前にきて順番にこなせるならともかく〆切まで1週間とか working day では0.5日とかで色々くるわけで。
なんか作文した。疲れた。
あと2つくらい今日中にしないといけないことがあった気がする。
まあ LSI デザインセンターとかもそんな感じになってるよね、、、
引用: 日本原電が調査を行ったところ、制御盤の回路に使っていた「ヒューズ」と呼ばれる部品を、この試験の前により多くの電気を流すことのできるものに交換していたことがわかったということです。
引用: 交換した「ヒューズ」によって多くの電流が流れる状態が続いたため、別の部品が発熱して出火につながった可能性があるとしています。
引用: 日本原電は、▽これまでと異なる「ヒューズ」に交換したいきさつや、▽試験の作業手順などについて、さらに詳しく調べることにしています。
これ、普通の日本語にすると、どっか壊れて大電流が流れるようになって ヒューズが飛んだので、壊れたところを放置してヒューズを容量の大きいとこ ろに変えたら当然の結果として壊れたところが燃えたということと思われる。
なんというか、絵に書いたようなやってはいけない事例。
【2月12日現在】日本原子力発電株式会社東海第二発電所中央制御室における火災について
こっちだと、当該機器のテストのための大容量のヒューズに変えて通電 したら発火したということになっている。
要するに、テストは数秒で止めないといけないのに30秒電気流したから抵抗が発熱して燃えたと。もっと駄目だった、、、
Twitter に色々書いておけば大学からなんかきた時に検索してみつけられる可能性が ある。
でもまだまだとも書いてある。
この設定はいらない模様なので消したらちゃんとアカウント切り替わるよ うになった。
でも社のアカウントで社内のレポジトリをというのは結局 ssh じゃなく て
https アクセスでなんかしてる気が。
これ、 github の ssh アクセスの仕様的に、アカウントを指定して IdentityFile が使われるわけじゃなくて、成功した IdentityFile からアカ ウントが指定されるということかしら?というか、確かにアカウントどこでも 指定されてないね、、、
IEDM での発表の話らしいが Meta 3D Stacked Memory の発表というのが プログラムみても見つからない。
雪ふってる。マジ寒い。
あ、これ。Micro 2000 でした。
2000年にダイサイズ 1平方インチ、5000万トランジスタ、2GIPS と。
Micro-2010というのもある。
この辺まではスケーリングで話がすんでたのが、今は3D実装とかシリコンフォトニクスとかでなんとかみたいな話になると。
まあアメリカで起こったろくでもないことは5-10年後に日本でもおこるので、皆様気をつけましょう(といってもどうするんだよこれ)。
引用: 次世代高性能アーキテクチャ研究チーム チームリーダーの近藤正章氏は、「50EFLOPSは、富岳の約100倍の実効性能となり、意欲的な目標になる。運用開始時点では、世界最高水準のAI処理基盤の実現を目指す」とした。
FP16 でのAI処理の実効性能が 50EF以上とスライドには書いてあるようにみえる (ピークは 150EF)。
FP16でのピークは富岳の75倍なので、色々頑張って実行性能100倍という のはまあいいのかなというところ。
FP64 の性能は、、、というような。
なぜリアリティがないかというと、現実には NVIDIA GPU と沢山ある AI プロセッサは、演算性能あたりの消費電力ではまだ NVIDIA GPU のほうがよかっ たりするから。メモリバンド幅あたりも同様。
あと、TCO でみると電力コストよりハードウェアコストのほうが大きかっ たりする。これは特に N5 以降のロジックも HBM メモリもすごく高価なため。
もちろん MN-Core は演算性能あたりの消費電力がだいぶ少ないし、半導 体面積あたりの性能も高い。MN-Core 2 までだとメモリバンド幅あたりだと そんなによくなかったけど L1000 では桁違いにメモリバンド幅あたりのコス トを下げる。
マイニング ASIC がそうであったように、まずとにかく NVIDIA GPU より も圧倒的に高い電力性能と価格性能比を実現しないと勝負にすらならない、と いうことである。
3D 積層 DRAM で DRAM のアクセスエネルギーを(将来的には)3桁減らそう、みたいな話。
今のHBM3 が実力では 8pJ/bit くらい。HBM4 は理論上位は半分くらいに なってもいいんだけど実際はどうだろう?というところ。現在の DRAM セル使っ て 3D 積層だと計算上は 0.1pJ/bit くらいまではいけるはず。
もちろんそのためにはDRAM マクロも演算コアも 0.3mm角くらいにしてぴっ たり位置を合わせる必要がある。L1000 はまだそんな段階ではない。
その先はシリコンじゃないもの (IGZOとか)でリーク下げてとか。この辺各社やってるみたいだけど。
向陽ホビーが、今検索すると大津にあった向陽ホビー・シガというものし かでてこないが元々向日にあって、中高の後輩のO君の実家だった。高校の時に1度だけお邪魔したことがあったはず。
GRAPE-4, GRAPE-6 あと GRAPE-DR まで大変大変お世話になりました。
そんなはずはないが2月だ。うーん。