つっても、非公開のを別につけているわけではない。
Copyright 1999- Jun Makino
2022/10 2022/09 2022/08 2022/07 2022/06 2022/05 2022/04 2022/03 2022/02 2022/01 ---- もっと昔その頃はまだ深層学習がブームになる前だから行列乗算だけ速くても Top500以外に意味ないよねでもちろん採用されなかったが、今なら BF16の行 列乗算が速く、ついでに FP64も、で商品にはなる。
そういえば getopt 系の関数でオプション 52個より沢山指定したい時ってどうするのかしら?
答がレジスタにはいっちゃうから、 CNN でチャネルが少ない層ですごく 性能落ちないこれ?SME レジスタ複数もって計算中に入れ換えればいいけどな んか複雑な回路になるし。
外積なので総和がないぶんクロックはあげやすいかな?積算になるから 加算器のパイプライン段数分の行列レジスタがいるか。
AMX は行列x行列を行列に加算か。 SME のほうがスマートで、L1 アクセ スを同じだけ減らすのに必要なレジスタとかのハードウェア規模小さいように みえる。
んだけど、、、というのはここには書かないけど、これ命令セット考えた 人ハードウェア実装がどうなるかちゃんと考えたのかなあ?
Not all matrix instruction sets are created equal.
学内LAN側と無線LANは生きてたので、研究室内のLANケーブルに発生した電位差で死んだのかしら?
とりあえず交換した。こんなこともあろうかと(というわけではないが)りっつせんせーが購入していた代替機があったので問題なし。
FORTRAN とかのソースファイルもこれだけどもちろん FORTRAN の文番号 とは関係ない。で、エディタで修正したものはただちにファイルに書き込まれ るので save コマンドにあたるものがなかったような。
その後 VOS3 とか OSIV とか(IBM互換系)使った時に、ファイル1箇所書換 えただけでディスク上に全部新しく書くのはなんか非効率だと思ったような。
なんだろこれ?ちょっと思いあたるものはあるけどまさかあれじゃないよね的、、、
昔某所では「女子はとりたくない」といってた人はいた気がするがあんまり決定権がなかったので普通に女子学生もそこにいってたような。
三久さんゴードンベル賞!
おめでとうございます!!!
来年の special prize は climate change ということなので富田さんとか三好さんにがんばって欲しいかも。
今年のゴードンベル賞は DGEMM でなくてちゃんと性能の数字が書いてあ るとこに、そんなに効率よくないけどいった、という感じ、、、 New Sunway は去年とったから今年は Frontier で感も。
HPCI 技術ロードマップ白書とゴッチャになったのかも。こちらは名前がみえる。
ちなみにヒアリング自体は合同作業部会としてやっている。
1コア 8 VE + 8XMX、 VE は 512bit/engine load/store 512B/CLK XMX は 4096bit/engine なので n x 8 の行列ベクトル積なのかな?
これはもちろん素晴らしい。
なんというか、アプリケーション・サイエンスの側から、アーキテクチャ はこうであるべき、というのが論理的にでてくるのが本当ではないかと いう気がする。
ちょうど fork-join では厳しいとかそういう話をしているんだけど、 これやっぱり SIMD アーキテクチャですむ気が。
US Exascale machines 600M USD each, 4B USD/7 years.
Floating point performance overprovisioned
まあそうなった理由の1つは Top500 そのものなので、なんとかしないと、という気持ちはわかるがそのためにもってくるのが HPCG では駄目だと思う。
Take away のところでドンガラ先生、ハードウェアの連中がフェンスの向 こうからなんか投げこんできて、アプリケーションとソフトウェアの人々が 一生懸命対応すると10年たってまた新しいのが、とちょっと文句というか、、、
まあだから、そうでないアプローチが必要なの。
ドンガラ先生は50年ハードウェアの「進化」に付き合ってきたわけだけど、私はそんな忍耐力がないので、5年くらいでそういうの嫌になってアプリケーションからハードウェアを設計する、という方向をやってるわけである。
ドンガラ先生は日本ではコデザインはアメリカより closely collaborating だといっていた。
Extreme-Scale Many-against-Many Protein Similarity Search 速度をどう評価するんだろうこれ? Summit。
Reshaping Geostatistical Modeling and Prediction for Extreme-Scale Environmental Applications これもあんまり性能の 数字がわかるように書いてない気が、、、
Pushing the Frontier in the Design of Laser-Based Electron Accelerators with Groundbreaking Mesh-Refined Particle-In-Cell Simulations on Exascale-Class Supercomputers これは性能が書いてある。Frontier 43.45PF, Fugaku 17.3 (FP32)
Extreme Scale Earthquake Simulation with Uncertainty Quantification 藤田さん他。富岳フルノードで理論ピークの 19.8% と素晴らしい性能。 確率的FEMで色々書換えして計算の主要部分を DGEMM にできている。
2.5 Million-Atom Ab Initio Electronic-Structure Simulation of Complex Metallic Heterostructures with DGDFT Discontinuous Galerkin DFT を new Sunway でやって 5% (64PF)
Exaflops Biomedical Knowledge Graph Analytics Frontier で FP32 で1EF
なんというか性能でてるコード全部カーネルが GEMM だ、、、 PIC のコードの Frontier と富岳の性能差(Frontier のほうがよい)のがちょっ と不思議。わりとメモリ律速なはずだし。
ファイナリストがこういう感じだと 最後の Frontier のにいっちゃうかな?
GEMM でなくても理論ピークの20-50% くらいでるアプリケーションもあっ て欲しいよね、、、専用行列演算ユニットがあると厳しいけどそうでないなら。
最後の発表、完全にビデオ流すだけで発表者はなにもしてなかった気が。
HPL のソフトウェアやチューニングのしかたが A100 から全然変わるとい うこともないと思うんだけど、なんだろう?
MI250X のピーク性能比に続いて謎が、、、
そういえばアメリカのエクサスケールシステムって Frontier, Aurora, El Capitan で、 A, I, A で N がないのね。 FP16 とか BF16 はあんまり重視しない要求仕様だったのかな?
機械学習向けプロセッサは Habana Labs (Intel とは別ブース)、 GraphCore, Celebras, Groq。来年の SC まで生き残れるのはどこから?みたい になってきており、、、
ドンガラ先生のスライドにも80-90年代には Aliant、 Sequent、Ardent、 KSR とか一杯共有メモリ並列のベンチャーがあったけど全部つぶれたという話 があった。深層学習もハードウェアは、、、
それで 14nm って、、、と思ったけど 2019 年にはESがあった模様。
そこから3年たって微妙に性能が下がっているのはすみませんまあハードウェアはそういうものなのでいじめないで下さいみたいな。
Green500、1位 H100、 2-7位がMI250X、8位A100、9位 MN-Core。H100は N5、MI250X は N6 なので、 12FFC (って16の改良版なでの)では多少厳しい。とはいえ 1.5倍。
A100 から H100 はあんまりFP64の電力性能あげるような改良ははいって ないのかしら?ポスト富岳の頃に 300GF/W あたりだと富岳の20倍、10EFくらい になっちゃうわけでわりと厳しい。
実行効率あげればいい、という主張もあるとは思うけど、ちゃんとピーク も効率もあげないとねえ、、、
そういえば、日の丸 2nm は SRAM が 0.0187 um^2が目標で、TSMC のN3 が 0.0175 あたり(N5 が 0.021 でそれより20%密度が上がる)みたいだけどこ の目標でいいんだっけ?
DRAM のセルサイズが1αで 0.0016um^2で、315Mbits/mmsqと。
あれ、私前に書いたの計算間違えてた気がする。 2x でも 0.005 で N3 SRAM の倍以上の密度か。1なんとかになればさらに2倍。
5:15からのBoF は いくつか面白そうなのが。Performance Portability in a Heterogenous World - Pipe Dream? とか。
(主語が大きいのは意図したものです)
TZ が知っている都市のリストってどこにあるんだろ?あ、 Wikipedia にある。
引用: Explicit message passing is not viewed by most of the users as a long-term solution to the scientific community’s programming needs but merely something necessary in the short term until parallel languages and efficient compilers are developed and commercially available.
そうだとよかったんだけど、そうはならなかったんだ、みたいな。
ちょっと DPC++ のドキュメントを眺める。これ使えっていわれても誰も 使いたくないよねみたいな、、、
とはいえ色々眺めていると大抵全部 HPF でいいじゃんという気がしてくる、、、 C* と HPF でどっち書きやすい?といったら HPF だわね、、、 アクセラレータ使うとこは全部 F95 で、とかでどうかみたいな。
TMC は C++ ベースの C* が先にあってHPF は F90 ベースであとから 作ったから、考え方が全然違うんだよね。HPF 風の配列表記ができて 並列化する C/C++ コンパイラにあたるものって、、、まあ OpenACC の C/C++ 実装か。
N5から2倍いったらびっくりくらいじゃないかなあ、、、
CPU の電力性能はほぼ倍になってるわけで、電圧を3割下げてクロック2割 落ちるくらいで使ってると。定格がすごく高電圧だな、、、
150WでHPL回って800GFくらいでたとしても 5GF/W ちょいと。
当時の私のコメント「空気感染しないのでウィルスの大きさには意味がなく、飛沫感染を抑えるマスクは有効、ということがこの記事からは読み取れる。 」
つまり、この記事ちゃんと読むと書いてある内容からはマスクには意味があるとわかるんだけど、何故かマスクは新型コロナ予防にならないと主張されているという不可解な記事であった。
おそらく、マスク不足を心配して「おまえらにはマスクなんかいらないんだから買うな」が意図したメッセージだったんだろう。PCR検査不要論と構図は同じだけど、マスク不要論はフェードアウトした(けど最近復活している)のにPCR検査不要論は消えなかったのは何故か、は興味深い。
Vaccination alone is insufficient to end the COVID-19 pandemic as a public health threat. 97% (agree+somewhat agree). まあそうだよね。
The world has not implemented an evidence-based, globally agreed-upon set of minimum COVID-19 pandemic response standards addressing monitoring, prevention, treatment and care. 91%
Relying on individual, voluntary compliance with transmission prevention measures is insufficient to end COVID-19 as a public health threat. 96%
Infection rates tend to increase when governments discontinue social measures, including non-pharmaceutical interventions, regardless of the level of vaccination. 94%
Wide use of high-filtration and well-fitting facemasks (for example, N95, KF94, KN95, FFP2/3) is important to reduce transmission, particularly in high-risk settings. 94%
ワクチンだけでは駄目、世界的に科学的な対策は確立できてない、個人の努力では十分ではない、政府が規制を緩和するとワクチン接種のレベルと無関係に感染増加する、高性能マスクは重要、と。他にも一杯重要なことが書いてある。
比較したのは Broadwell 2ソケット(DDR4 2400 x 4 x 2)、 SPR (DDR5 4800 x 8 x 2), SPR w/ HBM2e(3200 x 8)。 バンド幅にするとそれぞれ 153.6, 614.4, 3280 GB/s。これ計算あってるかな?
でメモリバンド幅律速と思われる xRAGE (AMR) とFLAG(FEM)を動かして、 性能が概ね 1:4:8。 SPR w/ DDR5 の性能は BDR の4倍でいいんだけど、HBM にしてメモリバンド幅5倍にしても性能は2倍でどっかにボトルネックがあって効能が小さいようにみえる。
値段・電力をみないとアレだけど、ノード性能では DDR5 24 チャネルに なる AMD Genoa 2ソケットのほうがこのベンチマークでも高いかも。
「22年2~4月ごろの「ワクチン3回目接種回数の推移」と「ワクチン3回目 接種後に見られた超過死亡」のデータ (https://agora-web.jp/archives/221015011630.html)を突き合わせ」と書 いてあるように、 第6波と3回目接種だけを比べている。
つまり、ワクチン前に大きな超過死亡があった4波、タイミングがあって ない5波、7波のことを無視している。
一方、新型コロナによる登録された死亡数は4-7波全部でよく相関している。医療崩壊による増加の他、新型コロナ自体が要因になっているが登録された死亡数にははいっていないものが相当ある、という解釈以外は無理がある。
図 3からわかるのは、 BA.2 に対する感染予防効果は接種直後は60%くらいあるけど3-4ヶ月でゼロになる、死亡に対しては直後80%で3-4ヶ月で20%くらいまで下がると。
死亡を防ぐ効果も思ってた以上に低い気が。こんな感じ?オミクロン以降 CFR が下がってるのはワクチンの特に高齢者への接種がある程度流行に間に合っ たせいもないわけでではないかもだけどオミクロン株自体の特性もある?
まあ、現在の8波は7波より死亡率高そうなので、それはワクチンの効果が下がった分なのかも。
今はバージョンではなくてリリース 42.x とかなのかな。
とはいえダウンタウンじゃないちょっと郊外のモーテルなら安いので、そっちに泊まってレンタカーで移動が合理的ではある。
単にそういう時限の予算を安定した人件費に使える運営交付金にすれば解決する話ではある。
56コア、AVX512 FP32 だと64ops/(クロック・コア)。周波数はこの記事に は情報がない。例えば 2.5GHz とすると FP32 9TF FP64 4.5TF AMX での BF16 だと FP32の16倍、143TF。V100 よりちょっといいくらい。
AMX は BF16とINT8だけか。この辺もなんとなく V100の頃の状況。 とはいえCPU側でこれだけでると GPU つけてコスパ的にどう?というところはありそう。
【独自】「次世代半導体」の新会社を設立 NTT・キオクシアなどが出資へ -- こっちはもうちょっと詳しいけど本当に2ナノって書いてあるな。 「政府は半導体支援策として1.3兆円の補正予算案を策定していて、今後その 一部も新体制の支援に回る可能性がある。」
なのでもうちょっといくのか。
本当になんかできるなら国策プロジェクトのスパコンはそれ使うという話になると想定しないと。でも IPを TSMC (Samsung でもいいけど)のが使えるとかしないと死ぬ気が。 Intel と協業とかだといやだな、というかそれが一番ありそうか。
つまりは確認された感染者が1日25万人とかになるまではなにもしないと。月に2万とか3万とか超過死亡がでるのをただ傍観するのね。
最初にうけつけた時は領収書がなくて、どうするんだろうと 思ったら FAQ に問い合わせろと書いてあって、問い合わせたら送ってきたけ どまたきた。
で、Zoom URL が何かに埋め込みで読み難いものになってたせいで(という ことにしておく、、、)違ってる、と気が付かなかった。気が付いた人は接続でき ていた、、、
引用:『情報』というとプログラミングをイメージする人が多いようですが、高校で習う『情報Ⅰ』は、日常生活で役立つような内容を多く学びます。
引用:『プリントアウトする』『書類をPDF化する』『どこかのサイトで何かの申し込みをする』など、『情報Ⅰ』で学ぶようなことを知っていれば便利なことはたくさんあります。
これはなんというかだから入試に必要と思っていることにさすがにちょっと問題がある気が、、、
今日もそうすればよかったのか。もちろん単にファイルなんか転送して Surface Go 使えばそれでよかった。気が付くのが遅い。
引用: 一方、今回の会見では、富士通が取り組んでいる省電力CPUである「FUJITSU-MONAKA(仮称)」についても言及。マハジャン氏は、「MONAKAは、次世代グリーンデータセンターに適応した高性能、高密度、省電力CPUとして、世界最先端の技術に挑戦していくものになる。
引用: 2nmの技術で実現する予定であり、3Dシリコンフォトニクス技術をはじめとした最新技術も活用する。2026年から2027年には実用化したいと考えており、その時間軸で考えると、開発、設計は富士通が行ない、生産はTSMCで行なうことになる。
引用: すでにTSMCとの調整は行なっている。また、FUJITSU-MONAKAは、富士通製サーバーへの搭載のほか、他社とのパートナーシップも検討している」と語った。
FUJITSU-MONAKAはNEDO のグリーンイノベーション基金の次世代グリーンデータセンター技術開発でやってるもの。ISA どうするのかな?性能目標とか資料まだないよね。
引用: 当社はCPUの性能および省電力性を決めるマイクロアーキテクチャを自社設計しており、この技術により、「富岳」において世界トップレベルの高性能・省電力を達成しています。当社が持つ技術を一層深化させ、次世代グリーンデータセンターに適応する省電力CPUを開発します。
Tofu は Torus fusion だったと。MONAMA はなにかあるのかしら。
あともちろん、どれだけ感染拡大しても緊急事態宣言どころかまん防も決してださない、というのが感染拡大に貢献している。1-2月のオミクロン株では結局人出がかなり減ったことが収束に効果があったようにみえる。
逆にいうと、8月は人出があまり減っておらず、収束の最大の要因は「感染しやすいところが感染しつくして実効的なRが下がったこと」と考えられる。
今年3月以降の日本では、基本的には SIRS モデル的な状況で、感染(とまあ外部変数としてワクチン)による免疫の発生と時間経過による免疫の減衰がつりあうくらいの新規感染が発生する状態と考えられる。
日本だけでなくて世界のかなりの国(もちろん中国除く)がそう。
そうすると、対策としてするべきことは、定常状態での定常的な感染者発 生は避けられないとするならそれを小さくすることで、結局それはRを多少で も小さくすることである(Rがあまり大きくなければ定常状態での感染者数は R-1に比例する)
そうすると、なんらかの方法で社会全体としての接触機会減少をすればい いわけで、できるところはリモート勤務とか、大学はハイブリッド講義とかは 続ければいいのではと思う。
あと初等教育でも「できる人はオンライン」でいいと思うんだけど、まあ、 初等教育は知識とかが目的ではなくて集団に順応できるよう人格をなんかする ことが目的だから駄目なんだろう。
メモかねて書いておこう。某A君といいつつ GPLUM なんだけど、 これはもちろん惑星形成用N体で物理的な衝突を実装するコードなので ソフトニングはいれられるけどあまり変なことはできない。これを 巨大ブラックホール連星の進化計算に使いたい。
そうすると、巨大ブラックホール間とか巨大ブラックホールとフィールドの粒子の間はソフトニングを小さく(ゼロでも)して、フィールドの粒子間はある程度いれたい。
とりあえず、全粒子に「自分のソフトニング」を与えて、今回の目的では、 「対称性は必要、一方が0ならゼロでないといけない」ので積をいれる。
P^3T スキームなので、ツリーを使った遠距離相互作用のところと、短距離相互作用にした上でエルミートスキームを使うところの2箇所で相互作用を計算している。
で、遠距離相互作用は FDPS なので、さらに必要なデータをコピーする関 数とかも適切に変更する必要がある。
で、これでおしまい、と思ってたら、遠距離・近距離を分離するカットオ フ関数のための距離にソフトニングがはいったものを使っていて、そっちは変えてな かったので矛盾が発生していた。
さて、こう書くとどういう対応をするべきかはほぼ明らかで、 「カットオ フ関数に関係する距離にソフトニングをいれないように変更する」だな、、、 現在はもうちょっと姑息な対応にしている。
うむ、というわけで書いて整理するとどうするべきか明らかになるという か書かないと駄目だな、、、
繰り返しだけど、ワクチン接種が感染拡大に寄与しているかどうかは別の話。
SMIC 7nm もなんかあるらしいと。SMIC 7nm technology found in MinerVa Bitcoin Miner
デルタ株とオミクロン株を比べると、ワクチン接種がないグループに対して特に高年齢でオミクロン株は弱毒化している(19歳以下はほとんど変わらない)。ワクチンの効果はオミクロン株に対してはかなり下がる、というのをイギリスでの疫学調査からだした論文。この辺が現状の理解?
Effects of Vaccination and Previous Infection on Omicron Infections in Children これだと子供へのワクチンは18週で効果がゼロになる。そのあとマイナスになるかも。 (図2b)
Samsung 18nm FD-SOI は SRAM cell size 0.102um^2 と。DRAM は 25nm 当りだと0.05で意外に差が小さい??
Samsung は“18nm FD-SOIはStrategic Customer向けのカスタムプロセスで一般提供はしない”の?えー。
ST はやる気がありそうだが、、、というか EU は 微細化じゃなくて FD-SOI に投資する感じ? 割と正解な気がする。
なんかこうありえないレベルで色々あって大変である。
カラ出張や経費の過大請求で7年間で1千万。カラ出張とか30年前ならあったかもだけど、、、みたいな。その頃は校費も旅費にしか使えないところとかあったような。
で、DGEMM 実測だと ここに 28.3TF という数字があるのか。なぜ DGEMM 実測でこんなに悪いんだろう?
半分より高いので行列演算器が使われていないわけではなさそう。
ワクチンは結構色々あると思うけど超過死亡の主因というのは無理。というのは、去年4-5月の第4波で大きな超過死亡がでてるから。 ストレスが、というなら特に行動制限要請もでてない第7波では超過死亡は減りそうだがそんなこともない。
ではワクチンが感染拡大を助けていないのか?という問題は別にあってこれは現在のところ私はよくわからない。疫学データとしてはそっち方向のもなるみたいだけど、、、