つっても、非公開のを別につけているわけではない。
Copyright 1999- Jun Makino
2006/01 2005/12 2005/11 2005/10 2005/09 2005/08 2005/07 2005/06 2005/05 2005/04 2005/03 2005/02 2005/01当面の予定
講演タイトル:銀河中心の恒星系力学自分で書いたはずだが、、、こんな話するのかなあ?要旨
近年の銀河中心近くの恒星の精密な固有運動、あるいは軌道そのものの測定結 果は我々の銀河中心の理解を大きく変えつつある。本講演では観測から示唆さ れる銀河中心の描像はどのようなものかを主に恒星系力学の観点から検討する。
スーパーコンピュータのハードウェア、アーキテクチャの研究開発に携わる研究者、技術者なら誰でも参加できるそうです。さて、、、
## test3.vsm ## ## Time-stamp: <2006/02/14 00:41:52 makino> ## ## test program for LM address lines prefix functest3 <% a="" 18.times{|i| a += "bvar vector bdata#{i} elt0 fix64to36\n"} %> <%=a%> var vector dummy hlt fix64to36 evar jdata0 0 1 vlen 4 loop body nop 2 idp 0 1 -1 bm $lb0v $lm0v <% a="" (1..6).each{|i| a += "bm $lb#{i*8}v $lm#{(1<<i)*4}v \n"} %> <%=a%> bm $lb0v $t nop uxor $lm0v $t $lr8v <% a="" (1..6).each{|i| a += "bm $lb#{i*8}v $t\n" a += "uxor $lm#{(1<<i)*4}v $ti $t \n" a += "uor $lr8v $ti $lr8v \n" } %> <%=a%> nop <% a="" ; $clop.npe.times{|i| a += "bm $lr8v $lb#{i*8}v #{i}\n"} %> <%=a%> rrn uor $lb0v <%=$clop.npe*4%> fix72to64w c1 nop <%=$clop.npe*2%>erb って便利過ぎる。
というわけでファンクションテスト用のアセンブラはとりあえずは書いたと。 ドライバとそれを動かすスクリプトを書けばとりあえず終了。明日、、、は専 攻会議な日か、、、
mknmz --update=/var/namazu/index Mail WWW papersこれ前に失敗したような記憶があるんだけど、、、
というか、これ走らせ出したらメモリ不足っぽい。うみゅ。
ここによると 3万粒子 1nsec で2.7日とのこと。タイムステップを 1fsと すると 106ステップに 2x105秒だから、3万体 0.2秒。 ステップサイズは普通もうちょっと大きいかも。で、N2の計算で 相互作用 40 演算として 200Gflops。 Ewald とか使ってるならもっと遅い。 というわけで、もっとも速く見積もってチップ当り50Gflops、GRAPE-6 よりちょっ と速いくらい。何故こういうものになってしまうのかなあ、、、発売した時点 で価格性能比が PC 以下では売れないってば。
これらの課題は、以下の技術により実現しました。なぜ 30 年前から普通にある技術を新しく開発したように書くのかなあ?えー と、上のVフラグの話。CM にはあったし、条件フラグのない大規模 SIMD 機ってあったっけ?
- データレジスタとPE間、およびPE相互間の接続技術
Hチャネル、Vチャネルともに、200MHz動作時で816Gbps(giga bit per second)の転送速度を実現しています。
- PE間を接続するHチャネル (Horizontal Channel)
演算器とデータレジスタ間でデータ転送を行うための接続経路で、演算の基本経路となります。データ転送は相互に干渉することなく1クロックで行われます。- PE相互間を接続するVチャネル (Vertical Channel)
PEとPEの間でデー タ転送するための接続経路です。Vチャネルは、一定の距離にあるPE間を並列 にデータ転送することが可能であり、本転送経路によりデジタル信号処理演算 では必須のバタフライ演算を効率よく処理できます。- PEの回路構成
一般的なSIMD型プロセッサは条件ジャンプができないという問題があります。本プロセッサでは、2ビットのPEの回路構成に工夫を施しました。各PEにVフラグ(Valid Flag)という1ビットのレジスタを設け、Hチャネル、Vチャネルのデータ転送、或いはPEの演算そのものを実行するか否かを選択します。これにより、クロックサイクルごとの条件ジャンプが可能となり、バタフライ演算の高速化等に大きく寄与しています。- 2バンク構成、Read-Modify-Write動作のSRAM回路
PEの基本は2入力1出力です。このため、PEを連続的に動作させるためには3ポートのデータレジスタが必要になりますが、これを面積の小さなシングルポートSRAMで実現するため、以下の構成としました。この結果、読み出しから演算、さらに書き込みに至るまでを1クロック内で完了させることができ、小面積のデータレジスタを実現しました。
- SRAMのエリアを2バンクに分割します。2つの入力データを、この2つのバンクの各々から読み込みます。
- 同時に、出力データは読み込みに使ったデータへの上書きとし、この上書きをメモリのRead-Modify-Write動作で行います。
比較的容易といわれるUSBや罠的DCMに引き続いて、途中罠コンデンサ崩落 や罠コネクタや罠オシレータ接触不良と来て当時旬のLiLF@*k罠が挟まっ たが、最大の罠と言われるSRAMも恐らく我が手に墜ちたように思われるので やや一段落ついた感がある。しかしDCMの罠は静しつつあるものの今後も陰を 落としそうな気配である。また罠的内蔵ブロックRAMや罠的内蔵乗算器、罠的 配線や罠的配線遅延、ファンアウト罠、そしてペンチアムM1.7Gですら何時 間もかかったりそもそも永久に終わらなかったりもすると言われる罠的配置配線 処理など様々な罠が教官やザイリンクスやサムソンこと××システムによって次 々と仕掛けられており神的でありまさに箱庭または手の平で行われるゲーム的で ある出典は内緒ということにしておく。一部伏字。
FPGA実験基盤を作ってる会社は結構なDQNぽい。指で触ると脱落する面 実装コンデンサだの罠的コネクタの信号配列やピン番号、ソケットが90度逆 についててしかも半田付け不良、サンプルソースが動かない、絶対最大定格3 Vのところを油断してそのまま使うとSRAMに3.3V印可される設定ファ イルなどなど
で、全て再計算しましたということで、もっともらしい結果になっている、と 思ったらまた新しいグラフが変な気が、、、これはデータ解析の間違いだと思 うなあ、、、というわけでとりあえずそういう返事を書く。
1.旅費申請書等(旅費申請書・見積書・日程表・領収書・会議のプログラム等) 平成18年2月20 日(月) 2.日本学術振興会の国際交流事業全般 平成18年2月24日(金) 3.物件費最終伝票 平成18年2月28日 (火) 4.謝金の最終伝票 平成18年3月13日 (月)だそうで。
この時期,修士の学生の方々の日記を見ていると,「修論要旨提出が明日で,徹夜で仕上げを..」みたいな記述を見かける.修論ってそんなに切羽詰まるものなのかな.2年もあるんだから,1月くらい前に完成して余裕で構えていられないんだろうか.私もそう思う。自分の時は修士論文提出期間が1週間くらいあって、最初のほ うに出したような記憶が。偽の記憶だったりして。でも、その頃はバイトで忙 しかったから、早めに出したはず。68020 で SysV でカーネルが死んでもウイ ンドウシステムは動いている無意味に素敵な EWS (NEC の 4800)上でコマンド プロシージャ(と当時は言うことが多かった気がする)のインタプリタを書いて たのがその頃じゃなかったかなあ?その後 IASで Sun-3 を使って Emacs の画 面スクロールが遅いのに驚いた。4800 では MicroEmacs 使ってたし。
まあ、さすがにこれは私のところにレフェリーこないだろ。きたら M林君に回 して、、、というようなことはしないけど。
こういう論文でもレフェリーが通してしまったりすると、「3軸不等だと BH binary は合体する」とかいう話が広まって、それは嘘だと理解されるのに5年 くらいかかるんだよね。
まあ、Bar unstable でなくても本当にこういう効果が重要、という可能性も ある。ちょっと調べて論文書いてもらおうかな。
マルチスケール・マルチフィジックスシミュレーション、流体構造連成計算、量子化学計算、分子動力学計算 等で最後に「等」があるのね。つまり分野は実は結構なんでもありかも。プロジェ クト終了は順調にいけば 7 年後なので、とにかく大きな計算機使いたい、と いう人は出すのも悪くないと思います。チームリーダーは何するのかなあ? チームリーダーはハードウェアで後の研究員はアプリケーションソフトウェア というのがなんだかよくわからない。