2009年11月28日
GPUクラスタによる高性能計算技術でゴードン・ベル賞を受賞
GPUを使ったという国内最速のスーパーコンピューターの話題です。
・ スパコン開発で「ゴードン・ベル賞」 長崎大助教ら受賞 「国内最速」安価で実現 - 西日本新聞
・ GPUクラスタによる計算がゴードン・ベル賞を受賞 - 長崎大学PDF
・ GPUクラスタによる高性能計算技術の実証 - 長崎大学 学術情報
長崎大工学部の浜田剛助教のグループは、GPUを760個並列につなげたという国内最速のスーパーコンピュータにより、スーパーコンピューター界のノーベル賞とも言われる「ゴードン・ベル賞」を受賞しました。市販の画像処理装置(GPU)を使って安価に高速計算を実現したのが受賞理由とのこと。
受賞したシステムのGPUは何かわかりませんが、 09年3月の単精度190Tflops GPUクラスタ(長崎大)の紹介(PDF)によるとCUDAが使われており、資料時点では「Core2Quad Q6600が128ノード、各ノードに128ノード8800GTS-OCが128ボード、9800GTX+が128ボード」という構成になっているので、GeForceが使われているようです。
通販情報
[HD 5700] SOFMAP、クレバリー、ドスパラ、FAITH、TWOTOP
[HD 5800] SOFMAP、クレバリー、ドスパラ、FAITH
Posted by nueda at 2009年11月28日 01:28 JST | トラックバック | ホームに戻る
何の基準で判断しての評価なのかは分からないが、
GPUは単純計算向けなので、そこまで驚くほどのもの
だとは思わないが、ぎっしり並べられているGeforce
を見るとなんだか血が騒いてならないのは私だけか。
Quadroじゃなくてゲフォなところに不安が。
うちはSLIすると大体1年半でグラボが逝ってしまうジンクスがあるのでw
TeslaでもQuadroでもGeForceでもCUDAは使えるから
大量搭載するならコストでGeForceは圧倒的だろうからなあ。
比較的少ないデータを扱う分散処理向けの問題を解決するために、安価にスパコンを構築するにはもってこいの構成だけれども、長期にわたる連続運転については信頼性がないということです。
よほど動作環境が良くないと、GPUはすぐに壊れますからね。
例えば、Folding@homeで24時間連続運転すると、平均5000時間で壊れるようです。空調が整った電算室に置いてあるマシンでも24時間連続運転するとGPUが壊れやすいそうです。比較的負荷が少ない録画専用機でも24時間連続運転だと、1年で故障しだします。24時間運用前提のサーバ機なんかだと、消費電力が少なく壊れにくいMATROX G200のLV版が使用されることが多いようです。
市販品のグラボは、短時間のみ全力運転する前提で冷却能力が貧弱なようです。だから、GPGPUとして24時間全力運転すると、冷却能力が追いつかず規格内とはいえ高温な状態で長時間連続運転することにより、ホットキャリアか何かで急速に劣化して壊れるようです。
確かに構築するのは比較的安価だろうけれど、安定動作を確保した上で連続運転するとなると、それなりのコストがかかるようです。その上、一度故障すると、どのボードが故障したのか調べるのに時間がかかり、復旧までに長時間かかることも問題だそうです。
スパコンは生もの(運用は3年程度)
基本的には連続運転だが、四六時中使っているわけではないので特定のサーバほど可用性が重視されるものでもない
それに地球シミュレータの430億円に対する4000万円弱の価格は時代の違いを京慮しても「比較的」安価というレベルの安さではないでしょ
みなさん、この人の研究が偉大な賞を受賞されているのはソフトウエアアルゴリズム部分に対してですからね?
ハードはただ繋いだだけなので誰でも出来ます。
この人の凄いところはその繋いだだけのマシンで実行性能を出すことに成功したことですから。
日本一の性能だからとこのハード自体を表彰されてるわけではないですから。
池田某をはじめ、地球シミュレータよりはるかに安くてしかも高速な計算機ができる、ESは無駄だ、という人がいるけど、ESと同じ仕事させてESより早く信頼できる精緻な結果を出せるの?ESの結果として地球温暖化が科学的に議論できるようになったのに、その評価を蔑ろにしているわけだが。
天体物理の多体問題と同様のアルゴリズムであらゆる種類の計算ができるということだろうか?だいたいこの種の計算機なら今までもGRAPEとか低価格の手作り計算機があったし、GPUを使ったというだけで何ら真新しい物じゃないじゃない。
ただ作っただけじゃなく、ちゃんと問題を解いて実績をつまなきゃ評価はできませんて。
基本、GPUベースだろうがCPUベースだろうが
一定以上の数をつなげれば、確率分布に基づいて
ばたばた故障します。
10万プロセッサとかというシステムでもCPUなら信用できる
とかというインチキはない。単純に寿命を10年(3000日)
とすると、一時間に1台システムが死亡する。
だから、信頼できない結果を検出して、その演算機に
ジョブを回さないようにする。予備機を用意して
予備機に回す。そのあたりのノウハウがあるかと
言うことが問題でしょう。
なぜ半導体の寿命などなどの話があるのか分かりませんが、こういった賞もあるんですね。
それにしても8800GTSをチョイスしているんですね。
地球シミュレータの得意分野は後半のPDFでいうと「領域III」の分野です。
このクラスタではあえてそこを外して、GPUの得意な分野と、それを活用できる演算を選んだわけですね。
そもそもこのクラスタは単精度ですが、地球シミュレータは倍精度です。
だからといってこのクラスタが駄目だとか言うつもりは全くありません。
PDFの最後に書かれているとおり、必要な演算を選ぶ素晴らしいセンスがあったからこそ受賞されたのでしょう。
ATI Stream だとどんな研究結果がでるのか、かなりきになるね。
Posted by: 素行者 at 2009年11月28日 20:10しかし、このGPGPUクラスターのFLOPSが単精度のそれで、地球シミュレータ2のFLOPSが倍精度のものだとすると、西日本新聞の記事とか池田信夫ブログに書かれている事は物凄いミスリーディングですね。
しかも、得意分野が違っている(地球シミュレーターはメモリーバンド要求が高いジョブに強い)し、恐らく信頼性、可用性も天地の開きがあるのに単純にFLOPSだけで比較されてはたまりません。
科学技術分野の事業仕分けがこんな粗雑な論理で行われていない事を祈るばかりです。
Posted by: ケンジ at 2009年11月28日 20:25賞を受賞されている研究をたいしたことないとか言うド級の素人発言は少し調べて書き込めよ.
そもそも性能を引き出すアルゴリズム開発が目的ですから、ハードの良し悪しでこの人の研究を判断してどうするんだ。
信頼性ならTeslaを使えばいい話だが、この人の研究目的はコストパフォーマンスの追及だからGeforce仕様なんだし。
スパコンに使われる部品はコストを掛けて製造されるため、
信頼性が高いので障害は発生しないかのようなイメージが
無きにしも非ずですが、結構障害は発生しているようですね。
XEONやOpteronを利用したスパコンに比べて多いのか少ない
のかはわかりませんが。
地球シミュレータ-障害件数
http://www.jamstec.go.jp/es/jp/status/2009dif.html
ノード部だけで月間10~20件の障害が発生しているようです。
PCクラスタの信頼性
http://www.bestsystems.co.jp/mailmag/M0007400.html
先日のワークショップで理研の姫野さんが次世代スパコンのお話を
されました。現在の理研の1,000CPUの大規模クラスタで月に数件
故障すると考えると、次世代スパコンで検討されている10万CPUでは
数時間に1件障害が発生すると考えられています。
地球シミュレーターとの比較も、事業仕分けも、池田信夫ブログも
記事にも、どのコメントにも言及がありませんよ?
ここに存在しない敵に吠えて、受賞の価値を貶めるのは足の引っ張り合いに見えてとても見苦しいです。
コメントで、地球シミュレータ-が、
信頼性が低いとか、汎用性が違うとか書かれていますが、
高い機械は信頼性が高いという妄想にとりつかれているね。
地球Sが600億かかって当時は1位だったが、後に
IBMが遙かに安い金額で最高速度を達成しています。
そもそも、600億使って温暖化のことを考えている
割には、思いっきりCO2を排出しているのでは?
あと、野依等が600億の税金を正しく認識しているのか
はなはだ疑問。ましてや1200億なんて、、
4個並列ですらプログラム面倒そうなのに、
よくもまあ760個も制御出来るようにしたなw
動くロジックはくめるけど、こんなに高速なロジックはおもいつかんw
連方さんのファンが
ここに来ていると聞いて
つか、GPUの話題からよくもまぁ
捻りに捻りまくって政治ネタにしちゃうとはねぇ
でもニュース見る限りは「nVIDIAの手柄を横取り」に見えるのが痛いところ。
だからこの人の研究の価値は独自開発のソフトウエアアルゴリズムだと何度言えばわかるのか。
Posted by: 通りすがり at 2009年11月30日 18:35おぉ、わが母校w
おいらは電磁波研究室でアンテナの研究やってたけどね。
>捻りに捻りまくって政治ネタにしちゃうとはねぇ
そういう事しかできない人なんだから仕方がない。
「出来る」人なら普通はあんなこと書かないし、第一考えもしないwお里が知れちゃいますよね。
利害関係者並みの必死さが魅力。
Posted by: エ作買 at 2009年12月02日 15:36スイッチは何を使ったんだろうか、、、
Cisco?
って、PDFみたら、
1 GbE 481 48ポートスイッチ((NetGear) x 4 台をスタック接続
ネットギアて、書いてあるww
(書込時に「、」か「。」が必要です。内容によっては削除しますので、ご了承ください)