PINUPS - 上田新聞 blog版: 「Conroe」対「FX-60」--比較テストの結果に「喧々ごうごう」

2006年03月16日

「Conroe」対「FX-60」--比較テストの結果に「喧々ごうごう」

インテル「Conroe」対AMD「FX-60」--比較テストの結果に「喧々ごうごう」らしい。

・インテル「Conroe」対AMD「FX-60」--比較テストの結果に喧々ごうごう - CNET Japan

Conroe 2.67とAthlon FX-62(2.8G OC)のベンチマークスコアでも紹介した、AnandTech、HEXUS、Tech Reportのベンチ結果ですが、「比較テストの結果に喧々ごうごう」と書かれてますね。前回の紹介記事にもこのサイトでは過去最多のコメントが付き、Conroeへの関心の高さが伺えます。

文中に「AMDがチップの設計に加える変更が比較的小さなものであることから、これらの新しいチップがConroeの性能を上回ることはないだろうと、同氏(MercuryResearchの主任アナリストDean McCarron氏)は述べている。」とありますが、今年の変更ってDDR2-800のサポートくらいでしょうか。

AMD K8 Topicsの3月15日付けで紹介されていますが、「DDR400からDDR2-800の変更によるパフォーマンス差は3～5%」のようです。個人的にはComputexで部分的には発表されるという「K8L」に期待したいですね。

[BTO可能なカスタムPC] ツクモ、SYCOM、クレバリー、ドスパラ、TWOTOP、FAITH
[SLIのカスタムPC] ドスパラ、SYCOM、TSUKUMO(P180ケース使用)

Posted by nueda at 2006年03月16日 01:57 JST | トラックバック | ホームに戻る

色々な情報が出てますが、どれが正しいのかは分かりませんね。プロセスの微細化が行われるRev.GがソケットAM2で出るかどうかで移行するかどうか判断されるのではないでしょうか。しかし、DDR2-800で3-5%,677でほぼ同じとなると、DDR2-533というのは？イメージ的に早そうだからIntelは採用してきた、というのでしょうか。帯域自体はリニアに広がっていきますけどね。テストの仕方次第でしょうか。

Rev.Gで大容量キャッシュを積むスペースを確保できることでDDR2のタイミングの遅さは隠蔽できるでしょうし、その為に超低消費電力のZ-RAMのライセンスを取得してるのでしょう。熱量あたりのパフォーマンスをやけにアピールしてますし。

FPUの部分でAMDとIntelでアプローチの仕方が違うようですね。Intelは、CPUとチップセットのメーカーであると同時に、数でいけば大手のGPUメーカーでもあります。CPUの負担する部分としない部分を決定することが自社のみで完結的に行うことが出来るのは強みでしょうか。一方、SSEはより柔軟な使い方が出来る仕様になっているようです。特別３Ｄにこだわる気はないのでしょう。AMDは、K8LでFPU周りを二倍に強化、FPUの性能面で50%ほどの向上を図る予定。

ここに来てプロセスの微細化の遅れから価格の上昇がRev.Fから始まります。65nmへの移行の遅れはConroeのパフォーマンスの良さから、AMDの首を緩やかに絞めつつあるのは確かです、Rev.FではDualコアの内部帯域が上がっているなどの変更により、X2では過去最大のダイサイズになる予測。Rev.Fの設計は、すぐにシュリンク出来るように考えられていることから予定を早めてくるかもしれません。

AeroGlassが、GPUだけではなくキャッシュ容量の小さなCPUでは極端なパフォーマンスダウンをする可能性もあるので、情報量の豊富なIntelのほうが無難といえば無難ですが。

Posted by: LΛRK at 2006年03月16日 12:07

性能面に比べ些細なことですが，DDR2で性能向上が図れずとも若干でも低消費電力化には寄与すると思われるので，イメージ的な問題というよりもシステムとしての低消費電力化を鑑みたとも考えられるのではないでしょうか。
同様に，AMD陣営でも性能面よりもよりいっそうの低消費電力化のメリットの方があるように思います。

Posted by: アイヴァーン at 2006年03月16日 22:15

テストの内容からすると、エンコではSSEの128bit化（64+64の擬似128bitでない点）、ゲームやその他のテストの差はDDR400の帯域とDDR2-667帯域の広さの差と、2MBと4MBのキャッシュ容量の差からとすれば、Rev.Fではメモリ帯域で並び、Rev.GでFPUの強化と4MBのキャッシュ容量で並ぶとすれば、Conroeが2006年秋１０月に延びた後の2007年初頭には性能面では遜色のないものが出てくるといった可能性もあります。
2MBキャッシュのモデルと、Rev.FのX2で同じ程度の周波数モデルとを比較してみたいものです。エンコ以外ではそこまで差がつかないと予想しているのですが。20%もの性能差にはそれなりの理由が必要でしょう。続報に期待です。

Posted by: LΛRK at 2006年03月17日 03:04

Rev.Fがそうであるように、DDR2採用によるメモリの広帯
域化はゲーム系等一般アプリへの効果はわずかなものに
とどまります。

キャッシュの効果はこれよりは高いものの、2>4MB化の効果は
高くても10%程度です。

またFPUの強化は効果が得られるのは一部の用途に限られます。

つまりConroeは既存の性能向上技術の範疇からは
考えられないのパフォーマンスの伸びであり、なんらかの
これまでにない改良が施されている可能性があります。

漏れ伝わっているAMDの改良で同様の伸びを期待するのは
難しいでしょう。

Posted by: 通りすがられ at 2006年03月17日 09:41

そもそも数年前のコアと最新コアを比較する時点で間違ってるとか、言ったら叩かれるんでしょうね。

っていうかこれでConroeが負けてたらIntelのプライドってものがなくなるだろ

Posted by: 通りすがりさん at 2006年03月17日 14:43

個人的に・・・
取り敢えず勝ち負けはどうでもいいんでAMDには今できる最良の技術を駆使して出して欲しいです。
Intelに挑発されないで自社ペースで。

性能面で鼬ごっこになるのは今に始まった事ではないですし。

Posted by: 天使展翅 at 2006年03月17日 16:10

叩く叩かれるではなくて、ユーザーとしては冷静に判断をしないといけないということです。Rev.Fで同じDDR2メモリを使用して、キャッシュ容量が2MBのモデルとConroeの下位モデル2MBのキャッシュ搭載のものでの性能差が一桁そのなかでも５％程であるなら、Conroeで買うべきモデルは上位の２モデルということです。Rev.Gが出たときに下位モデルでは対抗できないことを意味するからです。

この比較で、１０％以上の差が出るならば下位モデルも視野に入ってくるので一つのポイントであると思っています。周辺のキャッシュやDDR2等による差よりもコア自体の性能差のほうが大きいとなるとRev.Gになっても下位Conroeユーザーは安泰ということですから。

コアの改良前の古さを議論しだすとP6だという話も出てくるので現状の話で進めないといけないですね。

Posted by: LΛRK at 2006年03月17日 17:22

今の超突貫ペースでは、Intelでいえども予定通りに
Conroeを出荷できるか厳しいかもしれないと思って
います。
AMDが予定通りに65nmを立ち上げられる可能性は
それ以上に低いような気がします＾＾；

Posted by: 通りすがられ at 2006年03月17日 17:49

あのベンチマークにいろいろ反論が出ているようですが、コンローにしても、あのベンチマークは全容を現した訳では無いですし、

キャッシュを積めば性能が伸びる、追いつけるような話しも見受けられますが、２MB→４MBなんて性能微増でしょ。だいたい今のAthlon64のキャッシュ容量の違いがどの程度かで推して計るべしですね。

”確からしい話”で纏めれば、K８Lはたいした性能アップにはならないでしょう。
これ以上はAMDの関係者からの説明がない限り、夢物語と同レベルの話ししかできませんね。
個人的には、K8Lは足回りをチョコっと改良する程度と予想します。

雑感ですが、Conroe65nmとK8Lの比較でこのような状態では、すぐ後に45nm移行したConroe？の逃げ切りですかね。
とりあえずK10までは、Intelの治世が続くと思われます。

Posted by: ai at 2006年03月17日 22:51

私はAMDファンですが、Conroeにはシェアを奪われそうですね。
FAB建設というギャンブルが裏目に出て、
致命的な赤字転落という最悪なシナリオの予感が・・・

Posted by: isao at 2006年03月18日 13:16

なんというか…
Athlon64とPen4の競争の時代に、AMDファンがPen4に対して言っていたことが、逆に帰ってきているだけのような…

強化版FPUを乗っけた2GHzオーバーのPen3を2個と、メモリコントローラを内蔵したAthlonXPを2個で、どっちが速いかって比べている気がしないでもないし。

ただまぁ、コアの設計がConroeの方が新しいんだから、ConroeがK8を圧倒してても当たり前なわけで。
その後にK10なりが出てきたときに、やっぱり同じ理由でK10がConroeを圧倒してくれるだろう、多分。
intelのConroeチューニングが予定通り行かなければ…さらにアカデミックな新機能を搭載しなければ…の話だけど。

intelのCPUは登場初期と末期では、殆ど別のCPUになるまで変更されるから…

Posted by: KA at 2006年03月18日 13:37

確かにここ数年のように、2~3年間隔で新しいアーキテクチャ
を出す状況が続くなら、両者ともにライバルに優位な時期と
苦境を強いられる時期がかわるがわる訪れて、次に苦杯を
なめるのはIntelの方になるでしょう。

その前提でいけば今回のConroeの一件は何度も繰り返された
開発競争の1ページにすぎないでしょうが、今後は状況が
大きく変わることが予想されます。

Intelがこれまでより開発ペースを上げた一方で、AMDが開発
ペースを落したためです：
http://pc.watch.impress.co.jp/docs/2005/1228/kaigai232.htm
http://pc.watch.impress.co.jp/docs/2006/0119/kaigai233.htm

仮にある世代で失敗があったとしても、Intelのこの開発ペース
ならすぐにリカバーが可能でしょう。

対するAMDは改良内容もさることながら、開発ペースでも差が
大きく、対抗するのは非常に厳しいといわざるを得ません。

ただ、プロセス開発については東芝・IBMという非常に強力
なパートナーを得ており、今後その成果が現れるでしょう。

Posted by: 通りすがられ at 2006年03月18日 15:48

今回からは、IntelでいえばPen3以前の状態に戻る感じですかね。
ここ5年くらいは、Intelが設計的にやや劣るコアを使っていたため、AMDと均衡＆やや優位な競争をしていましたが、Intelがスタンダードな設計に戻ったので、AMDが対抗していくには、難しい状況になりましたね。
本来、プロセス技術や開発能力など、もともとファンダメンタルの差は圧倒的なので、Intelは”普通”にしていれば、負けなんてしないはずなんだよね。

AMDに可能性があるとすれば、Intelがまたコケた時。
そのときAMDがベストの製品を出せれば、また戦えるかも。

Posted by: 力の不近衛 at 2006年03月18日 17:57

Conroeはどうなっているのか、Intelの言っていることは、データプリフェッチの改良と非常に多くの命令を読み込むことで今までよりも一つ多い同時実行命令数を実現したということだ。この話は、Conroeは、パイプライン数が14とK8よりも2つ深い。これは一つの命令の実行に14サイクルかかるということであり、12パイプラインのK8と同じ同時実行命令数だとより高いクロックで動作しなければならないが、それにも関わらず性能面で上回っている事実と合致する。つまりロジック部分の効率ではK8と同じか少し悪いが、稼働率をキャッシュを利用して上げたということだ。読み込む命令の数が足りない場合はもちろんIPCが極端に下がるわけだが、実行する確率を上げるには容量を確保することでより多くの命令を読み込めばいいわけだ。これが2MBと4MBでどの程度の差があるのかが気になる理由。

付け加えるとシングル性能では、Conroeは4MBを2コアで共用している為。4MBをフルで利用できる。より高い精度で4命令を実行させることが出来るわけだ。K8の同時実行数2-3と比べて3-4実行できるためマルチスレッドで無い場合。25%前後処理速度が速いことになる。動作クロックを上げたk8に20%の差をつけることも可能に見えますよね。これがキャッシュが2MBとなりDual動作時となると差はもっと小さくなります。2MBが地雷の可能性があるもう一つの理由ですね。Dual動作時は８命令実行出来るわけではなく、従来４命令のところを高い確率で５命令実行できる能力がある（4MBならと読める）というのも気になるところ。

Posted by: LΛRK at 2006年03月19日 02:31

すでにキャッシュ容量増大の効果については何度か触れていますが、2MB>4MBの
増加による効果で今回のConroeの結果を説明できるほどの効果は期待できません。

Banias > Dothanを例に挙げると、以下の記事にあるように一般的なアプリレベル
での同クロック間性能差は5%未満です：
http://pcweb.mycom.co.jp/special/2004/dothan/menu.html

またL2が512KBと1MBのAthlon64の性能差からもその効果の程度は予想できるでしょう。

念のために書いておくと、キャッシュ増量の効果はヒット「率」の向上によるもの
なので、容量が増えるほど増大の効果は低くなります。
ある容量から急激にキャッシュ効率が上がる、といったことは少なくともこれまでの
アーキテクチャ設計の常識からは考えられません。

キャッシュヒット率を容量に頼らずに上げるにはプリフェッチすなわちキャッシュへの
データ取り込みの手法が重要です。

Coreに採用された効率化手法のほとんどはK8さらにいえばP6で既に実装済みで特に
目新しいものはないのですが、唯一メモリプリフェッチにこれまでにない大幅な
拡張がなされており、この点が性能向上に寄与している可能性が高いでしょう。

その他コア間のL1データに専用リンクバスが用意されているという話もあったよう
ですが、今回のIDFではいっさい触れられていません。

Posted by: 通りすがられ at 2006年03月19日 11:50

AMDがFPUとメモリ帯域を強化していくのは、一番重要な2-8wayのOpteronでそれが必要だからです。
現状この分野ではOpteronは無敵（AMDを売らないDellが業績を落とすほどに）ですが、
Merom世代でどこまでIntelが巻き返せるか見物です。

AMDはAthlon64X2を安く売ると、Opteronのキャパが圧迫されてしまうので今は全然値下げしてません。
X2として売れなくても、同じものを10万以上で売れるOpteronとして売ったほうが良いのは当然です。
Conroeが出てきたときには、AMDはX2を大幅に値下げしてくると思います。
強力なライバルが居れば、値下げしてもOpteronのキャパを圧迫するほど売れないでしょうし、
Opteronで稼げてればX2で儲からなくても問題ないからです。

AMDは、K7世代までIntelがとってきた戦略と同じく、サーバ用途で稼ぎつつ、
個人向けでは泥沼の価格競争で相手を弱らせる戦略をとりたいんじゃないでしょうか。

Posted by: ppp at 2006年03月19日 12:20

プロセスの効果ってのも、これからはあまり出ないかも知れませんね。
たとえばAMDは130nm→90nmでわずか200MHzしかクロックが上がっていない。

Conroeが65nmで3.33GHzが上限なのも、両CPUの構造からすると妥当なところでしょうね。

K8が上げられないのはキャッシュレイテンシー＆128KB L1容量の関係から、3GHｚあたりに壁があるともいわれています。
レイテンシーを緩めるか、キャッシュ量を落とせば、壁が上のクロックに移動するでしょうが、性能面はマイナスになりますからね。
K8Lはプレスコみたいにレイテンシーを落としてくるのでは？
と個人的に予想しています。それ以外の部分で、性能低下をカバーしなければいけませんから、このタイミングでやらないと出来ない。

同じ設計だと65nmに移行しても、3GHzちょっとがやっとかもしれませんね。つまり、1-2四半期ごとにクロックを挙げる手法は取れませんから、L3もマーケティング上の売りを作る一つなのでしょう。Quadcoreもデスクトップに投入しないと、話題が足りないかもしれません。

Posted by: 力の不近衛 at 2006年03月19日 16:53

Conroeが処理性能が高いのはキャッシュ量ではなく
L2-L1間の帯域がとてつもなく大きいからではないでしょうか
片方しか転送してないときは倍の転送帯域を確保できるのは大きいです
Yonahもそうですが、バランスの悪いマルチスレッドやシングルのアプリを実行したときに性能が大幅に上がるという所ではないでしょうか
スコア的にもYonahからFSBとクロックの倍率しか増えてるように見えないのですが・・
整数メインの通常の処理能力自体はK8（ALU3内１つにMultiPlier1,FPU+SSE）と、Conroe((ALU+MultiPliers?+FPmove+SSE) * 3 内1つずつにFadd,Fmul,比較分岐のmacroop実行)
であまりかわらなそうですが・・
浮動少数もPackedSSE出なければ差がないと思いますし
FSBが新しくなればいいんですが、そのまま1066なので重要なPCには使えそうになさそうですがゲーム等は良さそうです
とりあえずNetBurstじゃなくなって良かったです、これでx86と言えどもまったく別のCPU向けのコードを書かなくて済むようになったので

2CPU以上はまだまだOpteronのほうが早そうです
MPでFSBが1066で出てきても帯域不足ですし1333は現状のXeonMPの667から800に移ったばかりというのを考えると出そうになさそうな感じですから

どっちみち、まだ出てないので、決めるには早すぎると思いますが・・・これから性能上下する可能性もあるので

一応資料見ながら書いてますがおかしい部分があったら削除してください・・

Posted by: Nameless at 2006年03月20日 11:52

L1-L2間「帯域」を1コアで占有できるような機構を導入した
との話は公表されてないと思います。

共有L2「容量」の動的割り当て機能のことではないでしょうか？

Posted by: 通りすがられ at 2006年03月20日 16:28

すいません、PenMよりレイテンシが半分のL2の１つのインターフェイスに対し2つのコアでアクセスするとあるので
２つのコアが動いてるときに低下しているという感じでしょうか

しかもYonahが出る前の何処かのインタビューでの発言なので怪しいですのでその部分は無い事にしてください

Posted by: Nameless at 2006年03月20日 17:51

確かにYonah以降のL2キャッシュのレイテンシはDothan以前のもの
の半分になっているようですね：

http://pcweb.mycom.co.jp/articles/2005/07/14/yonah/

あらためてYonahとAthlon FX60とのベンチ結果が比較した記事を
見ると、Conroeほど突出してはいないものの、既にYonahの段階
で同程度のクロックのFX-60を凌駕する（クロックとOCでFSBアップ
状態であることを考慮すると互角？）結果を叩き出しています：

http://nueda.main.jp/blog/archives/001996.html
http://www.oc.com.tw/article/0601/readocarticle.asp?id=4895

Conroeの突出した結果はこれだけでは説明できないと思いますが、
確かに低レイテンシなL2は一定の寄与をしていると考えられます。

Posted by: 通りすがられ at 2006年03月20日 22:53

>AMDは、K7世代までIntelがとってきた戦略と同じく、サーバ用途で稼ぎつつ、
個人向けでは泥沼の価格競争で相手を弱らせる戦略をとりたいんじゃないでしょうか。

AMDが、サーバーすべてを独占出来るわけじゃないでしょ。
少なくとも現状より食われる可能性が高い。
泥沼の価格競争で、相手を弱らせるつもりが自分のほうが弱ってしまう可能性だと思います。
そのようは手法は、自分のほうが体力が優れている場合に有効で、同じような例は米ソ冷戦での軍拡競争があります。
アメリカはソ連に軍拡競争を仕掛け、結果ソ連は疲弊し崩壊した。ソ連がアメリカに軍拡競争を仕掛けても無意味です、アメリカのほうが体力が大きいのですから。

AMDは、いくらサーバーで利益を上げようが、パソコン市場、特に自作市場で敗退すれば、終わりだと思いますね。

Posted by: 力の不近衛 at 2006年03月21日 08:47

自作市場におけるシェアはPCに関心の強いユーザーの目が集中
するため、大きくクローズアップされがちですが、PC全体に
おける自作市場の割合はかなり小さく、実際にはさしたる影響
はありません。

サーバー用途、特にAMDが得意とするスーパーコンピューティング
分野も、規模としては小さいですが利益率が非常に高い上に
企業イメージに与える影響が大きいため、CPUメーカー
としては可能な限り取りたい市場といえます。

こういった分野で重要視されるI/O関連ではIntelの拡張計画
は必ずしも順調ではなく、当面AMDが有利な状況は変わりません。　

ブレードサーバーではYonah/Meromベースの低消費電力Xeon
により、AMDにシェアを食われつつあった状況に歯止めが
かかるでしょうね。

いずれにせよ、もっとも重要なのはメーカーPC向けの出荷
だということです。
Intelが執拗なまでにこの分野での寡占にこだわっているのも
そのためです。

Posted by: 通りすがられ at 2006年03月21日 20:55

米デスクトップ市場における占有率では、自作PCは既に45%の割合を占めており無視できる存在ではない。自作予備軍のBOTのものを含めると純粋なメーカー製PCのシェアはデスクトップでは重要度が逆に低い。

高IPCのCPUを作るためには、ロジック部分で大きな差をつけるのは非常に難しい為、同時実行命令数を増やす（これも、Conroeが出るまでは無理なアプローチ方法と思われていた。）か、より近いメモリを使う方法が主流になる予想は既に出ていた。
クロックを伸ばすのが難しいのは、主にDTPの問題が大きいからだ、パイプラインを浅くすると一つの処理を行う為に必要なサイクルは短くなるが、稼働率が上がる為DTPは上がる。同時実行命令数を増やすことも、より近いメモリを使うことで稼働率を上げることもTDPにはマイナスの要因として働く。Netburst系で発熱の問題が出たのは、HTテクノロジー以降にIPCを上げるために同時実行命令数を増やした結果でそれ以前の物は、K8よりも発熱は少なかった。パイプラインが31ステージと深く、31サイクルもの間動いていない部分があるからだ。消費者がクロックよりも実際の性能を見て製品を購入するようになった為、低IPCで発熱を抑えながら動作クロックをあげるアプローチだったNB系は姿を消す。
k8系は、高IPCというアプローチの方法から常に熱との戦いだった。リビジョンアップにより克服してきている部分はあるとはいえ、90nmで出来たのはせいぜいSempronからTurionに変更できたことぐらい。より高いIPCを叩きだす為にL2を増量できるのは65nm以降になる。コストの問題もそうだがK8でL2が抑えられているのはTDPの問題もあるということです。K8のIPCは2MのL2を積むPentiumMよりも高い。キャッシュという言葉に疑問もあるがK8LではL3として大容量のメモリを搭載することをほのめかしている。実メモリで取り扱うよりCPUに近いメモリというイメージでしょうか。

Posted by: LΛRK at 2006年03月24日 01:18

> 米デスクトップ市場における占有率では、自作PCは既に
> 45%の割合を占めており無視できる存在ではない。自作
> 予備軍のBOTのものを含めると純粋なメーカー製PCの
> シェアはデスクトップでは重要度が逆に低い。

その米国ではノートPCの販売台数がデスクトップPCの販売台数を
抜いたことが報道されていますがご存知でしたか？：
http://odds.mond.jp/blog/archives/2005/06/post_198.html

従って自作市場の割合はコンシューマ市場の20%程度に過ぎず、
かつその販売台数が伸びたわけでなく、メーカー製デスク
トップPCの販売台数が落ち込んでいるためにシェアが
上がって見えるに過ぎません。

Conroeでの同時命令実効数増加のアプローチはこれまで実装
例がないといった目新しいものではなく、K8やBaniasで採用
済みのものの拡張版に過ぎません。
これは特定条件下での効率向上にのみ寄与するであろうという
ことは、既に各所で解説されています。

また、長くなるので割愛しますが、パイプライン処理について
根本的に勘違いをなさっているようです（パイプライン長と
命令実行サイクルの関係、Netburstにおける長大パイプ
ラインがなぜ問題視されているのか、など）。

Posted by: 通りすがられ at 2006年03月25日 11:43

確かパイプラインってのは…

「あれもこれも何でも良いからデータを流せ～」
ってやつで、パイプラインが深いと
「よっしゃガンガン行け行け～」って調子に乗っている間は高速だけど、
「やば、なんだか間違えちゃった、てへっ」ってなると、パイプラインにある全ての命令を一度キャンセルして、再度やり直すから極端に遅くなるという話だったような？

Pen4の32段パイプラインとなると、行け行けでは32命令を詰め込んで16段の倍速だけど、分岐があったりすると詰め込んでいた処理をやり直すから、16段の倍以上時間がかかるという感じになったはず。

HyperThreadingは、パイプライン数が多くなっても殆ど埋まらないという事実があるということで、そのあいているパイプラインに全く別の命令を放り込もうという技術だった記憶が。
ただし、命令分岐などの複雑な処理があまりに大量に発生する場合、パイプラインをリセットさせることがあまりに多くなりすぎるために、速度が大幅に落ちるんじゃなかったかな、確か（Pen4でVirtualPCを使うとか)。

それと、仮に全ての命令で処理完了まで4クロックかかるなら、どのパイプラインに入っていても命令は4クロックかかり、何段というのは最初の命令が終了するまでに入れられる命令数だった記憶があるんですが、ここは正しいですか？

ただ、技術的にパイプラインが増えれば、高クロック化しやすい理由はわからないんですが…ひょっとしてuOPでより簡単な命令に分解できて、実行ユニットを簡素化出来るからかな？

という認識で、確か、パイプラインが深くても、命令の実行速度は変化がないはずです。
ただ、深くすればするほど山が高くなり谷が深くなるという感じでしょう、多分。

Conroe、半導体技術から見れば目新しい機能はないようですね。
intelのことだから、何か隠し球があるような気がしてならないのですが…

Posted by: KA at 2006年03月25日 12:06

分岐予測についてはConroeはこれまでにない意欲的な拡張が
なされており、これが性能向上に寄与している可能性が高いと
考えられます。

・・・と何度か書いてるのですが、そのたびに不思議な解釈で
珍説を展開する御仁が光臨されるので＾＾；

情報の少ない現時点でこれが高性能に寄与すると断言するのは
無理があるかもしれません。

が、Netburstの高クロック戦略も結局は分岐予測精度が
十分でないが為に実性能が伸びなかったことは再三指摘
されており、おそらく間違いないことと考えています。

繰り返しますが同時命令実行命令数の多少の増加やL2の倍増
程度でConroeの性能を説明することは出来ません。

Posted by: 通りすがられ at 2006年03月27日 00:16

Conroeに入った分岐予測はそこそこよさそうなものですね
失敗が連続したら分岐予測をやめるものが入ったとありましたが
PC用の物ではループして計算するだけの場所と判定と計算が混ざってる場所が幾つかある場合があるので
判定を大量に行ってるところでうまく切れているなら性能は多少向上してるでしょう
分岐予測というのは、対応したパターンで分岐処理をおいていかないとならないので、コンパイラである程度最適化でき対応も楽ですが、今の状態ではそれ程性能向上に寄与してないでしょう
分岐OFF機能が本当に入っているなら、そちらは現状でもある程度の性能向上は見込めますが

NetBurstの場合は分岐自体より、大量の分岐があるところで行われる大量のショートジャンプによってストールしてる方が問題だと思います

ですが、性能向上に寄与しているのはL2やメモリアクセス関連だと思います
メモリアクセス関連の命令は非常に多いので
あとは、ゲームのスコアが真っ先に出されたので、FPU強化による割り算や超越関数が早くなってたりするとすごいスコアアップになるとは思いますが・・

Posted by: Nameless at 2006年03月27日 11:08

これも既に何度も書いてますが、メモリ帯域とL2容量の効果に
ついては、BaniasとDothanとの比較が良い例です:
http://pcweb.mycom.co.jp/special/2004/dothan/

このように多くの実アプリ系ベンチではL2およびメモリ帯域の
効果はごく限定されたものといえます。

ちなみにCoreの分岐予測機能はご指摘の改善だけでなく、
アクセスパターン解析まで行うメモリプリフェッチなど、
全部で8つのメカニズムが搭載されており、やはり大幅に拡張
されているといっていいでしょう：
http://pcweb.mycom.co.jp/articles/2006/03/11/idf3/006.html

ただ、「分岐」予測と書いたのは不適切でしたね。
プリフェッチ等の「予測」して動作するメカニズムが、これまでの
CPUに対し大幅に拡張されているのがCoreアーキテクチャと
いうことがいいたかったわけです。

> NetBurstの場合は分岐自体より、大量の分岐があるところ
> で行われる大量のショートジャンプによってストール
> してる方が問題だと思います

「分岐予測失敗により発生したストールによるペナルティ」の
解決策は何でしょう？
「分岐予測精度の向上」ですよね？
すなわち、ご指摘のペナルティを改善するには分岐予測精度
向上が最善の手段なわけです＾＾；

別に「大量の分岐予測」によるストールなど発生しなくても
たった1つのストールが発生でメインメモリへのアクセスが
必要になっただけで100CPUクロック以上に相当するストール
が生じますね。
このようにメインメモリへのアクセスはCPUやに対して非常に
「遅い」ため、多少帯域やレイテンシが改善しても効果は
極めて限定されたものとなります。

またL2容量アップによるヒット率の向上効果も容量が上がるに
つれて薄くなります（これも何度も書いてますが）。

以上のL2容量とメインメモリ帯域の速度向上効果が限定された
ものである、という見解については冒頭に示したBaniasと
Dothanの比較ベンチが何よりの例でしょう。

Posted by: 通りすがられ at 2006年03月27日 21:06

よくわからないのが、L2の容量を増やす効果が低いのに容量を増やす傾向にあることです。今までと同じ使い方をするのであれば効果が薄いと言われるのも分かるのですが。
どうにも気になって仕方が無い。CPUに同梱するメモリという意味で性能の向上率と搭載量が、正比例にあがる方法はないということだとよくわからない部分があるもので。初めは8MBのメモリを搭載することも考えていたようですし、8MBといえば10年前のノートならメインメモリ相当ですしキャッシュだけに使うのでしょうか？

効果の薄い大容量のメモリを搭載するよりも、メモリのサイズを小さく抑えてダイを小さくすることや、常に稼動して発熱するメモリを減らすほうがノート向けのMerom系では有効なはずですが、実際にはデスクトップ向けのConroeでは上位２モデルが4MBでMeromでは下位の１モデルだけが2MBのL2となっている。命令の実行速度を速くすれば熱の問題は早く解決される、といいうのがイスラエルチームの主張ですよね。2MBだとやはり相当遅くなるんじゃないでしょうか。5%以下の性能差に対してメリットは薄いように感じるのです。

Posted by: LΛRK at 2006年03月29日 15:36

> よくわからないのが、L2の容量を増やす効果が低いのに
> 容量を増やす傾向にあることです。

ようやく、この質問が出ましたね＾＾；

現在のCPUの大容量L2キャッシュ搭載は速度性能向上以外に
熱密度の緩和という目的が大きいと考えられます。

これはキャッシュを構成するSRAMがロジックを構成する
高速トランジスタと比較して、熱密度、すなわち単位面積
あたりの発熱量が非常に小さいためです。

熱密度は発熱量自体より冷却への影響が大きく、発熱がいくら
小さくても熱密度が高すぎると冷却が間に合わないという
問題が発生し、非常に重要な問題となってきています。

その為、熱密度の小さいL2キャッシュを多量に搭載することで、
熱密度を「薄める」ことが有効な対策として浮上してきたのです。

Banias以降ConroeまでのIntelイスラエルチーム開発のコアは
ロジックとL2の面積比率がおよそ半分ずつで構成されています。

このことと、半導体プロセスの進歩の一方で冷却技術の限界が
さほど向上していないことから、各世代のキャッシュ容量は
単純に性能向上のためでなく熱密度の制約上この程度の比率
構成とする必要があって決められたと考えられます。

なお当然ながら熱密度の制約はモバイル用でより深刻です。
従ってむしろモバイル用の方が大容量を積むメリットが大きいと
いえるでしょう。

一方で増量による消費電力増大は、プロセス改良による消費電力
そのものの低減、キャッシュを分割してスリープ可能にするなどの
省電力制御の改良といった手法で相殺されていますね。

このように、大容量L2キャッシュの搭載は性能向上だけでなく、
むしろそれ以上に熱密度の緩和が目的となってきているのが実情です。

現在伝わっているConroeのアーキテクチャは、何度も書いていますが
基本的にはあくまで既存アーキテクチャの改良にとどまっています。

従って、キャッシュ容量増加による効果が既存CPUから推察される
範囲を大きく逸脱するほど高いものになると考えるのは無理が
あるでしょう。

一方で分岐予測・メモリプリフェッチ等大幅改良された部分との
相乗効果で、これまでにない高い効果を生んでいる可能性はあり
ます。

しかし、少なくとも、「AMD次世代コアはL2キャッシュが増量
されるから同程度の性能を発揮するのではないか」という期待は、
それ以外の大幅な改良が予定されていない以上、可能性は
低いと考えられます。

Posted by: 通りすがられ at 2006年03月29日 21:29

熱密度を下げる為だけならL2の２Mを殺してもクーラーとしての役割を考えれば、より冷えてる領域があったほうが熱の移動は起こりやすいと思いますが。このあたりは動的に制御されてるということですね。

ダイサイズが小さくなるのも限界に近いのですかね。ヒートスプレッダとしての領域がCPUダイの上に出来たりして、総合的な発熱量よりも局所的な熱によって溶けてしまうということですね。Conroeの2Mモデルが多いのは、歩留まり向上の為なのかな？

CPUに搭載するメモリの大容量化の手法として、キャッシュだけでなく、バッファとして使う方法と同じ面積を占める場合どちらが有効なのでしょう。メインメモリのレイテンシーの増加などの要因もあり、ある容量を境にバッファとしても使うほうが高速化に寄与すると思うのですが。特にIntelは、メモリコントローラーがチップセットにあることからメインメモリのアクセス速度でAMDに比べて不利だといわれてますよね。PCMark04のメモリの結果がDothanと比べても20%少し良いですし。

メモリプリフェッチの改良等の要因なら、性能のバラツキが多少出てもよさそうなものですが、安定して色んなプログラムで性能が向上してるのも不気味です。ゲームであれだけの差を生むほどの改良なら、エンコではもっと差が出てもよさそうなものですが、ゲームのほうが差が大きいですし、クロックの差があるのでエンコのほうが差がつきにくいにしてもよくわからないところです。

Dothanでもこの部分の改良はされてるみたいですけど、全方位的に性能が向上してるわけではなさそうなので。同じテストが無いのであれですが、Dothanは、Prescottに対して10%ほど同じクロックであれば高速で、今回のテストではK8に対して16%ほど高速なようですが、Prescottに対してK8は5%ほどエンコ性能は低いのでそれほどDothanと変わらないのでは？ゲームの予測のほうが得意なのでしょうか。

Posted by: LΛRK at 2006年03月30日 16:25

> CPUに搭載するメモリの大容量化の手法として、キャッシュ
> だけでなく、バッファとして使う方法と同じ面積を占める
> 場合どちらが有効なのでしょう。
一般的に「キャッシュ」と「バッファ」が意味する機能は
同じだと思いますが、その違いはなんでしょう？＾＾；

> メモリプリフェッチの改良等の要因なら、性能のバラツキが
> 多少出てもよさそうなものですが、安定して色んなプログラム
>で性能が向上してるのも不気味です。

メモリプリフェッチが強力ということは、簡単に言えば非常に
広大なキャッシュ（あるいは非常に高速なメインメモリ）
を持っているようなものです。

これに強力な分岐予測が加われば、あらゆる用途でパイプラインの
ストールが置きにくくなり、常に高効率な実行状態を維持できる
ことになります。

ベースアーキテクチャは成熟した技術の集大成ですから、上記との
相乗効果で偏りなく高い性能を発揮できる可能性は高いでしょう。

> ゲームであれだけの差を生むほどの改良なら、エンコではもっと
> 差が出てもよさそうなものですが、ゲームのほうが差が大きいですし、

ゲームとエンコードの違いを端的に述べるなら、条件分岐が多いのが
ゲーム、演算量が多いのがエンコードということになるでしょう。

従って、ゲームで効果が高いこともまたプリフェッチ機能強化を裏付ける
現象といえますね。

> Dothanでもこの部分の改良はされてるみたいですけど、全方位的に性能が
> 向上してるわけではなさそうなので。同じテストが無いのであれですが、
> Dothanは、Prescottに対して10%ほど同じクロックであれば高速で、今回の
> テストではK8に対して16%ほど高速なようですが、Prescottに対してK8は
> 5%ほどエンコ性能は低いのでそれほどDothanと変わらないのでは？ゲームの
> 予測のほうが得意なのでしょうか。

上記の比較にはいくつか矛盾した箇所がありますね＾＾；

PrescottとDothanの比較、及びConroeとK8（今回のテスト、というのはこういう
意味ですよね？＾＾；）については同クロックで比べていますね。

それなのに、PrescottとK8の比較になるといきなりクロックが変わってしまって
ますね。PrescottとK8が同クロック比較して5%の性能差ということは無いでしょうから。
さらにPrescottとDothanの同クロック性能差が5%程度しかないというのも
ちょっとおかしいのでは？

Prescottを介してのK8とDothanの比較を考えておられるようですが、上の比較で
は正当な比較ができているとは思えません＾＾；

それほどややこしい比較をしなくても、またDothanまで戻らなくても既に本
blogでYonahとAthlon FXの比較の話が出ています：

http://nueda.main.jp/blog/archives/001996.html
http://www.oc.com.tw/article/0601/readocarticle.asp?id=4894

こちらを見ると多くのテストでYonahとFX60はほぼ同程度の性能ですが、
Yonahの方はベースクロックがOCされているので、実際はややFX60が有利と
いうところでしょう。

従って、今回のConroeとFXの比較結果はすなわちYonahからConroeへの
進化の程度を示しているともいえます。

Posted by: 通りすがられ at 2006年03月30日 23:47

キャッシュはバッファの狭義の定義と理解してますが。

容量の小さなメモリに、予測により良く使うであろうものを選択して置くことにより、単純にバッファしていくよりも効率よく使うという意味でしょうか。プリフェッチ量を増やしていくとキャッシュしたものを蹴りだしてしまうことがあるそうで、容量が大きくなれば現在キャッシュされているものを生かしたままL2にバッファしていくことが出来ると思うのですが。次の命令の準備が進むことで同時実行命令数を増やしたというのはこういうことじゃないでしょうか。

現在キャッシされているものよりも確実に次に使われる命令を先読みする精度をL2が同じ容量でも上げられるのでしょうか。現行CPUでもキャッシュのヒット率は90%ほどあるということですが。

エンコ比較では、低容量L2ではプリフェッチの効果は、ストリーミング系のほうが顕著に出ると思ったのですが、キャッシュの再利用率が低いからです。この分野では既に頭打ちなのですかね。少し言葉足らずですが、全て同クロック換算にしてあります。またDothanとPrescottの差は同クロックで10%と書いています。

まだ気になる点はあります。L2が２MのConroeでモデルナンバーがひとつあがる毎に0.27Ghz周波数が必要なのに対してL2が4MのモデルではMeromを含めて0.16Ghz刻みになっている点、これがクロック当たりの性能比そのものとは言えませんが結構な差があるもので。

Posted by: LΛRK at 2006年03月31日 04:44

>プリフェッチ量を増やしていくとキャッシュしたものを蹴りだしてしまうことが
>あるそうで

それはキャッシュ容量に対してどれだけプリフェッチするか制御すれば良いだけの
ことですね＾＾；
また通常の使用用途でそこまで頻繁にプリフェッチが生じること
自体が考えにくいです。

L2ヒット率が90%というのはかなり低く、256～512kBレベルです。
これが2MBになることで95%程度まで上がりますがそれ以上の容量ではほとんど
頭打ちになってきます。

ヒット率で書くと大した差に感じられないですが、ミスヒット率10%と5%と書けば
実アクセス時間では2ケタ近く遅いメインメモリへのアクセスが発生し、実行速度
が大きく落ちる頻度が頻度が倍半分違うわけで、速度への影響が理解できるでしょう。

> 現在キャッシュされているものよりも確実に次に使われる命令を先読みする精度を
> L2が同じ容量でも上げられるのでしょうか

まさにそのための技術がプリフェッチなのですが＾＾；

メモリへのアクセスにはごく一部のデータが集中的に使われる、局在性という特徴が
あります。この特性があるために少ない容量のキャッシュで大きなメモリ空間を
カバーできるわけですが、やはり残りの多量のデータにもアクセスする機会がわずか
ながらもあります。

実行効率を高めるにはこれをいかに減らすかが重要になりますが、局在性の裏返しで
単純に容量でカバーしようとすると膨大な容量が必要になります。
経済性・低レイテンシの維持などの点でその実現は困難です。

そこでプリフェッチによる動的な取り込みが現実的になってくるわけです。

エンコードの場合はデータの局在性が低いため、キャッシュの効果が出にくいのだと
考えられます。

> 少し言葉足らずですが、全て同クロック換算にしてあります。またDothanと
> Prescottの差は同クロックで10%と書いています。
この辺りを見ると、DothanとPrescott、あるいはAthlon64とPrescottの同クロック
性能差がその程度とは思えませんが・・・：
http://pc.watch.impress.co.jp/docs/2004/1116/tawada37.htm
http://pcweb.mycom.co.jp/special/2004/dothan/

それ以前に、クロックが大きく異なるCPU同士を換算して同クロック比較しようとする
場合、FSBやメモリなど、周辺機器の影響も同時に考えなくてはならないので相当に
困難が伴います。
現実的には無理と考えたほうが良いでしょう。

Posted by: 通りすがられ at 2006年03月31日 07:59

すでにトップページから外れた子の記事に延々とコメントを
繰り返すのも不毛な気がするので＾＾；最後に一言

失礼ながら個人的見解を述べさせていただくと、CPUアーキ
テクチャを論じるには知識がやや十分でない方が多いように
感じます＾＾；

無論一般の方がそれを詳しく知る必要も義務もありません。

しかし、それで議論をするのであれば最低限基礎的な知識を
身につけた上で参加された方がよろしいでしょう。

スーパースカラ、パイプラインといった現代CPUアーキテクチャ
の基礎的手法については、出版社系商業サイトの用語解説で
概要を理解されるとよいでしょう。
またWikipediaの「コンピュータ関連のスタブ項目」も参考に
なります：
http://ja.wikipedia.org/wiki/Category:%E3%82%B3%E3%83%B3%E3%83%94%E3%83%A5%E3%83%BC%E3%82%BF%E9%96%A2%E9%80%A3%E3%81%AE%E3%82%B9%E3%82%BF%E3%83%96%E9%A0%85%E7%9B%AE

これらの技術が最新のCPUでどのように利用されているかに
ついては、やはりPC WATCH連載「後藤弘茂のWeekly海外ニュース」：

http://pc.watch.impress.co.jp/docs/article/backno/kaigai.htm

が良いでしょう。

さらにMYCOM PC WEBは上記と同じような最新CPUの技術動向
のほか、ベンチマークによる比較レビューも豊富なので、
実際の性能差を議論する基礎データとしてよいでしょう。

今後は、より本質的な議論ができることを期待しています。

Posted by: 通りすがられ at 2006年04月01日 12:27

>またFPUの強化は効果が得られるのは一部の用途に限られます。

今のベンチマークってだいたいFPUに左右されると
思います。3Dゲームにしろ動画エンコードにしろ。
K8Lは私は強力なものになると思いますね、比較レビュー
が豊富になるかは分かりませんが。
分岐予測は伝統的にAMDのほうがintelより真面目でした
けど今回はintelも頑張りましたね。

Posted by: tomas at 2006年04月21日 02:18

> 今のベンチマークってだいたいFPUに左右されると
> 思います。3Dゲームにしろ動画エンコードにしろ。

まず、そのような実アプリ系ベンチにおいては、CPU性能の
影響が少なく、CPUの多少の改善がベンチ結果を左右する
ほどの差を生まない、という事実を考慮する必要があります
（それだけにConroeの結果は脅威的なのですが）。

それは別として、まずゲームアプリ系では整数演算に優れる
Athlon64系が浮動小数点演算の速いPen4系を凌駕している
事実から、むしろ整数演算系の方が重要と考えられます。

一方のエンコード系では依然P4系が有利なことから、確かに
浮動小数点演算性能の影響が大きいといえるでしょう。

ただ、繰り返しますがFPUの改良といった純然たる演算性能
向上によって得られる効果は僅かで、その割には実装コスト
が大きい（回路規模が大きくなる）ので、コストや消費電力
への悪影響を考慮すると、個人的にはあまり得策ではないと
考えます。

Posted by: 通りすがられ at 2006年04月30日 20:43

コメントする
(書込時に「、」か「。」が必要です。内容によっては削除しますので、ご了承ください)