『sandybridge』 の クチコミ掲示板

 >  >  > クチコミ掲示板
クチコミ掲示板 > パソコン > CPU > すべて

『sandybridge』 のクチコミ掲示板

RSS


「CPU」のクチコミ掲示板に
CPUを新規書き込みCPUをヘルプ付 新規書き込み



ナイスクチコミ4

返信16

お気に入りに追加

標準

sandybridge

2010/09/14 17:27(1年以上前)


CPU

http://pc.nikkeibp.co.jp/article/news/20100914/1027455/?f=news

http://www.realworldtech.com/page.cfm?ArticleID=RWT082610181333

GPU統合やリングバス等については置いといて、マイクロアーキテクチャに関しては特にフロントエンドで思っていた以上の拡張だった。

実行ユニットの拡張
Westmere
Port0 ALU/SSE/128BitFmul
Port1 ALU/SSE/128BitFadd
Port5 ALU/SSE/128BitFPshuffle
Port2 load address
Port3 store address
Port4 store data

sandybridge
Port0 ALU/SSE/AVX/256BitFmul
Port1 ALU/SSE/AVX/256BitFadd
Port5 ALU/SSE/AVX/256BitFPshuffle
Port2 load/store address
Port3 load/store address
Port4 store data

フロントエンド
1.5KμOPsキャッシュ!(Westmere=28μOPs)
多くのアプリケーションで最大80%のヒット率を得られるという。
μOPsキャッシュから読み込むと、デコード帯域の2倍が得られる。

分岐予測機構の強化
ROB,RS,L/Sbufferの大幅増

sandybridge/Westmere
ROB 168/128
RS 54/36
store buffer 32/36
load buffer 64/48

L/S帯域の増加
32Byte→48Byte
load*2+store1が1サイクルで可能になる。

sandybridge/Westmere/K10/bulldozer
ROB 168/128/72/160
RS 54/36/int24+FP36/int40+FP60
store buffer 32/36/44/24
load buffer 64/48/44/40
デコーダー数 4/4/3/4(2コアで共有)
パイプライン本数4/4/3/4(2コアで共有)
ROB 168/128/72/160
RS 54/36/int24+FP36/int40+FP60
ALU数 3/3/3/2
FPUBit数 512/256/256/512(2コアで共有)
L/S帯域 384/256/256/512(2コア分)


書込番号:11909175

ナイスクチコミ!1


返信する
ZUULさん
クチコミ投稿数:6937件Goodアンサー獲得:746件

2010/09/14 19:22(1年以上前)

日経の記事はマトモだよ。
32ナノプロセスを生かした高集積だから
注目度が高い順に
◎◎◎シングルチップでビデオ混載(Clarkdaleのやり残し)
◎◎集積ビデオの高性能化
◎◎サーバの低消費電力化
◎デスクトップはさらなる小型化・省電力
それはそうだろうと、WW流れはエコだし。
ついでの話が
○デスクトップの性能アップ
○産業アプリケーション

書込番号:11909603

ナイスクチコミ!1


クチコミ投稿数:229件

2010/09/14 20:09(1年以上前)

アーキテクチャ解説がアナンドでやってるね。

http://www.anandtech.com/show/3922/intels-sandy-bridge-architecture-exposed

あとは後藤氏や大原氏の解説を待ちか。

書込番号:11909779

ナイスクチコミ!1


ZUULさん
クチコミ投稿数:6937件Goodアンサー獲得:746件

2010/09/14 22:35(1年以上前)

anandtech - Final Words
The CPU architecture itself doesn’t look too revolutionary.
アーキテクチャは革命的にはみえないと。

GPU performance is clearly an important Sandy Bridge feature...
GPU性能アップは大きいと。ここを強調してる。
これ以外の解説は付け足しだね。anandtechはそんな書きっぷり。
インテルはクレバーなメーカだから総花的な味付けをしならがら
世界の時流を読んだモノ作りとマーケティングをやってますよ。

モバイルユーザと省エネ志向のユーザは幸せになれるでしょう。
冷房含めて電気代が気になるデータセンタも喜ぶ。

書込番号:11910652

ナイスクチコミ!0


クチコミ投稿数:229件

2010/09/14 23:09(1年以上前)

http://pc.nikkeibp.co.jp/article/news/20100914/1027467/?f=build

>コアの場合で最大192GB/秒、2コアの場合で最大384GB/秒でコアとLLC間の転送が可能になる。

これは逆だね。
4コアで384GB/s,2コアで192GB/s。

細かいところだと、L1iキャッシュは連想度が4から8に再び戻された。
ADC命令のスループット改善が図れている。
micro&MacroFusionの改良もされていると思うが、そのうち判るかな。

書込番号:11910870

ナイスクチコミ!0


| さん
クチコミ投稿数:1376件Goodアンサー獲得:179件

2010/09/15 18:45(1年以上前)

物理レジスタファイルとリネーム表でリネームを行うのはBulldozerと共通ですか。

>1.5KμOPsキャッシュ
LSDとか言うやつですね。むしろPen4のL1Iに近い役回りになってますが。
でもトレースキャッシュではないと。
ループは大体収まって、ヒットするんでしょうね。

しかしロード/ストアが段々K10に近づいてる気が…w

書込番号:11914506

ナイスクチコミ!0


クチコミ投稿数:229件

2010/09/15 23:51(1年以上前)

>LSDとか言うやつですね。むしろPen4のL1Iに近い役回りになってますが。
でもトレースキャッシュではないと。
ループは大体収まって、ヒットするんでしょうね。

LSDは元々はデコーダーの前にあって、デコーダーへの命令供給のための18段のプリデコードバッファを活用していた。
Nehalemでデコーダー後のμOPバッファーを拡張して移動させた。

それまでのSLDは、既存のユニットを拡張して有効利用しようという程度の発想の機能だったと思われます。

ですが、今回は1500μOPという桁違いの容量なので発想がまるで違うでしょう。

アナンドが言ってるとおり、それこそ手当たり次第取り込んで再利用するでしょうね。
また、6KBと言ってますが、もっとあるんではないかと想像します。

Pentium4の実行トレースキャッシュは12000命令ですが、命令粒度やmicro&macro-fusionが使われていること考えると、Pnetium4の実行トレースキャッシュの20-25%程度に相当するんじゃないでしょうか?

個人的にはLSDの拡張は予想していましたが、1500μOPは予想外でした。
あと触れられていませんが、Macrofusionに面白い拡張があると言われていますね。

>しかしロード/ストアが段々K10に近づいてる気が…w

sandybridgeをK10を超えてますよ。

K10のロードストア帯域自体はCore i7と同等です。

違うのは1ロード1ストア以外に、2ロードがあるということ。
ストア帯域をロードと排他にして実現しています。

K10では2ロード1ストアという転送はできませんからね。

書込番号:11916595

ナイスクチコミ!0


クチコミ投稿数:229件

2010/09/17 18:16(1年以上前)

後藤氏のアーキテクチャ解説きたね。

これから数回の解説があるだろうから注目ですね。

http://pc.watch.impress.co.jp/docs/column/kaigai/20100917_394622.html

個人的な感想ではSandy Bridgeのアーキテクチャが予想以上に大きかったなと。
Sandy Bridgeはコア面積が7%程度のサイズアップだったために、AVXと小改良程度だと思っていたら、1.5KµOPsキャッシュとROB,RSの大幅揩ナしたから。

ちなみに初代PenProから比較するとP6ベースの拡張といってもずいぶん大幅な拡張なんだね。

Pentium PRO/Conroe/Westmere/sandybridge
ROB 40/96/128/168/
RS 20/32/36/54/
store buffer 12/20/32/36/
load buffer 16/32/48/64/

後藤氏が言う通り分岐予測器でフェッチしてデコードを行ったものを、さらにキャッシュする構造ならヒットした場合、デコーダーでボトルネックになるケースが無くなり、高いIPCが期待できるでしょう。

また、1.5KµOPsキャッシュにヒットしない状況であっても、Pen4の時のような1基のデコーダーでチマチマデコードするのではなく、今まで通り4基のデコーダーで高速に行えるので、Pen4の時みたく”トレースキャッシュにヒットしない場合、性能がガタ落ちする”現象が起きにくいでしょう。

書込番号:11924391

ナイスクチコミ!0


きこりさん
クチコミ投稿数:27825件Goodアンサー獲得:646件

2010/09/17 19:20(1年以上前)

リソースを増強して速くなった。
自明の大した話では無いな。
期待させる製品だけど。


リングバスはどうなっているのだろう。
ネハレムで実装したリングバスと同じなのかな。

書込番号:11924640

ナイスクチコミ!0


ぺんpenさん
クチコミ投稿数:15件

2010/09/17 22:41(1年以上前)

発売予定日は、2011年1月9日になるみたいですね。


http://northwood.blog60.fc2.com/blog-entry-4172.html

書込番号:11925699

ナイスクチコミ!1


クチコミ投稿数:229件

2010/09/19 17:57(1年以上前)

物理レジスターファイル

内部アーキテクチャについては仕上げの投稿になりそうですが、レジスターリネーム機構ので変更が大きいでしょうか。

これについてはプロライターの安藤氏の解説があります。

http://www.geocities.jp/andosprocinfo/wadai10/20100918.htm

物理レジスターは128Bitから256Bitへの倍増に加え本数も増えていることから、相当のトランジスタ数増加になるでしょう。
確かにSandy Bridgeのダイには物理レジスターと思われる部分の拡張が見られますね(添付画像参照)。

後気になる点としては、VI ADDが1ポートになってること。

従来はベクトル整数乗算1命令とベクトル整数加算2命令が同時実行できたので、これはマイナスになる。
ただ、Intelの場合、結構間違いもあるので、Port5でもVIADDが実行できるのかもしれない。

書込番号:11934978

ナイスクチコミ!0


クチコミ投稿数:229件

2010/09/27 23:16(1年以上前)

L1iキャッシュ

リングストップ

http://www.realworldtech.com/page.cfm?ArticleID=RWT091810191937

俺が一番期待していたサイトのSandy Bridgeレポートが上がってきた。

記事で面白いのは
1)1.5K microOPsキャッシュがL1iキャッシュに含まれていること。
これに関しては、納得できる部分もある。
なぜなら添付画像で判るように、Sandy BridgeのL1iキャッシュがWestmereより大きいこと。
俺は最初、連想度が8Wayになったせいだと思っていたが、含まれたとすれば、納得できる。

6KBは少ないように思えるが、UOPが再定義されてコンパクト化されたとか理由つければありえない事はないかもしれない。
あるサイトによれば、1500UOPは48KBに相当するなんて言ってるけど、どこ探してもそんな容量のブロックは見当たりませんね。
L1iキャッシュに含まれていないにしても、UOPは相当にコンパクト化されていると思って間違いないでしょう。

2)フィジカルレジスタファイル方式はnetburst由来であること。
これと、microOPsキャッシュなどの技術がフィードバックされったってことは、P6アーキテクチャは優秀でだけれども古臭い部分もあったって事でしょう。
netburstに取り入れられた、新しく良い部分がブラッシュアップされてP6アーキテクチャと融合し、生まれ変わったと。
で、もはや全然P6アーキテクチャじゃなくなってるんだけど、P6アーキテクチャの延長と言われ続けるんだろうなあ。

アナンドに言わせると革新的じゃないみたいだしw

3) LEAが2ポート発行になった。
4)SIMDALUが2ポート発行であること。
つまり
>後気になる点としては、VI ADDが1ポートになってること。
この疑問に関して、2ポート発行できるんだよって事が判明したこと。
恐らく、実機でコード走らせて分かったことだろうから、間違いないと思われる。
大体、1ポートに減らしたらSSEアプリケーションの打撃が大きいですからね。
その他いくつかの整数命令のスループットが改善。

書込番号:11979508

ナイスクチコミ!0


クチコミ投稿数:229件

2010/09/27 23:39(1年以上前)

bulldozer(右端)

Llanoとの比較

今度は視点を変えてAMDのbulldozerの話。
AMDの出したダイ写真を見る限りbulldozerはかなり大きい。
私の試算では320mm2程度。

添付画像で想定されるbulldozerのコアを比較した。
bulldozerはこのコアプラス共有L3キャッシュも加わるので大きくなるのだろう。

4M8Cでのこのサイズは想定してよりでかい。
Sundaybridge6コアでもGPUカットして2コア繋げれば250mm2程度、8コアでも250mm2+60α程度(Sundaybridgeの1コア+L3 29.5mm2)で作れるのにです。

AMDがインチキな写真を公開したのでなければ、とても競合に勝てるような製品には思えないのだが。

遊び程度に性能比較をしてみた。

マルチスレッド時のパフォーマンス
基本IPC(K10を1とした場合)*SMP時のスレッドあたりIPC(倍)*Thread*クロック周波数
K10 6C 1*6T*3.2GHz=19.2
Bull 4M8C(0.8) 0.95*0.8*8T*4.5GHz=27.36
Bull 4M8C(0.9) 0.95*0.9*8T*4.5GHz=30.78

Nehalem 6C 1.15*0.6*12T*3.73GHz=30.88
Nehalem 4C 1.15*0.6*8T*3.2GHz=17.7
sandybridge 4C 1.3*0.6*8T*3.7GHz=23.1
sandybridge 6C 1.3*0.6*12T*3.6GHz=33.7

ただし、倍増したFPUがフル稼働した場合、この数値はさらにデカくなると思う。

bulldozerもsandybridgeもFPUが働くかどうかが前世代製品との大きな差が生まれる部分だろう。
特にbulldozerはXOPという積和算が使われないと真価が発揮できないが、これはIntelも後にFMA拡張を行うつもりなので、使われないまま終わってしまうかもしれない。

書込番号:11979647

ナイスクチコミ!0


クチコミ投稿数:229件

2010/10/05 17:08(1年以上前)

で、P6アーキテクチャで採用されてきた、別個のリタイアメントレジスターファイルが廃止されたことは事実上のP6系アーキテクチャの完全離脱を意味するでしょう。

P6アーキテクチャとは何ぞやと言われれば、ダイナミック・エグゼキューションに行き着きますが、Core2でもワイド・ダイナミック・エグゼキューションという名前の通り、ワイド化されただけで、基本構造は変わりなかった。

今回の sandybridgeはP6スケジューラーから逸脱し、netBurst方式に移行したことでP6系では無くなった。

とは言えnetBurstでもないが、発想はnetBurstに近い。
高クロック志向ではなく高IPC型のnetBurstというべきか。

http://journal.mycom.co.jp/articles/2010/09/27/idf001/001.html

http://journal.mycom.co.jp/articles/2010/10/04/idf002/index.html

http://pc.watch.impress.co.jp/docs/column/kaigai/20100922_395394.html

後藤記事で個人的な疑問が少しあるのだが、256Bit命令をハイとローで実行するのは判る。
データロードは2回に分けて転送されるから、そのまま2分割で2ユニットに送り込むは理にかなう。

ただ、整数とFPの演算ユニットを共有しているというのはいささか疑問がある。
比較的回路規模の大きい整数乗算器は判るにしても、回路規模の小さい整数加算器までFP加算器を共有するか?ということ。
整数加算器なんて、通常は整数ALUとして、論理やシフターなどと纏められて勘定される程度のものだ。
また、ベクトル整数加算は2ポート発行可能だから、当然2組必要だ。
したがって、FP加算器と同じポートを使っている整数加算器はFP加算器と共有できても、別ポートの整数加算器は別に持つ必要がある。

また、今まではx86整数乗算器とベクトル整数乗算器を共有していたが、発行ポートが別になったため不可能になった(同時使用が想定されるため)。

基本的な話として、FP乗算器は整数乗算器とは比較にならないほど大きいが、2基の巨大な128BitFP乗算器の片側をベクトル整数乗算器として使うとしたら、削減効果としてベクトル整数乗算器を削れたという話だろう。

したがって、Intelの説明はSIMD整数のデータパスを使って256Bitのデータパスを実現しているという説明であって、必ずしも実行ユニットまでの共有を意味していうわけではないと思う。


書込番号:12015328

ナイスクチコミ!0


| さん
クチコミ投稿数:1376件Goodアンサー獲得:179件

2010/10/05 18:03(1年以上前)

>Intelの説明はSIMD整数のデータパスを使って256Bitのデータパスを実現しているという説明であって
http://www.geocities.jp/andosprocinfo/wadai10/20101002.htm

書込番号:12015527

ナイスクチコミ!0


クチコミ投稿数:229件

2010/10/10 03:04(1年以上前)

乗算器について補足説明すると

Port0
128BitFPMul
128BitIntMul
Port1
128BitFPAdd
128BitIntAdd
Port5
128BitIntAdd

だったのが

Port0
128BitFPMul
128BitFP/IntMul
Port1
128BitFPAdd
128BitFP/IntAdd?
Port5
128BitIntAdd
ということだろう。

おなじポートに繋がったFPを二つ使えば256Bit分の演算ができる。
また、Port5の整数加算器は、別ポート発行のため従来通りということになる。

AMD K10では、FPユニットとベクトル整数とx86整数はすべて独立しているが、Intelでは、発行ポートを共有しているメリットで、FPUとx86とベクトル整数こともできるだろう。

実際、PenrynでのFP除算器の高速化で、x86とベクトル整数も恩恵を受けていた。
K10では、すべて別々の乗算器を持っていることだろう。

後藤氏のレポートでも‘既存の128-bit SIMDハードウェアを拡張して256-bit SIMDを実現したため‘と言ってるのはIntMul、AddのFP対応拡張ということなんでしょう。

IntAddのFP共用化については、例えばK10のダイ解析などではベクトル整数加算器の面積は小さい。
しかし、SSE命令全体に言えることだが、Intelのベクトル整数演算の速度はK10より2倍速い(Core i7のレイテンシーが1、K10は2)。
よって、それだけ優秀な(大きな)加算器を搭載していると言え、1つ分でも共用する効果は大きいと、無理やり考えることもできます。

書込番号:12036523

ナイスクチコミ!0


クチコミ投稿数:229件

2010/10/13 23:07(1年以上前)

http://journal.mycom.co.jp/articles/2010/10/12/idf003/index.html

とりあえずsandybridgeのLLCの速さはコアと等速で動く部分が大きい。
最適化マニュアルによると、L3がコアと等速で動いた時のレイテンシーが35サイクルだそうで。
一方Sandy Bridgeは最短26サイクルだったので、9サイクルがリングバスによる改良の効果のなのだろう。

http://pc.watch.impress.co.jp/docs/column/kaigai/20100924_395972.html

で、大原氏はメモリアクセス高速化のためにシステムエージェントを中央に挟むレイアウトを提示しているが、個人的は”無い”と思う。
なぜなら、キャッシュアクセスのほうがメモリアクセスのほうがアクセス頻度が高いのと、レイテンシー削減効果の問題。

アクセス頻度については、L1でヒット率90-95%と言われておりL3まで含めるとほとんどはキャッシュアクセスで、メモリへはほとんどアクセスしない。
また、LLCのアクセスは高速であるため、システムエージェントを挟むだけでも、性能に与える影響は大きいものと思われる。

メモリアクセスはランダムで200サイクル以上掛かっており、システムエージェントまでのアクセスで数サイクル削減しても効果が薄い。

http://journal.mycom.co.jp/photo/special/2008/nehalem01/images/graph11l.gif

6コアや8コアの話もしているようですが、これらはsocketRでサーバー向けですからリングバスは2重になっているでしょうね。

あと、全体的にアンチIntel風味になっているのはこの人の特徴ですね(AMDだったらベタ褒めに書くだろう)。

書込番号:12056026

ナイスクチコミ!0


クチコミ一覧を見る


クチコミ掲示板検索



検索対象カテゴリ
を対象として
選び方ガイド

新着ピックアップリスト

ピックアップリストトップ

新製品ニュース Headline

更新日:10月15日

新製品ニュースを見る

クチコミ掲示板ランキング

(パソコン)

ユーザー満足度ランキング