PDA

Archiv verlassen und diese Seite im Standarddesign anzeigen : Dual Core Xeon “Paxville” vs. Dual Core Opteron


X.Perry_Mental
2005-10-20, 13:47:03
Hier (http://www.gamepc.com/labs/view_content.asp?id=paxville&page=1) gibt es einen ersten Überblick über Intels neuen Xeon und ein paar interessante Vergleiche zu AMDs DC-Opteron.

reunion
2005-10-20, 14:15:37
Beeindruckend, der Xeon wird de facto vernichtet, der Opteron erreicht in den meisten Test mehr als die doppelte Performance.

BlackBirdSR
2005-10-20, 14:23:32
Man sollte beachten, dass es sich hierbei um 2x SMP Systeme handelt.
Also 8 Threads (4 Kerne + SMT) für die Xeons, 4 für die Opterons.
Inwiefern gerade das, den Xeons zum Verhängnis wird weiss ich nicht.

Demirug
2005-10-20, 14:34:52
Man sollte beachten, dass es sich hierbei um 2x SMP Systeme handelt.
Also 8 Threads (4 Kerne + SMT) für die Xeons, 4 für die Opterons.
Inwiefern gerade das, den Xeons zum Verhängnis wird weiss ich nicht.

Meinst du jetzt das die Testprogramme keine 8 Threads nutzen oder wie ist dein Einwand zu verstehen?

Pirx
2005-10-20, 14:39:54
Wird Zeit, daß das 3DC-Forum auf nen Opteron-Server umzieht.:D

Was ist das Desktop-Pendant zu diesem Xeon, der PentiumD?

BlackBirdSR
2005-10-20, 14:44:49
Meinst du jetzt das die Testprogramme keine 8 Threads nutzen oder wie ist dein Einwand zu verstehen?

Mit nur einem 200MHz FSB für alle 4 Kerne, gibt es eventuell einen ziemlichen Engpass. Bei einem einfachen DualCore-System ist das vielleicht noch nicht so auffällig.

Demirug
2005-10-20, 14:50:11
Mit nur einem 200MHz FSB für alle 4 Kerne, gibt es eventuell einen ziemlichen Engpass. Bei einem einfachen DualCore-System ist das vielleicht noch nicht so auffällig.

Ja aber wir Testen ja Server CPUs hier und da sind Dual-CPU System sehr verbreitet. Das sich alle Kerne nur einen FSB teilen müssen hat Intel ja verbockt.

BlackBirdSR
2005-10-20, 14:54:43
Ja aber wir Testen ja Server CPUs hier und da sind Dual-CPU System sehr verbreitet. Das sich alle Kerne nur einen FSB teilen müssen hat Intel ja verbockt.

Schon klar, darum gehts ja nicht.
Ich wollte nur darauf hinweisen, dass es hier um SMP Systeme geht, und keine einfachen DualCores. Ist im Test nicht so einfach ersichtlich, wenn man nur die Benches betrachtet. Und das werden sehr viele genau so tun.

X.Perry_Mental
2005-10-20, 14:57:27
Was ist das Desktop-Pendant zu diesem Xeon, der PentiumD?
Ja, mit folgenden signifikanten Unterschieden:
Pentium D (Smithfield): 1MB L2-Cache pro Core, ohne HT
Dual Core Xeon (Paxville): 2MB L2 pro Core, mit HT

StefanV
2005-10-20, 14:58:34
Meinst du jetzt das die Testprogramme keine 8 Threads nutzen oder wie ist dein Einwand zu verstehen?
Nein, das Windows die Threads, die besser auf einen 'echten' Core gelegt werden sollten, auf einen 'emulierten' Core gelegt werden...

Dieses Phänomen ist ja schon vom normalen Extreme Dual Core P4 zu beobachten...

BlackBirdSR
2005-10-20, 15:01:43
Nein, das Windows die Threads, die besser auf einen 'echten' Core gelegt werden sollten, auf einen 'emulierten' Core gelegt werden...

Dieses Phänomen ist ja schon vom normalen Extreme Dual Core P4 zu beobachten...

Es gibt keinen Unterschied zwischen einem "echten" und einem von dir bezeichneten "emulierten" Kern.
Die CPU wird intern in 2 virtuelle Kerne aufgeteilt, von denen jeder gleichberechtigt ist, und die auch völlig gleichwertig sind.

Das Problem ist höchstens, dass durch die Aufteilung Probleme entstehen, die auf einem Kern alleine nicht vorhanden wären. Das liegt aber nicht daran, dass einer der Kerne nur "emuliert" wäre.

StefanV
2005-10-20, 15:02:42
Ja, mit folgenden signifikanten Unterschieden:
Pentium D (Smithfield): 1MB L2-Cache pro Core, ohne HT
Dual Core Xeon (Paxville): 2MB L2 pro Core, mit HT
Gibt auch was mit SMT (http://geizhals.at/deutschland/a157089.html)

StefanV
2005-10-20, 15:07:44
Hier (http://www.gamepc.com/labs/view_content.asp?id=paxville&page=1) gibt es einen ersten Überblick über Intels neuen Xeon und ein paar interessante Vergleiche zu AMDs DC-Opteron.
Dieser Artikel ist völlig scheiße, auch wenn der Opteron 'gewinnt', so ist nicht erwähnt, wie der Speicher auf die beiden CPUs verteilt wurde...

Possibilitys:

1x Single Chan (beide Riegel auf einen Kanal einer CPU)
2x Single Chan (jede CPU bekommt einen Riegel)
1x Dual Chan

X.Perry_Mental
2005-10-20, 15:22:23
Dieser Artikel ist völlig scheiße, auch wenn der Opteron 'gewinnt', so ist nicht erwähnt, wie der Speicher auf die beiden CPUs verteilt wurde...

Possibilitys:

1x Single Chan (beide Riegel auf einen Kanal einer CPU)
2x Single Chan (jede CPU bekommt einen Riegel)
1x Dual Chan

Zitat: "The two processors connect to the Intel E7520 Northbridge controller
at 800 MHz FSB speeds, allowing 6.4 GB/s of bandwidth for the processors to
share.
The Intel E7520 has an integrated DDR2 memory controller with dual-channel
DDR2-400 support, allowing for up to 6.4 GB/s of memory bandwidth to be
utilized.
The Asus PVL-D motherboard has 8 x 240-pin DDR2 DIMM slots, capable of
supporting up to 16 GB of DDR2 memory. Like all DDR2-based Intel E7520
motherboards, the Asus PVL-D requires ECC/Registered DDR2-400 memory to
function.
Memory: 2 x Infineon ECC/Registered DDR2-400 Memory - 2 GB Total
CAS 4-4-4 Latency at DDR2-400 Speeds" Zitat Ende

Beide Sockel teilen sich demnach einen 800MHz FSB Speicherkontroller mit
6.4 GB/s Bandbreite, die mit DDR2-400 Speicher in dual-channel-config.
komplett ausgereizt werden. Ich gehe daher von einer Dual-Channel Konfiguration aus.

StefanV
2005-10-20, 15:24:37
@X.Perry_Mental

Und wo steht da was über die beiden Opterons?!

Wie das beim Intel System verteilt ist, ist eigentlich so klar wie das Amen in der Kirche, wenn denn der Tester nicht völlig unfähig ist...

BlackBirdSR
2005-10-20, 15:25:15
Beide Sockel teilen sich demnach einen 800MHz FSB Speicherkontroller mit
6.4 GB/s Bandbreite, die mit DDR2-400 Speicher in dual-channel-config.
komplett ausgereizt werden. Ich gehe daher von einer Dual-Channel Konfiguration aus.

Klar, bei den Xeons.
Aber wie sind die beiden Speichermodule auf die beiden Opterons verteilt :confused:

Coda
2005-10-20, 15:25:44
Nein, das Windows die Threads, die besser auf einen 'echten' Core gelegt werden sollten, auf einen 'emulierten' Core gelegt werden...Das ist Unfug. Windows XP und 2003 wissen um SMT und legen die Threads auch entsprechend.

X.Perry_Mental
2005-10-20, 15:43:10
@X.Perry_Mental

Und wo steht da was über die beiden Opterons?!

Wie das beim Intel System verteilt ist, ist eigentlich so klar wie das Amen in der Kirche, wenn denn der Tester nicht völlig unfähig ist...
Gute Frage wie das bei den Opterons aussieht, habe sie eben an die Tester weitergeleitet. Melde mich, falls und wenn ich eine Antwort kriege.

GloomY
2005-10-20, 15:46:06
Beeindruckend, der Xeon wird de facto vernichtet, der Opteron erreicht in den meisten Test mehr als die doppelte Performance.Insbesondere der einzige für den Server-Bereich wirklich aussagekräftige Benchmark - Apache Webserver - ist hier hervorzuheben. Nicht nur, dass der Opteron 280 mehr als die doppelte Performance des Paxville mit 2,8 GHz erreicht, man kann klar und deutlich erkennen, dass der Opteron wesentlich besser mit der Taktfrequenz skaliert. Der Xeon erreicht oftmals nur die Hälfte der Prozentpunkte an Mehrleistung, wie seine Taktfrequenz erhöht wurde. Der Opteron skaliert dagegen quasie perfekt mit dem Takt. Für mich ist das ein klares Zeichen, dass der FSB des Paxvilles hier als Flaschenhals bremst.
Es ist für mich deswegen unverständlich, warum Intel immer noch an dem traditionellen Layout mittels eines zentralen Busses festhält.

http://www.gamepc.com/labs/view_content.asp?id=paxville&page=9
Gute Frage wie das bei den Opterons aussieht, habe sie eben an die Tester weitergeleitet. Melde mich, falls und wenn ich eine Antwort kriege.Mich hat es zumindest gewundert, dass die Bandbreitenmessung bei Sisoft Sandra "nur" ~4,5 GB/s für dem Opteron erreicht hat. Eigentlich müsste das irgendwo im Bereich um 12 GB/s liegen. (Das verwendete Tyan K8WE Board bietet für beide Prozessor-Sockel Speicherkanäle an.)

edit: Auf Seite 5 (http://www.gamepc.com/labs/view_content.asp?id=paxville&page=5) steht klar etwas von 2 Speichermodulen. Egal, wie man diese nun verteilt, ist das nicht optimal für den Opteron. Dieser möchte am liebsten auf beiden Sockeln Dual-Channel betreiben, was aber nur mit mindestens 4 Riegeln funktioniert. Insofern hat Stefan Payne Recht, dass der Test nicht wirklich so gut ist.
Au-wei, wie würde dann das Testergebnis aussehen, wenn der Opteron noch mehr Speicherbandbreite zur Verfügung hätte?

StefanV
2005-10-20, 15:56:19
Mich hat es zumindest gewundert, dass die Bandbreitenmessung bei Sisoft Sandra "nur" ~4,5 GB/s für dem Opteron erreicht hat. Eigentlich müsste das irgendwo im Bereich um 12 GB/s sein. (Das verwednete Tyan K8WE Board bietet für beide Prozessor-Sockel Speicherkanäle an.)
Richtig, wenn man alle 4 Kanäle des K8WE nutzt, nicht aber, so wie es Game PC tat, mit nur 2 Riegeln!

reunion
2005-10-20, 16:24:33
edit: Auf Seite 5 (http://www.gamepc.com/labs/view_content.asp?id=paxville&page=5) steht klar etwas von 2 Speichermodulen. Egal, wie man diese nun verteilt, ist das nicht optimal für den Opteron. Dieser möchte am liebsten auf beiden Sockeln Dual-Channel betreiben, was aber nur mit mindestens 4 Riegeln funktioniert. Insofern hat Stefan Payne Recht, dass der Test nicht wirklich so gut ist.
Au-wei, wie würde dann das Testergebnis aussehen, wenn der Opteron noch mehr Speicherbandbreite zur Verfügung hätte?


Typisch GamePC, hätte mich auch gewundert, wenn der Test fair abgelaufen wäre.
Die sind geradezu dafür berüchtigt, Intel möglichst gut dastehen zu lassen.

(del)
2005-10-20, 17:18:06
Typisch GamePC, hätte mich auch gewundert, wenn der Test fair abgelaufen wäre.
Die sind geradezu dafür berüchtigt, Intel möglichst gut dastehen zu lassen.
Was auch voll gelungen ist :lol:

mocad_tom
2005-10-20, 17:27:05
Ohne jetzt hier weiter einhacken zu wollen.

Ich frage mich wo hier die Bensley-Plattform + Dempsey wirklich schneller werden soll?

Angenommen man hat ein Dual-Sockel-Dual-Core-System welches laut Marketingblabla zwei getrennte FSBs hat.

Da stellt sich mir die Frage, wie sollen 2 getrennte FSBs ausschauen.

FSB1:Core1 Core2
FSB2:Core3 Core4

Nun möchte Core1 Daten aus dem Speicher lesen, welche Core3 im Cache modified hat. Der Snooper im Core3 bekommt dies aber nur mit wenn diese Read-Anfrage auch auf dem 2. FSB sichtbar ist :ass2:

Meines erachtens ist der 2.FSB eine riesige Marketing-Blase, die platzt sobald erste Benchies veröffentlicht werden. Der einzige Vorteil, den die Bensley-Plattform mitbringt ist der FSB1066 bei Vollbestückung.

Ich stell mir das ganze so vor, das es zwar elektrisch 2 FSBs sind, beim betrachten der Datenpakete wird aber schnell klar, das auf beiden FSBs datenmäßig identische Pakete laufen(keine Trafficeinsparung - wie auch bei Snooping-Orientierten Systemen).

Grüße,
Tom

Muh-sagt-die-Kuh
2005-10-20, 18:07:06
Insbesondere der einzige für den Server-Bereich wirklich aussagekräftige Benchmark - Apache Webserver - ist hier hervorzuheben. Nicht nur, dass der Opteron 280 mehr als die doppelte Performance des Paxville mit 2,8 GHz erreicht, man kann klar und deutlich erkennen, dass der Opteron wesentlich besser mit der Taktfrequenz skaliert. Der Xeon erreicht oftmals nur die Hälfte der Prozentpunkte an Mehrleistung, wie seine Taktfrequenz erhöht wurde. Der Opteron skaliert dagegen quasie perfekt mit dem Takt. Für mich ist das ein klares Zeichen, dass der FSB des Paxvilles hier als Flaschenhals bremst.Ohne jeden Zweifel....FSB 800 ist für einen einzelnen Pentium 4 Kern mit SMT ausreichend, für mehr aber nicht. Schon ein einzelner Smithfield mit SMT wird stark limitiert.
Es ist für mich deswegen unverständlich, warum Intel immer noch an dem traditionellen Layout mittels eines zentralen Busses festhält.Sie tun es nicht, wenn auch die Reaktion etwas spät kommt....der nächste Xeon Chipsatz (Blackford / GreenCreek) ist, meiner Meinung nach, eine Übergangslösung: Zwei 1066er FSBs, dazu ein quad-Channel FBD (Fully buffered Dimm) Controller sollten die größten Nachteile beseitigen. Die nächste CPU Generation, sowohl Itanium als auch Xeon, bekommt dann ein einheitliches serielles Interface und einen integrierten FBD Controller.

Muh-sagt-die-Kuh
2005-10-20, 18:08:25
Ohne jetzt hier weiter einhacken zu wollen.

Ich frage mich wo hier die Bensley-Plattform + Dempsey wirklich schneller werden soll?

Angenommen man hat ein Dual-Sockel-Dual-Core-System welches laut Marketingblabla zwei getrennte FSBs hat.

Da stellt sich mir die Frage, wie sollen 2 getrennte FSBs ausschauen.

FSB1:Core1 Core2
FSB2:Core3 Core4

Nun möchte Core1 Daten aus dem Speicher lesen, welche Core3 im Cache modified hat. Der Snooper im Core3 bekommt dies aber nur mit wenn diese Read-Anfrage auch auf dem 2. FSB sichtbar ist :ass2:

Meines erachtens ist der 2.FSB eine riesige Marketing-Blase, die platzt sobald erste Benchies veröffentlicht werden. Der einzige Vorteil, den die Bensley-Plattform mitbringt ist der FSB1066 bei Vollbestückung.

Ich stell mir das ganze so vor, das es zwar elektrisch 2 FSBs sind, beim betrachten der Datenpakete wird aber schnell klar, das auf beiden FSBs datenmäßig identische Pakete laufen(keine Trafficeinsparung - wie auch bei Snooping-Orientierten Systemen).

Grüße,
TomWo ist das Problem? Snoops werden vom Chipsatz durchgereicht, die Konkurrenz um Speicherbandbreite nimmt durch diese Lösung aber dramatisch ab.

tombman
2005-10-20, 18:21:17
hab mich auch gewundert warum die Optis so wenig Speicherbandbreite zeigen... bei mir sinds mittels NUMA auch über 11gb/s...

BlackBirdSR
2005-10-20, 20:18:47
Hi Max :

Memory config on the AMD system was 2 x 1 GB DDR-400 modules at CAS-3-3-3-2T latency. Both memory modules were connected to CPU1, so it was running at dual channel speeds but only on a single memory bus.

We could have used 4 x 512 MB modules, but our Xeon platform was using 2 x 1 GB modules, so we decided to go the safer route and make the platforms equal.

We've run some tests in previous reports comparing 4 x 512 MB vs. 2 x 1 GB on a dual Opteron platform, and we did not see a huge difference. With NUMA, you can get massive theoretical bandwidth levels, but real world applications show very little difference.

Coda
2005-10-20, 20:20:45
Oh mann so ein Schwachsinn. Als ob einer ein Opteron-System so laufen lassen würde.

We've run some tests in previous reports comparing 4 x 512 MB vs. 2 x 1 GB on a dual Opteron platform, and we did not see a huge difference.Das kann gar nicht sein, weil die eine CPU deutlich längere Latenzen hat wenn sie immer über die andere CPU gehen muss.

mocad_tom
2005-10-20, 23:22:43
Hier wird richtig bestückt - man sieht CPU1 hat 2 Riegel und CPU2 ebenfalls:
http://www.techreport.com/reviews/2005q2/opteron-x75/s2985-setup.jpg

Und hier gibts dann auch korrekte Memory Bandwidthwerte:
http://www.techreport.com/reviews/2005q2/opteron-x75/index.x?pg=5

@Muh-sagt-die-Kuh
...Snoops werden vom Chipsatz durchgereicht...

Ja genau. Jede Readanfrage von jedem Core muss von jedem anderen Core gesehen werden damit der Snooper(der in jedem Core sitzt) auf den Bus schauen kann und sagen kann -> Nein dieses Datum nimmst du nicht vom Ram sondern warte zuerst bis ich meine Cacheline zurückgeschrieben habe.

Grüße,
Tom

Muh-sagt-die-Kuh
2005-10-21, 00:27:01
@Muh-sagt-die-Kuh
...Snoops werden vom Chipsatz durchgereicht...

Ja genau. Jede Readanfrage von jedem Core muss von jedem anderen Core gesehen werden damit der Snooper(der in jedem Core sitzt) auf den Bus schauen kann und sagen kann -> Nein dieses Datum nimmst du nicht vom Ram sondern warte zuerst bis ich meine Cacheline zurückgeschrieben habe.

Grüße,
TomMir ist klar wie Snoops funktionieren.......nur fressen diese bei weitem nicht soviel FSB Bandbreite wie Memory-Reads / Writes, da sie eben keine 64 KiB Nutzdaten tragen. Von eben diesen muss ein FSB von Blackford nur noch rund die Hälfte an tragen, was die starke Bandbreitenlimitierung der aktuellen Plattform recht effektiv beseitigt.

Coda
2005-10-21, 00:50:39
Das Problem ist da halt, dass so ein dicker FSB sicher mehr Routing-Probleme aufwirft als ein HT-Link.

X.Perry_Mental
2005-10-21, 08:24:39
edit: Auf Seite 5 (http://www.gamepc.com/labs/view_content.asp?id=paxville&page=5) steht klar etwas von 2 Speichermodulen. Egal, wie man diese nun verteilt, ist das nicht optimal für den Opteron. Dieser möchte am liebsten auf beiden Sockeln Dual-Channel betreiben, was aber nur mit mindestens 4 Riegeln funktioniert. Insofern hat Stefan Payne Recht, dass der Test nicht wirklich so gut ist.
Au-wei, wie würde dann das Testergebnis aussehen, wenn der Opteron noch mehr Speicherbandbreite zur Verfügung hätte?
So, ich habe tatsächlich eine Antwort auf meine Nachfrage bezüglich der Speicherkonfiguration des Opteron-Systems bekommen. Es zwar immer noch nicht klar, wie die Module auf die Speicherbänke verteilt waren, aber immerhin wissen wir jetzt, warum man nur die Hälfte der möglichen Speicherbandbreite verwendet hat - auch wenn's eine eher schwache Erklärung ist. Zitat:
Hi there :
Memory config on the AMD system was 2 x 1 GB DDR-400 modules at CAS-3-3-3-2T latency.
We could have used 4 x 512 MB modules, but our Xeon platform was using 2 x 1 GB modules, so we decided to go the safer route and make the platforms equal.
- Chris / GamePC
Zitat Ende
Update: Oops, habe nicht gesehen, dass BlackBirdSR wohl schon die gleichen Infos hatte.

tombman
2005-10-21, 08:52:34
Sie haben aber Recht mit der Aussage, daß NUMA in sandra saugeile Werte liefert, IRL aber genau nix bringt...(vielleicht weil die Anwendungen darauf ned geprogged sind?)

StefanV
2005-10-21, 10:50:02
Sie haben aber Recht mit der Aussage, daß NUMA in sandra saugeile Werte liefert, IRL aber genau nix bringt...(vielleicht weil die Anwendungen darauf ned geprogged sind?)
DIe Anwendungen müssen (und könnens auch nicht) sein, wichtiger ist, das das OS damit um kann.

Wobei man aber auch wissen müsste, welcher speicher zu welcher CPU gehört and so on...

Muh-sagt-die-Kuh
2005-10-21, 11:48:57
Das Problem ist da halt, dass so ein dicker FSB sicher mehr Routing-Probleme aufwirft als ein HT-Link.Stimmt, wobei das FB-DIMM Interface auf der anderen Seite das Routing auf dem PCB wieder vereinfacht. Die Lösung mit 2 FSBs ist sicherlich nicht optimal, aber immerhin um Welten besser als ein einziger für 4 Kerne.

Coda
2005-10-21, 12:56:14
Sie haben aber Recht mit der Aussage, daß NUMA in sandra saugeile Werte liefert, IRL aber genau nix bringt...(vielleicht weil die Anwendungen darauf ned geprogged sind?)Es gibt unter Windows keine spezielle NUMA-API unter Linux aber sehr wohl z.B.

Der Opteron ist ja eigentlich auch eher eine Server-CPU.

mocad_tom
2005-10-24, 12:25:11
Die Oracle-DB oder Apache z.B. haben einen eigenen Memory-Pool.
Bei PL-SQL z.B. war es so, das die Datenbank und der eigene darin implementierte Memory-Pool den Speicher(Stack und Heap) für dich verwaltete - nicht das Betriebssystem.

Wenn DB-Hersteller in diesem Bereich Optimierungsmöglichkeiten sehen, dann nutzen sie diese auch.

Grüße,
Tom