AMD - Wird der neue Bulldozer möglicherweise ein Flop? [Archiv]

Gast

2010-08-30, 05:16:25

Aus verschiedenen Quellen kommen jetzt erste Details zu AMDs Bulldozer- und Bobcat-Chips an die Öffentlichkeit. Daß AMDs neue CPU offenbar nur auf neuen Mainboards mit dem Sockel AM3+ laufen wird, soll hier mal außer Betracht bleiben.

Quellen:
http://www.youtube.com/watch?v=VIs1CxuUrpc
http://www.3dcenter.org/artikel/amd-bulldozer-rechenkerne-modul-bauweise

Wie Leonidas in seinem Artikel schon angemerkt hat, besteht so ein neues Core-Modul offenbar keineswegs aus 2 vollwertigen Cores und es steht zu befürchten, daß AMD den Bulldozer mit 3 Modulen als HexaCore vermarkten wird. Im Gegensatz zu Leonidas kommen mir jedoch langsam Zweifel, ob ein solcher 'HexaCore' in der Praxis wirklich die Leistung eines Thuban oder Gulftown erreichen kann. Wie man schon beim HT der Intel-CPUs sehen kann, spielt die Anzahl der simulierten Kerne in der Praxis eine völlig untergeordnete Rolle. In meinen Augen kann man ein solches Bulldozer-Modul nur als einen echten Core werten. Auch wenn der zweite Integer-'Core' das Bulldozer-Modul nur um 12% vergrößert, sehe ich hier doch einen Nachteil, wenn man einen möglichst hohen Takt pro Modul erreichen möchte - trotz 32nm Fertigung.

Wird der Bulldozer eine 'Energiesparlampe'? - Was denkt ihr? - Ich habe mittlerweile ein bischen den Verdacht, daß die einzige Stärke des Bulldozer in der geringeren Leistungsaufnahme (pro Core) gegenüber K10 liegen wird. Aber was nutzt mir das, wenn so ein Bulldozer-HexaCore dann im Spielealltag nichtmal mit einem normalen Quad@OC mithalten kann? Bis die anderen Features des Bulldozers (SSE5,AVX) wirklich genutzt werden können, werden doch wieder Jahre vergehen.

Hintergrund: Ich bin noch am überlegen, ob ich mir dieses Jahr vielleicht einen Thuban zulegen soll (Gulftown ist mir zu teuer).

VinD

2010-08-30, 06:10:58

Es wird gerne verdrängt, dass keine ALU/FPU zu irgendeiner Zeit 100% ausgelastet ist. Dort wird wohl dank des aufgebohrten Frontends die Stärke liegen.

Die Fähigkeiten der ALU/AGU/FPU/LS ist also nicht ausschlaggebend. Wichtiger ist wie schnell diese gefüttert werden können und wie schnell die Ergebnisse weiter kommen. Und in diesen Punkten hat AMD in den Bulldozer investiert. (es ist vielleicht doch ganz schlau die Einheiten zu der Hitzeentwicklung wegen zu minimieren und statt dessen Front- und Backend zu optimieren bzw. neue Techniken zum effizenteren verteilen von Aufgabe 'beizubringen')

OT: Es gab bei der Vorstellung des Power6 von IBM eine PDF die das Thema Auslastung-Der-Recheneinheiten erklärte. Dabei kam herraus das diese sich ständig langweilen müssen, da sie sonst zuviel Hitze auf einen zu kleinen Punkt erzeugen würden. Bei anderen Designs wird es sicher ähnlich sein.

LG =)

Avalox

2010-08-30, 09:12:08

Wird der Bulldozer eine 'Energiesparlampe'? - Was denkt ihr? - Ich habe mittlerweile ein bischen den Verdacht, daß die einzige Stärke des Bulldozer in der geringeren Leistungsaufnahme (pro Core) gegenüber K10 liegen wird.

Die aktuelle c't schreibt Andreas Stiller, dass der Achtkern Bulldozer eine um 70% höhere Performance, als der 12 Kern Magny-Cours haben wird. Ist doch sehr ordentlich.

cenos

2010-08-30, 09:27:02

Die aktuelle c't schreibt Andreas Stiller, dass der Achtkern Bulldozer eine um 70% höhere Performance, als der 12 Kern Magny-Cours haben wird. Ist doch sehr ordentlich.

Laut dem Berichten von AMD stehen diese 70% höhere Performance zu weniger Watt/pro Mhz, d.h. aus den aktuellen Informationen zu lesen, solls ein "sparwunder" werden :P

Avalox

2010-08-30, 10:13:48

Laut dem Berichten von AMD stehen diese 70% höhere Performance zu weniger Watt/pro Mhz, d.h. aus den aktuellen Informationen zu lesen, solls ein "sparwunder" werden :P

Andreas Stiller schreibt von 70% höheren absoluten SPEC Werten und nichts von relativ.

"Mit seinen 8 Modulen soll der Bulldozer Serverchip Interlagos rund 70% mehr Integer Performance als der 12 Kerner Magny Cours erzielen, dass sieht demnach nicht wirklich nach einem verhungerten Frontend aus." (c't 19/2010, Prozessorgeflüster S.36)

Die FP Performance soll beim 8 Modul Bulldozer 33% höher liegen, als beim 12Kern Magny Cours, steht im selben Artikel.

cenos

2010-08-30, 10:26:23

SavageX

2010-08-30, 10:31:51

Da Prozessoren heutzutage in der Regel thermisch limitiert sind (nur wenige OEMs wollen mehr als 125W abführen müssen, das kostet schlicht) ist "Sparwunder" genau das, was AMD braucht. Keine Sorge, man kriegt auch sparsame Chips auf 125W (Obergrenze für noch akzeptierte Massenware), dann halt mit entsprechend hohem Takt.

=Floi=

2010-08-30, 10:59:05

die 125 watt modelle wandern doch zu 99% nicht in normale pcs. im oem markt herrschen doch eher 65watt bis 95watt um die boards billig zu halten.

125watt sind heutzutage keine nukmer mehr. mit den gigantischen kühlern kann man das problemlos leise kühlen. die grafikkarten stellen hier ein größeres problem dar...

Gast

2010-08-30, 11:07:40

Flopp? Sicher nicht aber ich würde keinen Sandy Bridge Killer erwarten.

Gast

2010-08-30, 16:19:27

Die aktuelle c't schreibt Andreas Stiller, dass der Achtkern Bulldozer eine um 70% höhere Performance, als der 12 Kern Magny-Cours haben wird. Ist doch sehr ordentlich.
Hallo Avalox

Hat Stiller auch geschrieben, was er mit Achtkern-Bulldozer meint? Wenn er damit nämlich 8 Module meint, dann wäre es laut neuer Definition von AMD eine 16-Kern-CPU. Diese wird dann dem Servermarkt vorbehalten bleiben und möglicherweise auch gar nicht für AM3+ Systeme auf den Markt kommen. Außerdem verfügt der Bulldozer über AVX, was die FPU-Leistung verdoppeln sollte. Wenn der 16-Kern-Bulldozer gegenüber einem doppelten Istanbul-Opteron (2x 6 Kerne) nur 70% mehr Performance rausholt, wäre das in meinen Augen -relativ betrachtet- wenig.

Ein HexaCore-Bulldozer wird möglicherweise mit nur 3 Modulen auskommen müssen. Wie groß wird dann der Vorsprung zum Thuban noch ausfallen?
6x K10 vs. 3x 'Modul' <- 70% theoretische Mehrleistung pro Modul reichen da imho nicht - da bräuchte man schon 100% Mehrleistung, um wenigstens gleichzuziehen. Möglicherweise wird man dann schon einen OctaCore-Bulldozer benötigen, um mit Thuban auf Augenhöhe zu liegen.

Ich glaube, daß man mit Performancevorhersagen in der heutigen Zeit vorsichtig sein muß. Als die ersten Datensheets des Fermi aufgetaucht sind, hatte man auch großes erwartet - jedenfalls alles andere, als ein thermisches Desaster und ein Downgrade auf 336 Cores.

S940

2010-08-30, 16:51:16

Hallo Avalox

Hat Stiller auch geschrieben, was er mit Achtkern-Bulldozer meint? Wenn er damit nämlich 8 Module meint, dann wäre es laut neuer Definition von AMD eine 16-Kern-CPU. Diese wird dann dem Servermarkt vorbehalten bleiben und möglicherweise auch gar nicht für AM3+ Systeme auf den Markt kommen. Außerdem verfügt der Bulldozer über AVX, was die FPU-Leistung verdoppeln sollte. Wenn der 16-Kern-Bulldozer gegenüber einem doppelten Istanbul-Opteron (2x 6 Kerne) nur 70% mehr Performance rausholt, wäre das in meinen Augen -relativ betrachtet- wenig.
Er hat das gesagt:
Der aktuelle AMD K10 weist pro Kern immerhin drei schnelle Decoder auf. Mit seinen 8 Modulen – also je nach Sichtweise 8 bis16 Kernen – soll der Bulldozer-Serverchip Interlagos rund 70 Prozent mehr Integer-Performance (SPECint) als der 12-Kerner Magny-Cours erzielen, das sieht demnach nicht wirklich nach einem „verhungernden“ Frontend aus. Neben dem dicken Interlagos mit bis zu 8 MByte L3-Cache für alle Module auf dem Chip will AMD halb so große Chips für Server (Valencia) und High-End-Desktop-PCs (Zambezi) herausbringen.
http://www.heise.de/ct/artikel/Prozessorgefluester-1064662.html

Habe aber keine Ahnung, woher er die 70% hat, falls die von AMD kämen, dann sollten die ohne AVX/XOP Zuschlag sein, aber tja - Genaues weiss man nicht.

ciao

Alex

P.S: Interlagos mit 8 MB L3 für *alle* Module ?? Glaub ich erst, wenn ichs sehe ... sollte doch wieder ein MCM werden ... eher 2x8MB L3.

Gast Hitcher

2010-08-30, 17:49:01

das ist ja nun neu, AMD hat vor kurzer Zeit selbst noch geschrieben, man hätte +50% Performance bei +33% mehr Kernen (statt 12 nun eben 16) bei selber TDP erreicht.

Also nun sind es in dem Benchmark sogar schon 70% mehr, aber vielleicht nicht mehr bei selber TDP gemessen. Oder man hat durch optimierte Software nun die Kerne schon besser ausgelastet. Das ist dann jedenfalls schon eine ordentliche Leistungssteigerung.

S940

2010-08-30, 17:58:15

Also nun sind es in dem Benchmark sogar schon 70% mehr, aber vielleicht nicht mehr bei selber TDP gemessen. Oder man hat durch optimierte Software nun die Kerne schon besser ausgelastet. Das ist dann jedenfalls schon eine ordentliche Leistungssteigerung.
Die alten Zahlen waren ohne Neukompilierung, also ohne SSE4/AVX & XOP die 70% bei SPEC sind jetzt vermutlich doch mit. Zumindest wird Spec immer neukompiliert.

Tiamat

2010-09-02, 23:19:41

Dann ist die Aussage aber leider nichts wert. Beim Magny Core gab es auch einen optimierten Spec, der das ganze um mehr als 100% positiv beeinflusst hat ;).

Wenn man dann nämlich den optimierte Spec für den BD und den normalen für den MC genommen hat, um den BD super aussehen zu lassen, würde dieser jedoch leider 30% langsamer als der MC sein, weil wie oben bereits erwähnt knapp mehr als 100% für ihn drin waren :D

S940

2010-09-02, 23:57:28

Dann ist die Aussage aber leider nichts wert. Beim Magny Core gab es auch einen optimierten Spec, der das ganze um mehr als 100% positiv beeinflusst hat ;).

Von was redest Du ?
Seit es Istanbul gibt, verwendet AMD den Open64 Compiler, der hat in Spec ca. 10-20% gebracht. 100% sind "etwa" viel ...

Spasstiger

2010-09-03, 02:21:12

So wie ich das verstanden habe, würde AMD einen Bulldozer-Prozessor mit drei Core-Modulen als virtuellen Hexacore vermarkten so wie Intel die Core i7 mit vier Kernen als virtuelle Achtkerner vermarktet. Hyperthreading eben.

Btw.: Ich denke nicht, dass AMD den Thuban durch einen Bulldozer mit drei Modulen ersetzen wird. In der Preisklasse des Thuban wird man sicherlich schon Varianten mit vier Modulen finden, die dann dem Thuban in Sachen Performance mindestens ebenbürtig sind. Und für den Serverbereich gibts ja bekanntermaßen Varianten mit bis zu 8 Modulen, wo an einer hevorragenden Performance keine Zweifel bestehen sollten.

Tiamat

2010-09-03, 06:07:52

Von was redest Du ?
Seit es Istanbul gibt, verwendet AMD den Open64 Compiler, der hat in Spec ca. 10-20% gebracht. 100% sind "etwa" viel ...

Schau dir mal auf tecchannel.de den Magny Core Test an.

S940

2010-09-03, 08:47:41

Schau dir mal auf tecchannel.de den Magny Core Test an.
Hab ich vor ein paar Monaten gemacht, was gibts da zu sehen ?
Damals ist mir nichts aufgefallen...

Undertaker

2010-09-03, 08:53:46

So wie ich das verstanden habe, würde AMD einen Bulldozer-Prozessor mit drei Core-Modulen als virtuellen Hexacore vermarkten so wie Intel die Core i7 mit vier Kernen als virtuelle Achtkerner vermarktet. Hyperthreading eben.

Das bei Bulldozer wohl nicht die Module, sondern die Kernzahl vermarktet wird ist korrekt, Intel bezeichnet die i7 mit SMT aber klar als Quadcores:

"Intel Core i7 processors deliver an incredible breakthrough in quad-core performance [...blubblub]"

http://www.intel.com/products/processor/corei7/index.htm

Gast

2010-09-03, 09:30:02

Das bei Bulldozer wohl nicht die Module, sondern die Kernzahl vermarktet wird ist korrekt, Intel bezeichnet die i7 mit SMT aber klar als Quadcores:

"Intel Core i7 processors deliver an incredible breakthrough in quad-core performance [...blubblub]"

http://www.intel.com/products/processor/corei7/index.htm

Es ist auch ein Unterschied ob ich nur einen Core habe bei dem ich zwei Threads durch jagen kann oder ob entscheidende Teile tatsächlich doppelt vorhanden sind. Natürlich ist ein Bulldozer-Modul zwei Cores, oder soll man soetwas als Single-Core vermarkten?

Undertaker

2010-09-03, 09:40:41

Ich wollte keine Wertung vornehmen. ;) Da CMT aber nicht immer wie ein vollständiger Dualcore performt, wäre es imho schlauer gewesen, nur die Modulzahl zu vermarkten: In der Presse wäre dann (spekulierte Performancewerte) die Rede davon gewesen, dass ein Zweikern/-modul BD einen Zweikern SB schlägt und um wieviel stärker die Kerne der neuen Generation doch geworden sein... Aber das Marketing wird sich dieses Thema sicher lange genug überlegt haben.

Gast

2010-09-03, 09:58:28

Andreas Stiller schreibt von 70% höheren absoluten SPEC Werten und nichts von relativ.

"Mit seinen 8 Modulen soll der Bulldozer Serverchip Interlagos rund 70% mehr Integer Performance als der 12 Kerner Magny Cours erzielen, dass sieht demnach nicht wirklich nach einem verhungerten Frontend aus." (c't 19/2010, Prozessorgeflüster S.36)

Die FP Performance soll beim 8 Modul Bulldozer 33% höher liegen, als beim 12Kern Magny Cours, steht im selben Artikel.

Na dann wollen wir mal:

laut c't 9/2010:

Magny Cours mit 2,2GHz erreicht 268 SpecInt_rate_base2006
=>
BD sollte also 456 SpecInt_rate_base2006 Punkte erreichen

Magny Cours mit 2,2GHz erreicht 214 SpecFP_rate_base2006
=>
BD sollte also 285 SpecInt_rate_base2006 Punkte erreichen

Gast

2010-09-03, 10:02:21

FeuerHoden

2010-09-03, 12:17:46

Lassen sich mit Bulldozer lineare Berechnungen besser auf mehr als einen Core aufteil bzw. zwei Threads die miteinander Daten austauschen besser abarbeiten?

Gast

2010-09-03, 15:50:07

Andreas Stiller schreibt von 70% höheren absoluten SPEC Werten und nichts von relativ.

"Mit seinen 8 Modulen soll der Bulldozer Serverchip Interlagos rund 70% mehr Integer Performance als der 12 Kerner Magny Cours erzielen, dass sieht demnach nicht wirklich nach einem verhungerten Frontend aus." (c't 19/2010, Prozessorgeflüster S.36)

Die FP Performance soll beim 8 Modul Bulldozer 33% höher liegen, als beim 12Kern Magny Cours, steht im selben Artikel.

Ich glaub jetzt weiß ich auch woher A. Stiller die 33% und die 70% hat.

Festhalten ;) ;)

Anscheinend hat er die alte Präsentation von AMD, das PDF "HC21.24.110.Conway-AMD-Magny-Cours" Seite 4 als Basis genommen. Da steht aber, das der Interlagos bei FP um ca. 70% schneller wird und bei INT nur um ca. 33%.

Ergo, kann man die Zahlen von A. Stiller in Ruhe sterben lassen. Soviele Fehler in einem Artikel..das bin ich wirklich nicht gewohnt von ihm. Die K8 Llano Story war ja erst recht :freak: Vielleicht hätte er sich auch Seite 3 in der Präsentation anschauen sollen. :)

Gast

2010-09-03, 16:01:57

Ergo, kann man die Zahlen von A. Stiller in Ruhe sterben lassen. Soviele Fehler in einem Artikel..das bin ich wirklich nicht gewohnt von ihm...

Nachdem der auch mal aus semiaccurate.com zitiert hatte (Tessellation von Fermi betreffend), hab ich mein c't-Abo gekündigt...

w0mbat

2010-09-03, 16:08:44

ja, möglicherweise wird er ein flopp. möglicherweise auch nicht.

Tiamat

2010-09-03, 17:36:40

Na dann wollen wir mal:

laut c't 9/2010:

Magny Cours mit 2,2GHz erreicht 268 SpecInt_rate_base2006
=>
BD sollte also 456 SpecInt_rate_base2006 Punkte erreichen

Magny Cours mit 2,2GHz erreicht 214 SpecFP_rate_base2006
=>
BD sollte also 285 SpecInt_rate_base2006 Punkte erreichen

@S940
http://www.tecchannel.de/server/prozessoren/2026842/test_review_benchmarks_amd_opteron_6100_serie_magny_cours/index7.html

193 SpecInt_rate_base2006
381 SpecInt_rate_base2006 mit Optimierung (nächste Seite)

Das meinte ich..

Gruß
Tiamat

Coda

2010-09-03, 18:21:51

Nachdem der auch mal aus semiaccurate.com zitiert hatte (Tessellation von Fermi betreffend), hab ich mein c't-Abo gekündigt...
Hast du ihnen den Grund auch mitgeteilt? Ich finde das langsam auch eher weniger lustig.

Gast

2010-09-03, 18:49:22

@S940
http://www.tecchannel.de/server/prozessoren/2026842/test_review_benchmarks_amd_opteron_6100_serie_magny_cours/index7.html

193 SpecInt_rate_base2006
381 SpecInt_rate_base2006 mit Optimierung (nächste Seite)

Das meinte ich..

Gruß
Tiamat

das zweite ist aber nicht mehr _base_ sondern AFAIK _peak_

Der Xeon legt dabei ja auch massiv zu (+62%); der Magny Cours mehr +100%.

Da die Intel-Compiler, die meistens für solche Vergleiche benutzt werden auf Intel CPUs optimiert sind ist das Ergebnis aber nicht verwunderlich.

Tiamat

2010-09-03, 19:12:07

Ups :confused: ja stimmt das eine is int_base, das andere int_rate, ich hab den Test vor ner ganzen Zeit lang mal überflogen, deswegen kam ich überhaupt drauf.

Gast

2010-09-03, 19:48:06

Hast du ihnen den Grund auch mitgeteilt? Ich finde das langsam auch eher weniger lustig.

Hätte ich gemacht, wenn ich die Kündigung zur übernächsten Ausgabe geklappt hätte. Nachdem die mir aber in der Kündigungsbestätigung mitteilten, dass das Abo bis zum Ende diesen Jahres läuft, hatte ich keine Lust mehr denen auch noch weitere Zeit zu opfern... Morgen bin ich aber auf der Ifa-> da werd ich mal am Heise-Stand vorbeischauen.... :motz:

Duplex

2010-09-05, 16:16:17

wieso Flop?

vielleicht wird der 4 Modul BD für Desktop 75% schneller als Thuban, durch 2 Alu + 2 Agu soll angeblich das Design bis 30% höher taktbar sein, dazu kommt noch HighK einsatz. Die 50% bei 8 CMT vs. 12 K10 hat man ja schon bestätigt, bei den Desktop Versionen sehe ich aber mehr Potential, da wären 75% mehrleistung gegenüber Thuban ganz gut, AVX ist ja garnicht miteingerechnet ;)

Gast

2010-09-07, 22:14:27

Hat natürlich mit der Performance usw. nichts zu tun, aber fällt euch was auf:

AMDs erste Antwort auf Core2 Quad: "AMD 4x4" (Hätte eigentlich 2x2 heißen müssen), 2 Dualcore-Athlons auf einem Board, also das ganze Gegenteil von einer Quadcore-CPU.
Dann kam der Phenom: "Nativ!"... "Monolithisches Design!"... "ECHTER Quadcore!"... hieß es damals von AMD & deren Jüngern. "Intel klebt doch nur 2 Dualcores zusammen!" etc. etc.

Und jetzt ;-) ?
Bulldozer: 2 Kerne * X (weil praktisch & produktionsfreundlich)
Soviel zu Marketing & den Fanboys die's immer wieder glauben.

Duplex

2010-09-07, 23:32:07

Der 2. zusätzliche Cluster im Core kostet nur 12% Mehr Fläche und erziehlt 80% Leistung, im vergleich Intels SMT Thread erziehlt bei 5% Fläche 20-25%.

Deinorius

2010-09-07, 23:45:45

Wars nicht eher so gemeint, dass beide Kerne 80 % der Leistung von zwei richtigen Kernen erreichen würden? Denn in dem Sinne wäre das Verhältnis zwischen Intel und AMD gleich, nur dass AMD größer herangeht.

Duplex

2010-09-07, 23:53:20

nein

Core1 100%
Core2 80%

Deinorius

2010-09-08, 00:03:47

Ich lese es anders heraus.

Einen direkten Performancevorteil hat das ganze System auch nicht, da gemäß AMD die Modul-Bauweise nur 80 Prozent der Performance einer gewöhnlichen DualCore-Bauweise mit zwei normalen Rechenkernen erreicht.

Gast

2010-09-08, 04:44:52

Aber was nutzt mir das, wenn so ein Bulldozer-HexaCore dann im Spielealltag nichtmal mit einem normalen Quad@OC mithalten kann?Welcher Hexa auch immer soll dir wann beim Zocken die Offenbarung auf dem schreibtsich bringen? Auf sowas kannst du noch Jahre warten.

y33H@

2010-09-08, 08:10:35

Ist doch eindeutig benannt: 1 Modul = 80% eines echten Dualcores

Und nicht, dass der 2te Integer-Core +80% bringt bei 12% mehr Fläche :rolleyes:

Gast 2

2010-09-08, 09:18:41

Wer hat denn nun recht mit seine Rechnungen?
180% pro 2 Threads für AMD oder 125% pro 2 Threads für Intel?

Gast

2010-09-08, 09:22:37

Gast

2010-09-08, 09:26:29

nein

Core1 100%
Core2 80%

Eigentlich ist es ein wenig anders:

1 Modul mit 2 INT-Cores erreicht bei..

a) 1 Thread 100% eines normalen INT-Cores

b) 2 Threads 180% eines normalen INT-Cores (jeder INT-Cores erreicht also 90%)

=> 10% "Penalty" pro Thread wenn 2 Threads auf einem Modul laufen.

Warum: da die Shared Ressourcen (L1I, Front-End etc..) zwischen beiden Threads geteilt werden müssen.

Quelle: H. Frühe AMD

Deinorius

2010-09-08, 10:25:15

@Gast über mir

Also anscheinend kann sich nicht jeder entscheiden, was denn nun stimmt. y33H@ und ich lesen es anscheinend richtig heraus. Du dürftest hingegen mit a) recht haben.

Ist doch eindeutig benannt: 1 Modul = 80% eines echten Dualcores

Und nicht, dass der 2te Integer-Core +80% bringt bei 12% mehr Fläche :rolleyes:

Bei den anderen dürfte das Missverständniss Wunschdenken sein.

y33H@

2010-09-08, 11:25:10

Im Blog steht's doch schwarz auf weiß:
Compared to CMP (chip multiprocessing – which is, in simplistic terms building a multicore chip with each core having its own dedicated resources) two integer cores in a Bulldozer module would deliver roughly 80% of the throughput. Ein Modul mit zwei Integer-Cores und Sharing (u.a. FPU, L2) liefert 80% eines echten Dualcores.

EDIT
Und klar, bei Singlethread 100% eines echten DCs.

(del)

2010-09-08, 11:54:54

Für mich paar kurze Erklärungen bitte? =)
AMD hat bisschen mehr Logik und Fläche als Intel pro CPU(-Core) für ihre Art SMT geopfert, dafür können sie damit 80% eines echten Dualcores erreichen. Ist das richtig?

Steht "Modul" jetzt als Bezeichnung für so einen erweiterten Singlecore?

Wieviel schneller soll das Zeug a)beim gleichen Takt oder b)bei gleichem Stromverbrauch mit EINEM Thread sein, als Phenom2 oder Sandy?

Gelten die +80% auch für Gleitkoma/SSE? So wie ich das sehe eher nicht oder?

Wann verliert er nochmal die 10%?

Gast

2010-09-08, 12:30:02

Ein Bulldozer Core sind im Prinzip 2 Cores, die sich aber gewisse Ausführungseinheiten teilen. D.h. ein Bulldozer Core hat zwar nur 80% der Leistung eines nativen (aus zwei vollständigen Cores bestehenden) Dualcore bei 100% Auslastung auf beiden Cores aber dafür spart man Chipfläche und verringert den Strombedarf. Und die Taktfreudigkeit steigt auch. Alles in allem anscheinend ein guter Tausch.

y33H@

2010-09-08, 12:49:38

Ein Modul ist ein abgespeckter Dualcore, kein erweiterter Singlecore.

(del)

2010-09-08, 12:58:01

Ein Modul ist ein abgespeckter Dualcore, kein erweiterter Singlecore.Ou ou ou...

y33H@

2010-09-08, 13:01:41

Wobei aus Die-Sicht der 2te Int-Core ja nur 12% brauchen soll ... also doch eher "Adv. SC" ;D

Pirx

2010-09-08, 13:02:08

Die alte Glas voll oder leer - Geschichte?

Ich würde ja sagen, daß es eine völlig neue Konstruktion ist.:D

Gast

2010-09-08, 13:11:24

Ich hätte daraus ein Core with Advanced-SMT gemacht. Keine Ahnung warum das schlechter klingen soll, wenn man hier vom Singlecore pro Modul sprechen würde, bei nur 12% mehr Logikfläche. Es ist immerhin endlich das x86-SMT das man sich schon immer gewünscht hat und bei der angeblichen Watt/Leistung Effizienz für viele die ideale Lösung.

Die Frage wie schnell pro Mhz ein Modul bei singlethreaded Soft ist, bleibt aber wohl noch offen. Das wäre jetzt das interessanteste, nachdem die 70% bis 80% Mehrleistung bei Multithreaded geklärt sind.

aylano

2010-09-08, 13:19:54

Tja, es ist schon verwirrend, was er sagt

John Fruehe August 30, 2010

It is all about throughput. To your question it is like 90% each.

One thread on one core = 100 units of throughput
Two threads on two cores in the same module = ~180 units of throughput
Two threads running on 2 cores in 2 different modules = ~200 units of throughput

Mit 160%-Modul-Multi-Threaded hätte die Single-Thread-Leistung des Bulldozers nochmals um einiges Besser ausgesehen, da ja die 50%-Performance-Steigerung gegenüber Magny-Cores ja gleich geblieben wäre.

Wobei er eben auch sagt.

Core to core, our new architecture will be faster.
...
I have only said that a single Bulldozer core will higher performance than a single current core.

We will not discuss clock speeds until launch.

y33H@

2010-09-08, 13:42:36

Was ist ein "current core"? Der eines Thuban ... der krebst ja mit Mühe auf dem Level eines Yorkfields rum, ein Lynnfield ist 20-30% obendrüber. Sofern es AMD nicht per Takt richtet [eher schlechte Idee], muss die IPC massiv rauf.

Savay

2010-09-08, 13:57:46

Sofern es AMD nicht per Takt richtet [eher schlechte Idee], muss die IPC massiv rauf.

die aussagen dazu sind wohl mit absicht so schwammig...zumal bei dem magny cours <-> BD vergleich auch keine taktraten genannt wurden.
zu diesem zeitpunkt über die IPC zu spekulieren ist wohl doch etwas vorschnell.

ich würde mal davon ausgehen das die jungs bei AMD wissen was sie tun und wo sie letztlich hin müssen um konkurrieren zu können...
die wissen ja selbst das die IPC der K10 derivate im vergleich zu intel momentan zu wünschen übrig lässt!
mit dem K7 haben sie ja damals auch nen heftigen sprung hingelegt und mit dem K8 ordentlich nachgelegt.

das sie stets für überraschungen gut sind haben sie schon bewiesen...wie es beim BD letztlich wirklich aussieht muss sich aber noch zeigen.

vom jetzigen informationsstand kann und sollte man da nun wahrlich nichts draus ableiten dafür ist es letztlich einfach noch zu früh.
die bisher veröffentlichten informationen dienen ja eh nur dazu die neue architektur bekannt zu machen und um ihre technischen vorteile ggü den traditionellen designs aufzuzeigen. :)

Ein Modul ist ein abgespeckter Dualcore, kein erweiterter Singlecore.

naja kommt immer auf die sichtweise an (ist das glass halb leer oder halb voll :tongue:)...ich würde eher "traditionell" nach frontend zählen...somit wäre es eher ein "erweiterter singelcore" :tongue: zumal der L2 und die FPU ebenfalls "geteilt" werden.
wenn der 2. kern halt wirklich nur 12% zusätzliche diefläche beansprucht kann man das ganze wirklich eher als "SMT++ Deluxe" bezeichnen.

sowieso sind bei CMT die grenzen zwischen "single" und "dual"core dermaßen aufgeweicht das man es eigentlich weder in die eine noch in die andere kategorie einordnen kann! :smile:
theoretisch könnte man das ganze CMT konzept ja auch soweit treiben, dass die ausführungseinheiten auf thread-level kombinierbar wären, was BD jetzt zwar nicht kann aber eigentlich mit entsprechend mehraufwand doch machbar sein sollte. :wink:

Gandharva

2010-09-08, 14:00:19

Im Prinzip ist es doch komplett egal wie viele "Kerne" eine CPU nun hat. Wichtig ist für den Endverbraucher nur was dabei hinten raus kommt und was es kostet.

y33H@

2010-09-08, 14:07:33

Mir sind wenige, niedrig getaktete, aber schnelle Kerne lieber ...

Savay

2010-09-08, 14:36:46

Was ist ein "current core"? Der eines Thuban .

du musst es auch mal so sehen:

welche core betrachtet er? im CMT fall oder wenn auf dem modul nur ein thread läuft? wieviel ist "faster"? ist die belastung symmetrisch oder asymmetrisch?

angenommen der vergleich bezieht sich auf einen dualcore K10 mit 2 threads und einem BD modul auf dem 2 threads laufen...wenn in dem fall die IPC pro "kern" höher ist, wird im "echten" single thread fall also bei 1 thread auf 2 K10 kernen und 1 thread auf 1 BD modul die IPC des BD ja nochmal um ca. 20% zulegen. :) zumal ja nichtmal klar ist auf welche CPU er sich bezieht ;) das sind schon eine menge fragezeichen finde ich! :D

da wir wissen das BD als 4 modul chip kommen soll ist das design eigentlich vom "load" balancing her gesehen ideal auf momtentane szenarien ausgelegt. im grunde gibt es ja eh nur:

a) 1-3 heavy load threads + evtl. einige helper threads
ergo eine asymmetrische last

oder
b) n-mal gleich gewichtete threads.
ergo eine symmetrische last

in fall a) greift der vorteil das man je einen dicken thread auf je einem modul laufen lassen könnte wodurch die höhere IPC im "nicht-CMT" fall zum tragen kommt und beim rest die niedriegere IPC im CMT fall garnicht auffällt da eh nicht performance relevant
in fall b) lässt man einfach möglichst viele threads laufen...womit die flächeneffizienz des BD ideal genutzt wird...zumal es in dem fall ja eh nicht auf eine pro thread gesehen höhere IPC ankommt sondern auf die insgesamte "breite" der CPU

Mir sind wenige, niedrig getaktete, aber schnelle Kerne lieber ...

das wird wohl nur die zeit zeigen...bis 4 threads skaliert ein 8 kern BD ja eh ideal wenn der scheduler des OS keinen bockmist baut (aber dank der besseren SMT optimierungen in modernen OS sollte das an sich kein thema mehr sein...CMT sollte sich ja nach aussen hin ähnlich verhalten :biggrin:)

ich gehe mal davon aus das der sweetspot für die energieeffizienz/skalierung bei 1 thread pro modul liegt...alles was darüber hinaus geht skaliert natürlich weit weniger steil was die absolute rechenleistung angeht aber steigert die rechenleistung pro fläche enorm womit die herstellung rentabler wird.

mit dem design schlagen sie im grunde 2 fliegen mit einer klappe wenn sie sich nicht zu dumm anstellen...
sollte ein BD-modul wirklich primär für einen vergleichsweise hohen durchsatz bei 1 thread konzipiert sein ist der "2. kern" eigentlich primär nur dazu da um mit möglichst geringem flächeneinsatz die multithreading leistung (in den fällen in denen dies möglich ist, da massiv parallel programmiert und im fall des 8kern-BD bei > 4threads) bestmöglich zu steigern.

falls das nicht der fall ist und das design wirklich nur auf größtmöglichem gesamtdurchsatz pro fläche ausgelegt ist...nunja dann wird es wirklich eher eine reine server CPU.
davon würde ich aber nicht ausgehen wenn man sich mal die traditionellen marktsegmente anschaut.

mein tipp ist das AMD versuchen wird die singlethread leistung pro modul bei EINEM thread auf augenhöhe mit den intel pendants zu bringen...im CMT fall liegen sie dann zwar "pro kern" mit der IPC unter der eines einzelnen intel kerns...was aber nicht tragisch wäre da in dem fall ggü. SMT und SMT-losen CPUs die flächeneffizienz immernoch um dimensionen besser wäre! bei parallelen berechnungen zählt ja eh weit weniger die absolute IPC pro thread als vielmehr die verfügbare gesamtrechenleistung. (sieht man ja prinzipiell auch im vergleich des X6 ggü. den 4 kern i7)
ich glaube nicht das sie sich darauf beschränken werden lediglich bei der flächeneffizienz gleichzuziehen...das wäre für den servermarkt zwar mehr als ausreichend...beschneidet sie aber unnötig in ihrem "kernmarkt" :smile:

mironicus

2010-09-08, 14:38:59

AMD ist immer wieder für Überraschungen gut. Da haben sie bei den neuen GPUs schon falsche Gerüchte im Vorfeld verbreitet um die Konkurrenz zu täuschen, bei den CPUs ist das sicherlich nicht anders.

y33H@

2010-09-08, 14:54:27

@ Savay

Für Server und generell massiv parallelisierte Anwendungen klingt das Modul-Konzept soweit bekannt super, die FPU scheint auch gut Dampf zu machen. Bleibt halt die Frage, was in Anbetracht von Single-/Dualthreaded-Anwendungen bzw. Spielen die IPC macht oder mit welchem Takt der BD antritt. Die Pipeline spricht nicht für ein Hochfrequenz-Design, ich schätze, in Sachen Takt wird man sich auch bei um die 3,0 GHz bewegen.

Savay

2010-09-08, 15:30:15

@ Savay
Bleibt halt die Frage, was in Anbetracht von Single-/Dualthreaded-Anwendungen bzw. Spielen die IPC macht

nunja die IPC wird jedenfalls nach oben gehen...das haben sie ja schon angekündigt. die frage ist nur wie stark! :biggrin:
und da gibt es einfach zuviele szenarien als das man schon jetzt verzweifelt die hände über den kopf zusammenschlagen sollte

wer schwarzmalen möchte kann natürlich nun behaupten das die single thread IPC im "non-CMT" fall nur minimal über einem K10 liegen wird. das bleibt aber nichts anderes als kaffeesatzleserei :redface:

denn im grunde kann man das weder aus dem magny cours <-> BD vergleich (da keine taktangaben) noch aus der aussage "die IPC wird höher sein als bei einem "current core"" ableiten. :smile:

S940

2010-09-08, 15:57:54

Die Pipeline spricht nicht für ein Hochfrequenz-Design, ich schätze, in Sachen Takt wird man sich auch bei um die 3,0 GHz bewegen.Hab ich was verpaßt und AMD hat schon die BD Pipeline bekannt gegeben ?
Oder plauderst Du gerade über NDA Material ? ;-)
Abgesehen davon - wenn BD nur mit 3 GHz käme - trotz 32nm hK Prozess und tieferer Pipeline - dann können sie sich einsalzen lassen :freak:

y33H@

2010-09-08, 16:02:26

Ah shit, die 15 stage Pipeline war Bobcat :usad: mea culpa.

Gast

2010-09-08, 17:54:37

y33H@

2010-09-08, 17:58:23

1 Modul mit 2 Threads erreicht 180% ergo erreicht 1 Thread dann 90% von der Single-Thread Leistung. So kann man das nicht rechen :facepalm:

Wir liegen nicht falsch. Dein gefetter Text spricht von zwei Threads in einem Modul, ein Modul aber liefert nur 80% eines DCs :rolleyes:
Compared to CMP (chip multiprocessing – which is, in simplistic terms building a multicore chip with each core having its own dedicated resources) two integer cores in a Bulldozer module would deliver roughly 80% of the throughput.

Gast

2010-09-08, 18:03:17

Die Pipeline spricht nicht für ein Hochfrequenz-Design, ich schätze, in Sachen Takt wird man sich auch bei um die 3,0 GHz bewegen.

Genau das Gegenteil scheint der Fall zu sein. Laut Andy Glew (ehemals AMD) hat der BD ein 17FO4 Design während der K8 in der letzten Revision ala K10 ein 22-23FO4 Design ist. Damit soll der BD bei gleichem Prozess einen um 20-25% höhere Taktrate erreichen können. Dazu kommen dann nochmal die ca. 30% des 32nm Prozesses...

Gast

2010-09-08, 18:04:15

So kann man das nicht rechen :facepalm:

Wir liegen nicht falsch. Dein gefetter Text spricht von zwei Threads in einem Modul, ein Modul aber liefert nur 80% eines DCs :rolleyes:

Nein!

Gast

2010-09-08, 18:12:42

Nein!

Nochmals ausführlicher weil du nicht lesen kannst:

John Fruehe August 30, 2010

It is all about throughput. To your question it is like 90% each.

One thread on one core = 100 units of throughput
Two threads on two cores in the same module = ~180 units of throughput
Two threads running on 2 cores in 2 different modules = ~200 units of throughput

Siehe oben H. Frühe spricht klar von 90%

+

1 Modul erreicht 180% mit 2 Threads (siehe oben) 180%/2 = 90% (wiederum siehe oben)

1 DC erreicht 200% bzw. wenn man die 2 Threads in 2 verschiedenen Modulen laufen lässt und sich dann 2 Module wie 1 einzelne Cores bzw. ein Dual-Core verhalten.

Ergo, 1 Thread von 2 Threads erreicht in einem Modul 90% der Leistung wie in einem DC und nicht 80%.

y33H@

2010-09-08, 18:16:23

Im Falle von Threads pro Modul/DC. Der Output pro Modul aber liegt bei 80% eines DCs. Siehe JF-Aussage oben und Hot Chips.

Gast

2010-09-08, 18:29:38

Im Falle von Threads pro Modul/DC. Der Output pro Modul aber liegt bei 80% eines DCs. Siehe JF-Aussage oben und Hot Chips.

Tja Prozentrechnung liegt halt nicht jedem :freak: + Kopfschüttel

Savay

2010-09-08, 18:30:22

Der Output pro Modul aber liegt bei 80% eines DCs.

naja da gibt es einfach 2 wiedersprüchliche aussagen...80% pro modul oder 180% für 2 threads. wer hat nun recht?

die frage ist ob sich die "80% im vergleich zum DC" nicht evtl. auf den zusätzlichen durchsatz des gesamten moduls im CMT fall bezogen haben oder eben doch auf den gemittelten gesamtdurchsatz des moduls im CMT fall im vergleich zu einer konventionellen dualcore CPU!? (als Basis werden übrigens so oder so einen hypotetischen BD DC genommen haben!) :wink:

wenn man das zitat vom 30. Aug. hernimmt sind es im CMT fall für einen der INT subkerne allerdings tatsächlich 90% des durchsatzes im vergleich zum selben modul im non-CMT fall also bei ausführung nur eines threads.

d.h. die IPC pro thread sinkt im CMT fall relativ zur single thread leistung des moduls gesehen natürlich um 10%....insofern hat der gast schon recht. ;)

puntarenas

2010-09-08, 18:49:45

Wir liegen nicht falsch. Dein gefetter Text spricht von zwei Threads in einem Modul, ein Modul aber liefert nur 80% eines DCs :rolleyes:
Außerdem reden wir ja von 80% eines fiktiven Dualcores, der überhaupt nicht existiert und von dem weder die IPC, noch die Taktziele, noch wie gut Globalfoundris den ersten Wurf hinbekommt, bekannt sind. Ich denke, da lohnt es nicht um Prozentpunkte zu feilschen. AMD wollte mit der Aussage sicher nur verdeutlichen, dass die eingesparten Einheiten bei der Modulbauweise keine allzu großen, praktischen Performancenachteile mit sich bringen.

Für mich liest es sich auch so, dass ein Bulldozer-Core eben kein vollwertiger Core ist, sondern ein Modul zwei Kerne beinhaltet, die sich Einheiten teilen müssen, also "2x80% oder 1x100" bezogen auf ein Phantom. AMD selbst hat bestätigt, dass sie Module nicht vermarkten werden, sondern statt eines Moduls gegenüber Kunden von zwei Kernen sprechen wollen, also ist das halt so. Wenn man unbedingt diese vollwertig und abgespeckt Nomenklatur weiter durchspielen möchte, dann bedeutet AMDs CMT eben "abgespeckte Dual-Cores" und Intels SMT eben aufgepeppte Einzelkerne.

Ist aber auch egal, entscheidend ist was hinten raus kommt und das wird je nach Anwendungsfall wohl ziemlich differieren. Ich vermute, dass Bulldozer im Serverbereich AMD die Möglichkeit geben wird, in gewissen Nischen sehr gut zu verdienen. Sie sprachen neulich ja sogar davon (Quelle hat der Hund gefressen), dass in gewissen Bereichen sogar Server auf Basis günstiger Low-Power-Prozessoren zur Anwendung kommen und haben IIRC von Bobcat als Serverausführung für diesen Markt geträumt. Bulldozer wird sich bestimmt dort behaupten, wo günstige, energieeffiziente Vielkernlösungen gefragt sind und die Single-Thread-Leistung nicht besonders kritisch ist und ich denke, um dort über den Preis zu konkurrieren, ist er entworfen worden.

Bulddozer in Form des AM3+ Abkömmlings Zambezi für uns Heimanwender wird IMHO ein größerer Flopp als schon der Phenom. Ich glaube nicht, dass AMD zur IPC der Sandy Bridge Familie aufschließen kann, ich denke sie werden sogar Nehalem deutlich verfehlen. Vielleicht bleibt es wenigstens beim Abstand von ~30% in Situationen, wo nur 4 hungrige Threads auf die Module verteilt werden müssen und ich drücke die Daumen, dass Microsoft nicht wieder zwei Windowsgenerationen braucht, bevor Windows sich nicht mehr verschluckt wenn es einen Zambezi sieht. Ich galube auch nicht an Vodoo-Magic, nach der sich ein Modul dann transformers-mäßig zu einem Single-Thread-Monster hochschraubt und quasi die unglaubliche Geschwindigkeit auf Geheis Lord Helmchens zündet. Wenn in Spielen die Modulbauweise wenigstens das angekündigte "2x80% oder 1x100%" erlaubt, ist in den meisten Fällen viel gewonnen, reichen wird es trotzdem nicht im direkten Vergleich. Dann glaube ich auch nicht, dass Zambezis erste Inkarnation bereits völlig problemlos vom Band läuft. Globalfoundries ist ein Wackelkandidat mit brandneuem Fertigungsprozessund und AMD erlebt die Geburt einer komplett neuen Architektur. Das Ganze launcht dann wenn alles glatt läuft irrgendwann im zweiten Quartal 2011, da läuft sich Ivy Bridge schon warm, wenn es dumm läuft für AMD ist sie sogar schon am Markt.

Alles Spekulation, aber für mich deutet eben Vieles darauf hin, insbesondere auch dass AMD zunehmend und in allen Bereichen das Lied vom "schnell genug" und "Stop talking about processors...
...Start talking about usage (http://www.forum-3dcenter.org/vbulletin/showthread.php?t=487633)" singt. Ich denke, der Kampf im Prozessormarkt ist an der Leistungsspitze erst einmal vorbei, AMD verscucht nur noch sich auskömmliche Nischen zu sichern und hat die performancehungrige Gamermeute aufgegeben, der Nachwuchs und Omi sitzen sowieso vor der Konsole. Bulldozer soll im Serverbereich Geld verdienen. Da man den Desktoprechner noch nicht vollkommen aufgeben will, kommt eben Zambezi, weil LLano dann doch ein wenig zu schwachbrüstig sein mag und weil es natürlich außer Gamern auch im Desktopbereich durchaus eine Nische gibt, wo die Leute massiv parallel rechnen lassen.

Ich habe übrigens keine Ahnung, aber erlaube mir dennoch diese Meinung zu haben. =)

Savay

2010-09-08, 18:54:03

also "2x80% oder 1x100" bezogen auf ein Phantom.

die %-angaben beziehen aber sich aber auf einen BD subkern und nicht auf den K10! :biggrin:

selbst der vergleich zum CMP system wird sich auf einen hypothetischen DC-BD beziehen...alles andere macht wenig sinn da AMD momentan einzig und allein die vorteile der CMT architektur aufzeigen möchte...ohne absolute vergleiche mit anderen architekturen zu implizieren!! :wink: in aller erster linie machen sie bisher werbung für das konzept der CPU...und keinesfalls für das fertige produkt. :D
woher hier der ständige vergleich mit dem k10 kommt ist mir schleierhaft...zumal es aus keiner der aussagen ableitbar ist. eher im gegenteil steht es im wiederspruch zur aussage die IPC würde "steigen". selbst wenn sich das im schlechtesten fall auf die 1 thread leistung pro modul bezieht kann 100%=K10 keinesfalls hinkommen :)

die einzigen daten die AMD im vergleich zum K10 genannt hat war der magny cours <-> 8 modul BD vergleich...und selbst da fehlt die angabe der taktrate so das daraus auch nahzu rein garnichts ableitbar ist :freak:

aylano

2010-09-08, 18:58:22

Im Falle von Threads pro Modul/DC. Der Output pro Modul aber liegt bei 80% eines DCs. Siehe JF-Aussage oben und Hot Chips.
Sehe es bitte doch ein, dass es eine widersprüchliche Aussage war.

Und wenn man die Kommentare vom John Frühes Blog darunter liest, dann erkennt man wie viele Leute eben davor an 180% statt 160% dachten, weil das AMD eben so davor vermittelt hat.
Das ist mehr als Merkwürdig.

y33H@

2010-09-08, 19:05:26

Nein, sehe ich nicht. Denn die +80 beziehen sich auf zwei Threads pro Modul, die 80% auf ein Modul verglichen mit einem imaginären BD-DC. Das passt zusammen und ist auch nicht widersprüchlich.

puntarenas

2010-09-08, 19:11:26

woher hier der ständige vergleich mit dem k10 kommt ist mir schleierhaft...
Ich für meinen Teil sprach von einem "Phantom", nicht von einem "Phenom", nur um Mißverständnisse zu vermeiden. :)

aylano

2010-09-08, 19:12:14

Das passt zusammen und ist auch nicht widersprüchlich.
Wenn man alle anderen Aussagen ignoriert, dann stimmt deine Aussage.

Wobei die 160% mir eh fast lieber wären.
Denn dann wäre Bulldozers Single-Thread-Performance ja noch um 20% schneller als wir lange Zeit dachten.

Deinorius

2010-09-08, 19:12:51

Na was denn, na was denn? Es ist noch immer nicht geklärt? oO Das kann doch nicht sein, dass AMD so ungenau erklärt hat.

Schöner und besser für AMD wärs aber, wenn IHR recht hättet. ;) Es können aber nur 80 % für einen kompletten DC gemeint gewesen sein. Das steht auf mehreren Seiten so.

Savay

2010-09-08, 19:14:24

Nein, sehe ich nicht. Denn die +80 beziehen sich auf zwei Threads pro Modul, die 80% auf ein Modul verglichen mit einem imaginären BD-DC. Das passt zusammen und ist auch nicht widersprüchlich.

tut es leider nicht...
in dem zitat steht ja das 1 modul single threaded 100% durchsatz bietet...ein BD DC wäre ja auch nichts anderes als ein 2 modul BD mit deaktiviertem CMT. ergo bietet ein 2 modul BD (welcher sich analog zu einem DC-BD verhalten sollte) bei 2 threads 200%...
wenn aber jetzt relativ dazu ein 1 modul BD mit aktivem CMT 180% bringt, passen die "80% pro modul" einfach nirgendwo rein. :redface:

wie dem auch sei...wie es wirklich aussieht werden wir so schnell garantiert nicht klären können!
aber tröste dich du wirst es bestimmt früher erfahren als die meisten hier im forum inkl mir. ;)

ich bin gespannt...und keineswegs so schlechter dinge wie der rest der schwarzseher hier :tongue:

y33H@

2010-09-08, 19:17:50

Die 80%-Aussage gab's vor dem 180%-Quatsch *SCNR*

Gast

2010-09-08, 19:18:45

die %-angaben beziehen aber sich aber auf einen BD subkern und nicht auf den K10! :biggrin:

Er schreibt ja auch Phantom und nicht Phenom ;)

Savay

2010-09-08, 19:25:43

Ich für meinen Teil sprach von einem "Phantom", nicht von einem "Phenom", nur um Mißverständnisse zu vermeiden. :)

ok tut mir leid dann nehme ich alles zurück... :wink: dein 30% vergleich haut damit aber immernoch nicht hin ;)

Die 80%-Aussage gab's vor dem 180%-Quatsch *SCNR*

mag sein...ohne irgendwelche handfesten zahlen kann man aber nicht sagen welche von den beiden aussagen nun quatsch ist...

aber das ganze ist eh irrelevant weil es über die absolute performance und die IPC nunmal rein garnichts verwertbares aussagt. :biggrin:

für die single thread performance eines moduls wären die 80% sowieso "zuträglicher".
mal angenommen die 180% im letzten zitat sind ein typo und sollten eigentlich 160% heißen, dann kann es nur nochmals deutlich besser werden mit der single threaded IPC pro modul. warum dann so grießgrämig!? ;)

Gast

2010-09-08, 20:26:28

Die 80%-Aussage gab's vor dem 180%-Quatsch *SCNR*

Link, oder du hast es geträumt. ;)

Gast Hitcher

2010-09-08, 20:35:05

Optimal wäre, wenn bei AMD Bulldozer beide Kerne eines Modules ca. gleich schnell wären.
Ein Singlethreaded IPC gibt es so nicht, wie bei Intel HT, es läuft ja nur ein Thread pro Kern.
Es hat keinen Vorteil, wenn ein einzelner Kern viel schneller ist, wenn der andere nichts tut.

Aber was man beim Bulldozer dann für maximale Leistung einer Anwendung machen kann,
ist den zweiten Kern pro Modul nicht zu verwenden, dafür den zweiten Thread auf einen anderen Kern eines anderen Moduls zu legen.
Die maximale Leistungsfähigkeit für mehrere multithreaded Programme, oder auch einfach für sehr viele singlethreaded Programme, die gleichzeitig laufen, sinkt aber dadurch. Das ist das Problem dabei.

y33H@

2010-09-08, 20:40:31

Die beiden Integer-Cores pro Modul sind gleich schnell.

@ #83

Die 80%-Aussage stammt von der Hot Chips.

Gast Hitcher

2010-09-08, 20:43:53

das war vielleicht ein Missverständnis.
Auf der Folie steht eindeutig das mit den 80% der Vergleich zu einem CMP (Vollwertiger Dualcore wie zB. AthlonII x2) gemeint ist.

Savay

2010-09-08, 20:47:05

ich glaube wir drehen uns im kreis :tongue:

To recapitulate this thread:

AMD Architects : IPC increases (Anand article commenting on the 2 ALUs an 16KB L1)

terrace215 post: IPC decreases, because of the 2 ALUs..
terrace215 post: IPC decreases, because of the 16KB caches
terrace215 post: IPC decreases, AMD presentation sheet no.X tells us so.
terrace215 post: IPC decreases, AMD presentation sheet no.Y confesses this.

JF-AMD posting: IPC increases!! instead of getting worse.

terrace215 post: IPC decreases, the marketing guy isn't talking about IPC
terrace215 post: IPC decreases, don't trust marketing guys.
terrace215 post: IPC decreases, Bulldozer is only optimized for server workloads.
terrace215 post: IPC decreases, AMD presentation sheet no.Y confesses this.

JF-AMD posting: IPC increases!!!! You are spreading FUD

terrace215 post: IPC decreases, AMD presentation sheet no.X tells us so.
terrace215 post: IPC decreases, The AMD architect says it decreases by 5%
terrace215 post: IPC decreases, because of the 2 ALUs..
terrace215 post: IPC decreases, AMD has given up improving IPC.

JF-AMD posting: IPC increases!!!!!!! How many times did I tell you!!!

forever{
terrace215 post: IPC decreases, because .....
terrace215 post: IPC decreases, says .... of AMD
terrace215 post: IPC decreases, according to AMD's presentation.
terrace215 post: IPC decreases, don't trust marketing guys.
terrace215 post: IPC decreases, because of the 2 ALUs..
terrace215 post: IPC decreases, the marketing guy isn't talking about IPC
terrace215 post: IPC decreases, because of the 16KB caches
terrace215 post: IPC decreases, AMD has given up improving IPC.
terrace215 post: IPC decreases, The AMD architect says it decreases by 5%
terrace215 post: IPC decreases, Bulldozer is only optimized for server workloads.
terrace215 post: IPC decreases, AMD presentation sheet no.X tells us so.
terrace215 post: IPC decreases, The more I post the more it decreases.
terrace215 post: IPC decreases, The more I post the more it decreases.
terrace215 post: IPC decreases, The more I post the more it decreases.
.....}
until (interrupt by Movieman)

Gast

2010-09-08, 20:52:21

Die beiden Integer-Cores pro Modul sind gleich schnell.

@ #83

Die 80%-Aussage stammt von der Hot Chips.

OK, gesehen.

Dann steht es jetzt Aussage gegen Aussage. Hat H. Frühe recht, oder stimmt die Hotchips-Präsentation.

http://images.anandtech.com/galleries/754/BulldozerHotChips_August24_8pmET_NDA-6_575px.jpg

Gast Hitcher

2010-09-08, 20:53:42

klar ist hier nicht ein Phenom K10.5 Dualcore gemeint, sondern einer von der neuen Bulldozer Architektur. Aber man hätte ja diesen auch als reinenen Dualcore bauen können, dann wäre der Bulldozer-Chip halt etwas größer geworden, und würde viel mehr Strom verbraten.

y33H@

2010-09-08, 21:07:12

@ Gast

Frühe bezieht sich im Bulldozer-Blog auf die Hot Chips. Daher und wegen den offiziellen Folien:

1 Modul = 80% eines DC

S940

2010-09-08, 21:12:24

@ Gast

Frühe bezieht sich im Bulldozer-Blog auf die Hot Chips. Daher und wegen den offiziellen Folien:

1 Modul = 80% eines DC
Ne ist auch falsch, JF meints so:
100 + 80 = 180.
http://www.amdzone.com/phpbb3/viewtopic.php?f=52&t=137899&start=25#p188219

y33H@

2010-09-08, 21:23:03

Dann weiß er nicht, was er will. Die HC-Folie ist eindeutig.

S940

2010-09-08, 21:30:06

Dann weiß er nicht, was er will. Die HC-Folie ist eindeutig.
Naja es ging darum, dass ein anderer User die 80% Aussage auf Dual Core hochgerechnet hatte und damit auf 160% kam.
Jetzt meinte er halt im neuesten Statement, dass das falsch sei, da es eben als 100+80% verstanden werden müsse.

Auf der einen Seite arg komisch, auf der anderen doch verständlich. Ein einzelner Kern läuft single thread nunmal Volldampf @100%.

AUf die Goldwaage würde ich das so oder so nicht legen, die 80% auf der HC Folie sind auch nur AVG Werte ... wahrscheinlich ist je nach Workload alles von 160-200% drin.

ciao

Alex

Gast Hitcher

2010-09-08, 21:32:11

waren auf den Folien nicht noch andere Fehler?
Wie die Cache-Size vom L1, nur als Kb angegeben? ;-)

Ich finde ja auch, dass wenn bei voller Auslastung der zweite Kern nur 60% vom ersten Kern erreicht, das schon etwas viel Verlust ist (rechzt ineffizientes Design).

Gut möglich, dass es sich hier um ein Missverständnis handelt.

Trap

2010-09-08, 21:47:18

Ich finde ja auch, dass wenn bei voller Auslastung der zweite Kern nur 60% vom ersten Kern erreicht, das schon etwas viel Verlust ist (rechzt ineffizientes Design).
Der 2. Kern erreicht natürlich 100% vom ersten, es gibt zwischen beiden Kernen ja keinen Unterschied (nach allem was aktuell bekannt ist).

Bei 80% der Leistung eines echtes Dual-Core würde jeder der beiden BD-Cores 80% leisten, nicht einer 100% und der andere 60%.

Gast

2010-09-08, 22:02:05

Wer weiss schon, ob man das so genau regeln, bzw. die Geschwindigkeit der Kerne genau synchronisieren kann.
Wahrscheinlich läuft eben einer gerade mit 100% (Thread mit höherer Priorität), und der ander muss dann eben etwas warten auf seine Daten.

Gast Acorn

2010-09-08, 22:25:41

Ich möchte mal was neues in den Raum werfen was bisher nicht so beachtet wurde, es gibt ja einen stark verbesserten Turbocore.

Jetzt die Frage: Möglichst wenige Module auslasten oder viele ?

y33H@

2010-09-08, 22:27:38

Solange die Anwendung nicht alle Module auszulasten vermag: Eins hochjagen [oder gar nur einen Int-Core] und den Rest per "power gating" abschalten.

(del)

2010-09-09, 00:27:52

naja da gibt es einfach 2 wiedersprüchliche aussagen...80% pro modul oder 180% für 2 threads. wer hat nun recht?Ich hab so ein Gefühl, daß das PR-Verdreherei vom gleichen Shice ist.

aylano

2010-09-09, 01:02:39

Manchmal passieren auch nur mal Fehler.
Sind ja auch nur Menschen.

Schrotti

2010-09-09, 02:05:06

Ich hoffe das die CPU ein FLOP wird damit all die Fanboys gehörig auf die Fresse fliegen (gerade im HWLuxx Forum).

Gast

2010-09-09, 04:41:10

Ich hoffe das die CPU ein FLOP wird damit all die Fanboys gehörig auf die Fresse fliegen (gerade im HWLuxx Forum).
:rolleyes: Wenn du sonst keine Probleme hast...

Ich hoffe, daß die CPU kein Flop wird. Ein bischen mehr Druck auf intel kann sich derzeit nur positiv bemerkbar machen. Auf der anderen Seite wird Sandy Bridge möglicherweise eine noch viel herbere Enttäuschung als Bulldozer.

Sandy Bridge will focus on power efficiency.
http://en.wikipedia.org/wiki/Sandy_Bridge_%28microarchitecture%29
Ob intel mit einer Notebook-CPU wirklich den Nerv der Zeit treffen wird, muß sich erst noch zeigen. - Manchmal ist weniger weniger.

Coda

2010-09-09, 05:37:29

Was soll an Sandy Bridge "floppen"? Erste Benchmarks hat man ja schon gesehen und die IPC ist höher - und das relativ zu bereits sehr beachtlichem Nehalem-Niveau.

Gast

2010-09-09, 09:46:13

Ich hoffe das die CPU ein FLOP wird damit all die Fanboys gehörig auf die Fresse fliegen (gerade im HWLuxx Forum).

Sowas kann halt auch nur von einem Fanboy kommen.

Gast

2010-09-09, 09:57:48

Was soll an Sandy Bridge "floppen"? Erste Benchmarks hat man ja schon gesehen und die IPC ist höher - und das relativ zu bereits sehr beachtlichem Nehalem-Niveau.

Für eine neue Architektur schauen sie allerdings auch nicht gerade überragend aus. 10-15% mehr IPC erreicht man häufig schon mit mehr Cache. Und bei der GPU hat AMD sowieso leichtes Spiel. AMD wird hier mit Bulldozer zumindest deutlich aufholen, denn ich kann mit nicht vorstellen das ein Bulldozer auch nur 10-15% mehr IPC herausholt gegenüber einem Phenom II.

Undertaker

2010-09-09, 10:36:07

Ronny145

2010-09-09, 10:45:30

Für eine neue Architektur schauen sie allerdings auch nicht gerade überragend aus. 10-15% mehr IPC erreicht man häufig schon mit mehr Cache. Und bei der GPU hat AMD sowieso leichtes Spiel. AMD wird hier mit Bulldozer zumindest deutlich aufholen, denn ich kann mit nicht vorstellen das ein Bulldozer auch nur 10-15% mehr IPC herausholt gegenüber einem Phenom II.

Sandy Bridge ist mehr ein weiter entwickelter Nehalem. Neue Architektur nicht wirklich nach all dem was bekannt ist. Eine neue Architektur alleine garantiert ja auch noch keine Wundersprünge, das muss Bulldozer auch erstmal beweisen, speziell im Desktop Bereich.

Gast

2010-09-09, 10:50:58

Bei Anandtech sieht es nach mehr als 10-15% aus, nicht den noch fehlenden Turbo vergessen. ;)
IPC ist ja zunächst nur ein Thema: Dazu kommt der Takt und für die Multithreadleistung natürlich auch noch die Kernzahl. Wenn man AMDs 50%-Aussage von Magny Cours zu Interlagos auch auf den Desktop-Bereich überträgt, hätten wir auch hier 50% Mehrleistung eines 4-Modul/8-Kerners gegenüber einem Thuban - was "nur" 13% mehr für das Produkt aus Takt und IPC ergäbe.
Man sollte sicherlich nicht die Schwierigkeiten einer Steigerung der Singlethreadleistung vergessen. Mit genügend Diefläche einfach extrem in die Breite zu gehen, den Takt zu senken und durch enorm viele Kerne nur eine sehr hohe Multithreadperformance zu erreichen ist nicht die große Ingenieurskunst.

Btw: Nicht BD mit Llano vermischen. Ersterer hat zunächst einmal keine GPU.

Die 50% sind völlig bedeutungslos. Das ein vier Modul Bulldozer mit nur vier FP-Einheiten bei FP-Code keine großen Luftsprünge gegenüber einen sechs Kern Istanbul machen wird sollte auf der Hand liegen. Jetzt mal abgesehen von neuen Befehlssätzen wie AXV.

Viel eher zu gebrauchen sind da die 70% mehr INT-Leistung, denn diese lassen sich zumindest bis zu einem gewissen Grad auch auf aktuelle Spiele übertragen. Auch wenn SpecINT ebenfalls kein guter Gradmesser ist. Man kann hier nur abwarten, aufgrund solchen Zahlen Aussagen zu treffen ist eigentlich hochgradig unseriös.

Sandy Bridge ist mehr ein weiter entwickelter Nehalem. Neue Architektur nicht wirklich nach all dem was bekannt ist. Eine neue Architektur alleine garantiert ja auch noch keine Wundersprünge, das muss Bulldozer auch erstmal beweisen, speziell im Desktop Bereich.

Das ist mir schon klar. Laut Intels Marketing ist es eben eine neue Architektur, also ein TICK.

Undertaker

2010-09-09, 10:54:31

Die 50% sind völlig bedeutungslos. Das ein vier Modul Bulldozer mit nur vier FP-Einheiten bei FP-Code keine großen Luftsprünge gegenüber einen sechs Kern Istanbul machen wird sollte auf der Hand liegen. Jetzt mal abgesehen von neuen Befehlssätzen wie AXV.

War die FPU nicht zu zwei mal 128Bit aufteilbar?

Gast

2010-09-09, 10:54:42

Ich hoffe das die CPU ein FLOP wird damit all die Fanboys gehörig auf die Fresse fliegen (gerade im HWLuxx Forum).
Sind solche Charakterzüge wirklich sinnvoll, diese offen zu legen? Würdest du das auch öffentlich machen, zB vor den Fabriken in Dresden, oder nur im Schutz der Anonymität?

Egal ob nun Intel Freunde weiterhin hier im Forum sich seelisch weiter befriedigen können oder nicht. Wichtig ist nur eines. Bulldozer sollte schon gut werden, denn....
...will das Unternehmen sogar bis zu 400 neue Arbeitsplätze schaffen. Damit würde sich die Zahl der direkt bei GlobalFoundries in Dresden beschäftigten Mitarbeiter auf 3100 erhöhen
....das ist wohl wichtiger für Deutschland als die einzelne persönliche Befriedigung. Man könnte auch sagen. Ist es sinnvoll, dass die deutsche Gesellschaft solche Charaktere weiterhin durchfüttert?

Gast

2010-09-09, 11:01:38

War die FPU nicht zu zwei mal 128Bit aufteilbar?

2x 64. 256-bit AVX Instructionen muss man in zwei Takten machen nach aktuellen Informationsstand.

Was man auf jeden Fall sagen kann nach allem was man heute weiß: Es wurde wirklich fast alles neu gemacht, alles überarbeitet, alles in Frage gestellt. Es ist kaum ein Stein auf den anderen geblieben. Den Vorgänger K10 erkennt man darin nicht mehr. Wir sprechen hier wohl von der ersten wirklich neuen Architektur auf dem x86 Markt seit Netburst. Das kann entweder ein gewaltiger Flop oder vielleicht auch eine gewaltige Überraschung.

Gast

2010-09-09, 11:03:39

2x 64. 256-bit AVX Instructionen muss man in zwei Takten machen nach aktuellen Informationsstand.

Was man auf jeden Fall sagen kann nach allem was man heute weiß: Es wurde wirklich fast alles neu gemacht, alles überarbeitet, alles in Frage gestellt. Es ist kaum ein Stein auf den anderen geblieben. Den Vorgänger K10 erkennt man darin nicht mehr. Wir sprechen hier wohl von der ersten wirklich neuen Architektur auf dem x86 Markt seit Netburst. Das kann entweder ein gewaltiger Flop oder vielleicht auch eine gewaltige Überraschung.

Edit: Jedenfalls würde AMD wegen vielleicht 10% mehr IPC sicherlich nicht ein solches Risiko eingehen meiner Bescheidenen Meinung nach. Denn in diesem Chip stecken mit Sicherheit seit Jahren ein Großteil der Ressourcen von AMD.

Undertaker

2010-09-09, 11:09:33

2x 64. 256-bit AVX Instructionen muss man in zwei Takten machen nach aktuellen Informationsstand.

Also zwei parallele 128Bit SSE-Befehle pro Modul sind nicht in einem Takt möglich?

Noch zur Architektur selbst: Diese wird ja sicherlich mit Blick auf die nächsten Jahre entwickelt wurden sein, nicht nur für die kommende erste Ausbaustufe. Mittelfristig dürfte die Bedeutung der reinen Singlethreadleistung abnehmen, wenn das Modul-Konzept neben der guten Skalierbarkeit auch flächeneffiziente Multicores erlaubt, lag der Fokus sicher nicht speziell im IPC-Bereich.

Ronny145

2010-09-09, 11:16:27

Das ist mir schon klar. Laut Intels Marketing ist es eben eine neue Architektur, also ein TICK.

Völlig unerheblich was das Marketing behauptet, drauf reinfallen muss man deswegen noch lange nicht.

Gast

2010-09-09, 11:24:44

Also zwei parallele 128Bit SSE-Befehle pro Modul sind nicht in einem Takt möglich?

Nein. So Aussagen wie 50% mehr als ein Istanbul oder 80% der Leistung eines Dual-Cores sind völlig nichtssagend wenn man nicht weiß was gebencht wird und was man sich unter einem fiktivem Bulldozer-Dual-Core vorstellen darf.

Aber das ist wohl auch Absicht, man lässt nur Scheininformationen durch das die Presse was zum Schreiben hat. Schlüsse kann man daraus nicht ziehen. Ja selbst Die-Shots werden ja sehr offensichtlich gefälscht um keinerlei Details zu erfahren die irgendwie auf die Leistungsfähigkeit schließen lassen.

Noch zur Architektur selbst: Diese wird ja sicherlich mit Blick auf die nächsten Jahre entwickelt wurden sein, nicht nur für die kommende erste Ausbaustufe. Mittelfristig dürfte die Bedeutung der reinen Singlethreadleistung abnehmen, wenn das Modul-Konzept neben der guten Skalierbarkeit auch flächeneffiziente Multicores erlaubt, lag der Fokus sicher nicht speziell im IPC-Bereich.

AMD ist sich sehr wohl bewusst das Single-Thread Leistung für viele Anwendungen unerlässlich ist, auch in Zukunft. Vier Module und acht Threads im High-End sind ja auch eher wenig, Intel wird hier wohl mindestens sechs Kerne / zwölf Threads auffahren. Ich sehe hier also keine hohe Multithreadleistung, ganz im Gegenteil.

Was man sagen kann ist das sich AMD in einigen Punkten deutlich an der Power-Architektur von IBM orientiert hat, man hat ja in der Vergangenheit auch öfter kleinere Andeutungen in diese Richtung gemacht. Mich würden deshalb vorallem hohe Taktraten >5Ghz nicht wundern.

Gast

2010-09-09, 11:27:32

Man sollte sicherlich nicht die Schwierigkeiten einer Steigerung der Singlethreadleistung vergessen.

http://citavia.blog.de/2010/08/27/a-quick-round-of-links-9265110/

IMHO nicht ganz ernst gemeint. Die Richtung stimmt aber IMHO:

A quick and raw estimation of single threaded performance for Zambezi based on the 50% number given for Interlagos (just to show, what has to be counted in at the least):

Relative_perf_1_thread_to_AMD_fam_10h = (Perf_Magny_Cours*1.5 * 12 / 16) * Freq_ratio_of_half_#_of_Cores * Perf_boost_single_core_in_Module * Perf_boost_single_module_on_chip

Freq_ratio_of_half_#_of_Cores = 3.2/2.3 = 1.39
Perf_Magny_Cours = 1
Perf_boost_single_core_in_Module = 1.11 (while going from 90% back to 100%)
Perf_boost_single_module_on_chip = 1.3 (some cheap turbo)

Relative_perf_1_thread_to_AMD_fam_10h = (1 * 1.5 * 12/16) * 1.39 * 1.11 * 1.3 = 2.26

So with some frequency scaling a Zambezi core will be about 126% faster than a core running in a 2.3GHz MC without turbo. This would equal a 5.2GHz PhII core.

This is just speculation. Anyone is invited to check this.

S940

2010-09-09, 11:33:27

2x 64. 256-bit AVX Instructionen muss man in zwei Takten machen nach aktuellen Informationsstand.

Ja und Nein ;-)
Für 256bit AVX Befehle müssen 2x128bit MacroOps erzeugt werden, die dann vermutlich auch zwei 128bit Register belegen. Aaaber: Das wird dann trotzdem in einem Rutsch durch die zwei 128bit FMAC Pipes im Parallelbetrieb erledigt.

Optimaler Ansatz, 256bit Befehle braucht erstmal eh keiner. Da ist 2x128 pro Takt besser als 1x256. Sandy Bridge ist nicht so flexibel, der kann nur je 1x128 Add/Mul oder 1x256 Add/Mul pro Takt ausführen, da die Ports nicht doppelt sind.
Bevor Rückfragen sind, bitte diesen Artikel lesen:
http://www.realworldtech.com/page.cfm?ArticleID=RWT082610181333
Auszug:
http://www.realworldtech.com/includes/images/articles/bulldozer-5.png

Edit:
Da im obigen Artikel das Zusammenschalten der 2 128bit Pipes nur spekulativ behandelt wird, hier die Bestätigung von JF:
Interlagos = 8 256-bit FPUs. When running non-AVX code, they are 16 128-bit FPUs; we have "Flex FPU" which allows a 256-bit unit to be scheduled as 2 128-bit FMACs.
http://www.amdzone.com/phpbb3/viewtopic.php?f=52&t=137432&hilit=256+fpu&start=850#p185412

ciao

Alex

Gast

2010-09-09, 11:36:45

Mittelfristig dürfte die Bedeutung der reinen Singlethreadleistung abnehmenSie wird nie abnehmen. Singlethread-Leistung ist beim Multithreading die Leistung pro Thread :ugly: Wir haben bei privaten Anwendern aktuell die Situation, daß 2 Threads für viele Sachen tauglich sein können und 4 Threads sich für einiges eignen. Da wo es am leichtesten ist, versucht man eher GPGPU zu machen und das bringt auch am meisten etwas.

Eine Änderung der Situation durch neue Programmierlehren und an die Hand nehmenden Entwicklerwerkzeuge sehe ich auch "mittelfristig" nicht auf uns zukommen.

Gast

2010-09-09, 11:41:40

Edit:
Da im obigen Artikel das Zusammenschalten der 2 128bit Pipes nur spekulativ behandelt wird, hier die Bestätigung von JF:

http://www.amdzone.com/phpbb3/viewtopic.php?f=52&t=137432&hilit=256+fpu&start=850#p185412

ciao

Alex

Okay, dann war mein Kenntnisstand veraltert. Danke.

Gast

2010-09-09, 11:43:56

Was man sagen kann ist das sich AMD in einigen Punkten deutlich an der Power-Architektur von IBM orientiert hat, man hat ja in der Vergangenheit auch öfter kleinere Andeutungen in diese Richtung gemacht. Mich würden deshalb vorallem hohe Taktraten >5Ghz nicht wundern.Mich schon. Gut beschäftigt zieht ein >5 Ghz Power knappe 200W. Viel Glück.

Odal

2010-09-09, 11:50:00

:rolleyes: Wenn du sonst keine Probleme hast...

Ich hoffe, daß die CPU kein Flop wird. Ein bischen mehr Druck auf intel kann sich derzeit nur positiv bemerkbar machen.

Hier geh ich mit, ein starker Bulldozer würde auf jedenfall gut für uns Konsumenten sein.

Sind solche Charakterzüge wirklich sinnvoll, diese offen zu legen? Würdest du das auch öffentlich machen, zB vor den Fabriken in Dresden, oder nur im Schutz der Anonymität?

Egal ob nun Intel Freunde weiterhin hier im Forum sich seelisch weiter befriedigen können oder nicht. Wichtig ist nur eines. Bulldozer sollte schon gut werden, denn....

....das ist wohl wichtiger für Deutschland als die einzelne persönliche Befriedigung. Man könnte auch sagen. Ist es sinnvoll, dass die deutsche Gesellschaft solche Charaktere weiterhin durchfüttert?

diese Argumentation ist blödsinn ob AMD/GF in Deutschland ihre Chipfertigungsbelegschaft von 3000 auf 3400 aufstockt ist "sozialwirtschaftlich" gesehen in einem 83Mio Land absolut nichtig.

Ich möchte mal was neues in den Raum werfen was bisher nicht so beachtet wurde, es gibt ja einen stark verbesserten Turbocore.

Jetzt die Frage: Möglichst wenige Module auslasten oder viele ?
Solange die Anwendung nicht alle Module auszulasten vermag: Eins hochjagen [oder gar nur einen Int-Core] und den Rest per "power gating" abschalten.

Ein "besserer" Turbo holt im Prinzip auch nicht mehr Single/Dualthreaded Leistung raus sondern senkt den Verbrauch und Boardspezifikationskosten bei solchen Anwendungen

denn ob ich nur einen Core hochtakte oder mehrere erhöht zwar den max. Takt des Cores etwas aber nicht wesentlich

Im Prinzip nur eine Gegenmaßnahme zur gezwungenen ökonomischen Fehlentwicklung immer mehr Cores, wovon ein Großteil die meiste Zeit brach liegt.

Effizienzmässig wäre aber natürlich eine fast 100% Auslastung aller Module/Cores bei möglichst geringem Takt/Spannung das beste

Gast

2010-09-09, 11:54:32

Das sind doch auch komische Rechnung. 5GHz bei voller Last 200W. Ob nun eine Anwendung 200W Verbraucht, oder die gleiche Anwendung bei doppelter Zeit 100W, was macht das für einen Unterschied.
Wichtig ist, was es kostet, welche Leistung man am Ende hat und was im Idle Verbraucht wird. Man muss das immer im Ganzen sehen. So einzelnes picken ist unbedeutend.

Undertaker

2010-09-09, 11:59:20

Sie wird nie abnehmen.

Sie tut es schon. ;) Im Serverbereich reden wir teils gar über eine Entwicklung zurück: Ein 12-Kern Magny-Cours dürfte pro Thread teils sogar von den letzten Ausbaustufen der K8-Opterons überholt werden... Solange die Kernzahlen steigen und die Parallelisierbarkeit mitspielt, ist das ja auch kein Problem.

Im Desktopbereich sind wir sicherlich noch nicht ganz so weit - aber auch hier: Was ist denn in der letzten Zeit in diesem Bereich passiert? Ein 980X ist im Schnitt wohl kaum mehr als 40-50% schneller pro Thread als der über 4 Jahre alte X6800 - während er bei Volllast locker Faktor 5 und mehr führt. Die Grenzen bzgl. weiterer Steigerungen der Singlethreadleistung sind so eng gesteckt, dass wir ganz zwangsläufig früher oder später Wege finden müssen, von ihr wegzukommen. Für ein paar Prozent Leistungsgewinn würde keiner aufrüsten.

Gast

2010-09-09, 12:06:21

(del)

2010-09-09, 12:26:28

Sie tut es schon. ;)Äähhh... Reden wir jetzt über IPC-Effizienz oder einfach nur allgemein über die Singlethreadleistung? Das sollte man schon differenzieren...
Mit den Jahren ist mein FaststoneViewer nicht gerade lahmer geworden ;) 5Ghz Quad oder DuoModul bei 95W ist halt nicht und den Weg des P4 wird keiner mehr gehen.

Was zahle ich also für eine spürbar gesteigerte Singlethreadleistung, was zieht das aus der Stockdose, welchen Kühler für wieviel brauche ich, wie laut wird dann das ganze.
Es fällt mir momentan irgendwie auch schwer zu verstehen, in welchen Fällen Singlethreadleistung nicht mit der Multithreadedleistung zusammenhängt.
Falls man nicht gleich von bisschen parallel auf massiv parallel umsteigen kann -> Apache von Xeon auf Niagara oder so.

edit:
Die einzige Idee von den immer engeren Grenzen bei Singlethreadleistung wird doch schon realisiert und der Weg ist klar: GPGPU-Einheiten in CPUs. Entweder man wird schneller, weil man GPGPU rechnet oder man wird auf der CPU schneller, weil man sie mit GPGPU entlastet.

Andere großartige Ideen wie man singelthred und auch multithread auf den CPU-ALUs spürbar verbessern kann, außer mit IPC und/oder höheren Takten, sehe ich nicht am Horizont und "Horizont" ist schon mindestens mittelfristig.

Pirx

2010-09-09, 12:26:49

...
diese Argumentation ist blödsinn ob AMD/GF in Deutschland ihre Chipfertigungsbelegschaft von 3000 auf 3400 aufstockt ist "sozialwirtschaftlich" gesehen in einem 83Mio Land absolut nichtig.

...
und in einer 7Mrd.-Welt noch viel nichtiger, aber in einer 500T-Stadt doch nicht ganz so nichtig:rolleyes:

Odal

2010-09-09, 12:47:06

@Odal
Es geht ja nicht nur um die 400 Menschen, die Arbeit haben und Geld verdienen und weiterhin ihren Beitrag in unserer Gesellschaft leisten. Auf der einen Seite geht es dir darum, dass Intel mehr Druck erfährt, auf der anderen Seite sind dir die 400 Menschen mehr völlig egal für dein wirtschaftliches Verständnis. Ziemlich paradox würde ich sagen. Es werden ja jetzt 400 Menschen mehr eingestellt und wenn Bulldozer gut werden soll, kann dies zu noch mehr Einstellungen führen. Auch gibt es dadurch mehr Einnahmen für die umliegenden Geschäfte. Ein erfolgreicher Bulldozer und entsprechenden Verkauf, bringt einfach mehr. Ein Flop kann auch zu Entlassungen führen und noch weniger Einnahmen für umliegende Geschäfte. Man muss schon das Ganze. Somit würde ich eher sagen, dass deine Meinung etwas kurz gedacht ist.

Nun ich kalkulier das folgendermaßen:

es gibt genau 2 relevante Hersteller für Consumer CPUs, wenn AMD davon abkackt sind das genau 50% und die Wahlmöglichkeit fällt weg

das statistische Bundesamt spricht von einer erwerbsfähigen Bevölkerung >32Mio das sind 0,00125% selbst wenn der Laden in Dresden komplett dicht machen würde könnte man die Auswirkungen noch nichtmal als Messtoleranz betiteln

Im einzelfall und aus subjektiver Sicht von Betroffenen betrachtet sieht die Relevanz ganz anders aus, aber nüchtern betrachtet ist es "ein tropfen auf den heißen Stein" , nichtig, nicht relevant...wie man es auch betiteln mag

Wenn man schon eine Soziale Komponente in Hardwarediskussionen einbringt sollten diese auch wenigstens relevant sein.

Das sind doch auch komische Rechnung. 5GHz bei voller Last 200W. Ob nun eine Anwendung 200W Verbraucht, oder die gleiche Anwendung bei doppelter Zeit 100W, was macht das für einen Unterschied.
Wichtig ist, was es kostet, welche Leistung man am Ende hat und was im Idle Verbraucht wird. Man muss das immer im Ganzen sehen. So einzelnes picken ist unbedeutend.

Die gleiche Anwendung bei voller Last verbraucht ja dann nicht nur 200W.
Der maximal Takt ist ja Spannungsabhängig und diese wirkt sich ja nicht nur linear auf den Verbrauch aus (zusätzlich zum linearen anstieg durch Takterhöhung)

Ökonomisch ist das jedenfalls nicht eine nicht Zeitkritische Anwendung auf 5GHz bei voller Last 50% der Zeit laufen zu lassen (mal von deutlich erhöhter Ausfallrate abgesehen).

Gast

2010-09-09, 14:37:38

@Odal
Mit deiner Diskussion zu meinem Beitrag, der die Folge aus diesem charakterschwachen Beitrag war, muss ich dich fragen. Siehst du diesen Beitrag als sinnvoll an? Sind für dich 400 mehr Arbeitsplätze, die ja jetzt schon wegen BD und Llano besetzt werden sollen eine Diskussion wert um dies zur Nichtigkeit zu erklären, als dieser schon praktisch völlig gegen die Gesellschaft gerichteter Beitrag?

Deine Rechnung lässt mich eben diese Frage stellen. Nach deinem Beitrag sieht man also, dass dich die 400 Arbeitsplätze nicht berühren, weil du persönlich keinen Nutzen davon hast. Deswegen kann ich deine Rechnung verstehen. Ich sehe aber eben einen anderen Standpunkt und argumentiere nicht nur was mir am nächsten ist.

2010-09-09, 19:53:04

Deine Rechnung lässt mich eben diese Frage stellen. Nach deinem Beitrag sieht man also, dass dich die 400 Arbeitsplätze nicht berühren, weil du persönlich keinen Nutzen davon hast. Deswegen kann ich deine Rechnung verstehen. Ich sehe aber eben einen anderen Standpunkt und argumentiere nicht nur was mir am nächsten ist.
Hallo Gast!

Es ist schon richtig, daß AMD im Gegensatz zu intel neben technischen Aspekten auch weitere (und in meinen Augen schwerwiegende) Argumente in die Waagschale werfen kann. Mir ging es in diesem Thread jedoch in erster Linie um die technische Seite des Bulldozer. So sehr sich viele ein gutes Abschneiden AMDs neuer CPU-Generation wünschen, muß man doch sehen, daß es auch technisch voran gehen muß. Letzten Endes sind aktuelle Highend-PCs in meinen Augen reiner Luxus für Privatanwender. Wem Dresden als Standort von AMD am Herzen liegt, der wird sicherlich auch mit einem 'normalen' Phenom oder Thuban glücklich. Für den Fall das Bulldozer flopt, wird man imho auf Thuban zurückkommen und diesen dann im neuen Fertigungsprozess mit erheblich höheren Taktzahlen auf den Markt bringen können.

BTT:
Um was es hier jedoch eigentlich geht, ist die Frage inwieweit AMD mit Bulldozer eine kompromisslos leistungsfähige CPU auf den Markt bringt. In meinen Augen läuft man bei Bulldozer Gefahr zuviel Wert auf Energiesparmaßnahmen zu legen. Man hätte ja durchaus auch 2 vollwertige Kerne in ein Modul packen können. Ob die Rechnung mit den 'siamesischen Zwillingskernen' von AMD aufgeht wird erst die Zukunft zeigen. Ich habe da Bedenken, weil ein Taskscheduler imho durchaus nicht in der Lage ist zu erkennen, ob er einen wichtigen Thread einem freien Modul oder nur einem vermeintlich freien Kern innerhalb eines Moduls zugeteilt hat, welches eigentlich bereits zu 100% ausgelastet ist. Ich befürchte, daß man unter Windows bei einem 4-Modul-Bulldozer im Taskmanager schöne 8 freie Cores angezeigt bekommt. Bei einem 100%-Thread werden es dann immernoch 7 freie Cores sein, obwohl es technisch eigentlich nur noch 6 sind. Da ich Windows und anderer Software nicht zutraue, daß die Kerne sinnvoll belegt werden, kann dies eigentlich nur über ein spezielles Bulldozer-Patch passieren, welches dafür sorgt, daß alle ungeraden Cores grundsätzlich NICHT VERWENDET werden, um maximale Performance zu erreichen. Dies wird jedoch nicht lange unbemerkt bleiben. Ich denke mir, daß die Leute die ihr Geld in einen Bulldozer HexaCore (3 Module) gesteckt haben nicht erfreut sein werden, wenn sie im Nachhinein erfahren, daß sie in der Praxis eigentlich nur einen guten Tri-Core besitzen.

Langer Rede kurzer Sinn:
Ich befürchte, daß die Bulldozer-Module später in der Praxis nur als einfache Cores sinnvoll genutzt werden können. Hieraus wird sich möglicherweise ein ganz erheblicher Performancenachteil im Gegensatz zu den bisherigen AMD-CPUs und auch zu den intel-CPUs ergeben (HT läßt sich ja ohne weiteres deaktivieren - der zweite Kern in einem Modul wohl eher nicht). Während ich in synthetischen Benchmarks durchaus noch mit vorzeigbaren Werten rechne, befürchte ich bei Spielebenchmarks ein Debakel. Daher der Threadtitel.

Das Hauptproblem welches Bulldozer imho haben wird, ist die Frage wie er vermarktet wird. Man hatte bei AMD die Wahl: Wenn man einen 4-Modul-Bulldozer korrekt als QuadCore vermarktet hätte (wie intel es mit seinen HT-Cores gemacht hat), dann hätte er im Energieeffizienz-Vergleich zu anderen QuadCores eher bescheiden abgeschnitten. Vermarktet man ihn als OctaCore, dann wird er im Bereich Energieeffizienz alles andere weit hinter sich lassen. Das Problem ist nun, daß ein solcher 'OctaCore' leistungsmäßig in der Praxis möglicherweise nicht über das Niveau eines QuadCore hinauskommen wird. Bei AMD ist man offensichtlich zu der Überzeugung gelangt, daß das Energiespar-Argument besser vermarktet werden kann. Ich befürchte nun, daß man sich da gewaltig in etwas verrannt hat. Die AM3+ -Käufer werden imho in erster Linie auf die tatsächliche Leistung schauen. Das Image eines Pseudo-OctaCores wird der 4-Modul-Bulldozer imho nicht überleben.

Aber wer weiß - vielleicht machen wir uns alle ganz unnötig Sorgen und so ein Bulldozer-Modul wird auch in der Praxis sinnvoll nutzbar sein. - Damit wäre dann ja der Beweis erbracht, daß alle bisherigen CPU-Designs mit vollwertigen Cores vollkommen schwachsinnig waren.

Gegenüber einem Modul mit nur einem Integer-Kern – also einem klassischen "Kern" – kostet der zweite Integer-Kern rund 12 Prozent an Fläche (gemessen an einem Modul), dennoch soll die Leistung laut AMD im Mittel bei 80 Prozent der Leistung eines echten Zweikern-Prozessors liegen.
http://ht4u.net/reviews/2010/amd_bulldozer_preview/index2.php

Die Botschaft hör ich wohl, allein mir fehlt der Glaube
Faust, Goethe

Pirx

2010-09-09, 20:02:36

Das funktioniert doch bei Intel's HTT auch, daß zuerst die "echten" Kerne verwendet werden (wenn ich mich nicht irre;))
Außerdem "kostet" der 2. Integer-Kern doch nur recht wenige Transistoren...

Gasti

2010-09-09, 20:10:25

BTT:
Um was es hier jedoch eigentlich geht, ist die Frage inwieweit AMD mit Bulldozer eine kompromisslos leistungsfähige CPU auf den Markt bringt. In meinen Augen läuft man bei Bulldozer Gefahr zuviel Wert auf Energiesparmaßnahmen zu legen. Man hätte ja durchaus auch 2 vollwertige Kerne in ein Modul packen können. Ob die Rechnung mit den 'siamesischen Zwillingskernen' von AMD aufgeht wird erst die Zukunft zeigen. Ich habe da Bedenken, weil ein Taskscheduler imho durchaus nicht in der Lage ist zu erkennen, ob er einen wichtigen Thread einem freien Modul oder nur einem vermeintlich freien Kern innerhalb eines Moduls zugeteilt hat, welches eigentlich bereits zu 100% ausgelastet ist. Ich befürchte, daß man unter Windows bei einem 4-Modul-Bulldozer im Taskmanager schöne 8 freie Cores angezeigt bekommt. Bei einem 100%-Thread werden es dann immernoch 7 freie Cores sein, obwohl es technisch eigentlich nur noch 6 sind. Da ich Windows und anderer Software nicht zutraue, daß die Kerne sinnvoll belegt werden, kann dies eigentlich nur über ein spezielles Bulldozer-Patch passieren, welches dafür sorgt, daß alle ungeraden Cores grundsätzlich NICHT VERWENDET werden, um maximale Performance zu erreichen. Dies wird jedoch nicht lange unbemerkt bleiben. Ich denke mir, daß die Leute die ihr Geld in einen Bulldozer HexaCore (3 Module) gesteckt haben nicht erfreut sein werden, wenn sie im Nachhinein erfahren, daß sie in der Praxis eigentlich nur einen guten Tri-Core besitzen.

Ich glaube nicht, dass du das Konzept verstanden hast.
Nur weil ein Integercore unter Vollast steht ist der zweite noch genau so nutzbar.
Es ist eben nicht wie SMT.

Savay

2010-09-09, 20:18:09

(...)Das Problem ist nun, daß ein solcher 'OctaCore' leistungsmäßig in der Praxis möglicherweise nicht über das Niveau eines QuadCore hinauskommen wird.(...)

öhm...im CMT fall sinkt laut AMD der duchsatz um durschnittlich ca. 10%. :freak:

bei ner aktuellen SMT CPU legt die leistung unter multithreading ja auch enorm zu...beim i7 im schnitt 25%...bei den dual cores gar noch mehr!!!
warum sollte sich bei CMT da bitte aufeinmal ein undurchdringlicher flaschenhals ergeben wenn das frontend gleich so designed wird das man beide subcores im CMT fall ausreichend genug füttern kann? :rolleyes:

wenn man im übrigen einfach 2 weniger breit dimensionierte (um die größe nicht explodieren zu lassen!) frontends verbauen würde ergibt sich allerdings das problem das man unter singlethreading unter umständen keinerlei vorteile durch das "breitere" frontend hätte...nochdazu verbrät man damit unnötig transistoren und ist letzten endes weniger flexibel. im grunde genommen hätte man dann nen stinknormalen dualcore gebaut. :)

bei CMT geht es um größtmögliche flächeneffizienz und das erreicht man nicht in dem man stumpf einfach alles dupliziert. :)

Trap

2010-09-09, 20:24:00

Aber wer weiß - vielleicht machen wir uns alle ganz unnötig Sorgen und so ein Bulldozer-Modul wird auch in der Praxis sinnvoll nutzbar sein. - Damit wäre dann ja der Beweis erbracht, daß alle bisherigen CPU-Designs mit vollwertigen Cores vollkommen schwachsinnig waren.
BD hat pro Modul 2 vollwertige Integer Cores und einen Floating Point Core.

Neu ist die Idee auch nicht, das haben die Ultrasparc T1/T2 auch schon getrennt, eventuell auch schon andere davor.

(del)

2010-09-09, 23:50:30

warum sollte sich bei CMT da bitte aufeinmal ein undurchdringlicher flaschenhals ergeben wenn das frontend gleich so designed wird das man beide subcores im CMT fall ausreichend genug füttern kann? :rolleyes:Du glaubst doch wohl nicht daß der eher ruhen wird bevor Bd endlich wirklich schlecht im Thread dasteht. Er hat den Thread nicht umsonst aufgemacht.

Jetzt muß der Bd schon "kompromisslos leistungsfähige CPU" sein. Sonst taugt das nicht die Bohne :rolleyes: Diese billige virale Anti-PR-Kacke. Ich weiß schon warum ich nie ein Mod sein dürfte...

Deinorius

2010-09-10, 00:03:46

Müsste der Scheduler überhaupt erkennen, welcher Core im Modul die Hauptlast erzeugen kann? Für mich wirkt das im Gegensatz zu HT, als wärs wurscht. Und ich mein jetzt nicht, dass es egal ist, dass es dann entweder 100 oder 80 % an Leistung erreicht, sondern dass der Core mit der höheren Last automatisch die 100 % erreicht, egal welcher angesprochen wird.

Gast

2010-09-10, 00:12:26

BD wird in Games über 70% vor Thuban liegen, AMD war in Games schon immer mit ganz oben, alles andere wird durch mehr Takt gezaubert, es gibt keine Nachteile durch Befehlserweiterungen, AMD hat alle SSE & AVX einheiten!

Gast

2010-09-10, 06:47:07

AMD ist nicht nur für Spiele gut.

Betrachtet man Rendering Benches sieht man, dass ein X6 1090T völlig alleine da steht und keine Konkurrenz hat. Erst der über 550€ teurere i7 970, kann ein spürbares mehr an Leistung bringen. Allerdings bekommt man für die 800€, die ein i7 970 kostet, einen kompletten Rechner inkl der fortschrittlicheren AM3 Plattform. Für das gesparte Geld kann man sich mehrere 2TB Platten kaufen um auch wirklich die Leistung der CPU zum Rendern nutzen zu können. Dazu dann noch SSDs. Da kann Intel nicht einmal im Ansatz mithalten beim P/L Verhältnis.
Hier wird halt gerne immer nur eingeschränkt argumentiert, eine objektive Diskussion sehe ich hier nicht. Klar hat Intel Vorteile, aber eben auch Nachteile. Allerdings wird nur über die Intel Vorteile geredet, die Nachteile werden verschwiegen. Es sind halt mehrheitlich Intel Freunde hier am schreiben und nach den Beiträgen hier kann man auch sagen, dass 80% wenig mit dem Begriff Objektivität was anfangen können. 10% sind dann noch die AMD Hasser, deren Beiträge offensichtlich und auch etwas versteckt ganz klar ihre Partei erkennen lassen.

Bis jetzt hat dieser Thread Null Erkenntnis gebracht über die mögliche Leistung von Bulldozer. Alles nur ein Schlagabtausch, versteckt in so möchte gern Experte Argumente, bei dem jeder nur darauf wartet offizielle Benches des Bulldozers zu sehen, um sich dann seelisch daran zu ergötzen oder eben als seelischer Haufen zurück zu bleiben.
Alles in allem sehr kindisch was hier so abgeht.
Ich bin mir sicher, dass Intel Mitarbeiter, die daran beteiligt sind an der Entwicklung von Prozessoren nur darüber lachen können, was hier so abgeht. Ich behaupte sogar dass es für diese Fachleute eine Strafe wäre diesen Mist zu lesen, der hier verzapft wird.

=Floi=

2010-09-10, 07:59:28

der kommentar ist ja ein totaler fail ;D

die AM3 platform ist tot und nicht fortschrittlicher! zeig doch mal die renderenig benchmarks, wo der 1090 alleine da steht?!

Gast

2010-09-10, 08:23:12

der kommentar ist ja ein totaler fail ;D

die AM3 platform ist tot und nicht fortschrittlicher! zeig doch mal die renderenig benchmarks, wo der 1090 alleine da steht?!

Wenn man deutsche Sätze mit einem englischen Wort paart, sollte es trotzdem irgendwie zusammen passen. Dein Satz klingt wie der CPU. Auf deutsch bedeutet dein Satz. Dein Kommentar ist ja ein totaler fehlen, mangeln, scheitern, fehlgeschlagen usw.
Auch verstehe ich Sätze nicht die am Ende ein ? und ein ! haben. Das gibt es in der deutschen Spreche nicht. Dieser Satz, zeigt doch mal Benches wo der...
Wenn dann schreibt man, zeigt doch mal Benches in den der X6 oder in der die CPU usw.
Rendering wird so geschrieben.

Warum ich deine Rechtschreibung kritisiere. Nun das ist ganz einfach. So mal schnell ein paar Wörter in den Raum knallen und mir ein fail zu unterstellen zeigt eben keine Diskussionskultur.

Nun gut, trotzt deiner Schwäche traue ich dir zu, dass du mit über 5000 Beiträge Google bedienen kannst.

Cinebench 11.5, Blender, Pov-Ray und Autodesk 3DS Max 2010.
Sonst solltest du aber mit deinem nächsten Beitrag, indem du mich persönlich ansprichst mehr bieten können, als nur dieses totaler fail.

BlackBirdSR

2010-09-10, 08:31:18

Das funktioniert doch bei Intel's HTT auch, daß zuerst die "echten" Kerne verwendet werden (wenn ich mich nicht irre;))
Außerdem "kostet" der 2. Integer-Kern doch nur recht wenige Transistoren...

Ich denke auch, dass TS die Sache etwas falsch aufgefasst haben könnte.

Bezüglich SMT:
Es gibt im SMT-Fall keine "echten" Kerne. Es sind entweder kein SMT = echte Kerne oder SMT = alles virtuelle Kerne, jeder ist gleichberechtigt.
Problematisch wird das erst, wenn eine SMT-CPU mit mehreren Kernen auf den Scheduler trifft. Wenn das System nicht unterscheiden kann, ob 2 virtuelle Kerne auf einer physikalischen Basis beruhen, gibts Nachteile.

Bei BD ist das IMO anders, weil hier das Frontend zwar auch abwechselnd arbeitet, beide Kerne aber tatsächlich physikalisch vorhanden sind. Rein der Gleitkommablock ist virtuell.

S940

2010-09-10, 09:25:16

Rein der Gleitkommablock ist virtuell.Jein - bei 2x128bit Ops gibts ja laut JF keine Nachteile, von "virtuell" mit eventuellen Nachteilen und "in die Quere kommen", würde ich deshalb nur bei 256bit AVX Befehlen reden.

BlackBirdSR

2010-09-10, 10:02:37

Jein - bei 2x128bit Ops gibts ja laut JF keine Nachteile, von "virtuell" mit eventuellen Nachteilen und "in die Quere kommen", würde ich deshalb nur bei 256bit AVX Befehlen reden.

Sehen wir dann schon. Um so besser wenns so ist.

Savay

2010-09-10, 13:49:07

(...)
Bei BD ist das IMO anders, weil hier das Frontend zwar auch abwechselnd arbeitet,(...)

naja prinzipiell ergibt sich dann ja ein ähnlicher nachteil wie bei einer SMT CPU, ausser das in dem fall der größte flaschenhals nicht mehr die ausführungseinheiten sondern das frontend ist.

wenn das OS auf nem 2 modul BD 2 threads einfach stumpf aufs erste modul legt ist die leistung natürlich geringer als wenn die 2 threads auf beide module verteilt würden.
aber da die betriebssysteme das mittlerweile ganz gut im griff haben denke ich nicht das man besonders viel davon merken wird.
wenn man es auf einer SMT CPU nicht merkt, wird es auf einer CMT CPU natürlich erstrecht nicht auffallen. :smile:

interessant wäre es CMT mit SMT zu kombinieren...also die subcores auf 3 issue aufblähen und "einfach" mit 2 threads füttern um die auslastung zu steigern. ;D

S940

2010-09-10, 14:26:31

naja prinzipiell ergibt sich dann ja ein ähnlicher nachteil wie bei einer SMT CPU, ausser das in dem fall der größte flaschenhals nicht mehr die ausführungseinheiten sondern das frontend ist.
Naja, solange es breit genug ist, wirds kein Flaschenhals. Im Moment sieht man 4FastPath plus 1Complex bei rwt, in den Patenten sinds 4FP plus 4 Complex und dann kommt dazu noch die Fusioniererei.
Da sollte genügend Nachschub pro Takt decodiert werden ;-)

wenn das OS auf nem 2 modul BD 2 threads einfach stumpf aufs erste modul legt ist die leistung natürlich geringer als wenn die 2 threads auf beide module verteilt würden.
aber da die betriebssysteme das mittlerweile ganz gut im griff haben denke ich nicht das man besonders viel davon merken wird.
Naja, da reichts schon, wenn AMD dem OS vorspiegelt, dass es SMT Kerne wären. Dann belegt der neueste Win Scheduler ersteinmal nur 1 Kern pro Modul. Das ist auch bei CMT der optimale Fall, und wenns nur darum geht, dass der Thread dann den vollen L2 Cache zur Verfügung hat :)
interessant wäre es CMT mit SMT zu kombinieren...also die subcores auf 3 issue aufblähen und "einfach" mit 2 threads füttern um die auslastung zu steigern. ;D
Würde etwas für den Durchsatz bringen, eigentlich bringt SMT immer was für den Durchsatz. Aber es mindert halt in ein paar Fällen auch die single-thread Leistung. Ausserdem will AMD vermutlich Intels IPC Vorteil durch Takt wettmachen - das geht mit nem kleinen, schlanken 2issue Kernchen mit 16kB L1 einfacher, als mit nem 3issue und 64kb L1 ;-)

Von daher gefällt der AMD Ansatz: Klein, schlank, schnell. Die IPC wird vermutlich v.a. wohl auch durch den großen (und hoffentlich gut angebundenen) L2 hoch sein, die alten Core2 fuhren damit ja auch ganz gut ;-)

Solange GF den Prozeß nicht vermasselt bin ich guten Mutes ^^

ciao

Alex

Trap

2010-09-10, 14:40:50

interessant wäre es CMT mit SMT zu kombinieren...also die subcores auf 3 issue aufblähen und "einfach" mit 2 threads füttern um die auslastung zu steigern. ;D
Hat der Ultrasparc T2 (von 2007) alles schon. 8 Cores, 2 ALUs+1 FPU pro Core, 8 Threads pro Core => 64 Threads pro Chip.

Allerdings mit wesentlich weniger Taktfrequenz und sehr einfachen In-Order Cores.

Undertaker

2010-09-10, 14:41:22

Würde etwas für den Durchsatz bringen, eigentlich bringt SMT immer was für den Durchsatz. Aber es mindert halt in ein paar Fällen auch die single-thread Leistung.

Das ist sicherlich nicht der Grund - bis auf AA2 gibt es keinen Fall, wo SMT noch Leistung kostet. Und auf so ein popeliges Spiel oder OSs vor Win7 wird man sicherlich keine Rücksicht mehr nehmen müssen. ;)

Imho der wahrscheinlichste Grund gegen SMT ist, dass es bei dem Design mit nur zwei ALUs wohl so schon eine höhere Auslastung gibt und SMT-Gewinne damit deutlich kleiner ausfielen. Ein weiteres ganz reeles Problem sind womöglich auch die Entwicklungsressourcen: Auf einen Schlag SMT und CMT einzuführen, hätte BD womöglich noch weitere Monate verzögert. ;) Vielleicht ja mit nachfolgenden Modellen?

Gast

2010-09-10, 20:34:16

Warum ich deine Rechtschreibung kritisiere. Nun das ist ganz einfach. So mal schnell ein paar Wörter in den Raum knallen und mir ein fail zu unterstellen zeigt eben keine Diskussionskultur.
Kritisiere lieber keine Rechtschreibung/Grammatik. Zumindest nicht, wenn du selber auch arge Probleme mit der deutschen Sprache hast. ;)

Sonst solltest du aber mit deinem nächsten Beitrag, indem du mich persönlich ansprichst mehr bieten können, als nur dieses totaler fail.
Ich glaub ein Gast-'Account' im 3DCF ist nicht der richtige Rahmen, um sich bereits persönlich angesprochen fühlen zu müssen. Abgesehen davon ist der User '=Floi=' im 3DCF bereits für seine feingeistigen Kommentare und als ein Quell aufrichtiger Freundlichkeit bekannt. Es ist also nicht zwingend erforderlich auf solche Kommentare überhaupt weiter einzugehen. Das kostet dich nur Zeit - und bringen tut es nichts.

BTT: Deine Ansicht, daß AMD mit Thuban vor intel liegt, ist durchaus nicht unumstritten. Es kommt immer auf den Verwendungszweck der Plattform an. In Spielen ist der Lynnfield angeblich vorne - was natürlich in der Praxis nicht stimmt. Aber theoretisch liefert er in manchen Spielen höhere FPS. (Nachweislich natürlich nur unter völlig irrelevanten Settings und handverlesenen Spielszenen.) Man kann also nicht ohne weiteres behaupten, daß ein Thuban grundsätzlich und in jedem Fall besser wäre, als eine intel-CPU. Wenn man nicht die nötige Hardware hat (wie weit über 90% aller Steam-User zB.), wird man den Unterschied zwischen AMD und intel in der Praxis ohnehin nicht bemerken. - Höchstens beim Blick in den Geldbeutel. Dort verschafft intel seinen Kunden spürbar mehr Raum - und zwar ohne, daß die Kunden hierfür auch nur den geringsten Vorteil in Kauf nehmen müssen. - Vorbildlich! :up:

:biggrin:

(del)

2010-09-10, 20:38:53

Hat der Ultrasparc T2 (von 2007) alles schon. 8 Cores, 2 ALUs+1 FPU pro Core, 8 Threads pro Core => 64 Threads pro Chip.

Allerdings mit wesentlich weniger Taktfrequenz und sehr einfachen In-Order Cores.Das ist auch eine "internet CPU" =) aber ich muß sagen, Apache entsprechend durch "Studio" durchgejagen und man kann wirklich nur staunen.

Gast

2010-09-10, 22:11:39

Auf einen Schlag SMT und CMT einzuführen, hätte BD womöglich noch weitere Monate verzögert. ;) Vielleicht ja mit nachfolgenden Modellen?
nicht nötig wenn AMD gleich 4 Cluster in einem Modul bei den Nachfolger hat ;) weniger arbeit, später durch einen shrink noch mehr Cache und das ding wird ein Monster mit 4 integer pro Modul

StefanV

2010-09-11, 10:49:10

Hm, bin mal gespannt, ob die ersten BD Chips mit 4-4.5GHz starten werden und ob man die TDP nicht eventuell etwas erhöhen wird.
Dafür würde dann auch der AM3+ Sockel sprechen, der nötig ist, vorallendingen aber eine komplett neue Spannungsversorgung, die mit der alten nicht mehr kompatibel ist.
Aber hierzu gibt es sicherlich noch keine Informationen, oder?
Also was die Spannungsversorgung alles können muss?!

Ich würd hier fast vermuten, dass man 4 + 1 Phasen vorschreibt - 1 für jeden Kern, einzeln abschaltbar, dazu natürlich die Versorgung für den 'Uncore Bereich'.

diese Argumentation ist blödsinn ob AMD/GF in Deutschland ihre Chipfertigungsbelegschaft von 3000 auf 3400 aufstockt ist "sozialwirtschaftlich" gesehen in einem 83Mio Land absolut nichtig.
Nein, denn das sind die primären Arbeitspläte, da gibts auch noch ein paar sekundäre (Bäcker, Einzelhändler usw), die auch hierdran hängen.
Diese 400 Leute werden wohl nicht allzu schlecht verdienen, entsprechend können sie auch konsumieren -> hin und wieder mal extern essen gehen, Futter, (hochwertige) Kleidung, ein mittelprächtiges Auto usw...
Es scheint vielen wohl nicht klar zu sein, dass an einem Arbeitsplatz auch noch andere dran hängen...
Das sieht man besonders dann, wenn man da wohnt, wo andere Urlaub machen und im Prinzip alle Arbeitsplätze an den Arbeitsplätzen anderer hängen, die allerdings nicht in der Umgebung Arbeiten...

StefanV

2010-09-11, 10:51:28

das statistische Bundesamt spricht von einer erwerbsfähigen Bevölkerung >32Mio das sind 0,00125% selbst wenn der Laden in Dresden komplett dicht machen würde könnte man die Auswirkungen noch nichtmal als Messtoleranz betiteln
Es macht ja auch keinen Unterschied, ob jemand pro monat 500€ vom Arbeitgeber oder 5000€ bekommt :rolleyes:

puntarenas

2010-09-12, 11:27:48

Die Diskussion zu CMT und SMT wurde herausgesplittet und geht hier weiter:
CMT und SMT sinnvoll kombinierbar? (http://www.forum-3dcenter.org/vbulletin/showthread.php?t=491523)
:)

Gast

2010-09-12, 19:58:42

Bulldozer kann kein Flop werden, er wird schneller als ein Intel Gulftown

Triskaine

2010-09-13, 18:58:28

Hier noch ein paar Messwerte, um der IPC-Diskussion endgültig die Luft rauszulassen.

Gemessen auf (m)einem Phenom I, die maximal mögliche IPC beträgt 3:

Core Damage: 3,0

Core2MaxPerf: 2,7

Linpack: 2,3

TrueCrypt: 1,7-2,1 (während des Benchmarks)

Prime95: 1,3-1,8 (Blend mit 1,3, large FFTs mit 1,5, Small FFTs mit 1,8)

x264Bench: 1,2 (schwankt zwischen 0,8-1,4)

Cinebench R11.5: 1,1 (ist je nach Komplexität des Contents etwas schwankend)

POV-Ray: 1,1

Fritz Chess: 1,0 (nur Integer Berechnungen)

Furmark: 0,4

WinRAR Bench: 0,2

Das ein einzelner Bulldozer Integer-Core schmaler als ein K10 Core wird, sollte bis auf in sehr seltenen Ausnahmesituationen, die Performance nicht beeinträchtigen.
Im Gegenteil, durch den vereinheitlichten, breiteren Scheduler und die aufgemotzte LS-unit wird die per-Core Integer mit an Sicherheit grenzender Wahrscheinlichkeit deutlich über der eines K10 liegen.

Mal so nebenbei, die Hitrate vom L3-Cache des Phenom I liegt meist bei miserablen 40-50 %, kein Wunder das Propus die gleiche pro Takt Performance wie Agena schafft und das obwohl im der L3 Cache gänzlich fehlt.

Wuge

2010-09-13, 19:20:36

Welches OS nutzt Du und (falls Vista/7 64 Bit) womit ließt Du die Performancecounter aus?

Triskaine

2010-09-13, 19:31:17

OS ist Win 7 x64 und es wird dieses (http://www.cpuid.com/softwares/perfmonitor.html) Programm verwendet. AMD Codeanalyst ist nochmal um einiges mächtiger, aber auch um einiges sperriger.

Wuge

2010-09-13, 19:48:04

Das funktioniert bei mir leider nicht mehr... Dachte Du hast evtl. ein anderes Tool mit ähnlicher Funktionalität, das auch mit aktuellen Systemen funktioniert :(

S940

2010-09-13, 20:20:12

Hoy, netttes Progrämmchen, wieso kannte ich das bisher nicht ^^
Bei mir läuft im Hintergrund Boinc, und man kann sich die retired fused Ops bzw. alle retired Ops anzeigen lassen.
Das sind bei mir im Moment
Total: ~3300
fused: ~750

Ergibt einen Anteil von ~23%, das kommt gut an die alten Intel Zahlen hin. Nachdem BD das auch bekommt, kann man also schon wegen dem Fusion mit höherer IPC rechnen. Ich teste bei Gelegenheit mal die obigen Progs nach, interessiert mich ^^

@Wuge:
Bekommst Du ne Fehlermeldung ? Wenn ja welche ?

Edit:
Ergebnisse, C2D 8200@3,4 Ghz:
Core Damage:
IPC: 3,7
Total Ops: 12k
fused: 1,6k
fused Anteil: 13%
BranchPred. Treffer: 100%

Core2MaxPerf:
IPC: 3,5
Total Ops: 12k
fused: 1,45k
fused Anteil: 12%
BranchPred. Treffer: 100%

Truecrypt 7.0a / Benchmark 200MB Buffer Size
Fluktuiert stark, hängt wohl davon ab, welcher Teilbench gerade läuft.
Maximal:
IPC: 1,9
total: 6,3k
fused Ops 2,3k
Anteil: 36,5%
BranchPred. Treffer: 95%

Min:
IPC: 1,6
total 5,5k
fused: 0,7k
Anteil: 12,7%
BranchPred. Treffer: 92%

Cinebench 11.5, fluktuiert stark:
Innen:
IPC: 1,0
total 4,9k
fused: 1,0k
Anteil: 25%
BranchPred. Treffer: 92%

Außen
IPC: max. 1,4
total 4,4k
fused: 1,1k
Anteil: 25%
BranchPred. Treffer: 95%

So das muss erstmal reichen ^^