Intel - Alder Lake (7 nm, big.LITTLE, 8C + 8c "Golden Cove"/"Gracemont" CPU-Kerne, Ende 2021) [Archiv] - Seite 3

Undertaker

2021-03-08, 10:19:48

puh nochmal glück gehabt, denn das muss er auch nicht.:biggrin:

Gegen einen 16-Kerner (16+0) wird der 8+8 Alder Lake vermutlich auch nicht positioniert werden. Schlau und wohl auch sehr aussichtsreich wäre eine Positionierung gegen einen 12-Kerner, gegen den eine 8+8er Konfiguration ziemlich gut performen könnte: Pro Thread steht ja schon Willow Cove ziemlich gut da, weitere Verbesserungen an Kern + Prozess werden die Pro-Thread-Leistung weiter steigern. Dazu dann die 8 Low-Power-Kerne, die bei geringem Flächen- und Energiebedarf die MT-Leistung pushen. Und zusätzliche Inter-Core-Latenzen hat ja auch die Konkurrenz, wenn man die ersten 8 Kerne verlassen muss - mit dem Nachteil, dort zusätzlich noch über den Interposer auf einen anderen Die zu müssen und nicht die kurzen Strecken eines nativen Designs zu haben. ;)

Wichtig sehe ich aber vor allem den technologischen Vorsprung, ein solches heterogenes Design auf dem Markt zu haben, was bei der Konkurrenz noch einige Jahre entfernt ist. :)

WedgeAntilles

2021-03-08, 10:30:58

Stimmt. Jede einzelne Entwicklung ist natürlich immer klar von Vorteil und kann gar nicht in eine umgekehrte Richtung gehen.

Sieht man ja an Faildozer. Oh, ups...

Lies mal bitte was ich geschrieben habe falls es dir nicht zu viel Mühe macht.
Ich sprach von "Chance"

Ich habe nicht gesagt, dass es garantiert ein Erfolg wird.

Die Experten des 3DC sind sich ja aber 100% sicher, dass der AlderLake Ansatz ein riesiger Fail werden MUSS.

Und das ist halt das Lächerliche.

Ihr erinnert mich an jemanden, der beim Roulettwurf 100% sicher ist, das Rot kommt.
Es MUSS rot kommen.
Es kann gar nicht anders sein.
100%.

Und das ist lächerlich.

Ja, es KANN rot kommen.
Aber auch wenn rot kommt, ist die Aussage lächerlich.
Denn es kann halt genauso auch Schwarz kommen.

Intel investiert viel Geld und beschäftigt ne Menge Leute - ist das eine Garantie, dass es klappt? Nein, natürlich nicht.

Aber dürften diese Leute ein bisschen mehr Ahnung haben wie das 3DC, wie du oder Hot?
Sorry, aber ja.
Definitiv.

Selbstverständlich gibt es eine Chance, dass das Konzept von AlderLake funktionieren wird.

fondness

2021-03-08, 11:31:39

Wichtig sehe ich aber vor allem den technologischen Vorsprung, ein solches heterogenes Design auf dem Markt zu haben, was bei der Konkurrenz noch einige Jahre entfernt ist. :)

AMD ist mit Zen bewusst weg gegangen von dem zweigleisigen Ansatz mit Cat und Bulldozer Kernen hin zur goldenen Mitte Zen. Dazu gab es sogar eine Folie mit Begründung IIRC. Das wird man kaum wieder ändern, schon gar nicht, weil Intel jetzt einen verzweifelten Versuch startet, in MT Anwendungen wieder etwas näher ran zu kommen. Von einholen oder gar überholen kann ja nach wie vor keine Rede sein.

Linmoum

2021-03-08, 11:58:27

Wichtig sehe ich aber vor allem den technologischen Vorsprung, ein solches heterogenes Design auf dem Markt zu haben, was bei der Konkurrenz noch einige Jahre entfernt ist. :)Den technologischen Vorsprung werden auch weiterhin Chiplets darstellen, daran kann auch ADL rein gar nichts ändern. Dass man beim MT immer noch gegen einen 16C klar unterlegen sein wird, dürfte selbst aktuell keine große Spekulation sein. Ob ADL es mit 12C aufnehmen kann, wird man sehen.

Und das alles wohl gemerkt nur gegen Zen3. Trotz N5 sollen die Chiplets bei Zen4 nur unwesentlich kleiner werden, das deutet auf teils massive Vergrößerungen hin. Bis Intel es mit dem Chiplet-Ansatz auch nur ansatzweise aufnehmen kann, dürfte noch einiges an Zeit vergehen.

w0mbat

2021-03-08, 12:19:43

Wenn man sich ansieht, was .cove in RKL leistet, sind in ADL die "little" cores vielleicht schnellen ;)

HOT

2021-03-08, 12:46:55

Ja, da sieht man mal wie dämlich Intel ist.
Beschäftigt ne riesige Entwicklungsabteilung, die hunderte von Millionen kostet.
Dabei hätte ein einziger Anruf bei Hot ausgereicht um zu erfahren, dass ihr ganzer Alder-Lake Ansatz völlig unbrauchbar ist und keinerlei Chance hat Vorteile zu bringen.
Jo schade, dass sie mich nicht gefragt haben :D.
Na ja, wenn man die Hintergründe versteht, wird das auch so klar, da braucht man mich gar nicht fragen ;).

Intel betrachtet aber den Mobilbereich als den wichtigsten Bereich und der Desktop fällt offensichtlich davon ab. Man möchte ja nicht zig unterschiedliche Dies für beide Märkte separat entwickeln. Also schiebt man die offensichtlich für Mobil designten Dies auch in den Desktop-Markt. Für einige Anwendungen ist das ja auch von Vorteil, aber grade im Spielemarkt reichen ja auch 8 Kerne auf absehbare Zeit. Irgendwo muss man ja auch anfangen wieder konkurrenzfähig zu werden. Den Rest kann man mit Sapphire Rapids machen, also ab 16 Kerne.

mboeller

2021-03-08, 12:51:52

Intel betrachtet aber den Mobilbereich als den wichtigsten Bereich ...

Deshalb war ich ja auch so verwundert, dass sie mit einem Dual-Core gegen die 8Core APU's von AMD antreten wollen ... und dass im extrem wichtigen 15W-Segment.

Und ja, die kleinen Gracemont-Kerne zähle ich mal nicht mit.

Test eines 7w Lakefield. Ein 15w Alder Lake sollte etwas mehr als doppelt so schnell sein (10nm <-> 14nm):
https://www.hardwareluxx.de/index.php/news/hardware/prozessoren/53508-erste-benchmarks-zum-core-i5-l16g7-alias-lakefield.html

HOT

2021-03-08, 12:54:26

Deshalb war ich ja auch so verwundert, dass sie mit einem Dual-Core gegen die 8Core APU's von AMD antreten wollen ... und dass im extrem wichtigen 15W-Segment.

Und ja, die kleinen Gracemont-Kerne zähle ich mal nicht mit.
Ist doch super, kann man als 8 Kerner verkaufen und gleichzeitig ist er bei 15W recht fix unterwegs. Obendrein ist der Verbrauch bei Teillast sehr niedrig. Tolles Konzept für Mobil, muss man ja auch sagen. Das schlägt das voll durch.

Windi

2021-03-08, 13:00:18

Deshalb war ich ja auch so verwundert, dass sie mit einem Dual-Core gegen die 8Core APU's von AMD antreten wollen ... und dass im extrem wichtigen 15W-Segment.

Und ja, die kleinen Gracemont-Kerne zähle ich mal nicht mit.
Was sollen sie sonst dagegen stellen?
8+8 wäre viel zu teuer
8+0 kaum günstiger
Da bleibt nur noch 4+0 oder 2+8.
Und der 10 Kerner ist wohl die deutlich bessere Alternative, auch wenn viele kleine Kerne dabei sind.

Intels Big Cores sind einfach zu groß.

HOT

2021-03-08, 13:03:44

Und das ist der AVX512-Implementation geschuldet.

amdfanuwe

2021-03-08, 13:21:31

Gute PC Prozessoren leiteten sich bisher vorwiegend aus dem HPC Designs ab, die auf Leistung ausgelegt sind.
Für Mobile braucht man Designs, die auf geringen Verbrauch ausgelegt sind.

Mit Big-Little bringt Intel nun das Mobile Design in den Desktop. HEDT haben sie momentan nichts vernünftiges. Erinnert an die Situation damals bei AMD als nach der 2ten Bulldozer Generation nur noch APUs kamen und keine CPUs mehr.
Ist bei Intel noch etwas anders, da sie eh den größten Teil ihrer Client Einnahmen im Mobile Bereich erwirtschaften. Die schnellste Gaming CPU zu haben mag dem Image zugute kommen, spielt für Intel aber wirtschaftlich keine große Rolle.

Also kein Grund zur Panik. Dauert nur etwas bis Intel mal wieder ordentliche Server CPUs hat und damit dann auch HEDT wieder mit guter Gaming Ware bedienen kann.

SavageX

2021-03-08, 13:40:31

Und das ist der AVX512-Implementation geschuldet.

Ich dachte AVX-512 ist bei Alder Lake nicht dabei? (zumindest im Hybrid-Modus - aber gibt es da einen anderen?)

(Bild als Digitalleihe von https://www.hardwaretimes.com/intel-alder-lake-cpus-to-lack-avx-512-and-amx-instruction-support/ )

HOT

2021-03-08, 14:11:32

Klar haben die big-Cores nach wie vor AVX512. Sind ja auch nach wie vor .cove. Die Tremonts nur nicht. Wenn das zusammen laufen soll, wird AVX512 deaktiviert AFAIK.

Savay

2021-03-08, 14:15:21

Wichtig sehe ich aber vor allem den technologischen Vorsprung, ein solches heterogenes Design auf dem Markt zu haben, was bei der Konkurrenz noch einige Jahre entfernt ist. :)

Ryzen ist by design von Anfang an "heterogen" gewesen...oder was meinst du bitte was die CCX sonst darstellen?!

Die können, wenn sie denn den aktuellen Middle.Zen in ne Big.Zen und Little.Zen Variante aufsplitten sollten, das gleiche Spielchen wie Intel sogar direkt auf CCD Ebene spielen und sind dann eigentlich sogar noch flexibler.

SavageX

2021-03-08, 14:21:08

Klar haben die big-Cores nach wie vor AVX512. Sind ja auch nach wie vor .cove. Die Tremonts nur nicht. Wenn das zusammen laufen soll, wird AVX512 deaktiviert AFAIK.

Hmmm. Ich würde mal annehmen, dass der Hybrid-Modus aber der "Normalmodus" ist. Dann sind die großen Kerne unnötig (in Bezug auf Fläche) groß falls Intel die AVX-512-Teile nicht auch physisch entfernt, da man dann AVX-512 schlicht nicht nutzen kann. Wenn aber AVX-512 durch Verzicht auf die kleinen Kerne nutzbar werden würde (keine Ahnung, ob das vorgesehen ist), dann liegen diese dann ungenutzt herum.

Bin gespannt, wie das tatsächlich später aussieht.

aufkrawall

2021-03-08, 14:22:26

Klar haben die big-Cores nach wie vor AVX512. Sind ja auch nach wie vor .cove. Die Tremonts nur nicht. Wenn das zusammen laufen soll, wird AVX512 deaktiviert AFAIK.
Das war doch wahrscheinlich sein Punkt (dass man in AVX-512-Workloads hat gar nichts hat von den littles). Aber wenigstens stehen sie dann in der Zeit noch für andere Tasks zur Verfügung?

Savay

2021-03-08, 14:26:30

Stand im Anandtech Artikel zu RKL nicht eh was davon, dass man die CPU`s bisher quasi umstellen muss für AVX 512 Code und das eh einige zyklen vorlauf braucht und sich nicht zuletzt auch das komplette Thermo- und Powermanagement ändert?!

Die Frage ist sicher wie der Scheduler damit klar kommt wenn die CPU normal 24 und dann für andere Codeschnipsel mal wieder nur 16 Threads hat.

amdfanuwe

2021-03-08, 14:35:48

Die können, wenn sie denn den aktuellen Middle.Zen in ne Big.Zen und Litte.Zen Variante aufsplitten sollten, das gleiche Spielchen wie Intel sogar direkt auf CCD eben spielen und sind dann eigentlich sogar noch flexibler.
Macht AMD doch schon. Auf dem ersten Chiplet gibt es hoch taktende Kerne um das Single Core versprechen einzulösen und für das 2te Chiplet werden genügsamere Chiplets verwendet um bei gegebener TDP noch gute MC Ergebnisse zu erzielen.

SavageX

2021-03-08, 14:38:24

Wenn sowohl AVX-512 auf den großen Kernen sowie auch die kleinen Kerne gleichzeitig nutzbar sein sollten, dann müsste man Prozesse, die AVX-512 nutzen, fest auf die großen Kerne pinnen. Dafür müsste man aber im Voraus wissen, ob die Programme denn auch AVX-512-Routinen haben - so eine Glaskugel ist aber im Scheduler eigentlich nicht drin. Auch würde der Energiespareffekt in Niedriglastsituationen möglicherweise verpuffen, weil irgendein Dödel-Prozess die großen Kerne davon abhält, mal konsequent vom Netz zu gehen.

Ich würde also eher darauf tippen, dass sobald die kleinen Kerne nutzbar sind, automatisch alles, was die kleinen Kerne nicht draufhaben, abgeschaltet wird, so dass groß und klein exakt denselben Code ausführen können.

amdfanuwe

2021-03-08, 14:45:29

Ich würde darauf tippen, dass MS nur die hintergrund OS Tasks auf den kleinen Kernen laufen läßt und Usertasks nur auf den Big Kernen ausgeführt werden.

SavageX

2021-03-08, 14:49:15

Ich würde darauf tippen, dass MS nur die hintergrund OS Tasks auf den kleinen Kernen laufen läßt und Usertasks nur auf den Big Kernen ausgeführt werden.

Bin zwar Linuxer (ja, Leute wie wir können nicht einfach mal 15 Minuten aushalten, ohne dies zu erwähnen), aber ich traue selbst Windows es nicht zu, genügend Last für acht Kerne von ungefährer Skylake-Schlagkraft aufzubringen ;-)

w0mbat

2021-03-08, 14:53:42

Ich würde erstmal bezweifeln, dass Intels "kleine Kerne" plötzlich so schnell sind wie CML. Vor allem, wenn .cove in manchen Bereichen nicht wirklich schneller ist. Aber ich lasse mich natürlich gerne positiv überraschen.

aufkrawall

2021-03-08, 14:57:22

Bin zwar Linuxer (ja, Leute wie wir können nicht einfach mal 15 Minuten aushalten, ohne dies zu erwähnen), aber ich traue selbst Windows es nicht zu, genügend Last für acht Kerne von ungefährer Skylake-Schlagkraft aufzubringen ;-)
Vor allen Dingen sind diese Hintergrund-Aufgaben alles nur Single- oder höchstens Dual-Threaded.
Wenn mir das dann aber keinen BIG-Core blockiert, ist das natürlich auch nett. Wobei mir das bei AMDs acht rasend schnellen BIGs auch für Mobile völlig egal wäre... :freak:

SavageX

2021-03-08, 14:57:38

Windows würde auch nicht acht Kerne vom Schlage eines Nehalem verbraten - aber bringt bitte Microsoft da nicht auf Ideen! ;-)

mboeller

2021-03-08, 15:01:25

Hmmm. Ich würde mal annehmen, dass der Hybrid-Modus aber der "Normalmodus" ist. Dann sind die großen Kerne unnötig (in Bezug auf Fläche) groß falls Intel die AVX-512-Teile nicht auch physisch entfernt, da man dann AVX-512 schlicht nicht nutzen kann. Wenn aber AVX-512 durch Verzicht auf die kleinen Kerne nutzbar werden würde (keine Ahnung, ob das vorgesehen ist), dann liegen diese dann ungenutzt herum.

Bin gespannt, wie das tatsächlich später aussieht.

angeblich unterstützt Gracemont AVX-512:

https://en.wikipedia.org/wiki/Gracemont_(microarchitecture)

MiamiNice

2021-03-08, 15:05:52

Ich würde darauf tippen, dass MS nur die hintergrund OS Tasks auf den kleinen Kernen laufen läßt und Usertasks nur auf den Big Kernen ausgeführt werden.

Was ist ein Hintergrundtask und am welchem Flag kann der Scheduler sie erkennen?
Ich vermute es landet erst mal alles auf den Big Cores und Tasks mit wenig CPU Zeit werden auf die kleinen Cores verschoben.
Steigt die CPU Zeit über einen gewissen Wert geht es zurück auf einen dicken Core.

BlackBirdSR

2021-03-08, 15:10:26

Tja hier wäre ein neural network ja ein guter Ansatz.
Man beginnt damit immer die big cores zu nutzen und über learning lernt das System Stück für Stück unkritische Aufgaben an die small cores zu verteilen.
Ein Bericht zeigt das dann grafisch, so dass man konkrete Entscheidungen wieder rückgängig machen kann.

Ziel:
Maximale Einsparung bei minimaler Auswirkung auf das "Feeling" bei Responsiveness.

SavageX

2021-03-08, 15:12:18

angeblich unterstützt Gracemont AVX-512:

https://en.wikipedia.org/wiki/Gracemont_(microarchitecture)

Hierzu habe ich bisher nur alte (2018) Gerüchte gesehen. Ich denke, dass beim Anlegen des Wikipedia-Artikels einfach jemand ausgerutscht ist.

BlackBirdSR

2021-03-08, 15:21:52

Hierzu habe ich bisher nur alte (2018) Gerüchte gesehen. Ich denke, dass beim Anlegen des Wikipedia-Artikels einfach jemand ausgerutscht ist.

AVX512 hat doch sowieso definiere Warm-up Zyklen und ein Takt Offset.
Innerhalb dieser Zeit kann man doch wieder ein handoff zurück an die big cores machen.

MiamiNice

2021-03-08, 15:25:57

SavageX

2021-03-08, 15:30:52

AVX512 hat doch sowieso definiere Warm-up Zyklen und ein Takt Offset.
Innerhalb dieser Zeit kann man doch wieder ein handoff zurück an die big cores machen.

So ein Handoff muss aber auch Registerinhalte etc. rüberwuppen. Sobald dann einmal ein AVX-512 Befehl ausgeführt wurde, hat der große Kern auf einmal 512-bittig befüllte Register, die sich auf den kleinen Kern nicht zurückschubsen lassen.

Dass also AVX-512-Code Stückweise auf die großen Kerne wandert, ohne den Prozess aber "wirklich" zu verlagern (was ja vom Scheduler passieren muss - sobald der aber arbeiten muss ist der AVX-Warmup schon lange Geschichte), halte ich für unwahrscheinlich. Und sobald Prozesse einmal von AVX-512 genascht haben, gäbe es eigentlich auch keinen Weg zurück auf die kleinen Kerne.

davidzo

2021-03-08, 17:01:46

Ich würde darauf tippen, dass MS nur die hintergrund OS Tasks auf den kleinen Kernen laufen läßt und Usertasks nur auf den Big Kernen ausgeführt werden.
Dass wär vielleicht gut für die frametimes im Gaming undgut für eine generelle Leistungskonsistenz, aber in Benchmarks sieht man mit der Strategie effektiv nie etwas von den kleinen Kernen.
Glaube kaum dass Intel eine Architektur baut die bei Leistungsmessungen so schwach aussieht als hätte sie nur 8 Cores.

Bin zwar Linuxer (ja, Leute wie wir können nicht einfach mal 15 Minuten aushalten, ohne dies zu erwähnen), aber ich traue selbst Windows es nicht zu, genügend Last für acht Kerne von ungefährer Skylake-Schlagkraft aufzubringen ;-)
Ich halte das für eine Missinterpretation der Leaks.
Ja, der Leak war "skylake performance" bei dem Gracemont Cluster, es ging nicht um IPC. Manche malen sich im Kopf jetzt einen 10900K zurecht und vergessen dass Skylake in 2015 mit 2 bis vier Cores und Taktraten von 2,9 bis 4,2Ghz Turbo (K Modell, andere nur maximal 4,0Ghz) gelauncht wurde.
Ich gehe davon aus dass sich das auf einen i5 6500 oder i7-6700 non-K bezieht, also Brot und Butter Skylake CPUs. Das sind 4 Lake-Cores mit unter 4Ghz Turbotakt. Die wahrscheinlichste Interpretation ist imo dass die 8x Mont Cores diese Leistung in MT Szenarien erreichen. Dafür müssen IPC und Takt der Tremont Cores immer noch um 10-20% steigen.

Selbst wenn die Monts AVX-512 unterstützen würde ich das nicht überbewerten. Das kann auch über die bisherigen FP Pipes abgebildet werden, braucht dann nur entsprechend viele mehr Cycles (performance penalty frisst alle gewinne auf).

Intel hat AVX-512 im Desktop auch mehr oder weniger abgehakt. Die haben es 10 Jahre versucht die Entwickler davon zu begeistern, aber mittlerweile wird selbst das KI Training lieber auf GPUs gemacht. Auf Clientseite braucht es viel eher reduced precision und die vielen handychips mit NPU drehen kreise um den schweren alten xeon Core.
Kein Wunder dass Intel sich beim Marketing eher auf AVX-VNNI und den kommenden ML-Befehlssatz AMX konzentriert.

Es gibt sogar Gerüchte dass Intel AVX-512 bei Alderlake zusammenstreicht und sich auf das was übrig bleibt konzentriert, wie VNNI, Key Locker: https://www.heise.de/news/Intel-Prozessoren-Neue-Funktionen-fuer-hoehere-Sicherheit-und-KI-Performance-4923296.html

Ein IMO längst überfälliger Move. Wie man im Anandtechreview von RKL gesehen hat geht der Verbrauch durch die Decke und der Takt muss gedrosselt werden. Und das ist nichts neues, schon meine Haswell CPU in meinem alten Macbook erreicht nicht mehr den Turbo von 3,7Ghz wenn ich AVX2 Load an habe (capped bei 3,3Ghz). Spätestens da hätte man eigentlich schon absehen können dass der Pfad ins Nirgendwo führt.

Undertaker

2021-03-08, 17:57:00

Ich halte das für eine Missinterpretation der Leaks.
Ja, der Leak war "skylake performance" bei dem Gracemont Cluster, es ging nicht um IPC.

Es gab in den Leaks allerdings auch eine vergleichsweise eindeutige Vorhersage: ADL-U = 2x Performance TGL-U

Falls sich das im pessimistischen Fall auf die 6+8er Konfiguration in der 20-28 Watt Klasse bezieht, reden wir über >13.700 Punkte im CB23 Multi. Das sind Werte, die aktuell nur TDP-unlocked H-Modelle der 45-Watt-Klasse schaffen. Für die H-Klasse gibt es mit den 8+8er Konfigurationen dann sogar nochmal deutlich mehr Dampf. :)

mczak

2021-03-08, 20:19:36

Es gibt sogar Gerüchte dass Intel AVX-512 bei Alderlake zusammenstreicht und sich auf das was übrig bleibt konzentriert, wie VNNI, Key Locker: https://www.heise.de/news/Intel-Prozessoren-Neue-Funktionen-fuer-hoehere-Sicherheit-und-KI-Performance-4923296.html

Dass Alder Lake kein AVX-512 unterstützt ist kein Gerücht, das steht so in einem offiziellen intel Dokument.
Kann jeder nachlesen: https://software.intel.com/content/dam/develop/external/us/en/documents-tps/architecture-instruction-set-extensions-programming-reference.pdf
Seite 20, Kapitel 1.3:
"3. Alder Lake Intel Hybrid Technology will not support Intel® AVX-512. ISA features such as Intel® AVX, AVX-VNNI, Intel® AVX2, and UMONITOR/UMWAIT/TPAUSE are supported."
Ob die grossen Kerne auch physikalisch keine AVX-512 Einheiten enthalten werden, keine Ahnung. Zumindest quasi die oberen 256bit der Einheiten wegzulassen sollte relativ einfach machbar sein (und ordentlich Fläche sparen), da hätte man dann quasi physikalisch avx-512 Featureset aber bloss mit 256bit Einheiten, aber will man das komplett entfernen sieht der Kern dann am Ende doch etwas anders aus.

HOT

2021-03-09, 10:06:01

Gipsel

2021-03-09, 12:38:07

Dass Alder Lake kein AVX-512 unterstützt ist kein Gerücht, das steht so in einem offiziellen intel Dokument.
Kann jeder nachlesen: https://software.intel.com/content/dam/develop/external/us/en/documents-tps/architecture-instruction-set-extensions-programming-reference.pdf
Seite 20, Kapitel 1.3:
"3. Alder Lake Intel Hybrid Technology will not support Intel® AVX-512. ISA features such as Intel® AVX, AVX-VNNI, Intel® AVX2, and UMONITOR/UMWAIT/TPAUSE are supported."
Ob die grossen Kerne auch physikalisch keine AVX-512 Einheiten enthalten werden, keine Ahnung. Zumindest quasi die oberen 256bit der Einheiten wegzulassen sollte relativ einfach machbar sein (und ordentlich Fläche sparen), da hätte man dann quasi physikalisch avx-512 Featureset aber bloss mit 256bit Einheiten, aber will man das komplett entfernen sieht der Kern dann am Ende doch etwas anders aus.Das klingt eher danach, daß die kleinen Kerne das nicht können (so daß big.little nicht mit AVX512 geht).

BlacKi

2021-03-09, 16:36:39

Das klingt eher danach, daß die kleinen Kerne das nicht können (so daß big.little nicht mit AVX512 geht).das ist auch das wahrscheinlichste szenario.

Undertaker

2021-03-09, 17:03:42

Bleibt noch die Frage, wie sich das dann praktisch verhält... Denkbar wäre, dass für AVX-512 Anwendungen dann ggf. nur die Big-Cores zur Verfügung stehen. Mit Blick auf erste AVX-512 Tests, in denen ein 11700K teils jeglichen anderen 8-Kerner um Faktor 6 schlägt, wäre das selbst für den Extremfall des 2+8-Kerners noch mehr als lohnenswert. In anderen Szenarien mit sehr geringer AVX-512 Nutzung könnte wiederum ein Rückfall auf AVX-256 mit allen big.LITTLE-Cores attraktiver sein.

Gipsel

2021-03-09, 17:12:05

Mit Blick auf erste AVX-512 Tests, in denen ein 11700K teils jeglichen anderen 8-Kerner um Faktor 6 schlägt,Wie schon im anderen Thread gesagt, ist der Test sehr unrepräsentativ. Realistisch ist Faktor <=2 vor Berücksichtigung von Taktfrequenzeinschränkungen wegen des Verbrauchs.

BlacKi

2021-03-09, 17:24:49

Undertaker

2021-03-09, 17:28:15

In Anbetracht der marginalen Anzahl an AVX-512 Anwendungen muss man wohl noch etwas abwarten, um "realistisch" beziffern zu können. ;) Zunächst einmal sehen wir dieses Resultat in realem Code – und die Frage, ob man hier vielleicht durch Optimierungen die Differenz senken könnte, bleibt für den Anwender nutzlose Theorie, solange es keiner macht.

So oder so hatte ich aber oben auch bereits geschrieben, dass in Fällen mit geringem AVX-512 Nutzen ein Rückfall auf AVX-256 samt Einbindung der Gracemont-Kerne die zweite Alternative wäre. Interessant fände ich zunächst zu wissen, ob beide Modelle bei Alder Lake praktisch möglich wären... :conf2:

ich denke nicht das wir avx 512 anwendungen während der nutzungszeit von alderlake nutzen werden.

Dem stimme ich zu, nach Erfahrungen aus der Vergangenheit ist sicher keine überwältigende Verbreitung in kürzester Zeit zu erwarten.

mczak

2021-03-09, 17:49:25

Ich kann mir nicht vorstellen, dass es so einfach ist, die Architektur so abzuändern, dass sie ohne AVX512 jetzt plötzlich schneller wird.

Das habe ich damit nicht gemeint. Nur dass wenn es eh nicht funktioniert könnte man die grossen Kerne abspecken schlicht um die Fertigungskosten zu senken.
Das klingt eher danach, daß die kleinen Kerne das nicht können (so daß big.little nicht mit AVX512 geht).
Ist das wirklich vorgesehen dass big.little abschaltbar ist? Dann würde das schon Sinn machen dass AVX-512 mit den grossen Kernen tatsächlich geht. Wenn's aber nicht abschaltbar ist kann man sich die Chipfläche sparen.

genervt

2021-03-09, 18:05:36

Das habe ich damit nicht gemeint. Nur dass wenn es eh nicht funktioniert könnte man die grossen Kerne abspecken schlicht um die Fertigungskosten zu senken.

Ist das wirklich vorgesehen dass big.little abschaltbar ist? Dann würde das schon Sinn machen dass AVX-512 mit den grossen Kernen tatsächlich geht. Wenn's aber nicht abschaltbar ist kann man sich die Chipfläche sparen.
Ich habe schon vorher spekuliert, dass Alder Lake ein hochskaliertes Mobile Design ist. Aus der Not geboren, weil AMD den Core Count fast schon beliebig steigert. Wenn AVX-512 fehlt, dann sehe ich das als einen Anhaltspunkt, dass dem so ist.

BlacKi

2021-03-09, 18:23:34

Ich habe schon vorher spekuliert, dass Alder Lake ein hochskaliertes Mobile Design ist. Aus der Not geboren, weil AMD den Core Count fast schon beliebig steigert. Wenn AVX-512 fehlt, dann sehe ich das als einen Anhaltspunkt, dass dem so ist.

warum aus der not geboren? erstens gibts ähnliche prozessoren schon sehr lange, ich denke, intel hat die gelegenheit beim schopf gepackt.

big little wird kommen um zu bleiben. andere hersteller werden nachziehen. genauso wie es bei den chiplets irgendwann kommen wird. da gabs früher auch haufenweise skeptiker die sagten, "aber die lantenzen"...

Gipsel

2021-03-09, 18:32:57

In Anbetracht der marginalen Anzahl an AVX-512 Anwendungen muss man wohl noch etwas abwarten, um "realistisch" beziffern zu können. ;) Zunächst einmal sehen wir dieses Resultat in realem Code – und die Frage, ob man hier vielleicht durch Optimierungen die Differenz senken könnte, bleibt für den Anwender nutzlose Theorie, solange es keiner macht.Es gibt die Aussage vom Author des Codes, daß das nicht repräsentativ ist ;). Der Test ist ein Edge Case, der im Wesentlichen an wiederholten Typkonversionen hängt (die mit AVX512 vektorisiert werden können, mit AVX2 dagegen nicht). Das Ding ist sicher kein Benchmark, um die mit AVX512 erwartbare Mehrperformance korrekt vorherzusagen (zum Vergleich vielleicht mal SpecFP ansehen, wenn es von intel Zahlen mitsamt AVX512 gibt ;)). Das kann man schon jetzt sagen, auch ohne daß es viel AVX512-Software gibt.

Undertaker

2021-03-09, 18:33:34

Big.LITTLE ist die Zukunft, das dürfte außer Diskussion stehen. 2021 sind abseits des Smartphone/Table-Marktes eben nur Apple und Intel schon so weit.

Undertaker

2021-03-09, 18:41:27

Es gibt die Aussage vom Author des Codes, daß das nicht repräsentativ ist ;). Der Test ist ein Edge Case, der im Wesentlichen an wiederholten Typkonversionen hängt (die mit AVX512 vektorisiert werden können, mit AVX2 dagegen nicht). Das Ding ist sicher kein Benchmark, um die mit AVX512 erwartbare Mehrperformance korrekt vorherzusagen (zum Vergleich vielleicht mal SpecFP ansehen ;)). Das kann man schon jetzt sagen, auch ohne daß es viel AVX512-Software gibt.

Und doch existiert die Software genau so, wie sie ist. ;) Dem Anwender sind die Gründe am Ende egal und in anderen Fällen pauschal perfekte Optimierungen und andere Ergebnisse vorzusagen, ist reichlich viel Glaskugel (und erfahrungsgemäß auch überaus optimistisch).

x-force

2021-03-09, 18:42:27

Big.LITTLE ist die Zukunft, das dürfte außer Diskussion stehen.

wir können gerne darüber reden, warum das am desktop so sein sollte :freak:

idle verbrauch ist jetzt schon ein witz und peak verbrauch im grunde kein thema, da zählt nur, was man gekühlt bekommt.

Gipsel

2021-03-09, 18:48:09

Und doch existiert die Software genau so, wie sie ist. ;) Dem Anwender sind die Gründe am Ende egalFür den konkreten Code gibt es praktisch keine Anwender (oder eben nur genau einen, Ian selber). ;)
Irgendwelche Edge Cases kann man praktisch immer konstruieren, wenn man es darauf anlegt.

aufkrawall

2021-03-09, 18:56:00

Big.LITTLE ist die Zukunft, das dürfte außer Diskussion stehen.
Das ist halt nur eine Phrase, von der man nichts hat. Ich brauch weder heute, noch wahrscheinlich auch nicht in fünf Jahren irgendwelche little-Cores in Desktops und Workstations, wenn ich stattdessen auch zig geile BIG-Cores bei 110W haben kann.

Linmoum

2021-03-09, 19:19:38

Ist mir ein Rätsel, wie man für Desktop/HEDT oder Server so geil auf BIG.little sein kann. Das ist dafür ganz sicher nicht die Zukunft, wenn man statt x kleiner Kerne genauso viele große haben kann. Dass Intel nicht 16 große Kerne liefern kann, ist ja deren Unvermögen.

Mobile ist eine andere Geschichte, aber auch dort bleibt abzuwarten, ob sowas wie 2+8 besser als 8 vollwertige große Kerne ist.

x-force

2021-03-09, 19:34:00

Mobile ist eine andere Geschichte, aber auch dort bleibt abzuwarten, ob sowas wie 2+8 besser als 8 vollwertige große Kerne ist.

das konzept läuft bei arm mittlerweile schon gut 10 jahre

gibt es hier keine arm experten, die dazu etwas input, am besten sogar effizienz analysen liefern können?

Undertaker

2021-03-09, 19:46:59

Für den konkreten Code gibt es praktisch keine Anwender.

Das gilt für das Gros der aktuellen AVX512 Benches und ist doch kein Spezifikum diesen einen Tests. :D Wartet doch erst einmal ab, wie es mit AVX512 weitergeht, bevor irgendwelche Zahlenspiele losgehen - momentan steht der "bis zu" case nun einmal hier. Wertungsfrei.

Das ist dafür ganz sicher nicht die Zukunft, wenn man statt x kleiner Kerne genauso viele große haben kann.

Der Big Core hat Faktor 4 die Größe des Little Cores bei ca. 40% mehr IPC und etwas besserer Taktbarkeit. Dazu ist die Energieeffizienz der Little Cores im Arbeitspunkt besser. Was bedeutet das praktisch? Hast du das Transistorbudget für 16 Big Cores, könntest du mutmaßlich auch eine 12+16 Konfiguration mit deutlich höherer MT-Leistung und Effizienz herausbringen. Noch weiter gedacht: Du pumpst die Big Cores noch weiter auf (was per se ineffiziente wird), baust dann im immer noch gleichen Power- und Transistorbudget einen 10+16 Kerner und hast ein Produkt mit gleichermaßen besserer ST- und MT-Performance und höherer Effizienz. An dem Grundprinzip, das jegliches Kerndesign einen Kompromiss zwischen verschiedenen gegenläufigen Optimierungszielen finden muss, kommt in den nächsten Jahren kein Hersteller mehr vorbei.

Gipsel

2021-03-09, 19:51:45

Das gilt für das Gros der aktuellen AVX512 Benches und ist doch kein Spezifikum diesen einen Tests.Nein, nicht in dem Ausmaß. Und man weiß sicher (unter Anderem aus Aussagen des Authors des Tests), daß dieser spezifische Test einen nicht repräsentativen Edge Case darstellt. Details sind hier und im Nachbarthread aufgeführt. Dies gilt für andere Sachen nicht so. Und andere (repräsentativere) Anwendungsfälle werden sicher nicht Faktor 6 zeigen (sondern im Schnitt unter 2), das ist glasklar.

Fusion_Power

2021-03-09, 19:54:34

Das ist halt nur eine Phrase, von der man nichts hat. Ich brauch weder heute, noch wahrscheinlich auch nicht in fünf Jahren irgendwelche little-Cores in Desktops und Workstations, wenn ich stattdessen auch zig geile BIG-Cores bei 110W haben kann.
Aber die Stromrechnung! ;)
ist nicht gerade die Power-Effizienz der eigentliche Existenzgrund dieser "Big/Little" Konstrukte? Zumindest im mobilen Bereich kann man damit sicher einiges reißen. Und kleine, kompakte Desktop PCs werden auch immer beliebter. Wer will sich in nem Micro-Gehäuse schon nen 100(+) Watt Blockheizkraftwerk reinquetschen? :freak: Ist im Sommer ion Deutschland eh schon viel zu warm, da muß nicht auch noch der PC die Bude aufheizen.

Hakim

2021-03-09, 20:07:09

Kosten eigentlich bei den Aktellen CPUs die Energiesparmaßnamen Transistoren oder ist das zu vernachlässigen?

Ich bin auf jeden Fall auf Alder Lake gespannt, ich werde mir einfach schauen ob das Konzept für den Desktop geeignet ist und dann entscheiden.

Undertaker

2021-03-09, 20:08:19

Nein, nicht in dem Ausmaß.

Und keiner hat irgendwo geschrieben, dass die Rede von Durchschnittswerten war, schau in das Ursprungsposting :) Genausowenig sollen Fälle mit unterdurchschnittlichem Zuwachs herausgenommen werden. Vielleicht solltest du deine Diskussion in einem anderen Thread weiterführen? Das eigentliche Thema war, ob beide Betriebsstrategien (AVX512 nur auf den Big Cores bzw. Rückfall auf AVX256 mit allen Kernen) prinzipiell möglich wären, um in beiden Szenarien - hohe und weniger hohe Zuwächse - die optimale Variante wählen zu können.

Gipsel

2021-03-09, 20:17:11

Und keiner hat irgendwo geschrieben, dass die Rede von Durchschnittswerten war, schau in das Ursprungsposting :)Wenn Du ein Argument dafür bastelst, daß etwas wegen dem Faktor 6 eventuell in der Praxis "mehr als lohnenswert wäre", dann ist der Einwurf, daß das eben bei Weitem nicht der Normalfall in der Praxis ist (sondern eben ein edge case) völlig angebracht. Weiß gar nicht, warum man das diskutieren muß. Faktor 2 als realistischeres Maximum ist doch auch nicht so schlecht.

Undertaker

2021-03-09, 20:21:31

Gipsel

2021-03-09, 20:34:06

In diesem Szenario, und ich sprach sogar explizit vom Extremfall für den 2+8 Kerner (bei einem größeren Anteil der Big Cores reichen folglich sehr viel kleinere Zuwächse), wäre dies nun einmal der Fall. Die Verallgemeinerungen triffst gerade du und ich werde mich diesen nicht anschließen. :)Um abzuschätzen, ob sich etwas lohnt, sind diese nötig. Es ist dafür einfach wichtig zu wissen, in welchem Bereich sich das auf die Performance auswirkt und welche Steigerung in etwa mit welcher Häufigkeit auftreten wird. Von falschen Voraussetzungen auszugehen führt zu falschen Schlüssen.
Kannst du denn etwas zur mittlerweile schon mehrfach wiederholten, eigentlichen Frage beitragen?Was betrachtest Du denn als "eigentliche Frage"?
Ob es wahlweise beschnittene GoldenCove-Kerne mit 256Bit breiten AVX-Einheiten und welche mit 512bit geben wird? Unwahrscheinlich. Ob das dynamisch zur Laufzeit ausgewählt wird? Noch unwahrscheinlicher. Allein schon, weil doch niemand ohne Benchmark weiß, wieviel AVX512 im genauen Code bringt oder nicht. Zudem ist der Befehlssatz ein anderer, das sind nicht nur einfach nur die gleichen Befehle auf doppelt so breiten Registern.

Wenn big.little (hybrid) aktiv ist, gibt es nur AVX2. AVX512 geht nur bei inaktiven Mont-Kernen. So liest sich das von intel bisher veröffentlichte.

Undertaker

2021-03-09, 20:52:56

Um abzuschätzen, ob sich etwas lohnt, sind diese nötig. Es ist dafür einfach wichtig zu wissen, in welchem Bereich sich das auf die Performance auswirkt und welche Steigerung in etwa mit welcher Häufigkeit auftreten wird. Von falschen Voraussetzungen auszugehen führt zu falschen Schlüssen.

Du sprichst schlicht von etwas anderem, wenn den "Extremfall" aus meinem Posting ignorierst. Aber gut, wählen wir ein anderes Beispiel:

8+8 Kerner, angenommene Performance eines Big-Cores entspricht je 2x Little-Cores. Bei 50% Mehrleistung durch AVX512 wäre es bereits ein Nullsummenspiel, ob der Code mit AVX256 auf 8+8 Kernen oder mit AVX512 auf 8+0 Kernen läuft. Bei 60% Gewinn durch AVX512 wäre Variante 2 ebenfalls schon "mehr als lohnenswert".

Ob das dynamisch zur Laufzeit ausgewählt wird? Noch unwahrscheinlicher. Allein schon, weil doch niemand ohne Benchmark weiß, wieviel AVX512 im genauen Code bringt oder nicht.

Aber prinzipiell möglich wäre so etwas? Der Software gegenüber wäre die CPU AVX512-fähig, wobei der Scheduler Tasks logischerweise nur auf die Big-Cores verteilen kann. Alternativ wird die Software aus Kompatibilitätsgründen ohnehin über einen AVX256-Pfad verfügen, der für den Fall geringer AVX512-Gewinne in Kombination mit deutlich höherer Anzahl an Little-Core sinnvoll wäre. Erinnert mich so ein bisschen an diverse Anwendungen/Spiele, die bei manchen CPUs z.B. bewusst auf SMT verzichten, weil der Nutzen bekanntermaßen kontraproduktiv ist.

Gipsel

2021-03-09, 21:05:46

Du sprichst schlicht von etwas anderem, wenn den "Extremfall" aus meinem Posting ignorierst.Für den Extremfall plant keiner, sind verschwendete Resourcen.

Und intel hat sich klar geäußert: Im Hybridmodus (Cove- und Mont-Kerne aktiv) gibt es kein AVX512. Man hat dann also schlicht keine Wahlmöglichkeit. Wenn jemand also unbedingt Code laufen lassen will, der gut von AVX512 profitiert, kann er vielleicht die Mont-Kerne manuell deaktivieren (BIOS Option?). Aber das dürfte es dann auch schon so ziemlich gewesen sein. Lakefield kann ja trotz des einen SunnyCove-Kerns auch kein AVX512 (noch nicht mal irgendein AVX, sondern nur die diversen SSE-Versionen).

Und generell kann der Scheduler nicht feststellen, ob in einem Programm der AVX512 oder der AVX2-Codepfad optimaler wäre. Das kann maximal das Programm selber. Aber eben nur, wenn die CPU sagt, sie könne AVX512, was bei AlderLake offenbar nicht der Fall sein wird.

BlacKi

2021-03-10, 05:46:52

ich glaube die letzten werden es einsehen dass das prinzip zukunft hat, wenn man einen 8+0 und einen 8+8 vergleichen können wird. gespannt bin ich auf die kleineren modelle wie 2+8, ich würde gerne einordnen können was ich davon halten soll^^

=Floi=

2021-03-10, 06:06:21

Sehe es am PC/desktop nicht so.
Es gibt hier andere rahmenbedingungen.

Am ende wird beim vergleich 8+0 oder 8+8 wahrscheinlich die kühllösung und tdp im mobile bereich entscheiden und nicht der chip. Du musst dir eher 2+6 vs 8+8 zum dreifachen preis vorstellen.

HOT

2021-03-10, 06:13:49

OgrEGT

2021-03-10, 06:54:27

Im Desktop wird das +x bestenfalls ne Nebenrolle spielen.

Kommt vlt auf den jeweiligen Ensatzfall an... kann mir selbst einen großen Vorteil auch nicht vorstellen... Mein Office Laptop der permanent am Dock hängt mit 3700u glüht permament durch die vielen Datenbanken die laufen Websites und Dokumente die geöffnet sind und all die vielen Corporate Security Programme die mitlaufen... Mein Spiele PC idelt beim Websurfen oder glüht ebenfalls beim Zocken... Ob die Kiste ein paar Watt weniger im Idlen oder beim YT schauen verbraucht... Wayne... eine Leistungssteigerung durch bL kamn ich mir in meinem Fall nur schwer vorstellen... Beim Arbeiten würden mir eher mehr große Kerne helfen und beim Zocken braucht es ab 8 Kernen auch keine zusätzlichen egal ob b oder L sondern eher breitere wenn überhaupt da sowieso GPU Limit...

Piefkee

2021-03-10, 09:16:23

Von Francois Piednoel (ehemaliger Intel)
https://twitter.com/FPiednoel/status/1369429800218202119
I am sorry to tell you that big.LITTLE on x86 is not going to provide the return on investment excel was projecting...

Man kann von ihm halten was man will aber eigentlich ist er schon extrem "pro" Intel. Heißt nichts gutes für Alder-Lake

nagus

2021-03-10, 13:01:18

Gipsel

2021-03-10, 13:30:31

hat hier wirklich jemand geglaubt, dass alder lake etwas reißen wird gegen amd? ist es nicht offensichtlich, dass intel rocket lake bringen musste, ganz einfach deswegen, weil alder lake auch nix (oder noch weniger) ausrichten wird? wenn alter lake die "ofenbarung" wäre, hätte man sich rocket lake jetzt wirklich sparen können.Gegenargumente wären die Unsicherheiten der 10nm-Fertigung und die Weiterentwicklung von Sunny-/CypressCove über WillowCove (Tigerlake) zu GoldenCove in Alderlake. Also ein wenig Fortschritt ist da schon zu erwarten. Mal abgesehen davon, daß man damit wohl grob mit dem 12Kerner von AMD konkurrenzfähig sein könnte und nicht mehr bei dann nur noch Mittelklasse darstellenden Achtkernern stehen bleibt.

aufkrawall

2021-03-10, 13:49:49

Acht littles sollen in etwa zu vier Zen 3 Kernen inkls. SMT vergleichbar sein? Das glaube ich nicht. Die littles brauchen auch Strom und lassen den versoffenen Intel-BIGs weniger vom Budget übrig.

Gipsel

2021-03-10, 14:06:13

Acht littles sollen in etwa zu vier Zen 3 Kernen inkls. SMT vergleichbar sein? Das glaube ich nicht. Die littles brauchen auch Strom und lassen den versoffenen Intel-BIGs weniger vom Budget übrig.Ich denke schon, daß intel nicht nur Däumchen dreht und an den 10nm GoldenCoves sowie Gracemont ein wenig rumoptimiert hat. Und ein little Core auf dem Niveau eines halben BigCores (also eines Threads) ist jetzt nicht so unmöglich. Die erreichen vielleicht nicht den gleichen Maximaltakt, aber in powerlimitierten Szenarien gehen die Monts effizienter als die Coves zu Werke, so daß das netto einen Gewinn darstellen dürfte, der recht nahe an das von Dir genannte rankommen dürfte. Müßte mal bei Lakefield checken, wie das da aussah (und vielleicht die Geburtswehen subtrahieren). Schlechter dürfte es ja nicht werden, eher besser (wegen Tremont -> Gracemont).

Edit:
Bei Lakefield kann ein einzelner Tremont-Kern laut intel bis zu 67% der Performance eines SunnyCove-Kerns (ohne SMT) liefern (bei halbem Verbrauch). Die Vermutung 1 Mont ~ 1/2 Cove (also eines Threads mit SMT) könnte also ganz gut hinkommen.

aufkrawall

2021-03-10, 14:47:40

Bei Lakefield kann ein einzelner Tremont-Kern laut intel bis zu 67% der Performance eines SunnyCove-Kerns (ohne SMT) liefern (bei halbem Verbrauch).
Klingt erstmal gut. Aber wenn man sich vor Augen führt, dass AMD da seit Renoir wahrscheinlich so ziemlich das Gleiche erreicht, durch etwas weniger Takt und Spannung bei Allcore.. :freak:

Gipsel

2021-03-10, 15:37:39

Klingt erstmal gut. Aber wenn man sich vor Augen führt, dass AMD da seit Renoir wahrscheinlich so ziemlich das Gleiche erreicht, durch etwas weniger Takt und Spannung bei Allcore.. :freak:AMD vielleicht, intel aber nicht* ;). Und Fläche spart es ihnen auch.

*: Ach bei intel sieht es bei Teillast gar nicht so schlecht aus. Bei gleicher Leistung ist ein einzelner Mont wohl nur etwas besser als ein runtergetakteter Cove. Vorteile bringt aber die Flächenersparnis (4 kleine Kerne nehmen nur so viel Platz weg wie ein großer), so daß man es sich leisten kann, mehr kleine Kerne auf einem optimaleren Betriebspunkt zu halten als für die gleiche Leistung einen großen Kern nahe Anschlag zu fahren.

davidzo

2021-03-11, 01:13:02

Ich kann mir nicht vorstellen, dass es so einfach ist, die Architektur so abzuändern, dass sie ohne AVX512 jetzt plötzlich schneller wird. Die ist immerhin darauf hin optimiert worden. Ich denke, Intel hat hier einfach auf ein falsches Pferd gesetzt und reitet das jetzt tot.

Die FPU ist an sich ein eigener Funktionsblock und Intel hat gute FPU Designs für AVX2. Bisher ist RKL die einzige Desktop CPU mit AVX-512 und wie gut die damit aussieht kann man ja langsam sehen. Für die MobilCPUs Sunny und Willow ist AVX-512 ja ein Katastrophe (für die Taktraten/TDP/Akkulaufzeit), da kann man gerne drauf verzichten, vor allem weil es die Diesize nicht unerheblich treibt wie man bei RKL sieht.
Ich kann mir gut vorstellen dass Intel lernfähig geworden ist und mit AVX512 einfach wieder zurückrudert und stattdessen caches, ROB, sprungvorhersage, registerfiles etc. überarbeitet die auch in normalem Integer Workload einen Speedup bringen.

Das klingt eher danach, daß die kleinen Kerne das nicht können (so daß big.little nicht mit AVX512 geht).

Nee, da ist nicht nur der Satz, da ist auch eine Tabelle die Befehlssatzerweiterungen mit den CPU Architekturen in Relation setzt.
Und bei Alderlake steht definitiv kein AVX-512 in der Tabelle, bei der zeitgleichen Server-Auskopplung Sapphire Rapids schon.

Big.LITTLE ist die Zukunft, das dürfte außer Diskussion stehen. 2021 sind abseits des Smartphone/Table-Marktes eben nur Apple und Intel schon so weit.

Big Little als Konzept macht schon Sinn, ja. Fragt sich aber ob Intel dafür die richtige Technologie hat.
Intel hat 2020 mit großem Tamtam, 10nm und advanced Packaging Technologie Lakefield gebaut, mit einem 82mm Die in 4 Mrd Transistoren + Basedie in einer TDP von 7-9.5Watt.
Im gleichen Jahr hat Apple den M1 vorgestellt, ebenfalls Big Little, mit sehr ähnlichem Energieverbrauch, aber fetterer GPU, on package memory und 15Mrd Transistoren total bei einer diesize von 120mm2.
Performancemäßig liegt irgendwas zwischen Faktor 4 und 10 zwischen den beiden...

So unterschiedlich sind die Technologien und Zeiträume nun auch nicht, ist immerhin beides 2020 und der beste jeweilig zur Verfügung stehende Fertigungsnode. Selbst wenn Big Little auch für x86 die Zukunft ist, im moment sehe ich nicht das Intel das Zeug dazu hat auch die richtige Core Architektur dafür zu liefern. Dafür liegen sie schon zu viele Generationen zurück.

Der Big Core hat Faktor 4 die Größe des Little Cores bei ca. 40% mehr IPC und etwas besserer Taktbarkeit.

Kreative Prozentrechnung :freak:
Die Little Cores sind 40% langsamer, das heißt aber nicht dass die big Cores 40% schneller sind, sondern 66%, also beinahe doppelt so schnell.

Guck dir mal die Goldmont+ vs Skylake Benchmarks von STH an, also jeweils eine Generation zurück. Das sind fast allesamt sehr gute mT skalierende Server workloads und trotzdem bringen die 4x kleinen Silver J5005 Cores in der Regel nicht einmal die halbe Leistung eines HT-losen Skylake i3-8100 quadcores.

Wenn die Golden Coves die erwarteten gigantischen Gewinne in ST liefern sollen, dann wird der Abstand eher größer, nicht kleiner.

Bei Lakefield kann ein einzelner Tremont-Kern laut intel bis zu 67% der Performance eines SunnyCove-Kerns (ohne SMT) liefern (bei halbem Verbrauch). Die Vermutung 1 Mont ~ 1/2 Cove (also eines Threads mit SMT) könnte also ganz gut hinkommen.

"BIS ZU" - das hört man in letzter Zeit von Intel zu häufig. Sunny sollte "bis zu" 23% schneller sein als coffee, Rocket "bis zu" 19% schneller als Comet, etc. In Wirklichkeit trennt sie kaum ein einstelliger Prozentsatz, regressionen anderswo inklusive.
Welchen Sinn macht es "ohne SMT" zu messen wenn man einen kleinen Core vergleichen möchte der hauptsächlich in MT workloads eingesetzt wird? - genau keinen.

In letzter Zeit kann man sich bei Intels Performance Prognosen nur auf Eines verlassen: Dass alle Angaben zur Performance extrem beschönigend sind und nur unter zuhilfenahme von edge cases und winkelzügen zustande gekommen sind.

Gipsel

2021-03-11, 01:33:49

Nee, da ist nicht nur der Satz, da ist auch eine Tabelle die Befehlssatzerweiterungen mit den CPU Architekturen in Relation setzt.
Und bei Alderlake steht definitiv kein AVX-512 in der Tabelle, bei der zeitgleichen Server-Auskopplung Sapphire Rapids schon.Lakefield kann noch nicht mal AVX wegen dem Hybrid-Kram, trotzdem ist auf dem Die beim SunnyCove-Kern offenbar die 512bit breite Pipeline erkennbar.
Guck dir mal die Goldmont+ vs Skylake Benchmarks von STH an, also jeweils eine Generation zurück. Das sind fast allesamt sehr gute mT skalierende Server workloads und trotzdem gibt es da selten einen Benchmark wo die kleinen Cores mehr als 50% der Leistung eins Skylake i3-8100 bringen.Dir ist aber schon klar, daß Tremont deutlich schneller als Goldmont+ ist (+30% IPC im Schnitt sagt intel) und Gracemont (in Alderlake) ebenfalls nochmal deutlich zulegen soll (sowohl IPC als auch Frequenz)?
Wenn die Golden Coves die erwarteten gigantischen Gewinne in ST liefern sollen, dann wird der Abstand eher größer, nicht kleiner.Ich würde eher erwarten, daß das bei den Monts in etwa genau so hoch geht (bei Vektorlasten wohl sogar tendenziell mehr, auch weil dann AVX und AVX2 unterstützt werden).
"BIS ZU" - das hört man in letzter Zeit von Intel zu häufig. Sunny sollte "bis zu" 23% schneller sein als coffee,In dem Fall gibt das "bis zu" aber die Skalierung über die möglichen Betriebspunkte an.
Welchen Sinn macht es "ohne SMT" zu messen wenn man einen kleinen Core vergleichen möchte der hauptsächlich in MT workloads eingesetzt wird? - genau keinen.Der SunnyCove-Kern in Lakefield hat halt SMT deaktiviert. Was Anderes kann man also bisher nicht vermessen ;).
Und gerade weil wir von Multithread-Szenarien reden, war der Vergleich der Leistung pro Thread (wenn beide der big cores ausgelastet werden) zielführend, der damit abgeschätzt werden sollte. ;)

BlacKi

2021-03-11, 05:38:02

Klingt erstmal gut. Aber wenn man sich vor Augen führt, dass AMD da seit Renoir wahrscheinlich so ziemlich das Gleiche erreicht, durch etwas weniger Takt und Spannung bei Allcore.. :freak:

das hört sich so an, als wolltest du sagen, intel sollte es einfach gleich sein lassen...

lol ich denke alderlake wird sich mit zen4 in games anlegen können, zumindest mit oc, und dabei wohl sogar billiger in der herstellung sein.

wie kann man echt der meinung sein, intel kanns eh nicht und sollten es gleich sein lassen?;D

Tobalt

2021-03-11, 06:28:11

Der Vergleich mit AMD ist in der big little Diskussion auch eher nicht zielführend..
Mich interessiert an dieser Stelle wie sich ein 8+8 gegenüber 16 gleichen big cores verhält. Und da ist halt meine Prognose:

Im gaming gleichschnell bei gleichem Verbrauch.
In productivity schneller (ja) bei gleichem limitierten Verbrauch.
Und das ganze bei geringerrm Flächenbedatf also wohl billiger

nagus

2021-03-11, 09:36:43

https://twitter.com/FPiednoel/status/1369698563844837376?s=20
https://www.forum-3dcenter.org/vbulletin/attachment.php?attachmentid=74515&d=1615451601

Gipsel

2021-03-11, 10:15:47

Mich interessiert an dieser Stelle wie sich ein 8+8 gegenüber 16 gleichen big cores verhält. Und da ist halt meine Prognose:

Im gaming gleichschnell bei gleichem Verbrauch.
In productivity schneller (ja) bei gleichem limitierten Verbrauch.
Und das ganze bei geringerrm Flächenbedatf also wohl billigerIm Desktop bei 100+W Powerlimit? Eher nicht. 12Kerner (12+0) ist realistisch als Performancetarget für 8+8 im Multithreading. Der einzige Vorteil könnte ein wenig gesparte Die-Fläche sein.

Edit zur Erläuterung:
Bei Lakefield gibt es einen Crossover bei der Performance/W zwischen Tremont und SunnyCove irgendwo bei 55% der Spitzenleistung von Sunny (single thread, also kein HT). In Multithread-Szenarien (mit HT) dürfte das eher ziemlich nahe an 50% liegen. Wenn Du also den hypothetischen 16 Kerner GoldenCove dafür nicht abnorm tief takten mußt (2GHz oder gar noch niedriger), wird 8+8 im gleichen Powerlimit nicht schneller sein. Reden wir von mobilen Prozessoren, wird es enger.
Die genaue Interpretation von der Lakefield-Geschichte ist ein wenig dubios (weil da wegen des geringen Powerbudgets der Spitzentakt unter 3GHz liegt), aber egal wie man es interpretiert, erscheint es aussichtslos, in einem mittleren Powerbudget (sagen wir mal 5W pro Kern) einen Cove mit einem Mont zu schlagen. Bei 2-3W pro Kern kann es anders aussehen (wobei zumindest AMD auch dann noch >2GHz halten kann [der 3990X hält rund 3GHz bei 3,1W pro Kern, ohne IO-Die; die Mobilprozessoren halten >2GHz bei unter 2W pro Kern inklusive IO, was unter 1,5W pro Kern ohne IO wären]). Und um einen 2,5-3GHz Big-Core performancemäßig zu erreichen, müßte man einen Mont-Kern wohl ziemlich bis ans Ende der Frequenz-Spannungs-Kurve treiben (falls er das überhaupt schafft; und eine andere Auslegung auf höhere Performance und Frequenz kostet ja auch Fläche und Strom), mit den bekannten Auswirkungen auf die Energieeffizienz. Die dürfte dann schlechter sein, als die des großen Kerns am besseren Betriebspunkt (bei Lakefield liegt dieser Crossover offenbar bei <2GHz des Sunnycove-Kerns [je nach Interpretation könnten das auch nur 1,6GHz oder so sein], dem da aber HT fehlt [was das noch etwas weiter schieben würde]).
Kurz: 8+8 hat keine Chance bei typischen Desktop-Powerbudgets auch nur in die Nähe der Multithread-Performance einer hypothetischen 16+0-Lösung zu kommen. 12+0 ist vermutlich halbwegs realistisch.

Tobalt

2021-03-11, 17:54:20

Hast Recht. Für mobile und embedded geht die Rechnung evtl noch auf.

davidzo

2021-03-12, 10:14:25

https://www.3dcenter.org/news/hardware-und-nachrichten-links-des-11-maerz-2021

Die "improved CPU cache for gaming" sind ja kein gutes Omen was die Gamingleistung von Alderlake angeht.
In einem Refresh einer brandneuen Architektur geht man in der Regel die Low Hanging fruits an. Vom Timing her wird man wohl auch gerade frische Zen3 Ergebnisse auf dem Tisch gehabt haben als man Raptor Lake konzeptuell aufgestellt hat.

Überhaupt gibt es noch keine belastbaren Aussagen zum IPC Zuwachs außer Jahre alte Gerüchte, die Willow Cove +25% und Golden Cove +50% zu Skylake einschätzen.
In Bezug auf Willow ist das also ein kleinerer Sprung von 20% (1.25x1.2=1.5). Wenn man sich aber anschaut was Willow tatsächlich gebracht hat sind die 25% deutlich zu optimistisch gewesen: In Anwendungen bis zu +23%, aber in Games reine Stagnation. Wenn ich das auf Alderlake interpretiere wird das knapp mit Golden Cove noch Zen3 in Games schlagen zu wollen...

robbitop

2021-03-12, 10:20:06

Das ist IMO sehr pessimistisch. Zwischen CML und Zen 3 waren es je nach Spiel doch gerade mal 10-15%. Gegen einen Core, der >5 Jahre alt ist (aus Sicht der uArch).
Warten wir mal die Ergebnisse von RKL ab. Es könnte, wenn man sieht, dass ATs Ergebnisse ggf noch mit dem BIOS gebencht worden sind, bei dem man 15% höhere Memorylatency hatte, schon bei RKL knapp werden. Ein ungefähres Patt ist nicht unwahrscheinlich. Mit einem zurückportierten Icelake/Sunny Cove Core. Eine uArch die auch intern schon recht alt ist.

GC als deutlich neuere uArch wird da sicherlich was drauf legen. Zen 3 ist aktuell nicht so weit vorn, dass der Vorsprung nicht ganz schnell wegschmelzen kann. Es würde mich wirklich wundern, wenn Alderlake Zen 3 nicht schlagen würde in Games.

Tarkin

2021-03-12, 10:53:26

GC als deutlich neuere uArch wird da sicherlich was drauf legen. Zen 3 ist aktuell nicht so weit vorn, dass der Vorsprung nicht ganz schnell wegschmelzen kann. Es würde mich wirklich wundern, wenn Alderlake Zen 3 nicht schlagen würde in Games.

Die Frage ist nicht ob ADL Zen 3 schlagen wird können, sondern wie es gegen Zen 3+/4 aussieht ;)

Ich schätze ADL wird deutlich hinter den Erwartungen zurückbleiben - einfach weil 10nm, Big.Little Ansatz, Release Date/Verfügbarkeit.

Wenn es für Intel gut läuft, dann können sie vl. ein Quartal Warhol Paroli bieten, und dann kommt auch schon die nächste "Watschen" in Form von Zen 4.

robbitop

2021-03-12, 10:58:19

Die Frage ist, was Zen 3+ mitbringt. Wenn es wie Lucienne oder wie Zen 2 XT einfach nur ein refresh ist, dann kann es sein, dass nur ein bisschen Takt draufgelegt wird.
Es sieht im Moment ja nicht nach anderem IOD aus und nach weiterhin 7 nm für die CCDs. Da wäre meine Erwartung bei ~5 %.

Zen 4 wird sicherlich ordentlich was drauflegen. Da wäre meine Erwartung ebenfalls, Golden Cove zu schlagen. Wäre aber auch traurig wenn nicht. Neuere uArch und 5 nm vs 10 nm (wobei Intels 10 nm eher vergleichbar mit TSMCs 7 nm sind).

davidzo

2021-03-12, 11:36:38

Das ist IMO sehr pessimistisch. Zwischen CML und Zen 3 waren es je nach Spiel doch gerade mal 10-15%.

Ja und das trotz dem in vielen Spielen anliegendem GPU Limit.
Guck dir doch mal die Min Frames und 720, 600, 480, 360p benches an, da sind es locker 20-40% und selbst ein 5600x schneller als ein 10900k mit 15% mehr Takt.

Reden wir hier eigentlich über IPC oder absolute Performance? Denn wenn man die Differenz beim Turbotakt und der coranzahl einrechnet müsstest du bei cml eher den 1700 non K mit dem 5800x vergleichen.

Gegen einen Core, der >5 Jahre alt ist (aus Sicht der uArch).

Die neuere uArch ist aber nicht besser, das ist ja das traurige.
Und vor 5 Jahren hatte die uArch auch 1,1Ghz weniger turbotakt, das geht also nicht wenn du hier die absolute Leistung vergleichst.

Warten wir mal die Ergebnisse von RKL ab. Es könnte, wenn man sieht, dass ATs Ergebnisse ggf noch mit dem BIOS gebencht worden sind, bei dem man 15% höhere Memorylatency hatte, schon bei RKL knapp werden. Ein ungefähres Patt ist nicht unwahrscheinlich. Mit einem zurückportierten Icelake/Sunny Cove Core. Eine uArch die auch intern schon recht alt ist.

GC als deutlich neuere uArch wird da sicherlich was drauf legen. Zen 3 ist aktuell nicht so weit vorn, dass der Vorsprung nicht ganz schnell wegschmelzen kann. Es würde mich wirklich wundern, wenn Alderlake Zen 3 nicht schlagen würde in Games.

Gerade an RKL sieht man doch dass es schwierig wird in Games überhaupt irgendeine positive Skalierung ohne regressionen hin zu bekommen, da die ganzen Architekturverbesserungen die Sunny Cove 18% mehr IPC bescheren in Games nunmal nicht anschlagen und mit DDR5 die Latenzen auch nicht besser werden.
Bessere DRAM Latenzen, bessere Cache Hitrate, bessere Branch prediction, das sind dinge die in Games anschlagen, von AVX512, network/5G, security instructions die bei Golden cove so neu sein sollen ist da nichts zu sehen.

robbitop

2021-03-12, 13:19:19

Im CB 720p Performancerating sind es sogar nur 6% zwischen dem 5900X und dem 10900K. 10700K zum 5800X sind es 9%.
Ein signifikantes GPU Limit ist mit dem Testsystem IMO @720p nicht zu erwarten.
https://www.computerbase.de/2020-11/amd-ryzen-5000-test/4/#abschnitt_amd_ryzen_vs_intel_core_in_720p
Wenn das der Fall wäre, würde 5900X den 3900X in dem Performancerating nicht mit +30% wegbürsten.

Zur Klarstellung: ich spreche von Performance. Für den Endkunden ist es relevant, wie viel Performance er hat. Wieviel davon IPC und wieviel davon Takt ist, ist für uns Nerds interessant aber nicht relevant für den Endkunden.

Die neuere uArch ist aber nicht besser, das ist ja das traurige.
Und vor 5 Jahren hatte die uArch auch 1,1Ghz weniger turbotakt, das geht also nicht wenn du hier die absolute Leistung vergleichst.
Prozessnormiert scheint sie das nicht zu sein, wenn man auf Perf/W schaut. Aber Cypresslake ist ein Backport - daran leidet das Ganze sicherlich. IMO ist Willow Cove hier repräsentativer. Und IMO ist Willow Cove schon ein guter Sprung ggü Skylake. Ich erwarte einen ähnlichen von Golden Cove.

Gerade an RKL sieht man doch dass es schwierig wird in Games überhaupt irgendeine positive Skalierung ohne regressionen hin zu bekommen, da die ganzen Architekturverbesserungen die Sunny Cove 18% mehr IPC bescheren in Games nunmal nicht anschlagen und mit DDR5 die Latenzen auch nicht besser werden.
Bessere DRAM Latenzen, bessere Cache Hitrate, bessere Branch prediction, das sind dinge die in Games anschlagen, von AVX512, network/5G, security instructions die bei Golden cove so neu sein sollen ist da nichts zu sehen.
Ich finde, dass du da ein wenig zu viel reininterpretiertst. Und das in nur 1x Sample. RKL ist ein half-assed backport von einer uArch die Jahre alt ist und hätte in 10 nm kommen sollen. Das ist eine gestutzte Ente.
Dazu kommt, dass für Spiele Accesslatenzen sehr sehr wichtig sind. Wenn man da mit 15% Malus fahren muss, hat das direkte Auswirkungen.

Alderlake wird sich aber natürlich über diese Zweifel beweisen müssen und hat aufgrund der jetzigen Situation natürlich auch Skepsis verdient. Aber IMO bist du da 1-2 Stufen zu pessimistisch.

maximus_hertus

2021-03-12, 13:52:47

Ein signifikantes GPU Limit ist mit dem Testsystem IMO @720p nicht zu erwarten.

Das ist bei nV Karten in Low-Res eben die (aktuelle) Frage - siehe den Thread im CPU Bereich bzw. https://www.youtube.com/watch?v=JLEIJhunaW8

BlacKi

2021-03-12, 13:54:20

in CB20 ist rkl ca 15% schneller als die alte arch. gaming kann man wegen dem geardown wohl noch nicht vergleichen, denn der 11700k lief dort in der krüppelstellung gear2. desweiteren gegen amd gibts dann immernoch schnellen ram + oc. also ich gehe davon aus das auch bei den games intel die nase vorne haben wird mit dem 11900k mit oc 10-15% vorne liegen wird. 14nm vs 7nm.
das ist schon fast ein halbes wunder.

Das ist bei nV Karten in Low-Res eben die (aktuelle) Frage - siehe den Thread im CPU Bereich bzw. https://www.youtube.com/watch?v=JLEIJhunaW8

selbst wenn der nv treiber die performance bremst, dann ist es immernoch ein cpu limit, weil man es durch die cpu performance beeinflussen kann.

robbitop

2021-03-12, 14:00:32

Das ist bei nV Karten in Low-Res eben die (aktuelle) Frage - siehe den Thread im CPU Bereich bzw. https://www.youtube.com/watch?v=JLEIJhunaW8
Es ist aber 1. die gleiche Grafikkarte für alle CPUs (gleiche Bedingungen für alle - dazu kommt, dass der NV Treiber das CPU Limit eher noch hervorhebt - und es wurde ein GPU Limit angenommen von davidzo) und 2. sind CPU Limits doch im Performancerating klar erkennbar. Zen 3 bügelt Zen 2 mit +30% ab. Das ist mit signifikantem GPU Limit nicht der Fall.

Wir werden die Launchreviews mit dem 11900K und richtigem BIOS abwarten müssen. Ich persönlich erwarte ein ungefähres Patt.

maximus_hertus

2021-03-12, 14:22:55

und 2. sind CPU Limits doch im Performancerating klar erkennbar. Zen 3 bügelt Zen 2 mit +30% ab. Das ist mit signifikantem GPU Limit nicht der Fall.

Evtl. sind es ja deutlich weniger als 30% Differenz und es wird nur durch die nV Karte ein +30% suggeriert? Da alle mit einer RTX 3000 testen, gibt es da leider immer wieder nur die gleiche Daten.

Bei den Launchreviews erwarte ich, je nach Parcours, auch einen Patt.

fondness

2021-03-12, 15:39:41

Zen 4 wird sicherlich ordentlich was drauflegen. Da wäre meine Erwartung ebenfalls, Golden Cove zu schlagen. Wäre aber auch traurig wenn nicht.

Jetzt sind wir schon bei dem Punkt wo es traurig wäre, wenn AMD Intel nicht schlägt? Schön langsam wirds albern. Wir sprechen hier von einem defacto Monopolisten, ressourcentechnisch haushoch überlegenen Gegner. Intels Anspruch muss es sein, in jeder noch so kleinen Marktnische das beste Produkt zu haben. Der aktuelle Zustand ist eine Anomalie und eigentlich ein Desaster für Intel.

RKL ist ein half-assed backport von einer uArch die Jahre alt ist und hätte in 10 nm kommen sollen. Das ist eine gestutzte Ente.

Keine Ahnung, warum du das mit dem Backport so betonst, ein Backport hat keine Auswirkungen auf die IPC und die Taktraten sehen auch normal aus. Wenn das alles ist, was Intel seit Skylake geschafft hat dann gute Nacht. Ich hätte ehrlich gesagt mit einer Machtdemonstration gerechnet, aber davon sind wir weit entfernt. Offensichtlich gab es bei Intel nicht nur Probleme in der Fertigung, was im Engineering in den letzten 6 Jahren passiert ist, ist nicht gerade berauschend.

BlacKi

2021-03-12, 15:48:27

sie erreichen alle ihre gewinnprognosen und übertreffen sie sogar. nach eine desaster sieht das nur aus einer abweichender perspektive aus.

intel ist auch mehr als amd. intel hat viel mehr eisen im feuer als amd, viele davon sind (noch) nicht gewinnbringend, kann sich das aber auch leisten.

wieviele resourcen intel und amd rein für das design von cpu architekturen ausgibt, das wäre mal ganz interessant zu vergleichen. aber overall, kann man das nicht vergleichen.

fondness

2021-03-12, 15:49:44

sie erreichen alle ihre gewinnprognosen und übertreffen sie sogar. nach eine desaster sieht das nur aus einer abweichender perspektive aus.

Das ist das Wesen eine Monopols, das die Produktqualität keinen Einfluss mehr hat auf die Zahlen.

BlacKi

2021-03-12, 15:54:20

Das ist das Wesen eine Monopols, das die Produktqualität keinen Einfluss mehr hat auf die Zahlen.
ja, es ist kein desaster für intel.:biggrin:

ich würde sogar soweit gehen und sagen, designtechnisch läuft bei intel alles nach ihrem plan. ganz unabhängig mal davon wie ihre cpus in der realität performen.

robbitop

2021-03-12, 15:59:28

Evtl. sind es ja deutlich weniger als 30% Differenz und es wird nur durch die nV Karte ein +30% suggeriert? Da alle mit einer RTX 3000 testen, gibt es da leider immer wieder nur die gleiche Daten.

Mag sein. Aber es geht ja um die Differenz zwischen CML und Zen 3. Und die ist wie beschrieben nicht so groß. Selbst unter diesen Bedingungen. Es wurde ja das CPU Limit angezweifelt nicht anders herum ;)

Jetzt sind wir schon bei dem Punkt wo es traurig wäre, wenn AMD Intel nicht schlägt? Schön langsam wirds albern. Wir sprechen hier von einem defacto Monopolisten, ressourcentechnisch haushoch überlegenen Gegner. Intels Anspruch muss es sein, in jeder noch so kleinen Marktnische das beste Produkt zu haben. Der aktuelle Zustand ist eine Anomalie und eigentlich ein Desaster für Intel.
Das ist uns allen bewusst. Jeder war absolut überrascht, was AMD seit Zen in 2017 geliefert hat. Das war aufgrund der Lage des Unternehmens damals schon ein kleines Wunder. Ich selbst habe diesen Aspekt hier im Forum mehr als einmal klar dargelegt.

Andererseits hat AMD sich seit 2017 einen ganz anderen Stand erarbeitet (als den ewigen Underdog) und klar gezeigt, dass sie in Punkto CPU Design ggü Intel absolut wettbewerbsfähig sind. AMD ist ambitioniert. Entsprechend ändert sich auch die Erwartungshaltung. Das sieht man auch in der Bewertung des Unternehmens.
Entweder will man vorne mit dabei sein oder nicht. Und AMD will das offenbar. Den Underdog Status hat man so langsam abgelegt. Dann muss man sich diesen Erwartungen auch stellen.
Mit 5 nm und einem neueren Design sollte AMD vorn liegen. Denn sowohl TSMC als auch AMD's CPU Team haben ihre Fähigkeiten in den letzten Jahren oft genug bewiesen.

Ich kann mir gut vorstellen, dass AMD das auch so sieht und ein wenig stolz darauf ist, dass man sich diese Erwartung und diese Art Wahrnehmung aufgebaut hat. Man ist wieder wer. AMD ist kein Underdog mehr. Ressourcen in Form von Cash sind offensichtlich nur eine Variable von vielen.

Keine Ahnung, warum du das mit dem Backport so betonst, ein Backport hat keine Auswirkungen auf die IPC und die Taktraten sehen auch normal aus. Wenn das alles ist, was Intel seit Skylake geschafft hat dann gute Nacht. Ich hätte ehrlich gesagt mit einer Machtdemonstration gerechnet, aber davon sind wir weit entfernt. Offensichtlich gab es bei Intel nicht nur Probleme in der Fertigung, was im Engineering in den letzten 6 Jahren passiert ist, ist nicht gerade berauschend.
Dr Ian Cutress hat die Nachteile von Backports in seinem Video und auch im Artikel klar beschrieben. Dazu ist die Wahrnehmung auch etwas verzerrt: RKL-S wird 2021 releast. Aber die uArch ist vor ~4 Jahren in Form von Icelake fertig gewesen. Wurde aber nie releast. Blöd für Intel.
Was Intels RnD in den letzten Jahren gemacht hat wird man mit der möglichst neuesten uArch IMO erst sehen. Und das ist Golden Cove.

x-force

2021-03-12, 16:30:55

Mangel76

2021-03-12, 16:37:03

Es ist aber 1. die gleiche Grafikkarte für alle CPUs (gleiche Bedingungen für alle - dazu kommt, dass der NV Treiber das CPU Limit eher noch hervorhebt - und es wurde ein GPU Limit angenommen von davidzo) und 2. sind CPU Limits doch im Performancerating klar erkennbar. Zen 3 bügelt Zen 2 mit +30% ab. Das ist mit signifikantem GPU Limit nicht der Fall.

Wir werden die Launchreviews mit dem 11900K und richtigem BIOS abwarten müssen. Ich persönlich erwarte ein ungefähres Patt.

Gab es da nichtmal Gerüchte, dass der NV-Treiber auf AMD-CPUs nicht so gut läuft? War wohl zu Beginn der Ryzen-Ära. Hat man das mal mit aktuellen CPUs überprüft?

BlacKi

2021-03-12, 16:46:16

die big.little experten bringen ausschließlich big kerne für windows ;D
damit dürfte sich die frage nach der sinnhaftigkeit von alderlake beantwortet haben

https://www.golem.de/news/sc8280xp-naechster-laptop-snapdragon-ohne-little-kerne-2103-154904.htmlblödsinn.

arm braucht einfach 8 große kerne für die x86-32-Bit- und x86-64-Bit-Emulation. in einem arm laptop macht das durchaus sinn, da alle 8 kerne verglichen mit intel little sind.

Gab es da nichtmal Gerüchte, dass der NV-Treiber auf AMD-CPUs nicht so gut läuft? War wohl zu Beginn der Ryzen-Ära. Hat man das mal mit aktuellen CPUs überprüft?
im HWUB test sieht man das die first gen ryzen nicht gut mit nv läuft. alle anderen danach laufen gut.

mczak

2021-03-12, 17:10:14

die big.little experten bringen ausschließlich big kerne für windows ;D
damit dürfte sich die frage nach der sinnhaftigkeit von alderlake beantwortet haben

Wobei da ist die Rede von 4 gold und 4 gold+ Kernen. Ob das wirklich dieselben sind und nicht sowas wie 4 Cortex-A78 und 4 Cortex-X1?
Man muss auch sehen dass die bisherigen little Kerne (die Cortex A55) absolut winzig und langsam sind und keinesfalls vergleichbar mit Gracemont. Selbst Cortex-A78 dürfte eher vergleichbar sein mit Gracemont als Golden Cove, der erreicht nie die Peak-Performance eines Golden Cove.

x-force

2021-03-12, 17:17:41

Wobei da ist die Rede von 4 gold und 4 gold+ Kernen. Ob das wirklich dieselben sind und nicht sowas wie 4 Cortex-A78 und 4 Cortex-X1?
Man muss auch sehen dass die bisherigen little Kerne (die Cortex A55) absolut winzig und langsam sind und keinesfalls vergleichbar mit Gracemont. Selbst Cortex-A78 dürfte eher vergleichbar sein mit Gracemont als Golden Cove, der erreicht nie die Peak-Performance eines Golden Cove.

das ist vollkommen egal für das funktionsprinzip und erhoffte energieeinsparungen bzw effizienssteigerungen durch big.little.

davon ab handelt es sich sogar um einen laptop und keinen desktoprechner.
akkulaufzeit wurde also definitiv schon einkalkuliert.

aufkrawall

2021-03-12, 17:19:28

im HWUB test sieht man das die first gen ryzen nicht gut mit nv läuft. alle anderen danach laufen gut.
Quatsch, die Ergebnisse der alten Ryzens sind nur weniger durchs GPU-Limit verwässert. Auch mit neueren/schnelleren CPUs ist der AMD-Treiber mit DX12 mitunter ~20% schneller als der von Nvidia.

davidzo

2021-03-12, 17:42:10

Zur Klarstellung: ich spreche von Performance. Für den Endkunden ist es relevant, wie viel Performance er hat. Wieviel davon IPC und wieviel davon Takt ist, ist für uns Nerds interessant aber nicht relevant für den Endkunden.

Du biegst und windest dich aber ganz schön. Im einen Satz sagst du nur die performance die am Ende heraus kommt zählt, im nächsten redest du etwas von "angesichts 5 jahre alter µarch" und "prozessnormiert".

IMO ist Willow Cove hier repräsentativer. Und IMO ist Willow Cove schon ein guter Sprung ggü Skylake.

Willow Cove ist hat kein Stück mehr IPC als Sunny Cove. Einen richtigen Vergleich von Willow in Games mit Skylake und Zen3 habe ich allerdings auch noch nicht gesehen. Insofern können wir nur mutmaßen ob Willow in Games (mit dGPU) überhaupt schneller wäre als Skylake.
Und von den angekündigten 25% IPC sind bis zum launch nur 18% übrig geblieben, im Schnitt der Reviews eher noch weniger.
Wenn die Gerüchte stimmen ist der Golden Cove Sprung mit 20% noch niedriger angesetzt. Mal sehen was diesmal davon ankommt.
Ich würde mich besser schonmal vorbereiten nicht dass später jemand enttäuscht ist.

Ich finde, dass du da ein wenig zu viel reininterpretiertst. Und das in nur 1x Sample.

Von RKL? Das gibts mittlerweile viele Samples, einige unabhängige Tests.

Dazu kommt, dass für Spiele Accesslatenzen sehr sehr wichtig sind. Wenn man da mit 15% Malus fahren muss, hat das direkte Auswirkungen.

Eben und bei den Cache Latenzen sind Sunny und Willow eben auch Rückschritte gegenüber Skylake. Ja selbst Skylake war gegenüber Haswell und Broadlake ein Rückschritt bei den Latenzen. Das ist auch nicht verwunderlich, größere Caches, größerer Ringbus, mehr Cores, das ist immer mit Latenzregressionen verbunden.

Skylake war Broadwell in billiger und besser skalierbar (takt, Voltage) und hat gerade soviel an execution-width Zuwachs mitgebracht dass der 6700K in Games gerade so mit einem 4790K mithalten konnte.

Btw, das hochgepriesene "wunderbios" für alderlake scheint die Latenzen zu verbessern indem es einfach die CPU durchgängig um 100mhz höher taktet :freak: - soviel zu IPC gains ;D

Alderlake wird sich aber natürlich über diese Zweifel beweisen müssen und hat aufgrund der jetzigen Situation natürlich auch Skepsis verdient. Aber IMO bist du da 1-2 Stufen zu pessimistisch.
Jedem seine Meinung, ich respektiere das. Leo ist da ja z.B. auch eher einer der Intel-Optimisten. Ich bin da eher einer der das beste hofft aber mit dem schlimmsten rechnet. :wink: Wobei ich Intel im moment zuerst im GPUmarkt die Daumen drücke, da ist ein dritter supplier momentan am schmerzlichsten vermisst.

robbitop

2021-03-12, 20:04:22

Zu ersterem. Das hat nichts mit „biegen“ zu tun. Man achte auf die Zusammenhänge. Für Perf/W und max Perf ist nunmal die uArch und der Prozess relevant. Je modernerer der Prozess, desto mehr Transistoren kann man investieren. Je neuer die uArch desto höher ist die Wahrscheinlichkeit dass diese innovativer/besser ist.

Zu Cypresscove und WC. Ja leider ist der Vergleich schwer, weil es WC nicht im Desktop gibt. Zu den Memorylatenzen kann man mit den bisherigen Daten nichts beurteilen. Das müsste man mit latenznormiertem Speicher (timings und latenzen) testen. Mit finalem BIOS.
15% Memorylatency Reduktion sind nicht mittels 100 MHz Mehrtakt möglich.

WC opfert Cachelatenz für Größe. Man kann nicht alles gleichzeitig haben. Es ist immer ein Kompromiss. Hitrate (aus Größe) vs Latenz.

Ich bin btw überrascht, wie wenig schneller der 6700K vs 4790K ist. Habe gerade erstaunt im CB Performancerating festgestellt, dass das nur 3% sind. Allerdings wird dort obergrottiger RAM für SKL genutzt. DDR4-2133. Die Memorylatenz in dem Review war 7 ns / 13% höher als beim 4790K.
Mit halbwegs brauchbarem Speicher (und damit meine ich Speicher der 2016 verfügbar war) wäre es etwas wenig arg gewesen.

KarlKastor

2021-03-13, 12:45:34

das ist vollkommen egal für das funktionsprinzip und erhoffte energieeinsparungen bzw effizienssteigerungen durch big.little.

Das ist überhaupt nicht egal. In SpecInt hat ein A55 (1,8 GHz) nur 1/8 der Performance eines X1 (2,84 GHz). FP nur 1/12. Wie viele A55 kerne willst du verbauen um auch nur einen großen Kern zu ersetzen? Dazu ist der 1,8 GHz A55 auch (fast) nicht effizienter als ein 2,4 GHz A76. (Beim SD855)
Warum das also keinen Sinn macht liegt auf der Hand. Die A55 dienen nur dazu unkritische Hintergrundtasks zu übernehmen, da die absolute elektr. Leistung dort niedriger ist und man dadurch Energie spart.

Anders dagegen bei Apple. Der Icestrom hat 1/3 bis 1/4 der Performance der Firestrom und ist dabei 3 bzw. 2x so effizient (jeweils Int/FP). Das ganze bei 1,8 vs 3 GHz.
Oh Wunder, setzt Apple auch im Notebook auf Big/Little.

Quelle: Anandtech

Die Little bei Intel werden wohl 1/2 der Performance eines Big Cores haben. An welchem Produkt das jetzt näher dran liegt sollte auffällig sein. Ob das Konzept erfolgreich ist oder nicht, hängt davon ab, wie effizient die kleinen Kerne sind und wie gut das Scheduling läuft. Und zu guter letzt auch wie gut parallelisierbar die Anwendung ist. Denn man muss schon massig Threads auslasten können um überhaupt einen Vorteil haben zu können.

robbitop

2021-03-13, 13:30:12

IMO ist das Prinzip ähnlich dem eines Getriebe eines Autos. Jede Übersetzung ist für eine bestimmte Geschwindigkeit die richtige Wahl, weil sie den Motor im idealen Betriebspunkt hält (bzw in einem guten Bereich der Kennlinie).

UArchs skalieren nach Daumenregel die Performance in Korrelation zur Leistungsaufnahme um ~1x Größenordnung. Darüber und darunter wird das Verhältnis Perf/W schlechter schlechter. Im unteren Bereich verliert man mehr Takt als man Leistungsaufnahme mit Spannungsabsenkung gewinnt. Und im oberen Grenzbereich gewinnt man nur noch wenig Takt für mehr Spannung.

Je nach benötigter Performance kann das ganze innerhalb dieses Bereichs einer uArch liegen oder außerhalb. Für Niedriglastszenarien macht daher eine zusätzliche uArch Sinn (sofern man Leistungsaufnahme sparen will), die außerhalb des guten Skalierungsbereiches der bisherigen uArch läuft. Also bspw 1x Größenordnung darunter.
Oder man möchte etwas Überlappung - dann halt nur 1/2 Größenordnung darunter. Je nach gewünschter Abstufung.

aufkrawall

2021-03-13, 13:36:00

BlacKi

2021-03-13, 13:47:37

amdfanuwe

2021-03-13, 13:52:41

Wenn ich viel Multithreading brauch, nehm ich ne GPU dazu. Die hat viel mehr Kerne.

BlacKi

2021-03-13, 13:57:13

Wenn ich viel Multithreading brauch, nehm ich ne GPU dazu. Die hat viel mehr Kerne.

deswegen gibts auch keine dualsocket systeme mehr...

aufkrawall

2021-03-13, 14:51:13

cpus haben nunmal probleme mit der leistungsaufnahme, wenn man nunmal kerne dranhängt. ein 5950x undervolted braucht auch seine 200w+ wenn er nicht durch powerlimits eingebremst wird.

Kannst du mal aufhören, ständig AMD mit Intel gleichzusetzen? :freak:
Zen 3 raucht Intels BIGs bei der MT-Effizienz und ein 5950X verliert entsprechend durch seine Drosselung prozentual viel weniger als ein versoffener 10900k...

würde man den 5950x mit littlecores ausstatten also 8+32 statt 16+0 wäre amd ebenfalls in der lage seine multithreadingleistung zu verbessern bei gleichem verbrauch.
Zum Glück hat AMD ihre "BIG"-Arch erfolgreich weiterentwickelt, anstatt endliche Ressourcen in die Entwicklung von Krüppel-Cores zu investieren.

BlacKi

2021-03-13, 14:53:35

wieso ziehst du intel jetzt mit hier rein? der erfolg von big little ist herstellerunabhängig. es könnte auch in zukunft auf ein big/medium/little mix hinauslaufen.

aufkrawall

2021-03-13, 14:55:18

wieso ziehst du intel jetzt mit hier rein? der erfolg von big little ist herstellerunabhängig.
Weil wir im Alder Lake-Thread sind? :uhammer2:
Wäre mir neu, dass das hier als Huldigungsstätte für little.BIG im Allgemeinen fungieren soll...

BlacKi

2021-03-13, 15:08:26

Weil wir im Alder Lake-Thread sind? :uhammer2:
Wäre mir neu, dass das hier als Huldigungsstätte für little.BIG im Allgemeinen fungieren soll...ich hab hier den 16 kerner angeführt, weil du meinst, amd braucht keine little cores. um intel zu schlagen nicht, aber um mehr MT performance rauszuholen bietet sich das big little prinzip trotzdem an.

Savay

2021-03-13, 15:12:17

Die Ironie ist eh, dass Zen3 abzüglich des fetten L3 schon recht "little" ist verglichen mit den Coves und man sich auch mit offenen Limits sehr anstrengen muss das Ding im Alltag in Anwendungen auf diese ominösen 200W zu bekommen. (bekomme ich nichtmal wirklich zuverlässig mit DXO PL4 hin, höchstens mit Cinebench oder Handbrake mit bestimmten(!) Settings :ulol:)

Wir sprechen bei nem 5950X eher von 16 sehr gut skalierenden "Medium" Cores (~1W-20W/Core) wenn man bei diesem Schema bleiben will...und dem mit abstand besten Argument contra big.little das es momentan überhaupt in Silizium gibt.

Das ausgerechnet der insgesamt besser performen würde wenn es noch kleinere Cores gäbe ist erstmal einfach nur eine Behauptung und mMn lediglich eine sehr steile These.
Ob sich das mit Zen4 oder Zen5 dann langsam ändert wird man sehen müssen...aber Zen3 taugt nun echt nicht als beleg "pro" Big.Little, eher im Gegenteil, grade wenn man auch noch die APU Varianten mit einbezieht.

BTW:
Im übrigen schleppt der Desktop Zen3 ja noch seinen IOD/Interconnect Server-Design Rucksack mit sich herum, was nichts mit den Kernen zu tun hat, den Niedriglast Grundverbrauch der kompletten CPU aber in die höhe treibt.
Deswegen resultiert das IMHO grade bei der Skalierung nach unten schnell mal in einen Äpfel-Birnen vergleich wenn man ohne das zu bedenken von Kern Skalierung statt CPU Skalierung spricht....

robbitop

2021-03-13, 15:34:15

fondness

2021-03-13, 16:38:54

Die Ironie ist eh, dass Zen3 abzüglich des fetten L3 schon recht "little" ist verglichen mit den Coves und man sich auch mit offenen Limits sehr anstrengen muss das Ding im Alltag Anwendungen auf diese ominösen 200W zu bekommen. (bekomme ich nichtmal wirklich zuverlässig mit DXO PL4 hin, höchstens mit Cinebench oder Handbrake mit bestimmten(!) Settings :ulol:)

Wir sprechen bei nem 5950X eher von 16 sehr gut skalierenden "Medium" Cores (~1W-20W/Core) wenn man bei diesem Schema bleiben will...und dem mit abstand besten Argument contra big.little das es momentan überhaupt in Silizium gibt.

Das ausgerechnet der insgesamt besser performen würde wenn es noch kleinere Cores gäbe ist erstmal nur einfach nur eine Behauptung und mMn lediglich eine sehr steile These.
Ob sich das mit Zen4 oder Zen5 dann langsam ändert wird man sehen müssen...aber Zen3 taugt nun echt nicht als beleg "pro" Big.Little, eher im Gegenteil, grade wenn man auch noch die APU Varianten mit einbezieht.

BTW:
Im übrigen schleppt der Desktop Zen3 ja noch seinen IOD/Interconnect Server-Design Rucksack mit sich herum, was nichts mit den Kernen zu tun hat, den Niedriglast Grundverbrauch der kompletten CPU aber in die höhe treibt.
Deswegen resultiert das IMHO grade bei der Skalierung nach unten ein schnell mal in einen Äpfel-Birnen vergleich wenn man ohne das zu bedenken von Kern Skalierung statt CPU Skalierung spricht....

Wollte ich auch schon sagen. Wenn Zen4 deutlich fetter wird, könnte AMD Zen3 fast als little Core verwenden. Das Ding lässt sich bei ~2.5-3Ghz Takt offensichtlich mit <=1W pro Core betreiben wie man im Notbook sieht. Dazu ist der so Core so winzig, das man da auch Die-Size mäßig nicht mehr viel sparen kann.

BlacKi

2021-03-13, 16:46:53

Wollte ich auch schon sagen. Wenn Zen4 deutlich fetter wird, könnte AMD Zen3 fast als little Core verwenden. Das Ding lässt sich bei guter Performance und ~2.5-3Ghz Takt offensichtlich mit <=1W pro Core betreiben wie man im Notbook sieht. Dazu ist der so Core so winzig, das man da auch Die-Size mäßig nicht mehr viel sparen kann.

die tatsächliche größe eines kerns spielt dabei keine rolle. aber wenigstens stellst du die generelle sinnhaftigkeit nicht per se in frage. sei es im desktop/server/mobile sektor.

Die Ironie ist eh, dass Zen3 abzüglich des fetten L3 schon recht "little" ist verglichen mit den Coves und man sich auch mit offenen Limits sehr anstrengen muss das Ding im Alltag in Anwendungen auf diese ominösen 200W zu bekommen. (bekomme ich nichtmal wirklich zuverlässig mit DXO PL4 hin, höchstens mit Cinebench oder Handbrake mit bestimmten(!) Settings )ich weiß nicht warum ihr euch daran festhakt, das ich 200w+ genannt habe. darum ging es mir garnicht. aber ich bereue es, sie genannt zu haben, weils euch triggert und hier vom thema ablenkt.

Wir sprechen bei nem 5950X eher von 16 sehr gut skalierenden "Medium" Cores (~1W-20W/Core) wenn man bei diesem Schema bleiben will...und dem mit abstand besten Argument contra big.little das es momentan überhaupt in Silizium gibt.
warum soll ein 8+32 kerner in multithread anwendungen nicht schneller sein als ein 16 kerner? nur weil 16 kern schon sehr viel kerne sind, heißt das nicht das 40 kerne genausoschnell oder gar langsamer wären. deshalb sehe ich hier überhaupt kein argument.

Das ausgerechnet der insgesamt besser performen würde wenn es noch kleinere Cores gäbe ist erstmal nur einfach nur eine Behauptung und mMn lediglich eine sehr steile These.
Ob sich das mit Zen4 oder Zen5 dann langsam ändert wird man sehen müssen...aber Zen3 taugt nun echt nicht als beleg "pro" Big.Little, eher im Gegenteil, grade wenn man auch noch die APU Varianten mit einbezieht.
du hast doch die lakefield folie gesehen. wie kann man eine verdoppelung der mt leistung als these bezeichnen?

nur weil die zen 3 kerne klein sind, heißt das nicht das zen3 von kleineren zen kernen in größerer anzahl nicht profitieren kann. nicht umsonst bietet amd bis zu 64 kerne pro sockel an.

limitiert wird der vorteil durch big little doch erst, wenn man die threads nicht auslasten kann. das ist die größe, ab der big little keinen sinnn mehr macht. ab hier können wir uns darüber streiten, für welchen anwendungsfall welche config nichtmehr taugt.

bei intel, um mal wieder zurück zum thema zu kommen, ist ja eine 8+8 config geplant, mit der fläche eines 10 kerners. da spielen die little cores schon fast eine nebenrolle. ich finde erst ab 8+16(undmehr) könnte es richtig interessant werden.

Daredevil

2021-03-13, 16:47:15

Savay

2021-03-13, 18:11:01

ich weiß nicht warum ihr euch daran festhakt, das ich 200w+ genannt habe. darum ging es mir garnicht. aber ich bereue es, sie genannt zu haben, weils euch triggert und hier vom thema ablenkt.

Du hast hier doch mit dem 5950X angefangen im ADL Thread und wirfst mit irgendwelchen Fantasie Zahlen um dich...und bist selbst dann durch sanften faktenbasierten Widerspruch direkt getriggert. Das ist echt einfach nur...:crazy:

warum soll ein 8+32 Kerner in multithread anwendungen nicht schneller sein als ein 16 kerner? nur weil 16 kern schon sehr viel kerne sind, heißt das nicht das 40 kerne genausoschnell oder gar langsamer wären. deshalb sehe ich hier überhaupt kein argument.

Deine Behauptungen einfach so ins Blaue hinein sind erst recht kein Argument...

Warum sollte ein 8+32 Zen (Wieso 32? Wieso nicht 48 oder 96?) mit gleicher(?) Die-Size, µArch und PPT plötzlich einfach mal so schneller sein?
Vielleicht solltest du erstmal deine selbst aufgestellte Behauptung beweisen oder zumindest mal ansatzweise mit Fakten untermauern, statt andere aufzufordern dein herbeifantasiertes Konstrukt zu widerlegen.
Lächerliche Diskussionskultur.

1) muss die Anwendung noch besser parallelisiert sein als bisher schon...die 32 Threads eines 5950X sind in der Praxis auch mit recht gut optimierten Anwendungen offensichtlich schon herausfordernd genug, das kann ich dir versichern.
2) Muss die eine µArch entsprechend schlecht nach unten skalieren und die andere schlecht nach oben. Ist das bei Zen2/3 der Fall?! Ich denke nicht Tim!
3) Hast du konkrete Zahlen zu deinen hypothetischen "superlittle" Zen?! Wieviel weiter nach unten soll der skalieren und wieviel DieSize soll der sparen, wieviel besser soll die Perf/W sein?!
4) Sind <2W/Core für ~2,5-3GHz und 8 Kerne + SMT mit 32MB L3 auf ~80qmm zu viel?

Zudem würde ich auch mal sagen, dass die Voraussetzungen auf mehreren Ebenen bei AMD und Intel momentan einfach so unterschiedlich sind, das hier direkte Rückschlüsse von dem einen auf den anderen absolut Blödsinnig sind.
Ob Big.Little was bringt hängt nämlich ja anscheinend nicht nur von einem Faktor ab.

Da spielt offensichtlich nicht nur die jew. µArch sondern auch dessen Skalierbarkeit, absolute Größe, Perf/W, die zu Verfügung stehenden Interconnects und ob es ein monolithisches Die oder ein MCM werden soll eine große Rolle, etc. pp..
Und nicht zuletzt die SW und OS und der Einsatzzweck/Zielmarkt spielen eine Rolle.

Deswegen ist das nicht wirklich zielführend momentan von Intel 1:1 auf AMD oder Apple oder Samsung oder Qualcomm oder umgekehrt zu schließen.

Das einzige was momentan klar ist, ist das big.little unter den richtigen Voraussetzungen evtl. Vorteile haben kann, aber nicht zwingend haben muss.
Und ich denke damit kann man aktuell jede Diskussion über deinen komplett hypothetischen little.evenlittler Zen3 und AMD hier auch beenden.

robbitop

2021-03-13, 20:25:50

Sind die 2W pro Core bei Vollauslastung aller Threads? Also bspw Cinebench MT? Wenn Kerne idlen oder nur teilausgelastet sind, dann verbrauchen sie auch kaum noch was dank Power/Clockgating und dvfs. Kommt Zen 3 wirklich unter Vollauslastung (inkl der virtuellen Threads) wirklich auf 2W/Core bei knappen 3 GHz? :-)

Savay

2021-03-13, 21:02:55

Volllast mit allen Threads.

Mein 6C Renoir ohne SMT, also schon Zen2, landet dann schon bei ~1,5-2W/Core bei ~2,8-2,9GHz sobald das STAPM und das ~15W Limit greifen. 8C mit SMT wird da eher weniger Verbrauch/Core sein, und je nach binning immer noch auf die 2,5GHz+ kommen.
74560

Zen3 ist da eher nicht schlechter geworden.
Skaliert eher nur oben raus und bei Teillast etwas besser und hat halt mehr IPC und noch ein etwas ausgefeilteres Powermanagement.

Beim Desktop Zen3 verhagelt in solchen "Niedriglast"-Szenarien auch der Grundverbrauch des IF/IOD/IMC u.a. die gesamte Statistik, weshalb IMHO einfach fraglich ist ob noch sparsamere Kerne da überhaupt viel bringen. Irgendwann dominiert dann so oder so einfach der ganze "Uncore" Bereich.
Müsste mal beim großen simulieren wo der da pro Kern unter Volllast landet wenn ich den Multi bei 3GHz kappe..

robbitop

2021-03-13, 21:07:08

Warum hast du ohne SMT gemessen? :)

Savay

2021-03-13, 21:42:57

Mein Renoir hat leider kein SMT und die mit SMT waren nur schlecht lieferbar als ich das Ding gekauft habe. ;)

Der DT Zen3 skaliert übrigens sehr unterschiedlich über die CCDs und bei weitem nicht so gut nach unten.
Insofern kann man auch heute schon sagen das es eine LP "little" Version von Zen in den APUs gibt und halt die HPC "big" Variante...aber halt dennoch die gleiche Architektur.

Auch auf der CPU selbst sieht man diese Tendenz.
Das CCD0 mit den beiden Prime-Cores skaliert eher schlecht nach unten aber besser nach oben, das CCD1 messbar besser nach unten. Das ist quasi schon eine Art "big.little" Binning...und das ganz sicher eher sekundär auf den Verbrauch, denn der recht hohe All-Core soll ja auch noch gehalten/erreicht werden. :smile:

74561

Ist BTW ein bisschen tricky das Powermanagement damit nicht zu zerschießen und die Kerne dazu zu bringen nicht zu wenig aber auch nicht zu viel zu ziehen...Multi reduzieren bringt irgendwie wenig, man muss sich da über das PPT ranwanzen und den ganzen IOD/IF/IMC Rucksack von locker 30-40W bedenken.

davidzo

2021-03-14, 12:50:13

Nur wird halt auch ganz ohne littles die Akkulaufzeit bei Niedriglast mit jeder neuen Generation von "APUs" regelmäßig drastisch besser. Wenn man ohne Probleme zig Stunden mit einem Gerät produktiv sein kann, bieten sich in der Praxis meist ausreichend Gelegenheiten zum Aufladen. Auch hier gibt es einen abnehmenden Grenzertrag, ab dem weitere Verbesserungen nur noch ganz nett sind, aber mehr auch nicht.

Die nächste Grenze bei der Akkulaufzeit ist ganz einfach: Wenn ich das Notebook wie ein Handy benutzen kann, also das Netzteil ruhenden Gewissens zuhause lassen kann und das Gerät den ganzen Tag benutzen kann. Das ist mit vielen Geräten ansatzweise möglich, wenn ich dann aber 3D-Modellierung mache, Lightroom/Capture One, Videostreaming oder abends mal ein Spiel laufen lasse hört das ganz schnell auf. Letztendlich nimmt man aktuell doch immer das Netzteil mit, aus Sicherheitsgründen.
Ich lebe also mit der permanenten Angst das Netzteil mal irgendwo zu vergessen, die Kabel durchs ständige aufwickeln zu schrotten und schleppe eine viel zu große hässliche Tasche mit mir herum.
11h Akkulaufzeit hätte ich auch mit dem 16" Macbook schon haben können, aber ich arbeite viel mit CAD-tools, da bleibt da unter Teillast nichts mehr von der tollen Laufzeit übrig. Beim M1 Mac könnte ich mir das schon eher vorstellen und die Apple-Grafik schlägt spielend die 560x vom 2017er Macbook 15". Wäre da nicht noch die Softwarekompatibilität würde ich sicher bald wechseln...

Soweit ich richtig gelesen habe, sind zwei kleine Kerne bei Apple so schnell wie ein großer im MT und ein kleiner Kern verbraucht 1/10 von dem, was der große Zieht.
Also 8 kleine Kerne verbrauchen 80% der Energie eines großen Kerns, leisten aber soviel wie 4 große Kerne im MT.
Das ist doch genau das, was man haben möchte.

Hoffe Intel sieht das genauso und verbaut keine Netbook Atoms. ;D

Apple sieht das aber anders. Die 4x Effizienzkerne sind nicht für die MT Last sondern für background/ low priority tasks. Bei den größeren Iteration der M-chips bleibt das Icestorm Cluster daher gleichgroß.
Die neuen 14" und 16" Macbooks sollen 12 Kerne bekommen, davon 8 Firestorm und weiterhin nur vier Icestorm.

Auch die Desktop-Chips mit bis zu 64 kernen sollen nur max. ein 16C Cluster an Icestorms bekommen.

Das ist imo eine keine Bekenntnis zu Big Little, sondern genau das Gegenteil von dem was du untermauern willst.

Wahrscheinlich skaliert der Interconnect bei MT workloads einfach zu schlecht, bzw. verbraucht dann mehr als bei den großen Kernen. Das Cachesystem, Register, ROB und Sprungvorhersage sind bei den großen Kernen einfach soviel besser, dass man etliche teure DRAM Zugriffe spart, die viel Energiebudget fressen.

Sollten die Gerüchte über die Core Konfigurationen bei Apple stimmen, dann hat man sich anscheinend schon entschieden: Gegen big Little, aber für ein paar "background Task Cores".

Während Intel momentan die Core Architektur als großen Roadblock ausgemacht hat der die meiste Energie frisst und eine weitere Skalierung verhindert, haben Apple und AMD längst den Interconnect, bzw. DRAM oder Memory im weitesten Sinne als den langfristigen Blocker ausgemacht. Wenn man den Industriestimmen folgt (embedded sram, in memory computing, etc.) kriege ich den Eindruck dass Intel einfach an einem Problem von gestern arbeitet, nicht an den Problemlösungen von morgen.

BlacKi

2021-03-20, 14:18:53

fondness

2021-03-20, 14:36:34

was vl neu sein könnte: Hardware guided scheduling
ob die proportionen der golden core / gracemont cores stimmen?
https://cdn.wccftech.com/wp-content/uploads/2021/03/Intel-12th-Gen-Alder-Lake-Desktop-Mobility-CPU-20-Performance-Increase-Official.jpg

Waren das nicht mal mehr als up to 20% Single thread Performance?

BlacKi

2021-03-20, 14:58:09

ja und nein
The IPC estimates for the Alder Lake family are suggested to be 35-50% over Skylake (10th Gen CPU family) and 10-20% over Tiger Lake (Willow Cove Cores).

robbitop

2021-03-20, 15:00:58

HW guided scheduling überrascht nicht mit x86 big little. Das hatten wir ja vor kurzem bereits diskutiert und war so auch meine Vermutung.

aufkrawall

2021-03-20, 15:05:46

Auf was sich die "up to 20%" wohl beziehen? Rocket- oder Tiger Lake? Eigentlich ist so eine Angabe ohne Erwähnung des exakten Vergleichsmodells komplett hirnrissig (oder steht das irgendwo anders?).

fondness

2021-03-20, 15:18:32

Up to Angaben sind ohnehin gefährlich, hat man ja bei RKL gesehen, wo nur die fp Leistung um den angegebenen Prozentsatz gestiegen ist. Irgendeinen edge case findet man immer, die frage ist was im Schnitt übrig bleibt.

Der_Korken

2021-03-20, 15:19:37

Wenn ein Goldmont-Kern so groß wie ein GoldenCove-Kern wäre, verstehe ich den Sinn eines solchen Chips nicht. Da hätte man mit 16 GoldenCove-Kernen, die bei Volllast in Takt und Spannung gesenkt werden, doch wohl ein ähnliches Ergebnis in MT erreicht und sich dafür den Rattenschwanz mit unterschiedlichen Kernen (mit mglw. noch unterschiedlichem AVX-Support ...) direkt sparen können. Ich würde eher darauf tippen, dass das Bild nur schematisch ist. Vor allem müsste der Chip ja riesig sein, wenn 8 GoldenCoves (die sicherlich nicht kleiner als SunnyCoves sind) oben links in die kleine Ecke passen :freak:.

BlacKi

2021-03-20, 15:28:57

HW guided scheduling überrascht nicht mit x86 big little. Das hatten wir ja vor kurzem bereits diskutiert und war so auch meine Vermutung.und deshalb als neues detail die bestätigung.

Hakim

2021-03-20, 15:52:59

Wird eigentlich die 10nm SF vom Tiger Lake eingesetzt für AL oder kommt eine verbesserte Version?

Locuza

2021-03-20, 16:27:01

Wird eigentlich die 10nm SF vom Tiger Lake eingesetzt für AL oder kommt eine verbesserte Version?
Es wird offiziell die nächste Generation verwendet, 10nm "Enhanced Super Fin" (ESF):
https://images.macrumors.com/t/7bPtevFntIK0HNYxDJPz7RGoxKQ=/1200x1200/smart/article-new/2021/01/intel-alder-lake.jpg

BlacKi

2021-03-20, 16:33:39

Going beyond 10nm SuperFin (or 10nm+) we have 10nm Enhanced SuperFin (10nm++?) that helps drive higher bandwidth interconnects for the data center products.
Intel Architecture Day 2020 Refining FinFET New Intranode 10nm SuperFin 2
https://www.servethehome.com/intel-10nm-superfin-and-10nm-enhanced-superfin-hybrid-bonding/
https://www.servethehome.com/wp-content/uploads/2020/08/Intel-Architecture-Day-2020-Refining-FinFET-New-Intranode-10nm-SuperFin-2.jpg

r3ptil3

2021-03-20, 21:38:03

was vl neu sein könnte: Hardware guided scheduling
ob die proportionen der golden core / gracemont cores stimmen?
https://cdn.wccftech.com/wp-content/uploads/2021/03/Intel-12th-Gen-Alder-Lake-Desktop-Mobility-CPU-20-Performance-Increase-Official.jpg

Gerade die Energieverwaltung dürfte sehr interessant werden.

Hier erwarte ich eine kleine Revolution im IDLE Verbrauch bzw. unter geringer Last.

davidzo

2021-03-20, 23:45:17

Waren das nicht mal mehr als up to 20% Single thread Performance?

Hier im Forum hat man sogar mal von 20% IPC Increase geträumt, bzw. 50% auf Skylake.

Es ist aber mal wieder nur "up to", d.h. edge cases und auch nicht die IPC, sondern die resultierende gesamtleistung bei 1T gemeint.
Da sich das anscheinend auf willow Cove bezieht muss man im Hinterkopf behalten dass der eine mobile CPU ist die maximal mit 4,8Ghz taktet. Rocket-lake /cypress Cove dürfte sich dank 5,3Ghz Takt ziemlich genau dazwischen platzieren
In Bezug auf 5,3Ghz Rocket Lake wären das also vermutlich nur "up to +10% Singlethreaded performance".

Wie ich vermutet habe korrigieren sich alle Prognosen immer weiter nach unten je näher wir dem Launch kommen... ;D

Linmoum

2021-03-21, 00:00:32

Wenn man RKL und seine "up to 19% IPC" sieht, dann kann man sich jedenfalls schon fast denken, was aus "up to 20% ST" werden wird.

Wenig verheißungsvoll, sofern die Folie echt ist.

basix

2021-03-21, 10:44:50

robbitop

2021-03-21, 10:46:47

Das würde ich auch so erwarten.

nagus

2021-03-21, 10:53:11

robbitop

2021-03-21, 11:07:49

Bei Zen 4 ist DDR5 und PCIe5 dann aber plötzlich super, oder? :D

BlacKi

2021-03-21, 11:10:23

da ist wohl der wunsch vater des gedanken. auch in hinblick auf die verfügbarkeit einer desktop-variante und die tatsächliche spieletauglichkeit sowie platformkosten/verfügbarkeit. mainboards, ddr5 RAM, etc. ist sicher alles schweineteuer und PCIE5 grafikkarte wirds heuer ganz sicher noch keine geben.

ich denke nv wird nächstes jahr auf pcie5.0 gehen. was ist also daran falsch wenn die cpus im dezember schon 5.0 unterstützen?

Screemer

2021-03-21, 11:12:46

basix

2021-03-21, 11:39:56

da ist wohl der wunsch vater des gedanken. auch in hinblick auf die verfügbarkeit einer desktop-variante und die tatsächliche spieletauglichkeit sowie platformkosten/verfügbarkeit. mainboards, ddr5 RAM, etc. ist sicher alles schweineteuer und PCIE5 grafikkarte wirds heuer ganz sicher noch keine geben.

Du musst das so sehen: DDR5 und PCIe 5.0 sind Bonus. Auch mit DDR4 und PCIe 4.0 Karten wird ADL gut aussehen ;) NextGen Interfaces sprechen aber für Zukunftstauglichkeit und möglicherweise langlebige Plattform.

Mangel76

2021-03-21, 11:40:03

Kann ich auch nicht nachvollziehen die Kritik. Irgendwann muss es den Shift geben. Bei Intel ist die Langlebigkeit der Plattform eher die Frage als ihre Ausstattung. Das ist aber auch bei zen4 völlig offen. Schön wäre in beiden Fällen aber Mal wieder die Möglichkeit mind 3 cpu-generationen mitzunehmen ohne den Rest der HW tauschen zu müssen.

Der Schritt ist sicher richtig. Was aber auch richtig ist: es wird erstmal nicht viel bringen, dafür aber massig kosten. DDR5 wird erstmal nicht viel schneller, aber deutlich teurer sein. PCIe5 macht die Boards teuer, ohne das es Hardware gibt, die es nutzen kann. Von daher kann ich die Kritik auch verstehen, aber ist halt das alte Henne-Ei-Problem. Zen4 kommt vielleicht etwas später und hat dieses Pionier-Problem nicht mehr ganz so stark.

BlacKi

2021-03-21, 11:40:59

wenn ich nach 3 jahren die cpu wechsle, was soll ich dann mit dem alten board. ja läuft, aber will ich das? will ich einen 5800x auf einem x370/b350 board betreiben?

eher nicht. für mich ist das ein halbes argument.

@DDR5 ich wäre mir nichtmal so sicher das ddr5 6500 soviel teurer wird als ddr4 4800. schneller wird er aber allemal. ich bin gespannt, wie schnell wir die ddr5 8000 knacken werden.

Screemer

2021-03-21, 11:41:22

Das war doch bisher bei jedem Sprung so. Wie soll das günstiger werden, wenn es keine Nachfrage gibt?

wenn ich nach 3 jahren die cpu wechsle, was soll ich dann mit dem alten board. ja läuft, aber will ich das? will ich einen 5800x auf einem x370/b350 board betreiben?

Klar. Warum sollte ich das nicht wollen? Abgesehen von pcie4.0, was ja mit einigen BIOS Versionen funktioniert hat, bringt mir ein MB-Wechsel genau was? Zen ist ein soc. Mehr als mir die CPU liefert habe ich noch nie gebraucht für andere mag das anders sein.

Ich wünsche mir seit jeher 5xxx-agesas für high-end x370 Boards. Leider wird das wohl ein Traum bleiben. Ich werde also bis Zen4 bei meinem 3xxxer bleiben. Das würde ich nicht, wenn ich einen 5xxxer auf meinem Board betreiben könnte.

BlacKi

2021-03-21, 11:50:13

Klar. Warum sollte ich das nicht wollen? Abgesehen von pcie4.0, was ja mit einigen BIOS Versionen funktioniert hat, bringt mir ein MB-Wechsel genau was? Zen ist ein soc. Mehr als mir die CPU liefert habe ich noch nie gebraucht für andere mag das anders sein.

Ich wünsche mir seit jeher 5xxx-agesas für high-end x370 Boards. Leider wird das wohl ein Traum bleiben. Ich werde also bis Zen4 bei meinem 3xxxer bleiben. Das würde ich nicht, wenn ich einen 5xxxer auf meinem Board betreiben könnte.

die ungewissheit, obs überhaupt ein bios gibt, die leistung einbricht usw. und wann das bios nachträglich kommt. das netz ist voll davon. https://youtu.be/BRiMhkNQuxQ?t=222

Screemer

2021-03-21, 12:01:59

w0mbat

2021-03-21, 12:03:33

PCIe 5.0 ist eher für M.2 SSDs interessant, GPUs können schon mit PCIe 4.0 wenig anfangen, da wird gen5 wirklich nichts mehr bringen. Und es sieht so aus, als ob ADL gen5 nur für die GPU bringen wird. Schade.

Aber sonst finde ich die Entwicklung aktuell super. Kann man sich hier noch daran erinnern, dass es noch vor kurzem hieß, IPC wird man nicht mehr wirklich steigern können? Und jetzt kommt RKL mit +20% IPC und ADL auch mit +20% IPC. Nach Jahren PCIe 3.0 kommt AMD mit 4.0 und Intel jetzt mit 5.0. Es bewegt sich wieder was!

Ghost1nTh3GPU

2021-03-21, 12:16:29

Vielleicht hat ja die GPU die SSD Huckepack. Bei Intel bietet sich der von AMD erprobte Ansatz vielleicht noch eher, da man alles aus einem Haus anbieten kann.

fondness

2021-03-21, 12:40:00

ADL sieht zumindest deutlich interessanter als Rocket Lake aus: Neue Plattform, PCIe 5.0, DDR5, viel und schnelle Connectivity und vermutlich hohe Effizienz im Teillastbetrieb. Die nochmals gesteigerte ST Performance ist auch nicht schlecht und MT wird gegenüber RKL und CML auch steigen. Für Desktop und Notebook Nutzer sollte das Ding ganz gut werden.

Mal schauen, wie Zen 3+ dagegen halten kann. Ein hypothetischer 6800X wäre auch mit +10% ggü. 5800X vermutlich langsamer in den meisten Metriken (ST, MT, Spiele)

Wenn es mittlerweile Intels Anspruch ist AMDs midrage Modell zu schlagen dann gebe ich dir recht. Ansonsten hängt ST doch sehr davon ab was da jetzt wirklich bei rum kommt, up to kann alles und nichts bedeuten wie man bei Intel immer wieder gesehen hat. Jedenfalls bedeutet es nicht durchgehend 20% mehr Single thread Performance und die Basis für die 20% ist auch nicht klar. Im übrigen ist es noch nicht so lange her, da waren sich Intel Fans hier sicher, dass dafür bereits RKL reicht.

Das würde ich auch so erwarten.

Ich warte dann mal aufs zurück rudern :-D.

aufkrawall

2021-03-21, 12:52:50

Das Schlimmste ist, dass AMD mit Zen 4 dann spätestens mit kolportierten >16C abkassieren kann wie Nvidia mit Titan. :(

CrazyIvan

2021-03-21, 13:17:44

@fondness
Ehrlich gesagt bin ich beim "aus dem Fenster lehnen" auch dabei:

Mobile 15-25 Watt
Hier dürfte die 2+8 Variante Cezanne sowohl im ST als auch MT Bereich schlagen. In MT, da die 8 ZEN Kerne sehr stark durch das Power Limit eingeschränkt werden. Hier könnte die Effizienz der Gracemont-Kerne das Zünglein an der Waage werden. Auch dürfte es deutliche Effizienzvorteile im Teillastbereich geben.
Desktop
Hier wiederum sollte die 8+8 Variante im MT mit AMDs 12-Kernern mithalten können. Im ST sollten sie vorn sein. Auch hier wieder mehr Effizienz im Teillastbereich, was aber im Desktop weniger interessiert.
Mit der angepeilten MT-Leistung sollten >90% des Desktop-Marktes abgedeckt sein - den Bereich darüber kann Intel wohl mittelfristig verschmerzen.

Allgemein kann Intel IMHO den Zeitpunkt des Wechsels auf Chiplets im Desktop dank ADL noch ein wenig hinausschieben.
Anders sieht es bei Servern aus - aber da scheint Sapphire Rapids ja zumindest ein MCM-Produkt zu sein. Da es dort anscheinend kein IO-Die gibt, dürfte es doch zu ähnlichen Nachteilen wie bei Naples führen, oder?

Thunder99

2021-03-21, 13:18:37

Dennoch, es bewegt sich was und es gibt wieder gute Konkurrenz. Gut für uns :), wir haben Auswahl und guten Preis(Kampf), hoffentlich

BlacKi

2021-03-21, 13:21:30

Beim Herrn zenchilli sitzt das Problem wohl eher vor der Kiste oder ich bin nicht fähig im randvollen Netz nach noch mehr zu finden.

Hwcanucks kommt zu einem völlig anderen Bild. Da ist b450 und b550 on paar: https://youtu.be/XPF-V4FjULg

Abgesehen davon. Selbst wenn ich mit 10% degration leben müsste, dann ist das immer noch meine Entscheidung. Zumindest dann, wenn ich die Option habe. Habe ich sie nicht. Na dann halt out of luck. Für mich war Upgradebarkeit schon seit je her ein Kaufkriterium. Darf ja ruhig andere geben, die das nicht so sehen.
die upgradebarkeit war aber auf der kippe, irgendwie jedesmal wenn neue cpus rauskommen. die community muss erst laut werden bevor sich amd bewegt. also eine garantierte upgrade sicherheit gibts da nicht.

desweiteren hat es auch zur folge das die cpus schneller an wert verlieren wenn die leute nur ihre cpu weiterverkaufen, dann muss sich nämlich jemand anders ein neues board kaufen, und das schlägt sich dann wieder auf den verkaufspreis nieder. das war einer der gründe, warum die intel cpus gebraucht so scheisse teuer waren und die amd cpus so einen krassen wertverfall hatten.

fondness

2021-03-21, 13:34:39

@fondness
Ehrlich gesagt bin ich beim "aus dem Fenster lehnen" auch dabei:
Mobile 15-25 Watt
Hier dürfte die 2+8 Variante Cezanne sowohl im ST als auch MT Bereich schlagen. In MT, da die 8 ZEN Kerne sehr stark durch das Power Limit eingeschränkt werden. Hier könnte die Effizienz der Gracemont-Kerne das Zünglein an der Waage werden. Auch dürfte es deutliche Effizienzvorteile im Teillastbereich geben.

IMO sind nur 2 big cores zu wenig. Sobald eine App, ein Spiel oder was immer mehr als zwei starke threads benötigt geht das Konzept baden. Ansonsten muss sich natürlich erstmal zeigen, ob und wenn ja um wieviel die gracemont kerne überhaupt effizienter sind als Zen 3. Bei den big cores ist man da ja weit weg.

Desktop
Hier wiederum sollte die 8+8 Variante im MT mit AMDs 12-Kernern mithalten können. Im ST sollten sie vorn sein. Auch hier wieder mehr Effizienz im Teillastbereich, was aber im Desktop weniger interessiert.
Mit der angepeilten MT-Leistung sollten >90% des Desktop-Marktes abgedeckt sein - den Bereich darüber kann Intel wohl mittelfristig verschmerzen.

Da gebe ich dir grundsätzlich Recht, sofern man die ST leistungskrone wirklich erreicht. Wenn man sie ST leistungskrone nicht erreicht, ist der Chip in jeder Hinsicht unterlegen.

Linmoum

2021-03-21, 13:43:21

Dennoch, es bewegt sich was und es gibt wieder gute Konkurrenz. Gut für uns :), wir haben Auswahl und guten Preis(Kampf), hoffentlichDie "up to +20% ST" wären weniger als das, was Intel jetzt bei RKL mit "up to +19% IPC" gegenüber dem Vorgänger verspricht.

Der Sprung mit ADL wäre also kleiner als der von CML zu RKL. Und da sind die +19% IPC ja schon unfassbar geschönt. Wenn sie bei ADL dann sogar nur auf ST-Performance statt IPC verweisen, dann kann man sich den Rest denken.

Hakim

2021-03-21, 13:47:16

Es wird ja beide Speicher Standards unterstützt, DDR4 und 5. Aber sowas wie das auf einem mobo beides möglich ist gabs seit Ewigkeiten nicht mehr, vielleicht auch ganz gut so

Nightspider

2021-03-21, 14:20:12

Woran liegts eigentlich das wir ewig bei PCIe Gen 2 hingen und Gen 3 hingen und Gen 4 und 5 jetzt innerhalb von 2 Jahren kommen?

ADL ist 10nm? Sind schon Taktraten von Engineering Samples durchgesickert?

Hakim

2021-03-21, 14:25:14

Vielleicht weil man endlich vernünftig davon profitieren kann? Die SSDs haben ja was von. Bei der Grafikkarte hats halt kaum was gebracht ( bis auf Karten mit 4 -6 GB).

r3ptil3

2021-03-21, 14:25:34

Woran liegts eigentlich das wir ewig bei PCIe Gen 2 hingen und Gen 3 hingen und Gen 4 und 5 jetzt innerhalb von 2 Jahren kommen?

Wenn man sich die Berichte so durchliest, dann geht's da auch darum, dass man als Vorreiter wahrgenommen werden will. Und diese Position hat AMD Intel bereits schon vor einer Weile abgenommen.

X570 + PCIe 4.0 schon 2019 und das auch über den Chipsatz. Die Rocket Lake Plattform kann das in 2021 noch nicht.

Schon interessant zu sehen, dass Intel extrem unter Druck ist und langsam aber wieder einen deutlichen Fokus bekommt. Wird sehr spannend.

BlacKi

2021-03-21, 14:39:01

Woran liegts eigentlich das wir ewig bei PCIe Gen 2 hingen und Gen 3 hingen und Gen 4 und 5 jetzt innerhalb von 2 Jahren kommen?

die frage ist falsch gestellt, du musst fragen, warum hat man so lange mit 4.0 gewartet. wenn man die chronik nachprüft merkt man das zwischen 3.0 und 4.0 ein rießiges fenster klafft. eigentlich hätte 4.0 2016/17 kommen müssen, dann würde sich die frage warum 5.0 2020/21 kommt erübrigen.

Badesalz

2021-03-21, 15:01:11

@blacki
Ah? Was ist denn mit DDR4 und DDR5? Oder >1Gbit Netzwerk?

robbitop

2021-03-21, 15:04:43

wenn ich nach 3 jahren die cpu wechsle, was soll ich dann mit dem alten board. ja läuft, aber will ich das? will ich einen 5800x auf einem x370/b350 board betreiben?

eher nicht. für mich ist das ein halbes argument.
Warum? Wenn das ginge hätte das bei einem guten B350/X370 Board IMO keine wesentlichen praktischen Nachteile. Nur leider geht das bei fast keinem dieser Boards.
Wenn man damals einen Zen 1 gekauft hätte wäre Zen 3 schon ein netter Sprung. PCIe4.0 bringt in der Praxis in den relevanten Auflösungen eh kaum was. Bei ssds ist es auch in Realworld kaum zu merken.

Ich warte dann mal aufs zurück rudern :-D.

Hat das Posting einen tieferen Sinn? Wenn ja bitte erläutere, was du damit meinst.

Zu der Faktenlage - bitte gern ergänzen oder korrigieren:
5900X liegt in 720p gerade mal 5% vor dem 10900K:
https://www.computerbase.de/2020-11/amd-ryzen-5000-test/4/?amp=1#abschnitt_amd_ryzen_vs_intel_core_in_720p

Das ist jetzt kein riesen großer Vorsprung.

Golden Cove sind 2x major uArch Sprünge weiter.

Die Frage ist, was Zen 3+ ggü Zen 3 bringen wird. Gibt es ein neues CCD und/oder IOD? Wenn beides gleich bliebe wären selbst +10% Performance wirklich schwierig.

Es ist überhaupt nicht unwahrscheinlich dass ADL in Spielen bis zu Zen 4 vorn liegen wird. Sicherlich nicht dominierend.

Ex3cut3r

2021-03-21, 15:26:00

robbitop

2021-03-21, 15:30:02

Ich würde mittelfristig auf einen engen Schlagabtausch tippen. Noch hat AMD die Vorteile der besseren Fertigung bei TSMC und der skalierbareren Topologie. Kann mir aber gut vorstellen, dass Intel an beiden Punkten mit voller Kraft arbeitet.
Wenn AMD mittelfristig dran bleibt und weiter Innovationen treibt wie jetzt, können sie sicherlich noch Marktanteile aufnehmen. Für uns Endkunden gibt es nichts Besseres als starken Wettbewerb.

Birdman

2021-03-21, 15:32:51

Die Frage ist, was Zen 3+ ggü Zen 3 bringen wird. Gibt es ein neues CCD und/oder IOD? Wenn beides gleich bliebe wären selbst +10% Performance wirklich schwierig.
Wenn man Zen2+ als Massstab nimmt, gibt es ausser dem explodieren des Stromverbrauchs nichts

robbitop

2021-03-21, 15:38:10

Du meinst die 3000XT Serie? Allerdings wurden die auch nie als Zen2+ vermarktet. Zen+ wurde das. Da gab es dann auch grob 10% Mehrleistung. 3% kamen aus einer getunten micro Firmware. Ob Zen 3 auch noch solche durch FW unerschlossenen Potenziale hat?

Nightspider

2021-03-21, 16:17:02

Gerade weil Intel aus seinem Schlaf erwacht ist und AMD ein größeres Budget hoffe ich das AMD bei Zen3+ auch etwas mehr in die Vollen geht, für einen Refresh.

Es hieß ja vor einigen Wochen auch das der Zen3 Refresh einen etwas größeren Sprung macht als damals der Zen1 Refresh.

Also ich hoffe ja immer noch das Zen3+ 10% mehr Leistung bringt durch Takt und IPC.

Badesalz

2021-03-21, 17:36:52

Also entweder hab ich an den Foline was falsch verstanden oder sie reden da darüber MT-Leistung verdoppelt zu haben. Kann mich wer aufklären?

CrazyIvan

2021-03-21, 17:57:48

Ja, so ist es. 8+8 sollte aufgrund höherer IPC der großen Kerne und der 8 kleinen bis zu doppelter MT Leistung eines 8C (CML/RKL?) schaffen.
Deutet IMHO auf recht hohen Takt der kleinen Kerne hin.

Edit:
Kleine Anmerkung: Intel wird hier sicher den Vergleich zu begrenzter TDP ziehen und nicht zu nach oben offener.

BlacKi

2021-03-21, 17:59:41

Also entweder hab ich an den Foline was falsch verstanden oder sie reden da darüber MT-Leistung verdoppelt zu haben. Kann mich wer aufklären?

dashier, nur mit 2 besseren kernen.

https://www.extremeit.com/wp-content/uploads/2020/07/ABE5fZbSx8u7phcX.jpg

Badesalz

2021-03-21, 21:19:18

Ja, so ist es. 8+8 sollte aufgrund höherer IPC der großen Kerne und der 8 kleinen bis zu doppelter MT Leistung eines 8C (CML/RKL?) schaffen.Ah so. Dachte schon die haben was aus Apples Folien schlecht rüberkopiert. Ja das ist natürlich der Hammer. 8+8 machen unter Vollast doppelte Leistung von 8+0.

Wahnsinn wie sich die Technik so entwickelt... Ich bin so aufgeregt.

y33H@

2021-03-21, 22:22:22

Du bist echt ein grandioser Troll :umassa:

Badesalz

2021-03-21, 22:48:14

Immerhin. Du bist nichtmal das :wave2:

basix

2021-03-22, 08:17:24

Wenn es mittlerweile Intels Anspruch ist AMDs midrage Modell zu schlagen dann gebe ich dir recht. Ansonsten hängt ST doch sehr davon ab was da jetzt wirklich bei rum kommt, up to kann alles und nichts bedeuten wie man bei Intel immer wieder gesehen hat. Jedenfalls bedeutet es nicht durchgehend 20% mehr Single thread Performance und die Basis für die 20% ist auch nicht klar. Im übrigen ist es noch nicht so lange her, da waren sich Intel Fans hier sicher, dass dafür bereits RKL reicht.

Ein 5800X ist für mich nicht wirklich Midrange. Eher der Einstieg ins High End. Kostet 450.- und ist für 95% der Anwendungsfälle fast gleich schnell wie die höheren Modelle. Mehr als 8C ist nur für Leute interessant, welche entsprechende Applikationen nutzen oder einfach den Dicksten haben wollen.

Dass Intel nicht damit nicht die Performance-Krone anpeilen kann ist klar. Dazu fehlen ihnen die Chiplets oder die Motivation zu sehr grossen Die. Aber ich kann gerne mit dir wetten, dass die schnellsten 8C ADL schneller als ein 5800X werden und auch ein 6800X ;) Wie viel oder ob es gleichstand werden wird, werden wir sehen. Man kann auch so fragen: Ist der 5800X eine schlechte CPU? Nein, eine der besten die es heute gibt. Also kann ADL nicht so schlecht sein ;)

HOT

2021-03-22, 08:44:13

Also entweder hab ich an den Foline was falsch verstanden oder sie reden da darüber MT-Leistung verdoppelt zu haben. Kann mich wer aufklären?
Das hätte Intel gerne so. Aber auch hier gilt natürlich "Up to", also gilt das wieder nur für einige sehr günstige Workloads, aber lange nicht für alle. In der Praxis wird er trotzdem hinter den 12C zurückfallen bei vielen Workloads.

[...]

Zu der Faktenlage - bitte gern ergänzen oder korrigieren:
5900X liegt in 720p gerade mal 5% vor dem 10900K:
https://www.computerbase.de/2020-11/amd-ryzen-5000-test/4/?amp=1#abschnitt_amd_ryzen_vs_intel_core_in_720p

Das ist jetzt kein riesen großer Vorsprung.

Golden Cove sind 2x major uArch Sprünge weiter.

Die Frage ist, was Zen 3+ ggü Zen 3 bringen wird. Gibt es ein neues CCD und/oder IOD? Wenn beides gleich bliebe wären selbst +10% Performance wirklich schwierig.

Es ist überhaupt nicht unwahrscheinlich dass ADL in Spielen bis zu Zen 4 vorn liegen wird. Sicherlich nicht dominierend.

Performance der CPU ohne I/O-Bremse ab dieser Seite immer die kleinste Auflösung:
https://www.anandtech.com/show/16214/amd-zen-3-ryzen-deep-dive-review-5950x-5900x-5800x-and-5700x-tested/18

Da kommt die IPC dann auch voll durch. Sobald I/O ins Spiel kommt, geht das halt nicht mehr. Das Problem hat Rocket Lake und wird auch Alder Lake haben.

dildo4u

2021-03-22, 08:46:26

Ich meine Intel geht Rückwärts mit Rocket Lake alle unter 2X MT wäre erbärmlich.

HOT

2021-03-22, 08:56:58

Ich meine Intel geht Rückwärts mit Rocket Lake alle unter 2X MT wäre erbärmlich.
Bei Intel spielt derzeit Stromverbrauch praktisch keine Rolle. Alder Lake wird einfach bei gleicher MT-Leistung weniger Strom verbrauchen. Ihr erwartet zuviel von den Atom-Kernen.

Hat jemand eigentlich schon einen ADL > A0 irgenwo gesehen? Bisher hab ich nur A0-Samples gesehen, das würde ja bedeuten, man braucht noch einen kompletten Respin. Wie soll man das denn dieses Jahr noch schaffen?!

robbitop

2021-03-22, 10:59:54

Performance der CPU ohne I/O-Bremse ab dieser Seite immer die kleinste Auflösung:
https://www.anandtech.com/show/16214/amd-zen-3-ryzen-deep-dive-review-5950x-5900x-5800x-and-5700x-tested/18

Da kommt die IPC dann auch voll durch. Sobald I/O ins Spiel kommt, geht das halt nicht mehr. Das Problem hat Rocket Lake und wird auch Alder Lake haben.
1. Leider hat AT kein Performance Rating.
2. Nutzt man Low Details (die oftmals auch Einfluss auf die CPU Load haben) - das ist dann schon ein wenig praxisfern auch für CPU Limit Tests.
3. Ist man bei CB klar im CPU Limit und nicht in einem I/O Limit. Der 5900X zerlegt den 3900X um 25%. Das liegt im Rahmen des Erwarteten.

--------
Bei PCGH sind es im Index immerhin +10% Vorsprung 5900X vs 10900K:
https://www.pcgameshardware.de/Vermeer-Codename-276905/Tests/AMD-Ryzen-Zen-9-5900X-vs-3900X-vs-10900K-5950X-Benchmark-1360653/2/

Bei TPU liegt der 10900K um 2,7% vorn:
https://www.techpowerup.com/review/amd-ryzen-9-5900x/15.html

Bei HW unboxed ist es fast Gleichstand:
https://youtu.be/dX130FUy4jk?t=811

Ich finde es frappierend, wie groß da die Unterschiede in den Performance Ratings sind. Z.B bedingt durch den Parcours - z.T bedingt durch Parameter wie Boost und Speicherfrequenzen.

Aber auch die 10% sind immer noch kein extremer Vorsprung.

HOT

2021-03-22, 11:21:04

Es hat viel mit der Plattform und I/O zu tun und natürlich mit den verwendeten Benchmarks und deren Setting sowie der verwendeten Scene und auch der verwendeten Grafikkarte (NV-CPU-Limit). Der Anandtest zeigt sehr gut, wie das Spiel selbst mit möglichst wenig Einfluss von Grafik und OS auf der CPU läuft.
Aber das ist genau das was ich meine, wir scheinen an einen Punkt zu kommen, an dem die IPC der Prozessorekerne bei Spielen in der Praxis immer weniger ne Rolle spielt. Schon jetzt sind Unterschiede in der Praxis auch ggü. Skylake und Zen2 nur gering, in der Praxis nur in wenigen Scenen wirklich merkbar. Wenn die auch verschwinden, dann gibts schlichtweg keinen Unterschied mehr. Das wird sich mit ADL und Zen4 verstärken. RT könnte hier noch mal die CPU unter Druck setzen, aber wohl eher in der Breite, also über Skalierung von mehr Kernen, wie Raff bei Cyberpunk festgestellt hat.

robbitop

2021-03-22, 12:20:55

Ich sehe das mit dem I/O Limit ehrlich gesagt nicht. Im CB Performancerating bügelt der 5900X wie gesagt seinen Vorgänger 3900X richtig weg (+25%). Entsprechend sehe ich da eher ein CPU Limit.

Savay

2021-03-22, 15:53:08

I/O ist doch teil der CPU...vor allem wenn man damit auch das Cachesubsystem+IMC einschließt.

robbitop

2021-03-22, 16:13:19

I/O ist doch teil der CPU...vor allem wenn man damit auch das Cachesubsystem+IMC einschließt.
So richtig konkretisieren konnte er "I/O" auch nicht. Caches würde ich nicht unbedingt zu I/O hinzuzählen. Aber IMC, Fabric, PCIe etc.
IMO sind die Anandtechwerte leider nicht zu gebrauchen - low details macht es leider praxisfern. Es gibt häufig auch viele Effekte die Einfluss auf die CPU Load haben. Particles, LoD, dynmamische Geometrie, Drawcalls etc.
Spiele testet man im CPU Limit mit niedriger Auflösung aber vollen Details.

Dass Memorylatency da mit reinspielt ist sicherlich klar. Aber auch das gehört zur CPU dazu. Jetzt aber irgendwie I/O limitiert zu sein - das ist schwierig nachzuvollziehen was damit gemeint sein soll.

HOT

2021-03-22, 16:26:13

Gemeint ist damit, dass der Flaschenhals nicht der CPU-Kern als solches mehr ist, sondern die Wege rein und raus. Spiele sind extrem datenlastig. Je mehr Grafik, desto mehr Daten, desto mehr ist die CPU mit Verwaltung beschäftigt, desto höher sind die Durchsätze nach innen und nach außen gefragt, desto weniger spielt die eigentliche Kern-IPC ne Rolle und desto mehr CPU-Leistung benötigt der Grafiktreiber, denn das ist ja ebenfalls ein gewichtiges Programm, das neben dem Spiel immer mitläuft. Vielleicht war es ein bisschen Missverständlich.
Aber ich habe in der letzten PCGH einen Benchmark mit AC:W gesehen, der die CPU-Last verdeutlichen sollte, der aber mMn eigentlich die CPU-Performance des NV-Treibers gemessen hat. Wenn Anandtech jetzt die Grafik total runterstellt, dann wird das Spiel mMn einfach weniger Datentransferlastig, jedenfalls würde ich das so sehen.
Eine I/O-Übertaktung bringt ja einiges immer noch, trotz des riesigen L3-Caches, was mich überraschte. Aber man läuft da in ein hartes Latenzlimit für den Speicher (und weiteres), was kaum auszuhebeln ist, außer, dass man die Spezifikationen massiv überschreitet (Speicherübertaktung, I/O-Übertaktung, Latenzreduzierung) oder die Caches massiv vergrößert. Bei RX6000 ist das ja bereits geschehen, AMD sah keinen anderen Weg, als das "I/O-Problem" mit einem riesigen Cache zu entschärfen.

robbitop

2021-03-22, 16:29:42

Savay

2021-03-22, 16:31:35

Passt "Uncore+LLC" Limitiert hier vielleicht besser?! :tongue:

Das in Games die theoretische und messbare IPC des Cores selbst mittlerweile eher zweitranging ist sieht man ja eigentlich schon an Zen2 vs. Skylake.

Von Zen2 vs. Zen3 hat sich ja die Topologie auch etwas geändert, vorallem beim L3.

Der_Korken

2021-03-22, 16:35:03

Ich finde es trotzdem interessant, dass Zen 3 bei AT so extrem davonzieht. Was limitiert bei den anderen CPUs, was bei höheren Details dann nicht mehr limitiert? Beinhalten Grafikdetails irgendwelchen Code, der Zen 3 besonders schlecht schmeckt? Passt Spielecode mit low details besser in den großen Cache von Zen 3 und bei den anderen nicht?

HOT

2021-03-22, 16:39:26

Datenlastig heißt Bandbreite als Flaschenhals? Unwahrscheinlich bei den meisten aktuellen Spielen die kaum mehr als 6 Kerne auslasten.
Wie gesagt: im CB Rating werden die 3000er Ryzens von den 5000ern vernascht. Bei gleicher Bandbreite.
Bandbreite ja, aber nicht so, wie du das jetzt in der "schwarz/weiss-Denke" denkst (nicht persönlich gemeint, aber ich finds etwas mehr diffus). Die Transfers finden ja auch Chipintern und über den Träger zum IOD oder Chipintern über den Ringbus statt (das ist keine abschließende Aufzählung). Aber auch Laden/Speichern dürfte da mit hineinspielen. Es kommt mir nur so vor, dass es immer weniger ne Rolle spielt, wie schnell ein Chip wirklich rechnen kann, je mehr Grafik du durch die CPU jagst. Das ist einfach eine Veränderung des Workloads. Du kannst nen total super schnellen Prozessor bauen, der toll rechnet und bei Cinebench einen Traumwert rausprügelt, aber bei Spielen trotzdem total abkackt.
Ein gutes Beispiel hierfür ist ja Zen2. Der hat ja schon eine deutlich höhere IPC als Skylake und die Topologie ist total effizient bei extremen MT, aber bei Spielen ist er trotzdem unterlegen.

robbitop

2021-03-22, 16:46:17

Tja aber auch das gehört nunmal zur CPU als Produkt dazu. Das artifziell durch Low Details herauszuarbeiten ist sicherlich nicht uninteressant - aber es ist nicht praxisrelevant.

HOT

2021-03-22, 16:49:06

Tja aber auch das gehört nunmal zur CPU als Produkt dazu. Das artifziell durch Low Details herauszuarbeiten ist sicherlich nicht uninteressant - aber es ist nicht praxisrelevant.
Hab ich nicht bestritten ;). Aber es geht mir darum, dass auch hier Alder Lake nicht wird zaubern können. Der hat die gleichen Probleme, die Rocket Lake ja jetzt auch ggü. CML hat (wie auch Zen3 i.Ü.). Von daher sollte man hier seine Erwartungen doch zügeln mMn.

TheAntitheist

2021-03-22, 22:14:21

1. Leider hat AT kein Performance Rating.
2. Nutzt man Low Details (die oftmals auch Einfluss auf die CPU Load haben) - das ist dann schon ein wenig praxisfern auch für CPU Limit Tests.
3. Ist man bei CB klar im CPU Limit und nicht in einem I/O Limit. Der 5900X zerlegt den 3900X um 25%. Das liegt im Rahmen des Erwarteten.

Eigentlich ist der 5900x 72% schneller als der 3900x, find ich schon merkwürdig.

davidzo

2021-03-23, 00:34:04

Ich denke mal Intel wird in den kommenden Jahren wieder die Gaming Führung übernehmen. Einfach weil Sie ein schlafender Riese sind und immensens Budget haben. Klar, Intel hat die letzen Jahre wirklich verpasst bzw. sich ausgeruht. AMD hat gut aufgeholt und sogar überholt. Klar, ist aber auch. Wenn Intel wieder wirklich ernst macht, da auch wieder viele Jahre vorne sein können. Trotzdem muss AMD ja nicht weit weg sein, werden Sie stand jetzt, bestimmt auch nicht. :smile:

Wieso sollte Intel den Fokus der neuen Architektur auf Gaming legen?
Da liegt man doch bisher auch kaum zurück und gaming CPUs sind ein sehr competitiver und unsteter markt der sich wenig lohnt.
Hier tun irgendwie immer all so als wenn sich die ganze Welt um gaming dreht, bzw. um Gamer. Ist aber nicht so, das groß Geld hat Intel schon immer im OEM-Geschäft und bei Servern gemacht.
Intel war es Jahrzehntelang kackegal wie mies die Gamingleistung ihrer CPUs war, mit genug Marketing kriegt man das eh in den Markt gepresst. Bis Cedar Mill hat Intel an ihrer "Multimedia-focused" Netburst-Architektur und Roadmap festgehalten, obwohl die ziemlich kacke für gaming war und in den vergleichen selbst gegen kleine Athlon64s mit singlechannel ram alt aussah. Wenn es um Gaming gegangen wäre, hätte man schon Dothan als mainstream-CPU im Desktop gebracht, hat man aber nicht.

Die sehen überhaupt keinen Zwang jetzt was für Gamer nach zu legen CPUseitig. Im Gegenteil, das Servergeschäft und OEM bröckeln so langsam weg, zum glück kann AMD gerade nicht liefern, sonst wäre da richtig die Kacke am dampfen.

Dass die Nehalem-Skylake Generationen so gut in Gaming waren ist eher Zufall, bzw. AMDs Schwäche. Da hat Intel nicht explizit drauf optimiert. Sieht man ja an den Zugewinnen der letzten Gens: Skylake schlägt in Spieln ohne Taktvorsprung nicht mal Haswell und ist in Spielen langsamer als broadwell, wären da nicht ein paar höher taktende Modelle. Seitdem ist nix passiert und die gesamten gaming-IPC Gewinne eines Jahrzehnts zwischen Nehalem und Skylake betragen eh unter 40% pro Takt+Core.

Intel optimierte eher schon auf singlecore Leistung, snappiness, womit zwangsläufig cachesystem und sprungvorhersage wichtig waren. Und dass dass IPC Gewinne nicht das gleiche sind wie Gaming sehen wir ja gut an sunny cove/willow cove: 19% IPC increase, aber in Games nicht schneller als Skylake bei gleichem Takt.

Intel hat gerade echt wichtigeres zutun als die Gaming-CPU krone wieder zu erobern.
Bloß weil dass der Marketing-Strohhalm der letzten 2-3 Jahr war gegenüber AMDs Multicore-Offensive, heißt das noch lange nicht dass Intel sich primär um Gamer bemüht.
Das ist eine etwas egozentrische Weltsicht...

amdfanuwe

2021-03-23, 04:16:12

robbitop

2021-03-23, 10:06:27

Eigentlich ist der 5900x 72% schneller als der 3900x, find ich schon merkwürdig.
Kannst du das ausführen? Wo siehst du diese 72%?

edit:
gefunden - im Anandtech low details Test Cernobyte:
https://www.anandtech.com/show/16214/amd-zen-3-ryzen-deep-dive-review-5950x-5900x-5800x-and-5700x-tested/18

Ich bin mir ziemlich sicher dass das einer der Bordercases ist, bei dem bei low details eine ganze Menge mehr vom Instruction Set in den großen 32 MiB L3 von Zen 3 passt und alle anderen CPUs dürfen auf den Hauptspeicher warten. Mit high details ist das instruction set dann offenbar so groß, dass wieder "Waffengleichheit" herrscht.

Aber das Beispiel zeigt sehr gut, was möglich wäre, wenn man einen recht schnellen, großen L4 hätte. Z.B. einen gestackten L4 mit ~20 ns und 1 GB. Das wären je nach Anwendung und Spiel schon wahnsinnig viel Potenzial.

robbitop

2021-03-23, 10:16:00

Wieso sollte Intel den Fokus der neuen Architektur auf Gaming legen?
Da liegt man doch bisher auch kaum zurück und gaming CPUs sind ein sehr competitiver und unsteter markt der sich wenig lohnt.
Hier tun irgendwie immer all so als wenn sich die ganze Welt um gaming dreht, bzw. um Gamer. Ist aber nicht so, das groß Geld hat Intel schon immer im OEM-Geschäft und bei Servern gemacht.
Intel war es Jahrzehntelang kackegal wie mies die Gamingleistung ihrer CPUs war, mit genug Marketing kriegt man das eh in den Markt gepresst. Bis Cedar Mill hat Intel an ihrer "Multimedia-focused" Netburst-Architektur und Roadmap festgehalten, obwohl die ziemlich kacke für gaming war und in den vergleichen selbst gegen kleine Athlon64s mit singlechannel ram alt aussah. Wenn es um Gaming gegangen wäre, hätte man schon Dothan als mainstream-CPU im Desktop gebracht, hat man aber nicht.

Die sehen überhaupt keinen Zwang jetzt was für Gamer nach zu legen CPUseitig. Im Gegenteil, das Servergeschäft und OEM bröckeln so langsam weg, zum glück kann AMD gerade nicht liefern, sonst wäre da richtig die Kacke am dampfen.

Dass die Nehalem-Skylake Generationen so gut in Gaming waren ist eher Zufall, bzw. AMDs Schwäche. Da hat Intel nicht explizit drauf optimiert. Sieht man ja an den Zugewinnen der letzten Gens: Skylake schlägt in Spieln ohne Taktvorsprung nicht mal Haswell und ist in Spielen langsamer als broadwell, wären da nicht ein paar höher taktende Modelle. Seitdem ist nix passiert und die gesamten gaming-IPC Gewinne eines Jahrzehnts zwischen Nehalem und Skylake betragen eh unter 40% pro Takt+Core.

Intel optimierte eher schon auf singlecore Leistung, snappiness, womit zwangsläufig cachesystem und sprungvorhersage wichtig waren. Und dass dass IPC Gewinne nicht das gleiche sind wie Gaming sehen wir ja gut an sunny cove/willow cove: 19% IPC increase, aber in Games nicht schneller als Skylake bei gleichem Takt.

Intel hat gerade echt wichtigeres zutun als die Gaming-CPU krone wieder zu erobern.
Bloß weil dass der Marketing-Strohhalm der letzten 2-3 Jahr war gegenüber AMDs Multicore-Offensive, heißt das noch lange nicht dass Intel sich primär um Gamer bemüht.
Das ist eine etwas egozentrische Weltsicht...

Naja die Cores waren schon auf low latency - insbesondere was Memory und Caches anging getrimmt. Das ist gerade für Spiele richtig gut. Deswegen waren die auch seit Core 2 so schnell in Spielen. Ein kleiner schneller 256 kiB L2 Cache und seit Nehalem einen schnellen Ringbus zum IMC. Ob das jetzt die Intension war, ist fraglich. Aber es profitieren ja auch viele andere Anwendungen von low latency.

Dass Broadwell schneller als SKL sein soll in Games: hast du dafür Zahlen? Oder meinst du Broadwell mit zusätzlichem eDRAM? Das wäre kein geeigneter Vergleich.

Skylake legte mit schnellem DDR4 nochmal richtig zu, da mit den anfangs lahmen DDR4-2133 Modulen die Memorylatency gut 15% langsamer war als auf den ganz gut getimten DDR3-1600 und sogar 2400.

Latenznormiert würde die Unterschiede im Core selbst IMO besser aufzeigen.

HOT

2021-03-23, 10:35:17

robbitop

2021-03-23, 10:56:59

Broadwell ist übrigens auch ein Super Beispiel für meine These, dass die eigentliche IPC des Prozessors immer weniger ne Rolle spielt bei Spielen. Das extrem gute Abschneiden des 5775C ist auch heute noch gegeben, leider habe ich da nur Benchmarks aus dem PCGH-Heft. Könnte sein, dass AT sich damit auch beschäftigt hat IIRC.
Absolut - das ist Memorylatency. Das hat zwar mit der uArch selbst nichts zu tun aber schon mit dem Produkt. AMD hat sich über die IF nunmal die Skalierbarkeit mit niedriger Latenz erkauft. Jeder Vorteil führt zu einem Nachteil. Den hat AMD mit größeren L3 Caches nun nach und nach versucht zu entschärfen.

Broadwell mit eDRAM hatte sicherlich den Vorteil der besseren Latenz - war aber sicherlich dafür in der BOM wesentlich teurer, da zwei Chips und ein komplexeres Package. Interessant zu wissen: Broadwell+Crystallwell hatten eine L4 Latenz von 40 ns. Das war zu Broadwells Zeiten super gut verglichen mit out of the box Standard RAM. Da lag man eher bei 55-60 ns.
Skylake/Kabylake/Coffeelake konnte man mit schnellem RAM und subtiming tuning auf ~36 ns bringen. Out of the box mit DDR4-3200 waren es oft schon 42-45 ns. Das war der Grund warum Skylake/KBL später nochmal einen guten Speedup bekamen und auch eDRAM keinen Vorteil mehr gebracht haben.
CML fügte aufgrund des doppelten Ringbusses wieder etwas Latenz hinzu. Gute 5-10ns.
Mein 4790K habe ich dank DDR3-2400 von ursprünglich 59 ns (DDR3-1600 XMP setting) auf 45 ns gebracht (DDR3-2400 und subtiming tuning). In einigen Spielen schlug diese Reduktion LINEAR durch (im CPU Limit). Z.B. GTA5.

Und ja Memorylatency ist sicherlich ein Punkt, der gute CPUs ausbremst. Das geht allen CPUs so. Je mehr Kerne / Skalierbarkeit, desto schlechter wird dieser Punkt potenziell. Entsprechend muss man das mit der Cachehitrate angehen. Bessere Prefetcher und Branch Prediction und größere Caches.

Das scheinen beide IHVs verstanden zu haben. Seit WC sind nicht umsonst L2 und L3 stark angewachsen.

Ich kann mir gut vorstellen, dass mit Low Details die Cache Hitrate höher ist. Da Zen 3 wirklich einen riesen L3 Cache hat, kann es auch durchaus sein, dass Zen 3 in diesem Szenario eine sehr hohe Hitrate hat und CML eine niedrigere Hitrate hat - also latency choked ist. Wäre dann ja auch ein ungleicher Vergleich. ^^

Der Fakt, dass der 5900X 72% vor dem 3900X in dem von dir benannten Test liegt, lässt dieses Szenario als sehr wahrscheinlich erscheinen. Entsprechend wäre Zen 2 und CML Latency choked und müssen viel öfter auf den RAM warten während bei Zen 3 vieles oft doch noch in den L3 zu passen scheint.
Bei high details ist das instruction set dann aber so groß, dass es bei keinem mehr gut in den Cache passt und es herrscht wieder "Waffengleichheit".

IMO zeigt das aber auch ein riesen Potenzial was Datenlokalität angeht. Man stelle sich einen gestackten 1 GB L4 mit ~20 ns vor. Der Vorteil wäre nicht unwesentlich.

Badesalz

2021-03-23, 11:20:09

Datenlastig heißt Bandbreite als Flaschenhals? Unwahrscheinlich bei den meisten aktuellen Spielen die kaum mehr als 6 Kerne auslasten.Leute gewöhnt euch langsam mal an von Threads zu sprechen... Nur so allgemein. Danke.

Zum obigen sonst bin ich mir noch unsicher, ob man das klar als Argumentation nehmen kann. Wenn eine Engine 12 Threads nicht auslasten kann, heitß das noch lange nicht wo die Ursache dafür liegt. Das kann ALLES sein. Vom Unvermögen über bewusste Entscheidungen bis zu eben I/O-Jams. Und auch die letztgenannten können aus Unvermögen oder eben technischen Limitierungen resultieren.

Das Gefühl aber, daß die Leistung so langsam mehr von I/O abhängt als früher, das stellt sich bei mir auch ein. Ob das jetzt damit zusammenhängt, daß man bei jenen Subsystemen in der letzten Zeit wegen Sicherheitsbedenken stark kastrieren musste?...

robbitop

2021-03-23, 11:25:23

Leute gewöhnt euch langsam mal an von Threads zu sprechen... Nur so allgemein. Danke.

Zum obigen sonst bin ich mir noch unsicher, ob man das klar als Argumentation nehmen kann. Wenn eine Engine 12 Threads nicht auslasten kann, heitß das noch lange nicht wo die Ursache dafür liegt. Das kann ALLES sein. Vom Unvermögen über bewusste Entscheidungen bis zu eben I/O-Jams. Und auch die letztgenannten können aus Unvermögen oder eben technischen Limitierungen resultieren.

Das Gefühl aber, daß die Leistung so langsam mehr von I/O abhängt als früher, das stellt sich bei mir auch ein. Ob das jetzt damit zusammenhängt, daß man bei jenen Subsystemen in der letzten Zeit wegen Sicherheitsbedenken stark kastrieren musste?...

Wir haben das Thema bereits aufgeklärt. Es scheint Latency zu sein - das macht mehr Sinn.

Du hast grundsätzlich Recht mit deiner Argumentation. Skalierungstests zeigen jedoch idR, dass Spielecode eher Latenzlimitiert ist als Bandbreitenlimitiert.

Threadripper mit seinen 4 Channels zeigt bspw in Gaming Tests trotz doppelter Bandbreite keine Vorteile. Entsprechend kann man das aktuell nahezu ausschließen.

HOT

2021-03-23, 11:36:40

Nein, Memory-Latancy ist nicht das einzige Problem, da auch im Chip-I/O durchaus Flaschenhälse auftreten können, das schreib ich ja die ganze Zeit. Speicherlatenz ergibt sich ja auch sekundär daraus natürlich, aber das ist ja keine Ursache. Der Speichercontroller muss natürlich möglichst effizient funktionieren, aber bei AMDs IOD erhöht sich bei Übertaktung auf 1800MHz halt die Verarbeitungsgeschwindigkeit des gesamten I/O-Bereichs und das sorgt für die Leistungssteigerung und damit auch die geringe Latenz, nicht der direkte Zugang zum Speicher. Die Speicherlatenz als Solches wird nur dann überhaupt 1:1 durchschlagen, wenn der komplette I/O übertaktet wird. Nur der Weg vom Controller zum Speicher ist nicht unbedingt das Problem. Bandbreite zum Speicher wird übrigens überhaupt kein Problem sein. Man kann auch 64Bit anbinden, wenn man Interleaving, mehrere Ranks und andere Vorteile trotzdem nutzen könnte, also wenn man 2 DS 32Bit-Module hätte beispielsweise. Die interne Latenz und stellenweise auch die Bandbreite im I/O-Bereich ist da viel entscheidender.

Caching schlägt direkt durch, das stimmt. Ein großer gestackter Cache wäre sicherlich die Mutter aller Lösungen. Aber auch hier kommt es natürlich auf die Anbindung an und hier scheint Broadwell was grundlegend richtig zu machen. Da bin ich sehr gespannt, was uns da IA3 für ne Lösung bereit hält in der Praxis und ich bin sehr gespannt, welche Topologie ADL jetzt offiziell haben wird, denn ein Ringbus über 16 Kerne wäre sicher nicht effizient. Da wird man sicherlich anders verfahren.

Um noch mal auf das Argument zurückzukommen, dass Intel nicht für Spiele entwickelt, das stimmt soweit ich das beurteilen kann, denn sonst hätte Intel sicherlich den Marketingstunt gewagt und einen Nachfolger für den 5775C gebracht. Es gab oft Gerüchte dahingehend, aber bewahrheitet hat sich das nicht. Es wäre ein Leichtes für Intel gewesen mit den Erfahrungen den Spieleprozessor zu bauen, sie haben es nicht getan, bis heute. Spiele sind wichtig fürs Marketing, aber offenbar immer noch nicht entscheidend in der Entwicklungsabteilung.
Bei AMD ist das ein bisschen anders, wegen der Konzentration auf die Konsolen. Aber während man bei Intel schon die Trennung von Ulta-Mobil, Mainstream und Server schon vollzogen hat, ist AMD immer noch einer für alles angesagt. Das sorgt natürlich auch für Probleme.

robbitop

2021-03-23, 12:05:16

Nein, Memory-Latancy ist nicht das einzige Problem, da auch im Chip-I/O durchaus Flaschenhälse auftreten können, das schreib ich ja die ganze Zeit. Speicherlatenz ergibt sich ja auch sekundär daraus natürlich, aber das ist ja keine Ursache. Der Speichercontroller muss natürlich möglichst effizient funktionieren, aber bei AMDs IOD erhöht sich bei Übertaktung auf 1800MHz halt die Verarbeitungsgeschwindigkeit des gesamten I/O-Bereichs und das sorgt für die Leistungssteigerung und damit auch die geringe Latenz, nicht der direkte Zugang zum Speicher. Die Speicherlatenz als Solches wird nur dann überhaupt 1:1 durchschlagen, wenn der komplette I/O übertaktet wird. Nur der Weg vom Controller zum Speicher ist nicht unbedingt das Problem. Bandbreite zum Speicher wird übrigens überhaupt kein Problem sein. Man kann auch 64Bit anbinden, wenn man Interleaving, mehrere Ranks und andere Vorteile trotzdem nutzen könnte, also wenn man 2 DS 32Bit-Module hätte beispielsweise. Die interne Latenz und stellenweise auch die Bandbreite im I/O-Bereich ist da viel entscheidender.

Mit Memorylatency ist das kumulierte Ergebnis aller Teillatenzen gemeint. Caches (die vorher abgefragt werden), Fabric, IMC und Speicher. Die Fabric ist nunmal ein Teil dessen. Die IF skaliert Bandbreite und Latenz, wie auch Intels Mesh und Intels Ringbus mit dem Takt. Die skalierbareren Topologien sind nunmal prinzipbedingt langsamer in Bezug auf Latenz. Und das macht sich in der Memorylatency - also der Gesamtlatenz vom CPU Kern bis zum erfolgreichen Memoryzugriff bemerkbar.
Das kann man als Bottleneck sehen. Das hat Zen 1 in Spielen bspw relativ stark geschadet. Mit den Nachfolgeiterationen wurde es besser. Aber ich vermute, dass es selbst in Zen 3 in vielen Spielen noch etliche Wartezyklen zum Mainmemory gibt.

Zen 3 liegt dank dem 32 mib L3 cache IIRC in einer ähnlichen gemittelten Speicherlatenz wie CML. Das inkludiert die Cache Hitrate beider Kontrahenten.

Sowohl Intel als auch AMD wollen skalierbarere Designs - entsprechend ist das Potenzial für eine super gute Latency begrenzt. Entsprechend erhöhen beide die Caches.

Auch die Intercore Latency ist nicht uninteressant und es hat AMD sicherlich stark geholfen, nun 8c in einem CCX zu haben. Das sollte in aktuellen Spielen kein großer Bottleneck mehr sein. Die 4C pro CCX sind es sicherlich hin und wieder gewesen.

Badesalz

2021-03-23, 13:26:37

Na gut. Wenigstens war ich fit genug Latenzen nicht nur auf die Hauptspeichertimings zu projizieren ;)

Allerdings hab ich grad trotzdem ein Problem mit den Begrifflichkeiten. Wir hätten da z.B. Durchsatz, Bandbreite und Latenz. Um das für mich nicht zu fachidiotisch korrekt aufzubröseln, denke ich mir das bisher so, daß Durchsatz sich aus Bandbreite und Latenz ergibt.
Damit wäre das aber wie im eigenen Saft garen, wenn man sagt, es ist nicht I/O, weil es eben Latenz und nicht Bandbreite ist (??) Oder hat sich die Meinung von noch paar Postings davor nun doch komplett geändert? =) Letztendlich beschreiben all die Größen I/O und das nicht nur beim Hauptspeicher, richtig?

Wir hatten das übrigens schon, daß ich vom 5775C und seinem L4 schwärmte und das für nicht mehr zeitgemäß erklärt wurde...
Ob erstmal wieder eher I/O als weiter IPC verbessert werden sollte zeigte imho aber auch der 3300x. Der rennt mit "nur" timingsoptimierten 3200 FlareX wie irre.
Hier taucht für mich aber wieder das Problem mit den Begrifflichkeiten. IPC ist auch nur das was die ALUs samt allen Subsystemen am Ende rausspucken. Und das ist bei einem Thread auch noch anders als bei mehreren und bei Threadanzahl = Cores auch noch anders als Threadanzahl = SMT.

Wie geben AMD oder intel die IPCs überhaupt an? :tongue: Wo rechnen und messen sie? Und was genau messen sie? Den von der Latenz her genehmsten Befehl?

Ein zu tiefes Eintauchen gepaart ggf. mit kleinwenig Haarspalterei bei dieser Diskussion ergibt für mich bisher einen stark überschaubaren Erkenntnisgewinn. Sorry.

robbitop

2021-03-23, 14:06:16

Der 5775C mit L4 ist taktnormiert in Spielen ziemlich schnell. Es gab neulich sogar (war es Anand) noch einen Nachtest mit aktuellen Spielen. Der 128 MiB L4 Crystalwell ist mit 40 ns schon ziemlich flott.
Nur Skylake/Kabylake/Coffeelake kommen auf vergleichbare Gesamtmemorylatencies - dann bei sehr gutem Speicher inkl Subtiming Tuning.

Der 3300X ist ja ein Zen 2. Der hat vergleichsweise langsame Memorylatency (~70-80 ns). Das kann in Spielen dazu führen, dass er taktnormiert hinter dem 5775c liegt.
Ein 7700K mit getuntem richtig gutem DDR4 Ram (35-36 ns sind hier möglich mit ~3600 MHz CL14 und tuning) sollte den 5775c taktnormiert aber schlagen können.

Badesalz

2021-03-23, 14:31:00

Ein 7700K mit getuntem richtig gutem DDR4 Ram (35-36 ns sind hier möglich mit ~3600 MHz CL14 und tuning) sollte den 5775c taktnormiert aber schlagen können.Dann weiß ich nun was das für Aufwand ist mit seinem L4 mitzuhalten. Leider weiß ich nicht wie das abgehen würde, wenn es neben dem 7770 auch einen 7775C gäbe mit einem nur um 20% flinkerem L4 als damals (sollte heute wohl möglich sein).

Der 5000er ist halt auch noch eine ältere Architektur. 1:1 lässt sich das leider nicht verlgeichen. Nur grob erahnen. Dafür muss man sich das aber auch kleinwenig breiter anschauen.

Bis die Tage.

robbitop

2021-03-23, 14:45:14

Ohne Frage wäre ein Crystalwell Nachfolger auch nochmal schneller geworden - wenn es einen 7700K mit eDRAM gegeben hätte. Das gab es bei Skylake ja nur noch im Notebook.
Es wird aber leider immer weniger eine Option werden, einen L4 an die Fabric anzubinden, weil moderne skalierbare Fabrics ein wenig langsam zu sein scheinen.
Ein L4 der auf das CCD gestackt ist bräuchte mMn eine direkte separate Anbindung an das CCD. Wenn der richtig was bringen soll, muss er groß und schnell sein. Mal schauen, ob so etwas mittelfristig geschehen wird.

Wuge

2021-03-23, 14:47:14

Falls euch ein Vergleich Broadwell-e zu was aktuellem interessiert liefere ich gerne ersteres. Würde ja eh gerne mal n bissl verschiedene Speicher und Cache-Settings benchen. Ich brauch nur ne klare Anleitung, einen realitätsnahen Benchmark (Arma 3 wurde ja genannt) und los gehts. Falls wir Arma nehmen wäre es gut, wenn mir jemand seinen Steam-Account für die 2h leiht. Ich möchts nichts kaufen nur um einmal zu benchen...

robbitop

2021-03-23, 14:51:55

Broadwell-E - meinst du die X99 HEDT Plattform? Die hat ja keinen eDRAM. Interessant wäre der 5775c gegen einen gleich getakteten Skylake mit getuntem RAM der bei ~40ns liegt.

Lehdro

2021-03-23, 15:51:53

Interessant wäre der 5775c gegen einen gleich getakteten Skylake mit getuntem RAM der bei ~40ns liegt.
Damit testest du aber auch nur die halbe Miete, denn bei >128MB L4 Cache "Nutzung" wird Broadwell zwangsläufig zurückfallen, auch jenseits der IPC Nachteile. Du testest danach ja quasi nur noch wieviel der L4 vom Volumen her abfedern kann + die IPC, was du aber so nie auftrennen kannst.
Richtiger Test wäre: Beide selbe Memorylatency, die aber über dem L4 liegen muss. Erst dann hast du den L4 und IPC halbwegs vom Memorysubsystem isoliert.

Also: Broadwell ohne L4 gegen Broadwell mit L4 gegen Skylake. Alle auf demselben Takt und selber Memorylatency, die realistisch über dem L4 liegen sollte. Das was du sonst testen willst ist: "Ist x GiB RAM @ 40ns > 128 MiB @ 40ns + langsamer RAM?" Die Antwort sollte ziemlich klar sein, gerade wenn man die Tests von PCGH und AT im Hinterkopf hat. Dort verliert alles SKL-basierte teilweise z.B. nur knapp trotz massiver Latenznachteile. Gerade AT testet mit JEDEC, also zb DDR4 2933 CL21(!) bei CML i5&i7, das sind schon massive Vorteile für den 5775C. Der muss zwar auch mit DDR3 1600 CL11 auskommen, hat aber immerhin seinen L4 zum kompensieren.

Wuge

2021-03-23, 16:40:10

Broadwell-E - meinst du die X99 HEDT Plattform? Die hat ja keinen eDRAM. Interessant wäre der 5775c gegen einen gleich getakteten Skylake mit getuntem RAM der bei ~40ns liegt.

Genau X99. Ohne L4 aber man könnte auf die Art und Weise mal testen, was von der höheren Skylake IPC in Spielen ankommt. Hätte man dann noch einen Broadwell mit eDRAM wärs natürlich perfekt. Vielleicht liegts ja aber auch gar nicht am L4. Die Cache Assoziativität wurde auch geändert, jedenfalls sagt CPU-Z, dass der Broadwell da mehr kann als Skylake.

Was mich halt wundert ist, dass der BW-e offenbar so schlecht mit dem Speicher skaliert ergo gut gecached ist.

robbitop

2021-03-23, 17:23:27

Damit testest du aber auch nur die halbe Miete, denn bei >128MB L4 Cache "Nutzung" wird Broadwell zwangsläufig zurückfallen, auch jenseits der IPC Nachteile. Du testest danach ja quasi nur noch wieviel der L4 vom Volumen her abfedern kann + die IPC, was du aber so nie auftrennen kannst.
Richtiger Test wäre: Beide selbe Memorylatency, die aber über dem L4 liegen muss. Erst dann hast du den L4 und IPC halbwegs vom Memorysubsystem isoliert.

Also: Broadwell ohne L4 gegen Broadwell mit L4 gegen Skylake. Alle auf demselben Takt und selber Memorylatency, die realistisch über dem L4 liegen sollte. Das was du sonst testen willst ist: "Ist x GiB RAM @ 40ns > 128 MiB @ 40ns + langsamer RAM?" Die Antwort sollte ziemlich klar sein, gerade wenn man die Tests von PCGH und AT im Hinterkopf hat. Dort verliert alles SKL-basierte teilweise z.B. nur knapp trotz massiver Latenznachteile. Gerade AT testet mit JEDEC, also zb DDR4 2933 CL21(!) bei CML i5&i7, das sind schon massive Vorteile für den 5775C. Der muss zwar auch mit DDR3 1600 CL11 auskommen, hat aber immerhin seinen L4 zum kompensieren.

Ja du hast Recht Broadwell ohne eDRAM latenz- und Taktnormiert gegen Skylake wäre auch interessant und der genauere Vergleich. Broadwell/Haswell bekommt man auch auf knappe 40 ns mit DDR3-2400 mit Subtiming Tuning.

Genau X99. Ohne L4 aber man könnte auf die Art und Weise mal testen, was von der höheren Skylake IPC in Spielen ankommt. Hätte man dann noch einen Broadwell mit eDRAM wärs natürlich perfekt. Vielleicht liegts ja aber auch gar nicht am L4. Die Cache Assoziativität wurde auch geändert, jedenfalls sagt CPU-Z, dass der Broadwell da mehr kann als Skylake.

Was mich halt wundert ist, dass der BW-e offenbar so schlecht mit dem Speicher skaliert ergo gut gecached ist.
Wobei Broadwell-E mehrere verzerrende Effekte hat:

1. Langsamere Memorylatency wegen des kaskadierten Ringbusses
2. Mehr L3 Cahce
3. Quadchannel

IMO nicht ganz ideal.

Badesalz

2021-03-25, 13:16:02

Die s.g. Presse :rolleyes: merkt es glaub ich manchmal selbst nicht... Ich sehe heute etliche Überschriften, daß Intel mit AlderLake massive Leistungssteigerung vorhat, um AMD "echte" konkurrenz zu machen.
(was natürlich nicht Intels Wortlaut ist)

Heißt bis dahin aber, im Umkehrschluss? :smile:

BlacKi

2021-03-25, 15:26:52

ich fand ja das zu geil:
https://abload.de/img/pcghvtkxz.png
zen4 2023?
http://replygif.net/i/1066.gif

die kommentarsektion kann man sich sparen

Lehdro

2021-03-25, 15:52:09

ich fand ja das zu geil:
zen4 2023?

Wie weit AMD im Jahr 2023 vorgerückt ist, das steht für den Moment auf einem anderen Stück Papier.
Vielleicht nicht nur die Headline lesen.

vinacis_vivids

2021-03-25, 17:18:41

Witzig, Intel hatte gegen AMD noch selbst gewettert, dass die Zen uArch aus billigen zusammengeklebten Silizium besteht. Jetzt haben sie die Idee in Ihre Mindmap übernommen und für 2023 in Umsetzung geplant :D

Soweit ich weiß ist der Interconnect innerhalb des Chiplets bei AMD durch Patente geschützt. Mal schauen was Intel da abwirft an Silizium.

2023 ist AMD bei 5nm bzw. 5nm refresh und Intel bei 7nm vermutlich eine full-node oder eher wahrscheinlich mehr zurück.

Das Chiplet-design ist auch nur eine Seite der CPU-Fertigung. In der Tiefenstruktur liegt Intel bei der branch-prediction, sozusagen die Königsdisziplin der CPU Architektur mehrere Stufen zurück. Beim Takt herrscht ja quasi bei ~5Ghz gleichstand.

MiamiNice

2021-03-25, 17:36:12

Badesalz

2021-03-25, 17:37:37

Vielleicht nicht nur die Headline lesen.Und jetzt? Das rettet dann die Überschrift oder was? :lol:

@MiamiNice
Ohne eine eigene Meinung darüber zu haben:
Warum ist der IF gruselig? Oder war er das zum Zeitpunkt der Aussage? (von Intel)

Mangel76

2021-03-25, 17:57:08

Und jetzt? Das rettet dann die Überschrift oder was? :lol:

@MiamiNice
Ohne eine eigene Meinung darüber zu haben:
Warum ist der IF gruselig? Oder war er das zum Zeitpunkt der Aussage? (von Intel)

Für Intel war es gruselig, dass AMD plötzlich wieder angriff 😁

BlacKi

2021-03-25, 18:02:16

Vielleicht nicht nur die Headline lesen.

inwiefern tut das was zur sache? zen4 hat zu dem zeitpunkt ein knappes jahr vorlauf. daher frag ich mich wie man so eine headline setzen kann? da ließt doch keiner weiter, weil man dahinter nur rotz vermutet.

Gipsel

2021-03-25, 19:41:29

Schlag mich wenn ich falsch liege. Es ging nie um zusammengepappte DIEs sondern speziell um den gruseligen IF der diese DIEs verbindet.
Zusammen mit der Problematik das nur 4 Kerne pro Chiplet möglich waren - und das Gesamtkonstrukt daher an vielen Stellen einfach "suckte" (hohe Core to Core Latenzen, allgemein hohe Latenzen, Ram Anbindung so lala).Okay, dann schlage ich dich mal.
1. AMDs Chiplets hatten schon immer 8 Kerne, 4Kern-Chiplets gab es nie.
2. Die Interconnect-Latenz ist ein Tradeoff: AMD ist innerhalb eines CCX schneller, außerhalb langsamer als intel. Und bei größeren Kernzahlen "suckt" intels Mesh-Interconnect bald vergleichbar zu IF.
3. Chiplet-Designs mit Interconnect über ein PCB zwischen den Dies haben notgedrungen höhere Latenzen (da wird intel auch nicht drum rum kommen, wenn bis dahin nicht Packaging-und Kühl-Probleme mit stacked Dies gelöst sind). Wenn die Kostenersparnis durch die Chiplets zum Teil in größere Caches fließen, ist die effektive Speicherlatenz (das ist nicht das, was die AIDA auswirft, sondern ein abhängig vom Zugriffsmuster und Größen der Caches [und deren Policies] gewichtet gemittelter Wert aus den Latenzen aller Cachestufen und des Hauptspeichers) für die meisten Programme trotzdem nicht erhöht (bzw. teils gar besser).
4. 5 oder gar 6 Jahre später kann auch AMD was Besseres bauen als noch 2017 (tun sie ja jetzt schon). ;)

robbitop

2021-03-25, 20:18:24

Chiplets/MCMs gab es im übrigen auch schon vor AMDs Zen.

=Floi=

2021-03-25, 20:40:52

Nur hat miami wohl noch den lahmen core2quad im kopf und davon sind wir mittlerweile meilenweit entfernt.

Badesalz

2021-03-25, 21:28:21

robbi meint wahrscheinlich IBM usw.
Die machen das vergliechen mit x86, schon ewig. Solange nämlich, daß Lisa Su das noch aus ihrer Zeit bei IBM schon bestens kannte...

MiamiNice

2021-03-26, 00:52:18

@MiamiNice
Ohne eine eigene Meinung darüber zu haben:
Warum ist der IF gruselig? Oder war er das zum Zeitpunkt der Aussage? (von Intel)

Gruselig vs. Intels Desktop Pendant, dem Ringbus. Aus "Spielersicht" gesehen.

Okay, dann schlage ich dich mal.
1. AMDs Chiplets hatten schon immer 8 Kerne, 4Kern-Chiplets gab es nie.
2. Die Interconnect-Latenz ist ein Tradeoff: AMD ist innerhalb eines CCX schneller, außerhalb langsamer als intel. Und bei größeren Kernzahlen "suckt" intels Mesh-Interconnect bald vergleichbar zu IF.
3. Chiplet-Designs mit Interconnect über ein PCB zwischen den Dies haben notgedrungen höhere Latenzen (da wird intel auch nicht drum rum kommen, wenn bis dahin nicht Packaging-und Kühl-Probleme mit stacked Dies gelöst sind). Wenn die Kostenersparnis durch die Chiplets zum Teil in größere Caches fließen, ist die effektive Speicherlatenz (das ist nicht das, was die AIDA auswirft, sondern ein abhängig vom Zugriffsmuster und Größen der Caches [und deren Policies] gewichtet gemittelter Wert aus den Latenzen aller Cachestufen und des Hauptspeichers) für die meisten Programme trotzdem nicht erhöht (bzw. teils gar besser).
4. 5 oder gar 6 Jahre später kann auch AMD was Besseres bauen als noch 2017 (tun sie ja jetzt schon). ;)

Hab mich geduckt.

1. Natürlich waren es 4 Kerne pro CCD, oder war es ein CCX :biggrin: Blöder Denkfehler/Schreibfehler, bin mir unsicher.
2. Ich habe nichts gegenteiliges behauptet und keinen SkylakeX gekauft. Lag genau daran.
3. Bin ich bei Dir. Aber darum ging es nicht. PS: Die meisten Programme sind keine Spiele - hätte ich vielleicht dabei schreiben sollen.
4. Auch das.

Ich bin mir jetzt nicht wirklich sicher, was Du mir sagen möchtest (außer meinen blöden Fauxpas auszuschlachten, OK hab es verdient ;)).
VV meinte:

Witzig, Intel hatte gegen AMD noch selbst gewettert, dass die Zen uArch aus billigen zusammengeklebten Silizium besteht.

Ich denke das wurde falsch verstanden. Die Fanbois haben ständig von zusammengeklebten DIE geschrieben, aber im Kern, ging es darum das der IF zu langsam war. Core to Core schneller als Intel aber nur 4 Kerne im CCD. Austausch mit einem weiteren CCD mit höheren Latenzen. Ram mit weit höheren Latenzen als auf dem Ringbus Intel. "Suckte" halt in Games. AMD hat "es" mit Zen3 "gekontert" (wie Du ja auch selbst ausführst). Das Problem waren nie die Chiplets (gab es bei den ersten Ryzens ja eh nicht) - es waren IMO die Nachteile die mit dem IF und dem 4er CCD Design einhergingen.

aufkrawall

2021-03-26, 01:07:51

Gruselig vs. Intels Desktop Pendant, dem Ringbus. Aus "Spielersicht" gesehen.

Dumm nur, dass es von Intel mit der bzw. den neuen Archs nur noch einen 8C Ringbus gibt, da also 0 Vorteil vs. AMDs 8C CCX mit Zen 3 hat...

=Floi=

2021-03-26, 02:26:36

Gibt es wirklich noch einen fall, wo die IF abkackt? Ich kenne nichts mehr, und gerade multicore ist AMDs stärke.
Gibt es einen vergleich AMD 16 core vs Intel 16 core?

aufkrawall

2021-03-26, 02:33:45

Was wohl für Spiele besser ist? 2x6C/8C CCX oder little.BIG? ;)

Lehdro

2021-03-26, 08:14:15

Ich denke das wurde falsch verstanden. Die Fanbois haben ständig von zusammengeklebten DIE geschrieben, aber im Kern, ging es darum das der IF zu langsam war.
Intel selbst hat das Schlagwort "glued together" (https://www.computerbase.de/2018-10/intel-amd-cpu/) fürs Marketing erfunden, hör auf das auf die Fanboys abzuwälzen. Das war zu 100% Intel selbst.
Und jetzt? Das rettet dann die Überschrift oder was? :lol:

Was ist an der Überschrift genau falsch? Fehlt euch da ein "erst 2023"? Wir wissen aber noch nicht wann Zen 4 wirklich im Markt steht, von daher ist das so derzeit korrekt.
inwiefern tut das was zur sache? zen4 hat zu dem zeitpunkt ein knappes jahr vorlauf. daher frag ich mich wie man so eine headline setzen kann? da ließt doch keiner weiter, weil man dahinter nur rotz vermutet.
Was genau ist dein Problem mit der Headline? Verstehe die Aufregung nicht. Ich interpretiere diese als "Intel greift 2023 Zen 4 an". Da ist nicht einmal eine Wertung drin...

robbitop

2021-03-26, 09:30:14

robbi meint wahrscheinlich IBM usw.
Die machen das vergliechen mit x86, schon ewig. Solange nämlich, daß Lisa Su das noch aus ihrer Zeit bei IBM schon bestens kannte...

Die IBM Serverprozessoren. Die Xbox 360 GPU mit dem eDRAM Chiplet (was auch die ROPs enthielt). Intel Cores mit Crystalwell. Intel's Arrandale mit separater GPU auf dem Träger und einem entsprechenden Interlink. Kabylake-G. CPUs, die die PCH auf dem Package hatten (da gab es in den letzten 10-15 Jahren eine Menge). Intel Xe HPC (Ponte Vecchio) treibt das Ganze sogar an die Spitze (Compute Die, HBM, Rambo Cache Modules, Link Tile Module). Und wenn man suchen würde, würde man sicher noch etliche Beispiele mehr auffinden. :)

=Floi=

2021-03-26, 09:47:45

im grunde fing es mit dem pentium 2/3 und dem externen cache an

robbitop

2021-03-26, 09:48:44

im grunde fieng es mit dem pentium 2/3 und dem externen cache an
Naja der war aber nicht auf dem Package sondern auf dem Slot PCB. :)

BlacKi

2021-03-26, 10:05:51

Was genau ist dein Problem mit der Headline? Verstehe die Aufregung nicht. Ich interpretiere diese als "Intel greift 2023 Zen 4 an". Da ist nicht einmal eine Wertung drin...

weil meteorlake nicht der gegner von zen4 ist.

Loeschzwerg

2021-03-26, 10:07:21

Als frühesten x86 Vertreter würde ich den PPro in den Ring werfen ^^

Gipsel

2021-03-26, 10:11:10

Naja der war aber nicht auf dem Package sondern auf dem Slot PCB. :)
Pentium Pro ;)
Top-Modelle hatten 2 SRAM-Dies zusätzlich zum CPU-Die im (damals noch wire bonded) Package (die Modelle mit kleinerem Cache nur eins).

1MB-Modell
https://en.wikichip.org/w/images/d/d6/pentium_pro_processor_with_1m_l2_cache.jpg

512kB-Modell
https://upload.wikimedia.org/wikipedia/commons/3/3a/CPU_Pentium_Pro.jpg

Edit zu langsam. Hätte nicht noch ein Bild raussuchen sollen. :lol:

dildo4u

2021-03-26, 10:13:21

Gibt es Infos ob Meteor Lake ein Hybrid ist oder Intels Zen Variante?

robbitop

2021-03-26, 10:14:11

Ja der Pentium Pro ist auch ein schönes Beispiel - daran hatte ich auch kurz gedacht. :)
Der P2/P3 hingegen sind keines.

BlacKi

2021-03-26, 10:29:24

was bedeutet multiple manufacturing processes? chiplet design?
https://www.pcinvasion.com/wp-content/uploads/2021/03/intel-7nm-roadmap-meteor-lake-750x422.jpg

Gibt es Infos ob Meteor Lake ein Hybrid ist oder Intels Zen Variante?

du meinst, intel nennt meteor lake und alder lake beides hybrid design, meint damit aber bei alderlake das big little design und bei meteorlake chiplet design?

da ich es nicht besser weiß, würde ich sagen, meteor lake bekommt ein chiplet design mit unterschiedlichen fertigungsprozessen und ein big little design.

robbitop

2021-03-26, 10:32:45

Das würde Sinn ergeben. Für I/O braucht man nicht den neusten Prozess und kann gut Kosten sparen.

dildo4u

2021-03-26, 10:33:31

2023 vielleicht Notebook Hybrid, Desktop 16 volle Kerne mit zwei Chiplets oder so.
Mal sehen was AMD mit Zen 4 macht ob es wieder nur 8 Kerne für Notebooks gibt, dann hätte Intel dort Vorteile mit einem Hybrid.

basix

2021-03-26, 10:33:32

Was mich bei Meteor Lake erstaunt hat: Foveros.

Thermische Probleme gelöst?

robbitop

2021-03-26, 10:37:12

Was mich bei Meteor Lake erstaunt hat: Foveros.

Thermische Probleme gelöst?
Die Frage ist ja, was gestapelt wird. Bei Lakefield hat man ja I/O und Compute gestapelt und per POP sogar noch den Speicher oben drauf. Besonders schwierig wird es, zwei "heiße" Chips zu stapeln. Also mehrere Compute dies. Es war wohl mit dem I/O und dem Compute die nicht einfach - aber man hat es hinbekommen.

Warum nicht auch bei Meteorlake?

=Floi=

2021-03-26, 10:39:09

Ja der Pentium Pro ist auch ein schönes Beispiel - daran hatte ich auch kurz gedacht. :)
Der P2/P3 hingegen sind keines.

Es ist ein externer chip auf dem träger der cpu!

Birdman

2021-03-26, 10:41:08

was bedeutet multiple manufacturing processes? chiplet design?
Gehe ich auch davon aus.
Mit einer monolithischen CPU scheint man beim von AMD losgetretene Core-Rennen nicht mithalten zu können, also wird man auch auf ein Multi-DIE Konzept wechseln müssen.
Und da bietet es sich ja an, einen Teil davon in einem andern/älteren Prozess zu fertigen - vermütlich gleich wie bei AMD die I/O.

robbitop

2021-03-26, 10:43:37

Es ist ein externer chip auf dem träger der cpu!
Es ging um MCM und Chiplets.

Hier mal ein Beispielbild:
https://upload.wikimedia.org/wikipedia/commons/9/9e/Intel_Pentium_II_400_SL357_SECC2.jpg?1616751717474

Der DRAM ist nicht auf dem Substrat/Package der CPU. Das Package/Substrat der CPU sitzt auf einem PCB, welches in den Slot gesteckt wird. Das hat mit MCMs/Chiplets nichts zu tun.

Badesalz

2021-03-26, 10:45:02

@robbi
Ist ja auch richtig (du). Sowas ist kein MCM.

Gibt es wirklich noch einen fall, wo die IF abkackt? Ich kenne nichts mehr, und gerade multicore ist AMDs stärke.
Gibt es einen vergleich AMD 16 core vs Intel 16 core?Und wenn überhaupt, welchen? Man weiß nichtmal was die Fanboys die auf andere "Fanboys!" mit dem Finger zeigen, jeweils meinen. Wenn du dann mit Leistung für die du bezahlst kommst, dann kommen irgendwelche fingerbrech OC-Übungen mit quasi offenen TDPs.
Und die ganze Modellreihe der anderen ist dann halt krüppelig, weil danach deren Spitzenmodell die Krone nicht bekommen konnte und damit auch mit einem 750W Netzteil kein König geworden ist.
Niemals aber wird z.B. auf Steams Statistiken eingegangen, niemals, weil die zeigen worauf wirklich gespielt wird. Sprich, der Schwachsinn über die Menge gerechnet, niemanden interessiert. Das wäre auch wirklich nicht schön zuzugeben, daß sich pro Forum - und davon gibts vielleicht 5 bis 10 relevante im deutschsprachigen Raum - jeweils max. 20 Leute gegenseitig mit Kaka wegen Sachen bewerfen, die 12Mio. andere überhaupt nicht interessieren.
Jeder diese Fälle, eine menschliche Tragödie :ulol:

Die sind für mich alle klinisch relevant gestört...

davidzo

2021-03-26, 11:06:36

robbi meint wahrscheinlich IBM usw.
Die machen das vergliechen mit x86, schon ewig. Solange nämlich, daß Lisa Su das noch aus ihrer Zeit bei IBM schon bestens kannte...
Power 8 ist ein Chiplet Design mit 6 bzw. 12 Chiplets. Vorher hat man eher on package edram verwendet und das auch nicht chiplets genannt.
Sonst wäre noch die CEA Leti Tarslet Architektur von ST Mirco erwähnenswert.
Davor war das noch kein bekanntes Konzept und es hat auch keiner das Wort "Chiplet" in den Mund genommen wenn irgendwie mehrere Dies auf ein Package vereint wurden.

Die IBM Serverprozessoren. Die Xbox 360 GPU mit dem eDRAM Chiplet (was auch die ROPs enthielt). Intel Cores mit Crystalwell. Intel's Arrandale mit separater GPU auf dem Träger und einem entsprechenden Interlink. Kabylake-G. CPUs, die die PCH auf dem Package hatten (da gab es in den letzten 10-15 Jahren eine Menge). Intel Xe HPC (Ponte Vecchio) treibt das Ganze sogar an die Spitze (Compute Die, HBM, Rambo Cache Modules, Link Tile Module). Und wenn man suchen würde, würde man sicher noch etliche Beispiele mehr auffinden. :)

Edram oder Cache auf das package zu packen ist keine Chiplet strategie.

Lynnfield, Kabylake-G, Lakefield etc. sind alles keine Chiplet Designs, denn ihnen fehlt Reusable IP, bzw. mehrere identische DIEs.

A chiplet is an integrated circuit block that has been specifically designed to work with other similar chiplets to form larger more complex chips.
In such chips, a system is subdivided into functional circuit blocks, called "chiplets", that are often made of reusable IP blocks.
https://en.wikichip.org/wiki/chiplet

Darüber hinaus sind Chiplets eine Designstrategie zur Yieldverbesserung.
Das ist ein ganz anderer Grund als vorgangene Strategien wo man MCMc verwendet hat um SOCs zu kreieren, kleinere packages für mobile zu bauen oder eine GPU oder edram zu integrieren.

Für AMD ist Zen1 auch keine Chiplet Strategie, da das Design aus anderen Strategischen gründen (masken kosten, validation, Risikomanagement etc.) aus mehreren Chips zusammengebaut ist. Außerdem sind die Zen1 Einzel-DIEs für ihre Zeit und Node verhältnismäßig groß. Chiplet Strategie bezieht sich aber konkret auf sehr kleine, einfach zu validierende kleine DIEs die in großer Zahl parallel auf einem Package zusammengefügt werden können.

Die Herangehensweise in der Entwicklung ist eben eine ganz andere: a system is subdivided into functional circuit blocks
Bei Chiplets designt man zuerst das Gesamtsystem, nämlich Epyc mit 64Cores und teilt das dann in Building Blocks auf aus denen man auch andere Konfigurationen bauen kann. Bei Zen1 oder Core2 wurden zuerst separate in sich funktionierende Systeme definiert und dann mehrere davon aneinandergereiht. Das ist ein Paradigmenwechsel in der Entwicklung bzw. auch dem Projektmanagement.

Intels erstes echtes Produkt mit Chiplet-Strategie ist Ponte Vecchio bzw. Sapphire Rapids je nachdem was zuerst kommt.

Sapphire Rapids ist imo auch ein Chiplet Design, selbst wenn die Chiplets ziemlich groß werden und kein i/o die wie bei Zen2/3 verwendet wird. SR verwendet aber 4x identische Dies um mit den Yields von 10SF klar zu kommen und wurde imo auch von Anfang an als 4chip komplex geplant. Man hat sich mit EMMIB/Foveros auch einiges zur schnelleren Verbindung der Chips ausgedacht. Das ist was anderes als einfach zwei oder vier Dies auf ein MCM-Package zu packen, was leistungsmäßig ja identisch zu einem dual oder quad socket system performen würde.

Ja der Pentium Pro ist auch ein schönes Beispiel - daran hatte ich auch kurz gedacht. :)
Der P2/P3 hingegen sind keines.

on package SRAM ist kein Chiplet Design.

BTW, der 5800x ist streng genommen auch keine Chiplet CPU. Man kann sich aber drüber streiten ob er ein "chiplet" enthält, da der 8-Core CCD identisch mit den Chiplets in Epycs und dem 5950X ist und damit die single CCD CPUs also ganz klar Teil der gesamten Chipletstrategie sind.