Intel - Alder Lake (7 nm, big.LITTLE, 8C + 8c "Golden Cove"/"Gracemont" CPU-Kerne, Ende 2021) [Archiv] - Seite 10

BlacKi

2021-09-07, 15:23:07

Stimmt zwar, der CB Leak wurde aber direkt mit 280w ohne limits angeben vom Leaker, stand damals in den Twitter comments vom selben Poster. Ob beides stimmt ist natürlich die andere große Frage.
Der GB Leak lief angeblich* aber mit Pl2. Das ist auch das was ich meinte mit den Leaks, ohne klare Verbrauchs Werte sind auch die Leistungswerte einfach nicht einfach einzuordnen, zumindest im Verhältnis.
no words

https://www.pcgameshardware.de/CPU-CPU-154106/News/Core-i9-12900K-QS-im-Cinebench-R20-schneller-als-Ryzen-9-5950X-1376309/

DeadMeat

2021-09-07, 15:49:08

no words

https://www.pcgameshardware.de/CPU-CPU-154106/News/Core-i9-12900K-QS-im-Cinebench-R20-schneller-als-Ryzen-9-5950X-1376309/

"no words" Was genau soll das bedeuten du zeigst einen Link zu einem vollkommen anderen Leak ohne jede Details.

Nightspider

2021-09-07, 15:57:06

Die aktuelle Effizienz, also die benötigte Leistungsaufnahme pro Frame im Vergleich zu Broadwell mit eDRAM wäre mal interessant. :D

Ob man man da noch auf dem Stand von vor 6 Jahren wäre? :D

aufkrawall

2021-09-07, 16:00:12

RKL sähe sicher auch gegen einen getunten 8700K völlig ernüchternd aus.

BlacKi

2021-09-07, 16:14:02

"no words" Was genau soll das bedeuten du zeigst einen Link zu einem vollkommen anderen Leak ohne jede Details.
not
https://videocardz.com/newz/intel-core-i9-12900ks-qs-allegedly-outperforms-ryzen-9-5950x-in-cinebench-r20-test

Die aktuelle Effizienz, also die benötigte Leistungsaufnahme pro Frame im Vergleich zu Broadwell mit eDRAM wäre mal interessant. :D

Ob man man da noch auf dem Stand von vor 6 Jahren wäre? :D
kommt drauf an. powerlimitiert und freidrehend wird sich in games definiv unterscheidem. jenach dem welche cores in welchem verhältnis beschäftigt werden.

ryan

2021-09-07, 16:14:41

Natürlich ist ein Gracemont Core 2.5x so energieeffizient wie ein Skylake bei maximalem Takt aber was soll der Vergleich bringen? Auch ein Comet Lake ist doppelt so energieeffizient wie ein Skylake Core bei maximalem Takt und zwar deshalb weil sich Comet Lake in 14nm++++ einfach mehr Takt verträgt und bei 4.2GHz gemütlich dahinwerkelt während Skylake da schon im vollen SC Turbo mit 1.4V brutzelt.

Comet Lake ist auch Skylake, Intel spricht nur von Skylake core.

Er schlägt den 5950x mit 3% ,das ist alles andere als deutlich bei 228w. Bei 125w wäre er drastisch niedriger laut den Leaks. Der Cinebench Wert war laut dem originalen Leaker sogar bei 280w.

5950x hat 16 big cores, 12900K nur 8 big cores. Und 8 threads mehr beim 5950x. Ich weiß ja nicht was du davon erwartest. Es ist schon beachtlich das sie überhaupt den Cinebench score vom 5950x erreichen oder übertreffen können mit nur 8 big cores.

Badesalz

2021-09-07, 16:38:00

Für mich neu. P2 gibts jetzt nur für Millisekunden und P1 unter 1min. Und wenn die Last 5 Minuten dauert?

Gipsel

2021-09-07, 16:47:20

Für mich neu. P2 gibts jetzt nur für Millisekunden und P1 unter 1min. Und wenn die Last 5 Minuten dauert?Da sind die vermutlich in der Spalte verrutscht (PL1 ist dauerhaft, PL2 für die 28/56Sekunden [oder auf vielen Boards auch dauerhaft] und für ein paar Millisekunden können intel CPUs auch über PL2 gehen).

Hakim

2021-09-07, 16:47:50

War das nicht pl2 unter einer Minute und pl2 entspricht TPD?

BlacKi

2021-09-07, 17:18:48

War das nicht pl2 unter einer Minute und pl1 entspricht TPD?
korrigiert.

naja, tdp ist schon lange keine verbrauchsangabe mehr.

DeadMeat

2021-09-07, 17:29:20

https://www.intel.de/content/www/de/de/support/articles/000055611/processors.html

Wer es genau wissen möchte. AMDs festlegung ist übrigens etwas anders als diese.

MiamiNice

2021-09-07, 18:04:27

no words

https://www.pcgameshardware.de/CPU-CPU-154106/News/Core-i9-12900K-QS-im-Cinebench-R20-schneller-als-Ryzen-9-5950X-1376309/

Auf die Zahlen würde ich gar nichts geben. Das Ding ist ein QS und es hat niemand Hand angelegt. Ootb Werte. Da geht sicher noch einiges.
Das AMD geschlagen wird ist jetzt irwo auch nicht so der Aufriss - außer das PCGH mal wieder Click Bait betreibt. Das Zen2 deutlich geschlagen wird ist wohl das absolute Minimum welches man erwarten kann.

BlacKi

2021-09-07, 18:10:35

Das Zen2 deutlich geschlagen wird ist wohl das absolute Minimum welches man erwarten kann.
:biggrin: rly? zen2?

Nightspider

2021-09-07, 18:17:19

Glaube nicht das Intel den 3990X schlagen kann. :D

Thunder99

2021-09-07, 18:35:24

unter pl1 wird die cpu mit 8+8 aber höchsens effizienter. und mit 228w schlägt er den 5950x deutlich, auch unlimitiert ist der 5950x langsamer. es liegt nahe, das der 8+8 auch bei 125w konkurenzfähig bleibt.

ja, ich hätte auch gerne mehr leaks, vorallendingen kein cinebench.
Beim Vergleich mit AM4 hat Intel massive Vorteile, da AM4 nicht so viel elektrische Energie zuführen kann wie die Intel Sockel(s), oder nicht?
Daher ist unlimitiert nicht gleich unlimitiert. Aber an sich auch Design "Problem" von AMD oder wenn man es so sehen möchte. Passt dann auch, dass bei AM5 die mögliche Energiezuführung steigen soll...

Bleibt spannend das Duell bei welcher Leistungsaufnahme wer wen wo schlägt :cool:

MiamiNice

2021-09-07, 18:51:56

:biggrin: rly? zen2?

Nun komm, um ne Taste verrutscht, so ein Aufhänger?
Ich formuliere es anders:
Wenn die P Cores von Alder Lake nicht alles im ST verhauen was bisher auf dem Markt ist, kann Intel die Teile direkt nach Madagaskar liefern.
Dort wächst nämlich Pfeffer ;)

BlacKi

2021-09-07, 18:54:55

Beim Vergleich mit AM4 hat Intel massive Vorteile, da AM4 nicht so viel elektrische Energie zuführen kann wie die Intel Sockel(s), oder nicht?
also für mich sind 4,6-4,7 allcore schon ziemliches limit, temperaturtechnisch trotz wakü. aber nicht der sockel, da sind oft sehr große reserven vorhanden.

Thunder99

2021-09-07, 19:32:31

also für mich sind 4,6-4,7 allcore schon ziemliches limit, temperaturtechnisch trotz wakü. aber nicht der sockel, da sind oft sehr große reserven vorhanden.
Ok, das ist natürlich nicht schlecht. Bei 4,7 fehlen nur 300-400MHz zum max möglichen :)

Lowkey

2021-09-07, 19:45:33

Wenn der Listenpreis (https://www.heise.de/news/Intel-Alder-Lake-S-Erste-Euro-Preise-vor-Verkaufsstart-6185524.html)stimmt, dann unterbietet Intel den Listenpreis des 5950x deutlich. Das wäre für mich ein Zeichen, dass der 12900k schwächer als der 5950x ausfällt.

BlacKi

2021-09-07, 19:53:51

er muss gegen den 6900x antreten. der vermutlich auch ca 600€ kosten wird.

ceed

2021-09-07, 21:38:23

Wenn der Listenpreis (https://www.heise.de/news/Intel-Alder-Lake-S-Erste-Euro-Preise-vor-Verkaufsstart-6185524.html)stimmt, dann unterbietet Intel den Listenpreis des 5950x deutlich. Das wäre für mich ein Zeichen, dass der 12900k schwächer als der 5950x ausfällt.

Davon würde ich nicht unbedingt ausgehen. AMD hat momentan das Top-Produkt und kann quasi verkaufen was hergestellt wird. Das ist ein riesen Luxusproblem und bedingt diese Preise.
Intel hingegen muss mit seinem Portfolio gucken dass es möglichst alle Fabriken ausgelastet bekommt- und sie haben mit die größten Kapazitäten der Halbleiterbranche. Unter Umständen mehr als sie mit Preisen von 800€ verkaufen könnten.
Denke die beiden haben da momentan komplett andere Herangehensweisen was die Preisfindung angeht.

aufkrawall

2021-09-07, 21:42:31

Ich würde nicht davon ausgehen, dass angesichts der momentanen Marktsituation Intel Probleme mit dem Verkauf haben wird. Für Mobile lässt sich mit den unterschiedlichen Kern-Kombis das Produkt-Lineup zudem fast schon irrsinnig skalieren.

CrazyIvan

2021-09-07, 21:45:08

RKL sähe sicher auch gegen einen getunten 8700K völlig ernüchternd aus.
Fragen, die hier in diesem Forum schon lange beantwortet sind:
https://raw.githubusercontent.com/BrsVgl/PerformanceEfficiencySuite/main/Ranking/CB_ST_Consumption.png
Link zum Thread: https://www.forum-3dcenter.org/vbulletin/showthread.php?t=606794

aufkrawall

2021-09-07, 21:46:38

Der Kontext von Nightspider und damit mir war Effizienz in Spielen, nicht Number Crunching.

CrazyIvan

2021-09-07, 21:50:25

Na meinetwegen, wenn für Dich die Vermessung in einem definierten Umfeld keinerlei Rückschlüsse auf Deinen konkreten Workload zulassen sollte. :rolleyes:

aufkrawall

2021-09-07, 21:55:19

Na meinetwegen, wenn für Dich die Vermessung in einem definierten Umfeld keinerlei Rückschlüsse auf Deinen konkreten Workload zulassen sollte. :rolleyes:
Leider nicht, denn CB bildet die Auswirkung der für Spiele so wichtige Latenz völlig unzureichend ab. Bei RKL kommt zudem noch die Frage dazu, ob Gear 1 oder 2.

CB ist für mich die langweiligste Metrik nach GeekBench. Es sagt wirklich rein gar nichts über die Performance in von mir genutzten Workloads aus. Für RT hab ich Schaltungen in der GPU...

ChaosTM

2021-09-07, 22:29:42

Es zählen für mich persönlich in dem Bereich eigentlich nur Spiele Benchmarks.
Für alles andere sind die CPUs sowieso schnell genug. Wer wirklich Top Leistung braucht sucht sich den passendsten Benchmark für seinen Bereich heraus - NACH dem Release. :)

iamthebear

2021-09-07, 23:02:46

Schön wäre es. Real geht mein 11400F mit UV bei 95W Drosselung auf bis zu 3,4GHz bei MT runter. Diese Arch gehört komplett auf den Müll.

Erstens ist deine CPU ein Rocket Lake und kein Comet Lake (Rocket Lake hat mehr Verbrauch) und zweitens bezog sich mein Vergleich auf die jeweiliegn Topmodelle nämlich den 10900K vs. 6700K.
Wenn du jetzt deinen 11400F als Vergleich hernimmst. dann musst du diesen auch mit dem i5 6400 vergleichen und der ging auch nur bis 3.3 statt 4.2GHz und hat bei den 3.4GHz (100MHz über dem SC Turbo) vermutlich auch doppelt so viel Leistung verbraten.

Selbst das ist noch optimistisch. Im wirklichen Grenzebereich ist es eher so, dass man pro 100Mhz direkt 100mV oder mehr braucht, also subproportionale Skalierung des Takts mit der Spannung. Da steigt der Verbrauch eher exponentiell mit der Leistung an. In diesen Extrembereichen könnte die Effizienz der E-Kerne dann auch tatsächlich schlechter als die der P-Kerne sein.

Wenn die Intel Folien auch nur annähernd die Realität abbilden, so geht dieser "Grenzbereich" alles was bei den Big Cores über 2GHz liegt.

Um die Performance zu erreichen Schluckt wohl der P Core extrem viel. Um den Verbrauch nicht explodieren zu lassen bei MT "mussten" sie wohl auf P+E Cores gehen. Könnte unter diesem Gesichtspunkt vorstellen, dass 16 P Core langsamer sind als 8+8.

Wenn dann die 8+8 auch noch schneller sind als 16 Zen3 (24T vs. 32T), dann hat Intel aus Performance Sicht alles richtig gemacht. Wenn das Teil aber entsprechend mehr Schluckt als ein aktueller Zen3 5950X dann sieht die Energieeffizienz wieder schlecht aus ;D, egal was das Marketing erzählen möchte ;D

Es geht hier wie schon gesagt rein um Performance/Fläche. Verlustleistung ist hier bei weitem noch kein limitierender Faktor. Dann müssen die Kerne unter Volllast etwas runter takten. Zum Vergleich: Ein Quad Core Tiger Lake lässt sich mit 8 Thread Cinebench Last mit 8W TDP betreiben (Batteriebetrieb). Dann taktet er halt um die 1.5GHz herum. Wieso sollte das mit Alder Lake so viel anders sein?

Er schlägt den 5950x mit 3% ,das ist alles andere als deutlich bei 228w. Bei 125w wäre er drastisch niedriger laut den Leaks. Der Cinebench Wert war laut dem originalen Leaker sogar bei 280w.

Das die Kerne Effizienter sind ist klar wenn man sie nicht wie blöde ins Limit drückt, aber wieviel von den +3% überbleiben ohne dramatisch mehr zu verbrauch als die AMDs zu haben wäre interessant.
Die Architektur als extremen Fortschritt zu bewerben wenn man wieder +100w verbraucht und alle Zboards ohnehin die Limits ignorieren finde ich nicht sonderlich berauschend wenn man dabei gerade so mit der älteren AMD architektur gleichzieht.

Echte Benchmarks abseits von cinebench oder geekshit, mal was MT Produktives bei aktiven Limits wäre mal nen cooler Leak statt alles immer ins Limit zu knüppeln.

Ich weiß nicht wie repräsentativ Cinebench für die Verlustleistung ist. Wäre nicht die erste CPU wo durch AVX deutlich höhere Verlustleistungswerte entstehen falls keine TDP aktiv ist.
Und selbst wenn: Diese 280W entstehen ja nur dadurch dass die TDP komplett abgeschaltet wird und die CPU mit allen Kernen im Grenzbereich läuft. Mit 200MHz weniger Takt sieht die Sache dann meistens schon wieder ganz anders aus.

Comet Lake ist auch Skylake, Intel spricht nur von Skylake core.
Ich glaube du hast mich nicht ganz verstanden.
Mein Punkt war, dass es keinen Sinn macht Energieverbrauch bei maximalem Takt zu vergleichen.
Den Großteil der 2.5x Energieeffizienz hat Intel schon zwischen Skylake und Comet Lake geschafft indem sich die CPUs einfach etwas weiter takten lassen und 10% mehr Takt hier eben schon 2x Verlustleistung bedeutet. Dafür braucht es keine Little Cores, keine neue Architektur, nicht einmal 10/7nm.

5950x hat 16 big cores, 12900K nur 8 big cores. Und 8 threads mehr beim 5950x. Ich weiß ja nicht was du davon erwartest. Es ist schon beachtlich das sie überhaupt den Cinebench score vom 5950x erreichen oder übertreffen können mit nur 8 big cores.

2 Little Cores entsprechen ziemlich genau 1 Big Core (der ja auch 2 Threads mit SMT abarbeitet).
Man kann den 12900K also als 12 Kern CPU betrachten.
Auf die 12 Kerne legst du jetzt noch ca. 20% mehr Leistung pro Kern drauf und ziehst auf der anderen Seite beim 5950X 10% ab, da dieser ja schon deutlich niedriger getaktet ist als ein 5800X und schwupps sind beide schon gleich schnell zumindest solange beim 12900K die TDP nicht limitiert.

korrigiert.

naja, tdp ist schon lange keine verbrauchsangabe mehr.

TDP war noch nie eine Verbrauchsangabe. Das sagt schon der Name. Hier geht es rein um die Abführung der Wärme. Ein OEM der einen 12900K betreibt muss in der Lage sein 125W aus dem Gehäuse abzuführen bzw. muss die Kühlung der Spannungswandler am Mainboard danach ausrichten. Sowohl die Hitze auf den Spannungswandlern als auch Gehäuseinnentemperatur reagieren träge genug, dass ein kurzfristiges Boosten möglich ist.
Für den Falls dass die Hitze nicht schnell genug von der CPU auf den Kühler kommt hat Intel ja eine Überprüfung der Kerntemperatur und reduziert des Boost dementsprechend.

Die TDP sagt nichts darüber aus mit welcher Leistung elektrisch gerechnet werden muss. Dafür gibt es eigene Spezifikationen (z.B. die des Sockels).

Wenn der Listenpreis (https://www.heise.de/news/Intel-Alder-Lake-S-Erste-Euro-Preise-vor-Verkaufsstart-6185524.html)stimmt, dann unterbietet Intel den Listenpreis des 5950x deutlich. Das wäre für mich ein Zeichen, dass der 12900k schwächer als der 5950x ausfällt.

Hier muss man das allgemeine Preisniveau dieser Shops berücksichtigen:
Im Fall von beat-it.nl (dem günstigsten der 3 Händler) sind alle Alder Lake Modelle bis auf wenige Euro gleich teuer gelistet wie deren Vorgänger. Alles andere wäre auch komplett unüblich. Wollte Intel die Preise erhöhen hätten sie den 12900K einfach zum i11 gemacht.
Der 12900K entspricht damit übrigens auch ziemlich genau dem Preis des 5900X.

Ich gehe also davon aus, dass AMD den VCache beim 5900X und 5950X kostenlos drauflegen wird und 5600X/5800X einfach um eine Stufe nach unten rücken werden. Eventuell gibt es den 5900X ja auch zusätzlich noch ohne VCache zum Preis des 5800X.

aufkrawall

2021-09-07, 23:21:54

Erstens ist deine CPU ein Rocket Lake und kein Comet Lake (Rocket Lake hat mehr Verbrauch) und zweitens bezog sich mein Vergleich auf die jeweiliegn Topmodelle nämlich den 10900K vs. 6700K.

Du schriebst:
Siehe RocketLake: Bei 5GHz schluckt das Teil 300W, bei 4GHz sind es nicht einmal 100W.

Wie soll ein 11900K (du sprichst ja jetzt selber von Topmodellen) bei 4GHz nur 100W verbrauchen bzw. wie tief müsste dafür die Spannung sein, wenn es schon mit einem 6C +UV nichts wird? Das haut bei weitem nicht hin. ;)
Wenn ich da meinen bisherigen Real World Worst Case Tesseract OCR veranschlage, kannst du für 8C von locker >150W bei angenommenen 1V ausgehen (keine Ahnung, ob das überhaupt noch stabil für 4GHz sein könnte). Ich hatte zumindest ohne UV mit dem 11400F auch schon knapp über 100W in RDR2 in 720p gesehen. RKL ist spätestens mit Gear 1 wirklich nur noch grotesker Schrott bei der Effizienz. War kein Fehlkauf, weil billig und schnell (gemessen an der Kern-Anzahl). Aber der Verbrauch ist nun mal so.

Atma

2021-09-08, 02:57:19

Wenn ich da meinen bisherigen Real World Worst Case Tesseract OCR veranschlage, kannst du für 8C von locker >150W bei angenommenen 1V ausgehen (keine Ahnung, ob das überhaupt noch stabil für 4GHz sein könnte).
4 GHz bei 1V ging schon mit Haswell ohne Probleme, Rocket Lake sollte das mit Leichtigkeit schaffen.

CrazyIvan

2021-09-08, 05:15:59

@aufkrawall
Okay, verstanden. Dir geht es bspw. um den Vergleich der Energieeffizenz im Hinblick auf den eDRAM bzw. Caches im allgemeinen.
Das Problem ist, dass sich Spielebenchs ohne FPS-Limiter bzw. fixe Anzahl Bilder nicht für einen Vergleich der Effizienz eignen, da schnelle Hardware schlicht mehr Arbeit verrichten würde.

Daher leichte OT-Frage: Gibt es einen Bench dieser Kategorie, der Open Source ist, ein FPS Limit oder fixe Bildanzahl aufweist, per Kommandozeile starten lässt, und vielleicht nicht gleich zig GiByte an Installation benötigt? Kennt da jemand was?

Reaping_Ant

2021-09-08, 10:29:08

@CrazyIvan: Leistungsaufnahme/Bildrate sollte doch ganz gut passen, oder? J/frame würde ich jedenfalls als gutes Maß von Energieeffizienz in Spielen ansehen.

CrazyIvan

2021-09-08, 10:33:43

Nein, leider nicht. Der Zusammenhang ist ja nicht linear. Bei 100fps verbraucht eine gegebene CPU eher weit mehr als das Doppelte dessen, was sie bei 50fps verbraucht. Und unterhalb des Sweet Spot ist es dann genau umgekehrt.

MiamiNice

2021-09-08, 12:38:52

Es zählen für mich persönlich in dem Bereich eigentlich nur Spiele Benchmarks.
Für alles andere sind die CPUs sowieso schnell genug. Wer wirklich Top Leistung braucht sucht sich den passendsten Benchmark für seinen Bereich heraus - NACH dem Release. :)

Nach dem Verfahren fallen auch meine HW Entscheidungen.
Auch wenn es einige hier gerne verschreien -> für mich ist dies bei CPUs immer ANNO.

aufkrawall

2021-09-08, 12:43:27

4 GHz bei 1V ging schon mit Haswell ohne Probleme, Rocket Lake sollte das mit Leichtigkeit schaffen.
Kurz probiert: Crashte hier innerhalb kürzester Zeit Windows mit BSoD...

HOT

2021-09-08, 12:51:25

Normale Vollast bei längerem Einlaufen innerhalb der TDP ist der Basistakt. Den legt Intel nicht umsonst so fest. Bei RKL ist das 3,5GHz bei 125W.

Platos

2021-09-08, 12:52:14

Nach dem Verfahren fallen auch meine HW Entscheidungen.
Auch wenn es einige hier gerne verschreien -> für mich ist dies bei CPUs immer ANNO.

Bist du ein so begeisterter Anno-Spieler ? Weil auf ein einziges Spiel deine Entscheidung fällen ist etwas unklug :)

MiamiNice

2021-09-08, 13:14:33

Mag so aussehen. Scheinbar bildet Anno aber genau die Leistung ab, die auch meine anderen Spiele abrufen und es wird immer irgendwo getestet. Versuch mal einen Escape from Tarkov Bench bei einem CPU Release zu finden. Oder Star Citizen oder ein MMORPG.
Ein Anno Bench mit min. 1,5 Mio Einwohnern, also Endgame, sagt mehr als alles andere. Also für mich.

Nen Annoholic bin ich allerdings auch :)

PS: Anno ist quasi ein Worst Case. ST limitiert und scheinbar produziert Anno viele misses. Genau dies tun all meine anderen Games auch.

aufkrawall

2021-09-08, 13:28:52

PS: Anno ist quasi ein Worst Case. ST limitiert und scheinbar produziert Anno viele misses. Genau dies tun all meine anderen Games auch.
Behauptest du. Du hattest afair auch behauptet, du hättest mit RKL mit hohem RAM-OC bei Gear 2 in irgendeinem Spiel mindestens >50% mehr fps als einer deiner Kollegen mit Zen 3. ;D
Kleine Empfehlung an dich: Weniger Mist messen (und behaupten).

MiamiNice

2021-09-08, 13:36:10

Du bist ja auch der Übergamer und weißt es sicher besser als ich.

Behauptet habe ich dies:

Ja, auf meinem 2.ten PC und dem Spiel Sword of Legends. Das ist eine Uralt 1 Core Engine und mein OC 11600er mit OC Speicher macht dort im Massen PVP mehr FPS als Ryzen 5 (zumindest die gesammelten Ryzens meiner Mates haben 0 Chance). Ich denke das wird in jedem massiv CPU limitiertem Game nicht anders sein (Anno, Escape from Tarkov, Star Citizen, usw.). Ich vergleiche CPUs generell gerne in Anno - da ist die GPU i.d.R. völlig raus und die CPU wird absolut abgefragt.

Auf die schnelle (Anno 1800):
https://www.pcgameshardware.de/Core-i9-11900K-CPU-277110/Tests/11700K-11600K-Test-Rocket-Lake-1369258/3/

Wenn es wirklich um 1 Core Power geht und Spiele das auch massiv abfragen Intel > AMD. Selbe gilt für die meisten VR Games.
Der Mittel über alle Spiele interessiert mich persönlich nicht. Mich interessiert was ich spiele und das sind keine AAA Grafikblender.
In der Tabelle da unten sprechen wir auch noch nicht über OC - das ist langweiliger PCGH non Nerd standard.

https://abload.de/img/asdvjko7.png

Und dazu stehe ich auch, egal welcher Meinung Du bist. Den scheinbar magst Du zwar technisches Verständnis haben - aber spielen tust Du scheinbar nur Benchmarks.

aufkrawall

2021-09-08, 13:50:02

Ich meinte eher das, auch wenn ich es vielleicht falsch in Erinnerung hatte:
Ich würde sagen, kommt drauf an. Ich stand vor kurzem vor der Entscheidung für den 2. PC und habe mich für den 11700 mit OC Ram entschieden. Die Kiste rennt im open PVP in SOLO (single Core limitiert da hunderte Player) mit ü 20 Fps während mein OC 9900k mit teils unter 10 Fps läuft. Kommt mit Sicherheit nicht alles aus dem Ram - aber Mates mit Ryzen 5000 haben durchaus weniger FPS als ich. Also wohl richtig entschieden. Hab für die ganze Kiste außer der 3060TI irgendwas um 700€ gezahlt - kam vom Lachen kaum in den Schlaf.
>100% mehr Leistung mit RKL vs. CML, obwohl der IMC bei spätestens 3733 (mein 11400F schafft nicht mal 3600) dicht macht. Ist klar...

MiamiNice

2021-09-08, 13:59:21

Kann ich locker vermessen und posten, allerdings habe ich auf den 11600 nur am WE Zugriff - steht in meiner Weekend Wohnung. Allerdings, ehrlich gesagt, schwer zu vermessen da ich die Spielerzahlen im mass PVP nicht beeinflussen kann.
Kannst Du Dir vorstellen wie sehr mich das ärgert? Der PC aus meiner Sig ist mein Main PC, an dem ich die ganze Woche spiele. Und am WE spiele ich an so einem „kleinst“ PC, der ohne groß Hand anzulegen viel mehr FPS wirft?
Aber vielleicht bin ich am WE auch nur zu breit - man weiß es nicht so genau :biggrin:

Badesalz

2021-09-08, 14:42:09

Auf die Zahlen würde ich gar nichts geben. Das Ding ist ein QS und es hat niemand Hand angelegt. Ootb Werte. Da geht sicher noch einiges.Wie oft war das schon so? :rolleyes:

Es zählen für mich persönlich in dem Bereich eigentlich nur Spiele Benchmarks.
Für alles andere sind die CPUs sowieso schnell genug.Das ist leider nicht ganz so. Leistung gibt es nicht genug, sondern im Überfluss. Leider nutzen die Programmierer es nicht ansatzweise aus womit es an der Leistung eben weiterhin noch mangelt. Was Rechenleistung angeht ist entgegen der allgemeinen 3DC-Meinung dieser hier meist unbekannte ominösen Bereich zwischen Netz/Office und A+ Spiele wirklich real =)

BlacKi

2021-09-08, 14:56:32

ja, sicher, neue plattform, neuer scheduller, neues os, neue architektur... klar, alles wie immer.

Badesalz

2021-09-08, 14:59:20

Na sicher. Irgendwann kurz vor der nächsten neuen Platform wird sich die vorherige kurz vor ihrem Optimum mal wieder ihrem Ende neigen :usweet:

Atma

2021-09-08, 15:06:23

Kurz probiert: Crashte hier innerhalb kürzester Zeit Windows mit BSoD...
Dann hast du wohl so ziemlich die größte Niete bei der Silicon Lottery gezogen. Mein Beileid.

aufkrawall

2021-09-08, 15:11:17

Dann hast du wohl so ziemlich die größte Niete bei der Silicon Lottery gezogen. Mein Beileid.
Das heißt es dann jedes Mal. Ich fürchte eher, es wird auch bei weitem nicht jeder Haswell das mitgemacht haben. Mein 6700K hatte für 4,2GHz Allcore auch schon 1,2V gebraucht. Die Wahrheit ist wohl eher, dass es bei Intel-CPUs eine ziemliche Spannweite gibt und man sein Golden Sample nicht als allgemeingültig umdeuten sollte.

Badesalz

2021-09-08, 15:15:42

+ die Dunkelziffer der Irren die von ihrem Goldensample erzählen ohne einen zu besitzen.
Ich schätze diese Anzahl übrigens als signifikant...

arcanum

2021-09-08, 15:19:55

Das heißt es dann jedes Mal. Ich fürchte eher, es wird auch bei weitem nicht jeder Haswell das mitgemacht haben. Mein 6700K hatte für 4,2GHz Allcore auch schon 1,2V gebraucht. Die Wahrheit ist wohl eher, dass es bei Intel-CPUs eine ziemliche Spannweite gibt und man sein Golden Sample nicht als allgemeingültig umdeuten sollte.

die wahrheit ist eher, dass die leute in foren viel labern wenn der tag lang ist. ich hatte zu 90% immer richtige oc-krücken im vergleich zu dem was in foren aufgefahren wird. das liegt wohl daran, dass wahrscheinlich zig cpus bestellt und die beste behalten wird. manchmal hat man aber auch einfach nur das falsche board um die ergebnisse zu reproduzieren.

BlacKi

2021-09-08, 15:22:06

wer optimiert den schon die cpu auf 4ghz. ich glaub die wenigsten kennen die benötigte voltage ihrer cpu bei 4ghz nicht.

MiamiNice

2021-09-08, 15:56:41

Wie oft war das schon so? :rolleyes:

Eigentlich immer?

Das ist leider nicht ganz so. Leistung gibt es nicht genug, sondern im Überfluss. Leider nutzen die Programmierer es nicht ansatzweise aus womit es an der Leistung eben weiterhin noch mangelt. Was Rechenleistung angeht ist entgegen der allgemeinen 3DC-Meinung dieser hier meist unbekannte ominösen Bereich zwischen Netz/Office und A+ Spiele wirklich real =)

Eher ich jetzt hergehe und die Entwickler flame - schaue ich lieber das ich frieden habe und kaufe dementsprechend :freak:
Habe ich als Nutzer nämlich deutlich mehr von und keinen Stress.

Badesalz

2021-09-08, 16:20:47

Eigentlich kaum?

Wieviele Tausende Euros muss man so alle 2 Jahre für -2s investieren? :usweet:

The_Invisible

2021-09-08, 17:04:03

die wahrheit ist eher, dass die leute in foren viel labern wenn der tag lang ist. ich hatte zu 90% immer richtige oc-krücken im vergleich zu dem was in foren aufgefahren wird. das liegt wohl daran, dass wahrscheinlich zig cpus bestellt und die beste behalten wird. manchmal hat man aber auch einfach nur das falsche board um die ergebnisse zu reproduzieren.

Nach über 20 Jahre Foren lesen filtert man sowas eigentlich schon automatisch raus. Am Besten immer die Postings einen Tag nach Release einer neuen CPU/GPU und das es mit +10ghz mehr bei nur 0,1V oder so rockstable läuft (ja ich weiß leicht übertrieben) und in ein paar Tagen dann Postings warum das System unstabil läuft ;D

Freu mich schon auf AlderLake Release, dann gehts wieder von vorne los :D

MiamiNice

2021-09-08, 17:31:31

Eigentlich kaum?

Wieviele Tausende Euros muss man so alle 2 Jahre für -2s investieren? :usweet:

Man kann immer Hand anlegen. Früher über Takt, heute über den Ram. Bei AL und deren Nachfolgern bin ich mir aber selbst nicht mehr so sicher was da noch gehen wird. Zum einem dürften die Takt technisch an der Kante laufen, man will sich ja absetzen. Zum anderen werden spätestens mit Raptor Lake und Zen 4 die Caches so groß, dass das Speichersubsystem keine große Rolle mehr spielen wird (meine Vermutung).

Vielleicht ist jetzt bald wirklich Ende mit OC. Ich habe noch die Hoffnung das man durch das deaktivieren der 16 E Kerne bei Raptor, und natürlich HT, ein wenig Spielraum für Takt OC bekommen kann. Das ist aktuell zumindest der Grund warum mich AL überhaupt interessiert, RL wird kaum anderes funktionieren.

Hakim

2021-09-08, 17:35:37

Naja zumindest so einfach Sachen wie das der ST Boost Takt auf allen Kernen einstellen wird noch gehen hoffe ich. Die guten alten Zeiten sind halt langsam echt vorbei, auch bei den GPUs

BlacKi

2021-09-08, 17:36:23

das geht schon bei rocketlake nichtmehr. ich denke das wird man fortsetzen. https://youtu.be/A6-y8KkQfCA?t=684

aufkrawall

2021-09-08, 17:39:02

das geht schon bei rocketlake nichtmehr. ich denke das wird man fortsetzen.
Huh? Du kannst bei den K-Modellen natürlich den Allcore-Multiplikator frei festlegen.

BlacKi

2021-09-08, 17:47:28

sagen wirs mal so, beim 11900k gehts nicht. vl gehts noch beim 11600k, oder 11700k. bin mir aber nicht sicher ob das dort stabil läuft.

Atma

2021-09-08, 18:01:33

Das heißt es dann jedes Mal. Ich fürchte eher, es wird auch bei weitem nicht jeder Haswell das mitgemacht haben. Mein 6700K hatte für 4,2GHz Allcore auch schon 1,2V gebraucht. Die Wahrheit ist wohl eher, dass es bei Intel-CPUs eine ziemliche Spannweite gibt und man sein Golden Sample nicht als allgemeingültig umdeuten sollte.
Damals mein 4790K konnte ohne Probleme 4 GHz bei 1V. Habe nicht mal wirklich ausgelotet was überhaupt maximal geht beim Undervolting. Einfach den Turbo ausgeschaltet, so dass die CPU nur auf ihre 4 GHz Baseclock ging und fertig waren die 4 GHz bei 1V.

Mein aktueller 10980XE braucht für 4,5 GHz All Core auch nur 1,075v. 4 GHz bei 1V sind da locker drin. Deshalb bleib ich dabei: dein Sample war ein riesiger Griff ins Klo.

basix

2021-09-08, 18:15:23

Die erste Skylake Generation benötigte schon etwas mehr Spannung, da waren 4.2 GHz ja der maximale Single Core Boost. Erst mit 14nm++(+) sank hier die Spannung deutlich.

Bei Haswell gab es nur bei wirklich guten Chips <1.0V bei 4.0 GHz. Ich habe einen guten 5820K und 5960X. Beide laufen nur mit Ach und Krach bei 4.0GHz @ 1.0V völlig AVX2 stabil. Dafür mit knapp 1.2V bei 4.4 GHz. Haswell hatte einfach eine sehr gütige V-F Kurve, bei welcher die Spannung nicht extrem anstieg sondern enigermassen linear war bis ~4.5 GHz.

Gipsel

2021-09-08, 18:21:18

Huh? Du kannst bei den K-Modellen natürlich den Allcore-Multiplikator frei festlegen.Ja, einstellen kann man's schon, aber es ist allcore @ ST-Boosttakt meist einfach nicht stabil.

Nightspider

2021-09-08, 20:50:20

Kann ich locker vermessen und posten, allerdings habe ich auf den 11600 nur am WE Zugriff - steht in meiner Weekend Wohnung. Allerdings, ehrlich gesagt, schwer zu vermessen da ich die Spielerzahlen im mass PVP nicht beeinflussen kann.
Kannst Du Dir vorstellen wie sehr mich das ärgert? Der PC aus meiner Sig ist mein Main PC, an dem ich die ganze Woche spiele. Und am WE spiele ich an so einem „kleinst“ PC, der ohne groß Hand anzulegen viel mehr FPS wirft?
Aber vielleicht bin ich am WE auch nur zu breit - man weiß es nicht so genau :biggrin:

Wenn du meinst das Anno genauso krass abgeht als Benchmark für besagte Lastszenarien kannst du ja mit Anno mal zeigen das der RKL doppelt so schnell ist wie dein 9900K. ;)

Das ein OC'ed RKL mit OC RAM einen Ryzen 5000 hinter sich lassen kann ist ja jetzt nichts besonderes, denke ich.

Allerdings lässt der Ryzen mit RAM OC dann wieder RKL Modelle ohne OC hinter sich. Kann man sich ja immer etwas zurechtdrehen.

Im Schnitt ist ein Intel-Prozessor mit ähnlicher Leistung und Kernzahl vielleicht aktuell 50-70 Euro billiger aber die Mainboards sind teilweiser teurer und der Stromverbrauch frisst die gesparten Euros über 2 Jahre wieder auf.

Fürs Gaming gibts imo keinen klaren Sieger zwischen RKL und Zen3. ADL vs. Zen3D wird spannend.

Im Anwendungsbereich kann Intel bisher aber nicht mit 12 oder 16 Zen3 Kernen mithalten.

Und ich schätze ADL-S wird auch nicht mit 16 Zen3D mithalten können.

iamthebear

2021-09-09, 01:30:33

Du schriebst:

Wie soll ein 11900K (du sprichst ja jetzt selber von Topmodellen) bei 4GHz nur 100W verbrauchen bzw. wie tief müsste dafür die Spannung sein, wenn es schon mit einem 6C +UV nichts wird? Das haut bei weitem nicht hin. ;)
Wenn ich da meinen bisherigen Real World Worst Case Tesseract OCR veranschlage, kannst du für 8C von locker >150W bei angenommenen 1V ausgehen (keine Ahnung, ob das überhaupt noch stabil für 4GHz sein könnte). Ich hatte zumindest ohne UV mit dem 11400F auch schon knapp über 100W in RDR2 in 720p gesehen. RKL ist spätestens mit Gear 1 wirklich nur noch grotesker Schrott bei der Effizienz. War kein Fehlkauf, weil billig und schnell (gemessen an der Kern-Anzahl). Aber der Verbrauch ist nun mal so.

OK hier habe ich mich auf das Review von Computerbase zum 11900K bezogen:
https://www.computerbase.de/2021-03/intel-core-i9-11900k-i5-11600k-test/#diagramm-3x-cb-r20-mit-adaptive-boost-2-sek-pause-takt

Leider habe ich keine genauen MHz Werte. Man muss diese von den Diagramme ablesen.

Komplett ohne Limits mit dem neuen Adaptive Boost war der Takt konstant bei 5.1GHz und die Verlustleistung bei ca. 300-320W.

Bei normalen Limits während der Boostzeit waren es ca. 4.8GHz und ca. 200W Verlustleistung

Nach der Boostzeit waren es ca. 4.2GHz und 125W.

Ich gehe also davon aus, dass es bei 4GHz dann um die 100W sein werden. Mag sein, dass es vielleicht 110W sind.

Kurz probiert: Crashte hier innerhalb kürzester Zeit Windows mit BSoD...

Das ist auch logisch. Du hast einen 11400. Das ist das Einsteigermodell mit dem schlechtesten Silizium das bei Intel gerade noch den Test geschafft hat um nicht komplett entsorgt zu werden. Darum ist der 11400 auch nur bei 4.4GHz SC Turbo spezifiziert und der 11900K bis 5.3GHz. Sollte auch klar sein, dass bei der Preisdifferenz die 2 Kerne nicht der einzige Unterschied sind.

Wenn ich nun deinen 11400 als Referenz hernehme und ihn mit Skylake vergleiche, dann muss ich bei Skylake aber fairerweise auch den 6400 nehmen und der hatte damals einen SC Turbo von 3.3GHz, was auch 900 MHz unter dem Topmodell waren.

Aber zu meinem ursprünglichen Punkt zurück (siehe Beispiel oben).
Der 11900K braucht bei 5.1GHz 300W
Bei 4.8GHz braucht er 200W
Man erkauft sich also 6% mehr Takt um 50% mehr Verlustleistung.
Würde Intel jetzt eine CPU raus bringen, die sich um 300MHz weiter takten lässt, dann würde das bedeuten, dass diese die 5.1GHz auch mit 200W schafft. Diese würde also nach der Intel Rechnung 50% mehr Performance/Watt liefern.

Von Skylake bis Comet Lake hat Intel bereits 4 Mal je 200-300MHz drauf gelegt.

Wenn Intel nun nach diesem Schema meint "Gracemont hat 2.5x die Energieeffizienz von Skylake bei maximalem Takt", so sagen sie eigentlich "Gracement ist bei hohem Takt nicht effizienter als 14nm RocketLake".

Normale Vollast bei längerem Einlaufen innerhalb der TDP ist der Basistakt. Den legt Intel nicht umsonst so fest. Bei RKL ist das 3,5GHz bei 125W.

Die 3.5GHz sind der Worst case. Das ist wahrscheinlich irgendein Assemblercode von Intel, der überhaupt keinen Sinn ergibt und nur darauf hin optimiert wurde, dass alle Einheiten gleichzeitig ausgelastet sind und zusätzlich auch noch die iGPU einen Burn in macht.
Das wirst du mit normalen Anwendungen nie hin bekommen. Cinebench läuft bei ca. 4.2GHz auf 125W und das nutzt auch schon AVX. Bei non AVX Anwendungen bist du locker auf 4.5GHz.

Aber eben nur bei einem 11900K, nicht bei deinem 11400F.

Tralalak

2021-09-09, 16:37:50

Leak?
source: https://sakhtafzarmag.com/%D9%82%DB%8C%D9%85%D8%AA-%D9%88-%D8%A8%D9%86%DA%86%D9%85%D8%A7%D8%B1%DA%A9-%D9%87%D8%A7%DB%8C-%D9%BE%D8%B1%D8%AF%D8%A7%D8%B2%D9%86%D8%AF%D9%87-%D9%87%D8%A7%DB%8C-alder-lake-%D8%A7%DB%8C%D9%86%D8%AA%D9%84/

BlacKi

2021-09-09, 17:06:33

whats test show the first 2 pictures?

aufkrawall

2021-09-09, 17:24:47

whats test show the first 2 pictures?
Ich stecke nicht in der CPU-Benchmarkmaterie komplett drin, tippe aber auf CB R23.

Demnach wäre Colden Cove extrem stark.

dildo4u

2021-09-09, 17:29:35

Kommt hin wobei die AMD Werte ein bissel schwach sind könnte aber an PBO liegen hier sinds 28k für den 5950X.

https://www.cgdirector.com/cinebench-r23-scores-updated-results/

Linmoum

2021-09-09, 18:25:30

Liegt nicht an PBO, CB hat für den 5950X @stock knapp 29k Punkte im MT. Die Werte da sind kompletter Quatsch, daher womöglich dasselbe auch für ADL. Da will wer schon jetzt Aufmerksamkeit.

VooDoo7mx

2021-09-09, 19:34:26

Kommt hin wobei die AMD Werte ein bissel schwach sind könnte aber an PBO liegen hier sinds 28k für den 5950X.

https://www.cgdirector.com/cinebench-r23-scores-updated-results/

Liegt einfach daran, dass das Diagram scheiße ist.
Das hört einfach bei 26000 auf und sowohl 12900K und 5950X kommen wohl locker über 26000.

Aber ±2000 ST ist schon mal sehr ordentlich und echt ne fette Steigerung was ST Performance angeht.

CrazyIvan

2021-09-09, 21:43:13

Zumindest bei ST trifft das meine Erwartung
ganz gut. 15%+ mussten einfach drin sein. Bin sehr gespannt, wie sich das in unterschiedlichen Anwendungen und auch Spielen im Vergleich zu einem ZEN3-3DC verhalten wird. Kann mir gut vorstellen, dass das ein sehr bunt durchgemischtes Bild ergibt.
MT wiederum überrascht mich positiv. 15% auch hier (gegen den 5900X). Das zeigt mir, dass auch die little Kerne einen guten Beitrag leisten. Sie sind anscheinend wirklich 0,5 Golden Cove wert.

Vielleicht überrascht man uns ja auch beim Verbrauch. Ebenso ist natürlich möglich, dass Golden Cove massiv schluckt und Gracemont zur Schadenbegrenzung da ist.

Hakim

2021-09-10, 12:02:28

Alder Lake soll nach bisherigen Informationen von offizieller Seite aus nach dem Start von*Windows 11*vorgestellt werden, welches offiziell am 5. Oktober erscheint. Denn dieses Betriebssystem ist zwingende Voraussetzung, erklärte Intel zuletzt

https://www.computerbase.de/2021-09/intel-z690-chipsatz-alder-lake-s-bringt-im-desktop-viele-anschluesse/

Zwingende Voraussetzung klingt iwie etwas krass, bin echt gespannt wie der Hardware Schedular im Vergleich mit win 10 läuft

iamthebear

2021-09-10, 19:53:58

"Zwingende Voraussetzung" würde ich jetzt nicht sagen. Intel selbst hat die Benchmarks für ihre Folien ja noch mit Win 10 gemacht.

Ich denke aber dass alle OEMs ihre Alder Lake Systeme bereits mit Win 11 ausliefern werden und dass Intel vermutlich keine Treiber für Windows 10 zur Verfügung stellt, damit Reviewer Alder Lake auch mit Windows 11 testen müssen.

Tralalak

2021-09-12, 22:24:21

Another leak?[/size]

https://uploads.disquscdn.com/images/6d909257fa640523b84cb9d999648125ec4b0da65754d1de4a54e6aa2f1bf0aa.jpg

source: https://forums.overclockers.co.uk/threads/alder-lake-s-leaks.18917041/page-30#post-35094263

iamthebear

2021-09-13, 01:52:25

Der 11900K hatte soviel ich weiß um die 700. Damit trifft das releativ gut die Vorhersage von Intel mit den 19% Performance. Ich denke da wird es auch nicht mehr so große Überraschungen geben.
Offen ist eher nur der Energiebedarf und wie sich Big/Little bei Spielen schlägt.

Platos

2021-09-13, 12:10:06

...und wie sich die 19% in Spielen äussern.

BlacKi

2021-09-13, 13:10:41

...und wie sich die 19% in Spielen äussern.
mit den leaks zu CB und CPUZ kannst du garnichts auf spiele übertragen. nur in den anwendungen wird intel endlich wieder etwas performanter laut leaks.

Platos

2021-09-13, 13:17:37

mit den leaks zu CB und CPUZ kannst du garnichts auf spiele übertragen. nur in den anwendungen wird intel endlich wieder etwas performanter laut leaks.

Genau, deswegen ist das ja auch noch offen. Galt als Ergänzung dazu, was noch nicht bekannt ist.

Tralalak

2021-09-13, 16:16:01

AIDA64 leak @ i5 12600K + DDR5-4800MHz config
source: https://twitter.com/i/web/status/1437318787070500864

Linmoum

2021-09-13, 16:43:22

Angeblich sogar DDR5-6400.

Gut, sowas wie CB ist das natürlich kack egal, aber diese Latenz in Spielen... ;D

Blediator16

2021-09-13, 17:25:09

Vanilla Zen1 Latenz :redface:

aufkrawall

2021-09-13, 17:31:29

Ist jetzt die Frage, ob der zweite Ringbus der littles hier reingrätscht, und ob Win 11 ggf. einen Unterschied macht.

Edit: Falls dem so ist, könnten die littles, wie schlimmstmöglich angenommen, nur Ballast bzw. bestenfalls egal für Gaming sein.

Der_Korken

2021-09-13, 17:55:51

Cache-Latenzen:
L1 = 0.9ns, L2 = 2,6ns => L1 = 5 Takte, L2 = 14 Takte?

Das waren die Werte von Willow Cove. Wenn man davon ausgeht, dass Aida abrundet, passt es auch zum Takt:
1.0ns/5 Takte = 5Ghz < 5,3Ghz < 0.9ns/5 Takte = 5,56Ghz
2.7ns/14 Takte = 5,19 < 5,3Ghz < 2.6ns/14 Takte = 5,38Ghz

Der L3 mit 12ns hätte dann ca. 63 bis 65 Takte Latenz. Das wäre schon extrem viel. Bei Willow Cove mit ca. 45 Takten hat man schon gedacht, dass Intel was verbockt hat, aber selbst wenn nicht, sollten 10 statt 4 Slices nicht so einen krassen Anstieg verursachen. Zen 3 schafft mit 32MB und Ringbus auch ca. 10ns.

basix

2021-09-13, 18:02:09

Aida produziert oftmals Mist, wenn eine CPU-Architektur nicht offiziell supported wird. Und wenn dennoch richtig: Spiele Performance muss nicht direkt damit korrelieren.

BlacKi

2021-09-13, 18:48:00

gearmode 4, bin gespannt wieviel man rumspielen können wird.

aufkrawall

2021-09-13, 18:49:46

gearmode 4, bin gespannt wieviel man rumspielen können wird.
Was das wohl für die Taktbarkeit des IMC bedeuten könnte. Hatte nicht irgendjemand gemeint, 1:1 mit DDR5-Taktraten wären möglich? ;)

MiamiNice

2021-09-14, 00:24:40

Ich halte es für fraglich ob die Speicherlatenz in Zukunft noch so von Bedeutung sein wird. Warum wir heute den Speicher pimpen, weiß jeder hier im Thread. Mit den dutzenden von MB an, was L3?, L4?, dürfte die Speicherlatenz, irgendwann zur Nebensache werden. Der Alder Lake Wert, ohne "Gaming Cache", der erst mit Raptor kommt, ist aber irgendwie ziemlich übel. Alleine dieser eine Wert würde mich, als Gamer, schon von einem Kauf abhalten. Die Tage von CPUs ohne einen dicken Cache auf der CPU, sind, imo, hart gezählt. Der kräht, meiner Meinung nach, nach Raptor und Zen4, kein Arsch mehr nach. Resterampe.

Ich finde es gerade extrem geil was auf dem Markt abgeht. Kann man nur, wie sagen die jungen Leute, feiern.

Wake

2021-09-14, 01:44:10

Fürs AIDA64-Gewichse im 3DC natürlich nicht so gut, würd ich aber eh nichts drauf geben - siehe auch eines der letzten BZ-Vids wo das Thema angesprochen wird. Am Ende zählt nur was in der (Game-)Praxis rumkommt ;).

Atma

2021-09-14, 01:49:12

Fürs AIDA64-Gewichse im 3DC natürlich nicht so gut, würd ich aber eh nichts drauf geben - siehe auch eines der letzten BZ-Vids wo das Thema angesprochen wird. Am Ende zählt nur was in der (Game-)Praxis rumkommt ;).
Die Speicherlatenz in AIDA64 war immer ein guter Indikator für die Leistung im Gaming. Gänzlich darauf verlassen sollte man sich nicht, man muss es aber auch nicht so durch den Dreck ziehen.

Leonidas

2021-09-14, 11:50:09

Das Problem dürfte hier der DDR5/6400 sein - weil das oberhalb offizieller Unterstützung ist, gibt es nur Gear 4. Mit DDR5/4800 und Gear 2 dürfte es deutlich freundlicher aussehen.

BlacKi

2021-09-14, 12:14:48

das war sowieso nur ein auslesefehler mit den 6400mt. das hat aida auch bei rocketlake angezeigt. siehe hier https://www.pcgameshardware.de/screenshots/original/2021/03/AIDA64_11900K_11-pcgh.PNG

Wuge

2021-09-14, 12:43:36

Die Bandbreite geht mit 4800mt aber nicht überein ;)

BlacKi

2021-09-14, 13:02:48

ja, die ist deutlich höher.

Der_Korken

2021-09-14, 13:20:59

Bedeutet Gear 4, dass der IMC nur mit 1/4 des Speichertakts läuft, also 1,6Ghz bei 6400MT/s? Dann sind die Speicherlatenzen kein Wunder. Dass man DDR5 mit 1:1 laufen lassen kann, war natürlich utopisch, aber 1:2 hätte ich bis 8400MT/s dann doch erwartet (mit OC), denn 4200MT/s haben doch schon die Coffee Lakes mit 1:1 geschafft.

BlacKi

2021-09-14, 13:31:09

Bedeutet Gear 4, dass der IMC nur mit 1/4 des Speichertakts läuft, also 1,6Ghz bei 6400MT/s? Dann sind die Speicherlatenzen kein Wunder. Dass man DDR5 mit 1:1 laufen lassen kann, war natürlich utopisch, aber 1:2 hätte ich bis 8400MT/s dann doch erwartet (mit OC), denn 4200MT/s haben doch schon die Coffee Lakes mit 1:1 geschafft.
deswegen freu ich mich schon drauf daran rumspielen zu können. kann man ja bei rocketlake ja auch, auch wenn 1:1 bei cmt lake mehr ging. vl trägt da auch der intel 7 prozess etwas bei.

Blediator16

2021-09-14, 15:00:07

deswegen freu ich mich schon drauf daran rumspielen zu können. kann man ja bei rocketlake ja auch, auch wenn 1:1 bei cmt lake mehr ging. vl trägt da auch der intel 7 prozess etwas bei.

Wird Gefrickel wieder angesagt sein? :freak:

BlacKi

2021-09-14, 15:16:19

nice try, maybenext time...

Freestaler

2021-09-14, 15:30:03

RKL macht bei 3733 zu 1:1? Wäre ja doch dann immerhin DR7466. Wieso dann nicht 1:2 sondern 1:4? Irgendwas mit der Anbindung der littles?

aufkrawall

2021-09-14, 15:32:22

RKL macht bei 3733 zu 1:1?
Beim 11900K mit Glück, bei anderen Modellen gehen mit Pech nicht mal 3600.

BlacKi

2021-09-14, 15:51:37

soweit ich weiß, ist bei rkt lake alles über 2933mt gearmode 2? genau wie bei den amd gibt es einen automatischen switching point, der dann den gearmode ändert, obwohl man je nach qualität des MC den gearmode nach hinten verlagern kann. vl schafft man manuell statt g4 auch g3 mit 6400mt. oder auch g2? wenn die speicherhersteller angegeben haben das man über 12kmt manuell schafft und das g4 wäre, dann könnte man wohl auch 6000mt mit g2 schaffen. aber das wissen wir erst, wenn die leute mit dem tuning anfangen können. vermutlich erst wenn die cpus schon released sind, also in etwas mehr als 2 monaten.

Gipsel

2021-09-14, 16:00:59

soweit ich weiß, ist bei rkt lake alles über 2933mt gearmode 2?Ausnahme ist der 11900k, da geht auch noch 3200 mit Gear 1 (also Standard und offiziell).

robbitop

2021-09-14, 17:21:38

Ich halte es für fraglich ob die Speicherlatenz in Zukunft noch so von Bedeutung sein wird. Warum wir heute den Speicher pimpen, weiß jeder hier im Thread. Mit den dutzenden von MB an, was L3?, L4?, dürfte die Speicherlatenz, irgendwann zur Nebensache werden. Der Alder Lake Wert, ohne "Gaming Cache", der erst mit Raptor kommt, ist aber irgendwie ziemlich übel. Alleine dieser eine Wert würde mich, als Gamer, schon von einem Kauf abhalten. Die Tage von CPUs ohne einen dicken Cache auf der CPU, sind, imo, hart gezählt. Der kräht, meiner Meinung nach, nach Raptor und Zen4, kein Arsch mehr nach. Resterampe.

Ich finde es gerade extrem geil was auf dem Markt abgeht. Kann man nur, wie sagen die jungen Leute, feiern.
Gibt es da Hinweise auf besonders großen Cache bei Raptor Lake? Ich hatte was von 36 MiB gelesen, was jetzt nicht so viel mehr ist als ADL. Man bedenke, dass eine Verdopplung der Cachegröße die Missrate gerade mal um Faktor 1,41 (Quadratwurzel 2) reduziert. Da muss schon richtig was erhöht werden an Cache, damit man da was merkt. Die Erhöhung auf 36 MiB kommt sicherlich z.T auch daher dass mehr Cores verbaut sind.

BlacKi

2021-09-14, 17:26:11

ja, 50% mehr cores^^ 100% mehr littlecores^^

glaub das müssten mindestens 38mb sein, wegen der +8 littlecores. dann müsste man aber das nicht extra als gaming cache bezeichnen.

da müsste viel mehr drin sein wenn man es xtra gaming cache nennt.

Gipsel

2021-09-14, 17:33:16

ja, 50% mehr cores^^ 100% mehr littlecores^^

glaub das müssten mindestens 38mb sein, wegen der +8 littlecores. dann müsste man aber das nicht extra als gaming cache bezeichnen.Momentan hat jeder Cove Kern und jeder Mont-Cluster (4 Kerne) je 3 MB.
Alderlake: 8 Cove + 2*4 Mont => 10*3MB=30MB
Wenn das so bleibt, kommt man mit 8 Cove + 16 Monts tatsächlich auf die 36MB L3, die robbitop erwähnte.

BlacKi

2021-09-14, 17:42:55

was wäre ich nur ohne dich:D es ist aber auch verwirrend. denn dem 12700k sollen 4 littlecores und 5mb cache fehlen.

robbitop

2021-09-14, 18:10:35

Das wird jedenfalls dann keinen großen Unterschied machen.

Gipsel

2021-09-14, 18:17:16

was wäre ich nur ohne dich:D es ist aber auch verwirrend. denn dem 12700k sollen 4 littlecores und 5mb cache fehlen.Intel muß nicht ganze Cache-Slices deaktivieren, wenn die Kerne deaktiviert sind (mußten die nie). Vermutlich werden die also bei den kleineren Modellen alle Cache Slices aktiv lassen und 512kB L3 pro Slice deaktivieren. Macht dann 10*2,5MB oder 10*2MB bei den noch kleineren Modellen mit 20MB L3. Eventuell gibt es auch irgendwo bei irgendwelchen Einsteigermodellen mix'n match, um mit unterschiedlichen Deaktivierungen den Yield zu erhöhen (also z.B. beim 20MB L3 gehen ja theoretisch entweder 2 Cache Slices komplett abschalten UND von den verbleibenden acht Slices je 0,5MB deaktivieren oder alternativ von allen 10 CacheSlices jeweils 1 MB ausknipsen).

aufkrawall

2021-09-14, 19:01:20

Eine nicht unrealistische Variante ist dann wohl, dass der vermeintliche "Game-Cache" nur ein plumper PR-Bluff ist. :freak:

Linmoum

2021-09-14, 19:16:12

Tolles Marketingspeech alternativ. AMD hat ja auch schon bei Zen2 plump von "Gamecache" gesprochen.

BlacKi

2021-09-14, 19:21:41

Eine nicht unrealistische Variante ist dann wohl, dass der vermeintliche "Game-Cache" nur ein plumper PR-Bluff ist. :freak: ja, aber für was steht der gaming cache?ich meine, selbst nur deutlich mehr cache wäre ja schon etwas gutes. und 6mb wären nicht genug dafür. so oder so. man müsste den l3 schon verdoppeln, sodas man etwas mehr performance erhält.

Platos

2021-09-14, 19:57:52

Mann nennt auch Schrottmäuse, Schrotttastaturen, Schrottheadsets usw. "Gaming-"irgendwas.

Gaming-.... hat noch nie eine Bedeutung gehabt, ganz ehrlich.

BlacKi

2021-09-14, 20:44:43

ich habs gaming cache genannt, der orginal wortlaut steht hier.

https://www.notebookcheck.net/fileadmin/Notebooks/News/_nc3/Intel_Raptor_Lake_VideoCardz_6.jpg

iamthebear

2021-09-14, 22:45:06

Ist jetzt die Frage, ob der zweite Ringbus der littles hier reingrätscht, und ob Win 11 ggf. einen Unterschied macht.

Das mit dem Ringbus wird sich zeigen. Auf der einen Seite würde es mich wundern, dass Intel solche Rückschritte bei der Latenz in Kauf nimmt.
Auf der anderen Seite soll Alder Lake mit DDR5 5-15% schneller sein als mit DDR4. Das wäre mit den Latenzen nicht wirklich plausibel.

Aber ich denke, dass die katastrophalen Timings und der Gearmodus schon einen Großteil davon erklären.

Dass Windows 11 in einem reinen Latenz/Bandbreitentest einen Unterschied macht denke ich nicht.

[/quote]Edit: Falls dem so ist, könnten die littles, wie schlimmstmöglich angenommen, nur Ballast bzw. bestenfalls egal für Gaming sein.[/QUOTE]

Derzeit benutzen Spiele in der Regel nur 6 Threads d.h. es sind die 6 Big Cores ausgelastet.
Bei zukünftigen Spielen, die 8 Threads nutzen wird es darauf ankommen: Die 6 Core Modelle werden stark davon profitieren, dass sie eben noch 4 Little Cores daneben haben. Beim 12700K oder 12900K wird es noch egal sein.

Werden 10+ Threads benutzt so verhält sich 6+4 in etwa so wie 8 Big Cores.

Cache-Latenzen:
L1 = 0.9ns, L2 = 2,6ns => L1 = 5 Takte, L2 = 14 Takte?

Das waren die Werte von Willow Cove. Wenn man davon ausgeht, dass Aida abrundet, passt es auch zum Takt:
1.0ns/5 Takte = 5Ghz < 5,3Ghz < 0.9ns/5 Takte = 5,56Ghz
2.7ns/14 Takte = 5,19 < 5,3Ghz < 2.6ns/14 Takte = 5,38Ghz

Der L3 mit 12ns hätte dann ca. 63 bis 65 Takte Latenz. Das wäre schon extrem viel. Bei Willow Cove mit ca. 45 Takten hat man schon gedacht, dass Intel was verbockt hat, aber selbst wenn nicht, sollten 10 statt 4 Slices nicht so einen krassen Anstieg verursachen. Zen 3 schafft mit 32MB und Ringbus auch ca. 10ns.

Das, was hier gebencht wurde war ein 12600K. Der hab einen SC Turbo von 4.9GHz.
Der Multi Core Turbo liegt bei 4.5GHz.

Ich gehe also davon aus, dass die 4.6GHz, die angezeigt werden schon korrekt sind und dies der bekannte Effekt ist, dass je nach Hintergrundauslastung nicht auf den vollen SC Turbo hochgeschaltet wird, da ja kein Kern wirklich idle ist.

Ich komme hier also auf:
L1: 4 Takte / 4.6 = 0.87ns (aufgerundet auf 0.9ns)
L2: 12 Takte / 4.6 = 2.609ns (abgerundet auf 2.6ns)
L3: 55 Takte / 4.6 = 11.956ns (aufgerundet auf 12ns)

Zum Vergleich mein 9900K mit AIDA64 gemessen:
L1: 1ns
L2: 2.9ns
L3: 13.4ns

Wenn man bedenkt, dass alle 3 Caches vergrößert wurden finde ich das eigentlich voll OK.

Ich halte es für fraglich ob die Speicherlatenz in Zukunft noch so von Bedeutung sein wird. Warum wir heute den Speicher pimpen, weiß jeder hier im Thread. Mit den dutzenden von MB an, was L3?, L4?, dürfte die Speicherlatenz, irgendwann zur Nebensache werden. Der Alder Lake Wert, ohne "Gaming Cache", der erst mit Raptor kommt, ist aber irgendwie ziemlich übel. Alleine dieser eine Wert würde mich, als Gamer, schon von einem Kauf abhalten. Die Tage von CPUs ohne einen dicken Cache auf der CPU, sind, imo, hart gezählt. Der kräht, meiner Meinung nach, nach Raptor und Zen4, kein Arsch mehr nach. Resterampe.

Das würde ich nicht so sehen. Ein Zen3 Compute Die besteht schon zur Hälfte aus L3 Cache, der VCache von AMD ist ein nettes Experiment um das Spitzenmodell etwas zu pushen aber nicht praxistauglich. Wer würde 700 Euro für einen 5800X bezahlen nur wegen 10-15% in Gaming?
Bei TSMC 5nm und 3nm skaliert SRAM extrem schlecht im Vergleich zu Logikteilen. Ich gehe davon aus, dass langfristig eben einfach noch etwas mehr Transistoren investiert werden um die IPC zu steigern. Aber kurzfristig ist etwas Cache drauf zu klatschen natürlich für das Spitzenmodell eine sinnvolle Variante.

Was man bei der ganzen Diskussion auch nicht vergessen darf:
Der große Vorteil von DDR5 ist nicht, dass es mehr Bandbreite gibt, sondern dass DDR5 2 Speicherkanäle pro Riegel bietet. In einer Situation wo 4+ Kerne bei einem Dual Channel Interface auf Daten vom RAM warten können hier 90ns Speicherlatenz mit 4 Kanälen theoretisch schneller sein als 50ns mit 2 Kanälen.

Bedeutet Gear 4, dass der IMC nur mit 1/4 des Speichertakts läuft, also 1,6Ghz bei 6400MT/s? Dann sind die Speicherlatenzen kein Wunder. Dass man DDR5 mit 1:1 laufen lassen kann, war natürlich utopisch, aber 1:2 hätte ich bis 8400MT/s dann doch erwartet (mit OC), denn 4200MT/s haben doch schon die Coffee Lakes mit 1:1 geschafft.

Du erwartest also, dass eine CPU eine Übertaktung von 75% ermöglicht. Das nenne ich einmal selbstbewusst :D

Ich vermute DDR4-4800 wird mit Gear2 laufen, in der Praxis werden DDR5-6400 mit Gear2 vermutlich auch oft laufen, aber vermutlich nicht immer und nicht mit jedem Modell (getestet wurde hier ein 12600K).

Gibt es da Hinweise auf besonders großen Cache bei Raptor Lake? Ich hatte was von 36 MiB gelesen, was jetzt nicht so viel mehr ist als ADL. Man bedenke, dass eine Verdopplung der Cachegröße die Missrate gerade mal um Faktor 1,41 (Quadratwurzel 2) reduziert. Da muss schon richtig was erhöht werden an Cache, damit man da was merkt. Die Erhöhung auf 36 MiB kommt sicherlich z.T auch daher dass mehr Cores verbaut sind.

Momentan hat jeder Cove Kern und jeder Mont-Cluster (4 Kerne) je 3 MB.
Alderlake: 8 Cove + 2*4 Mont => 10*3MB=30MB
Wenn das so bleibt, kommt man mit 8 Cove + 16 Monts tatsächlich auf die 36MB L3, die robbitop erwähnte.

Also derzeit gibt es pro Big Core 2.5MB L3 und pro Little Core 1.25MB.

Beispiel:
12600K: 6*2.5+4*1.25 = 20MB
12700K: 8*2.5+4*1.25 = 25MB
12900K: 8*2.5+8*1.25 = 30MB

Das macht auch durchaus Sinn, denn unter voller Multithreaded Last muss ein Big Core per SMT 2 Threads bedienen, während ein Little Core nur 1 Thread bedienen muss. Die Performance pro Thread ist im Durchschnitt annähernd gleich.

Die Missrate hängt davon ab, wie das Zugriffsmuster der jeweiligen Threads aussieht, was durch die durchschnittlich aktuell verwendete Datenmenge bestimmt wird, die wiederrum stark vom Algorithmus abhängt.
Wenn dies annäherungsweise der Quadratwurzel entspricht ist dies purer Zufall.

Eine nicht unrealistische Variante ist dann wohl, dass der vermeintliche "Game-Cache" nur ein plumper PR-Bluff ist. :freak:

VCache von AMD? Denn Intel hat sicher nicht von einem "Game-Cache" von Raptor Lake gesprochen. Alles was wir über Raptor Lake wissen sind Leaks.
Alder Lake hat den L3 Cache der Big Cores lediglich um 25% pro Kern erhöht. Der Großteil der Erhöhung kommt daher, dass es eben mehr Kerne gibt.

ja, aber für was steht der gaming cache?ich meine, selbst nur deutlich mehr cache wäre ja schon etwas gutes. und 6mb wären nicht genug dafür. so oder so. man müsste den l3 schon verdoppeln, sodas man etwas mehr performance erhält.

Den L3 zu verdoppeln macht keinen Sinn. Das macht AMD aus Prestigegründen bei ihren Topmodellen, da sie vor Zen4 so schnell keinen Big Core aus dem Ärmel zaubern können um das Gamingsegment nicht wieder zu verlieren, da das im Moment das Kerngeschäft im Desktop ist.

Was man bei der ganzen Diskussion beachten sollte:
90% der Software kann man in 2 Kategorien einteilen:
.) Singlethreaded Softwared: Diese wurde nicht parallelisiert und nutzt nur einen Thread. Diesen steht der gesamte L3 Cache (z.B. bei einem 5800X 32MB) zur Verfügung. Eine Vergrößerung bringt hier nicht besonders viel.
.) Multithreaded Software: Diese wurde parallelisiert und stellt in der Regel genauso viele Threads wie virtuelle Kerne zur Verfügung. Dies bedeutet, dass sich alle Threads den L3 Cache teilen z.B. (z.B. bei einem 5800X 32MB auf 16 Threads aufgeteilt = 2MB pro Kern). Dies bedeutet zwar öfters Cache Misses. Ein Cache Miss führt jedoch nur zu sehr geringem Performanceverlust, da ein Kern durch SMT 2 Threads parallel ausführt. Wartet Thread1 auf den RAM, so kann währenddessen Thread2 den Kern zur Gänze nutzen.

Spiele sind ein Sonderphänomen, das es nur sehr selten gibt. Auf der einen Seite hat man schlecht parallelisierbare Algorithmen und nur eine Laufzeit von ca. 10ms pro Frame, auf der anderen Seite jedoch extrem viel Optimierungswillen der Entwickler und mehrere unabhängige parallele Aufgaben (z.B. KI, Kollisionserkennung, Verarbeitung von draw commands usw.), was zu der Sondersituation führt, dass in der Regel 6 Threads parallel laufen aber eben nicht mehr.
Dies hat bei unserem 5800X zur Folge, dass pro Kern ca. 5MB L3 zur Verfügung stehen. Damit gibt es immer noch genug Cache Misses, jedoch gibt es keinen 2. Thread, der während einem RAM Zugriff abgearbeitet werden könnte, da eben mehr Kerne als Threads zur Verfügung stehen.

Bei aktuellen Intel 6 Kernern sind es dann nur mehr 2MB L3 pro Thread, was das Ganze noch verschärft.

Dieses Phänomen lässt sich sehr gut an dem Video von HWU erkennen:
https://www.youtube.com/watch?v=Cbyl4q3QFYA

Während bei 6+ aktivierten Kernen der Unterschied zwischen den verschiedenen L3 Größen noch sehr hoch war, war dieser mit 4 Kernen deuitlich geringer trotz reiner CPU Limitierung. Selbst der kleine Quad mit 6MB L3 (1MB pro Thread) konnte noch gut mithalten, obwohl er auch noch weniger Takt hatte.

Das bedeutet:
Die zusätzlichen 64MB L3 Cache pro Compute Die bringen zwar bei Spielen um die 10-15%, bei so gut wie allen anderen Anwendungen wird es jedoch deutlich weniger sein. Ich rechner hier mit bestenfalls 5% über den Schnitt aller anderen Anwendungen.
Auf der anderen Seite benötigen die 64MB L3 Cache pro Compute Die so viel Fläche wie ein gesamter Compute Die mit 8 Kernen + 32MB L3.
Oder mit anderen Worten: Ein 5800X mit 64MB zusätzlichem VCache ist in der Produktion so teuer wie ein 5950X denn nur weil AMD die Dies schön stapeln kann ändert das ja nichts an den Kosten.

Alder Lake 12600K mit 6+4 wird vermutlich auf dem Level eines 5800X mit VCache liegen und um die 250-300 Euro kosten.
Das würde für AMD bedeuten, dass sie dieselbe Menge Silizium, die sie vorher um 700 Euro als 5950X verkauft haben nur mehr um bestenfalls 300 Euro verkaufen können. Das wird kaum passieren.

Meine Prognose:
.) Den VCache wird es nur für den 5950X bzw. 5900X geben als Prestigeobjekt, um zu zeigen "wir können immer noch wenn wir wollen". Was das kosten wird bzw. wieviele davon lieferbar sein werden wird man sehen.

.) Der 5950X ohne VCache wird der Konkurrent zum 12900K werden und vermutlich ähnlich viel kosten. Hier wird AMD dieselbe Strategie wie noch zu Zen+ Zeiten verfolgen: Weniger Leistung pro Kern, jedoch eben 4 Kerne mehr (wenn mit 2 Little Cores als 1 Big Core ansieht).
Oder wenn man sieht es von der Seite: Intel hat 8 Big + 8 Little, AMD hat 16 Medium Cores.

.) Der 5900X wird wohl als 12700K Konkurrenz um die 400 Euro aufgestellt werden, wo er vermutlich auch noch einigermaßen mitkommen wird.

.) Der 5800X wird wohl etwas unter dem 12600K angesiedelt sein. Hier könnte AMD darauf setzen, dass ihre Plattform mit DDR4 einfach etwas günstiger ist.

.) Der 5600X wird dann gegen den 12600 (6+0) positioniert und wird dank besserer Energieeffizienz beim 65W Bereich auch noch ganz gut mithalten können.

aufkrawall

2021-09-14, 23:07:19

Derzeit benutzen Spiele in der Regel nur 6 Threads d.h. es sind die 6 Big Cores ausgelastet.

Das kannst du für viele AAA-Spiele mittlerweile locker mal zwei rechnen.

Der_Korken

2021-09-14, 23:25:12

Das, was hier gebencht wurde war ein 12600K. Der hab einen SC Turbo von 4.9GHz.
Der Multi Core Turbo liegt bei 4.5GHz.

[...]

Ich komme hier also auf:
L1: 4 Takte / 4.6 = 0.87ns (aufgerundet auf 0.9ns)
L2: 12 Takte / 4.6 = 2.609ns (abgerundet auf 2.6ns)
L3: 55 Takte / 4.6 = 11.956ns (aufgerundet auf 12ns)

Zum Vergleich mein 9900K mit AIDA64 gemessen:
L1: 1ns
L2: 2.9ns
L3: 13.4ns

Wenn man bedenkt, dass alle 3 Caches vergrößert wurden finde ich das eigentlich voll OK.

"Voll OK" ist gut. Wenn Intel die Caches so stark vergrößern kann ohne Latenz zu verlieren, wäre das schon fast zu schön um wahr zu sein. Vergleich mit Skylake:
L1: 32kB, 8-way, 64B/clock -> 48kB, 12-way, 128B/clock*
L2: 256kB, 8-way -> 1280kB, 20-way

Und das soll mit gleichen Latenzen und gleichem Takt gehen? Dann muss Intel bei Sunny und Willow Cove aber ziemlichen Mist gebaut haben, dass sie beim L1 5 Takte gebraucht haben und beim L2 14 Takte (bzw. 13 Takte aber dafür nur 512kB).

(* Die 128B/clock ergeben sich aus 3,4TB/s geteilt durch 6 geteilt durch 4,5Ghz. Keine Ahnung wie die little cores da reingerechnet werden, aber da es nur 4 sind, würden 64B/clock nicht reichen um auf 3,4TB/s zu kommen (zumal fraglich ist, ob die little cores überhaupt so breite Caches haben))

Das würde ich nicht so sehen. Ein Zen3 Compute Die besteht schon zur Hälfte aus L3 Cache, der VCache von AMD ist ein nettes Experiment um das Spitzenmodell etwas zu pushen aber nicht praxistauglich. Wer würde 700 Euro für einen 5800X bezahlen nur wegen 10-15% in Gaming?

700€ ist übertrieben. Die kleine 36mm²-Funzel kostet keine 300€ extra. Nur weil AMD 160mm² 7nm-Silizium für 800€ in Form des 5950X verkauft, heißt das nicht, dass das der Preis ist, den AMD für Chips ansetzen muss, um profitabel zu sein. Aber es stimmt schon, dass einfach sinnlos die Chipfläche für mehr Cache hochzuballern nicht die Lösung sein kann. Ein 5800X-Chiplet mit V-Cache besteht zu 70% aus L3-Cache und zu 30% aus Kern+L2. Wäre das IO noch mit drauf, wären es wohl nur ca. 15-20% :freak:. Erstaunlich wie kompakt Intel ihren IO-Teil hinbekommt.

Du erwartest also, dass eine CPU eine Übertaktung von 75% ermöglicht. Das nenne ich einmal selbstbewusst :D

Ich vermute DDR4-4800 wird mit Gear2 laufen, in der Praxis werden DDR5-6400 mit Gear2 vermutlich auch oft laufen, aber vermutlich nicht immer und nicht mit jedem Modell (getestet wurde hier ein 12600K).

Mir war nicht bewusst, dass Rocket Lake schon bei 3,6Ghz schlapp macht bei Gear 1. Coffee Lake und Comet Lake haben quasi >4Ghz mit "Gear 1" geschafft. Davon ausgehend hätte ich gedacht man legt den IMC auf 6,4Ghz@Gear 2 aus und für OC dann 8,4Ghz.

Also derzeit gibt es pro Big Core 2.5MB L3 und pro Little Core 1.25MB.

Beispiel:
12600K: 6*2.5+4*1.25 = 20MB
12700K: 8*2.5+4*1.25 = 25MB
12900K: 8*2.5+8*1.25 = 30MB

Das sieht auf den Folien anders aus. Hier hat jeder L3-Slice 3MB und je 4 kleine Kerne teilen hängen an einem Slice. Also 8*3+8*0,75 = 30MB für den 12900K. Willow Cove hatte auch schon diese 3MB/Slice. Es wird also eher so sein wie Gipsel sagt.

Das bedeutet:
Die zusätzlichen 64MB L3 Cache pro Compute Die bringen zwar bei Spielen um die 10-15%, bei so gut wie allen anderen Anwendungen wird es jedoch deutlich weniger sein. Ich rechner hier mit bestenfalls 5% über den Schnitt aller anderen Anwendungen.
Auf der anderen Seite benötigen die 64MB L3 Cache pro Compute Die so viel Fläche wie ein gesamter Compute Die mit 8 Kernen + 32MB L3.
Oder mit anderen Worten: Ein 5800X mit 64MB zusätzlichem VCache ist in der Produktion so teuer wie ein 5950X denn nur weil AMD die Dies schön stapeln kann ändert das ja nichts an den Kosten.

Das stimmt so nicht. Der zusätzliche Cache ist nur 36mm² groß laut AMD, weil sie den Die dafür speziell auf SRAM optimieren konnten und einige Verwaltungslogik bereits im Base-Die vorhanden ist. Der Rest der Fläche wird mit zwei Silizium-Dummies ausgefüllt.

Bei der allgemeinen Performance des Caches hast du vermutlich Recht. Der riesige L3 wird imho etwas überschätzt. Interessant wird das erst, wenn man Cores und Caches in unterschiedlichen Verfahren herstellt und eher versucht die Latenzen durch räumlich kompaktere Caches zu drücken (DANN sähe ich 1,25MB L2 schon eher bei 12 Takten Latenz, wenn man den stackt ;))

iamthebear

2021-09-14, 23:43:09

ich habs gaming cache genannt, der orginal wortlaut steht hier.

https://www.notebookcheck.net/fileadmin/Notebooks/News/_nc3/Intel_Raptor_Lake_VideoCardz_6.jpg

Ich habe jetzt einmal die ursprüngliche Quelle gesucht:
https://www.youtube.com/watch?v=NQNd0_X6Ca8

Von "Gaming Cache" habe ich da nichts gehört. Das mit den größeren L2 Caches wurde hier nur beiläufig erwähnt.

Ich vermute, hier wird etwas zu viel hinein interpretiert und Raptor Lake.
Ich denke Raptor Lake liefert einfach nur die vollen 2MB L2 pro Kern, die Alder Lake Server auch haben werden.

Was den L3 angeht, so wird mit Raptor Lake anders gewichtet
Alder Lake: 2.5MB pro Big Core, 1.25MB pro Little Core
Raptor Lake: 3MB pro Big Core, 0.75MB pro Little Core

robbitop

2021-09-15, 08:22:08

Die Missrate hängt davon ab, wie das Zugriffsmuster der jeweiligen Threads aussieht, was durch die durchschnittlich aktuell verwendete Datenmenge bestimmt wird, die wiederrum stark vom Algorithmus abhängt.
Wenn dies annäherungsweise der Quadratwurzel entspricht ist dies purer Zufall.
Die absolute Missrate nicht - aber die Reduktion dieser mit einer Verdopplung des Caches. Es ist auch nur eine Daumenregel die sicherlich in der Praxis variabel ist. In erster Näherung passt das in der Regel ganz gut. Dr. Ian Cutress und andere Leute wie Hans de Vries nutzen diese sicherlich nicht ohne Grund. ;)

"Voll OK" ist gut. Wenn Intel die Caches so stark vergrößern kann ohne Latenz zu verlieren, wäre das schon fast zu schön um wahr zu sein. Vergleich mit Skylake:
L1: 32kB, 8-way, 64B/clock -> 48kB, 12-way, 128B/clock*
L2: 256kB, 8-way -> 1280kB, 20-way

Man darf beim Vergleich mit SKL aber auch nicht vergessen, dass der Core bereits in Computermaßstäben uralt ist. 6 Jahre. Da darf es in 2021 gern auch mal eine massive Steigerung geben. Es hätte bereits in 2017 und in 2019 neue Tocks geben müssen. 2021 dann wieder einer.

Man kann eher sagen: endlich geht es im gewohnten Tempo bei beiden IHVs wieder voran. Man holt halt die verpassten Sprünge jetzt sukzessive auf.

HOT

2021-09-15, 08:42:16

[...]

Das würde ich nicht so sehen. Ein Zen3 Compute Die besteht schon zur Hälfte aus L3 Cache, der VCache von AMD ist ein nettes Experiment um das Spitzenmodell etwas zu pushen aber nicht praxistauglich. Wer würde 700 Euro für einen 5800X bezahlen nur wegen 10-15% in Gaming?
Bei TSMC 5nm und 3nm skaliert SRAM extrem schlecht im Vergleich zu Logikteilen. Ich gehe davon aus, dass langfristig eben einfach noch etwas mehr Transistoren investiert werden um die IPC zu steigern. Aber kurzfristig ist etwas Cache drauf zu klatschen natürlich für das Spitzenmodell eine sinnvolle Variante.

[...]

Die Dinger gehen in die Massenproduktion und werden die schnellen Desktop-CPUs, Threadripper und MilanX befeuern. Von wegen nicht massentauglich... :freak:. Und ein Experiment ist das auch nicht, das werden alle künfigen AMD-Generationen machen.

Und der Nutzen von Cache ist brutal im Gaming. Das sieht man schon an Broadwell sehr gut - und dessen Cache ist echt lahm hier gegen.

[...]
Man darf beim Vergleich mit SKL aber auch nicht vergessen, dass der Core bereits in Computermaßstäben uralt ist. 6 Jahre. Da darf es in 2021 gern auch mal eine massive Steigerung geben. Es hätte bereits in 2017 und in 2019 neue Tocks geben müssen. 2021 dann wieder einer.

Man kann eher sagen: endlich geht es im gewohnten Tempo bei beiden IHVs wieder voran. Man holt halt die verpassten Sprünge jetzt sukzessive auf.

Na ja, hier darf man nicht übertreiben. Außerdem hat Intel ja nicht aufgehört zu entwickeln. In Tiger Lake wird schon alles eingeflossen sein, was man zu dem Zeitpunkt weiterentwickelt hatte, ich zweifel diesen "Nachholeffekt" mal ziemlich an.
Auch in der Fertigung gibts den nicht. Intel will in 25 Produkte mit 20A schaffen, TSMC wird hier immer noch früher sein. Und ob das bei Intel klappt ist Theorie vs. Praxis.

Relic

2021-09-15, 09:07:23

Die kleine 36mm²-Funzel kostet keine 300€ extra. Nur weil AMD 160mm² 7nm-Silizium für 800€ in Form des 5950X verkauft, heißt das nicht, dass das der Preis ist, den AMD für Chips ansetzen muss, um profitabel zu sein.

Wenn die Zahlen zu den Waferkosten stimmen, die hier zuletzt rumgeschwirrt sind, kostet der 64MB 36mm² Cache Die ~7$. Da kommt dann natürlich noch Packaging drauf.

amdfanuwe

2021-09-15, 09:25:06

Wenn die Zahlen zu den Waferkosten stimmen, die hier zuletzt rumgeschwirrt sind, kostet der 64MB 36mm² Cache Die ~7$. Da kommt dann natürlich noch Packaging drauf.
+ höhere Gewinnspanne + höhere Händlermarge + Mehrwertsteuer
Also ~$10 höhere Herstellungskosten und $50 - $100 höherer Verkaufspreis.
Gutes Geschäft für AMD wenn die zusätzlichen Kosten wirklich so niedrig sind.

Der_Korken

2021-09-15, 10:49:48

Man darf beim Vergleich mit SKL aber auch nicht vergessen, dass der Core bereits in Computermaßstäben uralt ist. 6 Jahre. Da darf es in 2021 gern auch mal eine massive Steigerung geben. Es hätte bereits in 2017 und in 2019 neue Tocks geben müssen. 2021 dann wieder einer.

Latenzen unterliegen da imho nicht der allgemeinen Steigerung, die man sonst sieht. Das Problem dürften die Signallaufzeiten sein, die es nicht erlauben die Latenz einfach kleiner zu machen. Die Kombination aus 32kB/4 Takte und 256kB/12 Takte gibt es seit Nehalem 2008 und ist bis Comet Lake nicht geändert worden. Core 2 und Phenom hatten sogar einen L1 mit 3 Takten Latenz und ersterer hat mit 15 Takten Latenz satte 6MB L2 angesprochen. Dagegen erscheinen heutige L2-Größen geradezu mickrig bzw. L3-Caches saulangsam. Da haben Taktbarkeit und Bandbreite historisch eher zu Regressionen als zu Verbesserungen geführt - selbst zu einer Zeit als durch Fertigungssprünge auch immer noch gut was an Takt bei rumgekommen ist. Für mich scheint die Cache-Situation ähnlich wie beim DRAM zu sein, wo die absoluten Latenzen seit Ewigkeiten stagnieren. Deswegen finde ich die 3D-Caches so super interessant, weil damit echte Fortschritte in dem Bereich möglich sind.

davidzo

2021-09-15, 12:00:56

Wer würde 700 Euro für einen 5800X bezahlen nur wegen 10-15% in Gaming?

Ehh, Gamer?
Die Differenz zwischen Core i5 und i7 ist auch selten mehr als 15% in games. Und trotzdem zahlen Gamer gerne das doppelte und mehr für 10% mehr FPS.

90% der Software kann man in 2 Kategorien einteilen:
.) Singlethreaded Softwared: Diese wurde nicht parallelisiert und nutzt nur einen Thread. Diesen steht der gesamte L3 Cache (z.B. bei einem 5800X 32MB) zur Verfügung. Eine Vergrößerung bringt hier nicht besonders viel.
.) Multithreaded Software: Diese wurde parallelisiert und stellt in der Regel genauso viele Threads wie virtuelle Kerne zur Verfügung. Dies bedeutet, dass sich alle Threads den L3 Cache teilen z.B. (z.B. bei einem 5800X 32MB auf 16 Threads aufgeteilt = 2MB pro Kern). Dies bedeutet zwar öfters Cache Misses. Ein Cache Miss führt jedoch nur zu sehr geringem Performanceverlust, da ein Kern durch SMT 2 Threads parallel ausführt. Wartet Thread1 auf den RAM, so kann währenddessen Thread2 den Kern zur Gänze nutzen.

Spiele sind ein Sonderphänomen, das es nur sehr selten gibt.

Schön wärs.
Spiele sind zum Einen bei weitem nicht selten, zum Anderen hat eigentlich jede Software diverse Task die ein Bottleneck darstelen und trotzd theoretischer parallelisierbarkeit noch seriell laufen. So simpel in "hier singlethreaded" "da multithreaded" kann man das nicht darstellen. In der Regel sind nur wenige performancekritische Funktionen in einer anwendung überhaupt parallelisiert, der Rest der Einfachheit halber seriell. Und je nach Nutzungsszenario stößt man durchaus häufiger an diese Grenzen. Viele Renderer könne zum beispiel vorbereitende Prozesse wie Lightmaps, LOD, Photon map nicht multithreaded backen, was selten ein problem ist da das meistens nur ein Bruchteil des Renderingsprozesses ist. Aber bei bestimmten Light- und Materialsettings können solche seriellen Prozesse schon mal länger dauern als das eigentliche Path tracing.

Auf der anderen Seite benötigen die 64MB L3 Cache pro Compute Die so viel Fläche wie ein gesamter Compute Die mit 8 Kernen + 32MB L3.
Oder mit anderen Worten: Ein 5800X mit 64MB zusätzlichem VCache ist in der Produktion so teuer wie ein 5950X denn nur weil AMD die Dies schön stapeln kann ändert das ja nichts an den Kosten.

Das ist ziemlicher Unsinn, da SRAM viel weniger process Layer benötigt als ein Compute Die und dementsprechend viel weniger processing steps. Außerdem sind die Masken billig und die Yields perfekt. Es hat schon eine Grund wieso SRAM immer das erste ist was in einem neuen Prozess zum laufen gebracht wird. hat.

Nur weil AMD 160mm² 7nm-Silizium für 800€ in Form des 5950X verkauft, heißt das nicht, dass das der Preis ist, den AMD für Chips ansetzen muss, um profitabel zu sein.

Richtiger Hinweis. Die Preise sind aktuell nur aufgrund der hohen Nachfrage noch so hoch. Zen1 und Zen2 waren 12 Monate nach Launch schon deutlich billiger.
Btw, bei CPUs ist die Marge mehr durch die Kosten der Architekturdesign und Entwicklung bestimmt, weniger durch die tatsächliche Fertigung.
Bei GPUs wäre die Marge sonst ja negativ, wenn da 250mm 7nm Chips für unter 300$ über den Tisch gehen (5600xt-5700).

BlacKi

2021-09-15, 12:41:01

naja, zen3 ist jetzt schon um einiges billiger als noch vor 9 monaten. da sich zen4 noch zeit lässt, und bereits fast ein jahr vergangen sind, wundert es nicht, das die preise noch hoch sind. denn auch intel braucht noch zeit.

wenn man adl mit dem 6+4 und dem 8+4 bringt, dann werden alle current gen cpus im preis fallen(müssen). oder die nachfrage killt das^^

Thunder99

2021-09-15, 13:01:45

Wieso sollte man den Preis senken, wenn man die bessere CPU hat und alles gekauft wird?

BlacKi

2021-09-15, 13:06:38

weil man bald kaum noch welche verkaufen wird.

dildo4u

2021-09-15, 13:17:12

Nachfrage wird steigen wenn Intel brauchbare GPUs liefert, das kann sich bis Mitte 2022 ziehen.

HOT

2021-09-15, 13:36:44

naja, zen3 ist jetzt schon um einiges billiger als noch vor 9 monaten. da sich zen4 noch zeit lässt, und bereits fast ein jahr vergangen sind, wundert es nicht, das die preise noch hoch sind. denn auch intel braucht noch zeit.

wenn man adl mit dem 6+4 und dem 8+4 bringt, dann werden alle current gen cpus im preis fallen(müssen). oder die nachfrage killt das^^
Nö, wieso. Die K-Modelle werden erst mal eh kaum verfügbar sein und AMD wird sicherlich zur CES die komplette 6000er-Serie bringen. 6800X, 69x0X sicherlich mit X3D und 6400-6700X als "Refresh" (die CPUs gabs ja auch vorher nicht). Das ist doch also nach wie vor ein konkurrenzfähiges Portfolio, das die Preise wohl halten wird. Da man die Vermeer-Dies ja alle verwertet, gehen die 5000er sicherlich auch sofort in Rente. Die UVP hat sich übrigens nicht verändert, das sind rein die Händlermargen, die da in Richtung 0 gehen (wie immer bei CPUs eigentlich). Wenn beide Firmen bis zur nächsten Gen ihre UVPs beibehalten, werden sich die Preise wieder auf EK-Preise einpendeln und das wars dann. Da wird nix wirklich billiger.

BlacKi

2021-09-15, 13:49:53

und warum werden die händler margen ausgenutzt? weil die nachfrage sinkt. die leute erwarten intel.

komplette 6000er serie? ja, aber nur die 12-16 kerner werden wirklich neu sein. 5000er in rente? es werden immernoch so ziemlich alle modelle von amd verkauft.

wenn der 12600k wirklich so günstig kommt, wird der 5600x/6600x nicht wirklich seine 260€ halten. konkurenzfähig? ja, aber P/L und zwar gemessen am 12600k.

Piefkee

2021-09-15, 15:28:49

und warum werden die händler margen ausgenutzt? weil die nachfrage sinkt. die leute erwarten intel.

komplette 6000er serie? ja, aber nur die 12-16 kerner werden wirklich neu sein. 5000er in rente? es werden immernoch so ziemlich alle modelle von amd verkauft.

wenn der 12600k wirklich so günstig kommt, wird der 5600x/6600x nicht wirklich seine 260€ halten. konkurenzfähig? ja, aber P/L und zwar gemessen am 12600k.

Wait for Review...macht aktuell null Sinn von P/L zu sprechen wenn beide Sachen nicht bekannt sind.

HOT

2021-09-15, 15:35:48

und warum werden die händler margen ausgenutzt? weil die nachfrage sinkt. die leute erwarten intel.

komplette 6000er serie? ja, aber nur die 12-16 kerner werden wirklich neu sein. 5000er in rente? es werden immernoch so ziemlich alle modelle von amd verkauft.

wenn der 12600k wirklich so günstig kommt, wird der 5600x/6600x nicht wirklich seine 260€ halten. konkurenzfähig? ja, aber P/L und zwar gemessen am 12600k.

So ein Unsinn :freak:. Es gibt schlicht mehr Angebot im Retail. Das war immer der Fall bei CPUs. Die letzten 2 Jahre haben schon einige Ausnahmen erlebt, das ist alles. Da Intel die Preise so niedrig angesetzt hat, dürfte man eher nicht so irre viel Mehrleistung erwarten.

vinacis_vivids

2021-09-15, 16:32:20

weil man bald kaum noch welche verkaufen wird.

;D

Die Weltbevölkerung nimmt zu, falls du es noch nicht bemerkt hast.
Aktuell sind wir bei knapp 8 Milliarden. Prognose für 2050 ~ 9,74 Milliarden.

Es gibt also mehr Nutzer von PC`s als je zuvor und in Zukunft noch mehr.

Ex3cut3r

2021-09-15, 16:55:13

Und warum werden die Händlermargen ausgenutzt? weil die Nachfrage sinkt. die Leute erwarten intel.

Komplette 6000er Serie? ja, aber nur die 12-16 Kerner werden wirklich neu sein. 5000er in Rente? es werden immer noch so ziemlich alle Modelle von AMD verkauft.

Wenn der 12600k wirklich so günstig kommt, wird der 5600x/6600x nicht wirklich seine 260€ halten. Konkurrenzfähig? ja, aber P/L und zwar gemessen am 12600k.

Sehe ich ehrlich gesagt auch so. Der Preis des 5600X ist eine Frechheit, spätestens seit dem 11400f. Aber muss AMD wissen, wer bei einem Neukauf sich für 6/12 Kerner (als Gamer) entscheidet, der greift zum 11400f. AMD macht mit den Preisen der Ryzen 5000, Intel bewusst oder unbewusst?! stärker. Hätte man die Dinger mit Zen 2 Preisen ausgestattet, hätte sich der 11400f immens weniger verkauft. Und damit hätte Intel weniger Marktgewinn auf Dauer, aber, nein, AMD meint Sie müssen Bonzen Preise einführen und Sie wie Nvidia den ganzen Lebenszyklus auch halten. Lächerlich.

aufkrawall

2021-09-15, 17:03:01

Bei den aktuellen Marktpreisen würd ich mittlerweile den 5600X dem 11400F vorziehen, da die Preisdifferenz zu gering ist und RAM-OC mit 1:1 IMC mit dem Ryzen besser geht. Mit 3800 RAM ist Zen 3 schneller und es wird bei MT-Taks nicht gesoffen als gäbe es kein Morgen mehr.
Als der 11400F raus kam, war die Preisdifferenz halt noch locker dreimal so hoch im Vergleich zu heute.

BlacKi

2021-09-15, 17:05:52

;D

Die Weltbevölkerung nimmt zu, falls du es noch nicht bemerkt hast.
Aktuell sind wir bei knapp 8 Milliarden. Prognose für 2050 ~ 9,74 Milliarden.

Es gibt also mehr Nutzer von PC`s als je zuvor und in Zukunft noch mehr.
in bezug auf die alten preise vor dem aktuellen preisverfall. immer im kontext sehen. bei 325€ konnte der 5600x nicht bleiben und bei 260€ wird er auch nicht bleiben können, wenn man die cpu auch weiterhin in hohen stückzahlen verkaufen will.

Relic

2021-09-15, 17:22:03

Sehe ich ehrlich gesagt auch so. Der Preis des 5600X ist eine Frechheit, spätestens seit dem 11400f. Aber muss AMD wissen, wer bei einem Neukauf sich für 6/12 Kerner (als Gamer) entscheidet, der greift zum 11400f. AMD macht mit den Preisen der Ryzen 5000, Intel bewusst oder unbewusst?! stärker. Hätte man die Dinger mit Zen 2 Preisen ausgestattet, hätte sich der 11400f immens weniger verkauft. Und damit hätte Intel weniger Marktgewinn auf Dauer, aber, nein, AMD meint Sie müssen Bonzen Preise einführen und Sie wie Nvidia den ganzen Lebenszyklus auch halten. Lächerlich.

Wenn man alles verkauft, was man produzieren kann, wäre es dumm Preise zu senken.

iamthebear

2021-09-16, 00:41:06

Das kannst du für viele AAA-Spiele mittlerweile locker mal zwei rechnen.

Und die wären? Mir würde aktuell nur Total War einfallen Cyberpunkt 2077 kommt auf 10 Threads aber das nur wenn RT aktiviert ist. Sonst ist 8 das Maximum.

Man darf hier nicht den Fehler machen und Intel CPUs vergleichen. Diese bieten mit mehr Kernen auch mehr Cache, was gerne einmal den Eindruck erweckt, dass zusätzliche Kerne auch ausgelastet sind.

"Voll OK" ist gut. Wenn Intel die Caches so stark vergrößern kann ohne Latenz zu verlieren, wäre das schon fast zu schön um wahr zu sein. Vergleich mit Skylake:
L1: 32kB, 8-way, 64B/clock -> 48kB, 12-way, 128B/clock*
L2: 256kB, 8-way -> 1280kB, 20-way

Und das soll mit gleichen Latenzen und gleichem Takt gehen? Dann muss Intel bei Sunny und Willow Cove aber ziemlichen Mist gebaut haben, dass sie beim L1 5 Takte gebraucht haben und beim L2 14 Takte (bzw. 13 Takte aber dafür nur 512kB).

Also ich wäre ehrlich gesagt auch davon ausgegangen, dass sich die Latenz beim L2 erhöht.

[/quote](* Die 128B/clock ergeben sich aus 3,4TB/s geteilt durch 6 geteilt durch 4,5Ghz. Keine Ahnung wie die little cores da reingerechnet werden, aber da es nur 4 sind, würden 64B/clock nicht reichen um auf 3,4TB/s zu kommen (zumal fraglich ist, ob die little cores überhaupt so breite Caches haben))[/quote]

Die Frage ist wie relevant die Breite von L1 Cache in der Praxis überhaupt ist, da auf diesen in der Regel ja immer komplett wahllos auf Datentypen mit <=8 Byte (64Bit) zugegriffen wird.

700€ ist übertrieben. Die kleine 36mm²-Funzel kostet keine 300€ extra. Nur weil AMD 160mm² 7nm-Silizium für 800€ in Form des 5950X verkauft, heißt das nicht, dass das der Preis ist, den AMD für Chips ansetzen muss, um profitabel zu sein. Aber es stimmt schon, dass einfach sinnlos die Chipfläche für mehr Cache hochzuballern nicht die Lösung sein kann. Ein 5800X-Chiplet mit V-Cache besteht zu 70% aus L3-Cache und zu 30% aus Kern+L2. Wäre das IO noch mit drauf, wären es wohl nur ca. 15-20% :freak:. Erstaunlich wie kompakt Intel ihren IO-Teil hinbekommt.

AMD klebt doch 2 zusätzliche Lagen drauf also 2x36mm² = 72mm²
Ein Compute Die hat ca. 80mm²

Dass es für AMD natürlich keine 700 Euro kostet einen 5950X zu bauen ist natürlich klar. Aber man kann es auch umgekehrt sehen:
Statt einen 5800X mit VCache um 300 Euro als Konkurrent zum 12600K zu verkaufen könnte AMD gleich einen 5950X mit ca. derselben Fläche verkaufen und könne dafür sicher mehr verlangen.

Mir war nicht bewusst, dass Rocket Lake schon bei 3,6Ghz schlapp macht bei Gear 1. Coffee Lake und Comet Lake haben quasi >4Ghz mit "Gear 1" geschafft. Davon ausgehend hätte ich gedacht man legt den IMC auf 6,4Ghz@Gear 2 aus und für OC dann 8,4Ghz.

Wo dem Memory Controller bei Alder Lake tatsächlich schlapp machenn wird das wird man sehen.
Wenn man nach den offiziell spezifizierten Taktraten geht, so war bei Coffee Lake bei 2666 Schluss.

Das sieht auf den Folien anders aus. Hier hat jeder L3-Slice 3MB und je 4 kleine Kerne teilen hängen an einem Slice. Also 8*3+8*0,75 = 30MB für den 12900K. Willow Cove hatte auch schon diese 3MB/Slice. Es wird also eher so sein wie Gipsel sagt.

Die L3 Mengen für den 12600K, 12700K und 12900K sind ja schon bekannt.

Das stimmt so nicht. Der zusätzliche Cache ist nur 36mm² groß laut AMD, weil sie den Die dafür speziell auf SRAM optimieren konnten und einige Verwaltungslogik bereits im Base-Die vorhanden ist. Der Rest der Fläche wird mit zwei Silizium-Dummies ausgefüllt.

Wie oben schon erwähnt kommen ja 2 Lagen Cache dazu. Es liegen also gesamt 3 Lagen übereinander.

Bei der allgemeinen Performance des Caches hast du vermutlich Recht. Der riesige L3 wird imho etwas überschätzt. Interessant wird das erst, wenn man Cores und Caches in unterschiedlichen Verfahren herstellt und eher versucht die Latenzen durch räumlich kompaktere Caches zu drücken (DANN sähe ich 1,25MB L2 schon eher bei 12 Takten Latenz, wenn man den stackt ;))

Der L2 bei Alder Lake HAT 12 Takte. Das war ein 12600K, der mit 4,6GHz gelaufen ist, kein 12900K mit 5,3GHz.

Die absolute Missrate nicht - aber die Reduktion dieser mit einer Verdopplung des Caches. Es ist auch nur eine Daumenregel die sicherlich in der Praxis variabel ist. In erster Näherung passt das in der Regel ganz gut. Dr. Ian Cutress und andere Leute wie Hans de Vries nutzen diese sicherlich nicht ohne Grund. ;)

OK ich nehme alles zurück. Als grobe Faustregel macht es durchaus Sinn.
Deine Kalkulation mit Wurzel(2) klang so als hättest du das irgendwie aus dessen Seitenlänge abgeleitet :D

Man darf beim Vergleich mit SKL aber auch nicht vergessen, dass der Core bereits in Computermaßstäben uralt ist. 6 Jahre. Da darf es in 2021 gern auch mal eine massive Steigerung geben. Es hätte bereits in 2017 und in 2019 neue Tocks geben müssen. 2021 dann wieder einer.

Das mag sein allerdings darf man auch nicht vergessen, dass die Latenzen ja in Takten angegeben werden und Skylake ja über die Jahre von 4,2 bis auf 5,3GHz hochgeprügelt wurde, womit die absoluten Latenzen ja deutlich niedriger wurden.

Die Dinger gehen in die Massenproduktion und werden die schnellen Desktop-CPUs, Threadripper und MilanX befeuern. Von wegen nicht massentauglich... :freak:. Und ein Experiment ist das auch nicht, das werden alle künfigen AMD-Generationen machen.

Threadripper und MilanX ist nicht unbedingt das, was ich als "Masse" ansehen würde. Und 64 Core CPUs muss man auch mit Cache vollpumpen wenn sie vernünftig laufen sollen. Die Alternative wären dann Boards 12 Speicherkanälen.

Und der Nutzen von Cache ist brutal im Gaming. Das sieht man schon an Broadwell sehr gut - und dessen Cache ist echt lahm hier gegen.

Wir reden hier über 128MB zusätzlich zu einer CPU, die selbst nur 6MB (1MB pro Gaming Thread) hat.
AMD bringt 64MB zusätzlich für eine CPU, die bereits 32MB (5.33MB pro Gaming Thread) hat.

Ab gesehen davon: AMD hat das ja schon gebencht und kam auf 10-15% beim Gaming. Ich gehe jetzt einmal nicht davon aus, dass AMD sich hier künstlich schlecht gerechnet hat.

Latenzen unterliegen da imho nicht der allgemeinen Steigerung, die man sonst sieht. Das Problem dürften die Signallaufzeiten sein, die es nicht erlauben die Latenz einfach kleiner zu machen. Die Kombination aus 32kB/4 Takte und 256kB/12 Takte gibt es seit Nehalem 2008 und ist bis Comet Lake nicht geändert worden. Core 2 und Phenom hatten sogar einen L1 mit 3 Takten Latenz und ersterer hat mit 15 Takten Latenz satte 6MB L2 angesprochen. Dagegen erscheinen heutige L2-Größen geradezu mickrig bzw. L3-Caches saulangsam.

Die relativen Latenzen sind gleich geblieben (4 Takte)
Die absoluten Latenzen sind um 35% gefallen, da der Takt um 53% gestiegen ist.

Beim RAM sind die absoluten Latenzen seit SD RAM Zeiten annähernd konstant.
Die relativen Latenzen im Vergleich zum CPU bzw. RAM Takt werden jedoch immer höher.

Dass das Ganze durch die Signallaufzeiten limitiert ist denke ich nicht. 1 Takt bei 5GHz entspricht ca. einer Distanz von 20mm hin und zurück. Ein Kern hat einen Durchmesser von ca. 2mm und der L2 sitzt gleich nebenbei.

Ich habe immer vermutet, dass bei einer Verdopplung eines Caches bei sonst gleicher Architektur immer 1 Takt dazu kommt, da dann beim Suchen der Speicherposition eine Iteration mehr notwendig ist: Aufwand proportional zu log2(n)

Ehh, Gamer?
Die Differenz zwischen Core i5 und i7 ist auch selten mehr als 15% in games. Und trotzdem zahlen Gamer gerne das doppelte und mehr für 10% mehr FPS.

Derzeit sind es 10% mehr auf Grund des größeren L3.
Die meisten gehen jedoch davon aus, dass Spiele nicht ewig bei 6 Threads bleiben werden, sondern in 2-3 Jahren bei 8+ Threads sein werden. Mit reinen DirectX 12 Engines kann das eventuell noch deutlich schneller gehen und dann sind es eber 30%+ d.h.
Ein 8700K war bei Release auch nur 10% schneller als ein 7700K. Heute kann man mit den 8700K jedoch noch bequem Spielen, mit einem 7700K wird es aber schon eng.

Schön wärs.
Spiele sind zum Einen bei weitem nicht selten, zum Anderen hat eigentlich jede Software diverse Task die ein Bottleneck darstelen und trotzd theoretischer parallelisierbarkeit noch seriell laufen. So simpel in "hier singlethreaded" "da multithreaded" kann man das nicht darstellen. In der Regel sind nur wenige performancekritische Funktionen in einer anwendung überhaupt parallelisiert, der Rest der Einfachheit halber seriell. Und je nach Nutzungsszenario stößt man durchaus häufiger an diese Grenzen. Viele Renderer könne zum beispiel vorbereitende Prozesse wie Lightmaps, LOD, Photon map nicht multithreaded backen, was selten ein problem ist da das meistens nur ein Bruchteil des Renderingsprozesses ist. Aber bei bestimmten Light- und Materialsettings können solche seriellen Prozesse schon mal länger dauern als das eigentliche Path tracing.

Ich muss dich enttäuschen:
Spiele sind selten und haben am großen Markt da draußen vielleicht eine Relevant von maximal 5-10%. Das kommt einem nur in einem Hardwareforum so vor, dass die Welt nur aus Gaming und Multimediaanwendungen besteht :D
Was dein Beispiel mit dem Rendern angeht:
Das hat vermutlich eine Relevanz von 1% :D

In den allermeisten Fällen wird eine Aufgabe, die sich nicht sehr einfach beliebig parallelisieren lässt gar nicht erst angerührt und man hat keine 20 Aufgaben parallel, wo es ein Bottleneck geben kann, sondern genau 1 nach der anderen.

Das ist ziemlicher Unsinn, da SRAM viel weniger process Layer benötigt als ein Compute Die und dementsprechend viel weniger processing steps. Außerdem sind die Masken billig und die Yields perfekt. Es hat schon eine Grund wieso SRAM immer das erste ist was in einem neuen Prozess zum laufen gebracht wird. hat.

Das ist eine interessante Überlegung, die jedoch erst relevant wird falls auf dem entsprechenden Wafer nur ausschließlich SRAM gefertigt wird. Bei einem Mischchip aus Hälfte Logik/SRAM richtet sich der Aufwand (Anzahl der Layer) nach dem aufwändigsten Teil.

Wenn das aber wirklich so einen großen Unterschied machen sollte:
Warum baut AMD dann nicht einfach einen 40mm² Compute und stapelt da dann den billigen Cache oben drauf? Thermisch sollte der L3 ja nicht viel Unterschied machen.

Yields sollten bei 80mm² Chips kein Thema sein. Gibt es einen Defekt wird der betroffene Kern/Cacheteil deaktiviert und es wird ein 5600X/5900X.

Richtiger Hinweis. Die Preise sind aktuell nur aufgrund der hohen Nachfrage noch so hoch. Zen1 und Zen2 waren 12 Monate nach Launch schon deutlich billiger.
Btw, bei CPUs ist die Marge mehr durch die Kosten der Architekturdesign und Entwicklung bestimmt, weniger durch die tatsächliche Fertigung.
Bei GPUs wäre die Marge sonst ja negativ, wenn da 250mm 7nm Chips für unter 300$ über den Tisch gehen (5600xt-5700).

Grundsätzlich stimmt das natürlich aber derzeit hat AMD einfach eine begrenzte Menge an Wafern aber einen für ihre Verhältnisse endlos großen Markt, so sie alle Produkte verkaufen können, die sie herstellen können und hier wird einfach die Strategie gefahren so viel Umsatz wie möglich pro Fläche zu generieren und hier läuft der 5800X und 5950X einfach am Besten.

Intel auf der anderen Seite hat mit 80-90% Marktanteil so viel Umsatz, dass der Forschungsaufwand relativ gut auf viele Produkte verteilt. Dafür erwarten sich die Aktionäre auch eine andere Dividende während bei AMD die Aktionäre schon damit zufrieden gestellt werden können, dass die Marktanteile gestiegen sind (= höherer Aktienwert) ohne rote Zahlen zu schreiben.

aufkrawall

2021-09-16, 01:05:41

Und die wären? Mir würde aktuell nur Total War einfallen Cyberpunkt 2077 kommt auf 10 Threads aber das nur wenn RT aktiviert ist. Sonst ist 8 das Maximum.

SotTR erzeugt mühelos konstant ~90% CPU-Gesamtlast über 12 Threads hinweg, wenn man komplett CPU-limitiert ist und in Richtung vieler NPCs etc. (also dem Worst Case für die Performance) schaut.
Bin mir auch ziemlich sicher, in Cyberpunk und WD Legion von HT bei 6C deutlich profitieren zu können, so wie sich der Performance-Gewinn gegenüber dem 6700K darstellt. Wird in BFV genau so sein.
Gibt zwar immer wieder Schrott wie Anno, aber generell leben wir nicht mehr im DX11-Zeitalter, wo der mit Drawcalls beladene Thread alles ausbremst. Auch mit 8C wird man mit HT in besagten Spielen noch mitunter deutlich profitieren können. Dieses "Spiele lassen sich schlecht parallelisieren" hält sich leider nervig zäh...

HOT

2021-09-16, 01:14:30

in bezug auf die alten preise vor dem aktuellen preisverfall. immer im kontext sehen. bei 325€ konnte der 5600x nicht bleiben und bei 260€ wird er auch nicht bleiben können, wenn man die cpu auch weiterhin in hohen stückzahlen verkaufen will.

Der bleibt so lange da wo er ist bis die UVP und damit der Einkaufspreis gesenkt wird. Setzt man dann annähernd alle CPUs ab ist es sinnlos für den Hersteller irgendwelche Preise zu senken. Einzig für den Händler ist das blöd, dass CPUs immer im Überangebot verfügbar sind aber verdienen dann halt an den anderen Komponenten. Das ist schon seit ewigen Zeiten so. Wir hatten 20/21 ne Sondersituation wegen Lieferengpässen bei beiden Fertigern aber das ist bei CPUs halt vorbei, jetzt bekommen die Kunden halt wieder EK-Preise wie früher nachdem die Produkte verfügbar im Markt sind. Preise muss man halt verstehen. AMD wird bei der 6k Generation eben auch genug Vermeer produzieren und auch Zen2 Produktionen umwandeln, ausserdem ist Rembrandt N6, dann kann man auch die unteren Märkte endlich mit Zen3 beliefern. Wenn Intel bisher profitiert hat ist das toll aber AMD gings hierbei nur um eigenen Profit und den haben die so echt maximiert trotz der Liefersituation.

Die paar mehr X3D-Dies werden mMn auch kaum ins Gewicht fallen; zwar braucht man da auch viele von, aber im Vergleich zu den OEM-Massenprodukten ist das dennoch recht überschaubar (natürlich ist das trotzdem massenproduktion).

robbitop

2021-09-16, 07:57:57

Na ja, hier darf man nicht übertreiben. Außerdem hat Intel ja nicht aufgehört zu entwickeln. In Tiger Lake wird schon alles eingeflossen sein, was man zu dem Zeitpunkt weiterentwickelt hatte, ich zweifel diesen "Nachholeffekt" mal ziemlich an.
Naja TGL ist ja "nur" ein SC refresh. Der Core ist zwar noch nicht super alt - aber auch alles andere als Taufrisch.
Wie gesagt ADL ist 2021 und SKL ist 2015 - das muss man im Kopf behalten und mit genau diesem Gedanken sollte man das Design auch bewerten.

Latenzen unterliegen da imho nicht der allgemeinen Steigerung, die man sonst sieht. Das Problem dürften die Signallaufzeiten sein, die es nicht erlauben die Latenz einfach kleiner zu machen. Die Kombination aus 32kB/4 Takte und 256kB/12 Takte gibt es seit Nehalem 2008 und ist bis Comet Lake nicht geändert worden. Core 2 und Phenom hatten sogar einen L1 mit 3 Takten Latenz und ersterer hat mit 15 Takten Latenz satte 6MB L2 angesprochen. Dagegen erscheinen heutige L2-Größen geradezu mickrig bzw. L3-Caches saulangsam. Da haben Taktbarkeit und Bandbreite historisch eher zu Regressionen als zu Verbesserungen geführt - selbst zu einer Zeit als durch Fertigungssprünge auch immer noch gut was an Takt bei rumgekommen ist. Für mich scheint die Cache-Situation ähnlich wie beim DRAM zu sein, wo die absoluten Latenzen seit Ewigkeiten stagnieren. Deswegen finde ich die 3D-Caches so super interessant, weil damit echte Fortschritte in dem Bereich möglich sind.
Ja das Thema skaliert nicht so gut. Aber es waren halt auch 6 Jahre. Da gibt es nicht nur Innovationen in der Fertigungstechnik sondern auch im Design.

Man schaue sich:

1.) IBMs virtual L3 System an.
2.) Apples A13/M1 an:

Apples A13 hat mit 128 kiB L1D 3 cycles und 4 MiB L2 14 Cycles.
ADL hat gerade mal 48 kiB L1D und 4 cycles und 1,25 MiB L2 by auch 14 Cycles.
Ja der A13 ist kein 5 GHz Prozessor - aber für etwas Perspektive sorgt er schon. Ich kann mir gut vorstellen, dass mit den Desktop CPUs/SoCs auch deutlich höhere Taktraten kommen werden und keine extremen Regressionen in den Cycles. (ist aber nur eine Annahme)

Gewisse Fortschritte sind zu erwarten und kommen in manchen Bereichen dann zwar selten aber in ganz netten Sprüngen. Wie gesagt man sieht auch an anderen Mitspielern - die Zeit (und damit die Innovation) bleibt nicht stehen.

CrazyIvan

2021-09-16, 08:03:01

@iamthebear
Nein,aktuell will AMD nur eine Cache-Lage draufkleben. Das Die hat eine doppelt so hohe Cache-Packdichte wie das CCD selbst. Man kann aber bis zu drei Cache Dies stapeln, wenn erforderlich (IIRC).
Zu Deiner Frage, warum man dann nicht einfach nur noch 40qmm CCDs herstellt: Zum einen benötigt man Grundfläche für I/O und Stromversorgung des CCD selbst. Und zum anderen benötigt man natürlich Fläche für die TSVs, um das Cache-Die zu kontaktieren. Es gibt also eine Begrenzung nach unten.

robbitop

2021-09-16, 08:35:37

Das mag sein allerdings darf man auch nicht vergessen, dass die Latenzen ja in Takten angegeben werden und Skylake ja über die Jahre von 4,2 bis auf 5,3GHz hochgeprügelt wurde, womit die absoluten Latenzen ja deutlich niedriger wurden.
Was weniger über das Design aussagt und viel mehr über Intels Fähigkeit der Fertigung (in diesem Falle Übermenschliches aus der 14 nm Fertigung zu quetschen). :)

Wir reden hier über 128MB zusätzlich zu einer CPU, die selbst nur 6MB (1MB pro Gaming Thread) hat.
AMD bringt 64MB zusätzlich für eine CPU, die bereits 32MB (5.33MB pro Gaming Thread) hat.
Der VCache hat 10 ns und der externe eDRAM hat 40 ns. Das ist schon ein ziemlich starker Unterschied. :)

Ich muss dich enttäuschen:
Spiele sind selten und haben am großen Markt da draußen vielleicht eine Relevant von maximal 5-10%. Das kommt einem nur in einem Hardwareforum so vor, dass die Welt nur aus Gaming und Multimediaanwendungen besteht :D

Man sollte den Gaming Markt nicht unterschätzen. 15% der PCs (Desktop + Notebooks) sind explizite Gaming PCs in 2020. On top kommt noch der reine Verkauf von Hardware.
Und der Anteil an Gaming nimmt immer weiter zu - der Gamingmarkt wächst ziemlich stark. Es gibt neben Gaming sicherlich noch viele viele andere Anwendungen, die nur endlich parallelisierbar sind und es entsprechende Threads gibt, die den Bottleneck bilden. Aber nicht alle davon sind Hitrate getrieben. Allerdings sicherlich ein paar davon.

Als Indikator nehme ich das 5775c review und schaue wo er sich besonders gut gegen Haswell schlägt (insbesondere seine deutlich geringe Frequenz mit einbezogen):
https://www.anandtech.com/show/9320/intel-broadwell-review-i7-5775c-i5-5675c/4

1. Filecompression: WinRAR
2. Webbrowsing: Kraken + Octane
3. Agisoft Photoscan – 2D to 3D Image Manipulation

Das sind aus den Nicht-Gaming Bereich 3/14 Benchmarks. Wie repräsentativ das über alle Anwendungsbereiche ist, sei mal dahin gestellt. :)

Lass es 10-15% der Anwendungen sein, wo viel Cache was bringt.
Entsprechend hast du 15% Gamer und 15% Non Gamer vom Markt, denen das etwas bringt (Gaming stark wachsend). Entsprechend würde ich Cache nicht klein reden.

Die Innovationen bei IBM (virtual L3 Cache und in den vorherigen Designs sehr schnelle eDRAM L3 Caches), AMD und ARM zeigen schon, dass Cache immer wichtiger wird. Aus Spaß wird in das Thema nicht so viel Geld und Zeit investiert.

mocad_tom

2021-09-16, 08:46:30

@robbitop
>Apples A13 hat mit 128 kiB L1D 3 cycles und 4 MiB L2 14 Cycles.
Das klingt ja fast wie das Datenblatt vom Conroe.
Nur mussten spätere Caches dann viel besser mit Virtualization umgehen können.

Dylan Patel schreibt, Apple A15 hätte jetzt eine MMU, die auch Nested Virt könne:
https://twitter.com/dylan522p/status/1438313107231842304
Riesige Menge an zusätzlichen Transistoren - aber kaum IPC gewinn.
(und wahrscheinlich auch der Grund, warum auf M1 nie Win11 laufen wird)
Die haben da in den A14 Designs und beim M1 ordentlich was versemmelt.

Ich kann aber auch nicht rausfinden, wo er das aufgeschnappt hat.

fondness

2021-09-16, 09:07:48

Man schaue sich:

1.) IBMs virtual L3 System an.
2.) Apples A13/M1 an:

Apples A13 hat mit 128 kiB L1D 3 cycles und 4 MiB L2 14 Cycles.
ADL hat gerade mal 48 kiB L1D und 4 cycles und 1,25 MiB L2 by auch 14 Cycles.
Ja der A13 ist kein 5 GHz Prozessor - aber für etwas Perspektive sorgt er schon. Ich kann mir gut vorstellen, dass mit den Desktop CPUs/SoCs auch deutlich höhere Taktraten kommen werden und keine extremen Regressionen in den Cycles. (ist aber nur eine Annahme)

Du gibts dir die Antwort eigentlich eh selbst. Latenz in ns zählt, nicht in Cycles (bei Designs mit derart unterschiedlichen Taktraten). Zumal bei deinem Beispiel Intel natürlich die niedrigere Latenz hätte selbst beim L1 Cache bei 5Ghz vs 3Ghz. Deshalb wird Apple natürlich auch die IPC nicht halten können, wenn sie die Taktraten anheben.

robbitop

2021-09-16, 09:20:53

Naja am Ende ist es aber auch das Verhältnis aus Cycletime und Hitrate was zählt. Apples Vorsprung in Cachesize ist wesentlich größer als der resultierende Nachteil aus der Latenz in ns durch die 3 vs 5 GHz. Zumal wir gar nicht wissen, ob und wie sehr deren Caches den maximalen Takt limitieren. Abwarten was die Desktop M2s bringen. In den letzten 10 Jahren hat Apple schon so viele Überraschungen gebracht.

HOT

2021-09-16, 10:15:07

Genau das bewiegt ja IBM zu dem Cache-Schritt, den Ian Cutress hier beschrieben hat:

https://www.anandtech.com/show/16924/did-ibm-just-preview-the-future-of-caches

Anstatt ausufernde Cache-Hierarchien einen riesigen, privaten L2$ mit einer Art virtueller Kohärenz.

w0mbat

2021-09-16, 10:48:30

AMD klebt doch 2 zusätzliche Lagen drauf also 2x36mm² = 72mm²
Ein Compute Die hat ca. 80mm²

Da bist du falsch informiert, es kommt nur ein stacked cache die oben drauf, die 2x36mm2 beziehen sich auf eine CPU mit zwei CCDs.

fondness

2021-09-16, 10:50:37

Naja am Ende ist es aber auch das Verhältnis aus Cycletime und Hitrate was zählt. Apples Vorsprung in Cachesize ist wesentlich größer als der resultierende Nachteil aus der Latenz in ns durch die 3 vs 5 GHz. Zumal wir gar nicht wissen, ob und wie sehr deren Caches den maximalen Takt limitieren. Abwarten was die Desktop M2s bringen. In den letzten 10 Jahren hat Apple schon so viele Überraschungen gebracht.

Apples größerer L1 resultiert aus einer Besonderheit der ARM ISA, der L2 ist zwar größer, aber dafür fehlt ein L3 völlig. Die Caches limitieren zwangsläufig die maximalen Taktraten, ansonsten würde Apple Latenz herschenken.

Apples Vorsprung in Cachesize ist wesentlich größer als der resultierende Nachteil aus der Latenz in ns durch die 3 vs 5 GHz.

Wie rechnest du das? :)

CrazyIvan

2021-09-16, 11:40:29

Dafür hat Apple aber einen LLC/SLC. Da will AMD mit dem heutigen L3 womöglich erst noch hin - zumindest bei monolithischen APUs.

smalM

2021-09-16, 11:44:37

Apples größerer L1 resultiert aus einer Besonderheit der ARM ISA, der L2 ist zwar größer, aber dafür fehlt ein L3 völlig. Die Caches limitieren zwangsläufig die maximalen Taktraten, ansonsten würde Apple Latenz herschenken.

Die Größe der L1-Caches ist eine Designentscheidung von Apple, sie hat mit der ARM ISA nichts zu tun und hängt am Taktniveau.
Das Fehlen eines L3 ist bei Apple ist ebenfalls eine Design-Entscheidung, Arm selbst hat den L3 mit DynamIQ eingeführt.
Statt L3 ist der gesharte L2 aus der Sicht eines Cores in 3 Zonen unterteilt, die unterschiedlich schnell angesprochen werden können. Beim M1 sind es 4MB in 17 Takten, weitere 4 MB in 20 Takten und die restlichen 4MB in irgendwas um die 80 Takten.

Es steht nicht zu erwarten, daß Apple sich einem Hoch-Takt-Design zuwenden wird, wozu auch. Der Takt wird zunehmen, so wie es die Prozeß-Entwicklung von TSMC zuläßt, aber den Vorteil bei der Transistordichte der HD-Prozesse wird Apple eher nicht aufgeben wollen.

Dafür hat Apple aber einen LLC/SLC.
Der Cache heißt SLC, weil er genau das ist.
Die CPUs greifen nach einem L2-Cache-Miss direkt ins RAM.

Der_Korken

2021-09-16, 12:05:01

Die Frage ist wie relevant die Breite von L1 Cache in der Praxis überhaupt ist, da auf diesen in der Regel ja immer komplett wahllos auf Datentypen mit <=8 Byte (64Bit) zugegriffen wird.

Profitieren tut man von diesen hohen Cache-Bandbreiten natürlich nur bei AVX Workloads. Trotzdem muss man die zusätzlichen Leitungen irgendwo dazwischen packen, deswegen ging ich davon aus, dass breitere Caches komplexer (und somit langsamer) sind. Vielleicht kann Intel ja trotzdem 4 Takte Latenz halten, ich fände es nur merkwürdig, dass sie es bei den vorigen Coves nicht geschafft haben.

AMD klebt doch 2 zusätzliche Lagen drauf also 2x36mm² = 72mm²
Ein Compute Die hat ca. 80mm²

Wurde schon gesagt: Ist nur eine Lage. https://www.computerbase.de/2021-06/3d-v-cache-technology-amd-stapelt-l3-cache-bei-ryzen-auf-192-mbyte/

Ganz unten, das letzte Update vom 1. Juni

Die L3 Mengen für den 12600K, 12700K und 12900K sind ja schon bekannt.

Ja, aber nach deiner Beschreibung müsste der Cache aus 12 Slices bestehen, einer pro P-Kern und einer pro zwei E-Kerne. Da aber je vier E-Kerne geometrisch den Platz eines P-Kerns einnehmen, ist das sehr unwahrscheinlich und es werden beim 12700K eher 10 von 10 Slices aktiv sein, aber nur 2,5 von 3MB pro Slice.

Das mag sein allerdings darf man auch nicht vergessen, dass die Latenzen ja in Takten angegeben werden und Skylake ja über die Jahre von 4,2 bis auf 5,3GHz hochgeprügelt wurde, womit die absoluten Latenzen ja deutlich niedriger wurden.

Ein bisschen was wurde die absolute Latenz verringert, aber nicht so sehr, dass ich da noch große Sprünge erwarte. Man sollte vor allem auch immer gleiche Bins vergleichen: Gute Skylakes gingen bis 4,5Ghz, während beim Comet Lake die 5,3Ghz selbst OC-mäßig schon das Ende der Fahnenstange sind. Das ist also nochmal weniger Differenz und gut erklärbar durch die vielen 14nm-Iterationen, bei denen Intel zum Ende hin afaik sogar Packdichte geopfert hat, um mehr Takt rausbekommen zu können. Für neuere Fertigungen muss das nichts heißen, denn Sandy Bridge hat 32kB @4 Takte @4,5Ghz auch in 32nm schon ermöglicht (die Top-Bins lagen sogar eher bei 4,6-4,7Ghz).

Edit:

Die Größe der L1-Caches ist eine Designentscheidung von Apple, sie hat mit der ARM ISA nichts zu tun und hängt am Taktniveau.

Das Thema kam schon mal irgendwo auf: Die 8-way 32kB L1-Caches von Intel und AMD sind der üblichen Pagesize von 4kB geschuldet. Würde man den Cache vergrößern, könnte er nicht mehr als virtually-indexed-physically-tagged organisiert werden, weil er zu viele Cache-Sets hätte (mehr als 2^6). Deswegen "musste" Intel die Assoziatitvät auf 12fach hochziehen, um 48kB zu erreichen. Bei ARM - so wurde mir gesagt - sind es 16kB Pagesize, d.h. man kann vier mal so viele Cache-Sets und trotzdem VIPT haben. Ergo 128kB 8-way.

Wuge

2021-09-16, 12:36:59

Ist es beim L1D nicht so, dass ein Cache-Hit egal ob 3, 4 oder 5 Takte quasi nie etwas kostet (im Vergleich zu einem Registerzugriff), da in der Pipeline zwischen Adressierung und Execution eh schon mindestens so viele Stufen liegen, dass L1-Daten zum Zeitpunkt der Ausführung immer zur Verfügung stehen?

CrazyIvan

2021-09-16, 14:06:19

Der Cache heißt SLC, weil er genau das ist.
Die CPUs greifen nach einem L2-Cache-Miss direkt ins RAM.
Siehe Seite 11 https://drive.google.com/file/d/1WrMYCZMnhsGP4o3H33ioAUKL_bjuJSPt/view?usp=drivesdk
M1 greift mit 90 Takten Latenz auf den SLC zu.
BTW wirklich sehr interessante Lektüre. Mal sehen, ob ich 350 Seiten durchhalte.

Gratzner

2021-09-16, 15:24:29

Ist es beim L1D nicht so, dass ein Cache-Hit egal ob 3, 4 oder 5 Takte quasi nie etwas kostet (im Vergleich zu einem Registerzugriff), da in der Pipeline zwischen Adressierung und Execution eh schon mindestens so viele Stufen liegen, dass L1-Daten zum Zeitpunkt der Ausführung immer zur Verfügung stehen?

Speicheradressen sind typischerweise nicht statisch, sondern müssen berechnet werden. Die 3-5 Takte kommen auf die Berechnungszeit der Adresse dann noch on-top drauf.

Das Thema kam schon mal irgendwo auf: Die 8-way 32kB L1-Caches von Intel und AMD sind der üblichen Pagesize von 4kB geschuldet. Würde man den Cache vergrößern, könnte er nicht mehr als virtually-indexed-physically-tagged organisiert werden, weil er zu viele Cache-Sets hätte (mehr als 2^6). Deswegen "musste" Intel die Assoziatitvät auf 12fach hochziehen, um 48kB zu erreichen. Bei ARM - so wurde mir gesagt - sind es 16kB Pagesize, d.h. man kann vier mal so viele Cache-Sets und trotzdem VIPT haben. Ergo 128kB 8-way.

Naja, die 4kB sind erstmal nur die kleinstmögliche page size und zwar nicht nur bei den Prozessoren von AMD/Intel, sondern auch bei den ARM-Prozessoren. Diese Prozessoren unterstützen dann noch höhere Pagesizes, sowas wie 2MiB oder gar 1GiB auf Linux Debian.

Und woher weis man, das Intel die Assoziativität wegen mehr Cache erhöht hat? Eine höhere Assoziativität erhöht auch bei gleicher Cache-Größe die Hit-Rate.

Gipsel

2021-09-16, 15:45:38

Ist es beim L1D nicht so, dass ein Cache-Hit egal ob 3, 4 oder 5 Takte quasi nie etwas kostet (im Vergleich zu einem Registerzugriff), da in der Pipeline zwischen Adressierung und Execution eh schon mindestens so viele Stufen liegen, dass L1-Daten zum Zeitpunkt der Ausführung immer zur Verfügung stehen?
Speicheradressen sind typischerweise nicht statisch, sondern müssen berechnet werden. Die 3-5 Takte kommen auf die Berechnungszeit der Adresse dann noch on-top drauf.Nicht wirklich. Die eigentliche Adressberechnung in der AGU dauert latenztechnisch nur exakt einen Takt. Und der Zugriff auf den L1-D erfolgt halt überlappt mit dem Rest des Pipelinings und die Daten kommen just-in-time zur Ausführung. Voneinander abhängige Loads aus dem L1-D (man hat z.B. [im Cache] ein Array an Offsets und lädt dann immer den nächsten Offset von der Adresse des aktuellen Offsets [das nennt man pointer chasing]) erfolgen mit der L1-D-Latenz. So mißt man die ja auch. ;)
Wenn man irgendeinen unabhängigen Load hat und die Ausführungs-Pipelines sind nicht leer und die L/S-Pipe nicht voll, dann zieht die OoOE-Logik unabhängige Loads quasi vor und man erreicht tatsächlich effektiv eine Latenz von 0 (für einen unabhängigen Datenzugriff).

OgrEGT

2021-09-16, 20:20:01

Wurde schon gesagt: Ist nur eine Lage. https://www.computerbase.de/2021-06/3d-v-cache-technology-amd-stapelt-l3-cache-bei-ryzen-auf-192-mbyte/

Ganz unten, das letzte Update vom 1. Juni

Im Artkel von heute steht doch 3fach gestapelt...?

https://www.computerbase.de/2021-09/milan-x-mit-3d-v-cache-amd-plant-cpus-der-epyc-serie-mit-768-mb-l3-cache/

Der 64 MB große zusätzliche Cache nimmt eine Grundfläche von 6 × 6 mm im CCD ein, womit er so groß wie der schon vorhandene 32 MB große L3-Cache ist. Mit seinen zwei 32-MB-Schichten ergibt sich im neuen CCD ein dreifach gestapelter L3-Cache-Baustein mit 96 MB.

Im Artikel steht aber auch das auf was du dich bezogen hast.... bin verwirrt...

Der aufgesetzte L3-Cache ist ein nativer 64-MB-Chip, er fungiert trotzdem als direkte Erweiterung des bestehenden L3-Caches im CCD, was keine Software-Anpassungen nötig macht, da er ohne Kontrollfunktionen und für alle der für die grundlegende Funktionalität benötigten Einheiten daherkommen kann. Da diese bereits vorhanden sind, kann AMD 64 MB reinen SRAM auf dem gleichen Raum wie zuvor 32 MB unterbringen. Zen 3 war bereits von Vornherein für diese Möglichkeit vorbereitet, die Entwicklung und Umsetzung mit Partner TSMC nahm mehrere Jahre in Anspruch, erklärte AMD.

Distroia

2021-09-16, 21:05:51

Im Artkel von heute steht doch 3fach gestapelt...?

https://www.computerbase.de/2021-09/milan-x-mit-3d-v-cache-amd-plant-cpus-der-epyc-serie-mit-768-mb-l3-cache/

Im Artikel steht aber auch das auf was du dich bezogen hast.... bin verwirrt...

Du hast auch Grund verwirrt zu sein, weil sich der Artikel da klar selbst widerspricht. Es sind 64 MB in einer Schicht und fertig. Das Wort "Baustein" finde ich auch ganz schön irreführend, weil man so denken könnte, die 96 MB gehören irgendwie komplett physisch zueinander (abgesehen davon, dass sie direkt übereinander sind). Wahrscheinlich wird der Artikel auch bald korrigiert werden ...

mksn7

2021-09-17, 11:22:38

Ist es beim L1D nicht so, dass ein Cache-Hit egal ob 3, 4 oder 5 Takte quasi nie etwas kostet (im Vergleich zu einem Registerzugriff), da in der Pipeline zwischen Adressierung und Execution eh schon mindestens so viele Stufen liegen, dass L1-Daten zum Zeitpunkt der Ausführung immer zur Verfügung stehen?

Ich sehe das auch so, dass diese geringen Unterschiede in der L1 Latenz sich sehr gut kompensieren lassen. Der einzige Code wo man den Unterschied wirklich sehen würde wäre eine sehr lange (länger als das reorder window) pointer chasing Kette.

Trotzdem erhöhen sich die Anforderungen an gut funktionierendes OoO ein wenig mit längerer L1 Latenz. Jeder cycle mehr an Ausführungslatenz irgendwo braucht wieder ein bisschen mehr Spekulationstiefe oder ein größeres OoO window um das zu kompensieren.

CrazyIvan

2021-09-17, 11:34:15

Exakt. Und vor allem führt es dazu, dass die Instruktion ihre Ressourcen (ROB Slot, Load/Store Register, ALU, etc.) länger gesperrt hält.

Wuge

2021-09-17, 12:47:50

Das ist klar... nur macht es an der Stelle Sinn, ggf. einen Takt zu opfern für eine höhere Hitrate. Beim L2 ist der Tradeoff unangenehmer, da dort 2 Takte mehr definitv weh tun.

Der_Korken

2021-09-17, 14:59:35

Bedeutet eine um einen Takt höhere Latenz für den L1 nicht automatisch auch einen Anstieg der L2-Latenz um einen Takt? Der L2 wird doch erst durchsucht, sobald im L1 ein miss detektiert wurde? Somit hätte der L2 bei Zen eigentlich 8 Takte und bei Willow Cove 9 Takte.

iamthebear

2021-09-18, 16:17:00

Da bist du falsch informiert, es kommt nur ein stacked cache die oben drauf, die 2x36mm2 beziehen sich auf eine CPU mit zwei CCDs.

Hhm anscheinend hast du Recht. Bitte vergesst alles was ich die letzten 3 Seiten geschrieben habe ;D
Irgendwie hat AMD es tatsächlich geschafft 64MB auf dem Platz von 32MB unter zu bekommen.

Bedeutet eine um einen Takt höhere Latenz für den L1 nicht automatisch auch einen Anstieg der L2-Latenz um einen Takt? Der L2 wird doch erst durchsucht, sobald im L1 ein miss detektiert wurde? Somit hätte der L2 bei Zen eigentlich 8 Takte und bei Willow Cove 9 Takte.

So habe ich es auch verstanden.

Allerdings stelle ich mir die Frage, ob das ganze Thema wirklich so einfach ist, wie wir uns das hier vorstellen :D

Die 7-Zip Leute haben anscheinend auch einiges zu dem ganzen Latenzthema getestet:
https://www.7-cpu.com/cpu/Skylake.html
https://www.7-cpu.com/cpu/Ice_Lake.html

Interesster Punkt:
Ice Lake scheint zwar 5 Zyklen für einen L1 Zugriff zu benötigen, greift man jedoch nicht direkt durch einen Pointer, sondern durch einen Array Zugriff darauf zu (z.B. array[i]), so brauchen Skylake und Ice Lake beide 5 Zyklen.

Kann das irgendjemand bestätigen? Wäre interessant, ob sich dies nur auf Arrayzugriffe bezieht oder auf alle Load Befehle, wo vorher zur Adresse noch ein bestimmter Wert addiert werden muss, denn das würde ich ja als den Normalfall einstufen, denn selbst der Zugriff auf normale Stackvariablen (wie das i), bedeuet ja load(Stackpointer + k)

iamthebear

2021-09-18, 16:34:01

Ich sehe das auch so, dass diese geringen Unterschiede in der L1 Latenz sich sehr gut kompensieren lassen. Der einzige Code wo man den Unterschied wirklich sehen würde wäre eine sehr lange (länger als das reorder window) pointer chasing Kette.

Trotzdem erhöhen sich die Anforderungen an gut funktionierendes OoO ein wenig mit längerer L1 Latenz. Jeder cycle mehr an Ausführungslatenz irgendwo braucht wieder ein bisschen mehr Spekulationstiefe oder ein größeres OoO window um das zu kompensieren.

Was ist wenn es im Codeteil keine Sprünge gibt, wo viel herumspekuliert werden müsste, sondern lediglich eine sequentielle Abfolge, die aber sequentiell ausgeführt werden muss. Beispiel:

index=a+b
value = array[index]

Der Schreibzugriff auf Index kann parallel im Hintergrund passieren aber aber gibt keine Möglichkeit array[index] zu laden solange a+b nicht berechnet ist.

CrazyIvan

2021-09-19, 08:38:07

Ja, das ist eine typische Datenabhängigkeit. Da kan man vielleicht je nach Größe des Arrays spekulieren, aber das kostet im Zweifel zu viel Energie.

Aber ein interessanter Weg, das teilweise zu parallelisieren ist folgender: Instruktion 2 muss gar nicht darauf warten, dass Instruktion 1 den Wert ins Register geschrieben hat. Es gibt bei den meisten modernen CPUs die Möglichkeit, derlei Ergebnisse direkt in der Pipeline rübergereicht zu bekommen, was wiederum Takte spart und damit die IPC erhöht.

Steht auch in diesem sehr informativen Paper und war mir vorher nicht bewusst: https://drive.google.com/file/d/1WrMYCZMnhsGP4o3H33ioAUKL_bjuJSPt/view?usp=drivesdk

mksn7

2021-09-19, 15:10:27

Was ist wenn es im Codeteil keine Sprünge gibt, wo viel herumspekuliert werden müsste, sondern lediglich eine sequentielle Abfolge, die aber sequentiell ausgeführt werden muss. Beispiel:

index=a+b
value = array[index]

Der Schreibzugriff auf Index kann parallel im Hintergrund passieren aber aber gibt keine Möglichkeit array[index] zu laden solange a+b nicht berechnet ist.

Angenommen da wär jetzt eine Schleife außenrum, die z.B. das a hochzählt. Während der wert array[index] aus der ersten Schleifeniteration geladen wird, hat die CPU schon den Sprung zurück zum Schleifenanfang als taken spekuliert und führt schonmal das a+b der nächsten Schleifeniteration aus. Bis der Wert dann tatsächlich da ist und die davon abhängigen Instruktionen ausgeführt wird, ist der nächste array[index] load der nächsten Schleifeniteration schon auf dem Weg. Wenn die Daten jetzt nicht aus dem L1 kommen sondern länger brauchen, hat die CPU vielleicht schon 10 Iterationen vorraus spekuliert und lädt 10 mal array[index] gleichzeitig. Wenn die CPU weit genug vorraus spekulieren kann ist die Latenz egal, und die Bandbreite zählt.

Der_Korken

2021-09-19, 15:50:01

Aber ein interessanter Weg, das teilweise zu parallelisieren ist folgender: Instruktion 2 muss gar nicht darauf warten, dass Instruktion 1 den Wert ins Register geschrieben hat. Es gibt bei den meisten modernen CPUs die Möglichkeit, derlei Ergebnisse direkt in der Pipeline rübergereicht zu bekommen, was wiederum Takte spart und damit die IPC erhöht.

Das ist aber nichts neues. Als ich vor 10 Jahren in der Rechnerstruktur-Vorlesung saß und uns das Pipelining erklärt wurde, wurden solche Abkürzungen ("bypasses") meine ich auch schon erwähnt. Natürlich kann man das sehr weit treiben, aber es erhöht auch sehr stark die Verflechtung der einzelnen Bausteine und ist bestimmt super fehleranfällig.

Ich habe mich auch schon mal gefragt, ob CPUs gezielt Branch-Instruktionen bzw. die kritischen Pfade, auf denen sich die zur Berechnung des Branches notwendigen Daten befinden, vorziehen können. Also im Sinne von: Die CPU versucht immer möglichst weit schon alle Branches nicht nur zu predicten, sondern tatsächlich zu berechnen, auch wenn sie dadurch viel Ballast an alten Instruktionen anhäuft. Die kann man ja abarbeiten, wenn es irgendwo mal stockt. Ist aber bestimmt extrem schwer, weil man das quasi in "zero time" schaffen muss, um das breite Backend heutiger CPUs abzuhängen.

mksn7

2021-09-19, 17:53:15

Das ist aber nichts neues. Als ich vor 10 Jahren in der Rechnerstruktur-Vorlesung saß und uns das Pipelining erklärt wurde, wurden solche Abkürzungen ("bypasses") meine ich auch schon erwähnt. Natürlich kann man das sehr weit treiben, aber es erhöht auch sehr stark die Verflechtung der einzelnen Bausteine und ist bestimmt super fehleranfällig.

Das stimmt, Operand Forwarding gibt es schon lange, das reduziert die effektive Latenz weil das Register schreiben und dann lesen da nicht mehr enthalten ist. In Zeiten größer werdender CPUs sind die Operand Forwarding Networks sicherlich sehr komplex.

CrazyIvan

2021-09-19, 18:04:15

Ich habe mich auch schon mal gefragt, ob CPUs gezielt Branch-Instruktionen bzw. die kritischen Pfade, auf denen sich die zur Berechnung des Branches notwendigen Daten befinden, vorziehen können. Also im Sinne von: Die CPU versucht immer möglichst weit schon alle Branches nicht nur zu predicten, sondern tatsächlich zu berechnen, auch wenn sie dadurch viel Ballast an alten Instruktionen anhäuft. Die kann man ja abarbeiten, wenn es irgendwo mal stockt. Ist aber bestimmt extrem schwer, weil man das quasi in "zero time" schaffen muss, um das breite Backend heutiger CPUs abzuhängen.
Vielleicht verstehe ich Dich falsch, aber das ist für mich das Wesen einer OoO Architektur.
Beim M1 scheint Apple auch sehr viel Wert darauf gelegt zu haben, die Architektur auf realen Code zu optimieren und nicht auf Laborbedingungen.
Ein Beispiel: In der Retire-Stage können pro Takt 64 Instructions aus dem ROB retired werden. Das zeigt deutlich, dass Apple nicht auf einen steten Fluss von 8 Instruktionen pro Takt abzielt. Vielmehr will man den Apparat auch dann möglichst lang unter Feuer halten, wenn an der Spitze des ROB eine blockierende Instruktion ist (bspw. Zugriff auf den RAM). Wenn die weg ist, will man schnellstmöglich auch die nachgelagerten Instruktionen rausbekommen, um die jeweiligen Ressourcen wieder frei zu geben.

Der_Korken

2021-09-19, 20:43:35

Vielleicht verstehe ich Dich falsch, aber das ist für mich das Wesen einer OoO Architektur.

Nicht ganz. Was ich meine, geht eigentlich noch weiter: Stell dir vor du hast 20 Instruktionen vor dir, die alle unabhängig voneinander ausgeführt werden können. Danach kommt ein Branch, der nicht von den 20 vorigen Operationen abhängt. Hinter dem Branch (d.h. das was semantisch nach dem Branch ausgeführt werden muss) kommen wieder 20 Operationen und danach wieder ein Branch, für den aus der zweiten Gruppe aber Instruktionen 5, 13 und 17 abgearbeitet sein müssen.

Jetzt könnte man einfach vorne anfangen und greedy immer die nächste ausführbare Operation einsammeln und schedulen. Dann würde man aber irgendwann in den Branch laufen, müsste eine Sprungvorhersage machen und kann die zweite 20er-Gruppe erstmal nur spekulativ ausführen. Wenn die Vorhersage stimmt, ist das egal, aber wenn nicht, dann verliert man Performance.

Es wäre hier eigentlich schlauer gewesen, die Auswertung des ersten Branches vorzuziehen und sobald man die Sprungadresse kennt, auch dort möglichst tief reinzulesen. Dann hätte man den zweiten Branch gesehen und welche Instruktionen (5, 13 und 17) er benötigt. Man würde also auch hier genau diese drei Instruktionen so schnell wie möglich abarbeiten (auch wenn der erste 20er Block noch gar nicht fertig ist), damit man den zweiten Branch möglichst schnell passieren kann und auch da wieder möglichst tief (bis zum nächsten Branch) lesen kann. Ich weiß, dass 20 unabhängige Instruktionen nicht der Durchschnittsfall ist, aber ich wollte nur illustrieren, was ich mit meiner Idee meine.

Algorithmisch ist das kein schweres Problem, aber das ganze muss für dutzende Instruktionen in ein oder zwei Taktzyklen durchanalysiert und ein optimaler Ausführungsplan erstellt werden. Vielleicht ist aber auch das schon ein längst gelöstes Problem, deswegen frage ich ja^^

Wuge

2021-09-20, 09:46:55

... oder man treibt es gleich wie bei Netburst und führt sogar Berechnungen mit spekulierten Ergebnissen noch nicht ausgeführter Operationen bzw. nicht verfügbaren Operanden aus und überprüft im Nachgang ob es verwertbar ist ;DDD Kostet halt bissl Energie.

CrazyIvan

2021-09-20, 13:30:58

Hatte man dergleichen nicht auch mit Itanium getrieben? Man merkt schon deutlich, dass sich die Ansätze in den letzten Jahren stark verändert haben.

BlacKi

2021-09-20, 21:24:02

erste AotS benchmarks zeigen den 12900k 20% vor den schnellsten einträgen. schnellste cpu im benchmark highscore. https://www.ashesofthesingularity.com/benchmark#/benchmark-result/4281bdfa-09ab-4e82-82bf-57ca781a02a9
liste mit gleicher grafikkarte, api und auflösung.
https://www.ashesofthesingularity.com/benchmark#/?filters=%7B%22gpu%22%3A%22NVIDIA%20GeForce%20RTX%203080%22,%22cpu%22%3Anull,%22 api%22%3A%22DirectX%2012%22,%22preset%22%3Anull,%22resolution%22%3A%221920%20x%2 01080%22,%22offset%22%3A0,%22search%22%3Anull,%22personaId%22%3Anull,%22sort%22% 3A%22score%22,%22direction%22%3A%22desc%22,%22benchmarkVersionId%22%3A5509,%22us eVersionInequality%22%3Atrue%7D

einfach mal ca 20% schneller als alle übertakteten rekorde bisheriger cpus^^ I LIKE!^^

iamthebear

2021-09-20, 21:50:28

... oder man treibt es gleich wie bei Netburst und führt sogar Berechnungen mit spekulierten Ergebnissen noch nicht ausgeführter Operationen bzw. nicht verfügbaren Operanden aus und überprüft im Nachgang ob es verwertbar ist ;DDD Kostet halt bissl Energie.

Tja mit einer 31 stufigen Pipeline wie bei Prescott war das anscheinend auch dringend notwendig :freak:

Nicht ganz. Was ich meine, geht eigentlich noch weiter: Stell dir vor du hast 20 Instruktionen vor dir, die alle unabhängig voneinander ausgeführt werden können. Danach kommt ein Branch, der nicht von den 20 vorigen Operationen abhängt. Hinter dem Branch (d.h. das was semantisch nach dem Branch ausgeführt werden muss) kommen wieder 20 Operationen und danach wieder ein Branch, für den aus der zweiten Gruppe aber Instruktionen 5, 13 und 17 abgearbeitet sein müssen.

Jetzt könnte man einfach vorne anfangen und greedy immer die nächste ausführbare Operation einsammeln und schedulen. Dann würde man aber irgendwann in den Branch laufen, müsste eine Sprungvorhersage machen und kann die zweite 20er-Gruppe erstmal nur spekulativ ausführen. Wenn die Vorhersage stimmt, ist das egal, aber wenn nicht, dann verliert man Performance.

Es wäre hier eigentlich schlauer gewesen, die Auswertung des ersten Branches vorzuziehen und sobald man die Sprungadresse kennt, auch dort möglichst tief reinzulesen. Dann hätte man den zweiten Branch gesehen und welche Instruktionen (5, 13 und 17) er benötigt. Man würde also auch hier genau diese drei Instruktionen so schnell wie möglich abarbeiten (auch wenn der erste 20er Block noch gar nicht fertig ist), damit man den zweiten Branch möglichst schnell passieren kann und auch da wieder möglichst tief (bis zum nächsten Branch) lesen kann. Ich weiß, dass 20 unabhängige Instruktionen nicht der Durchschnittsfall ist, aber ich wollte nur illustrieren, was ich mit meiner Idee meine.

Algorithmisch ist das kein schweres Problem, aber das ganze muss für dutzende Instruktionen in ein oder zwei Taktzyklen durchanalysiert und ein optimaler Ausführungsplan erstellt werden. Vielleicht ist aber auch das schon ein längst gelöstes Problem, deswegen frage ich ja^^

Theoretisch machbar wäre es sicher nur wie stellt man mit vertretbarem Aufwand fest, dass der Branch nicht von den vorhergehenden Anweisungen abhängt?

Angenommen man hat vorher Anweisungen in der Form:
array1[i+1] = array2[i];

Und dann man hat eine klassiche Bedingung in der Form:
if(person->alter >18)
//OK
else
//zu jung

array[i+1] kann in Assemblercode jede x beliebige Adresse sein.
Der Pointer auf person is auch irgendeine Adresse
Woher kann die CPU sagen, dass sich diese nicht überlappen?

Das Ganze könnte bestenfalls spekulativ erfolgen, nur das bedeutet, dass die Bedingung 2 Mal ausgewertet werden muss. Ob es nicht sinnvoller ist sich den ganzen Overhead zu sparen und beim 1. Schleifendurchlauf einfach beide Branches weiter zu verfolgen statt sich sinnlos mit einer Bedinung aufzuhalten, die man später sowieso noch einmal endgültig prüfen muss.

Ramius

2021-09-21, 01:10:22

wie stellt man mit vertretbarem Aufwand fest, dass der Branch nicht von den vorhergehenden Anweisungen abhängt?

Indem man einen Abhängigkeitsgraphen aufbaut.

Woher kann die CPU sagen, dass sich diese nicht überlappen?

Dass diese nicht überlappen kann die CPU nicht sagen. Interessiert diese auch nicht.

HOT

2021-09-21, 09:05:29

erste AotS benchmarks zeigen den 12900k 20% vor den schnellsten einträgen. schnellste cpu im benchmark highscore. https://www.ashesofthesingularity.com/benchmark#/benchmark-result/4281bdfa-09ab-4e82-82bf-57ca781a02a9
liste mit gleicher grafikkarte, api und auflösung.
https://www.ashesofthesingularity.com/benchmark#/?filters=%7B%22gpu%22%3A%22NVIDIA%20GeForce%20RTX%203080%22,%22cpu%22%3Anull,%22 api%22%3A%22DirectX%2012%22,%22preset%22%3Anull,%22resolution%22%3A%221920%20x%2 01080%22,%22offset%22%3A0,%22search%22%3Anull,%22personaId%22%3Anull,%22sort%22% 3A%22score%22,%22direction%22%3A%22desc%22,%22benchmarkVersionId%22%3A5509,%22us eVersionInequality%22%3Atrue%7D

einfach mal ca 20% schneller als alle übertakteten rekorde bisheriger cpus^^ I LIKE!^^

Naa, das sieht doch ziemlich chaotisch aus und ziemliche Äpfel mit Birnen-Vergleiche.

dildo4u

2021-09-21, 09:07:50

Jup dort ist Null Zen 3 zu sehen was für eine komische Auflistung.

Twodee

2021-09-21, 09:37:42

Jup dort ist Null Zen 3 zu sehen was für eine komische Auflistung.
Hat halt keiner ein Zen3 mit RTX3080 gebencht.

Wenn man die GPU aus dem Filter nimmt sieht es so aus:
https://www.ashesofthesingularity.com/benchmark#/?filters=%7B%22gpu%22%3A%22%22,%22cpu%22%3Anull,%22api%22%3A%22DirectX%2012%22,% 22preset%22%3Anull,%22resolution%22%3A%221920%20x%201080%22,%22offset%22%3A0,%22 search%22%3Anull,%22personaId%22%3Anull,%22sort%22%3A%22score%22,%22direction%22 %3A%22desc%22,%22benchmarkVersionId%22%3A5509,%22useVersionInequality%22%3Atrue% 7D
https://abload.de/img/u18jk8r.png

Bin ja mächtig beeindruckt von ALdi :freak:

OgrEGT

2021-09-21, 10:23:54

Hat halt keiner ein Zen3 mit RTX3080 gebencht.

Wenn man die GPU aus dem Filter nimmt sieht es so aus:
https://www.ashesofthesingularity.com/benchmark#/?filters=%7B%22gpu%22%3A%22%22,%22cpu%22%3Anull,%22api%22%3A%22DirectX%2012%22,% 22preset%22%3Anull,%22resolution%22%3A%221920%20x%201080%22,%22offset%22%3A0,%22 search%22%3Anull,%22personaId%22%3Anull,%22sort%22%3A%22score%22,%22direction%22 %3A%22desc%22,%22benchmarkVersionId%22%3A5509,%22useVersionInequality%22%3Atrue% 7D
https://abload.de/img/u18jk8r.png

Bin ja mächtig beeindruckt von ALdi :freak:

Ziemlich nah beieinander... wiederum ist nicht bekannt ob und wie die Systeme übertaktet waren?

Linmoum

2021-09-21, 10:56:37

Vergleiche mit früheren Versionen sind sowieso sinnlos, da es ein kürzliches Update gab, mit dem CPUs >8C deutlich profitieren sollen. Die 12900K Benches sind schon mit dem Update.

https://mobile.twitter.com/i/web/status/1440077316848173059

Ganz davon ab, dass man AotS sowieso gefühlte 20x benchen kann und 15 verschiedene Resultate bekommt.

dildo4u

2021-09-21, 11:13:30

Hat halt keiner ein Zen3 mit RTX3080 gebencht.

Wenn man die GPU aus dem Filter nimmt sieht es so aus:
https://www.ashesofthesingularity.com/benchmark#/?filters=%7B%22gpu%22%3A%22%22,%22cpu%22%3Anull,%22api%22%3A%22DirectX%2012%22,% 22preset%22%3Anull,%22resolution%22%3A%221920%20x%201080%22,%22offset%22%3A0,%22 search%22%3Anull,%22personaId%22%3Anull,%22sort%22%3A%22score%22,%22direction%22 %3A%22desc%22,%22benchmarkVersionId%22%3A5509,%22useVersionInequality%22%3Atrue% 7D
https://abload.de/img/u18jk8r.png

Bin ja mächtig beeindruckt von ALdi :freak:
Der NV Treiber wird Overhead erzeugen die werte mit der 3090 sind bei 130 mit Zen 3.

Twodee

2021-09-21, 11:39:56

Der NV Treiber wird Overhead erzeugen die werte mit der 3090 sind bei 130 mit Zen 3.
Ja shit, mit einer 3090 gibts 130 FPS, und mit einer ollen 5700xT unglaubliche 151 FPS :rolleyes: myAss

Abwarten wie Zen3 mit dem Update läuft [mein Bauchgefühl sagt mir +20% ;D]

BlacKi

2021-09-21, 16:52:09

Der NV Treiber wird Overhead erzeugen die werte mit der 3090 sind bei 130 mit Zen 3.deshalb hab ich ja extra die 3080 als basis genommen. weil man nicht äpfel(nv) und birnen (amd) vergleichen kann. die 3090 wird man aber auch als vergleichswert nehmen können.

mir gings aber in erster linie auch erstmal um den performance uplift gegenüber intels alter cpus.

Twodee

2021-09-21, 16:54:37

äpfel(vor update) und birnen (nach update) ?

BlacKi

2021-09-21, 17:17:17

das würde ja nur alderlake beeinflussen, wenn alderlake die kleinen kerne für spiele nutzen würde. das update soll ja nun auch 12-16kerne zur unterstützung nutzen.

tatsächlich sieht es für mich erstmal so aus als würde das update erstmal punkte kosten. natürlich spielen auch andere faktoren mit rein. aber der unterschied lässt so oder so erstmal nicht den gedanken aufkommen, das alderlake davon profitieren würde.

hier mal vor patch und nach patch, laut benchmarktabelle bis auf den ramausbau identisch, aber der neue patch kostet dramatisch punkte. ca 25-30%, was den wert den alderlake bringt noch beeindruckender erscheinen lässt.
https://www.ashesofthesingularity.com/benchmark#/benchmark-result/3cda07af-02c9-4541-a56b-b57e82659fcd

https://www.ashesofthesingularity.com/benchmark#/benchmark-result/0c896d35-8dc0-4c7c-b968-1163fc0b1221

Twodee

2021-09-21, 18:50:16

das würde ja nur alderlake beeinflussen, wenn alderlake die kleinen kerne für spiele nutzen würde. das update soll ja nun auch 12-16kerne zur unterstützung nutzen.

tatsächlich sieht es für mich erstmal so aus als würde das update erstmal punkte kosten. natürlich spielen auch andere faktoren mit rein. aber der unterschied lässt so oder so erstmal nicht den gedanken aufkommen, das alderlake davon profitieren würde.

hier mal vor patch und nach patch, laut benchmarktabelle bis auf den ramausbau identisch, aber der neue patch kostet dramatisch punkte. ca 25-30%, was den wert den alderlake bringt noch beeindruckender erscheinen lässt.
https://www.ashesofthesingularity.com/benchmark#/benchmark-result/3cda07af-02c9-4541-a56b-b57e82659fcd

https://www.ashesofthesingularity.com/benchmark#/benchmark-result/0c896d35-8dc0-4c7c-b968-1163fc0b1221
Unterschiedliche Systeme, RAM 16GB (vor update) zu 128GB (nach update) - gleiche (Takt/CL-)Einstellungen?

Wie schaut es bei Rocketlake vor/nach update aus?

BlacKi

2021-09-21, 20:27:06

bei ihm hier hat sich mit dem patch nichts getan, sind aber auch nur 8 kerne. rocketlake gibts zu wenige ergebnisse. hätte aber auch nur 8 kerne.
https://www.ashesofthesingularity.com/benchmark#/?filters=%7B%22gpu%22%3A%22NVIDIA%20GeForce%20RTX%203080%22,%22cpu%22%3A%22Intel %28R%29%20Core%28TM%29%20i9-9900K%20CPU%20%40%203.60GHz%22,%22api%22%3A%22DirectX%2012%22,%22preset%22%3A%22 Crazy_1440p%22,%22resolution%22%3Anull,%22offset%22%3A0,%22search%22%3Anull,%22p ersonaId%22%3Anull,%22sort%22%3A%22date%22,%22direction%22%3A%22desc%22,%22bench markVersionId%22%3A5509,%22useVersionInequality%22%3Atrue%7D

bei ihm hier hat sich das ergebniss etwas verbessert. vl der patch, vl hardware optimierungen. es ist fraglich, ob alderlake wirklich die kleinen kerne nutzt. nichts genaues weiß man nicht.
https://www.ashesofthesingularity.com/benchmark#/?filters=%7B%22gpu%22%3Anull,%22cpu%22%3A%22AMD%20Ryzen%209%205950X%2016-Core%20Processor%22,%22api%22%3Anull,%22preset%22%3Anull,%22resolution%22%3Anull ,%22offset%22%3A0,%22search%22%3Anull,%22personaId%22%3A%2222844722-f571-eb11-80f2-005056ab72cd%22,%22sort%22%3A%22date%22,%22direction%22%3A%22desc%22,%22benchmar kVersionId%22%3A5509,%22useVersionInequality%22%3Atrue%7D

iamthebear

2021-09-22, 01:28:28

wie stellt man mit vertretbarem Aufwand fest, dass der Branch nicht von den vorhergehenden Anweisungen abhängt?

Indem man einen Abhängigkeitsgraphen aufbaut.

Woher kann die CPU sagen, dass sich diese nicht überlappen?

Dass diese nicht überlappen kann die CPU nicht sagen. Interessiert diese auch nicht.

Wenn es die CPU nicht sicher sagen kann, dann muss aber die Bedingung sowieso 2 Mal überprüft werden: Einmal unter der Spekulation, dass es keine Abhängigkeiten gibt und einmal dann endgültig. Die Frage ist wozu dann noch die ganze Abhängigkeitsanalyse?
Generell ist das ja sowieso nur beim ersten Schleifendurchlauf relevant wenn man noch keine Daten der Sprungvorhersage hat.

iamthebear

2021-09-22, 01:54:22

Vergleiche mit früheren Versionen sind sowieso sinnlos, da es ein kürzliches Update gab, mit dem CPUs >8C deutlich profitieren sollen. Die 12900K Benches sind schon mit dem Update.

https://mobile.twitter.com/i/web/status/1440077316848173059

Ganz davon ab, dass man AotS sowieso gefühlte 20x benchen kann und 15 verschiedene Resultate bekommt.

Du weißt nicht zufällig mit welcher Version das Update für mehr kerne kam?

das würde ja nur alderlake beeinflussen, wenn alderlake die kleinen kerne für spiele nutzen würde. das update soll ja nun auch 12-16kerne zur unterstützung nutzen.

tatsächlich sieht es für mich erstmal so aus als würde das update erstmal punkte kosten. natürlich spielen auch andere faktoren mit rein. aber der unterschied lässt so oder so erstmal nicht den gedanken aufkommen, das alderlake davon profitieren würde.

hier mal vor patch und nach patch, laut benchmarktabelle bis auf den ramausbau identisch, aber der neue patch kostet dramatisch punkte. ca 25-30%, was den wert den alderlake bringt noch beeindruckender erscheinen lässt.
https://www.ashesofthesingularity.com/benchmark#/benchmark-result/3cda07af-02c9-4541-a56b-b57e82659fcd

https://www.ashesofthesingularity.com/benchmark#/benchmark-result/0c896d35-8dc0-4c7c-b968-1163fc0b1221

Es ist die Rede von 16 statt 8 Kernen. Ich gehe jedoch davon aus, dass hier Threads gemeint sind.

Dies würde nach der bisherigen Windows 10 Logik bedeuten, dass zuerst alle Kerne (große und kleine) je 1 Thread abbekommen werden. In dem Fall bräuchte das Betriebssystem vermutlich gar keine Alder Lake spezifische Unterstützung.

Mit 8 Threads könnte es jedoch ganz anders aussehen denn wenn der Scheduler nicht zwischen Big und Little unterscheiden kann, dann könnte es im Worst Cace passieren, dass alle Threads auf den 8 Little Cores landen bevor die Big Cores verwendet werden.

Derzeit sieht es natürlich so aus als wäre hier der 12900K extrem schnell. Das kann natürlich in Spielen der Fall sein. Hier wirken sich die Änderungen im L2/3 Cache natürlich auch positiv aus.
Da wir aber keine Angaben zum Takt haben könnte es auch genauso gut möglich sein, dass der 12900K mit LN2 auf 7GHz hoch gejagt wurde und deswegen so schnell läuft. Ist zwar unwahrscheinlich aber möglich.
Es könnte aber auch sein, dass einfach nur der Treiber Overhead von Nvidia besonders gut skaliert ;D

aufkrawall

2021-09-22, 03:10:55

Es ist die Rede von 16 statt 8 Kernen. Ich gehe jedoch davon aus, dass hier Threads gemeint sind.

8T lastete schon Version 1.0 mit DX12 im völligen CPU-Limit komplett aus. :rolleyes:

iamthebear

2021-09-22, 12:32:32

Dann müssten es 16 Threads gewesen sein und jetzt 32 (also Nutzung von SMT beim 5950X bzw. 12900K).

Linmoum

2021-09-22, 12:44:51

Nein, es sind jetzt nur 24T und nicht 32T. Wer weiß, warum. ;D

Max threads increased from 16 to 24 to increase performance as many machines now have more CPU cores
https://forums.ashesofthesingularity.com/506735/ashes-of-the-singularity-escalation-v31-optimizes-game-with-faster-load-tim

Distroia

2021-09-22, 13:01:06

Die wahrscheinlich erste Software in der Geschichte, die auf genau 24 Threads optimiert ist.

Bei den "Leaks" bekomme ich immer mehr das Gefühl, dass die mit Intel abgesprochen sind ...

arcanum

2021-09-22, 13:10:31

Die wahrscheinlich erste Software in der Geschichte, die auf genau 24 Threads optimiert ist.

Bei den "Leaks" bekomme ich immer mehr das Gefühl, dass die mit Intel abgesprochen sind ...

würde mich wundern. AotS ist doch ein AMD titel oder meinst du, dass die heimlich etwas hinter deren rücken machen?

Distroia

2021-09-22, 13:22:38

Was meinst du mit "AMD titel"? Findest du es nicht etwas verdächtig, dass Intel einen Prozessor mit 24 Threads rausbringt und genau zur der Zeit ein altes Spiel ein Patch bringt, mit dem das Spiel auf genau 24 Threads optimiert wird und genau dann "leakt" ein Benchmarkergebnis mit genau dem Spiel?

Wenn man die Ergebnisse von verschiedenen Versionen mit verschiedenen Systemen vergleicht, lässt sich auch keine Konsistenz erkennen. So kann es schnell einen Ausschlag in eine bestimmte Richtung geben, die nicht viel über die tatsächliche Leistungsfähigkeit der Hardware aussagt.

basix

2021-09-22, 13:39:17

24T sind bei einem Spiel ja schon sehr viel. Kann auch abnehmender Grenzertrag sein. Und AMD tut das überhaupt nicht weh: Der 5900X hat auch 24T und wird V-Cache bekommen - und wird vermutlich günstiger als der 12900K sein. Der 5950X ist dann einfach nicht schneller (wie in 99.999999% aller anderen Spiele auch).

Distroia

2021-09-22, 14:00:22

Die Ergebnisse sind so "all over the place", dass man sich weniger Gedanken um sie Dinge wie abnehmenden Grenzertrag machen braucht. Es geht weniger um die Skalierung von 24 auf 32 Threads sondern darum, dass die Ergebnisse so inkonsistent sind, dass man kaum etwas daraus herauslesen kann.

Leider gibt es noch kein Ergebnis vom 5900x mit der aktuellen Version. Vielleicht kann das ja mal jemand hier testen ...

arcanum

2021-09-22, 14:04:13

Was meinst du mit "AMD titel"? Findest du es nicht etwas verdächtig, dass Intel einen Prozessor mit 24 Threads rausbringt und genau zur der Zeit ein altes Spiel ein Patch bringt, mit dem das Spiel auf genau 24 Threads optimiert wird und genau dann "leakt" ein Benchmarkergebnis mit genau dem Spiel?

Wenn man die Ergebnisse von verschiedenen Versionen mit verschiedenen Systemen vergleicht, lässt sich auch keine Konsistenz erkennen. So kann es schnell einen Ausschlag in eine bestimmte Richtung geben, die nicht viel über die tatsächliche Leistungsfähigkeit der Hardware aussagt.

AotS ist ein AMD sponsored titel, der zum launch auf ryzen optimiert und gerne zum vergleich mit intel herangezogen wurde:

https://www.tomshardware.com/news/amd-ryzen-game-optimization-aots-escalation,34021.html

dildo4u

2021-09-22, 14:11:07

Was meinst du mit "AMD titel"? Findest du es nicht etwas verdächtig, dass Intel einen Prozessor mit 24 Threads rausbringt und genau zur der Zeit ein altes Spiel ein Patch bringt, mit dem das Spiel auf genau 24 Threads optimiert wird und genau dann "leakt" ein Benchmarkergebnis mit genau dem Spiel?

Wenn man die Ergebnisse von verschiedenen Versionen mit verschiedenen Systemen vergleicht, lässt sich auch keine Konsistenz erkennen. So kann es schnell einen Ausschlag in eine bestimmte Richtung geben, die nicht viel über die tatsächliche Leistungsfähigkeit der Hardware aussagt.
Wenn das Game mehr Threads als vorher nutzt hilft das AMD und nicht Intel, die alte Version rennt nich gut auf dem 5950X wie man an den Werten mit der 3090 sieht.

Distroia

2021-09-22, 14:18:54

AotS ist ein AMD sponsored titel, der zum launch auf ryzen optimiert und gerne zum vergleich mit intel herangezogen wurde:

https://www.tomshardware.com/news/amd-ryzen-game-optimization-aots-escalation,34021.html

Danke, das wusste ich nicht. Muss jetzt allerdings nicht mehr bedeuten. Vielleicht heißt es bald "optimized for Alder Lake's new big.little design" oder so ähnlich.

Wenn das Game mehr Threads als vorher nutzt hilft das AMD und nicht Intel, die alte Version rennt nich gut auf dem 5950X wie man an den Werten mit der 3090 sieht.

Hast du überhaupt verstanden, was ich geschrieben habe?

dildo4u

2021-09-22, 14:21:34

Ja und es macht kein Sinn es bevorteil nicht Intel da AMD mehr Performance Kerne hat, Intel hätte ein Vorteil wenn das Game 16 Threads nutzt und nur auf den dicken Kernen läuft.

Distroia

2021-09-22, 14:29:22

Ich hab jetzt keine Lust, mich zu wiederholen. Lies nochmal oder auch nicht. Du musst es ja nicht verstehen, und wenn nicht, werde ich auch nicht mehr drauf eingehen.

BlacKi

2021-09-22, 15:14:06

erst regen sich die leute auf, das ich keinen 5950x angegeben habe, jetzt ist intel schuld, das der 5950x langsamer ist XD omg 3dcenter, wie butthurt kann man sein:biggrin:

ich hab direkt von anfang an gegen intels alte gen verglichen. dort ist intel grob +-25% schneller als die übertaktete alte generation. ich gehe nicht davon aus, das die littlecores hier helfen, auch wenn hier manche anders denken.

aufkrawall

2021-09-22, 15:21:02

Kann mir nicht vorstellen, dass hier die littles sinnvoll mit Arbeit versorgt werden können, wenn in dem Spiel die alten Zens (und ggf. noch Zen 2 ohne starkes RAM-Tuning) gegen Intel generell so abkacken. Da kommt es offenbar extrem auf Inter-Core-Abhängigkeiten und Latenzen an. War ja in SotTR auch schon so, das offenbar ähnlich Ashes auch viele Threads durch aufgeteilte Arbeit spawnen konnte.

Distroia

2021-09-22, 15:23:12

erst regen sich die leute auf, das ich keinen 5950x angegeben habe, jetzt ist intel schuld, das der 5950x langsamer ist XD omg 3dcenter, wie butthurt kann man sein:biggrin:

Ich bin eigentlich ziemlich entspannt bei dem Thema und nicht "butthurt" oder was auch immer du hier herausliest. Es gibt keinen Grund, das jetzt auf eine emotionale Ebene zu ziehen, nachdem vorher alle sachlich argumentiert haben. Also ruhig bleiben und abwarten. ;)

BlacKi

2021-09-22, 15:26:14

neue CB benches mit cpuz, ddr5 5200 im gearmode 2?

https://cdn.videocardz.com/1/2021/09/Intel-Core-i9-12900K-Cinebench-Leak-1.jpg

https://videocardz.com/newz/intel-core-i9-12900k-allegedly-scores-30k-points-in-cinebench-r23

[QUOTE=BlacKi;12799904]erst regen sich die leute auf, das ich keinen 5950x angegeben habe, jetzt ist intel schuld, das der 5950x langsamer ist XD omg 3dcenter, wie butthurt kann man sein:biggrin:

Ich bin eigentlich ziemlich entspannt bei dem Thema und nicht "butthurt" oder was auch immer du hier herausliest. Es gibt keinen Grund, das jetzt auf eine emotionale Ebene zu ziehen, nachdem vorher alle sachlich argumentiert haben. Also ruhig bleiben und abwarten. ;)dann fühl dich einfach nicht angesprochen;)

Tralalak

2021-09-22, 15:36:19

8 + 8 Core / 24 Threads Intel Core i9-12900K Beats 32 Core / 64 Threads AMD Ryzen Threadripper 2990WX and 16 Core / 32 Threads Ryzen 9 5950X in Cinebench R23

https://338855-1043895-2-raikfcquaxqncofqfm.stackpathdns.com/wp-content/uploads/2021/09/image-5.png.webp

source: https://www.hardwaretimes.com/16-core-intel-core-i9-12900k-beats-32-core-amd-threadripper-and-ryzen-9-5950x-in-cinebench-r23/

EDIT: Titel fur w0mbat

w0mbat

2021-09-22, 15:38:09

Ich glaub, die "little" cores werden stärker als gedacht. Hat Keller nicht gemeint, Intel sollte nur die kleinen nehmen?

ADL muss Zen3 deutlich schlagen, alle andere wäre eine Blamage (und wird auch nicht passieren). Neue Architektur, komplett neuer Ansatz, neuer Herstellungsprozess und neue Plattform mit DDR5. Das wird knallen. Muss ja dann auch wohl zeitnah gegen Zen3D antreten.

Intel hat sich zwar in den letzten Jahren nicht wirklich mit Ruhm bekleckert, aber unfähig sind sie auch nicht.

@Tralalak: was für eine dummer Titel von der Webseite, wer vergleich mit einem Zen+ TR? Schon ein TR 3970X schafft knapp 45k Punkte in R23.

aufkrawall

2021-09-22, 15:43:24

Ich sage es ja nur ungern, aber wenn man sich ansieht, was für Lastgen-Kram mit BF2042 etc. offenbar noch auf den Markt gebracht werden wird, werden die 8 starken BIGs doch noch eine Zeit lang komfortabel reichen. :freak:

Hakim

2021-09-22, 16:14:30

Ich hoffe der 12700k ist bei Spielen fast gleich auf mit dem 12900er, da beide ja 8 große haben. Das der große bei Anwendungen dann aufgrund von mehr little cores besser performt wäre für mich zweitrangig.

Distroia

2021-09-22, 16:19:23

Ich glaub, die "little" cores werden stärker als gedacht. Hat Keller nicht gemeint, Intel sollte nur die kleinen nehmen?

ADL muss Zen3 deutlich schlagen, alle andere wäre eine Blamage (und wird auch nicht passieren). Neue Architektur, komplett neuer Ansatz, neuer Herstellungsprozess und neue Plattform mit DDR5. Das wird knallen. Muss ja dann auch wohl zeitnah gegen Zen3D antreten.

Intel hat sich zwar in den letzten Jahren nicht wirklich mit Ruhm bekleckert, aber unfähig sind sie auch nicht.

Das klingt ziemlich realistisch. Denke auch, er wird im Schnitt knapp über Zen 3 bei Single- und Multithreading - zumindest solange der Code gute parallelisierbar ist und es keine Probleme mit dem Scheduling gibt - herauskommen. Vor allem bei Multithreading wäre das ein gewaltiger Schritt und bei Singlethreading waren sie ja sowieso gut dabei. Wenn sie das nicht schaffen, wäre es eine ganz schöne Blamage.

Der_Korken

2021-09-22, 16:23:35

Ich glaub, die "little" cores werden stärker als gedacht. Hat Keller nicht gemeint, Intel sollte nur die kleinen nehmen?

Für Anwendungen (abseits von Heavy AVX(512)) wäre das vermutlich eine gute Wahl gewesen. Im Desktop-Bereich wäre das aber ein zweiter Zen 1 geworden: MT-Leistung noch und nöcher, aber in Spielen trotzdem langsamer als die Konkurrenz mit nur halb so vielen Kernen. Und auch im Mobil-Bereich lohnen sich zwei fette Kerne durchaus noch für die "Schwuppdizität".

Ist schon etwas lustig, wie sich seit Bekanntwerden der Big-Little-Strategie AMD- wie auch Intel-Fanboys über Alder Lake lustig gemacht haben. Verzweifelter Versuch von Intel mit AMDs MT mitzuhalten, die Schrottkerne braucht kein Mensch, Intel soll nur fette Kerne draufpacken (manche hätten sicherlich auch nichts gegen 100W/Kern gehabt :freak:), usw. Dabei zeichnet sich imho ab, dass Alder Lake seit langem mal wieder ein großer Wurf wird. Mit den kleinen Kernen als eigentliche Stars der Show. Dass der schlafende Riese irgendwann erwacht, war nur eine Frage der Zeit, genau wie beim Pentium 4. AMD hat eigentlich von Anfang nie mit einer so großen MT-Dominanz gerechnet, sondern hatte bereits für Zen 2 mit "Icelake-X" @10nm als Gegner gerechnet.

aufkrawall

2021-09-22, 16:29:10

Erstmal abwarten, wie gut die littles abseits von CB sind. CPUs werden immer weniger für Rendering oder Video-Enkodierung genutzt. Wenn die Leistung in Workloads wie Kompilieren niedriger als Zen 3 ist, wär es bei dem Verbrauch der gesamten CPU immer noch ein Fail.

w0mbat

2021-09-22, 16:37:49

Ist schon etwas lustig, wie sich seit Bekanntwerden der Big-Little-Strategie AMD- wie auch Intel-Fanboys über Alder Lake lustig gemacht haben.

Ich bin immer noch überzeugt, dass ADL Intels Versuch war, Apple doch noch als Kunden zu halten. Schaut her, wir machen jetzt auch big.LITTLE, das wird bestimmt effizient!

Und es könnte sogar aufgehen, da Intel wirklich sehr große Kerne hat, die auch gerne viel schucken. Für AMD würde sich das aktuell nicht lohnen, Zen3 ist klein und effizient. Wenn AMD bein Zen5 wirklich auch big.LITTLE plant, dann wird Zen5 wohl sehr in die Breite gehen.

Und noch wissen wir nicht, ob das hybrid design bei ADL wirklich durchschlägt.

davidzo

2021-09-22, 16:51:16

Hat Keller nicht gemeint, Intel sollte nur die kleinen nehmen?
Die Aussage kommt afaik nicht von Keller. Allgemein hat Keller nicht viel zu big/little gesagt. Auf Keller geht eher die Aussage zurück dass Intel noch massiv größere Cores in der pipline hat gegen die Skylake geradezu winzig wirkt.
Ich glaube du meinst die Kritik von Francois Piednoel der meinte das BigLittle nicht funktionieren würde (wegen dem scheduling) und sie lieber die kleinen Kerne nehmen und aufbohren sollten. Von dem stammt allerdings auch das wegweisende Baytrail Design was den shift zu oOo und gleichzeitigen drop von HT mit sich brachte. Das war der größte gen on gen performance uplift bei atoms. Kein Wunder dass er hinter seiner architektur steht, wenn er schon damals gesehen hat wieviel effizienter die sein kann als die damaligen ivybridge und haswell prozessoren.

HOT

2021-09-22, 17:14:47

Die haben die little-Cores doch nur in den Desktop gebracht, weil die fetten Cores die Die-Size explodieren lassen würde. Man überlege sich das: Ein fetter Core ist so groß wie 4 kleine und die kleinen haben auch noch mehr L2$ (2MB statt 1,25MB). 8 Little-Cores brauchen soviel Fläche wie 2 fette Cores. Für viele MT-Fälle sind die 8 Littles da also sicherlich besser -> aus der Not eine Tugend gemacht und funzt.

ceed

2021-09-22, 17:25:38

Die haben die little-Cores doch nur in den Desktop gebracht, weil die fetten Cores die Die-Size explodieren lassen würde. Man überlege sich das: Ein fetter Core ist so groß wie 4 kleine und die kleinen haben auch noch mehr L2$ (2MB statt 1,25MB). 8 Little-Cores brauchen soviel Fläche wie 2 fette Cores. Für viele MT-Fälle sind die 8 Littles da also sicherlich besser -> aus der Not eine Tugend gemacht und funzt.

Die "fetten Cores" wären vielleicht gar nicht so fett wenn sie davon 16 auf das DIE bringen müssten, sieh es mal so

Thunder99

2021-09-22, 17:48:33

Sehe es wie HOT.

ADL ist Intels Antwort und (Not-) Lösung gegen AMD zu bestehen. Sie bringen es einfach nicht derzeit gebacken, da die DIE size extrem sonst steigen würde (und auch TDP).

Um das zu belegen oder zu widerlegen muss man entsprechend Tests machen. Bleibt Spannend ;)

BlacKi

2021-09-22, 17:55:53

Sehe es wie HOT.

ADL ist Intels Antwort und (Not-) Lösung gegen AMD zu bestehen. Sie bringen es einfach nicht derzeit gebacken, da die DIE size extrem sonst steigen würde (und auch TDP).

Um das zu belegen oder zu widerlegen muss man entsprechend Tests machen. Bleibt Spannend ;)so ein schmarn. :rolleyes: man hat sich das feature aus anderen bereichen abgeschaut und es endlich übernommen, das war schon lange überfällig. und intel wird es weiter ausbauen, weil die vorteile der geringeren tdp einfach brutal sind. siehe benchmarks. und weil die einsparungen verhältnismäßig gigantisch sind, frei für höhere margen oder größere igpus.

QUERSCHLÄGER

2021-09-22, 18:34:35

Bla bla blaaa :P.

Wann geht's denn jetzt mal konkret zur Sache hier? Vielleicht mal nach Jahren was neues kaufen. Oder lieber lassen nach derzeitigem Kenntnisstand :redface:?

BlacKi

2021-09-22, 19:28:41

ich bin ja unter anderem auch am 12600k interessiert. 260€ wäre ein echter kampfpreis, mit angepasstem OC auf 5 oder gar 5,1ghz mit jeder menge ram OC wird man einige höherpreisige cpus in spielen nass machen. und dann mit raptorlake wieder wechseln. gaming cache:biggrin:

@quer ende oktober gibts von intel folien(hoffentlich gegen sich und nicht gegen amd gebencht), dann ist es deutlich konkreter, aber unabhängige reviews erwarte ich erst gegen ende november.

Thunder99

2021-09-22, 20:12:30

so ein schmarn. :rolleyes: man hat sich das feature aus anderen bereichen abgeschaut und es endlich übernommen, das war schon lange überfällig. und intel wird es weiter ausbauen, weil die vorteile der geringeren tdp einfach brutal sind. siehe benchmarks. und weil die einsparungen verhältnismäßig gigantisch sind, frei für höhere margen oder größere igpus.
Was interessiert mich das im Desktop? Ausserdem hat AMD gezeigt wie effizient schnelle Kerne sein können. 8 Kerne auf 15W bietet Intel gerade mal 4 Kerne. Bei ADL werden wir sehen ob sie dann dagegen ankommen. Lasse mich gerne überraschen.

QUERSCHLÄGER

2021-09-22, 20:20:18

@quer ende oktober gibts von intel folien(hoffentlich gegen sich und nicht gegen amd gebencht), dann ist es deutlich konkreter, aber unabhängige reviews erwarte ich erst gegen ende november.

Was sind schon 60 Tage? Die Kiste ist jetzt hier sechseinhalb Jahre alt, die Eile scheint in der Vergangenheit also nicht so groß gewesen zu sein. Zumal ja 50/50 zu sein scheint, ob man zwar ne neue Architektur kauft für anfangs wahrscheinlich gutes Geld, aber unter'm Strich "nur" die übliche Steigerung bekommt.

Ich versuche es mal so auszudrücken: ist der neue Krempel in der Summe über 100€ teurer als der Sockel1200-Kram und/oder das Leistungs-Plus innerhalb des zu erwartenden Generationen-Sprungs (d.h. unterhalb von 15-20%), wird es wohl auch noch ein Comet Lake und ich meine, ich kann mir die Antwort fast selber geben ;).

Geht mir ja nur darum, wieder irgendwas bis 2028 einbauen zu können und meine Ruhe zu haben. Bliebe noch der Gesichtpunkt der Effizienz, über den man mich kriegen könnte, mal schauen.

iamthebear

2021-09-22, 21:08:43

Was meinst du mit "AMD titel"? Findest du es nicht etwas verdächtig, dass Intel einen Prozessor mit 24 Threads rausbringt und genau zur der Zeit ein altes Spiel ein Patch bringt, mit dem das Spiel auf genau 24 Threads optimiert wird und genau dann "leakt" ein Benchmarkergebnis mit genau dem Spiel?

Interessant ist vor allem die Beschreibung im Text:
“We increased the number of CPU cores that can simultaneously interact with the GPU from 8 to 16 which should translate to smoother performance when thousands of units are on screen.”

Und ein paar Absätze weiter unten im Changelog:
Max threads increased from 16 to 24 to increase performance as many machines now have more CPU cores

Wenn 16 Kerne 24 Threads bedeuten, dann kann man sich schon denken für welche CPU hier optimiert wurde.

Auch sehr interessant ist dass anscheinend alle anderen CPUs auf einmal im Benchmark langsamer sind als vorher.

Das sind in der Tat sehr viele Zufälle.

Was Big Little angeht:
Ich denke die 2 Denkfehler der meisten Skeptiker sind:
a) Der Großteil denkt dabei an Energieeffizienz für Hintergrundanwendungen wie bei Smartphones. In Wirklichkeit geht es um Performance/Fläche bei multithreaded Anwendungen.
b) Vielen denken beim 5950X bekommen sie 16 Big Cores und bei Intel 8 Big Cores und 8 Little Cores. Falsch, der 5950X besteht aus 16 Medium Cores

Tralalak

2021-09-22, 23:03:44

Was Big Little angeht:
Ich denke die 2 Denkfehler der meisten Skeptiker sind:
a) Der Großteil denkt dabei an Energieeffizienz für Hintergrundanwendungen wie bei Smartphones. In Wirklichkeit geht es um Performance/Fläche bei multithreaded Anwendungen.
b) Vielen denken beim 5950X bekommen sie 16 Big Cores und bei Intel 8 Big Cores und 8 Little Cores. Falsch, der 5950X besteht aus 16 Medium Cores
ad. b) AMD Zen (Zen+, Zen 2, Zen 3) microarchitecture are the microarchitecture of BIG cores. There is no medium core. The medium core is oxymoron.

Der_Korken

2021-09-22, 23:44:46

Ich denke die 2 Denkfehler der meisten Skeptiker sind:
a) Der Großteil denkt dabei an Energieeffizienz für Hintergrundanwendungen wie bei Smartphones. In Wirklichkeit geht es um Performance/Fläche bei multithreaded Anwendungen.
b) Vielen denken beim 5950X bekommen sie 16 Big Cores und bei Intel 8 Big Cores und 8 Little Cores. Falsch, der 5950X besteht aus 16 Medium Cores

Da stimme ich zu. Dazu kommt generell ein sehr review-zentrierter Blick auf aktuelle Spiele. Jeder Kern, der aktuell nicht in Spielen ausgelastet wird, wird als Ballast empfunden. Die CCX-Architektur wurde auch am Anfang schlecht gemacht, weil alles über 4 Kerne als unnötig empfunden wurde (und in Reviews keinen Vorteil bracht) und für 4 Kerne war der Ringbus von Kaby Lake topologisch optimal. Big-Little ist ja auch eine Entscheidung für die Zukunft, nicht nur für das Hier und Jetzt.

ad. b) AMD Zen (Zen+, Zen 2, Zen 3) microarchitecture are the microarchitecture of BIG cores. There is no medium core. The medium core is oxymoron.

I think the point is, that even Zen 3 has compromises, which make the cores smaller than Intel's current Cove cores. If AMD only needed to deliver 8 cores for desktop and 32 cores for HPC, they theoretically could have made the cores much fatter. Intel, on the other hand, can "waste" as much space and power as they want for their big cores, because the little ones will ensure that MT performance and efficiency stays good. That's why Intel will go from 8+8 to 8+16 and 8+32 and not 12+12 or 16+16.

aufkrawall

2021-09-22, 23:48:51

Die CCX-Architektur wurde auch am Anfang schlecht gemacht, weil alles über 4 Kerne als unnötig empfunden wurde (und in Reviews keinen Vorteil bracht) und für 4 Kerne war der Ringbus von Kaby Lake topologisch optimal. Big-Little ist ja auch eine Entscheidung für die Zukunft, nicht nur für das Hier und Jetzt.

4C CCX wurde nicht schlecht gemacht, es war schlecht (zumindest ohne die Verbesserungen von Zen 2, wobei der auch noch recht dringend RAM-Tuning brauchte). Tendenz in aktuellen Spielen mit mehr Threads: Noch weiter immer schlechter werdend. :freak:
Und Ringbus war für CML selbst bei 10C in Gaming weiterhin ideal...

Der_Korken

2021-09-23, 00:02:20

4C CCX wurde nicht schlecht gemacht, es war schlecht. Tendenz in aktuellen Spielen mit mehr Threads: Noch weiter immer schlechter werdend. :freak:
Und Ringbus war für CML selbst bei 10C in Gaming weiterhin ideal...

In Anwendungen laufen die 4C-CCX nach wie vor bestens. Nur in Spielen fallen sie zurück, wobei das imho mehr am von einem Core maximal nutzbaren L3 liegt als an der Tatsache, dass der Cache zwischen 8 Cores geshared wird (Cezanne mit 16MB L3 ist kaum noch schneller als Zen 2). Und dass Comet Lake bis 10C skaliert ist schön, bei AMD geht es bis 64C hoch, ohne dass dadurch die Spieleleistung leidet: Der 3990X mit 16CCX läuft genauso gut wie ein 3700X mit 2CCX.

aufkrawall

2021-09-23, 00:18:03

Und dass Comet Lake bis 10C skaliert ist schön, bei AMD geht es bis 64C hoch, ohne dass dadurch die Spieleleistung leidet: Der 3990X mit 16CCX läuft genauso gut wie ein 3700X mit 2CCX.
Nur vergleicht man die Spiele-Performance der Consumer-Produkte nicht mit Server/Workstation-Produkten, sondern mit den anderen am Markt erhältlichen Consumer-Produkten. :rolleyes:
Und wenn wir es schon ganz genau nehmen: Praktisch läuft ein 3990X in Spielen auch nicht genau so gut wie ein 3700X, weil Windows für so viele Threads schlicht zu blöd ist...

HOT

2021-09-23, 10:52:10

4C CCX wurde nicht schlecht gemacht, es war schlecht (zumindest ohne die Verbesserungen von Zen 2, wobei der auch noch recht dringend RAM-Tuning brauchte). Tendenz in aktuellen Spielen mit mehr Threads: Noch weiter immer schlechter werdend. :freak:
Und Ringbus war für CML selbst bei 10C in Gaming weiterhin ideal...
Die meisten Spiele sind ja durchaus auf die CCX angepasst worden, auch schon wegen der Konsolen wird das auch so bleiben. Aber der L3$ ist halt der Knackpunkt. 1x 32MB ist halt erheblich besser als 2x 16MB. Da kommt der Löwenanteil der Spieleleistung her ggü. Zen2, siehe den Vergleich zwischen dem 5700G und einem 3700X oder sowas, die sind fast gleich schnell.

Nur vergleicht man die Spiele-Performance der Consumer-Produkte nicht mit Server/Workstation-Produkten, sondern mit den anderen am Markt erhältlichen Consumer-Produkten. :rolleyes:
Und wenn wir es schon ganz genau nehmen: Praktisch läuft ein 3990X in Spielen auch nicht genau so gut wie ein 3700X, weil Windows für so viele Threads schlicht zu blöd ist...

Und das liegt auch nicht an Windows, sondern an den Spielen selbst...

Lehdro

2021-09-23, 16:41:21

Ich glaube du meinst die Kritik von Francois Piednoel der meinte das BigLittle nicht funktionieren würde (wegen dem scheduling) und sie lieber die kleinen Kerne nehmen und aufbohren sollten. Von dem stammt allerdings auch das wegweisende Baytrail Design was den shift zu oOo und gleichzeitigen drop von HT mit sich brachte. Das war der größte gen on gen performance uplift bei atoms. Kein Wunder dass er hinter seiner architektur steht, wenn er schon damals gesehen hat wieviel effizienter die sein kann als die damaligen ivybridge und haswell prozessoren.
Klar, Francois Piednoel, der Typ mit dem größten Stockholmsyndrom auf Intel auf diesem Planeten, findet seine eigene Architektur am Besten und nicht das was andere machen, schon gar nicht seine "Konkurrenz" bei Intel. Mehr News um 11.
Und Baytrail ist doch nur das eingestehen der absoluten Retardiertheit vom OG Atom dort bei in order execution zu bleiben. Daran ist überhaupt nichts genial, das ist nur der seit Jahren absolut notwendige Schritt gewesen Atom überhaupt noch etwas Chancen einzuräumen. Das ist zwangsweise Evolution und keine Revolution.
Wir halten mal fest als was Atom geplant war:
- Fertigung in Zweitverwendung (32nm Atom gab es erst 2 Jahre nach einem DT Produkt in 32nm)
- möglichst kleine Die-Size, daher
-> simpelste Architektur (in Order)
-> nur ein absolutes Minimum an Extensions
-> möglichst wenig Cache
-> HT um die Flächen/Leistungseffizienz zu pimpen
-> sehr niedrige Taktraten um die TDP unten zu halten

Und jetzt schauen wir uns mal einen modernen Atom an:
- moderne Fertigung (10nm bevor ein DT Produkt das hat)
- moderne Architektur
- massig Cache
- vernünftiges Extensionset
- recht hohe Taktraten
- dafür kein HT mehr
- heißt teilweise Pentium um nicht die Bürde des Namens Atom zu tragen

Atom ≠ Atom. Lasst euch nicht verarschen. Die ersten Atoms waren Abfall (Netbookmüll) der möglichst viel Cash reinbringen und alte Fertigungen auslasten sollte. Den Kram wollte eigentlich keiner haben, also wurde mit der Zeit eine tatsächlich brauchbare CPU draus, in dem man mit so ziemlich jeder Vorgabe vom OG Atom gebrochen hat. Intel hatte sich erneut verspekuliert und am Markt vorbei entwickelt.

BlacKi

2021-09-23, 17:05:16

Was interessiert mich das im Desktop? Ausserdem hat AMD gezeigt wie effizient schnelle Kerne sein können. 8 Kerne auf 15W bietet Intel gerade mal 4 Kerne. Bei ADL werden wir sehen ob sie dann dagegen ankommen. Lasse mich gerne überraschen.wenn du nicht miami heißt und keine probleme mit 300w cpus hast, sollte es dich interessieren. wenn du mir da immernoch widersprichst, dann hast du das big little prinzip nicht verstanden. setzen 6.

Thunder99

2021-09-23, 18:57:28

wenn du nicht miami heißt und keine probleme mit 300w cpus hast, sollte es dich interessieren. wenn du mir da immernoch widersprichst, dann hast du das big little prinzip nicht verstanden. setzen 6.
Ich hab das Prinzip sehr wohl verstanden, aber kritisiere das und möchte erst Test sehen um meine Meinung zu ändern ;)

Wenn Anwendung X im MT schneller mit 8 + x ist als volle Kerne der gleichen Anzahl der Konkurrenz haben sie wahrhaftig ein gutes Produkt entwickelt was neue Konkurrenz bedeutet.

Bisher hat es AMD geschafft, wieso Intel nicht? Deren Kerne saufen einfach zu viel. AMD bremst sie viel mehr ein um im Power Budget zu bleiben.

WedgeAntilles

2021-09-23, 19:03:28

Ich hab das Prinzip sehr wohl verstanden, aber kritisiere das ;)

AMD schafft es ja auch, wieso Intel nicht? ;)
Wieso wartest du nicht mal Benchmarks ab bevor du jammerst dass das Intelkonzept scheiße sei?
Wie genau bewertest du ein Konzept, wenn du die Performance des Konzepts nicht kennst? Nach dem Motto: Es steht nicht AMD drauf also gleich Scheiße?
Auf Faktenbasis kann es ja nicht sein, die kennt ja noch keiner.

Thunder99

2021-09-23, 19:17:43

Wieso wartest du nicht mal Benchmarks ab bevor du jammerst dass das Intelkonzept scheiße sei?
Wie genau bewertest du ein Konzept, wenn du die Performance des Konzepts nicht kennst? Nach dem Motto: Es steht nicht AMD drauf also gleich Scheiße?
Auf Faktenbasis kann es ja nicht sein, die kennt ja noch keiner.
Siehe mein Edit...

Der_Korken

2021-09-23, 19:30:54

Wenn Anwendung X im MT schneller mit 8 + x ist als volle Kerne der gleichen Anzahl der Konkurrenz haben sie wahrhaftig ein gutes Produkt entwickelt was neue Konkurrenz bedeutet.

Ein gutes Produkt ja, aber of Big-Little sinnvoll ist oder nicht, lässt sich damit nicht beantworten. Wenn der 12900K in MT bei gleichem Verbrauch langsamer als der 5950X ist, dann ist überhaupt nicht klar, ob das an Big-Little liegt oder daran, dass AMD insgesamt einfach eine effizientere Architektur hat. Man vergleicht ja auch keine 1080 gegen eine V64, um herauszufinden, ob GDDR5 oder HBM2 effizienter ist. Die wirklich interessanten Benches in dieser Sachen werden die sein, wo man große und kleine Kerne getrennt bencht, um diese gegeneinander aufzurechnen. Zum Beispiel, wären 10 große Kerne rechnerisch in MT genauso effizient wie 8+8, die die gleiche Fläche brauchen? Oder wie viele große Kerne braucht man, um die 8 kleinen in MT zu schlagen und wieviel Fläche und Strom würden die großen dabei verbrauchen?

BlacKi

2021-09-23, 20:11:31

Ich hab das Prinzip sehr wohl verstanden, aber kritisiere das und möchte erst Test sehen um meine Meinung zu ändern ;)

Wenn Anwendung X im MT schneller mit 8 + x ist als volle Kerne der gleichen Anzahl der Konkurrenz haben sie wahrhaftig ein gutes Produkt entwickelt was neue Konkurrenz bedeutet.

Bisher hat es AMD geschafft, wieso Intel nicht? Deren Kerne saufen einfach zu viel. AMD bremst sie viel mehr ein um im Power Budget zu bleiben.
amd schafft es auch nicht mit glofos 12nm zen3 performance und tdp auf die straße zu bringen. wieso braucht amd dazu tsmcs 7nm?

das ist ganz einfach ein weiteres feature, performance und verbrauch zu optimieren. genau wie ein guter prozess, oder sonstiges.

Thunder99

2021-09-23, 20:52:43

Wieso schaffte es Intel nicht früher auf die 10nm Strukturbreite? Der Vergleich hinkt.

Egal, freuen wir uns auf die Reviews :)

BlacKi

2021-09-23, 21:36:24

dank big little kann man im 10nm prozess bleiben und braucht nicht auf die eigene produktion zu verzichten. amd konnte nicht bei ihrem fertiger bleiben.

davidzo

2021-09-23, 23:33:16

Und Baytrail ist doch nur das eingestehen der absoluten Retardiertheit vom OG Atom dort bei in order execution zu bleiben. Daran ist überhaupt nichts genial, das ist nur der seit Jahren absolut notwendige Schritt gewesen Atom überhaupt noch etwas Chancen einzuräumen. Das ist zwangsweise Evolution und keine Revolution.

Piednoel war aber kein Architekt von Bonnell, Silverthorne etc. Er wurde erst später in das team geschickt um den Laden aufzuräumen, weil der ursprungs-Bonnell signifikant underperformt hat und nicht nur mangels SOCbauweise kaum mobile designwins (Handys, Tablets) hatte. Zur Schadensbegrenzung hat man dann Bonnell dann als Diamondville Netbook CPU ausgerollt, ändert aber nichts daran dass das Projekt gefloppt ist. Klar geht das auch auf die Rechnung der Manager die das Projekt absichtlich eingeschränkt haben damit die teuren großen CPUs bloß nicht kannibalisiert werden.
Piednoel hat dann wohl aber richtig für die kleinen Cores gekämpft und in seiner zeit wurde eine Roadmap mit gigantischen IPC Sprüngen aufgesetzt, Baytrail, Braswell/Airmont, Goldmont sind alle aus dieser Planung.
Baytrail war der erste True SoC der atom Entwicklung und damit ein längst fälliger Meilenstein. Mit Avoton hat man sogar eine waschechte Server-Auskopplung bauen dürfen, noch 3 Jahren vorher wäre das undenkbar gewesen, da gab es klare Marktsegmentierung und die Xeon-Leute haben einfach mehr Gwicht bei der Frage welche Architektur wo mitmischen darf.

Mit Airmont/Cherrytrail hat man zudem den Fertigungsrückstand aufgeholt und durfte fast gleichzeitig zu Skylake in der neuesten 14nm fertigung launchen.

Das wäre alles nicht gegangen wenn nicht irgendwelche Intel Fellows schon frühzeitig eine Lanze für die kleine Architektur gebrochen hätten.

Und jetzt schauen wir uns mal einen modernen Atom an:
- moderne Fertigung (10nm bevor ein DT Produkt das hat)
- moderne Architektur
- massig Cache

Was heißt hier modern?
Cherry Trail-T hatte auch 2015 schon die moderne 14nm Fertigung, 2mb cache war in 2015 nicht wenig und was auch immer du mit moderner Architektur meinst...

- vernünftiges Extensionset
- recht hohe Taktraten
- dafür kein HT mehr
- heißt teilweise Pentium um nicht die Bürde des Namens Atom zu tragen

- Airmont hatte auch schon SSE4, VT-X2, AES-NI und war damit fully featured für seine Zeit
- 2,5Ghz waren im Vergleich zu den 3,4Ghz vom i7-6700 auch nicht so wenig
- HT ist sogar schon seit Silvermont/Baytrail in 22nm Geschichte

Atom ≠ Atom. Lasst euch nicht verarschen. Die ersten Atoms waren Abfall (Netbookmüll) der möglichst viel Cash reinbringen und alte Fertigungen auslasten sollte. Den Kram wollte eigentlich keiner haben, also wurde mit der Zeit eine tatsächlich brauchbare CPU draus, in dem man mit so ziemlich jeder Vorgabe vom OG Atom gebrochen hat. Intel hatte sich erneut verspekuliert und am Markt vorbei entwickelt.
Du wiederholst einfach alten quark der zwar nicht falsch ist, aber hier zum Thema einfach nichts beiträgt.

iamthebear

2021-09-24, 00:29:49

Ich hab das Prinzip sehr wohl verstanden, aber kritisiere das und möchte erst Test sehen um meine Meinung zu ändern ;)

Hast du auch irgendwelche Gründe für deine Kritik oder kritisierst du nur zum Zeitbertreib ;D

Also wenn die Angaben von Intel nicht komplett daneben liegen, so macht Big/Little bei Alder Lake auf jeden Fall Sinn:

.) 2 Little Cores, die 2 Threads bearbeiten schaffen haben ca. die Performance von 1 Big Core, der mit SMT auch 2 Threads bearbeitet. Die Little Cores schaffen das jedoch auf dem halben Platz, wodurch man um dasselbe Geld doppelt so viele verbauen kann. Somit machen sie Sinn
.) Nur Little Cores zu verbauen ist jedoch keine Alternative, weil dann jede Software, die nur wenige Threads nutzt (Spiele aber auch Office etc.) deutlich schlechter laufen würde.

Man kann jetzt darüber diskutieren wie die ideale Aufteilung ist, was je nach Anforderung anders.

Wenn Anwendung X im MT schneller mit 8 + x ist als volle Kerne der gleichen Anzahl der Konkurrenz haben sie wahrhaftig ein gutes Produkt entwickelt was neue Konkurrenz bedeutet.

Man darf hier nicht in Kernen denken:
.) Entweder macht man einen Vergleich bei gleicher Die Size (wodurch sich die Fertigungskosten und somit der Preis ergeben)
.) Oder man macht einen Vergleich bei gleicher Threadanzahl wenn man davon ausgeht, dass Anwendungen nicht unendlich Threads haben z.B. einen 12900K gegen einen 5900X. Beide können 24 Threads bearbeiten.

Bisher hat es AMD geschafft, wieso Intel nicht? Deren Kerne saufen einfach zu viel. AMD bremst sie viel mehr ein um im Power Budget zu bleiben.

a) AMD hat es nicht geschafft. TSMC hat es geschafft vor Intel einen desktoptauglichen 7nm Prozess zu entwickeln. Intel ist mit etwas Verzögerung auch geschafft. AMD hat nicht einmal mehr eine eigene Produktion.
b) Intel CPUs KÖNNEN mehr saufen sofern der Anwender es so wünscht und das Powerlimit dementsprechend konfiguriert während AMD CPUs abgeriegelt sind.
Intel hat hier einfach die bessere Boostlogik.

aufkrawall

2021-09-24, 00:57:05

b) Intel CPUs KÖNNEN mehr saufen sofern der Anwender es so wünscht und das Powerlimit dementsprechend konfiguriert während AMD CPUs abgeriegelt sind.
Intel hat hier einfach die bessere Boostlogik.
Ziemlich verzerrte Sichtweise, wenn man sieht, wie Intel vs. AMD Federn lässt, wenn beide ein nicht zu großzügiges, identisches Limit haben und dieses auch streng eingehalten wird.

Tralalak

2021-09-24, 13:28:07

Leak: SisoftSandra and CB R20 / R23 single-core performance @ Intel Core i9-12900K & ASRock Z690 Phantom Gaming 4
source: https://videocardz.com/newz/intel-core-i9-12900k-asrock-z690-phantom-gaming-4-spotted-2k-points-in-cinebench-r23-teased

ChaosTM

2021-09-24, 13:36:39

Performance/Watt wird AL natürlich nix reißen. Wie auch..

Piefkee

2021-09-24, 14:01:02

dank big little kann man im 10nm prozess bleiben und braucht nicht auf die eigene produktion zu verzichten. amd konnte nicht bei ihrem fertiger bleiben.

:freak:
Hat doch damit nichts zu tun?
Intel könnte genauso wie AMD auch 16-Kerne in ihrem eigenen 10nm fertigen.

--> Intel hat halt eine andere Architektur als AMD mit Chiplets gewählt. Ob jetzt Big-Little den erhofften Benefit für Intel bringt wird man sehen müssen. Gaming-King wird Intel jedenfalls mit ADL-S nicht. (mM nur bis Zen3D)

basix

2021-09-24, 14:18:32

Vergleichen wir also ADL-S und Zen 3:
- 8 Kerne, welche +20% schneller in Cinebench sind. AMD hat 8C CCX/CCDs
- Mehr als 8C bringt in den wenigsten Spielen bemerkbare Vorteile
- 1.25 MB L2$ anstatt 512kB
- 30MByte L3$ anstatt 32MByte (das zweite CCD von Zen kann man nicht addieren)
- Geringere Speicherlatenzen, falls ähnlich wie bei Skylake+ (DDR5 ist hier noch eine Unsicherheit)
- Scheduling Issues Big vs. Little Cores ist eine Unsicherheit, werden wir sehen

Im grossen und ganzen ist ADL-S sehr gut mit Zen 3 vergleichbar, hat aber schnellere Cores und vermutlich geringere Speicherlatenzen. Beides für Spiele vorteilhaft.

mMn wird ADL-S in Spielen ein Stück schneller sein als Zen 3. Inkl. V-Cache sehe ich beide auf Augenhöhe, allenfalls leichter Vorteil AMD. Viel wird sich das anhand der aktuellen Daten aber wohl nicht nehmen.

HOT

2021-09-24, 14:22:37

Eine gute Zusammenfassung.

Thunder99

2021-09-24, 14:41:59

Was auch sehr interesssant wird wie sich ADL-S mit DDR4 und DDR5 verhalt. Gerne JEDEC vs JEDEC vs max vs max

Ramius

2021-09-24, 14:43:14

Vergleichen wir also ADL-S und Zen 3:
- Mehr als 8C bringt in den wenigsten Spielen bemerkbare Vorteile

Die Aussage hat mit dem Vergleich nichts zu tun. Zudem ist sie prinzipiell falsch, da Spiele sehr wohl mehr als 8 Cores nutzen könnten, wenn sie denn gut programmiert wären.

Birdman

2021-09-24, 14:59:35

@Ramius
aha, und wieso ist "Mehr als 8C bringt in den wenigsten Spielen bemerkbare Vorteile" eine prinzipiell falsche Aussage?

Lehdro

2021-09-24, 16:12:57

Was heißt hier modern?
Cherry Trail-T hatte auch 2015 schon die moderne 14nm Fertigung, 2mb cache war in 2015 nicht wenig und was auch immer du mit moderner Architektur meinst...

- Airmont hatte auch schon SSE4, VT-X2, AES-NI und war damit fully featured für seine Zeit
- 2,5Ghz waren im Vergleich zu den 3,4Ghz vom i7-6700 auch nicht so wenig
- HT ist sogar schon seit Silvermont/Baytrail in 22nm Geschichte

Ja no shit. Siehe auch hier:

Du wiederholst einfach alten quark der zwar nicht falsch ist, aber hier zum Thema einfach nichts beiträgt.
Dann hast du den Post wohl nicht verstanden. Der OG Atom hat NICHTS mit dem derzeitigen Atom gemeinsam, außer den Obernamen. Alles ab und nach Baytrail war von vorneherein mehr Little Core als Atom mit teilweise massiv anderen Desginschwerpunkten als die allerersten Atoms. Intel hat da eine Riesensauerei bei der Benennung der Architekturen unter der Kategorie Atom verursacht. Das fällt ihnen jetzt teilweise massiv auf die Füße, wie man auch sehr oft hier im Thread sieht, da schon allein die Nennung von "Atom" sehr viele Technikinteressierte direkt mit der Nase rümpfen. Und damit schließt sich sehr wohl der Kreis, warum das alles relevant für Intel mit ADL wird: Intel muss diese selbst gekochte Suppe erst einmal auslöffeln, bevor es den Nachtisch gibt. Viel von dem Big.Little Skeptizimus kommt ja nicht vom Prinzip des Designs, sondern davon das Intel, mal salopp formuliert, "popelige Atoms" mit ihren "Hochglanzdesigns" der Bigcores koppelt. Dass das halt gar nicht mehr der Fall ist, scheint bei vielen Leuten noch gar nicht so angekommen zu sein.

iamthebear

2021-09-24, 18:00:25

Ziemlich verzerrte Sichtweise, wenn man sieht, wie Intel vs. AMD Federn lässt, wenn beide ein nicht zu großzügiges, identisches Limit haben und dieses auch streng eingehalten wird.

Hast du da zufällig ein Review bei der Hand?

Ich habe mir da einmal ein paar Werte aus diversen CB Einzeltests zusammen gesucht:

11900K in Cinebench:
5.3GHz: Maximum
5.1GHz/-200: 320 Watt (40W pro Kern)
4.8GHz/-500: 200 Watt (25W pro Kern)
4.1GHz/-1200: 125 Watt (15W pro Kern)

5800X:
4.85GHz: Maximum
4.5GHz/-350: 105W (13W pro Kern)

5950X:
Maximum: 5GHz
4GHz/-1000: 105W (6.5W pro Kern)

Der Hauptunterschied ist, dass Rocket Lake generell etwas mehr als den doppelten Verbrauch hat. Das liegt zum Großteil einfach an der 14nm Fertigung.

AMD hat also bei gleichem Takt beim 5950X mit 16 Kernen eine ähnlich Verlustleistung wie Intel beim 11900K.

AMD hat sich dazu entschieden die 105W hart zu deckeln (entspricht 4GHz unter Volllast) wahrscheinlich da der AM4 Sockel wenn man sich an die Spezifikationen hält nicht mehr schafft. Dafür kann man Zen3 auch in viele alte Boards stecken.
Intel hat sich dazu entschieden die 125W (entspricht 4.1GHz unter Volllast) nur als Defaultwert durchzusetzen und es den Mainboardherstellern freigelassen mehr zuzulassen. Intel kann das aus meiner Sicht deswegen machen, da sie eben einen aktuellen Sockel haben, wo solche Verlustleistungen eben schon in den Spezifikationen bedacht sind.

aufkrawall

2021-09-24, 18:11:30

Die Taktanzeige bei AMD kann Murks anzeigen (siehe Clock Stretching), man müsste schon die Performance messen (am besten in fps). Jedenfalls betreiben viele ihren 5600X mit dem 45W Eco-Mode, eben weil sich das in der Praxis kaum bemerkbar macht.