AMD - Zen 3+ (Desktop: Warhol, gestrichen; APU: Rembrandt, 6nm, Q1/2022) [Archiv] - Seite 2

Sunrise

2021-05-13, 19:51:20

Kann ich bestätigen, ich habe die Systeme damals selbst gesized - und wir waren gerade mal SMB. Dell hatte uns sogar die besseren Xeons eingebaut (die mit niedrigerer TDP), da die anderen nicht lieferbar waren, die Rabatte blieben aber identisch.

Ich will nicht wissen was richtige Großkunden da bekommen, wenn es ins 7-stellige geht. Besonders interessant wird es dann, wenn sich alle wieder gegenseitig unterbieten wollen…

Das ist mit ein Grund, warum Intel da weiterhin so fest in Sattel sitzt. Wenn man soweit zurückfällt, würde ich sogar wetten, dass man da nicht lange rum macht, wenn man mit einem AMD-System kommt. Das hängt aber natürlich auch auch am Anwendungsfall, gibt ja immernoch einige, da geht weiterhin nur Intel.

mksn7

2021-05-14, 10:01:09

Bei großen Systemen kauft man auch nicht die CPUs direkt, sondern macht eine Ausschreibung für das ganze System, auf das sich Clusterhersteller Angebote abgeben können. Der Clusterhersteller verhandelt dann konkret für diese Ausschreibung mit dem CPU Hersteller, um Rabatte heraushandeln zu können. Man muss den Ausschreibungstext vorher auch geschickt formulieren, damit auch wirkliche eine Konkurrenzsituation da ist und der CPU Hersteller mehr Rabatte gibt.

Ich könnte mir vorstellen dass AMD es gerade eher nicht so nötig hat große Rabatte zu geben.

Wieviel Rabatt der Clusterhersteller bekommt ist geheim, aber an der Menge an Hardware die man angeboten bekommt kann man schon einiges abschätzen. Es sind mehr als 30%.

Das sieht man auch daran wenn man plötzlich die SKUs ganz oben im Stack angeboten bekommt, obwohl die mittleren SKUs laut Listenpreis preiswerter wären.

davidzo

2021-05-14, 10:36:54

Der Profit ist meistens auch nicht ohne im Vergleich zu normalen CPUs für den Desktop oder Werverbüchse. Dafür muss man als Lieferant aber dann auch jahrelang Ersatzteile vorhalten etc.

Es heißt nicht ohne Grund HPC = Half Price Computing.

Wissenschaftliche Cluster sind tatsächlich Prestigeprojekte bei denen der Chiphersteller meistens draufzahlt, allerdings beim Bau auch wichtige Erkenntnisse gewinnt und Technologien erproben kann die er dann behalten darf.
Wenn da mal ein Gewinn erwirtschaftet wird, dann erst Jahre nach der Aufstellung, mit supportverträgen, Aufrüstung, etc.

Der Businessmarkt ist damit gar nicht zu vergleichen, da werden von anfang an viel höhere Preise angesetzt. Businesses sind die Cashcow und werden von intel ganz ungeniert abgezockt. Das ist nicht nur bei Intel so, auch andere Hersteller (Harddisks, RAM, etc.) channeln ihre Verkäufe ganz klar.
Das bedeutet dass du z.B. für eine HDD die bei mindfactory 90€ brutto kostet, bei Großhändlern wie API, ingram Micro oder Wave noch gute 70€ netto bezahlst, also praktisch nur die Mehrwerststeuer +3-8% weniger.

Wenn du allerdings über einen whitelabel OEM wie Bestmedia, Intenso, Verbatim kommst, kostet dich die Platte nur ein Fuffi und die bezahlen wahrscheinlich selber keine 40€.
Das liegt nicht nur an den Stückzahlen, sondern auch an Marktsegmentierung. Selbst wenn du SAP Deutschland heißt und im Jahr ein paar 100K Harddisks für deine Server kaufst, kommst du nicht in den selben sales channel wie die whitelabels. Consumer/whitelabel boxenschieber sind andere Salesleute mit anderen Pricing constraints. Wenn du bei den Businesssalesleuten landest sind die Limits und Zielvorgaben für die Salesabteilung ganz anders, da melken die viel mehr ab. Nicht selten bezahlst du sogar mehr als im Retail. Schlüssel ist die Verfügbarkeit, Der Betrieb kann nicht warten auf den neuen server, der Endkunde schon. Businesses kaufen außerdem mittlere bis große Mengen, das erfordert größere Lagerhaltung beim Distributor.

Und ja, die Salesleute verkaufen dir am liebsten das was gerade wie Blei in den Lagern liegt. Da haben sie plötzliche großen Rabattspielraum.

30% sind schon großzügig gerechnet und nur ein Mittel, also wenn du in bundles kaufst und hochmargige produkte wie Monitore, Peripherie, etc. dabei sind.
Wenn du versuchst 30% nur auf RAM oder SSDs zu bekommen, legen die Distributoren alle den Hörer auf.

Ich könnte mir vorstellen dass AMD es gerade eher nicht so nötig hat große Rabatte zu geben.
Die Ausschreibung für Frontier geht noch auf Zen1 Zeiten zurück. Da hatte es AMD schon nötig diese Rabatte zu geben.

Aber auch weiterhin hat AMD es nötig die Extrameile für einen Auftrag zu gehen. CPUs sind nur ein kleiner Teil eines HPC Systems, das bisschen Oberwasser was man dort aktuell hat würde ich nicht überbewerten in der Summe. Alleine der RAM wird teurer sein als die CPUs zusammen und da redet hier kein Mensch drüber.
Ein viel größerer Anteil am HPC Cluster ist der Interconnect bzw. Netzwerkequipment. Und da hat Nvidia mit Mellanox eine extrem starke Position. Und auch Intel hat da eigene Produkte und kann dann im Gesamtpaket bessere Rabatte einräumen. Auch bei den Beschleunigern die mittlerweile bei vielen Systemen den überwiegenden Teil ausmachen ist CDNA nicht sehr beliebt und AMDs DP/64bit Strategie ein bisschen vorbei am allgemeinen Markttrend zu 16/32bit FP für AI/Simulation.

Leonidas

2021-05-15, 01:57:51

:up: @ davidzo

Skysnake

2021-05-15, 08:18:04

Ich kann davidzo in großen Teilen zustimmen. Und ja, über den RAM redet keiner, obwohl das richtig Asche ist bei den heutigen Systemen. Man hat ja bei AMD z.b. min 16 DIMMs bei einem dualsocket System zu verbauen. Was kleineres als 8 GB dimms gibt es eigentlich nicht mehr. Sind dann also mal schlappe 128GB pro Server.

Und ja HPC ist als Half Price Computing verschrien. Da gibt es schon ordentliche Rabattschlachten, weil es teils Prestige ist teils aber auch für die Hersteller wahrscheinlich einfacher zu machen ist als der Business Bereich. Die werden schön gemolken, weil sie oft klein sind und SLAs wollen. Zudem weiß man, das wenn da was klemmt es die richtig Asche kostet. Da wird also gar nicht so gefeilscht.

Das mit Intel stimmt so bedingt. Omnipath ist tot und viele akzeptieren das auch gar nicht. Zudem wurde ja Omnipath verkauft.

Also alles gar nicht so einfach. Eins muss einem aber klar sein. Wenn Intel einen Deal gewinnen will, dann werden Sie den auch sehr sehr sehr sicher gewinnen. Bei den ganz großen Systemen muss sich das aber auch Intel überlegen weil auch Intel sich schwer tut 10k+ CPUs zu verschenken oder sogar noch Geld drauf zu legen.

Ein anderer Punkt, bei dem ich aber widersprechen muss ist womit man Geld verdient. Vielleicht war das früher mal so, aber heutzutage ist Support schon mit drin und "Erweiterungen" werden direkt mit angefragt. Das ist also alles schon eingepreist. Es gibt nach 3-5 Jahren teils ne Erweiterung, die einfacher Vergeben wird, aber meist steht das schon beim Kauf fest und ist dann eingepreist oder es wird ne komplett neue Ausschreibung und dann geht das Spiel wieder von vorne los... wir haben auch Systeme die Frankensteins sind.

Früher hat sich das nicht gelohnt alte Systeme weiter zu betreiben, aber heute sind die Fortschritte einfach so klein geworden das es sich lohnt Hardware auch noch im Jahr 7 oder 8 oder 9 weiter zu betreiben....

Eine andere Sache ist, das immer mehr Systeme durch Power und Kühlung limitiert sind. Das ist dann auch für die Hardware Hersteller ein Problem, da billiger teils einfach nichts bringt. Das Budget ist ja vorgegeben zu sagen wir geben dir ne Million zurück sind dafür aber x% langsamer als der Erste ist meist kein Valides Angebot.

fondness

2021-05-15, 10:01:02

Die Ausschreibung für Frontier geht noch auf Zen1 Zeiten zurück. Da hatte es AMD schon nötig diese Rabatte zu geben.

Aber auch weiterhin hat AMD es nötig die Extrameile für einen Auftrag zu gehen. CPUs sind nur ein kleiner Teil eines HPC Systems, das bisschen Oberwasser was man dort aktuell hat würde ich nicht überbewerten in der Summe. Alleine der RAM wird teurer sein als die CPUs zusammen und da redet hier kein Mensch drüber.
Ein viel größerer Anteil am HPC Cluster ist der Interconnect bzw. Netzwerkequipment. Und da hat Nvidia mit Mellanox eine extrem starke Position. Und auch Intel hat da eigene Produkte und kann dann im Gesamtpaket bessere Rabatte einräumen. Auch bei den Beschleunigern die mittlerweile bei vielen Systemen den überwiegenden Teil ausmachen ist CDNA nicht sehr beliebt und AMDs DP/64bit Strategie ein bisschen vorbei am allgemeinen Markttrend zu 16/32bit FP für AI/Simulation.

Man kanns auch übertreiben. Ja, der RAM ist auch nicht billig, aber es ist kein Performance-kritischer Teil, den es nur von einem Hersteller gibt. Ergo da kann man den nehmen, der den besten Preis bietet. Das kleine AMD, gerade damals als diese Deals ausgehandelt wurden ein Zwerg in diesem Business und nahe an der Zahlungsunfähigkeit hat 2 der 3 großen HPC Deals dieses Zyklus abgestaubt. Das schafft man nur mit überlegenen Produkten. Und nein, niemand hatte etwas konkurrenzfähiges. Das ist nicht vergleichbar mit irgendwelchen RAM oder Netzwerkequipment-Herstellern. Der eine Deal den Intel abgestaubt hat musste AFAIK schon einmal nach hinten verschoben werden und die Leistungsangaben wurden auch schon gestutzt. Das man mit solchen Prestige-Produkten kein Vermögen macht ist klar, aber niemand hatte eine bessere Position als AMD.

HOT

2021-05-18, 09:32:04

Warhol verdichtet sich:
https://www.computerbase.de/2021-05/amd-ryzen-5000xt-neue-hinweise-auf-refresh-mit-b2-stepping-und-bis-zu-5-ghz/
Es ist offenbar einfach ein B2, scheint N7 zu bleiben (wie auf der Roadmap) und ich vermute ja hinter dem X570S und auch hinter Warhol ebenfalls ein neues Stepping des IOD (oder einen Sprung auf 12LP+).

Computerbase denkt immer noch, dass Warhol Zen3+ in N6 wäre, das war mMn nie so geplant. Das ist Warhol. Ich hab auch von Anfang an gesagt, dass das nur ein XT wird.

w0mbat

2021-05-18, 12:58:13

Wieso ein neues stepping? Es kann ja nur um bessere yields gehen, sonst würde es keinen Sinn machen. Das selbe gilt für den IOD, wieso sollte man sich die Mühe machen den neu aufzulegen?

amdfanuwe

2021-05-18, 13:32:32

Masken nutzen sich ab. Wenn da eh neue fällig werden, kann man auch gleich ein paar Bugs beheben und Optimierungen zur Performance und Yieldsteigerung durchführen.

mapel110

2021-05-18, 13:34:15

Glaube nicht, dass man für ein neues Stepping einen extra Codenamen verwenden würde.

Savay

2021-05-18, 14:34:59

Lucienne und Renoir?!

Denniss

2021-05-18, 14:36:35

Durchaus möglich wenn der I/O-Chip getauscht wurde.

HOT

2021-05-18, 14:56:55

Lt. OPN ist es weiterhin Vermeer lt. Shur.

Der_Korken

2021-05-18, 15:48:18

Zen+ hatte auch eigene Codenamen (Pinnacle Ridge), obwohl es auch der selbe Die in einem neuen Stepping war (und 12nm statt 14nm). Ein sparsamerer IOD durch 12nm+ würde auch nochmal etwas Leistung bringen, weil den Kernen dann mehr übrig bleibt. Wenn Zen 4 noch mindestens ein Jahr braucht für den Desktop, warum nicht?

Thunder99

2021-05-18, 18:21:53

Bietet überhaupt einen verbesserten 12nm Prozess an? Was könnte noch am Chip verbessert worden sein?

y33H@

2021-05-18, 22:08:02

Ja, 12LP+ statt 12LP.

w0mbat

2021-05-18, 22:59:43

Also ist die Idee, dass AMD für die X570S Mobos eh nen neues IOD in 12LP+ aufgelegt hat, der jetzt auch auf die CPUs kommt?

Aber wieso macht AMD das? Braucht man neue X570er?

HOT

2021-05-18, 23:30:14

Weil es wenig Aufwand ist und wenig kostet, aber man dennoch neue Produkte bringen kann. Zudem kann man etwas mehr Leistung liefern, was die CPUs etwas von den RKLs absetzt.
Ob das jetzt wirklich nötig ist, wo man eh 100% absetzt, ist die Frage. Vllt. erhofft man sich schlichtweg höhere Preise und höhere Margen.

Denniss

2021-05-18, 23:53:59

12LP+ sollte den Stromverbrauch reduzieren, sowohl unter Last auch im Idle.
Ggf lässt sich bei vollständiger Portierung (Shrink) auch noch ein wenig Fläche sparen also mehr Dies pro Wafer.
Ist der I/O-Die vom Zen3 Epyc eigentlich noch in 14nm wie der alte oder gab's hier auch schon was neues?

spotz

2021-05-20, 01:03:41

Da mir HOTs Idee mit dem neuen I/O Die in 12LP+ gefällt, werfe ich mal eine Variante hinein: Vielleicht gibt es die nur für Epyc und Threadripper, weil Neuerungen wie DDR 5 und PCI 5 bei Server und Workstations am meisten Sinn ergeben? Dann gibt es für alle das Zen3 B2 Stepping, aber die Ryzen bekommen als XT Ausführung weiterhin das alte I/O Die, während das neue I/O Die in 12 LP+ für die Epyc und Threadripper genutzt wird.

Ergäbe das Sinn?

HOT

2021-05-20, 08:43:01

Epyc hat doch AFAIK schon ein verbessertes IOD seit Milan.

w0mbat

2021-05-20, 10:08:09

https://videocardz.com/newz/amd-confirms-b2-stepping-for-ryzen-5000-series-brings-no-functionality-or-performance-improvements

B2-Stepping offiziell von AMD bestätigt, wird das alte einfach ersetzen. Kein neuer Name, nicht schneller. Bug-fixing wahrscheinlich.

As part of our continued effort to expand our manufacturing and logistics capabilities, AMD will gradually move AMD Ryzen 5000 Series Desktop Processors to B2 Revision over the next 6 months. The revision does not bring improvements in terms of functionality or performance, furthermore, no BIOS update will be required.

Thunder99

2021-05-20, 10:49:08

Da keine BIOS Updates gebraucht werden gehe ich davon aus, dass es weiterhin der alte I/O verbaut wird. Lassen wir uns überraschen :)

OgrEGT

2021-05-20, 10:53:14

Da keine BIOS Updates gebraucht werden gehe ich davon aus, dass es weiterhin der alte I/O verbaut wird. Lassen wir uns überraschen :)

Auf was bezieht sich B2 Stepping? Auf das Chiplet den IOD oder beides? Es sind ja 2 Chips und jeder hat ein eigenes Stepping...

Thunder99

2021-05-20, 19:09:23

Nur der Kern Chiplet, denke ich. Ob der I/O auch erneuert wird mit der 12LP+ müssen wir wohl abwarten.

HOT

2021-05-21, 08:25:32

https://www.techpowerup.com/282463/amd-ryzen-6000-notebook-roadmap-leaked

Eine Roadmap mit Farbcodierung für Plattformen, scheint was zu taugen.

CrazyIvan

2021-05-21, 08:34:30

Der gleiche Mensch hat im selben Atemzug verkündet, dass Van Gogh tot wäre.
https://mobile.twitter.com/Broly_X1/status/1395434495923343364

Möglicherweise haben AMD und der potenzielle Kunde erkannt, dass man sich mit so nem Chip im anvisierten Segment lächerlich macht.

Leonidas

2021-05-21, 09:28:32

Vielleicht hat man auch einfach nicht die Wafer dafür. Der Refresh von van Gogh soll ja trotzdem kommen - mit gleicher Technik.

amdfanuwe

2021-05-21, 09:47:00

dass man sich mit so nem Chip im anvisierten Segment lächerlich macht.
Warum?

CrazyIvan

2021-05-21, 10:39:54

Du weisst schon - wegen des Chips, dessen Namen man nicht nennen darf :wink:
Nein im Ernst - bei 9w TDP und einem Segment namens Special Form Factor drängt sich der Vergleich zum M1 unweigerlich auf. Und ja, im x86 Bereich dürfte Van Gogh sicher ganz gut dastehen.

amdfanuwe

2021-05-21, 11:27:35

OK, seh ich ähnlich.
Solange Apple ihre Chips nicht an Dritte weiterverkauft, seh ich Apple nicht als Konkurrenz für AMD.
Renoir mit ZEN2 macht sich im Mobile ganz gut, Van Gogh mit besserer Graphik und nur einem CCX hätte wohl nicht schlecht dagestanden. Eventuel direkt mit 8/16 GB RAM on Package wie beim M1.
Für Tablets , Surface oder ähnliches schon interessant.

Nightspider

2021-05-21, 12:27:07

Lässt sich Zen3 eigentlich nicht auf 4 Kerne reduzieren?

Irgendwie will doch auch keiner mehr Zen2 wenn Zen3 quasi 30% effizienter ist.

CrazyIvan

2021-05-21, 12:45:35

Lässt sich Zen3 eigentlich nicht auf 4 Kerne reduzieren?

Irgendwie will doch auch keiner mehr Zen2 wenn Zen3 quasi 30% effizienter ist.
Doch, sicher. Aber das wäre deutlich mehr Aufwand, als das bereits fertige 4C CCX von Zen 2 zu verwenden. Außerdem würde man sicher den L3 verkleinern und damit einen guten Teil des Gewinns von Zen 3. Möglicherweise würden die sich unterm Strich dann nicht mehr viel nehmen. Und bei den 30% bin ich noch skeptisch. Ich weiß, dass das bei den Desktop SKUs anscheinend so ist, wenn man bspw. 3600X vs. 5600X misst. Aber ich hoffe da noch auf einen Apples to Apples Vergleich von Renoir und Cézanne.

amdfanuwe

2021-05-21, 13:48:03

Da müßte man mal 5400U Cezanne mit 5300U Lucienne bei gleichem Takt vergleichen.
Wobei Cezanne noch 8MB L3 Cache hat und mit 200MHz höherem Turbo angegeben ist.
Bei 9W mit gleichem Cache dürfte ZEN3 keinen bemerkenswerten Vorteil haben.

mboeller

2021-05-21, 17:58:53

https://www.techpowerup.com/282463/amd-ryzen-6000-notebook-roadmap-leaked

Eine Roadmap mit Farbcodierung für Plattformen, scheint was zu taugen.

Rembrandt wird aber ein großes Update. LP-/DDR5, USB-4 und der ominöse HSP. Weiß inzwischen jemand für das "HSP" steht?

w0mbat

2021-05-21, 18:07:37

High-Super-Performance

davidzo

2021-05-21, 18:24:20

Rembrandt wird aber ein großes Update. LP-/DDR5, USB-4 und der ominöse HSP. Weiß inzwischen jemand für das "HSP" steht?

Nice, mit USB4 ist endlich der Kritikpunkt der fehlenden Thunderbolt Unterstützung ausgemerzt.
eGPUs ihr könnt kommen!

Aber WTF ist HSP?
Hat das irgendwas mit CVML zutun? klingt irgendwie nach HSA, aber das ist ja schon lange Geschichte.

mboeller

2021-05-21, 18:55:18

würde das hier Sinn machen: https://en.wikipedia.org/wiki/Host_signal_processing

amdfanuwe

2021-05-21, 19:41:59

Also sowas wie Intels NSP? Wo wird das genutzt?

davidzo

2021-05-21, 20:15:51

würde das hier Sinn machen: https://en.wikipedia.org/wiki/Host_signal_processing

ein bisschen out of context, etwas mehr musst du schon dazu schreiben was du damit meinst. Die Zeiten von 56k softmodems sind jedenfalls vorbei
Und falls du das auf USB4 beziehst, dann mache bitte nächstes mal einen Quote oder schreibe das in deinen Satz mit rein.

Thunderbolt 3+4 nutzen PCIe 3.0 signaling und man könnte damit eigentlich für den TB part tatsächlich einfach PCIe Lanes der CPU nutzen. Ungefähr so macht Apple das ja beim M1, die verbauten Intel JHL8040R sind lediglich Retimer. Wieviel Aufwand dann noch für den USB-Part und die dort erforderliche Abwärtskompatibilität gebraucht wird oder ob man wirklich x-beliebige PCIe lanes nehmen kann, das kann ich nicht einschätzen. Ich vermute mal da muss man schon einiges im SoC für ändern, sonst würden Partner das ja mit Cezanne schon anbieten können.

KarlKastor

2021-05-21, 21:09:43

Nice, mit USB4 ist endlich der Kritikpunkt der fehlenden Thunderbolt Unterstützung ausgemerzt.
eGPUs ihr könnt kommen!

Abwarten. Ein Mac book hat auch USB 4. Eine eGPU würde aber wohl kläglich verhungern.

Savay

2021-05-21, 21:38:06

klingt irgendwie nach HSA, aber das ist ja schon lange Geschichte.

Wieso und wo ist das denn Geschichte?!
U.a. das auch SAM so gut funktioniert basiert doch letztlich überhaupt auf HSA, HMM und IOMMUv2 oder nicht?! ;)
Da gibt es doch eh unterschiedliche Level.
Was den APUs aktuell halt zur letzten Konsequenz fehlt ist Unified Main Memory statt dem Partitioned Main Memory wie bisher noch.

mboeller

2021-05-21, 22:21:19

ein bisschen out of context, etwas mehr musst du schon dazu schreiben was du damit meinst. Die Zeiten von 56k softmodems sind jedenfalls vorbei

ich hatte mehr in Richtung Media Signal Processing gedacht. Ob das Sinn macht, kann ich nicht beurteilen. ASIC sind normalerweise wesentlich effizienter, aber nicht flexibel bei neuen Codecs.

davidzo

2021-05-21, 23:00:48

Abwarten. Ein Mac book hat auch USB 4. Eine eGPU würde aber wohl kläglich verhungern.

USB4 beinhaltet immer thunderbolt3, das ist Teil der Spezifikation.
Und nein, abseits von schlechten partnerdesigns (TB nur mit x2 Lanes angebunden, etc.) und völlig unrealistischen setups (3090 mit einem Labtop der schon eine 3070 hat) verlierst du praktisch nur 10-15% unter FHD. Erst recht in 4K, da ist der Leistungsverlust im einstelligen Prozentbereich.

Die paar Tests der mainstream Hardwareseiten und Youtuber die in letzter Zeit hier aufpoppen sind leider zu oberflächlich. Der8auer und Igor haben ungeeignete Notebooks genommen (die schon eine fette dGPU mit Optimus hatten und entsprechend ressourcenprobleme haben), leistungsfressende settings mit rückspiegelung des monitorinhalts über optimus etc. verwendet. Diese Tests von eGPU-Anfängern kann man in die Tonne treten, da ist es sinnvoller sich mal die realen User-Konfigurationen auf egpu.io anzuschauen.

Wieso und wo ist das denn Geschichte?!
U.a. das auch SAM so gut funktioniert basiert doch letztlich überhaupt auf HSA, HMM und IOMMUv2 oder nicht?!
Da gibt es doch eh unterschiedliche Level.
Was den APUs aktuell halt zur letzten Konsequenz fehlt ist Unified Main Memory statt dem Partitioned Main Memory wie bisher noch.

AMD hat das komplett aufgegeben um Entwicklungsabhängigkeiten der CPU und GPUteams aufzulösen. Daher findest du das auch in keinerlei Marketingmaterialien von AMD der letzten 3 Jahre mehr erwähnt, HSA ist praktisch Geschichte.
SAM hat damit nichts zutun, da wird einfach nur in größeren Chunks in den VRAM kopiert und die IOMMU ist einfach noch mit dabei weil man sie für Virtualisierung braucht und sie fester Bestandteil von x86 CPUs seit dem Core 2 Quad ist.
HSA heißt zero copy. Langfristig wollte AMD aber dass die CPU auch Ressourcen der GPU nutzen, also z.B. bei floatingpoint Workloads auf die Alus der GPU zurückgreifen kann. Unified Memory ist für HSA da nur der erste Schritt.

Nightspider

2021-05-22, 02:58:06

Bei 9W mit gleichem Cache dürfte ZEN3 keinen bemerkenswerten Vorteil haben.

Als ob der Cache den großen Unterschied gemacht hätte.

Zen3 ist Zen2 deutlich überlegen und das auch abgesehen vom Cache.

mboeller

2021-05-22, 17:20:30

Rembrandt wird aber ein großes Update. LP-/DDR5, USB-4 und der ominöse HSP. Weiß inzwischen jemand für das "HSP" steht?

ich zitiere mich mal selbst.

Bei der GPU kann man doch ca. die 3-fache Leistung von Renoir erwarten, oder?
LP-/DDR5 + 12 RDNA2 CU's sollten für ausreichend mehr Bandbreite (~Faktor2) bei gleichzeitig verringertem Bandbreitenbedarf sorgen und damit die Rembrandt iGPU selbst ohne Infinity Cache massiv schneller werden als zB. Renoir.

Der_Korken

2021-05-22, 18:06:35

Bei der GPU kann man doch ca. die 3-fache Leistung von Renoir erwarten, oder?
LP-/DDR5 + 12 RDNA2 CU's sollten für ausreichend mehr Bandbreite (~Faktor2) bei gleichzeitig verringertem Bandbreitenbedarf sorgen und damit die Rembrandt iGPU selbst ohne Infinity Cache massiv schneller werden als zB. Renoir.

Wo soll die Effizienz herkommen? Das Powerbudget steigt nicht um Faktor 3 an. Die Vega-iGPU von Renoir/Cezanne ist nicht mit V20 vergleichbar. Was letztere an max. OC geschafft hat (2Ghz), läuft ein 5800U @stock, d.h. da wird taktmäßig nicht so viel zu holen sein. Oberhalb von 2Ghz geht bei RDNA2 der Verbrauch stark nach oben und die iGPU braucht maximale Effizienz. Doppelte Leistung wäre schon extrem gut in 6nm imho.

KarlKastor

2021-05-22, 21:16:07

USB4 beinhaltet immer thunderbolt3, das ist Teil der Spezifikation.

Keine Ahnung wo du den Quark her hast, aber bestimmt nicht aus den Spec. Da steht ganz klar optional drin.

reaperrr

2021-05-22, 21:24:22

ich zitiere mich mal selbst.

Bei der GPU kann man doch ca. die 3-fache Leistung von Renoir erwarten, oder?
LP-/DDR5 + 12 RDNA2 CU's sollten für ausreichend mehr Bandbreite (~Faktor2) bei gleichzeitig verringertem Bandbreitenbedarf sorgen und damit die Rembrandt iGPU selbst ohne Infinity Cache massiv schneller werden als zB. Renoir.
Sorry, aber die seltsame Bandbreitenrechnung kann ich nicht nachvollziehen.

Der Bandbreiten-Bedarf bei gleicher Leistung mag sinken, aber 12 RDNA2-CUs verteilt auf 2 ShaderArrays und mit doppelten ROPs werden auch knapp doppelt so viele Pixel pro Takt durchhauen.
Ergo, der komplette Bandbreitenvorteil wird mMn komplett durch die knapp doppelte Leistung je MHz und damit einhergehenden wieder steigenden Bandbreitenhunger aufgefressen.
Will nicht ausschließen, dass die Rembrandt-IGP @ ~2Ghz noch etwas besser mit mehr Takt skaliert als Vega8 in Renoir/Cezanne, aber für viel mehr als doppelte Leistung wird die Bandbreite mMn nicht reichen, darüber wird die Skalierung massiv nachlassen.

w0mbat

2021-05-27, 12:08:22

Ich finde es interessant, dass wir weiterhin fast nichts über einen "Zen3+" wissen.

Zen3 wird aktuell auf das B2-Stepping umgestellt, das wissen wir. Würde AMD das machen, wenn im H2 schon ein "Zen3+" kommen würde?

Dazu wird schon fleißig über Zen4 und sogar Zen5 spekuliert, aber bei "Zen3+" wissen wir nicht einmal, ob es diesen überhaupt gibt. Sehr seltsam das ganze...

rentex

2021-05-27, 12:59:52

Wenn ZEN3+ nicht AMDs "Geheimwaffe" gegen Alder Lake ist, werden wir keinen ZEN3+ im DT Bereich sehen.

Thunder99

2021-05-27, 13:44:41

Es wurde nur von der Community angenommen, dass sowas kommen könnte. Ich glaube daran mittlerweile nicht mehr dran. Eher an die selektierten XT CPUs um AlderLake zu kontern.

mboeller

2021-05-28, 10:49:08

würde das hier Sinn machen: https://en.wikipedia.org/wiki/Host_signal_processing

https://www.techpowerup.com/forums/threads/intel-unveils-a-clean-slate-cpu-core-architecture-codenamed-sunny-cove.250571/

Lastly there's "Golden Cove," slated for 2021. Here Intel could take advantage of a newer silicon fabrication process (either an extremely refined 10 nm-derivative or even 7 nm EUV), to increase IPC (single-thread performance). In addition, Intel will improve the core's "AI performance" (probably the ability to multiply matrices), and improved host-signal processing for 5G and networking.

HSP scheint wirklich host signal processing zu sein.

amdfanuwe

2021-06-01, 04:57:00

ZEN3+ = ZEN3 + 64MB Cache stacked. Zumindest für die Chiplet basierten CPUs.
Also Warhole Ende des Jahres mit ~15% besserer Gaming Performance durch stacked Cache.
Jetzt wissen wir auch, was die grün markierten Strukturen im Cache Bereich auf dem ZEN3 Chiplet bedeuten, werden die TSV sein.
https://i.redd.it/pa9c5mu9y2y51.jpg

robbitop

2021-06-01, 06:56:28

Gibt es dafür eine Quelle? Für den stacked Cache für Zen 3.

edit:
Hab gerade die Computex Präsi auf youtube gesehen. Habe ich wohl verpasst und nehme meine Frage zurück. :D

CrazyIvan

2021-06-01, 06:59:10

Wow, das kam für mich unerwartet.
Hat AMD doch tatsächlich die ganze Zeit bereits TSVs dafür im Zen 3 CCD gehabt und niemand hat es bemerkt. Damit hat man Intel beim "Game Cache" mal locker um zwei Generationen geschlagen. Bin sehr gespannt auf erste Latenzanalysen.

@robbitop
https://www.anandtech.com/show/16725/amd-demonstrates-stacked-vcache-technology-2-tbsec-for-15-gaming

Edit 2:
Und Chapeau an amdfanuwe. Der Marketing Slide bestätigt die Platzierung oberhalb des L3. Die eigentlichen Kerne haben aus thermischen Gründen nur totes Silizium on top.

robbitop

2021-06-01, 07:02:55

Hab gerade die Computex Präsi auf youtube gesehen. Habe ich wohl verpasst und nehme meine Frage zurück. :D

Ein so großer Cache wird in vielen (aber nicht allen) Spielen einen signifikanten Performancesprung erzeugen. Die Cachehitrate wird enorm sein. Dass man den Cache auf den CCDs stacket ist ein Indikator dafür, dass die Latenz grundsätzlich gut sein sollte von der Intension her.

Ob das Stacking außerhalb von Prototypen - also in der Serie - auch auf dem CCD (und nicht unter ihm) bleibt, wird interessant zu sehen sein. Thermisch sollte es besser sein, den Core mit der höheren Energiedichte ganz oben zu haben, um die thermische Leistung mit dem geringsten thermischen Widerstand an den Kühler abgeben zu können.

Für mich sieht es in Lisa's Präsentation so aus, als wäre das kein weiterer Cache Level sondern eine Erweiterung des L3 Caches mittels Stacking.
Wenn von der uArch nichts anderes vorgesehen ist, ginge das wahrscheinlich mit Zen 3 auch gar nicht anders. Entsprechend gut sollte die Latenz sein.

Mit 36 mm² kommt mir die Dichte für 64 MiB SRAM auch erhöht vor. 1,77 MiB / mm². War man bei Zen 3 und Navi21 da nicht etwas drunter in 7 nm?

Mit diesem Chipletansatz könnte man auch eDRAM stacken. EDRAM erfordert spezifische Fertigungsprozesse, die nicht zwangsweise ideal für ihre CCDs waren. Aber in einem separaten Die wäre das ggf. was anderes. Damit wären deutlich höhere Speicherdichten möglich. Aber ggf. würde die Latenz leiden und das müsste dann ein L4 werden. Kann sein, dass es am Ende doch besser ist, SRAM zu nehmen.

Ich bin beeindruckt und begeistert zugleich! :)

Loeschzwerg

2021-06-01, 07:28:55

Für mich sieht es in Lisa's Präsentation so aus, als wäre das kein weiterer Cache Level sondern eine Erweiterung des L3 Caches mittels Stacking.

Ja, so habe ich das zumindest auch verstanden.

HOT

2021-06-01, 07:36:02

robbitop

2021-06-01, 07:40:55

Ich sehe das auch so. Out of the blue. Für einen Prototypen baut man das nicht in Zen 3 ein. Ich vermute auch, dass es ein konkretes Produkt geben wird.

Loeschzwerg

2021-06-01, 07:46:27

Das ist AMDs ADL-Killer.

Ja, die 15% Plus im Schnitt dürften dafür locker reichen. UND es bleibt auch noch alles kompatibel zur bisherigen Plattform. Das ist schon richtig genial =)

mironicus

2021-06-01, 07:54:17

Das soll also Warhol sein? Zen 3 + Gaming Cache?

Hm... was für Vorteile hat denn so ein großer Cache noch?

dildo4u

2021-06-01, 07:55:51

Klar ich vermute wird haben noch über ein Jahr bis Zen 4.

Zossel

2021-06-01, 08:05:46

ZEN3+ = ZEN3 + 64MB Cache stacked. Zumindest für die Chiplet basierten CPUs.

Cache stacked on top in Serie.

Das hat Potential für APUs um den DRAM-Flaschenhals zu umgehen. Oder für einen [ED]RAM-L4 auf dem IO-Die.
Einige Server Anwendungen werden davon auch profitieren. Bleibt die Frage was der Spaß kosten wird.

rentex

2021-06-01, 08:10:22

Hut ab AMD, das kam ziemlich überraschend.
Da ich rausgehört haben will, das alle Ryzen 9 CPUs (5900X und 5950X) die Cache Erweiterung bekommen sollen, wird es wohl nicht billig.
Da fragt man sich, welche Performancesteigerung für ZEN4 zu erwarten ist?

Nightspider

2021-06-01, 08:32:09

In welchem Fertigungsprozess wird der Cache produziert?

So ein optionaler Cache auf Rembrandt würde die 12 RDNA2 CUs komplett entfesseln.

fondness

2021-06-01, 08:39:56

Das ist AMDs ADL-Killer. Ich tippe mal auf 5800XT mit 96MB und 59x0XT mit 192MB. Wenn die das mit Performance ankündigt ist das in trockenen Tüchern. Was für Coup, hammer.

Vermutlich war das als ganze Generation geplant, aber man belässt es bei den XT-Varianten, weil unnötig.

Das ist eben der Unterschied, Intel macht schöne Folien und AMD liefert. AMD ist mittlerweile auch bei den Packaging Verfahren klar führend. Intel schafft es mit Sapphire Rapids gerade mal den Zen1 Ansatz zu kopieren.

CrazyIvan

2021-06-01, 08:55:11

In welchem Fertigungsprozess wird der Cache produziert?

So ein optionaler Cache auf Rembrandt würde die 12 RDNA2 CUs komplett entfesseln.
Angeblich TSMC 7nm.

Nightspider

2021-06-01, 08:56:08

Wäre das nicht bisschen sehr teuer? :O

HOT

2021-06-01, 08:57:33

Lt. Ian von Anandtech verzögert sich SR ins nächste Jahr, nur nebenbei.

Unicous

2021-06-01, 08:57:38

@Nightspider

Soll in 7nm gefertigt sein.

Ich schätze für "normale" APUs ist das zu teuer, die Preise die AMD für die High-End APUs abruft sind ja schon ziemlich gesalzen. Special interest Chips wie z.B. Van Gogh könnten hingegen je nach Einsatzzweck extrem von solch einem Cache profitieren.

Bei einem 36mm² großen Die (allein das ist schon extrem klein, 32 MB L3 Cache sind bei Zen 3 27mm² groß, ich vermute mal das das gestacked ist :uponder:) sollten sich Fragen zum Yield nicht stellen, daher dürfte der Cache an sich relativ günstig herzustellen zu sein. Dennoch ist es 7nm und daher die Wafer entsprechend teuer.

Es steht im Raum, dass AMD bei Navi ähnlich verfährt. Die Leaks gehen ja schon in die Richtung, dass es einen extra Cache Die gibt. Sehr spannend.

fondness

2021-06-01, 08:59:18

Es steht im Raum, dass AMD bei Navi ähnlich verfährt. Die Leaks gehen ja schon in die Richtung, dass es einen extra Cache Die gibt. Sehr spannend.

War auch mein erste Gedanke, dass sich das für den Infinity Cache bei den GPUs geradezu anbietet.

/Edit: Auch nicht schlecht, der L3 hat damit mehr Bandbreite als der L1 Cache. :D

AMD claims that the total bandwidth of the L3 cache increases to beyond 2 TB/sec, which would technically be faster than the L1 cache on the die (but with higher latency).

https://www.anandtech.com/show/16725/amd-demonstrates-stacked-vcache-technology-2-tbsec-for-15-gaming

Der_Korken

2021-06-01, 09:54:17

Interessant, damit habe ich nicht gerechnet. Die zusätzliche Wafer-Space scheint sich bei 36mm² auch in Grenzen zu halten. Ich wusste gar nicht, dass man unterschiedlich große Dies stacken kann, weil der Kühler bzw. Heatspreader sonst nicht überall aufliegt. Hier bin ich mal gespannt, wie das bei AMD in der Praxis aussieht mit den Temps. Man muss aber sagen, dass der Cache-Anteil dadurch echt extrem wird. Vom Wafer-Space her sind wir bei 2/3 L3-Cache und 1/3 Rest, wobei man von letzterem eigentlich noch den L2 abziehen muss, aber also eher 3/4 zu 1/4 :freak:. Die Latenzen werden auch spannend. Hier könnte das Stacking ein Vorteil sein, weil die Cache-Zellen näher zusammenliegen, d.h. die gegenüberliegenden Ecken sind geometrisch weniger weit voneinander entfernt als wenn man das komplett planar bauen würde. Schlechter werden sie bestimmt, fragt sich nur wie viel.

mboeller

2021-06-01, 09:54:50

Wäre das nicht bisschen sehr teuer? :O

Naja, ich glaube die Bonding-Technik für die TSV dürfte das teuerste daran sein.

sehr grob:
10000,- Dollar pro Wafer, ca. 1900 Die pro Wafer ... also so 6 Dollar pro 36mm² Cache.

CrazyIvan

2021-06-01, 09:59:09

@Der_Korken
Einfach mal in den Anandtech Artikel reinschauen. Der Cache ist direkt über dem bisherigen L3. Über den Kernen ist totes Silizium für den Niveauausgleich.

Unicous

2021-06-01, 10:06:49

mboeller wo hast du denn diese Mondpreise schon wieder her?:confused:

robbitop

2021-06-01, 10:24:52

AMD ist mittlerweile auch bei den Packaging Verfahren klar führend.
Du meinst TSMC, oder?

w0mbat

2021-06-01, 10:32:52

TSMC und AMD entwickeln das schon zusammen.

Wenn "Zen3+" aka "Zen3+3DV" 15% schneller ist als Zen3, dann muss Zen4 aber einiges drauflegen.

Intel verschied Sapphire Rapids nach 2022 und AMD kündigt 3D-Stacking Produktion in 2021 an. Irgendwas läuft bei Intel schief :ugly:

Jetzt machen auch die neuen X570S Mobos Sinn, der ADL-Killer kommt auf AM4, es lohnt sich für die OEMs also weiter zu investieren.

Denniss

2021-06-01, 10:34:34

wenn das wirklich mit Zen3 kommt dann erklärt das vielleicht das ominöse B2 stepping. Da könnten die Chiplets schon vorbereitet sein für den stacked L3 aber den noch nicht verbaut haben.

davidzo

2021-06-01, 10:39:04

Krass, ich hätte echt nicht damit gerechnet dass AMD auf den winzigen Chiplets schon Platz für TSVs eingeplant hat und das vor Allen bisher geheim halten konnte, Intel eingeschlossen. Fritzchens fritz und Roman Hartung haben doch auch CPUs aufgesägt?! wie können ihnen dann die massiven Kupfersäulen entgangen sein?

Das kontert natürlich wieder alle Bemühungen Intels in Richtung führende IPC.
Ich kann mir aber vorstellen dass die Kühlung hier extrem aufwändig wird. Also +10-20°C Offset durch den zusätzlichen Temperaturwiderstand würde ich schon rechnen.
Das heißt man muss die maximaltaktraten senken. Kein wunder dass Lisa auf festen 4Ghz vergleicht, viel höher geht das wahrscheinlich nicht.
Wenn von den 15% performance uplift auch nur 10% übrig bleiben, bei besserem verbrauch wäre das aber auch immerhin mehr als wir uns von zen3+ erwartet hätten.

Hat schon jemand heraus gefunden in welchem process node der 64mb cache gefertigt wird?
EDIT: TSMC 7nm

Ians vergleich mit Broadwell ist sehr angebracht, das nimmt ein bisshen den hype raus und macht das ganze anfassbarer:

On the performance, we’ve seen L3 cache depth improve gaming performance, both for discrete and integrated gaming. However, increased L3 cache depth doesn’t do much else for performance. This was best exemplified in our review of Intel’s Broadwell processors, with 128 MB of L4 cache (~77 mm2 on Intel 22nm), wherein the extra cache only improved gaming and compression/decompression tests. It will be interesting to see how AMD markets the technology beyond gaming.

Okay, AMD nutzt SRAM, kein EDRAM was performance und Flächen- Implikationen hat. Die Bandbreite ist auch rund 10-20x höher. Der L4 von broadwell hat rund 100gb/s, während AMD biszu 2tb/s claimt. Der normale L3 cache hat 1tb/s, vorrausgesetzt der externe wird als zusätzlicher channel angesprochen, hat er ebenfalls 1tb/s. Also kombiniert bis zu 64mb bei 2tb/s, die restlichen 32mb mit 1tb/s.

Das nette daran ist dass man damit endlich die Mär beendet dass Gaming hohe Taktraten braucht.
Voila, hier ist der Gaming Prozessor der schon bei 4Ghz jedes Hochtakt, Hoch-IPC Design mit 5,3Ghz schlägt.
Gaming braucht niedrige Latenzen. IPC Verbesserungen die nichts mit Latenzen oder indirekt Sprungvorhersage zutun haben, sieht man kaum. Taktraten sind eines um latenzen zu verringern, Cache ist da aber viel smarter.

Das erinnert mich an die Leute die per CT-479-Adapter einen Dothan mit massiven 2mb L2 Cache auf den Desktop gebracht haben, auf 2,7Ghz oct und damit in gaming alles was sich sonst auf dem markt befand aufgewischt haben.

Intel muss sich gerade ganz schön in den Arsch beißen damals die falsche Abzweigung genommen zu haben (bei broadwell).

dildo4u

2021-06-01, 10:40:25

Vieleicht sind das die Rev B Dies sie noch keiner hat?

Unicous

2021-06-01, 10:42:06

Dural

2021-06-01, 10:44:30

OK, das ist wirklich eine Überraschung.

Bei AMD geht es ja praktisch nur noch um Cache, ich glaube ich muss meinen 5950X verkaufen :freak:

Der_Korken

2021-06-01, 10:52:13

@Der_Korken
Einfach mal in den Anandtech Artikel reinschauen. Der Cache ist direkt über dem bisherigen L3. Über den Kernen ist totes Silizium für den Niveauausgleich.

Stimmt, sieht man auch auf dem Bild. Leitet Silizium gut Wärme? Man hätte ja auch Kupfer nehmen können.

Wenn "Zen3+" aka "Zen3+3DV" 15% schneller ist als Zen3, dann muss Zen4 aber einiges drauflegen.

Ich würde die Upgrades unabhängig voneinander sehen. Durch den massiven Cache hebt AMD die "memory ceiling" stark an, d.h. die Limitierung durch Speicherlatenzen wird stark verringert. Dadurch verschiebt sich das Limit stärker in Richtung in Core-Performance. Wenn Zen 4 hier gut nachlegt (und ich denke mal das ist das Ziel von Zen 4), wird auch die Performance insgesamt stark steigen. Der Sprung von Zen3+stack auf Zen4+stack dürfte imho sogar leicht größer sein als von Zen3 auf Zen4 (beide ohne Stacks).

Man kann höchstens sagen, dass AMD etwas Performance vorweg nimmt, weil ohne diesen Zwischenschritt der Sprung von Zen 3 (ohne stack) auf Zen 4 (mit stack) sonst absolut krass gewesen wäre. Da fällt mir dieser alte ominöse reddit post ein, wo ein angeblicher AMD-Entwickler über Zen 4 gesprochen hat und von 40% IPC Uplift gesprochen hat, größtenteils durch "IF 2.0". Das wurde schon als Unsinn abstempelt, aber wenn man Zen 4 an sich und stacking zusammennimmt, sind +40% wieder möglich.

Zossel

2021-06-01, 10:55:04

Stimmt, sieht man auch auf dem Bild. Leitet Silizium gut Wärme? Man hätte ja auch Kupfer nehmen können.

Ich könnte mir vorstellen das ein gleicher Wärmeausdehnungskoeffizient wichtig sein könnte.

mironicus

2021-06-01, 10:56:35

Der zusätzliche Cache kann den Nachteil von nicht vorhandenen DDR5 sicherlich auch ausgleichen im Vergleich zu Intels neuer Alder Lake Plattform.

dildo4u

2021-06-01, 10:59:55

Wayne beides macht alles nur noch teurer als es Heute schon ist, alles ein Witz für die Zukunft der Plattform.
Ich frag mich ob 500€ euch echt noch nicht genug sind.

w0mbat

2021-06-01, 11:01:06

Könnte man eine CPU zB so designen, dass auf dem base die nur sehr wenig cache ist, und der Rest dann via 3D stacking einfach oben drauf gepackt wird? Also zB Zen3 chiplet mit 16MB cache und dann 64MB oben drauf? Klar, der stack die würde dann wohl auch über den Kernen liegen, aber mit Kupfer und Co. sollte man die Wärmeableitung verbessern können.

Dann kann man günstig und mit sehr gutem yield den L3 cache produzieren und auch die CCDs werden kleiner.

BlacKi

2021-06-01, 11:07:25

Thunder99

2021-06-01, 11:13:30

Wird die CPU dann unabhängiger gegenüber optimierten RAM? Nach dem Motto Cache schlägt aufwändige Optimierung, da diese nichts mehr bringen :confused:

Dural

2021-06-01, 11:13:31

Der zusätzliche Cache kann den Nachteil von nicht vorhandenen DDR5 sicherlich auch ausgleichen im Vergleich zu Intels neuer Alder Lake Plattform.

Das war auch mein erster Gedanke, der Cache könnte den Ram Speed etwas kompensieren.

robbitop

2021-06-01, 11:16:14

robbitop

2021-06-01, 11:22:25

@robbitop

Dir ist schon klar, dass das auf Grundlagenforschung seitens AMD basiert?:confused: Dass TSMC die physische Implementierung bzw. Produktion erforscht und entwickelt ist logische Schlussfolgerung daraus, das heißt aber nicht, dass TSMC vor ein paar Monaten AMD gefragt hat ob sie aus Spaß mal einen SRAM auf den Die stacken wollen und AMD gesagt hat: Warum nicht, schaden kann es nicht.

AMD hat dazu Patente schon vor Jahren eingereicht, https://twitter.com/underfox3

ist dafür eine besonders gute Quelle, vor zwei Jahren hat er zahlreiche Patente zu Stackung, Dummy TSVs etc. beleuchtet, die AMD eingereicht hat.

https://twitter.com/Underfox3/status/1125284578934042624

AMD hat weiterhin unzählige Ingenieure die daran forschen, auch wenn sie keine Fabs mehr haben. Ähnlich sieht es auch bei Nvidia und anderen fabless Herstellern aus.
Hilfreich, danke! :) Hm wahrscheinlich kann man das dann gar nicht so schwarz / weiß sehen.
Andererseits gibt es auch eine ganze Menge kundenagnostische Packagingtechnologien wie InfoLSI oder das hier genutzte Silicon on Wafer. Was bedeutet, dass diese kundenagnostische Dinge entweder allein oder zumindest zum größten Teil durch TSMC erforscht wurde.

Es ist auch immer ein wenig die Frage nach Technologie und Anwendung und customization und wo die Grenze verläuft.

Aber grundsätzlich ist es sicherlich zumindest ein großer Anteil, den TSMC daran trägt. Wenn auch nicht allein.

dildo4u

2021-06-01, 11:23:15

HOT

2021-06-01, 11:37:12

Der zusätzliche Cache kann den Nachteil von nicht vorhandenen DDR5 sicherlich auch ausgleichen im Vergleich zu Intels neuer Alder Lake Plattform.
DDR5 ist kein Vorteil für fast alle Anwendungen, da sich die Latenz nicht verringert und der Bandbreitenvorteil abseits von APUs vernachlässigbar ist. Immer dieser Unsinn, dass ein neuer Speicherstandard wer weiss wieviel Leistung bringt, das ist schlichtweg falsch.
Das war auch mein erster Gedanke, der Cache könnte den Ram Speed etwas kompensieren.
Da wird nix kompensiert, das DDR5 an sich keine zusätzliche Leistung bringt.

Das Ganze wird doch wieder einfach verlötet. Dann gibts doch gar keine Nachteile für das Produkt von der Wärmeableitung her. Ob der Cache jetzt noch wenige Watt mehr verbraucht, dürfte in der Gesamtbetrachtung vernachlässigbar sein. Er wird natürlich dann, weil er ja über dem CCD liegt, mit 80°C+ betrieben, was aber nichts ausmachen dürfte.

Voodoo6000

2021-06-01, 11:41:17

Da AM5 kein DDR4 unterstützt könnte Zen3 mit mehr Cache 2022 auch eine Alternative zu Zen4 sein, falls DDR5 zu teuer oder schlecht verfügbar ist.

BlacKi

2021-06-01, 11:47:15

Mann kann das Substrat des CCX kleiner schleifen damit Platz für den Cache ist und man wieder die Höhe der alten Zen 3 Modelle hat.
Intel hat das z.b bei Comet Lake gemacht um die Wärme besser abzuführen.

https://youtu.be/QawdafXy7Gs?t=490
dann gibt es unterschiedliche die höhen innerhalb von den zen3 chiplets? ausserdem wie dünn müssten die dann sein?

dildo4u

2021-06-01, 11:54:36

Das ist alles machbar guck dir an wie unterschiedlich hoch die Intel CPUs sind mann kann z.b den Heatspreader dünner oder dicker machen je nachdem wie man es braucht.

HOT

2021-06-01, 12:18:45

So wie ich das verstanden habe, stackt der Cache nur über dem Cache des CCDs und die Kerne werden mit einem Leiter überbaut.

https://www.planet3dnow.de/cms/wp-content/uploads/2021/06/gestapelt.jpg

Lisas Demo-CPU, die die da hochgehalten hat ist nur ein Demo, so sieht das final nicht aus.

Und B2 oder B0 ist dafür egal, das ist ja nur ein Metalspin. Das muss von Anfang an mit eingeplant gewesen sein.

Bewertung des Ganzen von Ian:

https://youtu.be/FqmcWOVv2eY

BlacKi

2021-06-01, 12:28:12

sieht interessant aus. ist das silizium "abfall" über den kernen? ich hätte da wenigstens kupfer genommen das leitet die wärme besser. oder gleich den heatspreader für den cache ausgeschnitten. besser als dummies drüberzukleben.

Ja, die 15% Plus im Schnitt dürften dafür locker reichen. UND es bleibt auch noch alles kompatibel zur bisherigen Plattform. Das ist schon richtig genial =)

ob das reicht? keine ahnung, aber die alte kompatibilität für die schon vorhandenen bretter und ram ist etwas was intel mit alderlake nicht bieten können wird. naja, mal sehen was die cpus kosten werden. da ist der ddr5 aufpreis vl nichtmehr ganz so schmerzhaft. 500€ cpus sind das nicht.

davidzo

2021-06-01, 12:32:25

Vieleicht sind das die Rev B Dies sie noch keiner hat?

Interessanterweise sind die aber nicht größer als die bisherigen und auch das packege scheint identisch zu sein. Die TSVs müssen im floorplan also schon mit drin gewesen sein.

Linmoum

2021-06-01, 12:54:48

AMD can stack up to 8 V-Cache stacks of 32MB on top of eachother. It is possible to disable parts of the stack or disable it alltogether in the bios

https://mobile.twitter.com/ExecuFix/status/1399671731112091649

Wer kann, der kann. :freak:

fondness

2021-06-01, 13:01:42

Mit 36 mm² kommt mir die Dichte für 64 MiB SRAM auch erhöht vor. 1,77 MiB / mm². War man bei Zen 3 und Navi21 da nicht etwas drunter in 7 nm?

Es sind jeweils 32MB Cache unterschiedlich oft übereinander gestapelt. ;)
Das Base Die hat ja auch "nur" 32Mb Cache und ansonsten würde sich das mit den bis zu 192MB auch gar nicht ausgehen.

Der_Korken

2021-06-01, 13:06:46

Es sind jeweils 32MB Cache unterschiedlich oft übereinander gestapelt. ;)
Ansonsten würde sich das mit den bis zu 192MB auch gar nicht ausgehen.

Stimmt, es müssen 32+32+32 sein und nicht 32+64 (wie ich bis vorhin dachte), sonst würde das niemals auf 36mm² Fläche passen. Das heißt, die Chipfläche steigt von 80mm² nicht auf 116 sondern auf 152mm². Das wird sicherlich ein bisschen was kosten. Theoretisch könnte man damit aber auch bei Zen 4 weiterhin auf 7nm bei den Cache-Chiplets setzen, wenn sich das in 5nm nicht lohnt. Zur Not überbaut man in der untersten Ebene den L2 und L2 shadow tags.

Edit: Wobei ... könnte man den L2 nicht auch einfach stacken? Braucht ein paar zusätzliche TSVs, aber so 2MB L2 ohne Latenzverschlechterung hätte auch was :tongue:

davidzo

2021-06-01, 13:09:18

Es sind jeweils 32MB Cache unterschiedlich oft übereinander gestapelt. ;)
Das Base Die hat ja auch "nur" 32Mb Cache und ansonsten würde sich das mit den bis zu 192MB auch gar nicht ausgehen.

Wieso, 32mb on die, 2x CCDs und 64mb stacked auf jedem CCD. Macht 192mb total L3 $

Also 2x 32mb Layer reichen. Sind die 8high Stacks gesichert, wird thermisch ziemlich schwierig, oder? Density ist identisch zum $ im compute Die, vermutlich aber weniger layer und Prozesschritte.

AMD hat mit Zen2 - Zen3 das IF-fabric und den Interconnect von der Mitte des Dies nach außen gelegt. Das hat den großen gemeinsamen 32mb L3 erst ermöglicht und ermöglicht nun das direkte 1:1 Stacking.

Gipsel

2021-06-01, 13:31:47

performance mal beiseite, aber wie bringt man das praktisch zwischen pcb und heatspreader? ich meine 2 dies sind höher als einer? ist der heatspreader ausgehöhlt? sind die 2 chips kleiner in der höhe? setzt man den cache zwischen kerne und heatspreader, was macht das temperaturtechnisch aus? irgendwie ist das komisch.Video gesehen?
Der CCD-Die wird genau wie der Cache-Die abgedünnt und nach dem Draufpflanzen des Cache-dies kommen links und rechts davon noch schmale Siliziumstreifen der entsprechenden Höhe (deren Funktion ist nur die Wärmeleitung), so daß das Gesamtkonstrukt wieder die exakt gleiche Höhe hat, wie die jetzigen CCDs und auch problemlos unter den gleichen Heatspreader paßt.
Kannst ja mal genau auf den gezeigten Prototypen schauen. Beim rechten CCD ist alles komplett (der sieht praktisch normal aus, hat aber auch die 64MB extra L3), beim linken Die haben sie die beiden extra-Siliziumstreifen weggelassen, so daß man das Cache-Die sieht.
https://cdn.videocardz.com/1/2021/06/AMD-VCACHE.jpg

=============================

Und noch hierzu:
Ob das Stacking außerhalb von Prototypen - also in der Serie - auch auf dem CCD (und nicht unter ihm) bleibt, wird interessant zu sehen sein. Thermisch sollte es besser sein, den Core mit der höheren Energiedichte ganz oben zu haben, um die thermische Leistung mit dem geringsten thermischen Widerstand an den Kühler abgeben zu können.Der Cache zieht weniger Strom als die Kerne, Stacking dort geht vermutlich also noch ganz gut. Und bei einem Cache-Die unten drunter, müßte der (mindestens) die Fläche des kompletten CCDs haben und zudem deutlich mehr TSVs besitzen, was teuer wird.

Hammer des Thor

2021-06-01, 13:35:43

Genau so etwas habe ich mir auch vorgestellt: Dass gestackte CPUs von beiden Seiten gekühlt werden!

BlacKi

2021-06-01, 13:39:16

eine frage stelle ich mir gerade selbst. warum sehen wir die performancesprünge taktnominiert nicht zwischem dem 5800x und dem 5900x/5950x? eigentlich liegt hier ebenfalls eine verdoppelung vor, aber der performance vorteil ist wohl hauptsächlich durch den taktvorteil zu erklären.

Gipsel

2021-06-01, 13:43:11

amdfanuwe

2021-06-01, 13:44:13

Und B2 oder B0 ist dafür egal, das ist ja nur ein Metalspin. Das muss von Anfang an mit eingeplant gewesen sein.

War wohl von Anfang an so geplant und hat mit B0 nicht funktioniert. Deshalb jetzt erst mit B2.

Die ganze Geschichte ist wohl auch mit Hinblick auf HPC entwickelt worden und da es sich auch für den Desktop Gamer eignet, nimmt AMD auch das Geschäft mit.

Für AMD bringt das den Durchbruch für stacked Technologie. Jetzt können sie richtig damit Planen und die Vor- und Nachteile sowie Kosten abschätzen.
Mal gespannt, was da die Jahre noch auf uns zukommt.
So hatte das wohl keiner auf dem Plan und ich hoffe, dass AMD auch weiterhin überrascht wie früher schon so oft:
Native Dual Core
Native Quad Core
Hypertransport in Opteron
APU
Bulldozer Module (kann ja auch mal in die falsche Richtung gehen)
HBM bei GPU
8 Core ZEN1, EPYC mit 32 Core
ZEN2 Chiplets
Effiziente 8C APUs für Mobile
Infinity Cache für effiziente, leistungsfähige RDNA2 GPUs
und jetzt stacked Chips.

Zumindest sind sie aktuell nicht mehr wegen Geldmangel eingeschränkt.

Gipsel

2021-06-01, 13:48:40

War wohl von Anfang an so geplant und hat mit B0 nicht funktioniert. Deshalb jetzt erst mit B2.Theoretisch kann B2 auch einfach die Variante mit TSVs sein, die bei B0 schlicht noch nicht drin sind (die Kontaktpads können ja da sein, ohne das man das Silizium anbohrt, um sie zu treffen).

BlacKi

2021-06-01, 13:51:07

Der Cache, der von einem Kern/Thread aus verfügbar ist, bleibt zwischen dem 5800X und 5900X/5950X konstant bei 32MB.
das hab ich mir schon fast gedacht.

in dem fall ist wäre für gaming eine single chip lösung wohl das beste. sehr schade dass das wohl so nicht kommt?#

verdoppelt sich die bandbreite wirklich? oder muss der cache sich die anbindung teilen?

Gipsel

2021-06-01, 14:11:31

verdoppelt sich die bandbreite wirklich? oder muss der cache sich die anbindung teilen?Wenn AMD sagt, daß sich die Bandbreite erhöht, kann man erstmal davon ausgehen, daß sich die Bandbreite erhöht. ;)

Cyberfries

2021-06-01, 14:36:52

Der Cache zieht weniger Strom als die Kerne, Stacking dort geht vermutlich also noch ganz gut. Und bei einem Cache-Die unten drunter, müßte der (mindestens) die Fläche des kompletten CCDs haben und zudem deutlich mehr TSVs besitzen, was teuer wird.

Wenn ich obenrum mit Silicon auffüllen kann, kann ich das auch unten, wie auch schon in diversen Patenten beschrieben:
https://www.techpowerup.com/img/hCzMo4udNr7zm1lp.jpg
edit: (Bild mit aktivem Brückenchiplet)
https://pics.computerbase.de/9/8/0/5/6-bdd27f887373a9aa/8-1080.b7f1cba6.png
Damit bekomme ich die Hitzetreiber dahin wo sie hinsollen: Nach oben zum Kühler.
Unten (118) dann die Cache-Brücke
Bei Zen3-3dvc musste es eben noch den Kompromiss sein, da Zen3 zunächst ganz gewohnt zweidimensional kam.

Ben Carter

2021-06-01, 14:48:11

Ohne wirklich Ahnung von der Thematik zu haben, aber wäre es bei Cache unten statt oben problematisch(er) mit den ganzen Kontakpins, die zum Logikchip (CPU/GPU) führen?

Der_Korken

2021-06-01, 15:05:22

Ohne wirklich Ahnung von der Thematik zu haben, aber wäre es bei Cache unten statt oben problematisch(er) mit den ganzen Kontakpins, die zum Logikchip (CPU/GPU) führen?

Das hat glaube ich Ian Cutress in seinem Kommentarvideo auch so ähnlich gesagt. Die Stromversorgung kommt von unten, d.h. wenn man das gezeigte Design einfach auf den Kopf dreht, müsste man den Strom für die Kerne auch durch die TSVs leiten. Zum Kühlen ist es sicher besser, aber dafür ist es auch deutlich aufwändiger. Mit der aktuellen Bauweise müssen die Silicon-Spacer auch nicht so 100%ig exakt in der Höhe passen, weil oben eh das Lot draufkommt und minimale Höhenunterschiede ausgleicht. Andersrum hat man den Spielraum nicht. Und wenn man die Cache-Stacks so groß wie den ganzen CCD dadrüber macht, verschlechtern sich wahrscheinlich die Latenzen im Vergleich zum Stack, wo man sich auch "vertikal" bewegen kann.

Ben Carter

2021-06-01, 15:41:33

Das ergibt Sinn, ja.

X-Bow

2021-06-01, 15:51:25

Ich denke das es temperaturtechnisch relativ wenig einbußen gibt. Denn die Masse an Silicium bleibt doch nahezu gleich.
Wenn man die Chiplets "problemlos" runterschleifen kann, dann heist das im Umkehrschluss dass sich dort totes Silizium befunden haben muss was jetzt dann ersetzt wird durch zwei tote Siliciumplatten. Dadurch ist die Wärmequelle (Rechenkerne) doch immer gleichweit vom Kühler entfernt und Material, welches die Wärme nach oben leitet bleibt Silicium.
Es gibt nur zwei Einflüsse welche negativ für die Wärmeabfuhr sind. Zum einen natürlich die zusätliche Wärme welche durch den gestapelten Cache entsteht, und zum anderen das es jetzt ein Übergang zwischen Silicium der Rechenkerne und dem Silicium der Wärmeleitplatten gibt.

Zossel

2021-06-01, 15:52:46

Das heißt, die Chipfläche steigt von 80mm² nicht auf 116 sondern auf 152mm². Das wird sicherlich ein bisschen was kosten.

DRAM hat normalerweise Reserve Rows oder Columns um defekte Speicherzellen durch anderere zu ersetzen.
Und für SRAM sollte das ähnlich gehen, daher kann man einen guten Yield für die Cache-Dies annehmen.

Linmoum

2021-06-01, 16:04:18

https://www.golem.de/1910/144271-210782-210781_rc.jpg

Kann sich noch wer an die Folie erinnern? Ist mittlerweile schon etwas betagter aus einer HPC-Präsentation von AMD im Jahr 2019. Jetzt ist auch klar, was die 32+ MB L3 bedeuten sollten. :D

Der_Korken

2021-06-01, 16:10:15

DRAM hat normalerweise Reserve Rows oder Columns um defekte Speicherzellen durch anderere zu ersetzen.
Und für SRAM sollte das ähnlich gehen, daher kann man einen guten Yield für die Cache-Dies annehmen.

Das stimmt, aber die Yields für die Chiplets dürften auch so schon extrem gut sein. Die Waferfläche muss halt trotzdem bezahlt werden.

Aber wie auch schon oft angemerkt wurde: Im Vergleich zu GPUs ist das immer noch sehr wenig Fläche. Ein gestackter 5950XT läge immer noch unterhalb von N22.

Gipsel

2021-06-01, 16:21:08

Wenn ich obenrum mit Silicon auffüllen kann, kann ich das auch unten, wie auch schon in diversen Patenten beschrieben:
https://www.techpowerup.com/img/hCzMo4udNr7zm1lp.jpg
Damit bekomme ich die Hitzetreiber dahin wo sie hinsollen: Nach oben zum Kühler.
Unten (118) dann die Cache-Brücke
Bei Zen3-3dvc musste es eben noch den Kompromiss sein, da Zen3 zunächst ganz gewohnt zweidimensional kam.Das sieht mir auf der Zeichnung eher wie eine passive Verbindungs-Brücke aus (intel nennt das EMIB), die ohne TSVs auskommt. Das hat allerdings auch wesentliche Nachteile, wenn man damit nicht nur den Rand zweier Dies verbinden will, wie es auch im Patent dargestellt ist (sondern da z.B. wirklich noch Cache oder auch Logik draufpflanzen will oder sowas). Und Andere haben ja auch schon was dazu geschrieben.
Edit: Das Patent nennt 118 explizit "passive crosslink". ;)

==========================

Es gibt nur zwei Einflüsse welche negativ für die Wärmeabfuhr sind. Zum einen natürlich die zusätliche Wärme welche durch den gestapelten Cache entsteht, und zum anderen das es jetzt ein Übergang zwischen Silicium der Rechenkerne und dem Silicium der Wärmeleitplatten gibt.Je nachdem, wie die Siliziumstückchen genau verbunden werden, kann das nahe Null an Wärmewiderstand am Übergang bedeuten (man ist allerdings auf Verfahren mit relativ niedrigen Temperaturen limitiert, da das ja mit fertigen Chips erfolgen muß).

===========================

https://www.golem.de/1910/144271-210782-210781_rc.jpg

Kann sich noch wer an die Folie erinnern? Ist mittlerweile schon etwas betagter aus einer HPC-Präsentation von AMD im Jahr 2019. Jetzt ist auch klar, was die 32+ MB L3 bedeuten sollten. :DGanz genau! Die wußten schon damals, was sie tun wollten. Aber offensichtlich haben Alle gut den Mund gehalten, so daß nichts durchgesickert ist. :D

Der_Korken

2021-06-01, 19:05:59

Gibt ein Update auf CB: https://www.computerbase.de/2021-06/3d-v-cache-technology-amd-stapelt-l3-cache-bei-ryzen-auf-192-mbyte/#update-2021-06-01T18:45

Demnach ist der gestapelte L3-Cache ein nativer 64-MByte-Chip. Er fungiert als direkte Erweiterung des bestehenden L3-Caches im CCD, was keine Software-Anpassungen nötig macht, da er ohne Kontroll-Funktionen und alle für die für grundlegende Funktionalität benötigten Einheiten daherkommen kann, da diese bereits vorhanden sind, kann AMD quasi 64 MByte reines SRAM auf dem gleichen Raum wie zuvor 32 MByte unterbringen.

Also doch 64MB in einer Schicht? Was ist denn dort weniger vorhanden, was auf dem CCD 50% der Fläche einnimmt? Tags braucht man neben Cache-Lines ja trotzdem. Mal grob gerechnet: 64MB = 512MBit = 3Mrd. Transistoren = 83 Mio. Transistoren pro mm² :freak: Nur Cache-Lines, mit Rest wäre man irgendwo bei 100 Mio./mm² :eek: kann das wirklich stimmen?

Die Frage der Latenzen erklärt AMD knapp: Aus 2D wird 3D. Um von Punkt A nach B zu gelangen muss die Abfrage nicht den ganzen Cache durchlaufen, sondern kürzt über die TSV in der 3. Dimension ab. So entsteht nahezu keine Strafzeit, in Tests soll diese quasi nicht einmal merkbar sein.

Das dürfte ein wichtiger Grund dafür sein, warum man den Cache in sich stackt und nicht einfach Cores und Cache auf getrennte Dies packt und dann stapelt. Die Distanzen innerhalb des Caches vergrößern sich fast nicht obwohl die Kapazität massiv steigt.

Cyberfries

2021-06-01, 19:29:36

Das sieht mir auf der Zeichnung eher wie eine passive Verbindungs-Brücke aus

War ja klar, dass mir meine Faulheit bei der Bildersuche mal wieder auf den Fuß fällt.
Im April dazu kam ein weiteres Patent zu "Active Bridge Chiplets" im GPU-Bereich, Bericht auf Computerbase (https://www.computerbase.de/2021-04/gpus-im-chiplet-design-amd-patente-bringen-den-cache-ins-spiel/).
Ich habe das zugehörige Bild mal in meinem oberen Beitrag ergänzt.

Zwei CCD mit einer solchen Brücke zu verbinden hätte auch seinen Charme. Grundsätzlich wollte ich aber nur zeigen,
dass auch kleiner Cache unter dem CCD platziert werden kann und es Überlegungen diesbezüglich gibt.

amdfanuwe

2021-06-01, 19:33:20

Das dürfte ein wichtiger Grund dafür sein, warum man den Cache in sich stackt und nicht einfach Cores und Cache auf getrennte Dies packt und dann stapelt. Die Distanzen innerhalb des Caches vergrößern sich fast nicht obwohl die Kapazität massiv steigt.
Cores und Cache auf getrennten Dies kann noch kommen. Für den ersten Versuch mit stacked Dies zuviel Risiko. Wenns nicht klappt, fliegt beides in die Tonne. So konnte man zunächst die B0 Dies im Produkt verkaufen und mit einer Fehlerbehebung auf B2 das ganze funktionsfähig machen.
Nachdem man nun den Umgang und die Problemstellen kennt, seh ich keinen Grund warum Cores und Cache zukünftig nicht auf getrennten Dies kommen könnten.
Und es muß ja nicht SRAM sein. Für andere Anwendungsfälle (APU) könnte man auch den DRAM stacken. Alles eine Frage des Anwendungsfalles und der Kosten. Neben 2D hat AMD nun mit stacked eine Option mehr für ein Design.

Unicous

2021-06-01, 19:39:42

Da AM5 kein DDR4 unterstützt

Das ist überhaupt nicht gesichert und extrem unwahrscheinlich, solange AMD nicht auf einmal die Strategie wechselt und nach all den Jahren auf einmal bei jeder Generation auf einen neuen Sockel setzt.

Viel wahrscheinlicher ist, dass die nächste Zen Generation noch kein DDR5 beherrscht, der Sockel es aber zulässt, analog zur Situation mit PCIe 4.0.

Gipsel

2021-06-01, 19:40:52

War ja klar, dass mir meine Faulheit bei der Bildersuche mal wieder auf den Fuß fällt.
Im April dazu kam ein weiteres Patent zu "Active Bridge Chiplets" im GPU-Bereich, Bericht auf Computerbase (https://www.computerbase.de/2021-04/gpus-im-chiplet-design-amd-patente-bringen-den-cache-ins-spiel/).
Ich habe das zugehörige Bild mal in meinem oberen Beitrag ergänzt.Und bei Abbildung 4 des Patents sitzt die Brücke oben drauf. ;)
Patentiert wird viel, auch Sachen, die nie gebaut werden.

Nightspider

2021-06-01, 19:48:52

Wenn man bei AM5 DDR4 ohne Leistungsverlust durch V-Cache weiterverwenden könnte wäre das genial.
Dann kann man noch 2-3 Jahre warten mit dem Wechsel auf DDR5.

Vorstellbar für Zen4 wäre auch das der L3 etwas reduziert und die Fläche für mehr L1 und L2 genutzt und der L3 nachträglich mit V-Cache erweitert wird.

Man stelle sich auch mal einen monolithische Chip (APU) vor, ohne Chiplet-Latenzen und mit großem V-Cache drauf. Da wäre der Boost durch V-Cache noch größer.

Renoir und Cezanne mussten ja bisher mit deutlich geringeren Cache-Größen klarkommen. Das könnte bald der Vergangenheit angehören.

Jetzt bin ich noch mehr gespannt auf Rembrandt.

Unicous

2021-06-01, 19:51:22

@Der_Korken

Update June 1st:

In a call with AMD, we have confirmed the following:

This technology will be productized with 7nm Zen 3-based Ryzen processors. Nothing was said about EPYC.
Those processors will start production at the end of the year. No comment on availability, although Q1 2022 would fit into AMD's regular cadence.
This V-Cache chiplet is 64 MB of additional L3, with no stepped penalty on latency. The V-Cache is address striped with the normal L3 and can be powered down when not in use. The V-Cache sits on the same power plane as the regular L3.
The processor with V-Cache is the same z-height as current Zen 3 products - both the core chiplet and the V-Cache are thinned to have an equal z-height as the IOD die for seamless integration
As the V-Cache is built over the L3 cache on the main CCX, it doesn't sit over any of the hotspots created by the cores and so thermal considerations are less of an issue. The support silicon above the cores is designed to be thermally efficient.
The V-Cache is a single 64 MB die, and is relatively denser than the normal L3 because it uses SRAM-optimized libraries of TSMC's 7nm process, AMD knows that TSMC can do multiple stacked dies, however AMD is only talking about a 1-High stack at this time which it will bring to market.

AMD könnte laut ExecutableFix bis zu 8 Stacks stapeln, er ging zu der Zeit aber noch davon aus, dass es zwei Stacks á 32MB sind. Würde also bedeuten bei einem 8 Die Epyc gäbe es zumindest in der Theorie die Möglichkeit 4 GB Cache zu stapeln.:freak:

https://twitter.com/ExecuFix/status/1399671731112091649

Nightspider

2021-06-01, 19:58:33

Wie hoch schätzt ihr die Produktionskosten und Verbindungskosten eines 64MB Slices ein?

~40-50 Euro? Verbindungskosten ~3-5 Euro?

Würde also bedeuten bei einem 8 Die Epyc gäbe es zumindest in der Theorie die Möglichkeit 4 GB Cache zu stapeln.:freak:

So ein Cache Monster hätte ich gerne in einigen Game-Servern drin. :D

(Star Citizen)

Linmoum

2021-06-01, 19:58:38

Scheint bisher aber grundsätzlich erst einmal bei max. 4 Stacks zu bleiben.

https://www.hardwareluxx.de/images/cdn01/223BE48F85244DA4B3895F1B2C8859B1/img/5355DBA37CE0448BA25C7D9EC821ED9A/X3D-Stacking-Milan-Server_5355DBA37CE0448BA25C7D9EC821ED9A.jpg
https://www.hardwareluxx.de/index.php/news/hardware/prozessoren/56297-amd-zeigt-ryzen-prozessor-mit-gestapeltem-3d-v-cache-update.html

Ist aus einem Daytona Milan BIOS, der Eintrag ist wohl schon seit März vorhanden.

AT generally has a policy not to comment on non-official or non-independently verifiable info. I saw this back in March but it would help no one to talk about a BIOS entry without further substantiation.https://twitter.com/andreif7/status/1399693233429614592

Wobei sich das natürlich alles noch ändern kann, bis tatsächlich erste Produkte am Markt sind.

Felixxz2

2021-06-01, 20:12:58

Welche Server/Profianwendungen profitieren denn von viel Cache? Müssen ja schon paar sein, gibt ja aktuell auch die High Cache Varianten mit 8C und 256Mb.

Unicous

2021-06-01, 20:15:45

@Linmoum

Nope:

There's 1, 2, 4 and auto actually. Auto is >4 which is 8

https://twitter.com/ExecuFix/status/1399692439217225728

@Nightspider

Ein CCD kostet nicht einmal so viel, wie kommst du darauf, dass ein 36mm² großer SRAM 50 Euro kostet?:eek:

Ich würde ins Blaue geraten unter 10 Dollar Kosten schätzen (der Die kostet dabei wahrscheinlich keine 5 Dollar), aber ich weiß nicht wie teuer es ist die TSVs durchzukontaktieren.

Ein 7nm Wafer kostet keine 10K Dollar, das war doch eine völlig aus der Luft gegriffene Zahl von irgendeinem Analysten. Es gab vor einer Weile eine Präsentation von Sophie Wilson, sie hatte u.a. 7nm Wafer Kosten mit ca. 6000 Dollar angegeben. Ian Cutress hatte dazu ein Video gemacht:

tvVobTtgss0

BoMbY

2021-06-01, 21:29:06

@Der_Korken

AMD könnte laut ExecutableFix bis zu 8 Stacks stapeln, er ging zu der Zeit aber noch davon aus, dass es zwei Stacks á 32MB sind. Würde also bedeuten bei einem 8 Die Epyc gäbe es zumindest in der Theorie die Möglichkeit 4 GB Cache zu stapeln.:freak:

https://twitter.com/ExecuFix/status/1399671731112091649

Ich würde vermuten der Hauptgrund warum man hier eher tief stapelt dürfte die Wärmeableitung der darunter liegenden Kerne sein. Jede zusätzliche Schicht dürfte die Effizienz merklich senken.

Mit mehr Stapeln wäre es vermutlich schlauer wenn man es irgendwie schaffen könnte die Cache-Stapel unter die CPU zu verfrachten, wobei das vermutlich eine kranke Anzahl an TSVs benötigen würden.

Unicous

2021-06-01, 22:09:38

Welche Effizienz? Bei der Wärmeableitung?

Das dürfte bei Epyc weniger relevant sein, zumal man dann einfach die Taktraten senken kann, SRAM ist ja im nicht so hungrig wie Logik.

Eine potentielle Lösung mit 8 Lagen Cache wäre meiner Meinung nach eh extreme Nische, weil mehr Cache nur in wenigen use cases mehr Perfomance bringt. Kompression und Videobearbeitung würde ich da als potentielle Anwendungsfälle sehen, vllt. Machine Learning? :uponder:

Ein fetter Cache, die Kerne dafür mit deutlich gesenkter Taktung wird sicherlich seine Abnehmer finden. Dazu werden ja Serversysteme auch gerne wassergekühlt, daher sehe ich da erst einmal nicht die großen Hindernisse.

Naitsabes

2021-06-01, 22:18:28

Mit genügend TSV kann die Wärmeableitung vom untersten Die zum Heatspreader auch besser sein im Vergleich zum herkömlichen Siliziumsubstrat des nonstacked Dies.

Edit.
Und zum Thema Sichtbarkeit der TSV in den präparierten Dies von Fritzchen und co:
Ich weiß nicht wie er die Dies freigelegt hat. Beim Ätzen holt man sich schnell (eigentlich fast immer) alle Metallayer runter.
Schleifen + polieren ist bei Silizium "lustig". Machbar, aber aufwendig.
Die typischen Dieshots sind eigentlich nur das reine Silizium. Wenn man dann nicht weiß worauf man achten muss, dürfte es schwer sein TSV zu erkennen.

w0mbat

2021-06-01, 22:46:18

Ich bekomm langsam etwas Angst, dass AMD einfach wegrennt und Intel keine Chance mehr hat. ADL sollte ja der Neuanfang sein, AMD wärmt einfach seine ein Jahr alte Technologie auf, klebt 15%+ mehr Leistung drauf und schwupps, ist Intel wieder hinten.

mironicus

2021-06-01, 23:02:17

Könnte AMD das auch bei ihren GPUs verwenden um die Cache-Größe zu vervielfachen? Macht bei RDNA2/3 doch Sinn.

Unicous

2021-06-01, 23:26:53

@w0mbat

ADL ist doch kein Neuanfang. ADL ist eine weitere Verzweifelungstat nach all den Skylake-Neuauflagen und dem rückportierten RKL-Disaster irgendwie doch noch 10nm lauffähig zu bekommen. Niemand braucht momentan PCIe 5.0 und DDR5 wird anfangs sicherlich auch keine riesigen Leistungssprünge bringen, jedenfalls voraussichtlich keine bis zu 25% höhere Performance bei Spielen. Man bekommt also eine Plattform die mit so gut wie nicht nutzbaren Features bzw. erhöhten Anschaffungskosten einhergeht während der Konkurrent einen Cache Die anflanscht und ohne größere Anpassungen eine Leistungssteigerung erreicht.

Und an Tigerlake kann man sehen, dass da nicht viel zu erwarten ist. 10nm ist genauso "broken" wie 14nm.

7nm wird die Bewährungsprobe sein, alles was unter 10nm herauskommt ist eigentlich schon zum Scheitern verurteilt. Ähnlich traurig sieht es ja bei der Serversparte aus.

Dass AMD für relativ geringe Mehrkosten mit dem "alten" Die zumindest bei Spielen potentiell einen Generationensprung liefern kann ohne die entsprechenden Entwicklungskosten ist ein absolut genialer Geniestreich.

Dass der Konsument dafür vermutlich ordentlich zur Kasse gebeten wird trübt das Ganze natürlich, und es wird aller Voraussicht nach auch nicht das komplette Produktportfolio umfassen sondern nur die Flaggschiffe.

Alder Lake kann damit vermutlich nicht bei Spielen punkten, bei Multithreading dürfte es ähnlich traurig aussehen, außer die kleinen Kerne reißen auf wundersame Weise etwas. Aber das sehe ich momentan nicht.:wink:

Brillus

2021-06-01, 23:28:37

Könnte AMD das auch bei ihren GPUs verwenden um die Cache-Größe zu vervielfachen? Macht bei RDNA2/3 doch Sinn.

Ich habe den starken verdacht, das in Zukunft(vielleicht nicht nicht N3x) genau so seinen I$ anbinden wird.

HPVD

2021-06-02, 09:09:57

3D V-Cache Technology: AMD stapelt L3-Cache bei Ryzen auf 192 MByte

Update 01.06.2021 18:45 Uhr

AMD hat im Nachgang am Abend Fragen zur der 3D-Technologie beantwortet, die überraschende Erkenntnisse hervor brachten: ... Zen3 von Anfang an darauf vorbreitet, native L3 Performance, Temperatur kein Problem... Details im Link

https://www.computerbase.de/2021-06/3d-v-cache-technology-amd-stapelt-l3-cache-bei-ryzen-auf-192-mbyte/

BlacKi

2021-06-02, 13:02:11

wird dieses jahr nichts mehr mit dem pre konter gegen alderlake.

After yesterday's grand unveiling of its 3D V-Cache Stack Chiplet Design, AMD has confirmed that the technology will be introduced in its Zen 3 powered Ryzen CPUs coming early next year.
https://wccftech.com/amd-confirms-zen-3-ryzen-cpus-with-3d-v-cache-stack-chiplet-design-coming-early-next-year-before-zen-4/

was wiederrum fragen aufwirft, wann dann zen4 kommen soll. ende 2022?

basix

2021-06-02, 13:04:29

was wiederrum fragen aufwirft, wann dann zen4 kommen soll. ende 2022?

Sieht immer mehr danach aus. Zen 3 + V-Cache kann im Januar/Februar aufschlagen. Vor Oktober/November sehe ich Zen 4 nicht.

amdfanuwe

2021-06-02, 13:12:17

Da ZEN4 mit DDR5 kommt, können die Platformen auch gut nebeneinander existieren.
Im Prinzip alles offen für ZEN4. Andererseits sehe ich nicht, dass es AMD eilig mit ZEN4 hat und lieber mehr Zeit in eine stabile Platform legt als etwas halb ausgegorenes überhastet auf den Markt zu werfen.

Linmoum

2021-06-02, 13:16:13

w0mbat

2021-06-02, 13:21:44

DDR5 wird sowieso noch eine Weile brauchen, da ist man mit Ende 2022 schon gut dabei.

Platos

2021-06-02, 14:55:02

Wenn da wirklich im Schnitt >10% an Performance durch eine solche fast schon banale Lösung rumkommen (insb. in Spielen, Anwendungen ist man sowieso völlig außer Konkurrenz), braucht es Zen4 auch gar nicht so schnell. Dann launcht man erst später mit mehr verfügbaren Kapazitäten.

Vlt. wird das ja auch der Zen3+ "Refresh" und dann kommt vlt. noch hier ein paar wenige % beim Takt und dort ein paar wenige % bei der IPC und "schon" hat man einen vernünftigen Sprung für einen Refresh.

HOT

2021-06-02, 15:58:39

wird dieses jahr nichts mehr mit dem pre konter gegen alderlake.

https://wccftech.com/amd-confirms-zen-3-ryzen-cpus-with-3d-v-cache-stack-chiplet-design-coming-early-next-year-before-zen-4/

was wiederrum fragen aufwirft, wann dann zen4 kommen soll. ende 2022?
Ist doch nix neues, Lisa hat ja den Beginn der Produktion fürm dieses Jahr angekündigt, also kommt die folgerichtig erst Anfang 22.
Ob das Ding jetzt 1-3 Monate nach ADL kommt ist ja auch egal (der wird ja für November erwartet).
Es ist ja auch keine neue Entwicklung sondern "nur" eine XT-Variante. Zen4 wird so um den Oktober 22 erwartet.

BlacKi

2021-06-02, 16:55:40

Ist doch nix neues, Lisa hat ja den Beginn der Produktion fürm dieses Jahr angekündigt, also kommt die folgerichtig erst Anfang 22.
Ob das Ding jetzt 1-3 Monate nach ADL kommt ist ja auch egal (der wird ja für November erwartet).
Es ist ja auch keine neue Entwicklung sondern "nur" eine XT-Variante. Zen4 wird so um den Oktober 22 erwartet.und trotzdem haben einige zu den enthüllungs news zum extra cache geschrieben, das wir die cpus schon im herbst bekommen werden.

das richtigzustellen hat schon seinen wert.

was mich stört ist das fehlen vom extra cache bei den 8 kernern. der 12kerner ist imho nicht perfekt dafür, weil nur die 6 kerne mit dem extra cache onboard profitieren. der 16kerner kann das dagegen wieder voll ausnutzen. der wird aber garantiert die 999€+ sehen.

Gipsel

2021-06-02, 17:05:41

was mich stört ist das fehlen vom extra cache bei den 8 kernern.Marktfähigkeit. Die meisten werden lieber 12 Kerne (+50%) haben wollen als zu dem Preis 12% oder so schnellere 8 Kerne.
der 12kerner ist imho nicht perfekt dafür, weil nur die 6 kerne mit dem extra cache onboard profitieren. der 16kerner kann das dagegen wieder voll ausnutzen.???
Der 12Kerner bekommt 96MB L3 pro CCD, genau wie der 16Kerner. In beiden fällen bekommen natürlich beide CCDs den Cache oben drauf gestackt. Ich hoffe, niemand glaubt an eine Mischbestückung. Wo kommt denn das her?

Zossel

2021-06-02, 17:31:04

was mich stört ist das fehlen vom extra cache bei den 8 kernern.

Gibt es dazu belastbare Aussagen von AMD?

Gipsel

2021-06-02, 17:37:30

Gibt es dazu belastbare Aussagen von AMD?Nein. Nur die Aussage, daß man das für High-End Produkte benutzen will. Die Frage ist, wo fängt man da an, bei Ryzen7 oder Ryzen9? Wirklich Handfestes gibt es im Moment nicht.

Nightspider

2021-06-02, 17:44:18

Ich denke mal das nur der 5600x kein V-Cache bekommen wird.

Dort werden die schlechtesten Chips verbaut und der Aufpreis wäre prozentual am höchsten.

Denke schon das es einen 5800x mit V-Cache geben wird.

Der_Korken

2021-06-02, 17:57:59

Ein "5800V" (5800X mit V-Cache) würde schon Sinn machen, weil im Vergleich zum 5900V nur halb so viel 7nm-Silizium benötigt wird. Ein 5600V hätte hier ein wenig das Problem, das er den 5800X komplett kannibalisieren würde, weil der Cache in heutigen Spielen mehr Performance bringt als die beiden zusätzlichen Kerne. Wobei man das natürlich auch über 5800V vs 5900X sagen könnte. Oberhalb eines V-Modells verlieren die X-Modelle stark an Attraktivität.

Eigentlich blöd, dass AMD den 5800X nicht als 5700X released hat, denn dann könnte man die Variante mit V-Cache einfach 5800 nennen und hätte (im Gegensatz zum 3800X und 1800X) dann wirklich ein Alleinstellungsmerkmal gegenüber dem 700er Modell. Das ist schon immer so ein Makel in AMDs Portfolio gewesen. Vielleicht sehen wir genau das ja bei Zen 4.

Nightspider

2021-06-02, 18:05:31

Nie und nimmer wird man das x im Namen durch ein V ersetzen.

weil der Cache in heutigen Spielen mehr Performance bringt als die beiden zusätzlichen Kerne

Das kann man im Jahr 2021 definitiv nicht mehr so formulieren.

Gerade 8 Kerne werden von einigen Spielen locker komplett ausgenutzt. Und die NextGen Spiele liegen direkt vor uns.

BlacKi

2021-06-02, 18:25:08

???
Der 12Kerner bekommt 96MB L3 pro CCD, genau wie der 16Kerner. In beiden fällen bekommen natürlich beide CCDs den Cache oben drauf gestackt. Ich hoffe, niemand glaubt an eine Mischbestückung. Wo kommt denn das her?

ah danke für den hinweis, ich hab das falsch interpretiert. die haben nur den einen chiplet sichtbar gemacht, deshalb bin ich davon ausgegangen, das gilt nur für 1 chiplet beim 5900x.

Der_Korken

2021-06-02, 18:38:55

Nie und nimmer wird man das x im Namen durch ein V ersetzen.

Das kann man im Jahr 2021 definitiv nicht mehr so formulieren.

Gerade 8 Kerne werden von einigen Spielen locker komplett ausgenutzt. Und die NextGen Spiele liegen direkt vor uns.

Ja, das V steht da nur, damit ich nicht jedes Mal "5800X mit V-Cache" schreiben muss :D

Aber bei 5600X vs 5800X sehe ich in Reviews auch heute keine 15% Vorsprung für den 5800X. Langfristig wird sich das sicherlich ändern, aber zum Jahresende würde ich in Reviews einen 5600V vor dem 5800X sehen. Ich glaube AMD würde aber lieber den 5800X weiterverkaufen, weil die Yields gut genug sein dürften und sie weniger Wafer für die extra Cache-Chiplets brauchen. Wie gesagt, ein Modell mit V-Cache kannibalisiert die non-V-Cache-Modelle darüber weil Cache > Cores. Selbst der 3300X schlägt sich gegen 3600/3800XT noch erstaunlich gut.

Nightspider

2021-06-02, 18:45:44

In Cyberpunk 2077 ist der 5800x 24% schneller als der 5600x bei den minfps.

Das Problem ist aktuell eher das die CPUs für die ganzen LastGen Spiele zu schnell sind und man in Benchmarks dauernd 160 bis 180 fps sieht.

Das dürfte sich jetzt mit den NextGen Spielen aber schon stark ändern.

Sinnvoller ist es da den 3600 vs 3700 zum Vergleich heranzuziehen. Da sieht man das die Spiele gut mit 8 kernen umgehen können:

https://youtu.be/R6j9k9FbMxE?t=373

Auch an der Stelle hier sind es mal 33 vs 44fps bei 6vs8 Kernen:

https://youtu.be/R6j9k9FbMxE?t=451

(Man muss natürlich noch die 5% Taktvorteil des 3700x abziehen)

Bei Cyberpunk sinds sogar 28% zwischen 3600 und 3700x.
(3600 wird dort bei PCGH mit 4,1 Ghz angegeben und der 3700x mit 4,0 Ghz)

Der_Korken

2021-06-02, 21:51:41

@Nightspider: Du redest aber von einzelnen Spielen. Außerdem sind die 0,1%-Percentile in deinem Video teilweise sehr komisch, d.h. in 1440p sind die Abstände größer als in 1080p oder in 1440p teilweise auch absolut höher als in 1080p. Denen würde ich nicht trauen. Insgesamt sehe ich den 3700X im Schnitt keine 15% vorne und darauf wollte ich hinaus. So schnell wird das bis Ende des Jahres auch nicht kippen.

Ich bleibe dabei: Ein 5600V macht für mich wenig Sinn, weil er entweder den 5800X überflüssig macht und AMD damit zwingt alle Modelle mit V-Cache zu bringen oder (falls 8 Kerne bis dahin doch hinreichend viel bringen) der 5600V trotz höherer Fertigungskosten den 5800X nicht schlägt und somit selber überflüssig ist.

rentex

2021-06-02, 22:00:56

Nein. Nur die Aussage, daß man das für High-End Produkte benutzen will. Die Frage ist, wo fängt man da an, bei Ryzen7 oder Ryzen9? Wirklich Handfestes gibt es im Moment nicht.

Ryzen 9. Also 5900X und 5950X, Alles andere macht wenig Sinn.

OgrEGT

2021-06-02, 22:07:56

Ja, das V steht da nur, damit ich nicht jedes Mal "5800X mit V-Cache" schreiben muss :D

Hmm...
5800XV
oder
5800VX

:ugly:

OgrEGT

2021-06-02, 22:14:52

Ryzen 9. Also 5900X und 5950X, Alles andere macht wenig Sinn.

Aber warum nur die 2CCD CPUs?

Ein 5800XV könnte zum reinen Spielen durchaus nicht unattraktiv sein zumal die 8 Kerne pro Kern mehr Powerbudget haben...

Edit
Wobei das theoretisch höhere Powerbudget pro Kern beim 5800x durch das bessere Binning beim 5950x wett gemachtt wird... in Spielen sind beide relativ gleichauf...

https://www.hardwareluxx.de/index.php/artikel/hardware/prozessoren/54555-generations-nachzuegler-amd-ryzen-9-5950x-und-ryzen-7-5800x-im-test.html?start=12

CrazyIvan

2021-06-02, 22:23:43

Ich denke, AMD wird sich da viele Gedanken zur Segmentierung machen. AMD möchte sicher die "Enthusiasten" zu den 2 CCD SKUs lotsen und daher keine low hanging fruit in Form eines 8C+3DC anbieten.

Der_Korken

2021-06-03, 00:20:00

Ich denke, AMD wird sich da viele Gedanken zur Segmentierung machen. AMD möchte sicher die "Enthusiasten" zu den 2 CCD SKUs lotsen und daher keine low hanging fruit in Form eines 8C+3DC anbieten.

Wenn Alder Lake in Spielen schneller als Zen 3 ist, wäre es aus AMDs Sicht sinnvoll auch den 8-Kener mit V-Cache auszustatten, weil man dann bereits mit einem günstig zu fertigenden 1-CCD-Modell Intels Topmodell beim Gaming angreifen kann (und auch entsprechend bepreisen kann). Die 8 little cores bei Intel werden imho in Games keinen wirklichen Vorteil bringen.

Hammer des Thor

2021-06-03, 00:32:28

amdfanuwe

2021-06-03, 03:16:35

Aber warum nur die 2CCD CPUs?

- Zur Produktdifferenzierung. Die teuersten Produkte sollten auch die beste Gaming Leistung bringen.
- Yield. Wer weiß wie gut das stacking funktioniert. Noch nicht reif für den 8C Massenmarkt.
- Rembrandt. Mit ZEN3+ Cores, monolithisch, könnte der schneller und billiger als ein 6C/8C V Chip sein.

Mich wundert der Preis von 5600G und 5800G. Da bekommt man die GPU ja praktisch geschenkt. Könnte mir vorstellen, dass 6C/8C ab nächstem Jahr mit APUs abgedeckt werden und nur noch 12+ Cores mit Chiplets.
Bei 3000er Ryzen werden noch 2 4Core CPUs bei AMD aufgeführt, bei den 5000ern gehts nur bis 6 Core runter.
Wer weiß wie ZEN4 aufgebaut ist. Da könnten sich Chiplets erst ab 12Core lohnen und alle HPC Features werden im Desktop nicht benötigt.

TheAntitheist

2021-06-03, 06:00:26

Dass AMD bei dem 3D-Stacking mit dem Cache - weil der weniger Leistung verbrät - beginnt hab ich hier schon vor Monaten spekuliert. Ein Mod hier hat mir aber gesagt das ginge nicht wegen der Anbindung man könne nicht den Cache auf mehreren Ebenen machen die Logik nur auf einen. Jetzt ist es doch so gekommen.
Dann solltest du den Bannhammer (Mjolnir) schwingen :D

rentex

2021-06-03, 06:40:36

Dass AMD bei dem 3D-Stacking mit dem Cache - weil der weniger Leistung verbrät - beginnt hab ich hier schon vor Monaten spekuliert. Ein Mod hier hat mir aber gesagt das ginge nicht wegen der Anbindung man könne nicht den Cache auf mehreren Ebenen machen die Logik nur auf einen. Jetzt ist es doch so gekommen.

Tja, was alles nicht so geht....

Das Cache Stacking wird möglicherweise ein Teil von ZEN4, die Technologie wird man sicherlich weiterführen.

OgrEGT

2021-06-03, 08:11:54

- Zur Produktdifferenzierung. Die teuersten Produkte sollten auch die beste Gaming Leistung bringen.

Wobei sich im Gaming heute schon 5800x 5900x und 5950x nicht viel unterscheiden im GPU Limit ohnehin nicht...
Am Ende ist es auch eine Preis Leistung Frage. Wenn es billig ist und durchweg Leistung bringt ist wie gesagt der 5800xv ein sehr rundes Produkt für Spieler die keine Profi Mulitthread Anwendungen benötigen...

HOT

2021-06-03, 08:14:47

Das denke ich auch, denn damit bekäme man die Preise für den 5800er wieder hoch. Ausgerechnet die CPU wird der Megahit. Außerdem hieß es doch "up to 192MB" oder?

basix

2021-06-03, 09:10:28

Hmm...
5800XV
oder
5800VX

:ugly:

Besser XV. Ist naheliegender und niemand wird an VX-Gas erinnert ;)

Den V-Cache nur bei Ryzen 9 zu bringen ist für AMD sinnvoll: Marge & Produktdifferenzierung.

Dass AMD bei dem 3D-Stacking mit dem Cache - weil der weniger Leistung verbrät - beginnt hab ich hier schon vor Monaten spekuliert. Ein Mod hier hat mir aber gesagt das ginge nicht wegen der Anbindung man könne nicht den Cache auf mehreren Ebenen machen die Logik nur auf einen. Jetzt ist es doch so gekommen.

Ich weiss nicht welcher Mod das war. Aber ich glaube es besteht allgemeiner Konsens, das der L3$ am naheliegensten zu stapeln ist. Bislang war es aber eher die Idee, den L3$ komplett auf ein anderes Die zu legen. Damit kommt automatisch das Problem, die Logic-Hotspots zu kühlen (Cache oben) oder Power und Signale zum Logic-Die zu führen (Logic oben). AMD hat das hier beide Probleme geschickt gelöst, da der L3$-Stack über dem bestehenden L3$ platziert wird, welcher relativ wenig Hitze generiert.

Ich kann mir gut vorstellen, dass der L3$ auf dem Logic-Die mit der Zeit geringer wird (aber nie ganz verschwindet) und man dann eben mehr L3$-Stacks in die Höhe baut.

Gipsel

2021-06-03, 10:49:52

Ich weiss nicht welcher Mod das war. Aber ich glaube es besteht allgemeiner Konsens, das der L3$ am naheliegensten zu stapeln ist. Bislang war es aber eher die Idee, den L3$ komplett auf ein anderes Die zu legen. Damit kommt automatisch das Problem, die Logic-Hotspots zu kühlen (Cache oben) oder Power und Signale zum Logic-Die zu führen (Logic oben). AMD hat das hier beide Probleme geschickt gelöst, da der L3$-Stack über dem bestehenden L3$ platziert wird, welcher relativ wenig Hitze generiert.

Ich kann mir gut vorstellen, dass der L3$ auf dem Logic-Die mit der Zeit geringer wird (aber nie ganz verschwindet) und man dann eben mehr L3$-Stacks in die Höhe baut.Ich vermute, es ging um diese Diskussion (https://www.forum-3dcenter.org/vbulletin/showthread.php?p=12313546#post12313546). Und damals war RAM-Die-Stacking als heißester Kandidat im Gespräch. Als Alternativen des Stackings wurden dort quasi L4 auf dem IO-Die oder (kompletten) L3 über den Kernen des CCDs gehandelt (ich habe eingewandt, daß jegliches Stacking über Logik [also den Kernen] problematisch sein kann, insbesondere am Desktop bei höherem Verbrauch).
Zumindest dort hat soweit ich das sehe niemand gesagt, was HdT jetzt hier wiedergibt. Im Prinzip hatten wir da in der Diskussion schon die richtigen Zutaten. So haben wir z.B. gesagt, daß RAM-Dies zu stapeln okay sei (wegen dem geringeren Verbrauch). Oder man stapelt über irgendwas, was nicht so viel verbraucht (low-Power Kerne). Aber daß man einen Teil des L3 im Logik-Die läßt und dann nur über diesem L3 stackt, die Kerne aber zur besseren Wärmeableitung freiläßt (entsprechend mit Siliziumstreifen in der Höhe angepaßt), auf den Trick sind wir damals nicht gekommen.
Daß man mit dem 3D-Stapeln von Cache auch die Zugriffslatenzen gegenüber einem gleichgroßen Cache in der Ebene minimieren kann, ist da noch ein netter extra-Vorteil.

basix

2021-06-03, 12:22:07

Aber daß man einen Teil des L3 im Logik-Die läßt und dann nur über diesem L3 stackt, die Kerne aber zur besseren Wärmeableitung freiläßt (entsprechend mit Siliziumstreifen in der Höhe angepaßt), auf den Trick sind wir damals nicht gekommen.

Dabei irgendwie naheliegend :D Niemand hat aber erwartet, dass man noch mehr als 32MB auf einem CCX mit 8 Cores verbauen will (weil eh schon viel). Wir sind eher davon ausgegangen, dass man die Die Size verringern und für den Cache einen günstigeren Litho-Node verwenden will.

Die 32MB+ aus der damaligen HPC-Präsentation, Off-Chip Traffic Reduktion (Chiplets, Stromverbrauch) und Infinity Cache bei den GPUs waren eigentlich Hinweise, dass man irgendwo zusätzlichen (gestackten) L3$ haben will. Die Umsetzung bei Zen 3 finde ich ziemlich smart. Mal schauen, wann wir das in Richtung Infinity Cache bei GPUs und APUs sehen werden. 2TB/s entspricht ziemlich genau dem, was der IF$ auf N21 liefert ;)

Daß man mit dem 3D-Stapeln von Cache auch die Zugriffslatenzen gegenüber einem gleichgroßen Cache in der Ebene minimieren kann, ist da noch ein netter extra-Vorteil.

Das ist ein guter Input. Evtl. sind 32+64MB langsamer als 16+80MB (5-hi, hypothetisch)? Man redet ja eher von Mikrometer in der Höhe als Millimeter Distanz in der Fläche

War der 8700K noch 0,42 mm dick, ist der Coffee Lake Refresh-Chip mit 0,87 mm mehr als doppelt so dick.
https://www.pcbuildersclub.com/2018/10/der8auer-intel-core-i9-9900k-koepfen-bringt-deutlich-bessere-temperaturen/

amdfanuwe

2021-06-03, 12:27:48

Wobei sich im Gaming heute schon 5800x 5900x und 5950x nicht viel unterscheiden im GPU Limit ohnehin nicht...
Am Ende ist es auch eine Preis Leistung Frage. Wenn es billig ist und durchweg Leistung bringt ist wie gesagt der 5800xv ein sehr rundes Produkt für Spieler die keine Profi Mulitthread Anwendungen benötigen...
V Technik ist nicht billig. Und für Gaming Tests nimmt man Scenarien, die nicht im GPU Limit laufen um die Prozessorleistung zu zeigen. Wenn man eh im GPU Limit spielt reicht dann auch ein kleiner Intel oder Ryzen 3000.

auf den Trick sind wir damals nicht gekommen.

Da sieht man, dass bei AMD die helleren Köpfe sitzen. Und die haben das schon vor Jahren ausgetüftelt. Und Metall zu Metall Verbindungen ohne Balls stand hier wohl nirgends auf dem Plan.

basix

2021-06-03, 13:28:47

Zu Zen 3+ bei Rembrandt: Wenn Zen 3+ nun Zen 3 + V-Cache sein könnte, dürfen wir dort ebenfalls den V-Cache erwarten? Wäre genial, wenn dies dann von der iGPU als Infinity Cache genutzt werden könnte :D Zeitraum Anfang nächstes Jahr würde auch passen.

Bei Cezanne haben wir ja 16MB L3$. Da würde also ein 32MByte V-Cache draufpassen. Perfekt für Infinity Cache @ 1080p Gaming ;)

amdfanuwe

2021-06-03, 13:48:58

Stacked Cache kostet. Die Chips müssen gedünnt werden, TSV müssen gebort werden und brauchen Fläche. Denke nicht, dass sich das für ein günstiges Massenprodukt lohnt.

basix

2021-06-03, 14:14:18

Stacked Cache kostet. Die Chips müssen gedünnt werden, TSV müssen gebort werden und brauchen Fläche. Denke nicht, dass sich das für ein günstiges Massenprodukt lohnt.

Für gut und günstig gäbe es immer noch Lucienne und Cezanne ;)

Gipsel

2021-06-03, 14:19:53

Das ist ein guter Input. Evtl. sind 32+64MB langsamer als 16+80MB (5-hi, hypothetisch)? Man redet ja eher von Mikrometer in der Höhe als Millimeter Distanz in der FlächeAlso ganz hypothetisch verringert eine 3D-Struktur natürlich die mittlere Entfernung zu den Bits. Nicht daß man nicht auch über eine Handvoll Millimeter Signale sehr schnell bekommen könnte, wenn es unbedingt nötig wäre, aber das kostet Energie und auch Fläche im Vergleich zu einem kompakteren (3D-)Cache, der auch zu einem etwas höheren Anteil nur aus simplen SRAM-Zellen (mit Redundanz) besteht. Bin mal gespannt, ob man irgendwo Zusatzlatenz messen kann (1 bis 2 Takte extra, wenn es in das Zusatz-Die geht oder doch mehr oder gar gar nix?).
https://www.pcbuildersclub.com/2018/10/der8auer-intel-core-i9-9900k-koepfen-bringt-deutlich-bessere-temperaturen/Also 0,8mm ist schon ziemlich dick, auch weil so dicke Wafer natürlich im Einkauf des Rohmaterials etwas teurer sind (wobei das bei CPUs vermutlich nicht so stark ins Gewicht fällt, weil die Rohwafer dann doch relativ billig zu den Gesamtkosten der Herstellung sind*). Sehr dünne Wafer verkomplizieren allerdings das Handling und können sich somit leicht negativ auf den Yield auswirken. Die etwa 0,4mm dicken Wafer sind eigentlich seit geraumer Zeit schon ziemlicher Standard dachte ich (ich glaube, die stellen so das Minimum bei den Kosten dar, dünnere Wafer werden schnell teurer [für TSVs müssen die dünn sein, oft hat man 50µm], dickere aber auch etwas). Die "optimale" Dicke des Wafers aus Wärmeleitungssicht (also wenn man die Kosten mal vergißt) hängt übrigens auch von der Größe der möglichen Hotspots auf dem Die sowie der Güte der Ankopplung an den Heatspreader (Lot oder Paste und wie dick) bzw. Kühlkörper (wenn kein Heatspreader, also z.B. bei GPUs) ab. Ich vermute mal, das entscheiden AMD, nV und intel nicht rein aus dem Bauch heraus sondern rechnen ein wenig rum (Ingenieure und Buchhalter).

*: Gibt aber durchaus auch die Möglichkeit, durch das "Verkleben" sehr guter aber dünner Wafer mit dickeren, weniger guten Wafern per Si-Si Direktbonding (also ohne Kleber, das atomare Gitter der Wafer verbindet sich direkt, man hat also aus Wärmeleitungssicht keine Nachteile, da kein Interface existiert) auf die Standarddicke zu kommen. In einigen älteren Dieshots sah es vor einiger Zeit mal so aus, als würde AMD das tun.

https://www.izm.fraunhofer.de/de/abteilungen/wafer-level-system-integration/leistungsangebot/bonding_thinning/jcr:content/contentPar/sectioncomponent/sectionParsys/imagerow/imageComponent2/image.img.4col.large.jpg/1464278419717/thinning2.jpg

==============================

Da sieht man, dass bei AMD die helleren Köpfe sitzen.Die werden schließlich auch dafür bezahlt und wundern nicht nur mal als Laien in einem Forum dazu rum. Wäre also schlimm, wenn die nicht ab und zu mal bessere Ideen hätten als wir! :lol:

basix

2021-06-03, 14:28:21

Bei 16MB würde sich die L3$ Grösse auf dem CCD auf etwa 4.0*4.5mm oder weniger optimal aber praktikabler 3*6mm verringern. Distanz von links nach rechts würden ~halbiert und -2...3mm betragen. Zwischen den Ecken wären es von 8.5mm auf 6.7mm resp. 6.0mm. Das wären -1.8...2.5mm. Egal wie dick die Die sind, man reduziert die Distanz. Die L3 Slices bewegen sich vermutlich im 50...100um Bereich, damals bei der 12-hi SoIC Demo gab TSMC <600um Höhe an: https://www.anandtech.com/show/16026/tsmc-teases-12-high-3d-stacked-silicon

Was man anhand der Aussagen von AMD aber sagen kann: Man bekommt grössere Caches bei ~gleichbleibender Latenz zustande. Das für sich allein ist schon ein grosser Gewinn. Und wie du sagst, sind aufgrund des dichter gepackten Caches auch noch andere Strecken kürzer, ja halbiert verglichen mit dem CCD. Bei der Zusatzlatenz bin ich auch gespannt. Optimalerweise optimiert das B2-Stepping noch etwas an der "Grundlatenz" des L3 auf dem CCD, damit man inkl. V-Cache keine erhöhten Latenzen hat.

Gipsel

2021-06-03, 14:47:07

Die L3 Slices bewegen sich vermutlich im 50...100um Bereich, damals bei der 12-hi SoIC Demo gab TSMC <600um Höhe an: https://www.anandtech.com/show/16026/tsmc-teases-12-high-3d-stacked-siliconGenau, 50µm oder sowas ist heute gut machbar und damit kann man mit beliebige Stacks bis 8-Hi auf die "AMD-Standardhöhe" von angenommenen ~0,4mm (z.B. 16mil = 0,4064mm, vielleicht nehmen die aber auch normalerweise 20mil Wafer, keine Ahnung) zu kommen. Bei niedrigeren Stacks als 8Hi nimmt man schlicht für das oberste Die (was dann ja keine TSVs benötigt und somit dicker sein kann) weniger abgedünnte Wafer, um letztendlich die gleiche Höhe zu erreichen.
Was man anhand der Aussagen von AMD aber sagen kann: Man bekommt grössere Caches bei ~gleichbleibender Latenz zustande. Das für sich allein ist schon ein grosser Gewinn.Ja, das bleibt wirklich festzuhalten, daß dies offenbar eine gute Möglichkeit ist, den Tradeoff zwischen Latenz, Größe und Energieverbrauch eines Caches ein Stückchen zu größeren Caches zu schieben, ohne sich große Nachteile bei den anderen beiden Parametern einzuhandeln.

LasterCluster

2021-06-03, 15:38:00

Für gut und günstig gäbe es immer noch Lucienne und Cezanne ;)

Rembrandt wird dann von Barcelo (Cezanne Refresh) flankiert wie Cezanne jetzt von Lucienne (Renoir Refresh). Rembrandt wird sicherlich keine billige Massenware werden.

Für die hohen Rembrandt APUs wird der Extra L3 mit einer Sicherheit von ca 1000 Hot kommen. Es ist die perfekte Möglichkeit die hohen Ryzen APUs abzugrenzen. Und dort ist verdammt viel Geld zu holen. Schaut euch einfach an wie die Aufpreise für die höchsten APUs in einem Konfigutator (zb Lenovo) sind.

basix

2021-06-03, 15:41:31

Ja, das bleibt wirklich festzuhalten, daß dies offenbar eine gute Möglichkeit ist, den Tradeoff zwischen Latenz, Größe und Energieverbrauch eines Caches ein Stückchen zu größeren Caches zu schieben, ohne sich große Nachteile bei den anderen beiden Parametern einzuhandeln.

Was bezüglich Energieverbrauch wiederum für den zukünftigen Einsatz bei APUs spricht ;) Infinity Cache für die iGPU oder besser noch ein grosser shared LLC für CPU und GPU.

Zossel

2021-06-03, 15:51:59

Was bezüglich Energieverbrauch wiederum für den zukünftigen Einsatz bei APUs spricht ;) Infinity Cache für die iGPU oder besser noch ein grosser shared LLC für CPU und GPU.

Für GPUs würde auch breites (e)DRAM reichen, Latenz ist da nicht ganz so wichtig.
Gibt es da Hersteller, Patente oder Ankündigungen?

amdfanuwe

2021-06-03, 15:57:42

Oder wie beim M1 den DRAM direkt aufs Package.

basix

2021-06-03, 16:29:49

Bei DRAM und eDRAM sehe ich einfach den Bandbreitengewinn gegenüber HBM nicht. Ohne diesen kann man es sein lassen und bei HBM bleiben. Ein lokaler, grosser DRAM Memory Pool wäre sicher nicht schlecht (z.B. Dual/Quad-Channel DDR5 mit 100...200GB/s angebunden), da kommt man aber schon bald in die Nähe von der CPU/GPU-zu-GPU Bandbreite (CXL oder was auch immer es dann ist).

Und je nach Anwendung profitiert ja auch die IPC von Bandbreite und/oder Latenz eines grossen lokalen SRAM (siehe Raytracing, gewisse ML/DL Modelle und den RDNA2 Foliensatz).

robbitop

2021-06-03, 16:34:43

eDRAM lässt sich iirc doch auch relativ breit anbinden.

Nightspider

2021-06-03, 16:38:03

Bzgl RDNA3 habe ich mal hier geantwortet:

https://www.forum-3dcenter.org/vbulletin/showthread.php?p=12698009#post12698009

basix

2021-06-03, 18:09:02

eDRAM lässt sich iirc doch auch relativ breit anbinden.

Breiter und schneller als HBM? Dort sehen wir bald >500GB/s - pro Stack.

Leonidas

2021-06-04, 11:20:09

AMD möchte sicher die "Enthusiasten" zu den 2 CCD SKUs lotsen und daher keine low hanging fruit in Form eines 8C+3DC anbieten.

Bei einem Release zum Jahreswechsel 2021/22 wäre generell ein deutlich neuer Name sinnvoll - schon allein für diese OEMs, die jährlich was neues haben wollen. So lange die Perf. nicht real enttäuscht oder aber nur Pläne für einzelne SKUs existieren, würde ich das Ding immer "Ryzen 6000" nennen. Außerdem wird unter diesem Namen sowieso Rembrandt kommen. Wieso also Zen 3 XT niedriger benennen?

Neosix

2021-06-04, 11:55:10

Linmoum

2021-06-04, 12:03:56

Ist mal wieder 'ne ziemlich dumme "News" von PCGH. Beziehen sich auf einen Leaker, statt offizielle Aussagen von AMD und TSMC.

Anfang 2022 war klar, da die Produktion erst Ende des Jahres startet. Das wurde so auch von Su kommuniziert.

Cyberfries

2021-06-04, 12:12:55

Die Chance auf einen XT-Refresh in Q4 würde ich nicht sofort abschreiben.
Laut Vegeta (https://twitter.com/Broly_X1/status/1400123504545046531) sind Zen3 XT und Zen3 V-Cache zwei verschiedene Produkte.

Wenn es länger dauert, bis wir gestapelte CPUs sehen, ist das aber auch für Rembrandt nicht zu erwarten.
Dass Rembrandt ohne Infinity Cache kommt, hat vorgestern bereits Kepler (https://twitter.com/Kepler_L2/status/1400160929023729668) berichtet, Bondrewd (https://forum.beyond3d.com/posts/2207358/) verneint V-Cache.
Die Zukunft lässt auf sich warten.

BlacKi

2021-06-04, 12:16:36

w0mbat

2021-06-04, 12:17:47

PCGH: AMD Ryzen: Technologie V-Cache kommt wohl später als gedacht (https://www.pcgameshardware.de/AMD-Zen-Architektur-261795/News/V-Cache-spaeter-als-gedacht-1373252/)

Hier steht leider was von Q1, also nichts mit Jahreswechsel.
Selten sowas dummes gelesen.

1. Hat Sue Bae auf der Computex davon gesprochen, dass die V-Cache Produktion Ende des Jahres anläuft, d.h. ein launch in diesem Jahr war eh extrem unwahrscheinlich, es ging immer um Anfang 2022.

2. Geht es in diesem "leaker tweet" nicht um die 3D-Cache Version, sondern um eine andere "XT"-Version.

Die News-Qualität bei PCGH nimmt immer weiter ab, das machen CB oder Golem viel besser.

Neosix

2021-06-04, 12:23:36

Oh sorry ich hatte das nicht realisiert, ich dachte der XT wäre der Zen3+ mit V-Cache... Hmm dann wird der Q1 aber sehr dicht gepackt mit vielen Produkten. Die Ganzen Zens, 3er 3+ mit und ohne V plus die APUS. Hoffentlich dann auch alles in Lieferbarer Menge.

BlacKi

2021-06-04, 12:26:03

Oh sorry ich hatte das nicht realisiert, ich dachte der XT wäre der Zen3+ mit V-Cache... Hmm dann wird der Q1 aber sehr dicht gepackt mit vielen Produkten. Die Ganzen Zens, 3er 3+ mit und ohne V. Phuu
muss nicht sein. ich glaube schon, das man dasselbe produkt meint, nur gesichert ist es nicht. vl heißen die v cache dinger wirklich einfach xt.

w0mbat

2021-06-04, 12:27:19

Der "leaker" schreibt explizit, dass er nicht den 3D-Cache Zen3 meint.

Unicous

2021-06-04, 12:30:39

Ich möchte darauf hinweisen, dass die News seinerseits auf einem Artikel von 3dcenter basiert, Leonidas also mal wieder mit Schnellschüssen unnötige Verwirrung stiftet.
Zumal AMD nie behauptet hat sie würden noch 2021 das Produkt vorstellen sondern mit der Produktion beginnen. Typischer stille Post Journalismus.

BlacKi

2021-06-04, 12:41:43

Der "leaker" schreibt explizit, dass er nicht den 3D-Cache Zen3 meint.
ja, in einem retweet... welcher natürlich nicht genannt wird...

mein gott. was für ein durcheinander:mad:

Leonidas

2021-06-04, 12:42:00

nicht nur pcgh, das haben sehr viele falsch verstanden.

Genauso auch mein Fehler. Wird ausgebessert.

rentex

2021-06-04, 14:29:38

amdfanuwe

2021-06-04, 15:03:39

Kommt einiges Ende des Jahres
Mit N7HPC wird bereits in wenigen Monaten eine verbesserte Variante der 7-nm-Fertigung zur Verfügung stehen, die bis zu zehn Prozent mehr Leistung auch dank mehr Leistungsaufnahme ermöglichen wird.
https://www.computerbase.de/2021-06/tsmc-technology-symposium-feuer-aus-allen-rohren-n3-n4-n5hpc-n6-n7hpc-und-mehr/
Und N6 soll 50% Anteil am N7 Prozess haben.

Würde mich nicht wundern, wenn AMD doch noch den Prozess für ZEN3 Chiplets wechselt.
Also XT = N7HPC oder N6 Chiplets mit besserer Performance?
Den Cache als Schmankerl nur bei Ryzen 9?

HOT

2021-06-04, 16:11:44

Die Frage ist, ob N7HPC überhaupt kompatibel ist. Das wird evtl. ein Nachfolger von N7+ sein. Wenn es neue N6-CPUs gibt, dann sind die wahrscheinlich immer noch B2, das wird sich mMn also überhaupt nicht auf die Produktpalette niederschlagen. Es spielt einfach keine Geige ob die N7 oder N6 gefertigt werden, die CPUs sind gleich.

Ich gehe eh davon aus, dass die HPC-Varianten schon lange in Entwicklung sind und habe den Verdacht das Warhol Zen3+ wohl ursprünglich in N7HPC war, deshalb stand auch 7nm in der Roadmap. Das wird sich wirtschalftlich schlichtweg nicht gelohnt haben.

Lehdro

2021-06-04, 16:20:02

Die Frage ist, ob N7HPC überhaupt kompatibel ist. Das wird evtl. ein Nachfolger von N7+ sein.
Es steht dort eindeutig das N7HPC von N7 aus abstammt:
"HPC Optimization for N7"
Zudem in den anderen Folien: "Built on mature N7 production with compatible design rules" Hast du den Artikel überhaupt gelesen?

Nightspider

2021-06-04, 16:54:02

Was konnte man daran falsch verstehen? Es war doch klar kommuniziert, das V-Cache, erst Anfang 22 verkauft wird.
Die XT Reihe, könnte Ryzen 5 und 7 umfassen.
Ryzen 9 soll ja als einzige Reihe den erweiterten Cache bekommen.

Du fantasierst aber auch einiges zusammen.

Niemand hat gesagt das nur Ryzen9 den Cache bekommt. Niemand.

Und nirgends wurde kommuniziert das V-Cache Produkte Anfang 22 verkauft werden. Nirgends.

So viel zur "ich meckere über qualitative Aussagen von Anderen".

Die Frage ist, ob N7HPC überhaupt kompatibel ist.

Wenn dem nicht so wäre hätte man diese späte Spitzenvariante aber auch sein lassen können.

Schließlich gibt es schon länger 5nm und N5HPC kommt auch bald.

Jetzt kommen auch keine (kaum noch?) highend Produkte in 7nm, sondern wenn dann in 5nm schätze ich.

Zossel

2021-06-04, 17:16:12

Eigentlich wäre der Buchstabe "Z" (Z-Achse) für 3D Chips viel passender.

Nightspider

2021-06-04, 17:18:25

Imo ist der Unterschied viel zu groß um nur einen Buchstaben zu ändern.

Das muss dem geneigten Käufer mehr ins Auge stechen.

rentex

2021-06-04, 18:34:59

Du fantasierst aber auch einiges zusammen.

Niemand hat gesagt das nur Ryzen9 den Cache bekommt. Niemand.

Und nirgends wurde kommuniziert das V-Cache Produkte Anfang 22 verkauft werden. Nirgends.

So viel zur "ich meckere über qualitative Aussagen von Anderen".

Wenn dem nicht so wäre hätte man diese späte Spitzenvariante aber auch sein lassen können.

Schließlich gibt es schon länger 5nm und N5HPC kommt auch bald.

Jetzt kommen auch keine (kaum noch?) highend Produkte in 7nm, sondern wenn dann in 5nm schätze ich.

Habe auch nie behauptet, das es wortwörtlich gesagt worden ist ;-)
Falls du aber nicht weißt, welche die "höheren" Ryzen Modelle sind und was ein Spekulationsthread ist, kann man dir nicht mehr helfen...

Nightspider

2021-06-04, 19:59:07

Dann zeig uns doch mal AMDs offizielle Definition von "highend CPUs".

Außerdem stellst du eine Behauptung auf wenn du schreibst "Ryzen 9 soll ja als einzige Reihe den erweiterten Cache bekommen."

Vielleicht solltest du dann mal im Konjunktiv schreiben, bevor du dich über den Journalismus empörst und selbst nicht belegbare Aussagen tätigst.

CrazyIvan

2021-06-04, 20:51:17

@Nightspider
... Bla

rentex

2021-06-04, 21:23:40

@Nightspider

Spekulationsthread! Verstanden?!

Mangel76

2021-06-04, 22:04:26

Niemand hat gesagt das nur Ryzen9 den Cache bekommt. Niemand.

Und nirgends wurde kommuniziert das V-Cache Produkte Anfang 22 verkauft werden. Nirgends.

So viel zur "ich meckere über qualitative Aussagen von Anderen".

Lisa hat sehr deutlich gesagt, dass Produktionsstart Ende 2021 sein wird, also Verkauf frühestens Anfang 22. Und sie hat auch explizit von Ryzen 9 gesprochen! Ist mir aufgefallen weil ich es schade fand, dass es nur bei den teuren CPUs kommen wird.

Blediator16

2021-06-05, 01:38:05

Sie hat von highest end products gesprochen.
Kann nur R9 Reihe bedeuten oder eben auch nicht.

https://youtu.be/gqAYMx34euU?t=2324

Lisa Su

we will be ready to start production on our highest end products with 3d chiplets by end of this year

Nightspider

2021-06-05, 02:17:20

Für Viele ist auch ein 450 Euro 8 Kerner ein highend Produkt, vor allem wenn es der Schnellste auf dem Markt ist.

@Nightspider

Spekulationsthread! Verstanden?!

Mit korrekter Grammatik vermeidet man Missverständnisse, darauf wollte ich hinaus. Vielleicht verstehst du ja das.

Eigentlich eine sinnlose Diskussion.

HOT

2021-06-05, 08:21:16

Klar ist der 5800er dabei. Das wird der Verkaufsschlager.

y33H@

2021-06-05, 09:03:36

Ich würde "highest end" auch als Ryzen 9 auffassen, der 5800X ist das eben per Definition nicht.

genervt

2021-06-05, 09:11:32

Klar wird mit R9 angefangen. schon allein wegen der Marge. Irgendwann fällt dann auch was für die Midrange was ab.
Ich vermute die neuen Chips mit großem Cache werden Preisbereiche nach oben erschließen.

HOT

2021-06-05, 09:15:14

Richtig, das wird aber schon der 8-Kerner tun. Aber der Cache wird exklusiv bleiben ab 5800XT. Es ist völlig absurd und bescheuert den 5800er auszuschließen, ich sehe 0 Argumente, die dafür sprechen. Das wird den 8-kerner auf fast 500€ katapultieren, das wird sich AMD auf gar keinen Fall entgehen lassen. "HighestEnd" hin oder her - wobei, das ist es ja auch ab 500€, ob 8 Cores oder nicht.

fondness

2021-06-05, 09:19:04

Ich würde "highest end" auch als Ryzen 9 auffassen, der 5800X ist das eben per Definition nicht.

Sehe ich auch so. Alleine schon, weil sich die R9 easy kühlen lassen, der 5800X mit zusätzlich noch einer Cacheschicht und einer Siliziumschicht über dem Core könnte thermisch problematisch werden. AMD kann so einen Mehrwert für Gamer bei den >8Core CPUs generieren, die bisher eher links liegen gelassen wurden da kaum ein Spiel von mehr als 8 Kernen profitiert und damit den asp erhöhen.

HOT

2021-06-05, 09:31:08

So ein Unsinn, warum sollte der thermisch problematisch werden? Das ist schlichtweg Quatsch. Wenn man 2 CCDs kühlen kann, kann man auch 1 CCD kühlen.

AMD sieht ja offenbar auch neue Namen für die neuen CPUs vor. Ein 8C mit Cache ist zudem schneller als ein 5900X(T) in den meisten Fällen (nur extrem-MT halt nicht). Es wird sicherlich schon der 8C reichen um den dicksten ADL zu schlagen, die brauchen allein deshalb schon den 8C um die Exklusivität der 2 CCD-CPUs zu erhöhen und damit deren Preise. In den Bereichen darf man keine Discounter-Preisstrategie anwenden und auch nicht so denken ;). NV macht ja vor. AMD wird alles tun, um so viel wie möglich mit möglichst wenigen CPUs zu verdienen, dafür muss man einen 8C im Markt haben mit L3-Stack. Außerdem muss man die Exklusivität der 2-CCD-CPUs weiter erhöhen um die Preise für Zen4 in die Höhe zu treiben. Es ist nicht mehr die Frage, ob Intel mithalten kann, eher, wie man den Markt dominieren kann, sodass Intel mit den Preisen weiter runter muss.

Nightspider

2021-06-05, 09:48:53

Selbst wenn der 5800X minimal heißer wird als der 5950 so könnte man für einen 8 Kerner mit V-Cache bessere Chips nehmen, also die Chips der 5950 beispielsweise.

amdfanuwe

2021-06-05, 09:49:23

Es ist völlig absurd und bescheuert den 5800er auszuschließen, ich sehe 0 Argumente, die dafür sprechen.
Genauso bescheuert wie 6 Kerner nur mit 65W zu bringen oder 4 und 6 Kerner nur mit niedrigeren Takten, oder den Cache künstlich verknappen, kein SMT bei den kleineren SKUs zu bieten, die iGPU künstlich beschneiden etc.

Nichts bei Intel gelernt?
Das Spitzenprodukt wird am teuersten, darunter mit ein paar Einschränkungen etwas billigeres für die denen die Spitze zu teuer ist und im Midrange was mit ordentlicher P/L um die Konkurrenz auf Abstand zu halten.

5800 geht ins Midrange und dazu braucht man einen billigen Chip.
Damit wird die Gewinnmarge bei Intels ADL begrenzt und mit den 12 und 16 Kernern, die dann auch noch in Gaming besser sind, verdient sich AMD die goldenen Nase wie früher Intel mit den i7 als AMD grad mal mit den i3 mithalten konnte.

kabe

2021-06-05, 10:28:53

Der 5800x war nach UVP bisher der teuerste Vermeer-Chip, wenn man Preis pro Kern betrachtet und trotzdem ein Verkaufsschlager. Also spricht nichts dagegen auch einen 8C mit L3-Stack hochpreisig anzubieten. Einziger valider Punkt es auf die R9 zu begrenzen, wäre die dann messbare bessere Spieleleistung der 12 und 16 Kerner.

Cyberfries

2021-06-05, 10:37:44

Dass bei "highest-end" niemand an Threadripper denkt....
Ryzen 9 - pah, das ist doch eine billig-CPU für den Pöbel.

y33H@

2021-06-05, 10:45:20

Der 3D V-Cache wurde halt mit Vermeer gezeigt ^^

OgrEGT

2021-06-05, 13:26:51

Dass bei "highest-end" niemand an Threadripper denkt....
Ryzen 9 - pah, das ist doch eine billig-CPU für den Pöbel.

Prinzipiell wären die Threadripper die "highest end" CPUs... aber nicht unbedingt auf Gaming bezogen. Da der Leistungszuwachs des 3D Cache anhand von Games Benchmarks gezeigt wurde und nicht mit heavy MT Apps deutet es wohl schon eher auf die "highest end" Gaming CPUs hin, was dann die R9 wären... (und hoffentlich auch R7)...

amdfanuwe

2021-06-07, 19:10:08

Mir kamen die schematischen Darstellungen zu V-Cache etwas seltsam vor.
Auf Wikichip gibt es dazu einen Artikel:
https://fuse.wikichip.org/news/5531/amd-3d-stacks-sram-bumplessly/
When 3D stacking, chiplets are interconnected either face-to-face or face-to-back (or both). If we assume the Ryzen 5000-series package used is largely unchanged, this implies they are using a face-to-back bonding flow (with the CCDs facing down as usual). Dr. Su did note that they are using Hybrid Bonding with TSVs which implies this is, in fact, a F2B process. Under this process flow, you’d have the CCD wafer mounted on a carrier that is thinned down to expose the TSVs from the backside. The hybrid bond terminal is then formed on the back side. The 3D V-Cache die is also thinned and is then attached face-down.
https://fuse.wikichip.org/wp-content/uploads/2021/06/hybrid-bonding-flow.png

CrazyIvan

2021-06-07, 19:59:10

@amdfanuwe
Danke für den Hinweis - interessanter Artikel.

Zossel

2021-06-07, 21:02:17

Auf Wikichip gibt es dazu einen Artikel:

Intel advertised their power for Lakefield at around 0.15 pJ/bit.
V-Cache connections would be at around 0.05 pJ/bit or about a third.

Da würde mich glatt mal interessieren in welcher Größenordnung Energie/Bit für "Leiterbahnen" auf einem Die benötigt wird.

EDIT: Noch mal die Energien eingeordnet:

$ python3 -c "print ( (0.05 * 10**-12) * (10**12 * 2 * 8))"
0.8
$

0,8 Wattsekunden (Joule) braucht der Interconnect um 2TByte zu bewegen. Und 2 TByte/s schafft das Ding.

CrazyIvan

2021-06-07, 21:33:16

Da würde mich glatt mal interessieren in welcher Größenordnung Energie/Bit für "Leiterbahnen" auf einem Die benötigt wird.
Das hatte ich vor einiger Zeit auch mal versucht, herauszufinden, siehe hier: https://www.forum-3dcenter.org/vbulletin/showpost.php?p=12669802&postcount=569

tl;dr
Bei >5mm Leiterbahn ca. 0,05pJ/bit, also faktisch identisch. Die Quelle war eine Hochschul-Präsi und nahm irgendwas <10nm als Beispiel, also zieh ruhig noch ne Ecke ab.

Zossel

2021-06-07, 21:40:39

Bei >5mm Leiterbahn ca. 0,05pJ/bit, also faktisch identisch. Die Quelle war eine Hochschul-Präsi und nahm irgendwas <10nm als Beispiel, also zieh ruhig noch ne Ecke ab.

Ok, dann ist das wohl realistisch das das stacked Die kaum Latenzen zum L3 kostet.

Nice!

amdfanuwe

2021-06-07, 23:16:09

Da würde mich glatt mal interessieren in welcher Größenordnung Energie/Bit für "Leiterbahnen" auf einem Die benötigt wird.

0,8 Wattsekunden (Joule) braucht der Interconnect um 2TByte zu bewegen. Und 2 TByte/s schafft das Ding.
Also intern 0,05 pJ/bit.
Für ZEN1 hab ich die Angabe für den IF mit 2 pJ/bit gefunden.
ZEN2 und ZEN3 hab ich keine konkreten Angaben gefunden, sollen aber effizienter sein.
Da verbraucht eine externe Verbindung über IF ca. 40 mal mehr als intern.
Um die 2 TByte rüberzuschaufeln würden dann 32Ws draufgehen.

Für 15W Mobilprozessoren machen externe Chiplets wie beim ZEN2/3 also keinen Sinn.

CrazyIvan

2021-06-07, 23:24:21

@Zossel
Ja, und Deine Rechnung zeigt gut, wie wenig Energie der Interconnect kostet - gerade mal 0,8w bei Volllast.

@amdfanuwe
Deswegen kommt es ja so wahnsinnig auf die physische Implementierung des Interconnects an. Aber das hatten wir hier ja schon - siehe https://www.forum-3dcenter.org/vbulletin/showthread.php?p=12669802#post12669802 ff.

maximus_hertus

2021-06-07, 23:24:37

Dass bei "highest-end" niemand an Threadripper denkt....
Ryzen 9 - pah, das ist doch eine billig-CPU für den Pöbel.

Die neuen Threadripper kommen ja im (Spät)sommer, da wird man wohl kaum nach 3-4 Monaten groß refreshen, zumal man bei HEDT eh nur gegen sich selbst kämpft.

Denniss

2021-06-08, 12:22:06

AMD könnte bei TR beides anbieten und das dann über den Preis regeln

Cyberfries

2021-06-08, 12:54:26

da wird man wohl kaum nach 3-4 Monaten groß refreshen

Der März ist immerhin der 7. Monat nach dem August.

Der 3D V-Cache wurde halt mit Vermeer gezeigt ^^

Was auch deutlich als "Prototyp" betitelt wurde.

Prinzipiell wären die Threadripper die "highest end" CPUs... aber nicht unbedingt auf Gaming bezogen.

"Früher" haben Spieler gerne HEDT gekauft, heute nicht mehr.
Das wäre eine Möglichkeit, diesen hochpreisigen Sektor wieder beliebter zu machen.

---

Eure Argumente sind natürlich alle richtig.
Allerdings, wozu sowohl XT als auch 3dvc in Q1 2022, wenige Monate vor AM5, beide mit Spielerausrichtung?
Bis tatsächlich ein Zen4 TR kommt, wird es wohl Ende 2023, da hilft eine Auffrischung nach 7 Monaten sicher.
Klar, Zen 9 ist der offensichtlichste Kandidat für 3dvc, doch tr würde ich nicht ausschließen wollen.

Platos

2021-06-08, 13:59:25

Also Zen 9 sicher nicht ;)

Fraglich, ob die Architektur dann überhaupt noch Zen genannt wird^^

X-Bow

2021-06-09, 11:42:07

Bin da bei Cyberfries.
AMD hat gezeigt, dass sich die Gamingperformance bei 4Ghz durch den Cache steigern lässt. Dadurch das der Gamingboost mit einem 12-Kern Prototyp gezeigt wurde und Lisa dann einen 12-Kern Prototyp mit nur einem gestackten CCD gezeigt hat, kann man auch gut darüber Spekulieren ob denn überhaupt alle CCDs des Prozessors in gestackter Version vorliegen muss. Wenn nicht, dann lässt sich das viel besser in TR unterbringen als in Vermeer.
TR hat einen "Gaming-Boost" nötiger als Vermeer. Seh ich auch vermarktungstechnisch besser. TR im Herbst und TR-Gaming dann anfang nächsten Jahres. Die zu erwartende Nachfrage für TR-Gaming würde sich auch deutlicher in Grenzen halten was als Erstschuss einer neuen Technik inkl. Fertigung von Vorteil wäre.

Mangel76

2021-06-09, 11:53:05

Bin da bei Cyberfries.
AMD hat gezeigt, dass sich die Gamingperformance bei 4Ghz durch den Cache steigern lässt. Dadurch das der Gamingboost mit einem 12-Kern Prototyp gezeigt wurde und Lisa dann einen 12-Kern Prototyp mit nur einem gestackten CCD gezeigt hat, kann man auch gut darüber Spekulieren ob denn überhaupt alle CCDs des Prozessors in gestackter Version vorliegen muss. Wenn nicht, dann lässt sich das viel besser in TR unterbringen als in Vermeer.

War wirklich nur bei einem der Cache verbaut? Sie sagte, dass bei einem Die der Cache "exposed", also freigelegt wurde, könnte also sein, dass bei beiden der Cache verbaut war. Und sie sprach ja auch von 192MB bei 2-Die CPUs.

Der_Korken

2021-06-09, 12:07:34

Wenn man nur einen CCD stacked, dann hat man quasi zwei verschiedene Arten von Kernen (big.LITTLE), wo man bestimmte cache-sensitive Anwendungen auf dem einen CCD und alles andere auf dem anderen CCD laufen lassen will. Wenn das falsch gescheduled wird, dann rasiert ein Achtkerner mit V-Cache die 2-CCD-Modelle weg. Ich denke nur um ein paar Cache-Chiplets zu sparen, zieht sich AMD diesen Schuh nicht an.

Wegen HEDT und Gaming: Ich glaube HEDT ist so unbeliebt geworden, weil AMD im Desktop mehr als genug Kerne anbietet. Diejenigen, die sich zu Haswell-Zeiten nen 6-Kerner gekauft haben, würden heute zum 5900/5950X greifen, was auch preislich passt. Threadripper geht erst ab 1500€ los. Das war früher der Preis für den HEDT-Topdog bei Intel. Ich glaube nicht, dass sich viele Gamer dafür interessieren würden, wenn AMD den V-Cache exklusiv bei den Threadrippern verbaut. Ein 5800X für 380€ liefert quasi schon ausreichend viele Kerne, mehr werden einfach nicht gebraucht. Für die 15% mehr durch den Cache dürfte fast niemand das Vierfache ausgeben. Vor allem wenn ein Jahr später ein 8-Kern-Zen-4-Ryzen auch ohne V-Cache die gesamte Zen-3-Palette nass macht.

Nightspider

2021-06-09, 12:12:16

Ich denke auch dass das Upgrade Intervall bei HEDT deutlich größer ist und man nicht mit jeder Generation eine neue HEDT Plattform bräuchte.

Wie groß der Markt aber genau ist wäre aber schon mal interessant.

Gipsel

2021-06-09, 12:15:19

War wirklich nur bei einem der Cache verbaut? Sie sagte, dass bei einem Die der Cache "exposed", also freigelegt wurde, könnte also sein, dass bei beiden der Cache verbaut war. Und sie sprach ja auch von 192MB bei 2-Die CPUs.Ganz genau. Bei dem gezeigten Chip waren auf beiden CCDs Cache-Dies gestackt. Insbesondere bei dem, worauf die Benchmarks liefen. Was man in die Kamera hält, kann ja durchaus ein toter Chip gewesen sein. Den hat man doch nur zur Demonstration in die Kamera gehalten. Der sollte nur zeigen, daß es ins gleiche Package paßt (rechter CCD: wenn komplett mit Silizium-Spacer beiderseits des Cache-Dies vergossen, es also ein identisches physisches Format hat wie die normalen CCDs) und gleichzeitig das Stacking zeigen (in dem man beim linken CCD das Cache-Die frei stehen läßt, damit man es auch sieht). Keine Ahnung, wie man überhaupt auf die Idee kommen kann, daß die später verkauften Chips dann so (ohne Si-Spacer auf einem CCD) aussehen werden oder irgendwie nur auf einem CCD den Cache stackt.

mboeller

2021-06-09, 12:16:40

mal was anderes. Würde der V-Cache bei Rembrandt (ist ja Zen 3+) überhaupt Sinn machen?

Wenn Rembrandt wie zu erwarten wieder "nur" 16MB L3-Cache bekommt, dann passt da ein 32MB V-Cache drüber.

Die GPU hat davon aber nichts, oder? Die hängt ja nicht direkt am L3-Cache der CPUs mit dran, sondern nur am Speichercontroller bzw. am Infinity Fabric. Siehe: https://www.hardwareluxx.de/images/cdn01/F89532ECA5D14F7090884B5BB92E9192/img/EC26B5AC92994438B9D6B538C77FE8EB/AMD-Cezanne-Deep-Dive-00003_EC26B5AC92994438B9D6B538C77FE8EB.jpg

Müsste ein V-Cache, der beide CPU und GPU beschleunigen kann nicht als eine Art L4-Cache im System eingebunden sein, oder funktioniert das auch als Erweiterung des L3-Cache?