AMD/ATI - RDNA3 (Navi 3X, Radeon RX 7000 Serie, tlw. Chiplets, 5/6 nm, 2022) [Archiv] - Seite 5

vinacis_vivids

2021-09-28, 22:25:39

Bei N33 gehts darum, eine sehr gute Leistung abzuliefern und auch bezahlbar zu bleiben. Bei 4096SP = 64CUs im Vollausbau gibs dann ein Salvage 3584SP = 56CUs für die maximale Ausbeute. Die 6nm Wafer sind teuer und brauchen einige energieintensive Schritte.

Bei 7nm 520mm² N21 XTX merken viele schon, dass die Brieftasche doch stark belastet wird und die Zahlungsbereitschaft sinkt. Daher der Sprung auf 6nm um den Chip zu verkleinern und bezahlbar zu bleiben. Allerdings lockt N33 keinen N21-Besitzer vor dem Ofen.

Deswegen muss eine teschnisch überzeugende und marketingwirksame MCM-Lösung her um auch in den Köpfen im grünen Lager abzugraben. Den ganzen riesen Gewinne macht derzeit zu 80% Nvidia mit dem völlig übertriebenen und stromfressenden Riesenchip.

Die eleganteste Lösung ist natürlich, dass N33 aka 7700XT die 3090Super zum Frühstück frisst bei 250W Verbrauch und <400mm² Die-Fläche gegen 350W und 628mm².

Mehr GPU-Takt, Verdopplung der RT-Cores, Verbesserung der IF-Cache Hitrate, mehr IF Takt, schmaleres SI, Cache-Kohärenz mit CPU, verkleinertes I/O. Das sind so die wesentlichen Baustellen für RDNA3 neben der verbesserten Fertigung.

N33 Full / N33 Salvage
4096 SP / 3584 SP
64 CUs / 56 CUs
128 RT / 112 RT
~ 3,0Ghz / 2,8Ghz GPU-CLK
~ 2,2Ghz / 2,0Ghz IF-CLK
fp32: 24,5 / 20,0 TFlops
18Gbits / 16Gbits RAM
432 GB/s / 384 GB/s
192bit SI
12GB GDDR6
128MB IF-Cache

Das ganze gepackt in <400mm² 6nm und AMD wird die Karte aus den Händen gerissen. Preislich dann 699 U$D / 699 €. Mit einem einzigen Wafer ist die ganze Ampere-Generation weggeblasen.

reaperrr

2021-09-29, 00:31:33

192bit SI
12GB GDDR6
128MB IF-Cache

Die Größe des IF$ ist an das SI gekoppelt, 128MB@192bit geht technisch nicht.

Abgesehen davon spricht die Gerüchteküche von 128bit und 8GB (wobei 16GB im ClamShell-Mode technisch eigentlich möglich sein sollten, ist aber reine Speku von mir).

Das ganze gepackt in <400mm² 6nm und AMD wird die Karte aus den Händen gerissen.
Der Chip soll über 400mm² messen, was auch Sinn macht, 6nm packt kaum dichter als 7nm und wir reden von wahrscheinlich 32MB mehr IF$ und 60% mehr ALUs als N22, ein paar zusätzliche Transistoren werden die Architekturverbesserungen wohl ebenfalls brauchen.

Preislich würde ich die Karte wegen der 8GB nicht allzu weit über der 6700XT verorten. Verfügbarkeit und Straßenpreise werden natürlich ne andere Geschichte.

Leonidas

2021-09-29, 03:04:09

Hat er das schon länger bei sich drin stehen?
https://twitter.com/greymon55

Hab ich nicht beachtet (hab einen Client dafür, da sieht man keine Profile). Ich würde hier eher noch von einem Fehler ausgehen, der in Vergessenheit geraten ist. Mit unter 5120 FP32 und kleinerem SI halte ich N21 für nicht einholbar. Außerdem zu großer Sprung zu N32.

Neurosphere

2021-09-29, 08:38:59

Hab ich nicht beachtet (hab einen Client dafür, da sieht man keine Profile). Ich würde hier eher noch von einem Fehler ausgehen, der in Vergessenheit geraten ist. Mit unter 5120 FP32 und kleinerem SI halte ich N21 für nicht einholbar. Außerdem zu großer Sprung zu N32.

In der way back machine findet man einen Screenshot von August als die erste Meldung zum Thema kam: https://web.archive.org/web/20210820152838/https://twitter.com/greymon55.

Hier sieht man das ganze nicht, allerdings weiß ich nicht ob bei der Ansicht der Zusatztext überhaupt auftauchen würde.

HOT

2021-09-29, 09:40:19

robbitop

2021-09-29, 09:47:43

Die Größe des IF$ ist an das SI gekoppelt, 128MB@192bit geht technisch nicht.

Ist das sicher? Ich will das nicht anzweifeln - es ist mir nur neu, dass eine statische Größe an SRAM pro Speicherkanal angebunden ist. Ich hätte angenommen, dass ein großer Speicherpool vor dem IMC über eine Fabric angebunden wäre - und dann wäre die Größe in Relation zur SI breite entkoppelt.

Soll ja recht große Architekturveränderungen in RDNA3 geben, wieso also nicht?
Ich finde, da darf man ein wenig skeptisch sein. Eine überproportionale Steigerung der Ausführungseinheiten UND IPC Steigerung gleichzeitig? In der Historie der GPUs wüßte ich nicht, dass das schon mal passiert wäre. Bei großen Steigerungen der Ausführungseinheiten litt dann immer die Granularität und IPC war eher sekundär. Und bei großen Steigerungen der IPC litt immer die Steigerung der Ausführungseinheiten.
Ich schaue ein wenig auf die 15 tausend FPUs bei N31. Faktor 3 bei einem Fullnodeshrink. Ja es sind Chiplets - aber das hilft nur bei der Size limitierung nicht bei der Power limitierung. Und dann noch IPC Steigerung? Dann wäre das Endprodukt ja mehr als 3x so schnell als N21. Ich bin da sehr, sehr skeptisch.

Für mich sieht es so aus, als wenn man die CUs breiter macht. So kann man ggf. ausgehend von den aktuellen CUs die Rechenleistung am flächeneffizientesten steigern. Ähnlich wie Ampere ggü Turing/Volta.

Der_Korken

2021-09-29, 10:11:16

Ich schaue ein wenig auf die 15 tausend FPUs bei N31. Faktor 3 bei einem Fullnodeshrink. Ja es sind Chiplets - aber das hilft nur bei der Size limitierung nicht bei der Power limitierung. Und dann noch IPC Steigerung? Dann wäre das Endprodukt ja mehr als 3x so schnell als N21. Ich bin da sehr, sehr skeptisch.

Für mich sieht es so aus, als wenn man die CUs breiter macht. So kann man ggf. ausgehend von den aktuellen CUs die Rechenleistung am flächeneffizientesten steigern. Ähnlich wie Ampere ggü Turing/Volta.

Vielleicht muss man die IPC-Steigerung auch pro WGP sehen: Wenn man die SIMD-Einheiten darin verdoppelt, steigt natürlich auch die IPC einer WGP gegenüber RDNA2. Allerdings sind es dann nicht mehr 240 vs 80 CUs, sondern nur noch 60 WGPs vs 40 WGPs. Aber trotz höherer Zahl (1.5x) mit mehr IPC.

Leonidas

2021-09-29, 10:50:25

Zuerst werden so wie bei NV die großen Mining Firmen bedient werden, daher verschiebt sich der Launch für uns Gamer-Luschen noch etwas weiter nach hinten. :D

In gewissem Sinne wäre das sogar richtig und damit zu begrüssen. Dann bekommen wir später, aber nicht mitten in der Hochpreis-Phase.

Vielleicht muss man die IPC-Steigerung auch pro WGP sehen: Wenn man die SIMD-Einheiten darin verdoppelt, steigt natürlich auch die IPC einer WGP gegenüber RDNA2. Allerdings sind es dann nicht mehr 240 vs 80 CUs, sondern nur noch 60 WGPs vs 40 WGPs. Aber trotz höherer Zahl (1.5x) mit mehr IPC.

Korrekt. Aber für Navi 33 würde dies bedeuten: Nochmals niedriger anzusiedeln.

basix

2021-09-29, 17:47:01

Das N33 Gerücht mit 4096 SPs wäre komplett anders, als alle bisherigen Gerüchte. Würde ca. 40mm2 Flächeneinsparung ausmachen, wenn der Rest gleich bleibt (gleich viele Shader Arrays usw.). Bei 128MByte IF$ und 128bit SI käme ich auf ~390mm2 für N33.

Von der Performance her wäre es aber nicht so extrem tragisch. RDNA2 skaliert mit steigender Einheitenzahl mit nur knapp 50% / 60% / 70% bei 1080p / 1440p / 4K (CB Messungen). Nimmt man für RDNA3 eine ähnliche Skalierung an, werden aus (5120/4096 - 1) * 0.5|0.6|0.7 = +12.5%|+15%|+17.5% Performance. Diese ~15% könnte man verglichen mit N21 auch mit Takt ausgleichen, ergäbe ~2.5 GHz für N33 bei ~N21 Performance. IPC usw. ist hier mal vernachlässigt. Allein die geringere SP-Anzahl und N6 sollte Taktsteigerungen zulassen. Und N22/N23 arbeiten ja bereits mit ähnlichem Takt.

HOT

2021-09-29, 18:25:54

Wenn der Chip die gleiche Leistung hat mit 16 256Bit WGPs wie RDNA2, reicht dem Chip ca. 2,8GHz um die gleiche Rohleistung zu erreichen. Ich würde sagen, die machen das über den Takt. Und die 6nm bringen auch noch mal Flächeneinsparungen. Die Shader selbst werden ja auch noch simpler gestaltet sein, dafür wird es mehr RT-Rohleistung und evtl. mehr AI-Leistung geben, was wiederum Fläche benötigt mMn. So um die 370-400mm² würde ich auch schätzen für den Chip. Das macht den zur oberen Mittelklasse mit N6. Und man wird mMn ca. 250W dafür einkalkulieren. Lovelace wird mMn wieder sparsamer in diesem Leistungsbereich, aber das ist wiederum N5 vs. N6 wie es aussieht. Dafür kannibalisiert der Chip nicht die N5-Fertigung für AMD, was für AMD deutlich mehr wiegen dürfte als die höhere Verlustleistung.

Ich zweifel auch erheblich an den kolportierten 128Bit, das wird genauso falsch sein wie die 5120 Shader. Sinnhaft wäre 96 oder 128MB IF$ (mit Tendenz zu 96MB, für WQHD-Optimierung, d.h. bei UHD wird er hinter den N21 landen) und dürfte ein 192Bit-Interface haben, um 12GB zu ermöglichen. 128Bit sind wieder schwierig, hierfür bräuchte man wiederum 3 oder 4Gbit-Chips, welche zwar sein könnten aber wofür es kaum Hinweise gibt bisher. Also 128Bit ist sehr sicher Quatsch. Das passt so auch gut ins Portfolio: N31 und 32 sind klare UHD+RT-Produkte mit großen Caches und weiterhin 16GB, mehr ist eigentlich unsinnig, evtl. gibts eine Ultra-High-End-Variante dann doppelt bestückt, also 32GB und N33 (RT) und N22 ("non"-RT) sind WQHD-Produkte mit entsprechend 12GB, N22 weiterhin mit 8GB.

vinacis_vivids

2021-09-29, 18:52:15

4096 SP = Vollausbau wäre analog ähnlich dazu Vega10 / Vega20 / Fiji

Nach neuer Ordnung sind es dann 16 WGP (256 SP pro WGP) im Vollausbau und 15 WGP als Salvage, was also 3840 SP entspricht. 14 WGP, dann 3584 SP.

N33XTX = 16 WGP = 4096 SP
2.6-2.8Ghz ~ bis 24.5 Tflops

N33XT = 15 WGP = 3840 SP
2.6-2.8Ghz ~ bis 21.5 Tflops

N33XL = 14 WGP = 3584 SP
2.5-2.7Ghz ~ bis 19.4 Tflops

Diese drei Varianten mit 12GB und 192bit SI, 128MB IF-Cache halte ich am für realistisch und machbar um N21XTX, XT, XL komplett preiswert zu ersetzen.
Für eine höhere Hitrate muss der IF-Cache höher takten und intern noch besser ausgelastet werden am Front-end durch die CPU. Das ist der elegantere Weg als den "nur" zu vergrößern, was den MCM Teilen bestimmt ist.
Ich denke der erhöhte Takt wird wesentlich für die bessere Leistung werden.

Kleineres SI, weniger Speicher, kleinerer Chip, weniger SP ggü. N21 macht N33 preislich deutlich attraktiver.

Auch der Verbrauch kann dadurch gesenkt werden auf 150-200W.

699€/549€/499€ kann man bei dem < 400mm^2 6nm Chip ansetzen.

Gute Nachrichten für Gamer.

basix

2021-09-30, 12:01:00

Ich habe mir nochmal die Aussage angeschaut, dass N33 = N23 mit RDNA3 ist.
- N23: SI=128bit, IF$ = 32MByte, 16 WGPs = 2048 SPs

Wenn man dies als Basis nimmt, ergeben sich ein paar interessante Sachen:
- N33: SI=128bit, IF$ = 32MByte, 16 WGPs = 4096 SPs
- IF$ total = 96 MByte --> 32MByte on-Die + 64MByte V-Cache

Im Endeffekt könnte N33 = N23 + RDNA3 WGP + V-Cache sein.

In 6nm könnte so ein Chip ~300mm2 gross sein, wenn die CUs nicht deutlich grösser werden. Das einzige, was mir Kopfschmerzen bereitet ist die Speichermenge. 8GByte sind 2022 für diese Leistungsklasse einfach knapp. 12 GByte würden deutlich besser passen, was allerdings 24 GBit Chips erfordern würde. Allgemein wären für ein 128 / 192 / 256bit Portfolio 24 GBit Speichermodule optimal. 16 GBit ist bei allen Varianten ausser 256bit etwas knapp für die gebotene Performance.

Edit:
Wenn AMD will, gäbe es von N33 noch folgende sinnvolle Konfigurationen, um das Portfolio gegen unten hin abzurunden. Ich tippe hier auf erstere Variante:
- 48 CU, 96bit, 9GByte, 96MByte IF$ (1080p...1440p)
- 48 CU, 128bit, 8GByte, 32 MByte IF$ (1080p only)

Neben CU Salvage hat man so SI-Salvage, kein/nichtfunktionaler V-Cache und weniger Speicher als zusätzliche Optionen. Unterhalb von N33 wird dann N23 für 1080p only weiterverwertet.

Nightspider

2021-09-30, 18:56:58

Ich glaub es ist sehr unwahrscheinlich das AMD das gleiche V-Cache Die der CPUs auch für GPUs nutzen kann.
Werden die Cache-Bereiche durch wenige CPUs Kerne (Latenz wichtig) nicht anders angesteuert als durch die vielen Recheneinheiten einer GPU, wo es eher auf Bandbreite ankommt? (Obwohl Cache generell natürlich schon hohe Bandbreiten und kurze Latenzen hat)

Hätte aber darauf gewettet das da da trotzdem diverse Unterschiede gibt. Man schau sich nur an wie sehr sich der Cache-Aufbau schon von Generation zu Generation und von L1 zu L2 und L3 andauernd ändert.

w0mbat

2021-09-30, 18:59:21

Jupp, die Verbindung wird ja via TSVs realisiert, das würde wohl nicht auf ne GPU passen (außer man legt die gleichen Ankerpunkte wie beim Zen3 chiplet).

Nightspider

2021-09-30, 19:07:43

Na das wäre sowieso die absolute Mindestvoraussetzung. Das sollte klar sein.

Ramius

2021-09-30, 21:23:44

Ich glaub es ist sehr unwahrscheinlich das AMD das gleiche V-Cache Die der CPUs auch für GPUs nutzen kann.

Es sollte doch für AMD kein Problem sein ein für die GPU passendes V-Cache Die zu erzeugen.

Zossel

2021-10-01, 06:23:03

Hätte aber darauf gewettet das da da trotzdem diverse Unterschiede gibt. Man schau sich nur an wie sehr sich der Cache-Aufbau schon von Generation zu Generation und von L1 zu L2 und L3 andauernd ändert.

Die zusätzlichen Dies für den Cache sind reines SRAM ohne sonstige Logik, daher dürften die ziemlich agnostisch zu einem konkreten Aufbau des Caches sein.

Iscaran

2021-10-01, 09:19:58

Irgendwie glaub ich nicht so recht daß AMD hier 2 Unterschiedlich GPU-Chiplets auflegt.

Wenn N33 4096 SPs hat, ist die Wahrscheinlichkeit hoch dass N32 =2x4096 = 8192 und N31 dann 3x4096 = 12288 Sps tragen.

Wie gesagt - ich denke wenn AMD hier den Chiplet weg wählt, wird man 1 SP-Grunddesign haben und das dann vervielfältigen (ggf. mit teildeaktivierten Subvarianten arbeiten).

Damit wäre das Gesamtportfolio insgesamt ca 25% niedriger als bisher erwartet anzusiedeln.
Was IMHO besser passt als erneut einen derartigen Riesensprung hinzulegen.

Über die Architekturverbessrung RDNA3 vs 2 ist ja auch noch alles offen...kann gut sein, dass man hier nochmal 25% IPC drauflegen kann - oder eben auch nicht.

Linmoum

2021-10-01, 09:34:31

2xGCDs für N31 und N32 sind von sämtlichen vertrauenswürdigen Leakern "bestätigt". Auch, dass N31 und N32 nicht dieselben GCDnutzen werden.

Das kann man mittlerweile wohl als gesetzt ansehen.

Nightspider

2021-10-01, 10:06:31

Die zusätzlichen Dies für den Cache sind reines SRAM ohne sonstige Logik, daher dürften die ziemlich agnostisch zu einem konkreten Aufbau des Caches sein.

Nur gibt es eben nicht den einen SRAM sondern es gibt zig SRAM Arten und jeder Speicherbereich davon kann auf diverse vers. Weisen angebunden sein.

basix

2021-10-01, 10:18:03

Rein aus der Vogelperspektive her gesehen würde V-Cache wie die Faust aufs Auge passen:
- Hohe Density, günstig, N7
- 64 MByte als Single Chiplet, zusammen mit 32MByte auf dem Base Die sind 96MByte für N33 eine sinnvolle IF$ Kapazität
- 2 TB/s Bandbreite des Caches (fast identisch mit N21)

Ob es für GPUs passt bezüglich Anbindung, Takt und Organisation? Das weiss leider niemand von uns mit Gewissheit. Aus Sicht von AMD würde es aber Sinn machen: Economy of Scale & IP-Reuse zwischen CPU und GPU. Spätestens, wenn man sowas bei APUs verwenden will, muss das V-Cache Chiplet CPU & GPU bedienen können, egal was dann die effektive Organisation ist.

Edit:
Da der IF$ auf dem L3$ der CPUs basiert, würde ich eine verwandte Organisation erwarten. So far-fetched ist die Idee mit V-Cache mMn nicht.

w0mbat

2021-10-01, 10:48:59

Es wäre auf jeden Fall optimal und ist bestimmt auch das Ziel. Modulares design mit chips, die mehrere Funktionen haben.

Iscaran

2021-10-01, 11:22:01

2xGCDs für N31 und N32 sind von sämtlichen vertrauenswürdigen Leakern "bestätigt". Auch, dass N31 und N32 nicht dieselben GCDnutzen werden.

Wenn mit 2 GCDs UNTERSCHIEDLICHE GCD gemeint sind, ja.
Ich hab die Bestätigung bislang nur soweit verstanden, daß N31 und N32 2x GCD nutzen (also "Chiplet-artig" aufgebaut sind)

Es kann natürlich schon sein, dass man 2 UNTERSCHIEDLICHE Basis-Chiplets macht.

N33 mit 4096 SPs in 1 GCD
N32 /N31 dann 2x 5120 SPs pro GCD (bzw. 3x5120 für N31)
=> das wären dann 2 unterschiedliche GCDs

Das erscheint mir aber irgendwie unnötig...wozu dann überhaupt den "Chiplet" Ansatz, wenn man ihn nicht +- konsequent nutzt.

Vielleicht ist das GCD ja 5120 und die 4096 sind ein "Cut" (Teildeaktiviert) davon?

Dann wären alle GCDs grundsätzlich immer gleich bei N31/N32/N33

Linmoum

2021-10-01, 11:32:40

Leonidas

2021-10-01, 16:10:34

Trotzdem lassen alle Interpretationen noch einige Lücken übrig, die derzeit nicht wirklich gut erklärbar sind. Aber das ist vergleichsweise normal, so was klärt sich bei Vorliegen der vollständigen HW-Daten. Nicht selten kommt der entscheidende Hinweis, der dem ganzen einen Sinn gibt, erst vergleichsweise kurz vor Schluß (siehe doppelte FP32 bei Ampere).

w0mbat

2021-10-01, 18:10:35

N33 soll monolithisch bleiben, nur N31 und N32 bekommen GCDs.

N31 soll 2xGCD mit 7680SPs haben, also insgesamt 15360. Dass man dann bei N32 auf kleinere GCDs setzt ist nur logisch, ansonsten müsste man N31 schon extrem kastrieren bei der Lücke nach unten hin. Dann legt man lieber noch ein gesondertes GCD auf.
Das macht für mich keinen Sinn, die Idee dahinter ist ja gerade, dass man nur einen Chip auflegt und dann durch die Anzahl unterschiedliche SKUs erstellt.

Zossel

2021-10-01, 18:50:23

Iscaran

2021-10-01, 19:33:23

Das macht für mich keinen Sinn, die Idee dahinter ist ja gerade, dass man nur einen Chip auflegt und dann durch die Anzahl unterschiedliche SKUs erstellt.

Genau. Schaut man mal in das AMD Patent rein. Findet man auch Figure2 (Anhang4). Diese passt so gar nicht zu dem Design aus den Twitter-Gerüchten (1&2), welche wohl bislang als Kern aller Spekulation genommen wird. Übersetze ich die Twitter Idee in eine Skizze (Anhang 3) sieht das in etwa so aus wie in dem Bild - mit dem ganzen Cache und Interconnect in der Mitte.
In der Patentschrift ist aber die Memory-Anbindung AUSSEN am Interconnect (Anhang4)...also eher so wie in meiner "Chiplet" Idee (Anhang5).
Die Zahlen (also WGP CU usw) in dem Twitter-Gerücht denke ich stimmen schon.

Aber die Chipgeometrie und "Chiplet" bzw. GCD-Idee ist eine andere.

Ich hab das mal skizziert.

Navi32
= MCD + 2 GCD
1GCD = 1SE x 2SA x 5WGP
= 20 WGP x8x64 = 10.240 SPs
Außerdem: 4*48+32 = 224 MB Cache & 256 bit SI

Navi31
= MCD + 3 GCD
1GCD = 2SE x 2SA x 5WGP
= 20 WGP x8x64 = 15.360 SPs
Und somit: 320 MB Cache & 384 bit SI

Logisch wäre dann auch N33 = MCD +1 GCD das einzige was dazu nicht passt ist die Anzahl der SPs mit 4096
N33 wären dann 128 MB Cache + 128 Bit SI@5120 SPs
Wenn man für N33 nun aber einfach die Chiplets selektiert welche „fehlerhafte“ WGPs aufweisen, kann man vielleicht die 4096 zwanglos erklären durch eine andere „Konfiguration“ eines ansonsten identischen Chiplets.
Z.B. 1SE x 2 SA x 4 WGP x 8CU x 64 SPs = 4096

EDIT: Evtl. muss der MCD auch 2 PHYs tragen und dafür dann jedes Chiplet auch nur 2 weitere statt 4.
Ergäbe in der Konfiguration dann 2x32bit+n*64 bit SIs und somit für N33 = 128Bit, N32 = 192 Bit und N31=256bit

Linmoum

2021-10-01, 20:05:37

Das macht für mich keinen Sinn, die Idee dahinter ist ja gerade, dass man nur einen Chip auflegt und dann durch die Anzahl unterschiedliche SKUs erstellt.Keine Ahnung, ob's Resteverwertung bei Milan gibt, alle SKUs inkl. Kernanzahl kenn ich jetzt nicht auswendig. Aber wo findest du den Zen3 SKUs mit 4C? Da ist doch auch bei 6C Schluss, weil es einfach nicht sinnvoll ist, die Chiplets für noch weniger Kerne zu missbrauchen. Einerseits natürlich, weil die Marge dadurch extrem sinkt. Andererseits ist die Frage, ob man überhaupt derart viel Ausschuss hätte.

Ein 7680SP GCD derart zu kastrieren, dass du am Ende dann z.B. nur noch diese 4096SPs hast, ist doch einfach völlig sinnfrei. Da legt man lieber einen 3xxmm² Chip für auf und spart sich den ganzen Aufwand mit mehreren GCD und MCD.

Es wird seinen Grund haben, warum es mit RDNA3 nicht schon 3 oder mehr GCD geben wird, sondern es für den Anfang auf 2xGCD/1xMCD hinausläuft. Und auch, wenn der Ansatz derselbe ist, aber GPUs != CPUs. Bei N21 war man ja schon überrascht, dass es eine SKU mit nur 60CU bei einem 80CU-Vollausbau gibt. Das sind immerhin schon 25% weniger.

Neurosphere

2021-10-01, 21:12:21

Navi32
= MCD + 2 GCD
1GCD = 1SE x 2SA x 5WGP
= 20 WGP x8x64 = 10.240 SPs
Außerdem: 4*48+32 = 224 MB Cache & 256 bit SI

Navi31
= MCD + 3 GCD
1GCD = 2SE x 2SA x 5WGP
= 20 WGP x8x64 = 15.360 SPs
Und somit: 320 MB Cache & 384 bit SI

Logisch wäre dann auch N33 = MCD +1 GCD das einzige was dazu nicht passt ist die Anzahl der SPs mit 4096
N33 wären dann 128 MB Cache + 128 Bit SI@5120 SPs
Wenn man für N33 nun aber einfach die Chiplets selektiert welche „fehlerhafte“ WGPs aufweisen, kann man vielleicht die 4096 zwanglos erklären durch eine andere „Konfiguration“ eines ansonsten identischen Chiplets.
Z.B. 1SE x 2 SA x 4 WGP x 8CU x 64 SPs = 4096

EDIT: Evtl. muss der MCD auch 2 PHYs tragen und dafür dann jedes Chiplet auch nur 2 weitere statt 4.
Ergäbe in der Konfiguration dann 2x32bit+n*64 bit SIs und somit für N33 = 128Bit, N32 = 192 Bit und N31=256bit

Die Frage die sich mir stellt, wenn sich auf dem MCD eigentlich nur der Cache befindet, warum es bei N33 nicht mit 3D V-Cache? So hätte ich wirklich nur einen Chip und es passt zu den bisherigen Gerüchten.

Bei N32 und N33 geht man dann wieder übers MCD. Deine Chipanzahl passt dann auch zu der Sache das N31 mit (mindesten) 4 Chips kommen soll, und nicht wie bisher angenommen deren drei.

also:

N33 = GCD + 3D V-Cache
N32 = 2x GCD + 1x MCD
N31 = 3x GCD + 1x MCD

vinacis_vivids

2021-10-01, 21:14:33

Vielleicht ist die Konfiguration so:

Eine GCD-Konfiguration
5120SP - 20WGP - Vollausbau XTX
4096SP - 16WGP - Salvage XT

(1) N31 = 5120SP x 3GCD = 15.360SP, 384MB IF$, 256bit SI, 32GB
N31 XTX bekommt 3 volle WGP und zwei volle SI, ein deaktiviertes SI. 5120SP x3 / 128bit SI x2.
Das eine GCD mit dem 128bit-SI wird wegen dem Stromverbrauch komplett abgeschaltet um den WGP mehr Energie (und somit Takt) zur Verfügung stellen zu können.
Die Speicherbestückung von 32GB wird auch fürs Marketing sehr gut tun. Verdopplung des Speichers und Verdreifachung der Shader ist das was man erwarten kann um die Krone zu bekommen.

(2) N31 = 5120SP x 3GCD = 15.360SP, 384MB IF$, 384bit SI, 24GB
Die Verwendung von 3 komplett voll funktionsfähigen GCD vollem 384bit SI sind zu teuer, was die Ratio Funktion/Abfall besteht. Auch ist 384bit SI zu stromhungrig und wird bei dem großen IF$ auch nicht mehr gebraucht (in der Breite).
Diese Variante ist sicherlich in der Schublade, aber wahrscheinlich zu teuer in der Fertigung und kaum Geschwindigkeitsvorteile bieten gegenüber der Variante mit dem schmalen 256bit-SI.
Zu teuer und zu stromhungrig, wird daher nicht kommen bzw. sehr unwahrscheinlich.

(1) N32 = 5120SP x 2GCD = 10.240SP, 256MB IF$, 192bit SI, 24GB
N32 bekommt 2 volle WGP, aber einen SI-cut. 5120SP x2 / 96bit SI x2
Die zweitbesten Chips kommen dann N32 zu gute, welche volle WGP haben, aber teildefekte 128bit-SI, wovon 96bit-SI elektrisch aktiv sind oder auch teildeaktiviert um Energie zu sparen. Die Bestückung mit 24GB ergibt Sinn (12Gb sind zu wenig), um N21 Besitzer zum Aufrüsten zu bewegen. Doppelter IF$ und doppelte Shader ggü. N21XTX sind ebenfalls attraktiv.
Auch Besitzer von Ampere (8GB/10GB/12GB) kann AMD hiermit sicher zum Wechsel bewegen.

(2) N32 = 5120SP x 2GCD = 10.240SP, 256MB IF$, 256bit SI, 16GB
N32 bekommt 2 volle WGP und volles SI. 5120SP x2 / 128bit SI x2
Die besten GCD kommen auch N32 zu Gute. Diese Variante ist zu teuer und das 256bit SI ist überflüssig bei dem Cache und wird deshalb lieber für N31 genutzt.
Zu teuer und zu stromhungrig und wird daher nicht kommen. Die 32GB Konfiguration ist ebenfalls überflüssig. Die 16GB Konfiguration für N21 oder auch Ampere GA102 Besitzer eher uninteressant. Mehrere Faktoren sprechen gegen diese Variante.

(1) N33XT = 4096SP x 1GCD = 4096SP, 128MB IF$, 128bit SI, 8GB & 12GB
N33 bekommt 1 salvage WGP und volles SI 4096SP x1 / 128bit SI x1
Die dritte Klasse von Chips hat defekte WGP, die deaktiviert werden. Hier kann AMD vllt. einige 1,5Gbit Chips verbauen um auf 12GB zu kommen, was ideal wäre. Für Sparer, die sich keine 12GB leisten können, gibs auch die 8GB Variante um wirklich auch alle teildefekte GCD`s unters Volk zu bringen.

N33 erscheint zuerst, weil vom Salvage mehr funktionierende Chips abfallen und sofort nutzbar sind. Die wertvolleren komplett funktionsfähigen Chips werden dann in einem weiteren, separaten Schritt noch zusammengeschweißt und selektiert, zweifach (N32) oder halt dreifach (N31). Da das PCB als auch Speicherbelegung und Stromzufuhr komplexer ist, mehr Spezifikationen erfüllen muss, erscheinen die MCM Grafikkarten halt später.

amdfanuwe

2021-10-01, 21:18:26

Keine Ahnung, ob's Resteverwertung bei Milan gibt,
Epyc 72F3 8C/16T 256MB Cache.
Da wird nur ein Core pro Chiplet verwendet. Dürfte aber eher wenig mit Resteverwertung zu tun haben.

Die RX6800 60CU hat man aber auch vom Preis unattraktiv positioniert. Hat also eher optische Gründe fürs Portfolio als das man die wirklich in Massen verkaufen will.

w0mbat

2021-10-02, 10:57:59

Keine Ahnung, ob's Resteverwertung bei Milan gibt, alle SKUs inkl. Kernanzahl kenn ich jetzt nicht auswendig. Aber wo findest du den Zen3 SKUs mit 4C? Da ist doch auch bei 6C Schluss, weil es einfach nicht sinnvoll ist, die Chiplets für noch weniger Kerne zu missbrauchen. Einerseits natürlich, weil die Marge dadurch extrem sinkt. Andererseits ist die Frage, ob man überhaupt derart viel Ausschuss hätte.
Jupp, aber deshalb gibt es einfach keinen 4C-Zen3. Punkt aus. Lohnt sich nicht. In dem bereich kann man Zen2 einsetzen,

Iscaran

2021-10-02, 12:44:24

Die Frage die sich mir stellt, wenn sich auf dem MCD eigentlich nur der Cache befindet, warum es bei N33 nicht mit 3D V-Cache? So hätte ich wirklich nur einen Chip und es passt zu den bisherigen Gerüchten.

also:

N33 = GCD + 3D V-Cache
N32 = 2x GCD + 1x MCD
N31 = 3x GCD + 1x MCD

Klar - die Größe des Caches pro GCD und MCD ist völlig geraten...aber das der MCD 2x Memory Phys bekommt und die GCDs auch "je 2" ist denke ich extrem plausibel. Was mich in dem Konzept noch ein wenig verwirrt ist, dass die PHYs so Verteilt sitzen...könnte sein, daß dies Designtechnisch ein Problem ist.

Vielleicht ist auch das MCD jeweils "individuell" (als ein MCD für N31, N32, N33) und die PHY sitzen ALLE auf dem MCD (und an dem Cache der auf dem MCD sitz).

Da laut Patent die "Interconnects" ja alle über den Cache laufen um den Datentransfer zu organisieren - MÜSSEN meine Meinung nach die GCD-Chiplet-Caches (und damit auch der MCD-Cache tragen) UND so angeordnet sein, daß diese in maximalte räumliche Nähe bzw. bis zum "direkten Kontakt" gelangen.

Somit KANN auch eine Lösung sein, dass es in N31-MCD gibt mit 8x32 bit SI + entsprechend cache (8x32MB =256 MB gesamt?) + 3 GCDs mit je 2x10 =20 WGPs UND je x MB Cache (z.B. 64 MB pro GCD?)
Was dann 256 + 3x64 = 448 MB Gesamt cache und 256 bit SI tragen.

Entsprechend dann N32-MCD mit 6x32 bit SI + 6x32MB und 2x64 MB = 320 MB und 192 bit SI
Und der N33-MCD dann eben nur mit 4x32bit SI +4x32MB und 1x64MB = 192 MB Cache und 128 bit SI auftritt.

Da gibt es viel Spielraum - aber ich denke schon daß AMD hier den Weg des "1 GCD" erschlägt die Palette gehen WILL und WIRD.

N33 wäre dann ggf. ein Salvage GCD (evtl. gibt es auch 2 N33s. 1x Vollausbau (5120 SPs) und 1x Salvage (4096 SPs)

Theoretisch wäre auch denkbar N32 und N31 via Salvage GCDs zu differenzieren.
Dass RDNA einzelne WGPs "abschalten" kann - selbst nur einzelne CUs ist ja schon in Produkten der Vergangenheit realisiert worden UND dazu gibt es ja sogar "Treibereinstellungen" die dafür sorgen, daß deaktivierte WGPs nicht mit dem Rest interferieren.

Nightspider

2021-10-10, 11:11:40

Greymon55 fasst nochmal zusammen

N31 summary(based on various sources)
GFX11 RDNA3
5nm+6nm TSMC
15360SP
256bit GD6
2.4~2.5GHz
75T FP32

So conservatively 3x 6900xt in fp32 in one generation?

Yeah, at least FP32 is 3x69xt.

https://twitter.com/greymon55/status/1447041553063571458

Mich würde es nur mehr freuen wenn N31 in Q3 kommen würde.

dargo

2021-10-10, 11:17:10

Das finde ich heftiger.

n33 6nm 128bit gddr6 perf>6900xt

Mit nur magerem 128Bit SI schneller als RX 6900XT? X-D

Der_Korken

2021-10-10, 11:35:04

Angesichts der aktuellen Lage fand ich eine neue GPU-Generation selten so unspannend wie jetzt. Neben dem preislichen Trend hin zum Kleinwagen kommen dann noch die energetischen Trends hin zu, mit 4,3 Slot Karten mit 120er Lüftern (klick (https://www.computerbase.de/2021-09/markantes-braun-asus-grafikkarte-mit-zwei-grossen-noctua-lueftern-kommt/)) und 450W TDP (siehe 3090Ti). Ich glaube wenn AMD ersteres irgendwie hätte vorhersehen können, hätten sie kleine GPU-Chiplets schon mit RDNA2 versucht zu forcieren, auch wenn sie dadurch Performance eingebüßt hätten und nur mit der 3070 hätten konkurrieren können.

Linmoum

2021-10-10, 11:44:09

Ich fand es noch nie so spannend wie jetzt endlich auch bei GPUs mit Chiplets. Der Sprung von Turing zu Ampere/RDNA2 war für UHD schon ganz nett, aber RDNA3 scheint endlich mal wirklich restlos glücklich zu machen.

Zumindest als Enthusiast und Interessent sollte der Verbrauch für den konkreten Anwendungsfall sowieso egal sein, falls das deutlich nach oben geht. MPT und PT hart runterziehen, fertig. Andererseits stört mich das nicht, wenn wir dann 400W kriegen sollten, weil selbst damit die Effizienz heftigst nach oben schießen würde im Vergleich zu allem aktuellen.

Leonidas

2021-10-10, 13:02:27

wohl bekomms:
PCI Express 5.0 bringt neuen "High Power Connector" für 600 Watt Stromverbrauch
https://www.3dcenter.org/news/pci-express-50-bringt-neuen-high-power-connector-fuer-600-watt-stromverbrauch
https://www.3dcenter.org/dateien/abbildungen/PCI-Express-5.0-High-Power-Connector.jpg

Slipknot79

2021-10-10, 13:24:05

Neurosphere

2021-10-10, 13:48:04

Was sind das für 4 Pins? Telemetrie?

Vielleicht um in Zukunft noch Optionen für 1kW zu haben:freak:

Heißt mit Steckplatz wäre man bei 675 Watt falls PCIe 5.0 nicht auch hier was ändert. Auch wenn das gros der Nutzer nicht die Karten mit den hohen Verbräuchen nutzt, ich bin gespannt ob nicht irgendwann der gesetzliche Riegel kommt.

unl34shed

2021-10-10, 14:15:08

bestimmt für RGB Kabel :D

Brillus

2021-10-10, 14:26:50

Vielleicht um in Zukunft noch Optionen für 1kW zu haben:freak:

Heißt mit Steckplatz wäre man bei 675 Watt falls PCIe 5.0 nicht auch hier was ändert. Auch wenn das gros der Nutzer nicht die Karten mit den hohen Verbräuchen nutzt, ich bin gespannt ob nicht irgendwann der gesetzliche Riegel kommt.
Würde schon mal reichen wenn die Karten bzw. CPUs ihre TPD nicht reisen dürfen, gerade bei Intel wo dann gerne mal Faktor 2 mehr verbraucht wird, find ich schon geht echt Richtung Kunden verarsche.

why_me

2021-10-10, 15:17:35

Wird halt leider in den Reviews geduldet und nicht an den Pranger gestellt.

basix

2021-10-10, 16:11:23

bestimmt für RGB Kabel :D

Rot glühen sie ja schon von selbst. Kostensparmassnahme :D

Zossel

2021-10-10, 18:09:29

wohl bekomms:
PCI Express 5.0 bringt neuen "High Power Connector" für 600 Watt Stromverbrauch

55 Ampere, da wird sicherlich die ein oder andere Bude ab gefackelt. Bei diesen Leistungen sollte man besser über höhere Spannungen nachdenken.

amdfanuwe

2021-10-10, 19:19:23

55 Ampere, da wird sicherlich die ein oder andere Bude ab gefackelt. Bei diesen Leistungen sollte man besser über höhere Spannungen nachdenken.
Ja klar doch. Fackelt ja bei jedem 900W Staubsauger oder 2000W Heizöfchen direkt die Bude ab.
Da gehen bis zu 16A bei 220V auf 1,5mm² durchs ganze Haus.
10A auf einer Leitung, dürften ja 6 Power und 6 Ground an dem Stecker sein, das kurze Stück vom Netzteil wird nur zum Problem wenn gepfuscht wird. Das Problem hat man jetzt aber auch schon.

basix

2021-10-11, 09:22:42

16A sind schon sehr viel. Fasse mal an einen Stecker, auf dem wirklich dauerhaft so viel Strom anliegt. Der wird gut warm ;)

2000W bei 220W sind 9A. Das ist schon viel und die Stecker werden da bereits warm. Mit 16A, gute Nacht ;) Da hast du bereits 3-fache Verlustleistungen (P=I2*R).

Und die Spannung ist hierbei egal. Wichtig sind Strom * Widerstand bei Steckern und Zuleitungen sowie die Umgebungstemperatur. Diese bestimmen, wie warm das Zeugs wird. Bei schlechten Kontaktwiderständen (Stecker nicht so toll eingesteckt, schlechte Löststellen) vergrössert sich das Problem. Bei warmen Temperaturen in PC-Gehäusen ebenfalls.

PCIe 8x Stecker erlauben 4.2A pro Pin (max. Rating der Kabel ~9A bei 18AWG, das aber bei 105° Isolationstemperatur und nur 30° Umgebungstemperatur). Der neue Stecker erlaubt 9.5A pro Pin, was aber wohl ebenfalls das Maximum-Rating darstellt. 600W sind 50A, was pro Pin sagenhafte 8.3A wären (6x 12V, 6x GND). Das wird verglichen mit 4.2A die vierfache Verlustleistung an den Steckern verursachen. Damit das in der Praxis keine Probleme gibt, müsste man die Kontaktwiderstände reduzieren und die Leiterquerschnitte erhöhen.

Und Zossel hat nicht ganz unrecht. Würde man auf 24V gehen, wäre die Verlustleistung in Kabel und Stecker geviertelt und auf dem selben Niveau wie bei den PCIe 8x Steckern.

Edit:
Und noch als "Fun" Fact -> Einer der häufigsten Ursachen für Wohnungsbrände sind Elektrobrände (https://www.weka.de/brandschutz/unterschaetzte-gefahr-elektrobraende-und-was-sie-dagegen-tun-koennen/). In kontrollierten Umgebungen wie HPC und Datenzentren mag man ans Limit gehen können (dort gibt es dann auch sehr sensitiv eingestellte Brandmeldeanlagen sowie Brandlöschanlagen ;)). Beim Heimanwender sehe ich genug Sicherheitsmarge als lohnenswert an.

amdfanuwe

2021-10-11, 10:36:19

Edit:
Und noch als "Fun" Fact -> Einer der häufigsten Ursachen für Wohnungsbrände sind Elektrobrände (https://www.weka.de/brandschutz/unterschaetzte-gefahr-elektrobraende-und-was-sie-dagegen-tun-koennen/).
Ihr habt schon recht.
Mit 16A sind die normalen Stromkreise im Haus abgesichert. Wird sich schon einer was dabei gedacht haben, dass dann auch entsprechende große Steckdosen und Leitungen verwendet werden müssen und nur Fachkräfte für die Elektroinstallation zulässig sind.
Wenn dann mit mehreren Verlängerungen, selbst zurechtgefrickelten Kabeln mit alten porösen Isolierungen, billigst ungenügend entwickelten Elektrogeräten (selbstentzündende Smartphones) und mangelnde Sorgfalt beim Schutz vor Nässe etc. hantiert wird, sind Unfälle nicht auszuschließen.
Strom hat nunmal seine Tücken und kann gefährlich sein.

Bei dem High Power Connector werden sich (hoffentlich) qualifizierte Entwickler damit beschäftigt haben.
Damit das in der Praxis keine Probleme gibt, müsste man die Kontaktwiderstände reduzieren und die Leiterquerschnitte erhöhen.
Daten dazu findet man im Datenblatt und bei sachgerechter Anwendung sollte das sicher sein. Wie gut die Entwicklwer waren, zeigt letztendlich die Praxis.

Auf 24 Volt gehen hat auch seine Tücken. Die Isolationen zwischen den Leitern müssen dann gemäß U/R=I auch angepasst werden damit es nicht zu erhöhten Kriechströmen oder Kurzschlüssen kommt.
Wird Off Topic. Von meiner Seite wars das.

basix

2021-10-11, 10:44:38

Es stellt sich halt auch grundsätzlich die Frage, ob so hohe Wattagen lohnenswert sind. Ich behaupte: Nein. Speziell nicht für ein Luxus wie Spiele und IT-HW, wo man durch technischen Fortschritt nach 1-2 Jahren die selbe Performance und/oder Grafikqualität erhält.

Damit das wieder in Richtung Topic läuft: N31 wird vermutlich bei >300W herauskommen. Bis und mit Turing war <270W das höchste der Gefühle. Neu nun 400...450W? Ich hoffe, dass die 2.7x Performance-Steigerung hauptsächlich durch N5P sowie Architektur erreicht wird und nicht durch +Watt.

vinacis_vivids

2021-10-11, 11:40:47

Das finde ich heftiger.

Mit nur magerem 128Bit SI schneller als RX 6900XT? X-D

:eek:

Der IF-Cache muss so dermaßen geil sein, dass das SI so schrumpelt.

Vielleicht erreicht AMD die Synchronisation von IF$ (IF-CLK) und GPU-CLK und damit auch eine deutlich höhere Hitrate.
Dazu kommt wohl noch shink-mäßig auf 6nm die größere IF-$ Kapazität.
Dann auch noch am Takt weiter hochgeschraubt auf 3,0Ghz?
Und das ganze bei "nur" 4096SP :D

:freak::freak::freak:

Der Chip wird wohl doch deutlich geringer als 400mm², vllt. 330-350mm² bei 6nm Fertigung. Allein der N33 XT ist ein absolutes Meisterstück.

4096SP - 16WGP
2,8-3,0Ghz GPU-CLK
~ 24,57 Tflop/s fp32
256MB IF$ (16MB pro WGP)
128 RT-Cores (8RT Cores pro WGP)
16GB GDDR6 16GBps
128bit SI (8bit pro WGP)
Effektive Bandbreite:
~1664 GB/s + 256GB/s

Möglicherweise kommt auch noch ein N33 Salvage mit teildeaktivierten WGP (14&15 WGP) für N21 XT/XL

3584SP - 14WGP
2,6-2,8Ghz GPU-CLK
~ 20,07 Tflop/s fp32
256MB IF$ (16MB pro WGP)
112 RT-Cores (8RT Cores pro WGP)
16GB GDDR6 16GBps
128bit SI (8bit pro WGP)
Effektive Bandbreite:
~1664 GB/s + 256GB/s

Die RDNA uArch in jeder Generation ist ein absoluter Game-Changer.
Das hat schon ein Hauch wie bei den CPU`s mit der Zen uArch.

Cyberfries

2021-10-11, 12:18:54

Da ist man mal ne Weile nicht da und schon dreht sich die Diskussion zum x-sten Mal zurück zu 3GCDs...

Was sind das für 4 Pins? Telemetrie?

Die aktuellen 6pin und 8pin Stecker ver(sch)wenden auch 1/2pins für Sense.
Wenn darauf basierend ein kleinerer Stecker käme mit 6-8pins für übliche Heimanwenderkarten wäre das durchaus nützlich.

Angesichts der aktuellen Lage fand ich eine neue GPU-Generation selten so unspannend wie jetzt. Neben dem preislichen Trend hin zum Kleinwagen...

Geht glaube ich vielen so. Nicht dass die GPUs technisch uninteressant wären, aber das drumherum...
Wobei dieser Kleinwagen/Dacia-Vergleich, den ich in den letzten Tagen öfters gelesen habe... hab ich was verpasst?
Da liegt doch immer noch Faktor 4 selbst bei der 3090 dazwischen.

hätten sie kleine GPU-Chiplets schon mit RDNA2 versucht zu forcieren

Das ist nicht der Treiber hinter RDNA3. Da geht es darum Grenzen der Herstellbarkeit zu verschieben, nicht Kosten zu sparen.

Nightspider

2021-10-11, 12:53:14

Der Chip wird wohl doch deutlich geringer als 400mm², vllt. 330-350mm² bei 6nm Fertigung. Allein der N33 XT ist ein absolutes Meisterstück.

Wann bist du eigentlich zu so einem Hype-Übertreiber mutiert?

Das N33 so massiv schrumpft und gleichzeitig schneller wird kann wohl ausgeschlossen werden wenn der Chip in N6 kommt.

Dazu bräuchte AMD viel schnelleren VRAM oder einen größeren IF$.

Das kriegst du aber bei nicht mit ~20% Flächenreduktion durch 6nm unter. Schon gar nicht in 350mm².

Da müssten schon viele Wunder passieren. Zumal 6nm eventuell gar keine höheren Taktraten ermöglicht.

Um mit einem 128 Bit SI > N21XT Leistung zu bekommen bräuchte man wohl 256MB IF$.
Nehmen wir mal an das AMD es schafft die Packdichte vom IF$ um 30% zu steigern, so bräuchte man immernoch rund 55% mehr Fläche für den IF$.

Das könnte dann eventuell die Fläche auffressen die man bei den Compute Units durch N6 gespart hat. Und wozu? Damit man 128 statt 256 Bit SI hat?
Was hat man da gewonnen? Wieso sollte man darauf abzielen auf ein 128 Bit SI zu kommen? Wird die Platine dadurch lohnenswert viel günstiger? Wohl kaum.

mboeller

2021-10-11, 14:04:05

Um mit einem 128 Bit SI > N21XT Leistung zu bekommen

auch wenn vinacis vivids sehr oft übertreibt, aber dieses Gerücht stammt nicht von ihm, sondern geistert schon seit Wochen oder gar Monaten durch Twitter und wird auch von seriösen Twitter Leakern wie Greymon55 verbreitet

siehe hier:
https://twitter.com/greymon55/status/1447041553063571458

HOT

2021-10-11, 14:41:48

vinacis_vivids

2021-10-11, 15:09:03

@ Nightspider

Deine Thesen sind schon mal falsch.

7nm kann AMD schon seit 2018. Das sind jetzt 3 Jahre voller Betrieb.
Packdichte:
Vega20 : 331mm² - 13,2 Mrd. Tr. ~ 39,88 Mio/mm² GPU-CLK 1,6-1,8Ghz
Navi10 : 251mm² - 10,3 Mrd. Tr. ~ 41,04 Mio/mm² GPU-CLK 1,8-2,0Ghz
Navi21 : 520mm² - 26,8 Mrd. Tr. ~ 51,54 Mio/mm²GPU-CLK 2,2-2,5Ghz
Acturius XL: 750mm² - 50,0 Mrd. Tr. ~ 66,67 Mio/mm² GPU-CLK 1,5Ghz

Sowohl die Packdichte als auch der Takt ist innerhalb einer 7nm Node sehr gut gestiegen. AMD ist da der "King of the Hill". Das offene Geheimnis ist, dass je mehr CU`s zusammen gepackt werden können, desto höher ist die Dichte (siehe Acturius XL)
Das SI verbraucht nur viel Platz und frisst zuviel Energie im Betrieb. Dieser Umstand wird nun mit dem IF$ langsam und sicher ausgemerzt.
Beim IF-Cache ist es sehr wohl möglich, dass AMD den 3D-Cache bringt, um so 256MB sehr platz,- und energiesparend zu packen.

~20% höhere Packdichte -> ~ 62-80 Mio/mm²
Nehmen wir mal konservative 70Mio/mm² an. Das sind bei 400mm² ~ 28 Mrd. Transistoren und somit mehr als N21.
Bei der optimistischen Auslegung von 80Mio/mm² sind bei 350mm² ~ 28 Mrd. Transistoren und ebenfalls mehr als N21.
Bei der super optimistischen Auslegung von 3D-Cache sind es vllt. 90-100Mio/mm² und bei 300mm² 27-30 Mrd. Transistoren.
Alle diese Konfigurationen sind stärker als N21.

Dass der Cache mit 1,94 Ghz Taktet und 1.986 GB/s effektive Bandbreite bringt, ist nicht das Ende der Messlatte.

Es schon sehr viele Gründe warum AMD so selbstbewusst ist.

Eines davon zeigt sich hier:

https://abload.de/img/ampere_rdna2_mem7ekng.png

Die Vergrößerung des IF-$ bringt also eine noch flachere Kurve bei größeren Speicherzugriff. Bessere Latenzen -> bessere IF-$ Hitrate in der gleichen Auflösung.

HOT

2021-10-11, 15:29:48

Acturus ist vergleichbar mit A100. Den würd ich in diese Aufstellung nicht hineinnehmen. Die Packdichten sind auch vergleichbar.

Aber auch bei normal HPC wird man mit N6 die 60Mio/mm² überschreiten mMn.

basix

2021-10-11, 15:48:35

Das wird auch problemlos gehen, denn nur in UHD wäre man auf das Speicherinterface mit der Cachegröße wirklich angewiesen. Bei der Die-Größe gibts aber nicht soviel Spielraum. Logicpackdichte ist 18% mehr bei N6, da geht durchaus was, aber SRAM ist gleich zu N7. Die 128MB belegen also genausoviel Platz wie bei N21. Mit den Parametern wäre 400mm² bei 4096 Shadern soger recht viel Platz bei N6, aber die Taktoptimierung wird sicherlich die Packdichte begrenzen.

Wenn man mit N33 wirklich auftrumpfen will: V-Cache. Dann könnte bei 64 CU eine Die Size um 300...320mm2 machbar sein (32MByte on Die, der Rest als V-Cache, total 96...160 MByte). N22 mit 128bit, 32MByte IF$ sowie 6nm ist ca. 240mm2 gross. N23 mit ähnlichen Daten aber nur 32CUs in 7nm = 237mm2. +24 CUs hätten in den 60...80mm2 vermutlich schon Platz, da man wohl bei 2 Shader Arrays bleiben wird.

Wenn ich die 6nm Refreshes von N22 und N23 dazunehme: Etwa +10% Performance und/oder Energieeffizienz bei diesen Chips. N21 wird von N33 abgelöst (~gleiche Performance, 16 GByte, höhere Raytracing-Performance). Die 64CU Variante beerbt die 6900XT. Dazu einen 56CU Salvage, welche die 6800(XT) ablöst. Durch die verglichen mit N21 geringere Chipfläche könnte man von N33 deutlich mehr Grafikkarten herstellen.

Später, bei N31/N32 Release (falls die wirklich erst sehr spät 2022 oder gar Anfang 2023 kommen) fällt N22 weg und N33 rutscht im Portfolio nach unten. N23 bleibt als Entry Level Lösung bestehen. Das noch garniert mit 24GBit GDDR6 Chips für N31-N33 und wir hätten ein schönes Portfolio ;)

==================
2021
==================
- N23 @ 7nm, 32 CU, 8 GByte
- N22 @ 7nm, 40 CU, 12 GByte
- N21 @ 7nm, 80 CU, 16 GByte

==================
2022
==================
- N23 @ 6nm, 32 CU, 8 GByte
- N22 @ 6nm, 40 CU, 12 GByte
- N33 @ 6nm, 64 CU, 16 GByte, 160 MByte V-Cache

==================
2023
==================
- N23 @ 6nm, 32 CU, 8 GByte
- N33 @ 6nm, 64 CU, 12 GByte, 96 MByte V-Cache
- N32 @ 5nm, 160 CU, 16 18 GByte
- N31 @ 5nm, 240 CU, 24 GByte

Der_Korken

2021-10-11, 16:29:41

Das ist nicht der Treiber hinter RDNA3. Da geht es darum Grenzen der Herstellbarkeit zu verschieben, nicht Kosten zu sparen.

Das war der ursprüngliche Plan, den AMD jetzt durchziehen muss. Ich meinte nur, wenn AMD schon zwei, drei Jahre vor RDNA2 von der weltweiten Chipknappheit und dem Mining-Boom gewusst hätte (oder es hätte erahnen können), dann wäre RDNA2 bereits ein Chiplet-Design mit möglicherweise starken Nachteilen bei der Effizienz gegeben (vllt sogar mit 12nm GloFo IOD :freak:), aber dafür hätte man wesentlich günstiger produzieren können. Jetzt baut man einfach auf die absurd teure Enthusiasten-Modelle durch Chiplets noch höhere Enthusiastentürme. Noch sind wir, wie du sagst, Faktor 4 vom Dacia entfernt, aber wenn da Grakas mit 2x300mm² in 5nm kommen und noch mal so viel in 6nm für die ganzen Cache-Stacks, dann wird dieser Unterschied rapide schrumpfen.

HOT

2021-10-11, 17:56:36

Wenn man mit N33 wirklich auftrumpfen will: V-Cache. Dann könnte bei 64 CU eine Die Size um 300...320mm2 machbar sein (32MByte on Die, der Rest als V-Cache, total 96...160 MByte). N22 mit 128bit, 32MByte IF$ sowie 6nm ist ca. 240mm2 gross. N23 mit ähnlichen Daten aber nur 32CUs in 7nm = 237mm2. +24 CUs hätten in den 60...80mm2 vermutlich schon Platz, da man wohl bei 2 Shader Arrays bleiben wird.

Wenn ich die 6nm Refreshes von N22 und N23 dazunehme: Etwa +10% Performance und/oder Energieeffizienz bei diesen Chips. N21 wird von N33 abgelöst (~gleiche Performance, 16 GByte, höhere Raytracing-Performance). Die 64CU Variante beerbt die 6900XT. Dazu einen 56CU Salvage, welche die 6800(XT) ablöst. Durch die verglichen mit N21 geringere Chipfläche könnte man von N33 deutlich mehr Grafikkarten herstellen.

Später, bei N31/N32 Release (falls die wirklich erst sehr spät 2022 oder gar Anfang 2023 kommen) fällt N22 weg und N33 rutscht im Portfolio nach unten. N23 bleibt als Entry Level Lösung bestehen. Das noch garniert mit 24GBit GDDR6 Chips für N31-N33 und wir hätten ein schönes Portfolio ;)

==================
2021
==================
- N23 @ 7nm, 32 CU, 8 GByte
- N22 @ 7nm, 40 CU, 12 GByte
- N21 @ 7nm, 80 CU, 16 GByte

==================
2022
==================
- N23 @ 6nm, 32 CU, 8 GByte
- N22 @ 6nm, 40 CU, 12 GByte
- N33 @ 6nm, 64 CU, 16 GByte, 160 MByte V-Cache

==================
2023
==================
- N23 @ 6nm, 32 CU, 8 GByte
- N33 @ 6nm, 64 CU, 12 GByte, 96 MByte V-Cache
- N32 @ 5nm, 160 CU, 16 GByte
- N31 @ 5nm, 240 CU, 24 GByte

Naaa, so wird das nicht laufen. N33 wird ganz normal 128MB on-Die-I$ haben, wie N21 auch. Das wird dann halt gepaart mit nur 128Bit GDDR6, wahrscheinlich 18GT/s und doppelt bestückt mit 16Gb-Chips. Die Hitrate des VCache liegt dann bei UHD, so wie heute, bei ca. 57%, was bedeutet, dass das knappe Speicherinterface hier durchschlagen wird. Bei WQHD ist das aber schon kein Problem mehr.
N33 ist ein oberes Mainstream-Produkt, hier wirst du noch keine TSV-Stacks sehen und AMD wird diese Karte als 7700XT ganz einfach wieder als WQHD-Karte vertreiben, wie damals die 5700XT.

Infinity Cache spart Speicherinterface, beim N33 lohnt sich das sicherlich schon ziemlich, weil der ja ansonsten 384Bit bräuchte, was ähnlich viel Fläche kosten dürfte und sehr viel mehr Stromverbrauch hätte aus meiner Sicht.

amdfanuwe

2021-10-11, 18:12:54

N33 ist ein oberes Mainstream-Produkt, hier wirst du noch keine TSV-Stacks sehen
Warum nicht, wenn es dadurch billiger wird.

Zossel

2021-10-11, 18:23:39

Sowohl die Packdichte als auch der Takt ist innerhalb einer 7nm Node sehr gut gestiegen. AMD ist da der "King of the Hill". Das offene Geheimnis ist, dass je mehr CU`s zusammen gepackt werden können, desto höher ist die Dichte (siehe Acturius XL)
Das SI verbraucht nur viel Platz und frisst zuviel Energie im Betrieb. Dieser Umstand wird nun mit dem IF$ langsam und sicher ausgemerzt.
Beim IF-Cache ist es sehr wohl möglich, dass AMD den 3D-Cache bringt, um so 256MB sehr platz,- und energiesparend zu packen.

NV kann auch bei TSMC fertigen lassen.

BavarianRealist

2021-10-11, 18:24:53

...Infinity Cache spart Speicherinterface, beim N33 lohnt sich das sicherlich schon ziemlich, weil der ja ansonsten 384Bit bräuchte, was ähnlich viel Fläche kosten dürfte und sehr viel mehr Stromverbrauch hätte aus meiner Sicht.

Mit dem kleinen 128-Bit-Bus spart man Komplexität beim Package und vor allem beim Graka-Board. D.h. man verlagert Wertschöpfung hin zur GPU, die dann in Zukunft anteilig noch teurer werden darf, womit Umsatz- und Gewinnpotenzial bei AMD landen sollte.

basix

2021-10-11, 20:08:52

Naaa, so wird das nicht laufen. N33 wird ganz normal 128MB on-Die-I$ haben, wie N21 auch. Das wird dann halt gepaart mit nur 128Bit GDDR6, wahrscheinlich 18GT/s und doppelt bestückt mit 16Gb-Chips.

18GT/s Speicher wird aber nicht günstiger als 16GT/s sein ;) Und wenn man durch N33 den grossen N21 ersetzen kann: Mehr Marge.

128MByte in 6nm direkt auf dem Die benötigen sogar etwas mehr Fläche als 32MByte On-Die + 128MByte V-Cache. Wenn die 3D-Stacking-Kosten nicht zu hoch sind: Es lohnt sich. 160MB vs. 128 MB macht ziemlich genau den Unterschied zwischen 16GT/s vs. 18GT/s aus.
Ergo: Gleich viel Chipfläche. 7nm belastet keine EUV-Anlagen. Günstigerer Speicher. Vermutlich erhöhte Energieeffizienz.

Die Hitrate des VCache liegt dann bei UHD, so wie heute, bei ca. 57%, was bedeutet, dass das knappe Speicherinterface hier durchschlagen wird. Bei WQHD ist das aber schon kein Problem mehr.

Deswegen auch 160MByte als N21 Ersatz. Wie bandbreiteneffizient RDNA3 wird, wissen wir noch nicht. Nehmen wir Ampere mit der 3070 als Grundlage sowie ~60..63% IF$ Hitrate bei UHD und 16GT/s Speicher: ~640...690 GB/s oder +43...54% Speicherbandbreite. Münzt man das auf die Performance um, ist man da schon in der Nähe einer 6900XT oder 3090. Ist RDNA3 noch bandbreiteneffizienter, ist Potential nach mehr vorhanden.

Später, wenn es nur noch eine 1080...1440p Karte sein muss (nach N31/N32 Release) kann man zurück auf 96 MByte. V-Cache ist auch aus diesem Grund sexy ;)

Warum nicht, wenn es dadurch billiger wird.

Das und/oder höhere abrufbare MSRP (mehr Performance) wären die Grundvoraussetzungen. Und das Potenzial dazu wäre vorhanden.

Nightspider

2021-10-12, 00:23:28

V-Cache ist erstmal eine neue Technologie um primär die Leistung bei gleichem Powerbudget zu erhöhen.

Damit lassen sich höhere Preise erzielen mit Mehraufwand der Geld kostet und der in der Stückzahl limitiert ist.

V-Cache wird man erstmal wohl nur in Premiumprodukten bekommen.

Ob es V-Cache in dieser Form überhaupt für GPUs geben wird ist überhaupt nicht sicher. GPUs sind viel größer, haben eine viel geringere Marge als highend CPUs und sind nicht so latenzkritisch wie CPUs. Infinity Cache zu stacken bringt bei GPUs einfach nicht so viel wie bei CPUs. Ob man nun bei einem 400mm² Monster unbedingt 128MB auslagern muss darf bezweifelt werden. Um die ~20% Platz zu sparen wird man sicherlich nicht das teure Stacking benutzen, welches extra Geld kostet und in der Stückzahl stark limitiert ist.

Ein weiterer Punkt:
Navi33 müsste es dann nämlich auch ohne Stacked Cache geben, damit man die Nachfrage bedienen kann. Nur würde die Variante ohne den stacked IF$ dann total versagen in den meisten Benchmarks.
Stacking wird AMD erstmal für highend Produkte nehmen und nicht für Grafikkarten mit relativ geringer Marge und hoher Stückzahl.

Die Hitrate des VCache liegt dann bei UHD, so wie heute, bei ca. 57%, was bedeutet, dass das knappe Speicherinterface hier durchschlagen wird. Bei WQHD ist das aber schon kein Problem mehr.

Gut, wenn die Karte explizit als 1440p Karte vermarktet werden soll könnten das 128 Bit SI zusammen mit 128 MB IF$ ausreichen.

@ Nightspider

Deine Thesen sind schon mal falsch.

Du bist doch gar nicht auf meinen Beitrag eingegangen. :ugly:

Das die Packdichte steigt wissen wir selbst.

Aber für 4K müsste man den IF$ deutlich vergrößern.
Wenn man die Karte dann aber wirklich nur als 1440p Karte vermarkten will reichen eventuell auch 128 MB IF$ wie HOT schon schrieb.

basix

2021-10-12, 08:26:07

Wenn N33 deutlich früher als N31/32 kommt und zusammen mit den 6nm Refreshes N22/23 ein Portfolio bildet, IST N33 das Premium-Produkt. Es gäbe dann nicht schnelleres von AMD. N21 geht dann EOL.

Und wieso müsste es N33 ohne Stacked Cache geben? N33 wäre mittelfristig das Top End Produkt, welches N21 ablöst. N33 benötigt dabei deutlich weniger Chipfläche. Man kann also mehr GPUs pro Wafer herstellen.
AMD wird vermutlich von ihren V-Cache CPUs höhere Stückzahlen absetzen als von High-End GPUs. Deshalb sehe ich bei Punkto Premium vs. Stacking vs. Nachfrage kein Problem.

Und man hätte wie gesagt den Vorteil, dass man den Infinity Cache nach Bedarf skalieren kann (160MByte für 4K, 96MByte für 1440p). Man muss auch sehen, dass die aktuellen IF$ Kapazitäten eher etwas grösser als benötigt sind (Ausnahme: N23). Eine RTX 3070 kommt mit 448 GByte/s aus. Eine 6700XT hat bei 1440p ~1.1 TByte/s effektive Bandbreite (384 / 0.34 Missrate).

Edit:
128bit@16GT/s würden bei 4K zusammen mit 160MByte perfekt für eine GPU mit ~3090 Performance passen. Dito 96MByte bei 1440p. Alles ausgehend davon, das die effektive Bandbreite & Bandbreiteneffizienz relativ gesehen mit einer 3070 vergleichbar sind --> ca. 768GByte/s vs. 448 GByte/s = +70% Bandbreite

Nightspider

2021-10-12, 08:35:29

Du weißt ja gar nicht wie viel "Stacking" Kapazitäten vorhanden sind.

Und AMD will neben Zen3 noch Zen4 stacken 2022.

Und wenn Lovelace und Navi32 und Co nachkommen wird dein hypothetischer, zeitiger, N33 eben kein Premium-Produkt mehr sein, die Marge deutlich fallen und dann ist die Frage ob sich das Stacking bei so einem riesen Chip lohnt, wenn man ihn auch einfach von Anfang an zB. 20% größer hätte gestalten können.

Wie gesagt ist die Marge bei GPUs eh schon deutlich kleiner als bei CPUs. Zumindest pro Chipfläche.

Und bei CPUs geht man wegen den Latenzen in die 3. Dimension.

basix

2021-10-12, 08:45:38

Du weißt ja gar nicht wie viel "Stacking" Kapazitäten vorhanden sind.

Ach, und du weisst es? :D

Und wenn Lovelace und Navi32 und Co nachkommen wird dein hypothetischer, zeitiger, N33 eben kein Premium-Produkt mehr sein, die Marge deutlich fallen und dann ist die Frage ob sich das Stacking bei so einem riesen Chip lohnt, wenn man ihn auch einfach von Anfang an zB. 20% größer hätte gestalten können.

1. So lange die dicken AMD Brummer nicht auftauchen, ist es AMDs Top Produkt. Und so viel grösser als N22 ist die Gesamtchipfläche nicht. Dieser topped out bei 479$.
2. Wenn N31/32 kommen, kann man auf 96MByte zurückgehen -> Kostenreduktion
3. Eine der Ideen hinter V-Cache ist, dass man Dense Packed Cache verwenden kann. Total wird die benötigte Chipfläche also um einiges kleiner, wenn man von der gleiche Cache Kapazität ausgeht. Wenn der Offset aus Chipfläche die Kosten für das Stacking kompensieren: Günstiger für AMD

Wie gesagt ist die Marge bei GPUs eh schon deutlich kleiner als bei CPUs. Zumindest pro Chipfläche.

Das stimmt.

Gretchenfrage: Was wird unter dem Strich günstiger sein? Eine 128MByte IF$ monolitisch Variante? Oder eine 32+64 MByte V-Cache Variante? Antwort: Wir wissen es alle nicht.

TheAntitheist

2021-10-12, 08:46:30

da hat Nightspider einen guten Punkt, AMD wird gar nicht riesige Kapazitäten für die Stacks haben, denn die werden nur den High End Produkten vorbehalten sein. AMD hat doch jetzt schon viel zu wenig Kapazitäten, diese noch zu verringern weil man viel für die Stacks verbraucht, wär ja totaler Käse.

amdfanuwe

2021-10-12, 08:49:46

Du weißt ja gar nicht wie viel "Stacking" Kapazitäten vorhanden sind.

Du etwa?
Und ich bezweifle mal, dass du weisst was Stacking an zusätzlichen Kosten verursacht.

Also überlassen wir das den AMD Ingenieuren die optimale Bauweise für ihre Chips zu bestimmen.

Nightspider

2021-10-12, 08:54:51

Grundsätzlich werden bei solchen Technologien die Kapazitäten erstmal nach und nach gesteigert.

Das zeigt die Vergangenheit.

Und das es keinen zwingenden Grund wie Latenz oder Chipgröße gibt, sehe ich keinen Grund dafür das N33 mit Stacking kommen sollte.
Nichtmal der Fertigungsprozess ist ein Grund, da dieser für N33 ja jetzt scheinbar N6 sein soll, welcher bei den anderen GPUs für den Cache-Die verwendet wird.
Abgesehen davon das die V-Cache Chips für Zen3 noch im alten N7 gefertigt werden.

Es gibt also mehr Gründe dagegen, als dafür.

Nightspider

2021-10-12, 09:00:13

Gretchenfrage: Was wird unter dem Strich günstiger sein? Eine 128MByte IF$ monolitisch Variante? Oder eine 32+64 MByte V-Cache Variante? Antwort: Wir wissen es alle nicht.

Man kann wohl davon ausgehen das unter N6 128MB im Chip höchstwahrscheinlich günstiger sind als 128MB gestacked.

Bei den N5 GPUs machts ja noch mehr Sinn den Cache "extern" in N6 zu produzieren weil N5 eben deutlich teurer ist und es dann zukünftig mehr billige N6 Kapazitäten geben wird.
Selbst TSMC sagt das.

amdfanuwe

2021-10-12, 09:54:44

Man kann wohl davon ausgehen das unter N6 128MB im Chip höchstwahrscheinlich günstiger sind als 128MB gestacked.

Ohne konkrete Zahlen zu den Kosten der Varianten kann man eben nicht davon ausgehen.

HOT

2021-10-12, 10:06:44

N33 wird 7700(XT) heißen. Natürlich vermarktet AMD das als WQHD-Karte, wie die 5700XT auch. Da gibts überhaupt keinen Zweifel, was denn sonst? Das Ding ist schlichtweg nicht premium sondern AD104-Niveau.

Die SRAM-Dies (die übrigens in N7 und N6 exakt gleich sind, es ist total egal, worin die gefertigt werden) werden für die CPUs eingesetzt. Für GPUs wird das echt schwer, denn schaut euch mal die Cache-Verteilung auf der GPU an. Das geht so nicht. N33 wird ein ganz simples Produkt, N32 und N31 werden Stacked sein, aber nicht wie die CPUs.

Übrigens wird AMD gar nichts anderes übrig bleiben als die Produktion der Cache-Dies massiv zu erhöhen (in N6 und N7), denn man wird das bis runter zum 6C schlichtweg brauchen. Konkurrenz belebt das Geschäft.

Nightspider

2021-10-12, 10:28:49

Ohne konkrete Zahlen zu den Kosten der Varianten kann man eben nicht davon ausgehen.

Guck dir die Yieldrate an 6900XT Chips an. Bei N33 wird dann nicht mal der anspruchsvolle N5 genutzt sondern der Butter und Brot N6 Prozess.

Zumal Defekte im SRAM meines Wissens nach viel weniger schlimm sind, da eh immer etwas mehr SRAM als Redundanz verbaut wird.

Bin mir ziemlich sicher das ein monolithischer 400mm² Grafikchip günstiger ist als ein 300+100mm² stacked Chip.

Zumal du nur da stacken kannst wo kein Hitze-Hotspot ist.

Bei Zen3 knallt AMD SRAM auf SRAM. Dann müsstest du in die GPU auch ein SRAM verbauen der genauso groß wird wie der, den AMD oben drauf packt oder das ganze anders lösen.

Das der V-Cache genauso viel Fläche einnimmt wie der interne, halb so große SRAM ist für mich eh immer noch ein Kuriosität, wo ich noch auf eine Erklärung warte.

Ob AMD das in Zukunft immer so macht? Wird wohl eher darauf hinauslaufen das man intern genau die Hälfte oder ein Drittel vom gesamten SRAM Stack verbaut.

Iscaran

2021-10-12, 10:36:01

Wieso wird denn davon ausgegangen dass der "stacked Cache" hier mehr Chipfläche bräuchte?
Oder hab ich da was nicht richtig gelesen.

Die Idee ist doch den Cache quasi "3-dimensional" Hochzuziehen...ergo pro Fläche mehr MB Cache.

Nehmen wir mal an N21 hat 128 MB Cache auf sagen wir 100 mm^2 (weiss jemand die exakten Zahlen?)
Dann wäre der Witz am "stacking" ja dass ich z.B. mit 2-Lagen ja 2x128 MB / 100mm^2 habe.

WENN AMD also wirklich "stacked cache" nun beherrscht und für N3x macht, wäre es wohl sicher kein Problem die Chip-Größe klein zu halten, da vor allem der Cache ja einen Riesenflächenanteil hat und wenn der nun 3-dimensional wird, spart das Fläche und zwar enorm.

Nightspider

2021-10-12, 10:40:14

Nee das hat keiner gesagt.

Die GPU wird größer wenn der Cache nicht stacked wird sondern komplett monolithisch in der GPU steckt.

HOT

2021-10-12, 10:40:57

Geht nicht. Wie gesagt, schau dir N21 an, wie der Cache verteilt ist. Man müsste Cache über Logik stapeln, das wär offenbar nicht so gut.
Ich denke, dass das bei N31 ein spezielles Package ist, wo Cache-Chips eingelassen sind oder sowas, die dann die GCDs verbinden. Das wird aber ein recht aufwendiges Verfahren sein, sodass sich das nicht für N33 lohnen wird.

Einfaches stapeln wird man nur bei CPUs machen, da hier der Cache ein monolithischer Block ist, auf den man stapeln kann. MMn wird das Cache-Die auch unverändert bei Zen4 weitergenutzt.

Also N33 sind die Daten doch bekannt, warum neue erfinden. Es gibt halt on-Die 128MB $ (die Ähnlichkeit zu N21 ist ja bereits bestätigt) und ein 128Bit-Interface, was in der Kombo für WQHD völlig ausreichend ist. Sogar die Größe von kanpp 400mm² ist gerüchteweise bekannt.

Nightspider

2021-10-12, 10:55:11

Sehe ich auch so.

BavarianRealist

2021-10-12, 12:28:18

Guck dir die Yieldrate an 6900XT Chips an. Bei N33 wird dann nicht mal der anspruchsvolle N5 genutzt sondern der Butter und Brot N6 Prozess.

Diesize und Yield werden für die nächste Zeit so wichtig sein, wie seit Jahren nicht mehr, weil einerseits die Kapazitäten auf absehbare Zeit zu knapp sind und in Folge vor allem die Preise für die Wafer sehr, sehr hoch sind und vor allem nicht billiger werden werden, wie man es früher gewohnt war.

Zumindest bis Ende 2022 dürften vermutlich auch N6-Wafer sehr teuer bleiben, womöglich teurer als zuletzt. Vermutlich um die 10.000€/Wafer? Soll N5 nicht gar im Bereich von >17.000€/Wafer liegen?

amdfanuwe

2021-10-12, 12:50:36

Guck dir die Yieldrate an 6900XT Chips an.
Gerne, gib mal ne Quelle.

V-Cache bei ZEN3 war Proof of Concept.
Wenns nicht klappt hat man trotzdem einen verkaufsfähigen Chip.
Hat wohl auch nicht ganz geklappt, weshalb jetzt das B2-Stepping kommt.

Das der Cache Chiplet mehr Speicher auf gleicher Fläche enthält, liegt zum einem an einer anderen verwendeten Bibliothek, die die Speicherzellen dichter packt, das der Cache Chiplet keine TSV benötigt und das die Kontroll Logik für den Cache sich auf dem CPU Die befindet, der Cache Die somit fast nur noch aus Speicherzellen besteht.

Durch den V-Cache für ZEN3 hat AMD Erfahrung gesammelt beim Verbinden zweier Chips mittels TSV und "copper to copper direct bonding" Technik.
Da geht es um mehr als nur Cache stapeln.

basix

2021-10-12, 13:23:12

Geht nicht. Wie gesagt, schau dir N21 an, wie der Cache verteilt ist. Man müsste Cache über Logik stapeln, das wär offenbar nicht so gut.
Wenn man V-Cache einplant, wird man den Chip entsprechend so designen, dass es eine solche gesammelte SRAM-Fläche gibt. Bei nur 128bit kann man alle Speicher-PHYs auf der einen Seite oder Ecke des Chips platzieren. Nicht optimal, wäre aber machbar (siehe Bild im Anhang).

Oder aber: Man stapelt den SRAM-Cache unter den eigentlichen Chip. Dann könnte man Logik überhalb des Caches platzieren.

Ich denke, dass das bei N31 ein spezielles Package ist, wo Cache-Chips eingelassen sind oder sowas, die dann die GCDs verbinden. Das wird aber ein recht aufwendiges Verfahren sein, sodass sich das nicht für N33 lohnen wird
Jepp. N31/32 werden deutlich aufwändiger beim Packaging. Mit einem einzelnen Cache-Stack ginge das aber vom Prinzip her auch. Ist, obwohl ähnlich von der Technologie her, immer noch deutlich einfacher (2 Chips vs. 5-6 Chips)

Also N33 sind die Daten doch bekannt, warum neue erfinden. Es gibt halt on-Die 128MB $ (die Ähnlichkeit zu N21 ist ja bereits bestätigt) und ein 128Bit-Interface, was in der Kombo für WQHD völlig ausreichend ist. Sogar die Größe von kanpp 400mm² ist gerüchteweise bekannt.

Halt, halt, halt. Aktuell ist gar nichts bekannt. Es sind alles Gerüchte. Oder was ist damit, dass bis vor drei Wochen alle noch 80 CUs und nun 64 CUs annehmen?

Eine der Aussagen war, das N33 = N23 + RDNA3-IP. 16 WGPs, 128bit wären da mal zu nennen. Und was ist mit Infinity-Cache? Wieso nicht auch 32MByte? Wäre exakt gleich viel wie beim Zen 3 CCD und würde zum V-Cache passen.

Diesize und Yield werden für die nächste Zeit so wichtig sein, wie seit Jahren nicht mehr, weil einerseits die Kapazitäten auf absehbare Zeit zu knapp sind und in Folge vor allem die Preise für die Wafer sehr, sehr hoch sind und vor allem nicht billiger werden werden, wie man es früher gewohnt war.

V-Cache hat das Potenzial um Fläche zu sparen.

Zumindest bis Ende 2022 dürften vermutlich auch N6-Wafer sehr teuer bleiben, womöglich teurer als zuletzt. Vermutlich um die 10.000€/Wafer? Soll N5 nicht gar im Bereich von >17.000€/Wafer liegen?
Diese Preise sind von Analysten und laut Branchenkennern viel zu hoch. Ian Cutress von Anandtech hat dazu mal was gesagt oder ein Video auf seinem YT-Channel gemacht.

Edit:
Ich denke es ist klar, dass es bei N33 eine Grenzfrage ist, ob V-Cache Sinn macht oder nicht (da beides 6nm). Kann schlussendlich beides kommen. Aus meiner Sicht kann V-Cache aber mehrere Vorteile haben:
- Kosten
- Performance / IPC. Ja, eine GPU benötigt nicht Zen-alike tiefe Latenzen. Das hängt aber an der Cache Organisation sowie dem Takt ab. 10ns IF$ Latenz wirst du bei einer GPU nicht erhalten (der L2$ hat schon 20ns). Selbst 100ns wären schon sehr stark.

Man kann wohl davon ausgehen das unter N6 128MB im Chip höchstwahrscheinlich günstiger sind als 128MB gestacked.

Was man bei den Cache-Chiplets sehen muss:

SRAM optimierter Prozess. Das bedeutet vermutlich nicht nur höhere Density, sondern weniger Metal-Layers, was die Anzahl Prozessschritte und somit Kosten nochmals reduziert.
Grosse Economy of Scale Vorteile, hohe Yields.
Kann gut sein, dass man aufgrund der beiden obigen Gründe neben 1.5x Density nochmals z.B. -30% Kosten pro MByte einspart (diese -30% haben keine Grundlage, ist einfach mal ein Beispiel). Effektiv wäre SRAM somit nur noch halb so teuer wie bei einem monolithischen Die (in $/MByte).
Cache hat zwar faktisch 100% Yield. Hat man einen Defekt im Rest des Die, muss man bei einem grösseren Die dennoch mehr Silizium wegwerfen.
Mit halb so teurem SRAM kann das Stacking gut was kosten, um noch kostenneutral zu sein
Bei N33 Release sind 32MB + 2*64MB evtl. ein bisschen teurer, kann sein (da neue Technologie). Mit Reduktion auf 32MB + 64MB und matured Prozessen sehe ich hier V-Cache kostentechnisch im Vorteil.

HOT

2021-10-12, 13:46:35

Du kämpfst gegen Windmühlen. Natürlich kann das sein, dass N33 nicht so aussieht wie kolportiert, aber wie wahrscheinlich ist das? Zudem stellt sich die Frage, ob dieses Fläche einsparen den Aufwand rechtfertigt und das glaube ich nicht.

basix

2021-10-12, 13:54:13

BavarianRealist

2021-10-12, 14:24:26

...Zudem stellt sich die Frage, ob dieses Fläche einsparen den Aufwand rechtfertigt und das glaube ich nicht.

Das ist zuerst eine reine Kostenfrage. Zur Zeit ist es aber mehr als das: kann man durch Einsparen von Diesize ("Fläche einsparen") mehr aus den verfügbaren Wafern genererieren, kann sich das sogar lohnen, selbst wenn die Kosten dadurch steigen. Solange die gesamten Kosten für die Verwendung und Verarbeitung der verfügbaren Wafer weniger ansteigt, als die daraus generierten zusätzlichen Erlöse. So kann es durchaus interessant sein, eine sehr teure Technologie bereits anzuwenden, wenn man auf diese Weise letztlich zusätzliche Erlöse (vor allem Gewinne) generieren kann.

Zuletzt stellt sich die Frage: müssen solche Cache-Chiplets unbedingt den selben Prozess nutzen? Oder mag es sein, dass man diese womöglich auch woanders so produzieren kann, dass sie verwendbar werden, um so die Highend-Wafer von TSMC effektiver und effizienter einzusetzen?

HOT

2021-10-12, 15:15:38

Naja, die Technologie ist vorhanden und wird Ende Jahr in die Massenproduktion überführt. Und bei zukünftigen Chips steigert sich die Wahrscheinlichkeit, dass man V-Cache verwendet. Ist für mich die Frage: Passiert das also schon bei RDNA3 oder dann erst bei RDNA4?

Edit:
Ob N33 dann mit V-Cache kommt: Mir eigentlich egal. Aus technologischem Interesse wäre es aber sehr interessant ;) Und es gab auch Leaker-Aussagen wie "N33 ist sogar interessanter als seine grossen Geschwister" sowie "nach erfolgreicher V-Cache Umsetzung bei Zen stieg die Zuversicht für N33". Klar, das kann alles oder nichts bedeuten. Oder einfach Falschinformation sein.

So, nun aber genug von mir und V-Cache. Ich überlasse den Thread wieder euch :D

Das wir uns da nicht missverstehen, ich bin da voll bei dir. Ich würde auch tendenziell sagen, dass VCache bei N33 ne Chance ist, die genutzt werden kann.

Aber da kommen eben noch ein paar andere Faktoren dazu, die Entwicklung des Chips, der ist ja N6, also wird man viel IP recyclen können von RDNA2, vor allem uncore, dann sind da noch die Kartenhersteller und das Packaging, dass ja im jetzigen Verfahren einfach weitergenutzt werden kann und dann erst bei N31/32 deutlich verbessert werden muss, bei relativ wenig Produktion aufgrund der Preissituation. Es gibt also ganz viele Vorteile und das sind auch Kosten, aber eben auch Sachzwänge. Was hilft es dir tolles Packaging zu machen, wenn man es bis dahin nicht in ausreichender Menge zur Verfügung stellen kann. N33 ist ein billiges Standardprodukt in einem billigen Prozess gefertigt mit einem billigen PCB (bei 128Bit) in einem billigen Package.

vinacis_vivids

2021-10-12, 17:21:22

Billig ist das, was die grüne Konkurrenz mit 8nm überteuert verkauft.
N33 ist 6nm - das ist feinste und modernste Fertigung, und preiswert.

basix

2021-10-12, 17:25:22

@HOT:
Da stimme ich dir sicher zu. IP-Recycling ist sinnvoll, sofern möglich. Und Verfügbarkeit des Packagings (Volumen) muss gegeben sein. Solche Sachen sind prinzipiell aber planbar, wenn die Technologie an sich stabil ist. Das Problem der Verfügbarkeit sehe ich aber nur beim Chip-Packaging von AMD. Die Board-Partner sind davon nicht betroffen. Der Rest ist "Standardware" (Chip Package als BGA von AMD, GDDR6, PCB, elektronische Komponenten)

Und: ~400mm2 in N6 ist halt nicht gerade der Inbegriff von günstig ;) Das sieht nur wegen den 128bit auf den ersten Blick günstig aus. Hier ist die Aussage von BavarianRealist aber wichtig: Zur Zeit ist es aber mehr als das: kann man durch Einsparen von Diesize ("Fläche einsparen") mehr aus den verfügbaren Wafern genererieren,

400mm2 < 520mm2; 128b < 256b SI. Günstiger als N21 wird es auf jedenfall, egal wie die Implementation dann aussieht

Zuletzt stellt sich die Frage: müssen solche Cache-Chiplets unbedingt den selben Prozess nutzen? Oder mag es sein, dass man diese womöglich auch woanders so produzieren kann, dass sie verwendbar werden, um so die Highend-Wafer von TSMC effektiver und effizienter einzusetzen?
Nö, müssen sie nicht. Man kann 6/7nm Chiplets auf 5nm Die stacken. N31/N32 zeigen das ja bereits und bei V-Cache und CPUs (Zen 4) wird das ebenfalls so laufen. Das ist ja einer der Grundvorteile der Chiplets: Man kann unterschiedliche Prozesse nutzen. SRAM-Scaling ist am Ende und Chips benötigen immer mehr SRAM. Ausserdem ist SRAM von der Power Density her nicht kritisch, womit es sich für Stacking geradezu anbietet. Deswegen: Logik in die Top Notch Prozesse transferieren. Grosse SRAM-Pools bleiben in einem Legacy-Node wie 6/7nm.

basix

2021-10-12, 23:22:49

AMD Sockel AM5 mit PCIe 5.0 bestätigt. RDNA3 (zumindest N31/32) somit ebenfalls mit PCIe 5.0?

urpils

2021-10-13, 08:00:41

AMD Sockel AM5 mit PCIe 5.0 bestätigt. RDNA3 (zumindest N31/32) somit ebenfalls mit PCIe 5.0?

hast du einen Link zur Quelle?

basix

2021-10-13, 09:29:35

hast du einen Link zur Quelle?
YT-Video direkt von AMD:
https://www.forum-3dcenter.org/vbulletin/showthread.php?p=12818374#post12818374

Edit:
News dazu
https://www.pcgameshardware.de/CPU-CPU-154106/News/AMD-Ausblick-Zen-4-Zen-3-3D-V-Cache-1381373/
https://www.computerbase.de/2021-10/amd-roadmap-zen-3-3d-v-cache-und-neue-notebook-cpus-anfang-2022/

Cyberfries

2021-10-13, 09:44:34

Da werden 32 bis 128 mb Inf$ genannt, vor ein paar Wochen/Monaten war man sich noch mit einer Verdoppelung einig,
genannt auch von einigen der Zwitscherern, um die schmale Speicheranbindung auszugleichen.
Da es keine neuen, gegenteiligen Leaks gibt ist auch weiterhin davon auszugehen.
Bei 256 mb ist klar, dass N33 aus mehreren Chips bestehen muss, wie bereits geleakt (https://www.3dcenter.org/news/geruechtekueche-amds-navi-33-soll-genauso-im-chiplet-design-antreten).

Die Frage ist nicht, ob gestapelt wird, sondern wie gestapelt wird.
Ich sehe da - wie vor langer Zeit genannt - keine Zweitverwendung des V-Cache Die und auch keine Stapelung von mehr als zwei Chips.
Neben der technischen Komplexität ist eben auch die Temperatur ein Problem, dass auch nicht durch "SRAM unter Logik" gelöst wird.

Der Cache auf N21 liegt anders als bei Zen, richtig. Aber:
- die Anordnung der einzelnen Chipbestandteile wird mit großer Wahrscheinlichkeit bei N31 anders sein
- statt einem quadratischem Die mit 6mm Kantenlänge ist ebenso ein rechteckiges über Inf$ und SI möglich.

Ausgehend von Zen wäre 64+128mb Cache zwar das naheliegendste, muss aber nicht sein,
ragt der Cache auch über andere Chipbestandteile kann das gestapelte Element auch deutlich größer sein.
Mit 64+192mb wäre wieder die prognostizierte Verdoppelung da.

basix

2021-10-13, 13:26:55

Klar, ein allfälliger V-Cache könnte anders als bei Zen aussehen (wie du sagst: andere Kapazitäten, andere Rechteckformen, andere "Stapelungsform"). Man verliert allfällige Economy of Scale Vorteile, kann das Cache-Design aber gezielter auslegen.

Den SRAM-Die unter das Haupt-Die zu schieben, halte ich bei diesem Ansatz sinnvoller als oben drauf stapeln ("versenkt" im Package-Substrat). Und dass er überlappen kann, ist eine gute Idee. Damit kann man den SRAM-Die grösser machen und dennoch die Cache-Fläche auf dem Haupt-Die minimieren. Alternative: LSI oder InFo und Cache ähnlich wie bei Intels EMIB anbinden. Dann benötigt man gar keinen SRAM auf dem Haupt-Die und die zwei Die liegen dann nebeneinander. Kein 3D-Stacking an sich, sondern 2.5D. Dann hört sich ein einzelnes 128MB Die vernünftig an (~72mm2 anhand Zens V-Cache Grösse)

Zossel

2021-10-13, 17:48:19

basix

2021-10-13, 18:23:39

Aber so funktionieren doch auch all die Interposer und EMIB Geschichten?

amdfanuwe

2021-10-13, 18:28:54

Ob man so was auf der unteren Seite des Dies sinnvoll anbinden kann würde ich bezweifeln weil unten die eigentlich Transistoren sind.
Ginge schon, benötigte auch keine TSV zur Verbindung der beiden Chips.
Nur kann dann die Fläche des unteren Chips nicht für Kontakte zum Chipträger genutzt werden oder nur wieder mit TSV. Zudem müssen alle Kontakte des oberen Chips um die Dicke des unteren Chips verlängert werden oder man muß eine Aussparung im Chipträger lassen.
Alles nicht so Problemlos.

@Basix
Aber so funktionieren doch auch all die Interposer und EMIB Geschichten?
Die EMIB sind im Chipträger versenkt.
Der Interposer wirkt wie ein Zwischenträger und hat entsprechende TSV für die Kontakte zum Träger.

basix

2021-10-14, 07:57:24

@Basix

Die EMIB sind im Chipträger versenkt.
Der Interposer wirkt wie ein Zwischenträger und hat entsprechende TSV für die Kontakte zum Träger.

Da hast du recht, ja. Mir ging es darum, dass man auch bei diesen Technologien die Verbindungen auf der Transistor-Seite hat. Ist ja alles Flip-Chip.

Und genau einen versenkten SRAM-Die würde ich mir dann vorstellen. Anstatt das EMIB-Die (oder LSI bei TSMC) ein SRAM-Die. Dort wo es nicht von der GPU abgedeckt wird, kann man dann immer noch ein "Thermal Silicon" draufkleben. Verbindungsqualität ist aber nicht extrem kritisch, da nur SRAM gekühlt werden muss.

Aber evtl. ist das zu aufwändung und standard LSI Technik könnte einfacher sein.

amdfanuwe

2021-10-14, 09:55:21

Ich seh es so: Durch LSI, Chip stacking,TSV und vor allem direct Copper-to-Copper, was Intel erst in 2-3 Jahren auf dem Plan hat, hat AMD neue Möglichkeiten einen Chip zu gestalten.
Und man sieht, dass AMD nicht nur einfach Chips designed, sondern auch aktiv an neuen Techniken in der Produktion forscht, die AMD einen Vorsprung geben.
Hat man noch bei Naples gelächelt, mal 4 Chips auf einen Träger miteinander verbunden, gab es auch Anerkennung dafür mit nur einem Chip von Desktop bis 32 Core Server alles abzudecken.
ZEN2 Chiplets, RDNA2 Infinity Cache, ZEN 3D stacked Cache waren echte Überraschungen die keiner so hat kommen sehen.

Ich bin mal auf die nächste Überraschung gespannt.

OgrEGT

2021-10-29, 07:18:51

Next generation flagship graphics card has been taped out

https://mobile.twitter.com/greymon55/status/1453936260007874567

OgrEGT

2021-10-29, 07:28:00

Die aktuellen Gerüchte gehen von N33 (20CU), N32 GCD (20CU), N31 GCD(30CU) aus. Für N32 und N31 dann noch ein MCD welches die GCDs verbindet. Insgesamt 4 Chips für 3 SKUs... Irgendwie viel...

HOT

2021-10-29, 07:45:41

Flagship ist N31. N33 dürfte schon längst erledigt sein.

mboeller

2021-10-29, 07:46:12

Die aktuellen Gerüchte gehen von N33 (20CU), N32 GCD (20CU), N31 GCD(30CU) aus. Für N32 und N31 dann noch ein MCD welches die GCDs verbindet. Insgesamt 4 Chips für 3 SKUs... Irgendwie viel...

das sind die, gegenüber RDNA2 verdoppelten CU, oder? Also eigentlich 40 und 60 "RDNA2-equivalente" CU's, oder?

OgrEGT

2021-10-29, 08:00:58

das sind die, gegenüber RDNA2 verdoppelten CU, oder? Also eigentlich 40 und 60 "RDNA2-equivalente" CU's, oder?

Ja. 256SPs pro WGP. N2x hatte 128SPs pro WGP.

Ich hätte oben WGP statt CU schreiben sollen...

Edit:

N2x

64 SPs per CU
2 CUs per WGP
10 WGPs per SE

N21: 4 SEs = 5120 SPs

N3x
(Gem. derzeitiger Gerüchte)

128 SPs per CU
2 CUs per WGP
10 WGPs per SE

oder (da man nicht mehr von CUs spricht?)

256 SPs per WGP
10 WGPs per SE

N33: 2 SEs = 5120 SPs
N32 (2 GCDs) : 2x2 SEs = 10240 SPs
N31 (2 GCDs): 2x3 SEs = 15360 SPs

OgrEGT

2021-10-29, 09:52:08

Ich komme noch immer nicht ganz mit so vielen Chips klar...
Was wäre denn, wenn der monolithische N33 auch als N32 GCD verwendet würde, und das MCD eigentlich nur stacked IF$ ist und sonst nichts weiteres beinhaltet und beide N32 GCDs miteinander verbindet?

Da beide GCDs über das MCD über den IF$ verbunden sind hängen auch die jeweiligen GDDR Interfaces an einem gemeinsamen IF$ und sind somit ebenfalls zu 2x128b verbunden.

Die einzige Redundanz die man dadurch hätte wären IO / Multimedia.

Analog dazu N31-GCD, welches einfach mehr WGPs hat.
Somit könnte man dieses ggf auch noch separat verwenden wenn man bräuchte...

N33/N32-GCD

https://www.forum-3dcenter.org/vbulletin/attachment.php?attachmentid=77176&stc=1&d=1635493649

N32

https://www.forum-3dcenter.org/vbulletin/attachment.php?attachmentid=77177&stc=1&d=1635493649

Leonidas

2021-10-29, 12:10:33

Ist wirklich eine schöne Idee. Ob es AMD so realisiert? Wir werden es herausfinden.

basix

2021-10-29, 15:33:43

Die Idee an sich wäre naheliegend und solch eine Umsetzung sinnvoll. Aber AMD soll N6 für N33 benutzen und N5 für das N32 GCD. Das passt nicht.

Solche Konstrukte sehen wir vielleicht bei RDNA4, wer weiss. RDNA3 IP wollte man aus irgendeinem Grund auf N6 haben.
- Timeline & Waferknappheit bei N5 allenfalls ungünstig
- Kosten für N6 sind geringer als für N5
- RDNA3 in N6 IODs der Ryzen CPUs?
- PS5 Pro?
- Low Power APUs?

OgrEGT

2021-10-29, 16:37:11

Leonidas

2021-10-29, 17:14:11

N32 ist generell noch ein gewisses Mysterium. Würde mich nicht wundern, wenn da noch Umstürze in den Specs kommen.

basix

2021-10-29, 17:20:18

Das mit 6nm vs 5nm sind auch nur Gerüchte... ggf N31-GCD 5nm, das N33/N32-GCD 6nm?

Klar, gesichert ist das alles noch nicht. Finde deine Idee, dass N32 auch in 6nm kommt eigentlich ganz ansprechend, hätte dann aber gesagt dass es nicht zwingend noch ein MCD benötigt. Und ich sehe ein Problem: Energieverbrauch.

Linmoum

2021-11-10, 00:27:38

Let me add more:
N31
=GFX11
=5nm+6nm TSMC
=120WGP 15360SP
≈256bit 32G GDDR6 18Gbps?
≈256/512mb Infinity Cache?
=3D Infinity Cache
≈2.4~2.5GHz?
≈75T FP32?
https://mobile.twitter.com/greymon55/status/1457929587069837315

Zumindest klassische Rasterizer-Performance (+ Speicher für alles inkl. RT ;) ) würde man damit rauf bis UHD wohl auf Jahre für alles kommende und bisherige genug haben. Also dreistellige fps aufwärts. Wahrscheinlich dürfte das auch für 5K mehr als genug sein auf absehbare Zeit.

=Floi=

2021-11-10, 00:54:58

mit RT hast du, wenn du glück hast 60fps und eher weniger in 1440p bei einer 3090.
RT wird auch die nächsten 5-7 jahre zu viel leistung brauchen.

MR2

2021-11-10, 09:45:30

Und dann gibts da ja noch Pathtracing!

Aber 3D Infinity Cache klingt schon mal sehr geil!

Platos

2021-11-10, 10:04:19

Mal abwarten, wie die Rohleistung in Gamingleistung umgesetzt wird. Siehe TFLOPs von Ampere vs Turing und Gamingleistung Ampere vs Turing.

mironicus

2021-11-10, 10:05:26

Dann wird N31 wohl noch teurer werden... :D

Sunrise

2021-11-10, 10:16:38

Dann wird N31 wohl noch teurer werden... :D
Hoffentlich. AMD hat gezeigt dass sie keine halben Sachen mehr machen und wenn die Performance außergewöhnlich hoch steigt ist das garkeine Frage mehr…

6nm mag relativ billig sein, 5nm ist weiterhin knapp und wenn dann noch das 3D/-Packaging hinzu kommt, haben wir wirklich ein technologisch herausragendes Produkt, während NV da wahrscheinlich eher mit der Brechstange rangeht.

Die gesamte Umsetzung von dem Ding und Endleistung interessiert mich brennend, rein aus technischer Sicht.

Linmoum

2021-11-10, 10:42:54

Mal abwarten, wie die Rohleistung in Gamingleistung umgesetzt wird. Siehe TFLOPs von Ampere vs Turing und Ganingleistung Ampere vs Turing.Der Vergleich mit Ampere vs. Turing passt aber nicht, da wir dort "nur" von doppeltem FP32 sprechen. Eine 3080 hat trotzdem nur genauso viele SM wie eine 2080Ti.

Bei RDNA3 verdreifachen sich nach bisherigem Gerüchtestand auch tatsächlich die CUs/SM. Das schlägt auch entsprechend durch, wenngleich natürlich nicht 1:1.

basix

2021-11-10, 11:40:45

RDNA1/2 skalieren mit ca. 1.7x bei 2.0x CUs

robbitop

2021-11-10, 12:06:05

Mal abwarten, wie die Rohleistung in Gamingleistung umgesetzt wird. Siehe TFLOPs von Ampere vs Turing und Ganingleistung Ampere vs Turing.
Da bin ich auch skeptisch. Bei Ampere war es wahrscheinlich ggü Turing relativ "billig" pro SM einfach die FPUs zu verdoppeln (bzw die ALUs zu FPUs aufzubohren). Die Register wurden aber nicht vergrößert (was ein Hauptgrund dafür ist, dass nicht immer die volle arithmetische Leistung nutzbar ist - sehr abhängig vom Code wie effizient er mit Registern umgeht).
Wahrscheinlich hat sich das aber gelohnt in Bezug auf zusätzliche Transistoren ggü zusätzlicher Leistung. Ich würde ähnliches auch für die doppelt so breiten WGPs vermuten.

RitterRost

2021-12-18, 13:44:34

HOT

2021-12-18, 14:39:23

Na ja, das müsste dann eben doppelseitig bestückt werden bei 128Bit. Vielleicht gibts mal irgendwann 24Gbit-Module, dann hätte das Teil wenigstens 12GB. Das mit dem Takt kann durchaus sein, kommt halt auf die Verlustleistung an. Die N5-Chips haben ja auch massiv mehr Einheiten.
Man vergisst aber gerne, dass N5 zwar Performance bringt, aber eben auch nicht besonders viel.

Performancetechnisch kann man bei WQHD sicherlich mit N21 mithalten, bei UHD aber defintiv nicht mit 64MB+128Bit (allerdings natürlich 20 bis 24GT/s-RAM). Der Chip wird sicherlich recht klein, wie das den Eindruck macht und ist er eben auf das Abrutschen in den Mainstream vorbereitet, ähnlich wie Pitcairn damals. Man sieht daran aber ganz gut, wo die Reise hingeht, die Performance wird die nächsten 2 Generation überproportional wachsen, der Stromverbrauch aber auch. Wir bekommen jetzt so einen 9700 Pro oder 8800GTX-Moment, aber offenbar von allen Herstellern und High-End nur noch mit Kompaktwasserkühlung mMn.

MSABK

2021-12-18, 14:52:33

Ich hoffe durch die andere Fertigung gibt es ein wenig Entspannung bzgl. der Liefersituation, glaube aber fast schon es wird sich die nächsten 2-4 Jahre nichts ändern.

HOT

2021-12-18, 14:59:48

Das kommt auf das Cryptozeug an. Ansonsten haben wir ja bald auch 4 Hersteller, 3 für High-End-Zeug. Ganz so übel schwarzmalen würd ich da jetzt noch nicht.

OgrEGT

2021-12-18, 22:42:42

https://twitter.com/greymon55/status/1471693761579130888

Naja, dass gerade N33 mit 6nm Prozess höher takten soll, als die 5nm Chips...
Auch die 8GB für N33 (der soll ja rx6900 Performance haben) klingen immer noch wie eine schlechte Idee.

Some information and a few guesses:
31=
~60WGP
~16GB 256bit GDDR6
~256M 3D IFC
~2.5GHz

32=
~40WGP
~12GB 192bit GDDR6
~192M 3D IFC
~2.6~2.8GHz

33=
~16WGP
~8GB 128bit GDDR6
~64M IFC
~2.8~3.0GHz

Da steht, dass der IF$ 3D ist...
Könnte somit gut sein, dass beide GCDs mit einem 3D IF$ Chiplet (MCD) verbunden werden...

https://www.forum-3dcenter.org/vbulletin/showthread.php?p=12832658#post12832658

Was wenn der Monolith N33 als 20WGP mit 64MB (nicht 3D) IF$ sowohl bei N32 (2xN33@20WGP) und N33 (3xN33@20WGP) zum Einsatz kommt?
Dazu passt wenn das MCD 64MB IF$ fasst:

N32: 2x64MB (N33) + 64MB (MCD) = 192MB
N33: 3x64MB (N33) + 64MB (MCD) = 256MB

Weiter unten im Tweet steht noch:

350W/450W
250W
180W

basix

2021-12-19, 21:34:19

Neurosphere

2021-12-19, 22:21:14

Mich wundern die 16 WGP für N33, waren das nicht mal 20?

Der Abstand zwischen N33 und N32 ist eigenlich auch sehr groß, es sei denn MCM skaliert nicht gut.

basix

2021-12-19, 23:02:59

Mich wundern die 16 WGP für N33, waren das nicht mal 20?

Der Abstand zwischen N33 und N32 ist eigenlich auch sehr groß, es sei denn MCM skaliert nicht gut.

Ja, der Abstand ist recht gross. Das hatte man bei N21 vs. N22 aber auch gedacht. Evtl. gibt es aber ein "N31" Derivat mit nur einem Chiplet und halbiertem Speicherinterface. Bei 24-30 WGP wäre man deutlich näher an N33.

OgrEGT

2021-12-20, 07:12:30

Meines wissens ist es eher nicht so. Zumindest, wenn man bondrewd aus dem B3D Forum glauben will

- N33 = N6, monolithisch
- N32 = 2 * GCD_A (N5, 20 WGP) + 3x MCD
- N31 = 2 * GCD_B (N5, 30 WGP) + 4x MCD

Das wird wahrscheinlich auch so sein dass es 2 verschiedene GCDs geben wird. Ein MCD "Äquivalent" besteht aus 32MB IF$.

GCD-A mit 30WGPs 128b GDDR6 64MB IF$
-> N31=2xGCD-A+4xMCD (2x64+4x32MB=256MB IF$)

GCD-B mit 20WGPs 128b GDDR6 64MB IF$
-> N32=2xGCD-B+2xMCD (2x64+2x32MB=192MB IF$)

Alle GCD-B@20WGPs gehen in N32 und für N33 werden nur Salvage @16WGPs genutzt...

-> N33=1xGCD-B@16WGPs

Ob die GCDs per 3D$ verbunden werden oder anderweitig und der 3D$ nur drauf gestacked wird wird spannend. mMn muss der IF$ aber über alle Chiplets verbunden werden egal wie ansonsten können die Chiplets nicht als eine kohärente GPU arbeiten...

BavarianRealist

2021-12-20, 13:15:00

Das wird wahrscheinlich auch so sein dass es 2 verschiedene GCDs geben wird. Ein MCD "Äquivalent" besteht aus 32MB IF$.

GCD-A mit 30WGPs 128b GDDR6 64MB IF$
-> N31=2xGCD-A+4xMCD (2x64+4x32MB=256MB IF$)

GCD-B mit 20WGPs 128b GDDR6 64MB IF$...

Ich glaube, dass sich hier AMD (zunindest anfangs) auf lediglich ein einziges GPU-Chiplet beschränken wird, so wie auch bei den CPUs. Ganz einfach, weil auch jede Design-Umsetzung in 5nm exorbitant teuer ist, angeblich im Bereich von 500Mio$ (siehe hier (https://www.extremetech.com/computing/272096-3nm-process-node), ist aber ein älterer Link; habe auch schon von aktuell niedrigeren Kosten gelesen, aber immer noch im Bereich 300Mio$).

Falls ein "kleineres" GPU-Chiplet geplant wäre, würde es sich empflehlen, mit dessen Umsetzung erst mal zu warten, ob man es sinnvoll vergolden kann. Anfangs wäre es wohl billiger, das "größere" Chiplet zu stutzen, bis man gesichert weiß, wie man im Markt steht und ob man das kleiner Chiplet noch braucht.

Ramius

2021-12-20, 13:34:05

Ich denke N32 = N31 - einiger abgeschalteter Einheiten wie z.B. 10 WGP, 2 x 32 IF$ Cache. Es wird aber ein Design sein.

HOT

2021-12-20, 15:47:07

basix

2021-12-20, 16:06:31

Da würd ich eher denken, dass einige Salvage-Varianten geben wird. Bei N31 würd ich mal auf grundsätzlich 2 GCDs mit 4 MCDs ausgehen, die volle Variante mit 40 WGPs und die Salvage mit 36 WGPs. Darunter kommt dann das Produkt N32 mit 3 MCDs und das hat dann 30 und 24 WGPs. Zusätzlich dürfte es noch ne "Schrottverwertungs"-Variante geben, die mit beiden GCDs bestückt sein kann und 2-3 MCDs mit 2 beliebigen GCDs je 20 aktiven WGPs bestückt werden kann.
Also:
80 WGPs für N31XT
72 WGPs für N31XL
60 WGPs für N32XT
48 WGPs für N32XL
40 WGPs für N3xXS oder sowas

Bei den Speichermengen interessiert mich sowieso nur die N31XL dann, oder eben ne entsprechend ausgestattete Lovelace bzw. Battlemage. Bin sowieso mal gespannt, wie das mit den Speichermengen funktionieren soll.

Ich hätte auch in etwa so abgeschätzt. Ausser dass die WGP Angaben ein falsche Basis haben ;) N31 soll mit max. 60 WGP kommen und N32 mit max. 40 WGP ;)

Dann sind es dann eher:
- 60 WGPs für N31XT
- 52 WGPs für N31XL
- 40 WGPs für N32XT
- 32 WGPs für N32XL
- 24-30 WGPs für N3xXS oder sowas (single Chiplet N31 mit 128bit und nur 2 MCDs? :D)

HOT

2021-12-20, 16:22:58

Ah ups sry jo. Aber an Single-Chiplet glaub ich nicht so recht, das ergibt keinen Sinn angesichtes N33. Außerdem brauchst ja ein Produkt mit starkem Salvagegrad, sonst ergibt das kleinste 5nm-Produkt keinen Sinn, du musst ja irgendwo hin mit den Chips, die total kacke sind, sei es Takt oder viel kaputt. 2x 12 WGPs ergibt für mich am meisten Sinn. Das wird die neue 7800.

60 WGP mit 500W+ und knapp 3GHz -> 7900XTX oder Sondername wie FuryII oder sowas
56 WGP 2,5GHz -> 7900XT
40 WGP 2,6GHz -> 7900
32 WGP 2,3GHz -> 7800XT
24 WGP 2,1GHz -> 7800
16 WGP 2,8GHz -> 7700XT

alle GHz ca.

Und mir ist bewusst, dass das eigentlich ne total bescheuerte Aufteilung ist, aber ich befürchte, dass die das genau so vermarkten - man bedenke, dass die 6800XT auch eine Salvage-Variante ist. Das riesengroße Fragezeichen bleiben die Speichermengen. Eigentlich müsste jedes dieser Produkte doppelt bestückt werden bei 16Gbit-Modulen.

basix

2021-12-20, 16:30:49

Defect Density von 5nm ist ja gut, etwa gleichgut wie bei 6/7nm. Und da die Chips kleiner werden als z.B. N21 sollte der Yield eigentlich recht gut sein.

Da macht es meiner Sicht mehr Sinn, nur 1x Chiplet zu verwenden als teures Silizium stark zu salvagen. Ob das geht ist mMn aber eher eine Frage, wie GCD und MCD aufgebaut sind. Wo sitzen welche I/O Bausteine wie PCIe, Speichercontroller und Display Controller? Ist PCIe im GCD, würden allenfalls 50% der PCIe-Lanes wegfallen.

amdfanuwe

2021-12-20, 16:41:11

Defect Density von 5nm ist ja gut, etwa gleichgut wie bei 6/7nm. Und da die Chips kleiner werden als z.B. N21 sollte der Yield eigentlich recht gut sein.
Da schaffen aber immer noch nicht alle die gleichen Frequenzen. Macht schon Sinn die Chips, bei denen nicht alle Einheiten das gewünschte Frequenzziel erreichen als Salvage zu vermarkten.

HOT

2021-12-20, 17:03:13

Guter Punkt basix, aber ich sehe das wie amdfanuwe. Eine 1 CCD-Variante wäre zudem noch neue eigene Produktionslinie bei den Packages oder besser du müsstes extra dafür mit Dummys arbeiten.

BavarianRealist

2021-12-20, 17:43:19

So wie sich mir die GPU-Roadmap von AMD darstellt:

Anfang 2022 kommt ein Respin/Nachfolger von Navi22, also weiterhin RDNA2, aber in 6nm und Optimiert auf Effizienz, wie auch die CUs für Rembrandt. Evtl. um ein paar CUs vergrößert, z.B. mit 48CU: ähnliche Leistungsaufnahme wie Navi22, aber höhere Performance.

RDNA3 dann in zwei Varianten:
- Navi31 und 32: Aufbau in Chiplets mit 2-GPU-Chiplets (=Navi31) und nur ein GPU-Chiplet (=Navi32); beide jeweils mit verschiedenen Graden an Salvage-GPU-Chiplets, aber beide nutzen das selbe 5nm-Chiplet

- Navi33: Implementierung von RDNA3 in 6nm für die Lücke zwischen Navi22 und Navi32. Diese RDNA3-Implementierung dürfte die Grundlage für die nächste APU Anfang 2023 werden: ich bezweifle nämlich, dass AMD so schnell eine APU in 5nm bringt, da schlichtweg zu teuer. Wenn, dann wird das I/O in 6nm sein und die RDNA3-GPU enthalten und ein 5nm-Ryzen4-Chiplet hinzu genommen

gedi

2021-12-20, 18:31:47

Für mich als Laie ergibt sich überhaupt kein vernünftiges Bild zu Radeon_Next. Das SI lediglich max. 256-Bit breit mit vermutlich 24Gps Samsung Vram. Das Target? Vermutlich möglich viel mit 120FPS bei 4K und min. das Gleiche wie nun bei 8k und mehr. Zudem soll das Ding selbst mit RT Kreise um eine 3090 drehen. Aber mit der Bandbreite und lediglich 16GB Vram - imo unmöglich!

nordic_pegasus

2021-12-20, 18:41:48

Aber mit der Bandbreite und lediglich 16GB Vram - imo unmöglich!

ob das spekulierte 15360 Shader Navi31 Monster mit 2 Chiplets wirklich nur 16GB RAM bekommt (zumindest der Vollausbau), wird sich noch zeigen.

Die 256bit Bandbreite sollten mit 3D-IF Cache eigentlich egal sein, zumindest bis UHD. 8K halte ich sowieso nur für ein Gimmick, zumal es dafür kaum Monitore oder TVs gibt.

HOT

2021-12-20, 19:38:57

256MB Cache müsste über 80% Hitrate bei UHD haben. Das SI ist also überhaupt kein Problem. Ich glaub auch nicht an 24GT/s RAM, alle RDNA3-Radeons werden mMn 20GT/s bekommen, werden ja alle Hersteller bis dahin auf dem Markt haben.

AMD wird beim N22/23-Refreshs genau nichts am Chip machen, N6 ist zu N7 kompatibel, man braucht also den Chip nicht zu verändern. Das wird eher so ne Nummer wie bei beim Polaris30, nur ohne große Mehrperformance, dafür billigere Produktion. Beim RDNA3-Release wird N22-Refresh dann 7600(XT) darstellen mMn, die 7nm-Varianten werden bis dahin EOL sein. Vorher landen die 6nm-Varianten dann in Notebooks, vielleicht mit optimiertem Package. Die Umstellung auf 6nm wird mMn fließend über das Jahr 22 erfolgen.

aufkrawall

2021-12-20, 20:00:02

ob das spekulierte 15360 Shader Navi31 Monster mit 2 Chiplets wirklich nur 16GB RAM bekommt (zumindest der Vollausbau), wird sich noch zeigen.

Mal sehen, ob ein BWLer bei AMD merkt, dass sie beim VRAM auch bis zum geht nicht mehr geizen können, weil der Krempel sowieso überteuert gekauft wird. Oder es Highend nur wieder in homöopathischen Dosen geben und der gemeine Pöbel wie bei der 6600 XT wieder gut abgezogen wird (inkls. Schrott-Speichermanagement im Treiber).

tEd

2021-12-20, 20:55:15

Das wird wahrscheinlich auch so sein dass es 2 verschiedene GCDs geben wird. Ein MCD "Äquivalent" besteht aus 32MB IF$.

GCD-A mit 30WGPs 128b GDDR6 64MB IF$
-> N31=2xGCD-A+4xMCD (2x64+4x32MB=256MB IF$)

GCD-B mit 20WGPs 128b GDDR6 64MB IF$
-> N32=2xGCD-B+2xMCD (2x64+2x32MB=192MB IF$)

Alle GCD-B@20WGPs gehen in N32 und für N33 werden nur Salvage @16WGPs genutzt...

-> N33=1xGCD-B@16WGPs

Ob die GCDs per 3D$ verbunden werden oder anderweitig und der 3D$ nur drauf gestacked wird wird spannend. mMn muss der IF$ aber über alle Chiplets verbunden werden egal wie ansonsten können die Chiplets nicht als eine kohärente GPU arbeiten...

Die GDC haben keinen seperaten IF$. Beide GCD's werden über das MCD verbunden welche der IF$ für beide GCDs sind.

OgrEGT

2021-12-20, 21:05:12

Ich glaube, dass sich hier AMD (zunindest anfangs) auf lediglich ein einziges GPU-Chiplet beschränken wird, so wie auch bei den CPUs. Ganz einfach, weil auch jede Design-Umsetzung in 5nm exorbitant teuer ist, angeblich im Bereich von 500Mio$ (siehe hier (https://www.extremetech.com/computing/272096-3nm-process-node), ist aber ein älterer Link; habe auch schon von aktuell niedrigeren Kosten gelesen, aber immer noch im Bereich 300Mio$).

Falls ein "kleineres" GPU-Chiplet geplant wäre, würde es sich empflehlen, mit dessen Umsetzung erst mal zu warten, ob man es sinnvoll vergolden kann. Anfangs wäre es wohl billiger, das "größere" Chiplet zu stutzen, bis man gesichert weiß, wie man im Markt steht und ob man das kleiner Chiplet noch braucht.

Darüber ist man im allgemeinen noch uneins... entweder 2 verschiedene GCD Chiplets GCD-A und GCD-B oder nur das GCD-A und Salvage GCD-A. Je nach dem was kostengünstiger zu fertigen wäre.

GCD-A mit 30WGPs 128b GDDR6 64MB IF$

GCD-B / GCD-A Salvage mit 20WGPs 128b GDDR6 64MB IF$

gedi

2021-12-20, 22:35:06

Mal sehen, ob ein BWLer bei AMD merkt, dass sie beim VRAM auch bis zum geht nicht mehr geizen können, weil der Krempel sowieso überteuert gekauft wird. Oder es Highend nur wieder in homöopathischen Dosen geben und der gemeine Pöbel wie bei der 6600 XT wieder gut abgezogen wird (inkls. Schrott-Speichermanagement im Treiber).

Gibt es nur bei AMD? 2060 mit 50% Ti und 12GB, zu was für einem Preis? Zudem: Auch dir sollte kaum entgangen sein, dass das Speichermanagement mittelbar mit der Größe des On_Die_Cache zusammenhängt. Für jede GPU einen eigenen Treiber zu stricken - schwierig.

OgrEGT

2021-12-21, 07:22:33

Guter Punkt basix, aber ich sehe das wie amdfanuwe. Eine 1 CCD-Variante wäre zudem noch neue eigene Produktionslinie bei den Packages oder besser du müsstes extra dafür mit Dummys arbeiten.

Ich spekuliere dass der/die GCD Monolith/en alle Funktionsblöcke beinhalten und auch alleine verwendet werden können. Klar braucht man mindestens 2 Packages. Eines für Dual GCD mit 3D IF$ und eines für Mono GCD. Das bräuchte man ohnehin. Falls es 2 verschiedene GCDs gibt dann wird noch ein zusätzliches Package benötigt. Ich weiß nicht wie teuer das ist und ab wann sich das eine oder andere mehr lohnt...
2 GCDs 20 und 30 WGPs und damit mehr Packages aber weniger Salvage Verschnitt oder Nur 1 GCD mit 30 WGPs mit weniger Packages aber mit mehr Salvage...

Rampage 2

2022-01-06, 21:38:30

Bei RDNA3 verdreifachen sich nach bisherigem Gerüchtestand auch tatsächlich die CUs/SM. Das schlägt auch entsprechend durch, wenngleich natürlich nicht 1:1.

Sollte AMD es schaffen, den N31 Topdog noch höher zu takten als die 6900XT, sagen wir mal 2.75-3GHz Boosttakt und auch die Architektur weiter verbessern können, dann könnte die Leistung tatsächlich verdreifacht werden ggü. 6900XT=)

R2

mboeller

2022-01-06, 22:09:56

Sollte AMD es schaffen, den N31 Topdog noch höher zu takten als die 6900XT, sagen wir mal 2.75-3GHz Boosttakt und auch die Architektur weiter verbessern können, dann könnte die Leistung tatsächlich verdreifacht werden ggü. 6900XT=)

R2

IMHO eher nicht.

N31 hat 60 "doppelte" WGP; N21 40 WGP
Also 3x mehr Shaderpower pro Takt (240CU <-> 80CU)

N5 verringert den Verbrauch aber nur um 40% im Vergleich zu N7 (Info von TSMC)

IMHO werden die Taktraten deshalb eher geringer werden im Vergleich zu N21 und selbst dann würde ich eher 450W Verbrauch erwarten.

Rampage 2

2022-01-07, 01:38:59

IMHO eher nicht.

N31 hat 60 "doppelte" WGP; N21 40 WGP
Also 3x mehr Shaderpower pro Takt (240CU <-> 80CU)

N5 verringert den Verbrauch aber nur um 40% im Vergleich zu N7 (Info von TSMC)

IMHO werden die Taktraten deshalb eher geringer werden im Vergleich zu N21 und selbst dann würde ich eher 450W Verbrauch erwarten.

Ich kann mir kaum vorstellen, dass AMD bei RDNA3 mit dem Takt runtergehen wird - eher wird es wenigstens (mindestens) gleiche Takthöhe bleiben... wahrscheinlich aber noch ein bisschen steigen.

R2

Berniyh

2022-01-07, 07:56:47

davidzo

2022-01-07, 13:17:39

Dann würde die Karte aber übelst Strom ziehen.
Klar, potentiell 40% bessere Effizienz ggü 7nm, aber hast ja deutlich mehr Einheiten und vor allem dazu noch die Verbindungen zwischen den Chips, die ja (wissen wir von Zen 2) auch noch mal ordentlich elektrische Leistung kosten.

RDNA1 zu RDNA2 ist sogar derselbe Prozess und trotzdem +54% performance per Watt. 1/3 davon durch mehr Takt ohne Auswirkungen auf den Verbrauch. 1/3 durch den IFcache und 1/3 durch Designänderungen.

AMD wird die Shaderengines, Arrays und den WGP Aufbau nicht ohne Grund ändern. Da wird noch einiges an Effizienz heraus zu holen sein.
Der größere IFcache wird außerdem noch mehr Energie beim Speichersubsystem einsparen, was dann dass Powerbudget der Alus vergrößert.

AMD hat in ihrer Graphics Architecture Folie etwas von "continuous performance per Watt improvement" stehen. RDNA1 brachte +50% - rdna2 nochmal +54% . Das ziel für RDNA3 könnte also +60% Effizienz sein.

6800xt 300Watt TBP x 3 = 900
N5 Prozess: *0.6 (40%)
Design: *0.9 (10%)
mehr IFcache: *0.9 (10%)
= 437,4 Watt TBP

WedgeAntilles

2022-01-07, 13:23:13

RDNA1 brachte +50% - rdna2 nochmal +54% . Das Ziel mit RDNA3 wird ähnlich liegen.

Es ist ein Fehler Verbesserungen der Vergangenheit einfach linear in die Zukunft fortzuschreiben.
AMD kam von einem sehr niedrigen Niveau, da sind Verbesserungen einfach.
Inzwischen ist man auf einem sehr viel höheren Niveau.
Sich von 15 Sekunden auf 14 Sekunden im Hundert-Meter-Lauf zu verbessern ist sehr viel einfacher, als von 12 Sekunden auf 11 Sekunden zu kommen.

ChaosTM

2022-01-07, 13:32:17

Es wird wohl auf ein Kopf an Kopf Rennen mit NVs Linda Chip hinauslaufen, wahrscheinlich mit leichten Vorteilen für NV. Dank der höheren Ressourcen sollte man immer noch leicht vorne liegen. Außer das Chiplet Design erweist sich wirklich als deutlich überlegen. Spannend wird es allemal.

Fertigungstechnisch sind beide ja wieder auf Augenhöhe.

robbitop

2022-01-07, 13:32:39

Die Frage ist auf welchem Bereich der asymptotischen Kurve des Gesetz des sinkenden Grenzertrags man sich befindet. Ich würde mal behaupten, dass man weder mit GCN noch mit RDNA ganz unten/vorn auf der Kurve war. Inbesondere wenn man bedenkt, dass es echte 3D Beschleuniger bald 30 Jahre lang gibt.
Ganz oben/vorn word man auch nicht liegen. Aber aufgrund des Erscheinungsdatums sicherlich nicht weit entfernt voneinander.

Ich behaupte mal das kann man von außen als Laie gar nicht beurteilen. Ich erinnere mich noch als alle annahmen, dass bereits Core 2 und später Sandy Bridge von der IPC im asymmetrischen Bereich liegen. Und heute liegt man ettliche Faktoren darüber. Also war es doch noch nicht asymptotisch.

davidzo

2022-01-07, 13:34:18

Es ist ein Fehler Verbesserungen der Vergangenheit einfach linear in die Zukunft fortzuschreiben.
AMD kam von einem sehr niedrigen Niveau, da sind Verbesserungen einfach.
Inzwischen ist man auf einem sehr viel höheren Niveau.
Sich von 15 Sekunden auf 14 Sekunden im Hundert-Meter-Lauf zu verbessern ist sehr viel einfacher, als von 12 Sekunden auf 11 Sekunden zu kommen.

Das war die Einstellung die zum Bulldozer Stillstand geführt hat und die Intel die letzten fünf Jahre begleitet hat. Die Einstellung dass alle Rahmenbedingungen eben schon feststehen führt eben auch nicht zu etwas neuem.
Es ist eben nicht der 100Meter lauf das Ziel, sondern eher der Triathlon. Wenn du ein paar Minuten beim Laufen herausgeholt hast ist jetzt als nächstes das schwimmen dran. Die Regeln und der Wettbewerb ändern sich laufend und somit auch das Potential für Verbesserungen. Insofern ist der sinkende Grenzertrag auch ein Märchen was sich hier nicht anwenden lässt. Die Problemstellung ist eben nicht ein- sondern multidimensional. Wenn du in einer disziplin ich weiter kommst musst du vielleicht in eine andere gehen.

Durch N5 und Chiplets hat man ein gigantisches Transistorbudget zur Verfügung, etwas das man bei N10 und N21 nicht hatte. Zudem hat sich das Entwicklungsbudget und die Teamgröße seit Vega Zeiten locker verdreifacht. Man kann nun Konzepte implementieren für die man früher nicht die Ressourcen hatte. Insofern könnte der RNDA3 Schritt sogar der größte aller bisherigen sein. Genau darauf deuten ja alle Gerüchte und leaks hin, AMD scheint sehr viel Selbstvertrauen zu haben und diesmal sehr viel mehr zu wagen.

WedgeAntilles

2022-01-07, 13:42:39

Das war die Einstellung die zum Bulldozer Stillstand geführt hat und die Intel die letzten fünf Jahre begleitet hat. Die Einstellung dass alle Rahmenbedingungen eben schon feststehen führt eben auch nicht zu etwas neuem.
Es ist eben nicht der 100Meter lauf das Ziel, sondern eher der Triathlon. Wenn du ein paar Minuten beim Laufen herausgeholt hast ist jetzt als nächstes das schwimmen dran. Die Regeln und der Wettbewerb ändern sich laufend und somit auch das Potential für Verbesserungen. Insofern ist der sinkende Grenzertrag auch ein Märchen was sich hier nicht anwenden lässt. Die Problemstellung ist eben nicht ein- sondern multidimensional. Wenn du in einer disziplin ich weiter kommst musst du vielleicht in eine andere gehen.

Durch N5 und Chiplets hat man ein gigantisches Transistorbudget zur Verfügung, etwas das man bei N10 und N21 nicht hatte. Zudem hat sich das Entwicklungsbudget und die Teamgröße seit Vega Zeiten locker verdreifacht. Man kann nun Konzepte implementieren für die man früher nicht die Ressourcen hatte. Insofern könnte der RNDA3 Schritt sogar der größte aller bisherigen sein. Genau darauf deuten ja alle Gerüchte und leaks hin, AMD scheint sehr viel Selbstvertrauen zu haben und diesmal sehr viel mehr zu wagen.

Zu was großes Budget und große Teams auch führen können hat Intel ja gezeigt :D

Aber vielleicht hast du recht und ein 50% Sprung ist fast schon zwingend. In einem Jahr wissen wir es. :)

Linmoum

2022-01-07, 13:43:47

Es ist ein Fehler Verbesserungen der Vergangenheit einfach linear in die Zukunft fortzuschreiben.Die Aussagen von Bergman sind doch bekannt?

Let's step back and talk about the benefits of both. So why did we target, pretty aggressively, performance per watt [improvements for] our RDNA 2 [GPUs]. And then yes, we have the same commitment on RDNA 3.”

“It just matters so much in many ways, because if your power is too high -- as we've seen from our competitors -- suddenly our potential users have to buy bigger power supplies, very advanced cooling solutions. And in a lot of ways, very importantly, it actually drives the [bill of materials] of the board up substantially This is a desktop perspective. And invariably, that either means the retail price comes up, or your GPU cost has to come down.”

“So [there are] actually a lot of efficiencies...if you can improve your perf-per-watt substantially. On the notebook side, that's of course even more obvious, because you're in a very constrained space, you can just bring more performance to that platform again without some exotic cooling solutions...We focused on that on RDNA 2. It's a big focus on RDNA 3 as well.”
https://www.thestreet.com/investing/amds-rick-bergman-talks-about-current-and-next-gen-cpus-and-gpus

Das sind natürlich keine absoluten Angaben, aber dass man erneut stark Perf/Watt fokussieren wird bei RDNA3, sollte unstreitig sein.

WedgeAntilles

2022-01-07, 14:49:18

Die Aussagen von Bergman sind doch bekannt?

https://www.thestreet.com/investing/amds-rick-bergman-talks-about-current-and-next-gen-cpus-and-gpus

Das sind natürlich keine absoluten Angaben, aber dass man erneut stark Perf/Watt fokussieren wird bei RDNA3, sollte unstreitig sein.

Diese Aussagen sind für mich kein Beleg für 50%. Oder habe ich was überlesen?
Auch 25% sind ein Sprung, wären aber dennoch weit von den von mir zitierten 50% entfernt.

Es geht mir auch nicht drum, dass es unmöglich ist das zu erreichen. Aber ich bezweifle einfach, dass ein 50% Sprung so sicher wie das Amen in der Kirche ist.

davidzo

2022-01-07, 14:51:09

Aber vielleicht hast du recht und ein 50% Sprung ist fast schon zwingend. In einem Jahr wissen wir es. :)

Ja, mindestens +50% perf/watt kann man als gesichert ansehen. Das erreicht man beinahe schon alleine durch den Prozesswechsel von N7 zu N5. Da braucht man nur von zusätzlichen geringen 10% design improvements ausgehen und weitere 10% mehr Powerbudget durch den größeren IFcache bzw. sinkenden prozentualen Strombedarf für das 256bit SI. Dann kommt man ziemlich schnell über 50%...

Nur mal so als Vergleich was AMD bei den Prozessoren für den N7 auf N5 Process Node Sprung ansetzt (Anandtech):
The Zen 4c chiplet, according to AMD, is built on an HPC variant of TSMC N5. This aims at denser logic and denser cache, likely at the expense of high-end frequency. AMD says that this process offers 2x density, 2x power efficiency, and >1.25x silicon performance over the regular N7 it uses. When asked if this was a specific statement about core performance, AMD said that it wasn’t, and just a comment on the process node technologies. It is worth noting that 2x efficiency is quite a substantial claim based on metrics provided by TSMC on its N7 -> N5 disclosures.

Das bezieht sich natürlich auf das Zen4C compute Die und den dafür gewählten Prozess. Zen4 normal wird also nicht ganz diese density und efficiency improvements bringen. Und noch schwieriger wird das auf GPUs zu übertragen sein, da Navi ja anscheinend den EUV Prozess benutzt und nicht den AMD custom Immersions N7/N7P "improved" prozess von Ryzen 5000 und XT. Was übrigens interessant ist, weil man laut Folien ja die "high density server class cache"-libraries benutzt, jene bei Zen3 aber auf N7(P) laufen und nicht auf N7+(EUV). Möglicherweise ist das genau wie bei den Prozessoren eine Verwechslung und Navi2x ist weiterhin noch auf DUV Prozessen unterwegs welche AMD als N7 + bzw. "Enhanced" 7nm bezeichnet. - Weiß da jemand etwas zu, also ob Navi21 wirklich gesichert im EUV Prozess gefertigt wird im Gegensatz zu Ryzen5000?

Allerdings zeigt diese 2x performance per watt Verbesserung bei N5 auf was andere Teams bei AMD mit N5 erzielen. Also mehr als TSMC offiziell seinen Kunden anbietet. Da wird die Computing and Graphics Sparte nicht völlig außen vor sein.

50% performance per watt verbesserung ist also eher tief gestapelt.

Der_Korken

2022-01-07, 14:52:43

Die +50% erreicht RDNA2 aber nur, wenn die entsprechenden Modelle nicht geprügelt werden. Die 6700XT erreicht gegenüber der 5700XT bei CB z.B. nur +25%.

Man kann wegen 5nm davon ausgehen, dass RDNA3 die +50% nochmal erreichen wird, aber wieviel bei der Architektur rausgeholt werden kann, muss man erstmal abwarten. Es ist eben oft so, dass die letzten Generationssprünge als Maßstab genommen werden. Wo hat denn Nvidia nach Maxwell diese phänomenalen Effizienzsprünge fortgesetzt? Pascal hat dafür 28nm -> 16nm gebraucht. Turing und Ampere waren bei Perf/W ja eher ernüchternd, obwohl auch die jeweils eine leicht bessere Fertigung verwendet haben. Und AMD hat man nach Fiji, Polaris und Vega auch nicht zugetraut jemals eine effiziente Architektur auf die Beine zu stellen.

Bei RDNA3 muss man noch bedenken, dass die Skalierung durch die Chiplets schlechter ausfallen könnte. Die Flops/Ws mögen vielleicht massiv zunehmen, aber wenn Perf/Flop auch stark sinkt (so wie bei Ampere), steigt Perf/W am Ende deutlich schwächer an wie ersteres. Und die Märchen um eine Verdreifachung der Leistung stimmen imho nur dann, wenn sich der Verbrauch verdoppelt und ebenso der Preis.

y33H@

2022-01-07, 15:03:53

Navi 21/22/23 ist N7P DUV laut AMD.

dargo

2022-01-07, 15:14:48

Und die Märchen um eine Verdreifachung der Leistung stimmen imho nur dann, wenn sich der Verbrauch verdoppelt und ebenso der Preis.
RDNA3 mit 600W incoming? :usweet:

Der_Korken

2022-01-07, 16:30:57

RDNA3 mit 600W incoming? :usweet:

Vielleicht ist Verdopplung auch übertrieben, aber alles über 50% Effizienzgewinn ist imho schon Bonus und erstmal nicht zu erwarten. Historisch kam das gar nicht so oft vor, man hat nur damals als jedes Jahr eine neue Generation mit neuer Fertigung rauskam, auch den Verbrauch immer erhöht. Die 8800GTX war mit 150W mal ein Energiefresser. Und die 1900XT mit 120W war es davor auch. Und die 6800 Ultra mit 100W davor auch, usw.

basix

2022-01-07, 16:52:02

+50% wurden bei RDNA2 mit einer deutlich grösseren GPU, mit +20% Takt und im selben Prozess erreicht. Das ist sehr schwer.

Da sollten +50% bei N5, welcher von AMD mit +100% angegeben wird, wohl locker drin liegen ;)

dargo

2022-01-08, 08:26:54

Vielleicht ist Verdopplung auch übertrieben, aber alles über 50% Effizienzgewinn ist imho schon Bonus und erstmal nicht zu erwarten.
Ich spekuliere auf zwei Möglichkeiten.

1. RDNA3 wird eine ähnliche Luftpumpe wie Ampere. Sprich... die gigantische Shaderpower wird kaum auf die Straße gebracht vs. Vorgänger.
2. RDNA3 wird deutlich schneller als RDNA2. Dafür wird AMD aber mit mindestens N31 das Powerbudget (hier erwarte ich ~400W Brutto wenn nicht sogar etwas mehr) in neue (für mich völlig inakzeptable) Dimensionen hieven müssen.

Egal ob Punkt 1 oder Punkt 2 zutreffen, beides fände ich schade. Bei Punkt 2 ist meine Grenze eh schon bei ca. 260W Brutto erreicht. Alles drüber ist mir mit Lukü zu laut und Wakü interessiert mich nicht.

robbitop

2022-01-08, 09:01:08

Wie man seine Performance und Performance/W erreicht ist doch völlig egal. Wenn eine Verbreiterung der ALUs günstig ist in Bezug auf Perf/Transistor und Watt - warum nicht?

dargo

2022-01-08, 09:19:55

HOT

2022-01-08, 10:15:40

Na jo, ohne 6X-Speicher hätte die 3090 nur <320W ;). Keine doppelseitige Betückung und weniger Verbrauch pro Modul.

Aber klar wird man jetzt einen riesigen Sprung hinlegen, nur wie bei jedem großen Spung, ob es jetzt die 9700 Pro war, die TnT oder die GTX8800, der Stromverbrauch wird ebenfalls heftig steigen. Ich würd mal sagen, man wird rundheraus die doppelte 6900XT-Leistung sehen, wenn wir uns im GPU-Limit bewegen, RT mehr. Allerdings eben bei mindestens 450W. Für Lovelace wird ähnliches gelten.

robbitop

2022-01-08, 10:21:48

An Ampere ist überhaupt nichts günstig in Bezug auf Perf/Transistor und Watt oder deine Definition in diesem Bereich entspricht nicht meiner. Schon die 3090 FE säuft 350W und diesen Wert kann man sich in die Haare schmieren. Die Customs liegen gerne mal noch eine gute Portion drüber.
Ich meinte das verglichen mit der Vorgänger uArch. Man konnte die FPUs verdoppeln pro SM ohne all zu viele Transistoren ausgeben zu müssen.

Solcher Vergleiche erfolgen selbstverständlich normiert. Also prozess und Taktnormiert.

Du kannst natürlich am Ende aus jeder uArch wenn du den Takt und die Gesamttransistoranzahl hochprügelst ineffizient machen.
Leistungsaufnahme ist mit der dritten Potenz proportional zur Leistungsaufnahme Frequenz.
Also je nach Betriebspunkt kann man ineffiziente und effiziente SKUs machen.
Dazu kommt auch, dass Ampere noch im alten 8 nm Prozess (was eigentlich nur ein Marketingbegriff für einen gereiften 10 nm Prozess ist).

Wöllte man also rein uArchs vergleichen müsste man den Prozessvorteil rausrechnen (oder besser gleich gleicher Prozess), halbwegs gleiche Transistorzahl und den optimalen Betriebspunkt auf der Frequenz-Spannungskurve nehmen.

Anhand hochgeprügelter SKUs kann man uArchs IMO nicht beurteilen. Das ist ja eine ganz bewusste Wahl weil es dann bei derjenigen SKU ggf primär um absolute Leistung geht.
Analog ist ein Ryzen 5800 U mit 15W TDP sicherlich auch massiv energieeffzienter als ein 5800 X. Oder der 12400F vs dem 12900K. Oder die mobile Varianten der AMD und NV GPUs im Vergleich zu ihren Desktoppendants. Absolut langsamer aber perf/w viel besser da viel besserer Betriebspunkt.

Da du über die uArch im Generellen gesprochen hast, ist die Betrachtung einer Einzel SKU aus obigen Gründen nichtssagend.

Rampage 2

2022-01-09, 01:04:55

Leistungsaufnahme ist mit der dritten Potenz proportional zur Leistungsaufnahme.

:confused::|

Ich denke, da solltest du etwas korrigieren;)

Eines steht wohl ziemlich sicher fest: Nvidia wird NICHT dieselbe Steigerung mit Lovelace vs. Ampere erzielen können wie AMD mit RDNA3 vs. RDNA2 - bei Lovelace irgendwo zwischen 2-2.5x, während bei RDNA3 2.5-3x im Bereich des Möglichen liegt.

Es dürfte also mindestens in einem Gleichstand für AMD enden oder sogar AMD nach vielen Jahren wieder im absoluten HighEnd-Segment leicht vor Nvidia liegen... so ähnlich wie mit der X1950XTX vs. 7900GTX.

R2

Neurosphere

2022-01-09, 10:37:47

:confused::|
Eines steht wohl ziemlich sicher fest: Nvidia wird NICHT dieselbe Steigerung mit Lovelace vs. Ampere erzielen können wie AMD mit RDNA3 vs. RDNA2 - bei Lovelace irgendwo zwischen 2-2.5x, während bei RDNA3 2.5-3x im Bereich des Möglichen liegt.

Wo sollen die beiden Chips 2-3x Leistung erzielen?

Ich halte das ehrlich gesagt für vollkommen unsinnig von welchen Steigerungen hier ausgegangen wird. Real dürften davon wieder die +/- 50% mehr bei Lovelace und vielleicht mehr bei RDNA 3 übrig bleiben.

Vielleicht wird RT besser und dort könnte man wirklich solche Steigerungen vermuten, abseits davon verstehe ich nicht wie solche Leistungsprognosen sich rechtfertigen lassen sollen.

=Floi=

2022-01-09, 10:46:07

Ja, das ist mal eine realistische einschätzung.

Linmoum

2022-01-09, 10:54:39

Wo sollen die beiden Chips 2-3x Leistung erzielen?

Ich halte das ehrlich gesagt für vollkommen unsinnig von welchen Steigerungen hier ausgegangen wird. Real dürften davon wieder die +/- 50% mehr bei Lovelace und vielleicht mehr bei RDNA 3 übrig bleiben.

Vielleicht wird RT besser und dort könnte man wirklich solche Steigerungen vermuten, abseits davon verstehe ich nicht wie solche Leistungsprognosen sich rechtfertigen lassen sollen.Und ich verstehe nicht, wie man bei der dreifachen Shaderpower von einer Performancesteigerung <100% ausgehen kann. Das ist eigentlich komplett unsinnig.

boxleitnerb

2022-01-09, 11:24:44

So große Steigerungen der Shaderpower sind nie 1:1 durchgeschlagen. X1900XT, GTX 680, Ampere...

Neurosphere

2022-01-09, 11:26:58

Und ich verstehe nicht, wie man bei der dreifachen Shaderpower von einer Performancesteigerung <100% ausgehen kann. Das ist eigentlich komplett unsinnig.

Zum einen ist Shaderpower nicht auch sofort eine höhere Bildrate und zum anderen wissen wir nicht welche Verluste evtl. durch den Multichip Ansatz entstehen um nur bei RDNA 3 zu bleiben.

Linmoum

2022-01-09, 11:33:14

So große Steigerungen der Shaderpower sind nie 1:1 durchgeschlagen. X1900XT, GTX 680, Ampere...Das, was bisher kolportiert wird (2.5x bis 2.7x) wäre ja auch noch immer keine 1:1 Steigerung.

Ampere ist in der Aufzählung davon ab Fehl am Platz, da die Anzahl der SMs im Vergleich zur 2080Ti gleich geblieben ist und es hier "nur" doppeltes FP32 gibt.

Davon ab wird AMD natürlich den ganzen Aufwand mit GCDs, MCM und dreifacher (realer!) Shaderpower betreiben, damit dann am Ende +70% herumkommen. Natürlich. ;D

=Floi=

2022-01-09, 12:14:53

Ist die dreifache shaderpower offiziel?
Dann kommt auch noch der energieverbrauch hinzu. Die grenze wird 450W darstellen.

sklave_gottes

2022-01-09, 12:31:41

Neurosphere

2022-01-09, 12:58:58

Nach den ersten inoffiziellen Informationen wir ja nicht nur ein Teilbereich der GPU erhöht (wie z.B bei der X1800XT vs X1900XT), sondern die ganze Rohleistung der GPU fast verdreifacht. Deswegen sollten dann auch mindestens +100% raus kommen.

Sollte, ja. Bei AMD halte ich das auch eher für möglich solange das MCM Konzept aufgeht.

Ohne jetzt den Thread zu sprengen, wo sollen die +80 oder mehr % bei NV herkommen mit dem monolitischen Ansatz?

Nehmen wir mal T102 und GA102 als vergleich:
Chip GA102 TU102
Prozess Samsung 8nm TSMC 12nm
Karte 3090 TI TITAN RTX
TDP 450 Watt 280 Watt +60%
Leistungsindex 4k ~400% 258,00% +55%

Chip GA102 AL102
Prozess Samsung 8nm TSMC 5nm
Karte 3090 TI
TDP 450 Watt 550 Watt +22%
Leistungsindex 4k ~400% ? +80%?!?

Wo sollen die 80% denn herkommen?

Bei RDNA ist das Bild nun nicht wirklich anders. Wenn man die 40% die 5nm besser sein soll als 7nm mitnimmt und dann die erhöhte TDP mit einbezieht wären vielleicht die 100% drin, aber nunmal auch nur wenn MCM genauso skaliert wie der monolitische Ansatz. Wobei halt unbekannt ist was mit Zugriffszeiten etc passiert.

Beides, sowohl bei NV als auch bei AMD wäre natürlich super. Widerspricht aber nunmal allem was vorher so kam, wird aber bislang gerne als gesetzt angenommen.

davidzo

2022-01-09, 13:03:14

Ist die dreifache shaderpower offiziel?
Dann kommt auch noch der energieverbrauch hinzu. Die grenze wird 450W darstellen.

Mehr oder weniger offiziell ist das Leistungsziel: 2.5x. Das haben mehrere Quellen parallel schon anfang 2021 genannt (Kelper:L2 und RGT afaik). Irgendjemand hatte auch mal auf twitter gefragt 200%? - und dann kam "2x ist not enough".
Ich gehe also nicht von 3x aus, sondern von irgendwas zwischen 2x und 3x, also 2.5x. Btw, Navi10 zu Navi21 sind 2x bei der Gamingleistung und fast 2,5x bei der Rohleistung.
An mehr Takt glaube ich bei einem so großen Chipletverbund nicht, eventuell leidet sogar die Effizienz ein wenig unter dem neuen Aufbau mit mehr CUs pro WGP.
Allerdings rechne ich damit dass die auf RT performance auf einem völlig neuen Level ist.

Es gibt aber auch andere Stimmen: MLID ging von +60-80% aus, maximal +100% und falls das Multichipdesign schiefgeht nur 40% über der 6900xt.

Von AMD gibt es nur die offizielle Aussage dass sie glauben "they can truly win with RDNA3".

Der_Korken

2022-01-09, 13:10:27

Das, was bisher kolportiert wird (2.5x bis 2.7x) wäre ja auch noch immer keine 1:1 Steigerung.

Ampere ist in der Aufzählung davon ab Fehl am Platz, da die Anzahl der SMs im Vergleich zur 2080Ti gleich geblieben ist und es hier "nur" doppeltes FP32 gibt.

Davon ab wird AMD natürlich den ganzen Aufwand mit GCDs, MCM und dreifacher (realer!) Shaderpower betreiben, damit dann am Ende +70% herumkommen. Natürlich. ;D

Afaik geht man davon aus, dass die Vector-ALUs pro WGP verdoppelt werden, d.h. die haben 256 statt 128SPs. Wenn man die Infrastruktur drumherum nicht verdoppelt, dann kann das hier sehr schnell sehr weit von einer Leistungsverdopplung entfernt sein. Und wie sich das Frontend entwickelt weiß auch noch niemand. Mit Fiji und Vega 10 gab es bei AMD bereits Beispiele wo ein massives Erhöhen der CUs weit hinter der Papierleistung zurückblieb. Und der Multi-Chip-Ansatz wurde auch schon als mögliche Skalierungsbremse genannt, weil plötzlich zwei Teile der GPU durch einen Flaschenhals hindurch kommunizieren müssen, über den es auch noch deutlich mehr Energie kostet als wenn alles in einer GPU läge.

Es könnte vielmehr sein, dass sich die Rohleistung ausschließlich bei Raytracing bemerkbar macht, weil dort ständig genug Arbeit für die ganzen Shader generiert werden kann, aber dafür fällt der Leistungssprung bei reinem Rasterizing nur mäßig aus. Nvidia wird sich bei dem Ampere-Ansatz ja auch was gedacht haben.

ChaosTM

2022-01-09, 14:06:44

Ich will nur eine Grafikkarte, die mindestens doppelt so schnell wie meine dann 5 Jahre alte 1080ti ist und dabei auch nur 250 Watt verbraucht. Das sollte bitte machbar sein.

Momentan braucht man dazu eine 6900XTX/3090er, die 400-500 350-450 Watt saufen. Inakzeptabel.

vinacis_vivids

2022-01-09, 14:47:30

Die 6900XT verbraucht deutlich weniger als die 3090er.

just4FunTA

2022-01-09, 14:53:24

ChaosTM

2022-01-09, 14:58:47

Wenn ich auf die doppelte 1080ti Geschwindigkeit kommen will, müsse ich sie schon bis an die Grenze treiben und dann liegen auch gerne 350 an.
Deshalb auch die Range von 350 für die "aufgebohrte" 6900XT und 400-450 für die 3090er.

Mit RDNA3 sollte das viel entspannter erreichbar sein.

Nightspider

2022-01-09, 16:25:11

Das dir aktuell 10% Leistung bei deinem Powertarget fehlen interessiert hier aber auch keinen.

davidzo

2022-01-09, 17:51:34

Ich will nur eine Grafikkarte, die mindestens doppelt so schnell wie meine dann 5 Jahre alte 1080ti ist und dabei auch nur 250 Watt verbraucht. Das sollte bitte machbar sein.

@Nightspider, mich interessiert das schon.
Mir geht es genauso, allerdings gehe ich von meiner GTX980 aus.
Bei 175Watt die doppelte Performance in FHD/WQHD gibts mittlerweile mit der 6600xt, aber ich interessiere mich mehr für die 4K Leistung (meine spiele sind mit 30+fps zufrieden). Die 3060 skaliert besser mit der Auflösung, ist aber zu ineffizient um wirklich an eine Effizienzverdopplung heran zu kommen. Und das gegen einen 28nm Chip :freak:- das ist echt ein Armutzeugnis für die Chipentwicklung der letzten fünf Jahre. Und die Preise sind momentan sowieso inakzeptabel.

dargo

2022-01-09, 18:46:05

Die Xt6900 braucht bloss 250watt jedenfalls wenn die Anzeige von adterburner stimmt.
Das ist die ASIC-Power, nicht der gesamte Verbrauch der Karte.

iamthebear

2022-01-10, 01:04:21

Sollte, ja. Bei AMD halte ich das auch eher für möglich solange das MCM Konzept aufgeht.

Ohne jetzt den Thread zu sprengen, wo sollen die +80 oder mehr % bei NV herkommen mit dem monolitischen Ansatz?

Nehmen wir mal T102 und GA102 als vergleich:
Chip GA102 TU102
Prozess Samsung 8nm TSMC 12nm
Karte 3090 TI TITAN RTX
TDP 450 Watt 280 Watt +60%
Leistungsindex 4k ~400% 258,00% +55%

Chip GA102 AL102
Prozess Samsung 8nm TSMC 5nm
Karte 3090 TI
TDP 450 Watt 550 Watt +22%
Leistungsindex 4k ~400% ? +80%?!?

Wo sollen die 80% denn herkommen?

Bei RDNA ist das Bild nun nicht wirklich anders. Wenn man die 40% die 5nm besser sein soll als 7nm mitnimmt und dann die erhöhte TDP mit einbezieht wären vielleicht die 100% drin, aber nunmal auch nur wenn MCM genauso skaliert wie der monolitische Ansatz. Wobei halt unbekannt ist was mit Zugriffszeiten etc passiert.

Beides, sowohl bei NV als auch bei AMD wäre natürlich super. Widerspricht aber nunmal allem was vorher so kam, wird aber bislang gerne als gesetzt angenommen.

Du unterschlägst dabei komplett, dass Nvidia ja bisher nur in Samsung 8nm fertigt. Das sind also 2 Nodes bis auf TSMC 5nm. Bei AMD ist es nur 1 Node.
Zur Verlustleistung habe ich leider keine Daten aber Transistordichte zwischen GA100 in TSMC 7nm und GA102 in Samsung 8nm sind 1.44x.

Um ehrlich zu sein halte ich es für Nvidia einfacher auf die vorhergesagten 2.2x Leistungssteigerung zu kommen mit einem 2 Node Sprung also AMDs 2.5x mit nur 2 Node.

Das Chipletkonstrukt das AMD baut senkt weder die Verlustleistung noch erhöht es die Performance. Den einzigen Nutzen den es hat ist, dass die Ausbeute höher ist. Nur was spielt das schon für eine Rolle wenn es sowieso nur um (im besten Fall) 2000+ Euro Karten geht die sowieso nur in homöopatischen Dosen in den Markt kommen. Zur Not gibt es einen reinen Paperlaunch. Für ein paar Pressesamples wird es schon reichen und bei allem darunter wird einfach alles was defekt ist deaktiviert.

Die Herausforderungen die ich für Nvidia sehe sind:
a) Man muss selbst mit einem Design mit mehr Caches auf den Markt kommen denn Speicherbandbreite erhöhen wird vor GDDR7 schwierig.
b) Nvidia muss es gegen den Driver Overhead bei DirectX12 Spielen tun. Bei Ampere konnte man das noch gut verschleiern da sowieso meistens auf das 4K Rating geschaut wird und sowieso fast immer High End CPUs verwendet werden nur bei einer Verdopplung der GPU Performance wird das kaum ausreichen. Wenn Nvidia die Framerate verdoppeln will so ist das so wie aktuell in 1080p und da ist AMD gerade deutlich vorne. 8K und RT ist nett aber das nächste Ziel ist 4K120. Dann können wir uns über mehr Qualität unterhalten.

Neurosphere

2022-01-10, 09:31:41

Du unterschlägst dabei komplett, dass Nvidia ja bisher nur in Samsung 8nm fertigt. Das sind also 2 Nodes bis auf TSMC 5nm. Bei AMD ist es nur 1 Node.
Zur Verlustleistung habe ich leider keine Daten aber Transistordichte zwischen GA100 in TSMC 7nm und GA102 in Samsung 8nm sind 1.44x.

Stimmt, habe ich unterschlagen. Es ist allerdings schwer zu sagen wie groß der Unterschied wirklich ist. Zwei unterschiedliche Chipkonzepte mit unterschiedlichen Prozessen zu vergleichen ist nur bedingt Zielführend IMO.

Um ehrlich zu sein halte ich es für Nvidia einfacher auf die vorhergesagten 2.2x Leistungssteigerung zu kommen mit einem 2 Node Sprung also AMDs 2.5x mit nur 2 Node.

Um ehrlich zu sein halte ich es für Nvidia einfacher auf die vorhergesagten 2.2x Leistungssteigerung zu kommen mit einem 2 Node Sprung also AMDs 2.5x mit nur 2 Node.
Das Chipletkonstrukt das AMD baut senkt weder die Verlustleistung noch erhöht es die Performance. Den einzigen Nutzen den es hat ist, dass die Ausbeute höher ist.

Jain. Der Vorteil ist auch, ich kann überhaupt größere Chipkonstrukte erzeugen die monolitisch nicht mehr machbar oder handlebar wären. Es dürfte auch drin sein das die kleineren Chiplets sich besser takten lassen und für Stromsparfunktionen Chipslets komplett abgeschaltet werden. Viele Einheiten lassen sich erstmal energieeffizienter betreiben als weniger die hoch takten müsste.

HOT

2022-01-10, 09:36:09

basix

2022-01-10, 11:58:46

HOT

2022-01-10, 13:00:12

GA100 ist egal. Jetzt mach das Ganze nicht noch komplizierter :freak:.
Die AMDs nutzen eine angepasste HPC-Variante von N7P. Dass die Packdichten bei RDNA2 höher ist, liegt einzig am Cache.

iamthebear

2022-01-10, 22:33:35

Also laut den Angaben auf Wikipedia:

Samsung 8LPP (GA102): 61.2 MTrans/mm²
TSMC N7 (GA100): 96.5 MTrans/mm²
AMD N7P (Navi21): 96.5 MTrans/mm² (gleich wie N7)
TSMC N5: 173 MTrans/mm²

Laut den Angaben sind es sogar 58%.

N7P an sich ist also sehr wohl deutlich kompakter als 8LPP. Das ist nur bei AMD nicht so. Warum das so ist darüber kann man jetzt spekulieren. Ich nehme an es ist eine Kombination aus:
a) AMD hat bewusst auf etwas Packdichte verzichtet um dafür höhere Taktraten zu fahren.
b) Nvidia hat einfach deutlich mehr Manpower bei den Chipdesignern und kann es sich leisten ihre Chips etwas mehr zu optimieren.

iamthebear

2022-01-10, 23:49:11

Bandbreite ist für NV kein Problem, die werden dann einfach auf Samsungs 24GT/s GDDR6 zurückgreifen und fertig. Das ist schon ordentlich mehr Bandbreite. Auch jetzt, mit 6X, hat man eigentlich mehr Bandbreite als die Chips brauchen. NV versucht damit halt nur das letzte Quäntchen Leistung bei UHD herauszukitzeln.

19.5GT/s vs. 24GT/s sind 23% mehr. Klar aktuell gibt es keinen akuten Bandbreitenmangel aber das Performanceziel sind 2.2x. Das ist so als würde man das Speicherinterface halbieren.

Außerdem halte ich es für herausfordernder einen monolithischen Chip energieeffizient hinzubekommen als Chiplets, die eh ne viel bessere Ausbeute haben und bei denen sich die besten Chiplets miteinander kombinieren lassen. AMD hat es also leichter, die beste Leistung in die "Masse" zu bringen.

Energieeffizienter wird immer ein monolithisches Design sein. Selbst mit den neuen Packagingtechnologien ist die Datenübertragung über die Die Grenzen hinweg immer noch energiehungriger als on Die.
Und das mit der "Masse" wird sowieso nur ein feuchter Traum. Die Masse um die 500-700 Euro spielt sich bei Navi33 ab und das auch vorausgesetzt dass sich der Markt bis dahin stabilisiert.

Hinzu kommt, dass wir wissen, dass RDNA3 ziemlich heftige Designänderungen mitbringt, "Auflösen" der CUs, Umgestaltung der WGPs. Wie stark NVs architekturbedingten Änderungen sind bei Lovelace, die sich positiv auf den Stromverbrauch auswirken, wissen wir nicht un wird die größte Unbekannte sein im Vergleich.

Größere Umbauarbeiten müssen jetzt nicht automatisch positiv sein.

Was den Stromverbrauch angeht:
Der wird bei Nvidia kein Kriterium sein. Ampere ist nur deswegen so stromhungrig da die Karten bis auf Anschlag hochgetaktet wurden und genauso wird es auch bei Lovelace sein.

Wenn ich das grob überschlage:
+30% Performance/Watt von 8LPP auf N7P
+50% Performance/Watt von N7P auf N5
+30% mehr Watt

Da sind wir schon auf 2.5x. Damit sind wir schon über das Ziel von 2.2x hinaus geschossen.

Dass AMD von 7nm kommt und NV von 10nm ist denke ich kaum relevant, weil die Prozesse im HPC nicht sonderlich weit auseinanderliegen werden.

"Nicht sonderlich weit" ist relativ. Von TSMC 12nm auf Samsung 8nm ist auch "nicht sonderlich weit" und trotzdem reicht es für ca. 50% mehr Performance bei gleicher Verlustleistung und Die Size.

Meridian12

2022-01-10, 23:59:24

Mir kommt es so vor, als ob Frames pro Watt bei den neuen Karten alle gleich bleiben und man doppelte Geschwindigkeit einfach mit doppelten Energieverbrauch erkauft.

vinacis_vivids

2022-01-11, 00:03:14

AMD/TSMC ist jetzt eher bei "6nm" mit 114,2 MTr/mm², also nochmal + 18% höhere Packdichte gegenüber N7.
Der Umschwung bzw. die refreshs bei den GPUs dürfte jetzt relativ rasch voran gehen.
Ich kann mir sehr gut vorstellen, dass N33 "6nm" im Jahr 2022 erscheint und den relativ teuren facto N21 "7nm" ersetzt. N33 "6nm" schneller als N21 "7nm" und mehr Takt, zugleich kleiner, sparsamer, weniger Bauteile und verbessertes RT.

Mit "6nm" kann AMD zusätzlich Transistoren investieren, damit die Pipeline zu verlängern, um 3,0Ghz bei N33 zu erreichen.
Absoluter cashcow für die nahe Zukunft und den größer werdenden Massenmarkt 4K.

basix

2022-01-11, 01:21:59

19.5GT/s vs. 24GT/s sind 23% mehr. Klar aktuell gibt es keinen akuten Bandbreitenmangel aber das Performanceziel sind 2.2x. Das ist so als würde man das Speicherinterface halbieren.

G6X war ein Missgriff, welcher gar nicht benötigt wurde. Eine 3070 kommt auch mit 448 GByte/s klar. Quadro Amperes kommen mit 16GT/s G6 klar, auch in Spielen.

-> 24 GT/s * 384 bit = 1152 GByte/s
-> RTX 3070 = 448 GByte/s
-> RTX 3090 = 1.6x 3070 (mittig zwischen Raster/RT Performance @ 4K)
-> Lovelace = 2.2 * 3090 = 2.2 * 1.6 = 3.5x
-> 3.5 * 448 = 1580 GByte/s
-> 1580 / 1152 = 1.37 --> 37% Speicherbandbreite fehlen

Mit 32 MByte Infinity Cache artigem LLC wäre man bei 4K ziemlich exakt bei +37% effektiver Speicherbandbreite und somit effektiven 1.55-1.6 TByte/s. Pro Performance gleich viele Bytes/s wie bei der GA104, passt doch. Bei Lovelace gab es ja die Gerüchte bezüglich "bigger caches"

Aus meiner Sicht reichen 24 GT/s. Abgesehen davon: Gäbe es überhaupt etwas schnelleres? 512bit wird niemand mehr wagen und HBM ist zu teuer.

Energieeffizienter wird immer ein monolithisches Design sein. Selbst mit den neuen Packagingtechnologien ist die Datenübertragung über die Die Grenzen hinweg immer noch energiehungriger als on Die.

Jein. Für alles bis und mit 2.5D stimmt das vermutlich in vielen Fällen. Bei 3D nicht unbedingt. Sobald die Übertragungsstrecken aufgrund der Flächenausdehnung länger werden als die Zusatzenergie für horizontale 3D-Stacking Verbindungen, ist monolithisch im Nachteil. Und aufgrund Chiplets und IP-Blöcken in optimierter Fertigung (siehe V-Cache) entstehen zusätzliche Möglichkeiten, die Energieeffizienz zu steigern.

Siehe zum Beispiel herkömmliche Mixed Signal ICs. Je nach Herstellungsprozess muss man Kompromisse eingehen. Digitale ICs haben meistens nur suboptimale Parameter bei analogen Funktionsblöcken, Hochvolt-Analog Prozesse haben ebenfalls suboptimale Parameter für Logikpegel oder sensitive analoge Blöcke (Noise usw.). Das selbe lässt sich auch auf Chiplets übertragen. Der "optimierte Cache-Prozess" des V-Cache Die kann unter Umständen deutliche Vorteile gegenüber herkömmlichen N7P haben. Density ist sicher einer davon, was prinzipiell schon mal gut ist für Energieeffizienz. Angepasste Schaltpegel usw. oder eine zusätzliche Low Power Optimierung kann ebenfalls passieren.

Oder man kann durch Chiplets den einfachen Weg gehen: Mehr Silizium = Weniger Takt = Höhere Effizienz. Das geht auch mit 2.5D. Mit solchem Packaging verschiebt sich das obere Limit, welches ansonsten beim Reticle Limit liegt. Mit 2.5D kann man 2000mm2 aufs Problem werfen.

iamthebear

2022-01-12, 00:06:08

G6X war ein Missgriff, welcher gar nicht benötigt wurde. Eine 3070 kommt auch mit 448 GByte/s klar. Quadro Amperes kommen mit 16GT/s G6 klar, auch in Spielen.

-> 24 GT/s * 384 bit = 1152 GByte/s
-> RTX 3070 = 448 GByte/s
-> RTX 3090 = 1.6x 3070 (mittig zwischen Raster/RT Performance @ 4K)
-> Lovelace = 2.2 * 3090 = 2.2 * 1.6 = 3.5x
-> 3.5 * 448 = 1580 GByte/s
-> 1580 / 1152 = 1.37 --> 37% Speicherbandbreite fehlen

Mit 32 MByte Infinity Cache artigem LLC wäre man bei 4K ziemlich exakt bei +37% effektiver Speicherbandbreite und somit effektiven 1.55-1.6 TByte/s. Pro Performance gleich viele Bytes/s wie bei der GA104, passt doch. Bei Lovelace gab es ja die Gerüchte bezüglich "bigger caches"

Aus meiner Sicht reichen 24 GT/s. Abgesehen davon: Gäbe es überhaupt etwas schnelleres? 512bit wird niemand mehr wagen und HBM ist zu teuer.

Ich muss zugeben das ist ein echt berechtigter Einwand.
Die 3070 Ti profitiert von der zusätzlichen Bandbreite überhaupt nicht.

Jein. Für alles bis und mit 2.5D stimmt das vermutlich in vielen Fällen. Bei 3D nicht unbedingt. Sobald die Übertragungsstrecken aufgrund der Flächenausdehnung länger werden als die Zusatzenergie für horizontale 3D-Stacking Verbindungen, ist monolithisch im Nachteil. Und aufgrund Chiplets und IP-Blöcken in optimierter Fertigung (siehe V-Cache) entstehen zusätzliche Möglichkeiten, die Energieeffizienz zu steigern.

Theoretisch hast du mit der Übertragungsstrecke Recht. In der Praxis liegen die 2 GCDs aber trotzdem weiterhin nebeneinander und die MCDs werden von der Fläche vielleicht die Hälfte der GCDs ausmachen. Da wird sich die Übertragungsstrecke in der Praxis nicht so viel verkürzen.

Siehe zum Beispiel herkömmliche Mixed Signal ICs. Je nach Herstellungsprozess muss man Kompromisse eingehen. Digitale ICs haben meistens nur suboptimale Parameter bei analogen Funktionsblöcken, Hochvolt-Analog Prozesse haben ebenfalls suboptimale Parameter für Logikpegel oder sensitive analoge Blöcke (Noise usw.). Das selbe lässt sich auch auf Chiplets übertragen. Der "optimierte Cache-Prozess" des V-Cache Die kann unter Umständen deutliche Vorteile gegenüber herkömmlichen N7P haben. Density ist sicher einer davon, was prinzipiell schon mal gut ist für Energieeffizienz. Angepasste Schaltpegel usw. oder eine zusätzliche Low Power Optimierung kann ebenfalls passieren.

Grundsätzlich sicher richtig. Aber ob ein angepasster 6nm Prozess besser ist als ein 5nm Prozess beim monolithischen Design daran habe ich so meine Zweifel. Billiger ist es natürlich aber ob es auch energiesparender ist weiß ich nicht so Recht.

Oder man kann durch Chiplets den einfachen Weg gehen: Mehr Silizium = Weniger Takt = Höhere Effizienz. Das geht auch mit 2.5D. Mit solchem Packaging verschiebt sich das obere Limit, welches ansonsten beim Reticle Limit liegt. Mit 2.5D kann man 2000mm2 aufs Problem werfen.…

Kann man natürlich machen. Im Fall von RDNA3 wissen wir aber schon in etwa wie groß das Ding werden wird bzw. wie AMD auf seine 2.5x kommt.
Unsicher ist es lediglich bei Nvidia. 70% mehr SM sich gesichert aber dann fehlen noch ca. 30%. Möglich dass der Rest über den Takt geholt wird aber ich denke nicht, dass dieser aus der Fertigung generiert wird sondern mit zusätzlichem Transistoreinsatz (Strecken der Pipeline). Wobei ich ehrlich gesagt auch nicht überrascht wäre wenn der Takt gleich bleibt und der Rest über IPC steigernde Maßnahmen geholt wird z.B. wenn sich Nvidia entscheidet nun doch wieder 64 INT Einheiten pro SM dazu zu packen (zusätzlich zu den 128 FP32)

basix

2022-01-12, 01:01:33

Unsicher ist es lediglich bei Nvidia. 70% mehr SM sich gesichert aber dann fehlen noch ca. 30%. Möglich dass der Rest über den Takt geholt wird aber ich denke nicht, dass dieser aus der Fertigung generiert wird sondern mit zusätzlichem Transistoreinsatz (Strecken der Pipeline). Wobei ich ehrlich gesagt auch nicht überrascht wäre wenn der Takt gleich bleibt und der Rest über IPC steigernde Maßnahmen geholt wird z.B. wenn sich Nvidia entscheidet nun doch wieder 64 INT Einheiten pro SM dazu zu packen (zusätzlich zu den 128 FP32)

Performance/Flop ist bei Ampere ja stark gesunken. Am einfachsten holt sich Nvidia hier wieder die IPC zurück. Ob das zusätzliche INT Einheiten erfordert? Nicht zwingend, aber vermutlich schon. Bei Turing hat Nvidia gesagt, dass in Spielen pro 100 FP-Operationen in etwa 36 INT Operationen ausgeführt werden, also ein 100:36 Verhältnis oder 26.5% aller Instrunktionen sind INT. Auf Ampere vs. Turing angewandt, ist Amperes theoretisches Limit pro SM 1.47x IPC (Lane 1 = 68 FP32 Operationen; Lane 2 = 36 INT / 32 FP32 Operationen; 100/68=1.47). Zwischen einer 2080 Ti und einer 3080, welche beide 68 SMs haben, liegen bei 4K +33...36% (Takt nicht berücksichtigt). Viel gewinnen kann man hier eigentlich nicht. Zusätzliche Einheiten sind also von Nöten. Bei Lovelace würden 2x FP / 1x INT Sinn machen. Das 2:1 Verhältnis stimmt relativ gut mit dem 100:36 Verhältnis überein. Dadurch könnte die IPC um etwa 2/1.33=1.5x steigen.

1.7*1.5=2.55. Aufgrund des breiteren Chips und dem nicht idealen IPC Scaling erscheinen 2.2x realistisch.

Anscheinend sind bei Ampere zudem auch SM Register und Scheduler etwas unterdimensioniert (Single Issue?). Müsste dann sicher auch etwas aufgebohrt werden.

Linmoum

2022-01-29, 11:56:01

A few highlights of Navi3
chiplets
3D Infinity cache
Machine learning chip
https://twitter.com/greymon55/status/1487367034648203265

Dazugehöriges Patent womöglich:
https://www.freepatentsonline.com/20210374607.pdf

Nightspider

2022-01-29, 15:49:51

Wird das dann eine Karte die nur für ML gedachte ist und keine Grafik berechnen kann?

basix

2022-01-29, 19:18:09

Wird das dann eine Karte die nur für ML gedachte ist und keine Grafik berechnen kann?

Wieso liest du das da raus? Ein reiner ML-Beschleuniger wir das sicher nicht. Auch nicht im HPC-Bereich.

Ich sehe eher folgende Möglichkeiten:
- ML als separater Zusatzchip
- ML in WGPs integriert, wie es Nvidia mit den Tensor Cores macht
- ML im MCD integriert

Wenn ich das verlinkte Patent anschaue, würde ich auf letzte Variante tippen. Und in Form von RDNA3: MCD = Infinity Cache + ML-Accelerator. Das macht sogar sehr viel Sinn, da ML stark an Bandbreite und Latenz hängt. Und der "Machine Learning Chip" wäre somit auch nicht ganz falsch, auch wenn nicht ein komplett eigenständiger Chip ;)

Wäre interessant, wenn das so kommt.

In diesem Reddit Post werden 1.25mm2 pro TPC bei Turing veranschlagt. Ist natürlich schwierig zu sagen, was hier noch vom restlichen SM für den TPC wiederverwertet werden kann.
https://www.reddit.com/r/nvidia/comments/baaqb0/rtx_adds_195mm2_per_tpc_tensors_125_rt_07/

Falls man jetzt aber naiv die 1.25mm2 als Basis nimmt und 6nm vs. 12nm 2x Scaling mitbringt, landet man pro TPC bei 0.6mm2. Bei 42x TPCs wie bei GA102 würde man dann bei ~25mm2 landen. Vielleicht macht man auch 64x TPCs bei N31 (je 16 stk. pro MCD) und man landet bei total ~40mm2 oder ~10mm2 pro MCD. Eigentlich ein gute Grösse. Und der Vorteil bei der Integration ins MCD: ML lässt sich separat von den WGP skalieren und evtl. deutlich spezialisierter und somit optimierter designen. Nachteil ist, dass man ausser dem LLC vermutlich keine der bestehenden Strukturen wiederverwerten kann (wie z.B. L1 oder L2 Caches).

Bei angenommenen ~2.5 GHz für N31 würde man bei ~650 TFlops FP16 landen, was ~2x einer RTX 3090 Ti entspricht. Wäre eigentlich ein guter Deal was Perf/mm2 anbelangt. Evtl. geht AMD in den Beast-Mode, packt 24x dieser TPC auf ein MCD, taktet das Ding auf 2.6 GHz und AMD könnte für sich vielleicht den Titel "Erste PetaFlops" ML/AI GPU auf die Fahne schreiben :D

Nightspider

2022-01-30, 13:21:56

Ganz ehrlich: Ich hatte gestern keine Lust am Nachmittag das Patent durchzulesen. ^^

basix

2022-01-30, 14:04:38

Naja, es geht ja um RDNA3. Da sollte klar sein, dass es um eine Grafikarte geht ;) Das Patent ist mehr eine Zusatzinfo, wie es aussehen könnte.

BlacKi

2022-02-03, 11:41:51

rdna2 wird juni/juli refreshed und rdna3 kommt trotzdem noch dieses jahr. da würde ich mal davon ausgehen, das rdna wohl recht spät kommt. hieß es nicht letztes jahr noch, das rdna3 noch vor next ampere erscheinen würde?

amdfanuwe

2022-02-03, 12:23:03

Nicht unbedingt.
RDNA3 soll doch 6800 und aufwärts ersetzen. Darunter gibt es dann die RDNA2 Refreshs.

r3ptil3

2022-02-03, 12:39:39

Nicht unbedingt.
RDNA3 soll doch 6800 und aufwärts ersetzen. Darunter gibt es dann die RDNA2 Refreshs.

In Erinnerung habe ich folgendes:

RX 6700 < Navi 33
RX 6800+ < Navi 32
RX 6900 < Navi 31

dargo

2022-02-03, 12:40:14

Nicht unbedingt.
RDNA3 soll doch 6800 und aufwärts ersetzen. Darunter gibt es dann die RDNA2 Refreshs.
Ist das schon bestätigt? In dem Fall rieche ich hier eine deutliche Preissteigerung bei AMD mit RDNA3. Kann mir nicht vorstellen, dass der Topdog für nur 999$ kommt. Nicht mit den spekulierten Daten.

aceCrasher

2022-02-03, 12:58:30

basix

2022-02-03, 12:59:33

N33 ist mit Performance Target = 6900 XT am Start. Mit 64 CUs in 6nm und keinen anderen Bottlenecks könnte man dem schon nahe kommen.

Darunter wird es wohl Refreshes von N22-N24 in form von xx50 Editionen geben. Evtl. eine 8GB Version von N24 in Form der 6550XT :D

Vermutlich werden die RDNA2 Refreshes etwas im Preis runterrutschen:
- 6550 XT = 199$ (8 GByte)
- 6650 = 279$
- 6650 XT = 329$
- 6750 XT = 429$

Dann oben drauf die RDNA3 Karten:
N33:
- 7700 = 529$
- 7700 XT = 599$

N32:
- 7800 = 749$
- 7800 XT = 899$

N31:
- 7900 XT = 1299$
- 7900 Fury Edition = $$$

SKUs und Preise sind reine Spekulation.

r3ptil3

2022-02-03, 13:29:16

Wenn AMD diese Generation wirklich die Performance Krone holt gehe ich fest von 1499$-1999$ aus. Man will schließlich weg vom Budget-Image. Bei den CPUs werden seit der 5000er Generation ja auch premium Preise aufgerufen.

Hängt aber auch vom Datum ab. Navi 31 wird wohl kaum 2022 veröffentlich werden, ich tippe auf Frühling/Sommer 2023.
Bis dahin könnte Nvidia ja fast schon wieder einen ordentlichen Refresh bringen, da die RTX 4000 Modelle bestimmt wieder als erstes (September 2022) draussen sind.

Ich habe in Erinnerung, dass lediglich Navi33 Ende 2022 veröffentlicht wird und wie basix sagte, Leistung in Richtung 6900 XT+.

amdfanuwe

2022-02-03, 13:34:36

r3ptil3

2022-02-03, 13:38:24

Für die RTX 3090 zahlte man bis jetzt nur so viel, weil es die einzige Karte ohne LHR war. Ohne Miner, zahlt selten jemand mehr als die UVP.

AMD und Nvidia wissen das, solange niemand einen massiven Vorteil hat (so etwas wie eine 8800 GTX), ist das obere Limit bei der Kundschaft bei weit unter 2000 Euro (irgendwas bei 1200 bis 1600).

Nur mal als Beispiel:

Alternate Schweiz
MSI Gaming X RTX 3090 Ende Dezember 2021: 2650 Euro+
MSI Gaming X RTX 3090 Ende Januar 2022: 2390 Euro
MSI Gaming X RTX 3090 Anfang Februar 2022: 2210 Euro

Bei dem Ethereum-Kurs wird das so weitergehen, bis die Karte bei etwa 1500-1600 Euro liegt und selbst dann werden sich die Kunden zögerlich verhalten.

Und wichtig: lagernd über Tage! Vor 2022 war die Karte nach wenigen Stunden weg.

amdfanuwe

2022-02-03, 13:43:15

Welcher Kundschaft? Gibt immer welche, die das teuerste haben wollen und nicht aufs Geld schauen müssen.
Wenn die Nachfrage nachläßt, kann man immer noch mit dem Preis runter.

r3ptil3

2022-02-03, 13:47:52

Welcher Kundschaft? Gibt immer welche, die das teuerste haben wollen und nicht aufs Geld schauen müssen.
Wenn die Nachfrage nachläßt, kann man immer noch mit dem Preis runter.

Die Stammkundschaft, welche über Jahrzehnte das Fundament bildet für dieses Segment: die Gamer.

Leonidas

2022-02-03, 14:12:25

Die Xt6900 braucht bloss 250watt jedenfalls wenn die Anzeige von adterburner stimmt.

Sehr viele Tools zeigen nur die internen Sernsoren an - und die messen nur die ASIC-Power. Die liegt bei der 6900XT bei 255W, verbrauchen tut die gesamte Karte aber 305W.

Anders formuliert: Viele Tools zeigen hier zu wenig an (bei AMD-Karten).

basix

2022-02-03, 14:17:34

Warum so billig? Wenn die Leute jetzt bereit sind 2400€ für eine 3090 zu bezahlen, kann AMD bei einer besseren Karte auch entsprechende Preise verlangen.

Zudem brauch man bei MCM keine Salvage Varianten. Die kann man als single Chip salvage verkaufen.

Mining ist da ein gutes Stichwort. Und MSRP vs. Marktpreis ist auch was anderes. Und Konkurrenz von Nvidia sowie Intel gibt es ja auch noch ;)
AMD kann nicht beliebig hohe Preise verlangen. Ich würde mich hüten zu sagen, dass allzu viele 3070er für 1000+$ von Gamern gekauft wurden.

Bei MCM kann es sehr wohl Salvage benötigen:
- Kommt schwer darauf an, wie die Chiplets aufgebaut sind. Wenn der SoC Teil mit PCIe, Speichercontroller, Display etc. gesondert vorhanden ist: Ja, denkbar. Wenn nein (Zeugs ist auf dem GCD: Mit 80CU oder 120CU nur 128bit, 8 PCIe Lanes und halbierter Anzahl Display Ausgänge? ;)
- Salvage kommt automatisch, da man den Yield der Chiplets erhöhen will (einzelne CUs deaktivieren)
- Salvage von N31 schliesst die Lücke zu N32 und/oder lässt oben Platz für eine "Fury nonplusultra Edition"
- Salvage von N32 ist ein interessantes Thema, da >2x zwischen N32 und N33. Bei RDNA2 mit N21 und N22 war es aber ebenfalls 2x. Single Chiplet N32? Kommt wie gesagt auf den SoC Teil an.

Das man wie bei Zen ein IOD und mehrere GCDs hat, wird mMn erst bei RDNA4 ein Thema sein. Bei RDNA3 benötigt man zwei gleichartige GCDs, welche via MCD miteinander verbunden werden. PCIe, Display etc. befinden sich auf den GCDs. Speichercontroller + PHY laut Gerüchten auf den MCDs.

dargo

2022-02-03, 14:19:56

HOT

2022-02-03, 14:27:35

Die Preisentwicklung ist ja durch das Mining getrieben nicht durch das Gaming. Also ist es doch auch total logisch, dass die Preise wieder normal werden, wenn das Mining, aus welchem Grund auch immer, wegfällt. Das Problem ist, dass Gamer nicht so hohe Preise zahlen wie Miner. Und dass es ein paar wenige Gamer gibt, die diese Preise problemlos bezahlen können heißt ja nicht, dass, wenn der Hersteller auf den Markt auch angewiesen ist, jetzt plötzlich jeder Gamer diese Preise bezahlt, das ist doch absurd so zu denken.
Der ganz große Löwenanteil der jetzigen Gamer hat entweder noch ein altes Schätzchen, ne (gebrauchte) Turing oder biss ausnahmesweise mal in den sauren Apfel bei irgendnem "Schnäppchen" das ausnahmsweise mal nicht ganz total überteuert war. Aber das wird doch nicht zum Normalzustand. Und die Scalper werden doch von den kleineren Minern finanziert, nicht von den Gamern, denn Scalper haben doch nur und ausschließlich den einen Vorteil, dass die direkt nen Stoss an Karten liefern können.

basix

2022-02-03, 14:34:01

Mich stimmt es nachdenklich, dass hier sogar Leute aus unseren Reihen, also Gamer, so extrem hohe Preise proklamieren.

Maxwell war noch gut erschwinglich. AMD Karten aufgrund etwas zurückliegender Performance ebenfalls. Mit Pascal hat ein deutliches Absahnen von Seiten Nvidia angefangen. Die 1080 Ti war zwar sehr gut und preislich noch OK (471mm2 ist aber auch nicht so viel), aber vorher hat man mit der 1080er 700 Euro MSRP verlangt. Für einen 300mm2 Chip. Bei Turing ging man auf GDDR6 und auf riesige Die Sizes. Und verlangte dann mehr. Ist einigermassen verständlich, dennoch sehr teuer und 1300$ für eine 2080 Ti waren sogar noch günstig. Und bei Ampere kosteten die Karten ohne Mining und Covid in Form der 3090 >1600$. Und nun wollen einige MSRPs von 2000$ sehen? Wo sind wir hier? Alles Investoren von AMD und Nvidia?

Ich gönne beiden Firmen anständige Margen und guten Gewinn. Aber nicht aufgrund völlig weltfremden Preisregionen. Was ist das Median-Einkommen in Deutschland? 1900 Euro? Im Endeffekt sind so hohe Grafikkarten-Preise also vor allem eines für den Kunden: Extrem hohe Inflation. Und das Abwandern eines ganzen Produktsektors hin zu Premium und Luxus. Und wollen wir das? Nein, definitiv nicht.

HOT

2022-02-03, 14:36:59

Mich stimmt es nachdenklich, dass hier sogar Leute aus unseren Reihen, also Gamer, so extrem hohe Preise proklamieren.

Maxwell war noch gut erschwinglich. AMD Karten aufgrund etwas zurückliegender Performance ebenfalls. Mit Pascal hat ein deutliches Absahnen von Seiten Nvidia angefangen. Die 1080 Ti war zwar sehr gut und preislich noch OK (471mm2 ist aber auch nicht so viel), aber vorher hat man mit der 1080er 700 Euro MSRP verlangt. Für einen 300mm2 Chip. Bei Turing ging man auf GDDR6 und auf riesige Die Sizes. Und verlangte dann mehr. Ist einigermassen verständlich, dennoch sehr teuer und 1300$ für eine 2080 Ti waren sogar noch günstig. Und bei Ampere kosteten die Karten ohne Mining und Covid in Form der 3090 >1600$. Und nun wollen einige MSRPs von 2000$ sehen? Wo sind wir hier? Alles Investoren von AMD und Nvidia?

Ich gönne beiden Firmen anständige Margen und guten Gewinn. Aber nicht aufgrund völlig weltfremden Preisregionen. Was ist das Median-Einkommen in Deutschland? 1900 Euro? Im Endeffekt sind so hohe Grafikkarten-Preise also vor allem eines für den Kunden: Extrem hohe Inflation. Und wollen wir das? Nein, definitiv nicht.

Ich würde sogar behaupten, dass die meisten Gamer exakt diese Einschätzung mehr oder weniger teilen werden. Gibt eben viele Schwarzmaler, aber man lernt (u.U.) ja auch aus Krisen ;).

basix

2022-02-03, 14:40:31

Das Problem ist, dass nach 2 Jahren Pandemie sich die meisten an so hohe Preise gewöhnt haben. Der Schmerz-Reflex wurde deutlich abgestumpft. 2000$ bei einer 3090 sind weniger als 3000$ von vor 3 Monaten. Deswegen sollte man für sich zwischendruch reflektieren, wie viel Geld 1000$ oder gar 2000$ eigentlich ist.

aceCrasher

2022-02-03, 14:41:50

Ab 209€ sind bei dir Premiumpreise? Man kann es echt übertreiben.

Günstigster Ryzen 3000 6-Kerner zum Launch: 199$
Günstigster Ryzen 5000 6-Kerner zum launch: 299$

Günstigster Ryzen 3000 8-Kerner zum launch: 329$
Günstigster Ryzen 5000 8-Kerner zum launch: 449$

amdfanuwe

2022-02-03, 17:40:21

1) ich empfehle mal ein Grundstudium BWL, Preisfindung
2) Soweit ich weiß, gibt es GPUs in mehreren Preisabstufungen. Wer sich das Topmodell nicht leisten kann, kann immer noch zu was günstigerem, z.B. einer 6500XT, greifen.

dargo

2022-02-03, 18:06:05

Günstigster Ryzen 3000 6-Kerner zum Launch: 199$
Günstigster Ryzen 5000 6-Kerner zum launch: 299$

Günstigster Ryzen 3000 8-Kerner zum launch: 329$
Günstigster Ryzen 5000 8-Kerner zum launch: 449$
Habt ihr immer noch nicht kapiert, dass Preise vor Corona nicht vergleichbar sind? Und nochmal meine Frage... was daran sind Premiumpreise? :confused:

davidzo

2022-02-03, 18:56:00

Habt ihr immer noch nicht kapiert, dass Preise vor Corona nicht vergleichbar sind? Und nochmal meine Frage... was daran sind Premiumpreise? :confused:

Ryzen 5000 launch war vor der Chipkrise.

Ich finde das sind schon premiumpreise, bzw. für mich kommt seit ein paar Jahren eh nur noch gebraucht in Frage. So viel ist mir das hobby nicht wert, bzw. soviel spiele ich eh nicht.
Es gab ein Jahrzehnt da kostete der topdog für Gaming zwischen 250 und 350€. Mittlerweile sind das 550€ und zwar schon vor Corona/Chipkrise.
Und gute budget CPUs gibts auch nicht mehr, so wie damals der 120€ Pentium D 805 der weniger als halb soviel wie ein Athlon X2 oder midrange P4 dualcore kostete aber 60% der Leistung und viel OC-potential brachte. Oder der Pentium E2200 und er spätere Wolfdalebasierte E6400. Das waren alles Budget CPUs die in Spielen 70-80% der Leistung des Topdogs brachten, sehr gut übertaktbar waren und selten über 100€ kosteten.

Wenn ich jetzt Budget kaufe, dann bekomme ich nur noch Schrott. Bei AMD muss man Zen1 APUs nehmen, bei intel kriegt man richtig stark kastrierte CPUs mit einem viertel der Kerne und des caches, kaum mehr als halbem Takt im vergleich zum topdog etc.
Früher nahm das Preis Leistungsverhältnis nach unten hin zu. Nicht heute, da nimmt es bei den günstigeren SKUs eher ab.

Für mich heißt das also dass ich lieber midrange/highend von gestern nehme, also nur noch gebraucht kaufe und den Plattformwechsel halt erst mache wenn die auch nicht mehr ganz taufrisch ist. Angenehme Nebenwirkung: Die Firmare/Software ist bis dahin weitgehend bugfrei :D

w0mbat

2022-02-03, 19:27:23

Ryzen 5000 launch war vor der Chipkrise
Die Chipkrise hat im 3Q 2020 angefangen, Ryzen 5000 launch war im 4Q 2020.

Slipknot79

2022-02-03, 20:10:42

Es gab ein Jahrzehnt da kostete der topdog für Gaming zwischen 250 und 350€. Mittlerweile sind das 550€ und zwar schon vor Corona/Chipkrise.

Das gute am GPU limit ist: 550EUR sind das selbe wie 350EUR (y) :cool:

Mangel76

2022-02-03, 20:19:14

Günstigster Ryzen 3000 6-Kerner zum Launch: 199$
Günstigster Ryzen 5000 6-Kerner zum launch: 299$

Günstigster Ryzen 3000 8-Kerner zum launch: 329$
Günstigster Ryzen 5000 8-Kerner zum launch: 449$

Das ist aber nicht nur ein Preiseffekt. Dazu kommt, dass es bei der 3000er Reihe jeweils 2 Versionen gab, also etwa 3700X und 3800X. Du vergleichst hier die teuren 5000er mit den günstigen 3000ern. Aufgrund fehlender Kapazitäten war eine Abstufung jetzt nicht notwendig, da alles verkauft wird, was produziert wird. Wie würde der Vergleich ausfallen, wenn du jeweils die teuersten Versionen vergleichst?

aceCrasher

2022-02-03, 22:49:13

Habt ihr immer noch nicht kapiert, dass Preise vor Corona nicht vergleichbar sind? Und nochmal meine Frage... was daran sind Premiumpreise? :confused:

Zum Release von Zen 3 gab es noch keine Preiskrise im PC Markt. Ich möchte daran erinnern dass etwa zum gleichen Zeitpunkt auch eine RTX3080 für 699$ angekündigt wurde sowie die RX6800XT für 649$.

Fakt ist dass sobald AMD nicht mehr zweite Wahl für Gamer war und man seine Modelle nicht über den Preis verkaufen musste, sondern sagen konnte dass man die schnellste Gaming CPU hat, plötzlich die non-X Modelle gestrichen wurden.

Es mag stimmen dass ein R5 5600 keine Preiserhöhung gesehen hätte, aber den gibt es nunmal nicht. Das heranziehen von nicht kaufbaren Produkten als Argument ist wirklich ein Unding. Genau der gleiche Blödsinn wie sich jetzt darüber zu beschweren dass die 6500XT P/L-technisch schlecht gegenüber der 5500XT da steht - denn diese Karte kann man nicht kaufen.

Produktionskosten vom R5 3600, der den Großteil der 6-Kerner Verkäufe bei AMD ausgemacht hat, zum R5 5600X haben sich ja wohl kaum verändert, der höhere Takt wird da durch die reifere Fertigung rausgeholt, nicht durch etwaige Selektierung. Man hat im gleichen Fertigungsprozess, bei nahezu gleicher Chipgröße, den Preis um 50% erhöht. Das sind für mich "Premium Preise".

Savay

2022-02-03, 23:08:06

Man hat im gleichen Fertigungsprozess, bei nahezu gleicher Chipgröße, den Preis um 50% erhöht.

Naja...
Ein bestimmtes Segment aus verschiedenen Gründen vorerst nicht mehr mit aktuellen SKUs zu bedienen ist doch keine wirkliche "Preiserhöhung". :freak:

Das ist ja als würde man behaupten nV hätte die Preise erhöht, weil sie seit 2 Generationen keine xTX x030 mehr anbieten.
Oder das AMD mit VEGA die Preise erhöht hätte weil es als dGPU nur die Vega10 und Vega20 Chips gab.

Das heranziehen von nicht kaufbaren Produkten als Argument ist wirklich ein Unding

Das Vergleichen von Produkten aus unterschiedlichen Segmenten (3600 vs 5600X) ist da leider genauso ein Unding wie der vergleich mit hypothetischen SKUs (3600 vs 5600).
Das Zen2 Gegenstück zum 5600X ist der 3600X.

amdfanuwe

2022-02-03, 23:24:12

Der 5600X wurde gemäß seiner Leistung eingeordnet. Der konnte gut mt einem 3800X mithalten und teils übertreffen.
Warum also weniger verlangen, wenn keine Konkurrenz zu allgemeinen Preissenkungen zwingt.

davidzo

2022-02-04, 00:09:50

Die Chipkrise hat im 3Q 2020 angefangen, Ryzen 5000 launch war im 4Q 2020.

wenn mich meine erinnerung nicht trügt hat das ganze Thema erst deutlich während 2021 angefangen. In 2020 haben doch die Autohersteller dochgerade ihre Bestellungen aufgekündigt. Da war von Lieferknappheit noch nichts zu spüren, höchstens mal die üblichen Launchware Schwierigkeiten. Ryzen 5000 war 2020 nach den ersten Einführungswochen gut verfügbar.

Blediator16

2022-02-04, 00:34:03

Man konnte bis Feb/März 2021 kaum den 5600x kaufen, weil die übelst gescalpt wurden.

basix

2022-02-04, 00:35:46

Die Chipkrise hat bereits 2020 angefangen. Oder wer erinnert sich an RDNA3, Ampere, Zen 3 und NextGen Konsolen Launches? Alles massivst vergriffen.

Und bei Halbleitern in der Industrie ist es auch schon seit 2020 ein Thema. 2021 hat sich die Situation einfach nochmal deutlich verschärft.

nordic_pegasus

2022-02-04, 10:33:17

Die Chipkrise hat bereits 2020 angefangen. Oder wer erinnert sich an RDNA3, Ampere, Zen 3 und NextGen Konsolen Launches? Alles massivst vergriffen.

ich denke in der Aufzählung meintest Du RDNA2 ;-)

Allerdings basieren Zen3, RDNA2, Xbox Series X/S und PS5 alle auf Chips von TSMC, alle wurden im Q4/2020 gelauncht. Unabhängig von anderen Lieferengpässen/Corona/Mining sollte vielleicht die Lehre hieraus sein, dass sich die gesamte Welt der Elektronik-Hersteller nicht nur auf einen Lieferanten verlassen sollte. Bei dem ganzen Taiwan-Konflikt schwingt ja auch immer die Angst des Westen mit, dass TSMC in chinesische Hände gerät. Wenn TSMC fällt, ist auch AMD weg vom Fenster. Genügt ja schon eine Dürre in Taiwan wie im letzten Sommer, damit wieder alle in Panik geraten.

In der Kette sind auch alle(?) Chip-Fertiger auf die Belichtungsmaschinen von ASML angewiesen. Das ist mir persönlich alles zu stark an Kante genähnt.

HOT

2022-02-04, 11:11:49

Ähm, wenn TSMC in chinesische Hände fällt, aha, die sind schon in chinesischen Händen ;).
Aber du meinst, wenn die VR die Kontrolle über Formosa übernehmen würde, dann würde exakt gar nichts passieren, da sich die Eigentumsverhältnisse keinen Deut ändern würden und die Verträge samt und sonders eingehalten werden würden. Nur sanktionierbar wäre VR China dann nicht mehr (sind die aber eh nicht). Dann wäre aber die Sanktionsmöglichkeit für chinesische Konzerne auch nicht mehr vorhanden.

basix

2022-02-04, 11:36:47

ich denke in der Aufzählung meintest Du RDNA2 ;-)

äh, ja :D

Allerdings basieren Zen3, RDNA2, Xbox Series X/S und PS5 alle auf Chips von TSMC, alle wurden im Q4/2020 gelauncht. Unabhängig von anderen Lieferengpässen/Corona/Mining sollte vielleicht die Lehre hieraus sein, dass sich die gesamte Welt der Elektronik-Hersteller nicht nur auf einen Lieferanten verlassen sollte. ...

In der Kette sind auch alle(?) Chip-Fertiger auf die Belichtungsmaschinen von ASML angewiesen. Das ist mir persönlich alles zu stark an Kante genähnt.

Vermutlich nicht nur TSMC. Bereits im Herbst 2020 hatten viele Dinge aus dem IT-Leben massiv erhöhte Lieferfristen(Dockingstations, Bildschirme, KVM-Switches, Tastaturen, Headsets, ...). Das hängt sicher nicht nur an Chips von TSMC. Schlussendlich war die ganze Lieferkette betroffen.

Beruflich habe ich viel mit Halbleitern zu tun (Microcontroller, MOSFETs, you name it). Und die kommen zu einem Grossteil definitiv nicht von TSMC, je nach Hersteller und Marke. Das ist schon sehr lange sehr knapp. Aber 2021 ist wirklich nochmals deutlich prekärer, da auch alle Lager der Hersteller leer sind. Lead Times (Zeit von Bestellung bis Lieferung) bei einfachen MOSFETs liegen bei grösseren Mengen oftmals bei 60-80 Wochen (~1.5 Jahre!). Viel Spass beim Produkte designen und produzieren. Selbst für einige Prototypen mit <100 Stk. eines bestimmten Komponententyps ist es schwer, an die Ware heranzukommen. Geschweige denn 5-6 Stellige Stückzahlen für Massenproduktion. Erst kürzlich erlebt: LEDs bestellt bei 3 verschiedenen Lieferanten und 2 Monate im voraus, um sicher zu gehen. Schlussendlich sind 2 von 3 Bestellungen angekommen und auch gerade knapp auf den Termin, wo wir die Prototypen herstellen wollten. Die anderen Lieferungen kommen nun 6 Monate verspätet an.

Was da momentan abgeht ist extrem. Manchmal kann man heute bestellen bei x-tausend Stück lieferbar, morgen bereits alles weg und nächstes Lieferdatum in 6 Monaten. Einfach krank. Bei Produkten in Serienfertigung werden für einzelne Bauteile zum Teil das 20x fache der normalen Preise bezahlt. Alternative: Die Produktion steht still.