AMD/ATI - RDNA3 (Navi 3X, Radeon RX 7000 Serie, tlw. Chiplets, 5/6 nm, 2022) [Archiv] - Seite 3

Cyberfries

2021-04-19, 19:22:48

GTX 280 --> GTX 480 = +120W (schlimmes Beispiel :D)

Nur +14w

2007 hat mit Einführung des 8pin-Steckers und PCIe 2.0 den Stromverbrauch in neue Höhen getrieben.
Zuerst die GTX280 mit 236w (https://www.techpowerup.com/gpu-specs/geforce-gtx-280.c216), dann die 480 mit 250w (https://www.techpowerup.com/gpu-specs/geforce-gtx-480.c268). Ein (single GPU) Rekord, der bei nVidia acht (!) Jahre vorhielt.
Und was wir in dieser Zeit an Leistung hinzugewonnen haben, im gleichen TDP-Rahmen, ist aller Ehren wert.

Dass diese Marke nun um 100w pulverisiert wurde ist bedauerlich. Jetzt, da AMD endlich akzeptable Verbräuche auffährt.
Eine Rückkehr zu vernünftigen Werten wäre wünschenswert.

Nein, kein dämlicher Vergleich, der passt wie die Faust auf dein Auge.

Lass deine Faust stecken und werd erwachsen.

Früher hatten Autos 15PS und keine Wakü. Heute sind es 150PS und Waküs.

Und halb so viel Verbrauch... das würde ich als Eigentor werten.
Bei dieser Betrachtung wird außerdem der Zugewinn an Sicherheit, Elektronik und Komfort vernachlässigt.
Bei Autos kann man die Betrachtung nicht auf Leistung und Verbrauch reduzieren. Deshalb: Schlechter Vergleich.

Den Punkt nicht verstanden?
Solche Diskussionen kannst du in der GTX 1650 Liga und darunter machen
Dorts gibts, wenn du Glück hast, nicht mal ne dGPU. Aber darum geht es nicht und das ist das, was du nicht verstanden hast.

Ich sehe ich kann meine Frage selbst beantworten: Nein, du hast es nicht verstanden.

Slipknot79

2021-04-19, 22:15:50

Nein, du hast gar nix verstanden. "Diskutierst" irgendwas vorbei an dem was gemeint war.

>Und halb so viel Verbrauch... das würde ich als Eigentor werten.

Nope. Mit 150PS fährst du schneller und kommst eben weiter. Zeitersparnis null, absoluter Verbrauch "gleich". Erneut bist du eingefahren. Lass es besser, du scheiterst sowieso erneut.

basix

2021-04-20, 11:16:47

Zwei chiplets a 80CUs @ 150W TPD ist mein Tip. Dazu noch VRAM und IOD. 350W max.

Wäre auch meine momentane Einschätzung, hoffe aber auf 300W ;) Die Mittelklasse SKU mit 80CU kann man ja wie N22 höher takten und landet dann wieder bei ~180-220W.

Platos

2021-04-21, 12:48:45

Mal so ne Frage: Gibts eig. immer noch keine Infos zu Zen3 CPUs wie einem 5700(x)/5800/5600 etc. ?

AMD bietet nun seit bald einem halben Jahr rein gar nichts unterhalb von 300Euro an aus Zen3 (Listenpreis).

P.S Zen2 interessiert mich nicht ;)

Linmoum

2021-04-21, 12:59:54

Was soll AMD denn anbieten? Es ist jetzt schon alles extrem schlecht verfügbar, seien es GPUs, 5900X/5950X oder die Konsolen.

Solange wird's auch keine billig-Zen3 geben, bis sich das nicht ändert.

Edit: Ist aber irgendwie der falsche Thread dafür.

Virtual

2021-04-21, 14:31:54

Wäre auch meine momentane Einschätzung, hoffe aber auf 300W ;) Die Mittelklasse SKU mit 80CU kann man ja wie N22 höher takten und landet dann wieder bei ~180-220W.
Naja, heutzutage sind die 300W oder 350W für die TopDog Referenz-SKUs im Grunde nur eine Vorgabe hinsichtlich der Marktplatzierung und damit der Vergleichbarkeit bei Reviews. Darüber hinaus dient die Wattage als Orientierungspunkt für die nachfolgenden Custom-Versionen.
Tatsächlich bleibt es jedem selbst überlassen, wie weit man treibersetig den maximalen Boost senkt und für diesen dann die Takt-/Spannungskurve optimiert.
Das Konzept geht allerdings weniger gut auf, wenn der 300W-/350W-Betriebspunkt ab Werk bereits am Sweetspot liegt, aber selbst vom Sweetspot abwärts lässt sich die Verlustleistung noch ordentlich drücken.
200W durchschnittlich sind da sicher drin, selbst wenn die Kurve über den Treiberregler nur begrent nach unten verschiebbar ist.
Meine RX 6800 ist bei 2050 MHz max Boost durchweg mit 100W-130W unterwegs. Ob die geringe Leistungsaufnahme den verlorenen Takt wert ist, ob man sich dafür eine RX 6800 kaufen sollte (im Dez noch für 800 Steine), das kann jeder mit sich selbst ausmachen.

Ich vermute allerdings auch, selbst in TSMCs N5 Prozess werden die beiden 80CU Dies eines TopDog näher am Sweetspot betrieben werden müssen, als es mit der 6800XT/6900XT SKU nötig war.

Platos

2021-04-21, 17:19:54

Leonidas

2021-04-30, 09:23:03

RDNA3 is still on track for H1 2022
https://twitter.com/Kepler_L2/status/1387520472472973313

... erscheint mir als früher als gedacht. Setzt AMD tatsächlich RDNA3 noch vor Zen 4 an?

unl34shed

2021-04-30, 10:28:40

Müsste es dann nicht schon ein tapeout von RDNA3 gegeben haben? Vielleicht ist hier ja das tapeout on track, das würde dann mit einem Release Ende 22 passen.

amdfanuwe

2021-04-30, 11:20:51

Computex Anfang Juni war doch oft für neue GPU oft ein heißer Termin.
Und nur weil 2022 auf den Roadmaps steht, heiß es ja nicht dass damit immer das Jahresende gemeint ist ( obwohl AMD mit Vorstellungen im Dezember und Verfügbarkeit ab März im Folgejahr das auch schon ausgereizt hat )

HOT

2021-04-30, 11:39:34

Müsste es dann nicht schon ein tapeout von RDNA3 gegeben haben? Vielleicht ist hier ja das tapeout on track, das würde dann mit einem Release Ende 22 passen.
N31 hatte schon im Frühjahr 2020 Tape Out IIRC. Ich nehme an, die lange Entwicklungszeit ist auf die Chiplet-Technologie zurückzuführen, denn neben dem Compute-Chiplet benötigt man ja das I/O&Cache-Chiplet und den Interposer, welche ja zusätzlich noch entwickelt werden müssen. Es könnte sogar sein, dass man aufgrund der Tatsache, dass man offenbar einen Interposer verwendet, HBM wieder sehen könnten.
AMD scheint die Entwicklungsphase des Produktes vom Tape Out Anfang 2020 bis zum Release im Sommer 2022 eingeplant zu haben. Wenn das besser läuft als geplant hätte man sogar einen zeitlichen Spielraum um das Produkt früher zu veröffentlichen.

maximus_hertus

2021-04-30, 12:27:59

Evtl. gibt es für AMD keine andere sinnvolle Wahl, als RDNA3 vor Zen 4 zu bringen. Aktuell ist das Produkt als solches ziemlich egal, es zählt nur Verfügbarkeit.

Evtl. hat man im 1. Halbjahr (früh) Wafer @ 5nm, aber Zen 4 ist schlicht noch nicht ganz final für die Massenproduktion. Dann würde man RDNA3 in 5nm bringen und könnte die dann frei werdenden 7nm Kapazitäten für Zen3 nutzen können, gerade um dann ggf. Zen 3 nach unten abzurunden. Ein Ryzen 3600 wäre Anfang 2022 dann bald 3 JAhre auf dem MArkt und bräuchte spätestens dann eine Ablösung.

Aktuell greifen die "bekannten" Regeln nicht mehr, es geht nur noch darum, liefern zu können, also Stückzahlen. MArketing, "Psychologie" (Launchreihenfolge) etc. sind aktuell komplett egal. Ich sehe auch keinen Grund, dasss sich das in den nächsten 12 - 18 Monaten deutlich bessern sollte. Die Fertigungskapazitäten sind halt begrenzt ud die Nachfrage wird wohl so bald nicht sinken, eher im Gegenteil.

HOT

2021-04-30, 12:39:14

Och effektive Miningbremse i.V.m. neuen ASICs und deutlich mehr Chips seitens AMD dürften die Situation schon stark entspannen. Könnte höchstens sein, dass Speicher wieder knapp werden, mal sehen.

Sunrise

2021-04-30, 13:04:43

Wenn sich hinsichtlich Bandbreite und sonstiger Architektur nicht viel ändert, bzw. man weitere Tricks in der Hinterhand hat, Bandbreite nicht nur Chip-extern zur Verfügung zu stellen, ist die Minimg-Bremse schon eingebaut. Noch ein Grund mehr das Produkt schnell zu bringen.

Nightspider

2021-04-30, 13:10:04

Laut Quartalszahlen sind bei AMD knapp 18,1% mehr Güter im Produktionsprozess (Inventar) als im Quartal zuvor.
Das deutet imo schon darauf hin das AMD im 1.Quartal mehr Wafer von TSMC zugewiesen bekommen hat und diese dann wohl bald aus dem Produktionsprozess kommen und auf dem Markt landen werden.

basix

2021-04-30, 13:35:26

Leonidas

2021-04-30, 13:48:17

Müsste es dann nicht schon ein tapeout von RDNA3 gegeben haben?

Tape-Out von Navi 31 war angeblich bereits im März 2020 (selber Twitterer im übrigen)
https://www.3dcenter.org/news/hardware-und-nachrichten-links-des-26-januar-2021

Nightspider

2021-04-30, 13:57:30

Wann war das Tape-Out von Navi21?

Aber selbst wenn Navi31 Anfang 2022 schon auf den Markt kommt wären das lange 21-24 Monate vom Tape-Out.

Wie passt das zusammen? Gab es eventuell mehrere Tape-Outs und Nachbesserungen weil das Chiplet-Design so anspruchsvoll ist?

X-Bow

2021-04-30, 14:07:00

... erscheint mir als früher als gedacht. Setzt AMD tatsächlich RDNA3 noch vor Zen 4 an?

Ich denke das die beiden Entwicklungen stark parallelisiert stattfinden und sich gegentseitig nicht wirklich im Wege stehen. Wenn dann in Stabsstelle sich bei Problemen zur Seite stehen.
Eine Priorisierung der einzelnen Entwicklungabteilungen im Bezug auf den Fertigstellungstermin hallte ich eher für ausgeschlossen, sprich welches Produkt als erstes fertig wird, wird als erstes auf den Markt gebracht.

Und das AMD zeitnah auch mal mehrere Produkte gleicher Strukturgröße auf den Markt bringt haben wir letzten Herbst erlebt:wink:

Nightspider

2021-04-30, 14:26:01

... erscheint mir als früher als gedacht. Setzt AMD tatsächlich RDNA3 noch vor Zen 4 an?

Außer Zen4 erscheint auch eher als wir dachten und das wäre der Grund warum Warhol eventuell gestrichen wurde.

Ist aber natürlich Stochern im Nebel.

Gipsel

2021-04-30, 14:35:34

Außer Zen4 erscheint auch eher als wir dachtenVorstellung von Zen4 Ende des Jahres oder sehr früh 2022 ist sehr gut möglich. Bei Zen3 haben große Serverhersteller die Chips ja auch schon Monate vor dem Rest bekommen. Und Tape-Out von Zen4 ist offenbar auch schon eine Weile her.

Nightspider

2021-04-30, 14:43:01

Wieso hat man Milan dann aber erst im März offiziell vorgestellt/released ?

Gipsel

2021-04-30, 15:26:50

Wieso hat man Milan dann aber erst im März offiziell vorgestellt/released ?Verfügbarkeit. Große Cloud-Anbieter und Ähnliches konnten den schon spätestens im Dezember des Vorjahres bei AMD erwerben.

davidzo

2021-04-30, 15:33:09

Außer Zen4 erscheint auch eher als wir dachten und das wäre der Grund warum Warhol eventuell gestrichen wurde.

Ist aber natürlich Stochern im Nebel.

Ich kann mir schon vorstellen dass AMD Zen4 als Konter zu Sapphire Rapids bringen möchte und daher diesmal nicht so lange wartet.
So eine einmalige Situation wie durch den Ausfall von Cooperlake im Server und der Verzögerung von IcelakeSP, der gerade mal Zen2 Leistung erreicht, wird sich wohl nicht direkt wiederholen.

Wenn es dagegen wieder keinen Zugzwang gibt, dann wird AMD Zen4 zuerst mit den Exascale Projekten vorstellen. Die sind ja fest terminiert, da kann man nicht verschieben und haben zudem auch eine gute Halo Wirkung. Solange Zen3 aber weiterhin die leistungsmäßig führende Serverplattform ist und einfacher zu liefern, macht es auch keinen Sinn Zen4 offiziell und retailverfügbar zu launchen.

Zen4 ist vom Validierungsaufwand auch nicht zu unterschätzen, vor allem wegen PCIe Gen5 und DDR5, neuem Sockel etc. Das wird länger dauern als Zen3.

amdfanuwe

2021-04-30, 16:49:47

Bei RDNA3 führt AMD nur Advanced Node auf. Ist also nicht gesagt, dass der in 5nm kommt.
Bei ZEN4 wird explizit 5nm angegeben.
Ob RDNA3 auch schon PCIe5 mitbringt?
Wäre nicht nötig, aber wenn AM5 damit kommen soll wäre es für AMD schon sinnvoll auch entsprechende AIBs zu haben.

Zum Lagerbestand könnte ich mir auch vorstellen, dass sich da fertige Chips stapeln und auf das ABF Substrat warten, welches für den Träger benötigt wird.

Zur Vorstellungsreihenfolge: Neben den Designteams braucht es ja noch mehr Stationen für Endabnahme, Verifizierung, Verpackungen, Logistik etc.
Da war AMD anfangs noch knapp aufgestellt und es mußte eines nach dem anderen stattfinden. Könnte mir Vorstellen, dass sie die Ressourcen mittlerweile aufgestockt haben und mittlerweile durchaus auch mehrere Design gleichzeitig handeln können. Nachdem die Konsolenchips fertig sind, dürfte da auch einiges an Manpower frei geworden sein.

Ob jetzt Warhol noch kommt, Van Gogh steht auch noch offen, kann man bei den aktuellen Marktbedingungen nicht sagen. Die Halbleiterknappheit wirft da eh alle Pläne über den Haufen.
Zudem macht ein neuer Chip nur Sinn, wenn man daran mehr verdienen kann. Sei es, dass man billiger Produzieren kann oder eben Konkurrenzfähiger ist. Besteht für Warhol meiner Ansicht nach aktuell keine Notwendigkeit.

Oddzz

2021-05-01, 19:08:42

RGT im Interview mit Frank Azor von AMD:

3BkdwQCYSO8

robbitop

2021-05-02, 11:34:24

reaperrr

2021-05-02, 14:41:33

Ich hab das Interview nur überflogen (also immer reingehört und bisschen rumgespult). Aber wirkte auf mich völlig wertlos. Marketing blabla und keine echten neuen Informationen. Nicht verwunderlich wenn man einen offiziellen Executive interviewt. Potenzielle Zeitverschwendung imo.
Naja, was erwartet man.

Über noch nicht vorgestellte Produkte dürfen im Normalfall nur die ganz oberen, also Su, Papermaster und Norrod was sagen, und selbst die tun das bis zur öffentlichen Vorstellung nur selten konkreter (Norrod's damalige Aussage im Anandtech-Interview, dass Zen3 ein größerer Sprung wird und "IPC parity or better" mit ICL anpeilt ist das konkreteste, was ich seit Jahren in der Richtung im Vorfeld einer Architekturvorstellung gehört habe).

Und Produkte, die schon draußen sind, sind natürlich uninteressant, außer es wird ein größeres neues Feature vorgestellt (sowas wie Fidelity SR), was aber kaum im Rahmen von Interviews mit Marketingfuzzis zu erwarten ist.

Nightspider

2021-05-02, 15:08:33

Bei RDNA3 führt AMD nur Advanced Node auf. Ist also nicht gesagt, dass der in 5nm kommt.

6nm wäre aber schon sehr überraschend. Eigentlich macht nur 5nm Sinn.

reaperrr

2021-05-02, 15:39:32

6nm wäre aber schon sehr überraschend. Eigentlich macht nur 5nm Sinn.
Stand vielleicht zum Zeitpunkt der Roadmap-Erstellung noch nicht endgültig fest, und so oft werden die öffentlichen Roadmaps halt nicht aktualisiert.
Wäre nicht überrascht, wenn wir erst zur CES neue offizielle Infos kriegen.

Edit: Kann auch sein, dass z.B. nur N31+32 in 5nm, und N33 in 6nm kommt oder sowas (oder IO-Die in nem anderen Prozess als die Compute-Chiplets).
Unwahrscheinlich (man müsste für nur einen Chip die uArch of einen anderen Prozess portieren), aber nicht ausgeschlossen.

Nightspider

2021-05-02, 17:22:31

Gerade Navi33 würde man wegen der besseren Effizienz für Laptops in 5nm haben wollen.

basix

2021-05-03, 07:50:19

6nm wäre aber schon sehr überraschend. Eigentlich macht nur 5nm Sinn.

Ihr müsst evtl. eher in "Advanced Node(s)" denken. MCD 6nm und GCD 5nm wäre mein tipp.

Leonidas

2021-05-03, 08:41:51

Kepler_L2 legt nach:
Q2 2022 is most likely release date, but Q3 is a possibility if they need more 5nm supply.

https://www.3dcenter.org/news/hardware-und-nachrichten-links-des-12-mai-2021

Neurosphere

2021-05-03, 11:45:08

Nightspider

2021-05-03, 12:38:24

basix

2021-05-03, 14:51:43

40CUs + 20%IPC + 3,2 Ghz? :uattack4:

Why not? Eine 6900XT ist +50-60% schneller als eine 6700 XT. +25% Takt ist viel. Wurde aber bei N22 verglichen zu N10 sogar deutlich übertroffen, im selben Node. Mehr IPC? Gut möglich. Bei RDNA2 blieb es bei einem Gleichstand verglichen zu RDNA1.

Das wäre ziemlich stark, da man dann mit einem Chip mit ungefähr der Grösse eines N23 (240mm2) einen Chip mit 520mm2 (N21) ablösen würde.

Sunrise

2021-05-03, 15:05:59

40CUs + 20%IPC + 3,2 Ghz? :uattack4:

Wobei der Tweet suggeriert das auch Navi 33 (mit Fragezeichen!) 80CUs besitzt.

Aber dann hätte man auch gleich Navi31 mit nur einem Compute Chiplet nehmen können. Das sind ja auch 80 CUs.
N31 hat zwei, N33 einen... wo ist das jetzt neu?

Dass man die IPC verbessert, logisch. Der Takt ist aktuell aber fraglich, weil das sehr stark in die Verlustleistung geht.

Man muss pro Chiplet wohl in etwa die Bandbreite von N21 liefern, wenn man da nicht noch weiter optimieren konnte, also theoretisch nichtmal neuer Speicher notwendig.

Im Endeffekt wäre das, wie basix schon geschrieben hat, sehr stark, dann hätte der “Mainstream” deutlich mehr GPUs, weil die Dinger so kompakt und relativ billig zu produzieren sind. Der neue mit AMD verbesserte 5nm-Node ist sicher recht stark, wahrscheinlich besser als 7nm am Anfang, weil er in 2022 deutlich besser optimiert sein sollte.

davidzo

2021-05-03, 15:14:27

Es hatten ja schon ein paar Leaker gesagt sie seien "more exited of Navi33 than Navi31".
Könnte es nicht sein dass die Multichip Geschichte nur ein Profi/Server Dingens ist und Gaming Navi eben Navi33 ist? Für Frontier und Co wäre ein active Bridge Layout mit integriertem SRAM geradezu perfekt um die Anzahl der GPUs zu skalieren.

Linmoum

2021-05-03, 15:22:45

N31 hat zwei, N33 einen... wo ist das jetzt neu?Chiplets sollen laut bisheriger Gerüchte aber nur N31/N32 haben, N33 soll klassisch monolithisch sein.

Nightspider

2021-05-03, 15:26:57

N31 hat zwei, N33 einen...?

einen was? Käsekuchen?

Wie Linmoum es bereits sagte ist N33 ein monolithischer Chip.

Dass man die IPC verbessert, logisch.

So logisch nun auch nicht, da RDNA1 und RDNA2 die gleiche IPC haben.

Könnte es nicht sein dass die Multichip Geschichte nur ein Profi/Server Dingens ist und Gaming Navi eben Navi33 ist?

Für Server ist doch CDNA und bald CDNA2.

AffenJack

2021-05-03, 17:34:57

https://mobile.twitter.com/KittyYYuko?ref_src=twsrc%5Etfw%7Ctwcamp%5Etweetembed%7Ctwterm%5E1388904408394571 784%7Ctwgr%5E%7Ctwcon%5Es1_&ref_url=https%3A%2F%2Fd-1420795000772598566.ampproject.net%2F2104170104001%2Fframe.html

Navi 33 so schnell wie Navi 21...

Und jetzt sind 2,5x Leistungssteigerung schon zu wenig, es werden noch mehr;D:

https://mobile.twitter.com/KittyYYuko/status/1388911288332414979

Ich hab das Gefühl bei AMD lachen sich gerade einige Leute ins Fäußtchen, weil man hart trollt und guckt, was für Leaks nach außen gehen.

Alternative Möglichkeit wäre RT Performance oder Steigerung der FP32, wie Nvidia bei Ampere. Aber real wird solche Steigerung bestimmt nicht geben.

HOT

2021-05-03, 17:40:21

3x wäre rein theoretisch. Es gäbe ja schlichtweg keine CPU, mit der das nicht ins Limit laufen würde sowas. Bei Doom Eternal könnte man näher ans Maximum kommen, aber die allermeisten Games sind zu stark CPU-Limitiert.
AMD wollte sich ja bei RDNA3 auf RT konzentrieren, ich denke, wir werden hier einen gewaltigen Satz sehen. Eines ist klar, bei 160CUs wäre das Produkt bei UHD eigentlich immer schnell genug bei Rasterizing, da gibts dann kein großartiges Limit mehr, auch bei künftigen Games. RT ist die eigentlich spannende Frage und hier sind wir auch bei 2,5x+. Das wäre zwar mehr als ne 3090, aber nicht so viel mehr.

Neurosphere

2021-05-03, 17:55:07

HOT

2021-05-03, 18:00:49

Es ist absehbar, dass die reine Rasterizing-Leistung in Zukunft keine tragende Rolle bei Benchmarks mehr spielen wird, weil RT schlichtweg mehr limitiert und nach und nach ganz einfach Teil der Rasterizer-Spiele wird. Wie die Gesamtkombination läuft wird entscheidend sein.

davidzo

2021-05-03, 19:16:30

Zumal es Wirtschaftlich auch dumm wäre sowas zu bringen. 1,5 mal so schnell reicht doch, sollange NV auch nix schnelleres raushaut. Einzig RT muss halt deutlich ansteigen um gleich zu ziehen.

Dann kann man eher reagieren und hat bei einem Konter von NV schon was im Petto.

Naja, wieso wirtschaftlich dumm wenn man Karten für ± 2K verkaufen kann und Nvidias Ampere 3080 auf unter 500€ drückt? Das bringt Marge und Marktanteile.

Es ist absehbar, dass die reine Rasterizing-Leistung in Zukunft keine tragende Rolle bei Benchmarks mehr spielen wird, weil RT schlichtweg mehr limitiert und nach und nach ganz einfach Teil der Rasterizer-Spiele wird. Wie die Gesamtkombination läuft wird entscheidend sein.

Naja, für 4K HDR10+ 120hz ist noch Luft nach oben.

HOT

2021-05-03, 19:18:08

davidzo

2021-05-03, 19:44:35

Die verkaufen Karten zum Einkaufspreis, der sich an der UVP orientiert, nicht für 2k. Die Differenz geht zu einem kleinen Teil an die Kartenhersteller und zum Löwenanteil an die Händler. Und für 4k wird >2x Leistung zu jetzt genug Leistung für 120Hz bringen.

Eine 6800xt hat ne UVP von 649$ und ca. 3080 Leistung. Wieso sollte AMD eine dreimal so schnelle Karte nicht zur UVP von 1999$ launchen solange Nvidia keine neue Architektur bringt die damit konkurrieren kann?
Wenn schon Navi33 schneller wird als Navi21, dann wird die Karte auch minimal dieselbe UVP haben. Mangels Konkurrenz wird man das nicht in irgendwelche alten Preiskategorien einsortieren, sondern den Preis nehmen den der Markt UVP-wise erlaubt.

Sunrise

2021-05-03, 19:54:08

Wie Linmoum es bereits sagte ist N33 ein monolithischer Chip.

Dass N33 monolitisch sein soll, ist mir tatsächlich neu. Dennoch waren doch die ganze Zeit schon 80 CUs bekannt, 160 CUs für den großen Brocken. Und das wird man kaum monolitisch bauen, das wäre dann doch zuviel Käsekuchen.

HOT

2021-05-03, 22:16:15

Das ist aber plausibel. Man macht Chiplets für N31 und N32 (wobei nicht bekannt ist, wie das genau aussieht, nur dass es eben 2x 80CUs geben soll) und N33 wird eben irgendwie 40+CUs haben, was ein Chip mit ca. ~200mm² ergeben dürfte. Erst RDNA4 soll konsequent Chiplets sein.

davidzo
du musst die Preissetzung auch so eingehen, wie der Markt das akzeptiert. Klar kann das 2k kosten, wir werden sehen. Momenten ist das aber auch bei NV nicht der Fall, die UVP der 3090 ist "nur" 1500€ und das ist das schnellste Produkt. Ich kann mir nicht vorstellen, dass AMD darüber geht, selbst wenn die N31 schneller sein sollte.

In Zeiten von Chipknappheit und Inflation ist natürlich eine solche Diskussion sowiso müßig.

basix

2021-05-03, 23:12:21

Wenn schon Navi33 schneller wird als Navi21, dann wird die Karte auch minimal dieselbe UVP haben. Mangels Konkurrenz wird man das nicht in irgendwelche alten Preiskategorien einsortieren, sondern den Preis nehmen den der Markt UVP-wise erlaubt.

Das wird nicht passieren. AMD braucht folgendes: Marktanteile und Mindshare. Da sind attraktive Produkte das A und O.

Auch wenn N21 leistungsmässig erreicht wird, wird die Karte deutlich günstiger als alle N21 Derivate. Vermutlich auch günstiger als N22. N33 hat vermutlich 12 GByte Speicher. Bis dessen Release wird GDDR6 vermutlich günstiger, geringere TDP drückt die Kosten (Kühler, PCB, Elektronik) und mit höheren Stückzahlen werden die NRE pro verkauften Chip verringert. Der Chip selber wird aufgrund der geringen Fläche auch günstiger als N22. Kommt das Ding für 399..449$ verdient AMD immer noch sehr viel daran. Man muss immer daran denken: N33 ist der kleinste Chip der Familie. 399$ sind eigentlich recht viel dafür. Oben raus mit N31 und N32 hat man noch zwei grosse Stufen überhalb. Evtl. geht N32 bis 749$. Und N31 bis 1199$ oder als "Fury" für 1499$ und 32 GByte Speicher. Im Endeffekt hat AMD sowieso höhere Margen als heute, vor allem da N31/32 in der Herstellung relativ kostengünstig sein sollten.

X-Bow

2021-05-04, 10:12:25

Zumal es Wirtschaftlich auch dumm wäre sowas zu bringen. 1,5 mal so schnell reicht doch, so lange NV auch nix schnelleres raushaut. Einzig RT muss halt deutlich ansteigen um gleich zu ziehen.

Dann kann man eher reagieren und hat bei einem Konter von NV schon was im Petto.

Wirtschaftliche "dumm" ist es nicht immer alles zu geben. Etwas in petto zu halten macht in der Branche das Produkt mit jeder verstrichenen Zeit unattraktiver. Wenn Du in der Wirtschaft die Chance hast durch technologische Führung deine Konkurrenz zu überrennen, dann tut man das.

Wirtschaft ist kein Quartett-Kartenspiel bei der man sich den Super-Trumpf aufhebt um am Schluss "Ätsch" zu sagen.

Das ist btw auch genau der Grund warum von Anfang an klar war das Intel 2017 keine Schublade öffnen kann.

Sunrise

2021-05-04, 10:29:40

Lisa macht nicht den Eindruck, als würde sie etwas zurückhalten. Das ist IMHO auch Blödsinn, denn es ist vollkommen normal, dass technologisch und entwicklungstechnisch jedes zu seiner Zeit kommt und nicht vorher. Das ist oft einfach nur ein Anpassen an bestimmte, festgelegte Standards. Wenn z.B. die PCI-Sig oder wie auch immer (DDRx, GDDRx usw.) nicht verabschiedet, wird weder AMD noch Intel diese Produkte an den Markt bringen. Man bringt genau das, was zum Zeitpunkt X fertig ist und gebaut werden kann, es muss immer - bei allen Entscheidungen - Deadlines geben, sonst hat man nie ein Produkt am Markt.

Wenn AMD - genau wie bei Zen - einen Schalter umlegt und sie auf der Basis von RDNA2 deutlich mehr in RDNA3 investiert hatten (R&D geht stetig nach oben), ist eigentlich schon ganz klar wohin die Reise geht, vor allem wenn jetzt sogar Chiplets aufgrund der Komplexität/Größe und Yield quasi fest sind. Wenn AMD die potentiellen Flaschenhälse abmildert (Cache) und weitere Optimierungen an Bandbreitenbedarf usw. einführen kann, kommt noch der Prozess hinzu und ihre Erfahrung bei 7nm.

Mal fernab vom Hype, den RGT neuerdings ja immer anheizt (da braucht jemand echt dringend Sex), hat RDNA3 sicher einen ähnlichen Stellenwert wie Zen 2.

Niemand hätte auch nur ansatzweise gedacht, dass AMD mit einem 256bit SI beim Top Dog auskommt, das gab es schlichtweg vorher nicht (Pascal a la GP104 zählte für mich nicht als High-End, weil es klar war, dass etwa 300mm2 viel Luft nach oben lassen). Sie denken also auch deutlich weiter, und wissen, wie man bereits entwickelte Technologie weiter stark optimieren kann.

basix

2021-05-04, 10:40:33

Und jetzt sind 2,5x Leistungssteigerung schon zu wenig, es werden noch mehr;D:

https://mobile.twitter.com/KittyYYuko/status/1388911288332414979

80 CUs für N33 halte ich für BS, wenn N31/32 aus 80 CU Chiplets bestehen. Macht einfach keinen Sinn.

40-56 CUs hören sich realistischer an. Am ehesten 40-48 CUs und die kleinste N32 SKU kommt mit 60-64 CUs. Das macht mehr Sinn aus Sicht SKU Abstufung und Salvaging.

Meine CU Erwartung:

N33: 36, 40 CUs --> 6600, 6600XT
N32: 60, 72, 80 CUs --> 6700, 6700XT, 6700XTX
N31: 120, 144, 160 CUs --> 7800, 7800XT, 7900XT

N32 und N33 werden wahrscheinlich sehr hoch takten. N31 naturgemäss etwas niedriger, damit eine nicht zu grosse Lücke entsteht und wegen der TDP. Und mit 60 CUs kann man wie bei N21 ein ganzes Shader Array deaktivieren, um den maximalen Yield zu erhalten. Besonders weil N5 teuer ist und man vermutlich jeden Chip an den Mann bringen kann (siehe aktuelle Lage), ist Yield besonders wichtig.

X-Bow

2021-05-04, 11:38:40

80 CUs für N33 halte ich für BS, wenn N31/32 aus 80 CU Chiplets bestehen. Macht einfach keinen Sinn.

Ich halte es durchaus für Möglich das AMD Chiplets mit 80CUs und ein N33 mit 80CUs plant. Die Chiplets sind werden die erste Interation sein Chiplets in dezidierten Grafikkarten unter zu bringen. Ich kann mir hier Grafikkarten dann von 1 bis 4 Chiplets gut vorstellen um den gesammte Consumerbereich abzudecken.

N33 muss ja keine dezidierte Grafikkarte sein, sondern kann seinen Weg unter den Heatspreader CPU finden als erste interation von CPUs mit modularer Grafikpower bis zu Highend.

HOT

2021-05-04, 12:39:33

Es sieht eher so aus, als wäre N31 das Compute Die und N32 die Ergänzung dazu. Also 2 N31 + N32. Man wird das auch mMn mit HBM paaren, GDDR ist hier denke ich nicht mehr vorgesehen, weil man eh auf Interposer setzen muss.
Ich tippe darauf, dass N31 in N5 kommt und N32 dann in N6. Der InfinityCache dürfte dann in N32 beheimatet sein und 2 8 bis 12GB eher langsame Stapel HBM (maximal 2,4GHz mMn) dürften dazu gut passen. Das passt auch super zur Geometrie des Packages.
N33 wird mMn 48-56 CUs mit Tendenz zu 48 CUs mitbringen, die Takte steigen mMn in Richtung 3 GHz. Das Ganze wird dann 96-128MB I$ + 192-256Bit GDDR6 bekommen mMn.

AffenJack

2021-05-04, 14:22:04

80 CUs für N33 halte ich für BS, wenn N31/32 aus 80 CU Chiplets bestehen. Macht einfach keinen Sinn.

40-56 CUs hören sich realistischer an. Am ehesten 40-48 CUs und die kleinste N32 SKU kommt mit 60-64 CUs. Das macht mehr Sinn aus Sicht SKU Abstufung und Salvaging.

Seh ich ja genauso. Das macht genauso, wie angeblichen Leistungssprünge einfach keinen Sinn. AMD hat auch nicht umsonst von ähnliche Effizienzssprünge wie RDNA1 zu RDNA2 angedeutet.

Die einzige sinnvolle Erklärung, damit das nicht alles BS ist, wäre eine Verdopplung der FP32 Units wie bei Ampere. Dann wären es eben 40 CUs mit soviel FP32 wie 80 CUs und theorethische Leistungssteigerungen, die zu RGTs Behauptungen passen.

Sunrise

2021-05-04, 17:56:59

...Die einzige sinnvolle Erklärung, damit das nicht alles BS ist, wäre eine Verdopplung der FP32 Units wie bei Ampere. Dann wären es eben 40 CUs mit soviel FP32 wie 80 CUs und theorethische Leistungssteigerungen, die zu RGTs Behauptungen passen.
Vergiss Raytracing nicht, um da aufzuholen müssen entweder dedizierte Einheiten her, deutlich mehr CUs oder einfach viel viel mehr Takt. Was davon jetzt wahrscheinlicher ist, kann sich jeder ausrechnen. Eventuell auch eine Kombi, aber AMD will ja wieder min. 50% Effizienzsteigerung, da ist Takt IMHO nur bei den kompakteren Varianten denkbar, aber weiter oben, wirft man lieber mit Einheiten um sich.

basix

2021-05-04, 22:09:58

Die einzige sinnvolle Erklärung, damit das nicht alles BS ist, wäre eine Verdopplung der FP32 Units wie bei Ampere. Dann wären es eben 40 CUs mit soviel FP32 wie 80 CUs und theorethische Leistungssteigerungen, die zu RGTs Behauptungen passen.

Wäre denkbar.

80 CU Chiplets und daneben 80 CU N33 macht deswegen aber immer noch keinen Sinn. Ausser die 2x 80 CU hätten dann noch 2x FP32 oben drauf, quasi als "Full Overkill 5 JiggaHertz Edition" ;D

stinki

2021-05-06, 18:10:20

@basix
Für mich machen 2x80CU Chiplets (2*N31+1*N32) und 80CU N33 schon Sinn, wenn N33 billiger als 1*N31+1*N32 ist (ich glaube auch, dass N32 der Memory Chip / IO Die ist).
Mit 2*N31+1*N32 deckt man alles über 80CUs ab, wie du oben selbst geschrieben hast
N31: 120, 144, 160 CUs --> 7800, 7800XT, 7900XT
und N33 nimmt man dann für alles bis 80CUs
N33: 60, 72, 80 CUs --> 7700, 7700XT, 7700XTX

basix

2021-05-06, 18:35:06

Wenn N33 günstiger ist ja. Dann sind Chiplets aber irgendwie sinnfrei. Wie schon andernorts angesprochen, machen Chiplets am meisten Sinn um zu skalieren. Wie bei Zen 2/3 auch meherere CCDs verwendet werden.

Die Basis Version mit 1x MCD und 1x GCD sollte preislich nicht teurer sein als ein monolithisches Design. Fläche ist nur geringfügig grösser. Yield ist aber deutlich besser und beim MCD kann man den günstigeren Prozess verwenden. Dass monolithisch günstiger ist, halte ich aus diesen Gründen nicht für realistisch. Deswegen machen 80 CU für mich keinen Sinn.
Gibt bei Zen entsprechende Folien von AMD dazu. Und sogar bei den relativ geringen Chipflächen der CPUs lohnt es sich (8C CPU + IOD): https://www.pcgameshardware.de/CPU-CPU-154106/News/AMD-rechnet-massive-Kostenersparnis-bei-Chiplet-Design-vor-1344324/

stinki

2021-05-06, 18:40:52

N31 braucht man halt für alles größer 80CUs, weil für die Anzahl an CUs die Chiplet-Variante mit zwei kleinen Compute-Chips und einem IO-Chip günstiger als ein monolithischer Chip mit 160 CUs ist.
Die Grenze wird denke ich durch die Chip-Größe und durch den möglichen Yield vorgegeben. Bis zu einer gewissen Größe in einem Prozess ist monolithisch günstiger und ab einer bestimmten Größe Chiplets.

Zudem benutzt N33 vielleicht GDDR6 Speicher und das MCD HBM Speicher und deshalb möchte man den MCD nicht bei kleineren günstigeren Karten benutzen.

Und die genauen Produktionskosten von einem Ryzen 5800x im Vergleich zu einem 5700G würden mich schon mal interessieren.

amdfanuwe

2021-05-06, 19:41:24

Und sogar bei den relativ geringen Chipflächen der CPUs lohnt es sich (8C CPU + IOD): https://www.pcgameshardware.de/CPU-CPU-154106/News/AMD-rechnet-massive-Kostenersparnis-bei-Chiplet-Design-vor-1344324/

Die Grenze wird denke ich durch die Chip-Größe und durch den möglichen Yield vorgegeben. Bis zu einer gewissen Größe in einem Prozess ist monolithisch günstiger und ab einer bestimmten Größe Chiplets.

Der Vorteil ist bei 8 Core nicht mehr so immens und vergleicht mit einen funktionsgleichen Chip in monolithisch.
Kann man nun bei 8 Core Cache sparen, eine bessere Latenz in monolithisch erreichen, andere Funktionsblöcke weglassen bzw. hinzufügen die für eine bestimmte Zielgruppe wichtig ist, rechnet sich das schon anders.
Letztendlich ist ein Chip immer ein Kompromiss und wenn das Logikdesign steht muß man entscheiden welche Vor- und Nachteile und Preise der Fertigungsvarianten akzeptabel sind.

LivingAudio

2021-05-06, 21:46:20

Die Chiplets ermöglichen einfach große Chips wirtschaftlich herzustellen wegen der yield. Das ist meiner Meinung nach die Zukunft auch im GPU-Bereich. Dann kann man viel Entwicklungsressourcen in ein Chipslet + in den einen i/oDie investieren.

Am Ende bringt man dann ein oder zwei hochoptimierte Chipslets. Verwertet die teildefekten bzw. nicht optimale Chiplets. Oder nimmt gar drei oder vier perfekte Chiplets auf eine Karte. Das ganze dann mit den üblichen Verkaufsnamen :cool:.

Die vielen extra Chips, Masken und und und fallen langsam alle weg. Bündelt allso die R&D auf einen höheren Wirkungsgrad, weil konzentrierter auf weniger Produkte.

Bin jedenfalls gespannt wie das im Detail bei GPUs gelöst werden kann und ob das jetzt wirklich bald kommt von AMD.

Zossel

2021-05-06, 23:51:55

Der Vorteil ist bei 8 Core nicht mehr so immens und vergleicht mit einen funktionsgleichen Chip in monolithisch.

Mischkakulation!

Und AMD hat keine Altlasten in Form von Ringbus oder Mesh.
Und die ganzen Zocker testen und tunen auch freiwillig und für lau die CPU-Dies bevor die in die Server gehen.

Leonidas

2021-05-30, 15:14:28

Voller Schwung neuer Navi 31 & Navi 32 Gerüchte:
https://www.3dcenter.org/news/geruechtekueche-navi-31-navi-32-im-chiplet-design-unter-56nm-jedoch-nicht-vor-dem-dritten-quart

Lehdro

2021-05-30, 16:29:37

Und die ganzen Zocker testen und tunen auch freiwillig und für lau die CPU-Dies bevor die in die Server gehen.
So ein Quatsch. Zen 3 ging teilweise vorher in Server als in die Desktops, mal ganz davon ab dass Fehlerbehebung in dem Zeitrahmen dann eh absurd wäre. Nur weil es nicht offiziell released war, heißt das noch lange nicht dass die Hardware nicht verbaut wird - gerade bei Servern.

Nightspider

2021-05-31, 01:47:26

Ich schätze mal Navi31 und Navi32 nutzen das gleiche Multi Cache Die.

Navi31 80 CUs
Navi32 52-60 CUs

Navi32 würde dank gleichem MCD auf Grund weniger CUs noch weniger im Bandbreitenlimit pro CU sein und könnte dank weniger CUs etwas höher takten, analog zur 6700xt. Da würde man selbst mit 2*52 CUs noch jede Menge Leistung herausholen.

Navi33 bekommt zwar viele CUs mit 80 Einheiten aber bekommt deutlich weniger Cache, analog zu Navi23. Denn in 5nm ist Cache "teurer" als CUs. Navi33 könnte nur bis 1440p optimal sein. Der Chip wird dann aber dank kleinerem Cache nicht so riesig und könnte bei Navi22 Größe landen.

Wie steht eigentlich die Chance das HBM Chips auf dem MCD gestacked sind?
Weil HBM effizienter ist würde das die Energieverteilung etwas zugunsten der Compute Core Dies verschieben.

Cyberfries

2021-06-01, 08:32:52

Zur Frage, wie das Portfolio aussehen könnte, wenn sowohl N31 als auch N32 Chiplet-Designs sind,
gibt es noch weitere denkbare Optionen. Im April (https://www.forum-3dcenter.org/vbulletin/showthread.php?t=601680&page=19) wurde eine Patentschrift zu einem Brücken-Cache-Die diskutiert.
Dabei enthält nur ein Master-Die das Speicherinterface, die übrigen GCD als Slaves nicht.

Nirgendwo steht geschrieben, dass die Slaves gleich groß wie der Master sein müssen.
N31 könnte also bei 80+40+40 und N32 bei 80+40 CUs landen, Unterscheidung also durch unterschiedlich viele Slave-GCDs.

Oder aber, N33 ist eine Zweitverwendung des N31-Master-GCD und N34 von N32.
N31 wäre also N33+Slave (80+80) und N32 wäre N34+Slave (48+80).
Das bedingt natürlich ein ausreichend großes SI bei N33/34, was eine gewisse Flächenverschwendung darstellt.

Natürlich sind auch andere Varianten möglich, das genannte Patent muss nicht umgesetzt werden.
Eine Variante mit nur einem GCD würde ich jedoch nicht erwarten.

Die heutige Vorstellung von Zen3 mit Stapel-Cache bietet auch eine interessante Perspektive für RDNA.
Wenn N33 mit TSVs für einen Cache-Stapel ausgestattet ist, könnten diese bei N31 zur Kommunikation mit dem Brücken-Die dienen.

LasterCluster

2021-06-01, 13:47:18

basix

2021-06-01, 16:39:12

Die kleinen 40 CU Chips sollten dann aber auch einen stacked SRAM haben. Der Witz am ganzen IF$ ist es ja, off-chip Bandbreite zu sparen. Also 2x 40CU mit je 64MB, 80CU mit 2x 64MB. Die total 256MB IF$ gehen ebenfalls gut mit 160CU.

Ich denke aber nach wie vor, dass 2x 80CU und 6/7nm MCD wahrscheinlicher ist u d N33 mit 40CUs daherkommt.

HOT

2021-06-01, 16:54:22

Ich glaube dass wir es mit einem 80CU und einem 60CU-Produkt zu tun haben.
Ein 7900(XT) mit 2x 80 bzw. 72 CUs, mehr salvage wird sich bei den kleinen Chiplets schlichtweg nicht lohnen, und beim 7800(XT) dann 2x 60 bzw. 56CUs.
Ich denke nicht, dass es Chiplet-Grafikkarten mit nur einem Chiplet überhaupt gibt.

Also

7900XTX -> 160CUs mit 16GB HBM2E (3,2GT) (N31)
7900XT -> 144CUs mit 16GB HBM2E (3,2GT) (N31)
7900 -> 120CUs mit 16GB HBM2 (2,4GT) (N32)
7800XT -> 112CUs mit 16GB HBM2 (2,4GT) (N32)
7800 -> 96CUs mit 16GB HBM2 (2,4@2,0GT) (N31/32 stark Salvage)
7700XT -> 80CUs mit 12GB GDDR6 16GT (N33)
7700 -> 64CUs mit 12GB GDDR6 16GT(N33)
7600XT -> 40CUs mit 12GB GDDR6 (N22 Refresh in N6)

oder so ähnlich

Ph0b0ss

2021-06-01, 17:45:22

Navi 21 schafft ja so 62% Hitrate im 128MB IF$ bei 4K. Mit z.B. 384MB IF$ dürfte die Hitrate doch locker bei 80% oder mehr liegen und den Speicherbandbreitenbedarf nochmal sehr stark reduzieren? GDDR6 mit 256bit könnte also daher vielleicht immer noch reichen?

2x GCD (jeweils 80CUs bei ~150mm²)
1x MCD (mit 384MB IF$ bei ~300mm²)
16GB GDDR6, 16Gbps, 256bit, 512GB/s (optional 32GB für das Flaggschiff)

So wären die Herstellungskosten wohl etwa im Bereich einer 6900XT und es könnte sofort in hohen Stückzahlen hergestellt werden.

Platos

2021-06-01, 17:45:28

HOT

2021-06-01, 17:48:17

Sieht ja nicht schlecht aus, aber ich bezweifle, dass man bei zwei 60CU Chiplets je 12 davon deaktiviert für eine 7800. Ich würde das jetzt einfach auslassen und direkt auf 80 springen.

Die Sprünge sind ja in dieser Generation manchmal auch etwas seltsam.
Irgend ein Produkt für die Resteverwertung wird man schon bringen, da bietet sich die 7800 einfach an, wie jetzt eben auch. Das kann ja auch Resteverwertung für beide Chiplets werden.

Platos

2021-06-01, 18:23:06

Ja, beide Chiplets ergäben dann ja 24 deaktivierte CUs bei 120 CU. Das wären schon ziemlich viel (20%).

Wenn man sich mal TSMCs 5nm vs 7nm anschaut, dann wäre eine 60CU GPU bei AMD in 5nm 214.5mm2 (heruntergerechnet von den 80 CUs der 6900XT). Zumindest in der Theorie. Wie die Flächenreduktion dann in der Praxis aussieht, sehen wir dann.

AlterSack

2021-06-01, 21:25:26

Cyberfries

2021-06-02, 08:42:32

Ein Tweet (https://twitter.com/Kepler_L2/status/1399698209849720835), der neue Fragen aufwirft:
256/512?

Navi31 bus/IC

4-Hi 32MB SRAM in each MCD = 128MB
4 MCDs total = 512MB

Ein unverändert 256bit großes SI in Verbindung mit gleich 512mb Infinity Cache bei N31 ist nicht gänzlich unerwartet.
Doch die Aufteilung auf gleich 4 MCDs? Passt nicht zur Theorie von 2 GCD, verbunden durch eine MCD-Brücke.

Option 1: 4GCD (angeordnet wie Epyc 1), verbunden durch 4MCD-Brücken, ergibt quasi einen Ring.
4x80CU sind sehr unwahrscheinlich, allerhöchstens 4x48-60CU.
Problematisch sind die Anknüpfungspunkte der MCD-Brücken und die Skalierung bei N32 (nur 1 MCD)

Option 2: 3GCD, verknüpft durch je 2MCD. Ergäbe für N32 2GCD und 2MCD.
Auch an der Stelle erscheinen mir 3x60, bzw. 2x60 als sinnvoller. Fraglich ist dann aber immer noch das SI.
Alternativ wäre auch da wieder wie zuvor skizziert Master/Slave möglich mit unterschiedlich großen Die.

Kann natürlich auch sein, dass es ganz anders kommt oder dass der Twitterer falsch liegt.
Oder dass es gar keine Brücken geben wird. Oder es nicht nur GCD und MCD sondern auch IOD gibt.
Oder...

edit: mögliche Konfigurationen, reines Gedankenspiel.
Name|Option 1|$|Option 2|$|Opt2 Master/Slave|$
7900|192CU (4x48)|256b/512mb|180CU (3x60)|256b/512mb|160CU (80+2x40)|256b/512mb
7800|96CU (2x48)|256b/128mb|120CU (2x60)|256b/256mb|120CU (80+40)|256b/256mb
7700|80CU|192b/96mb|80CU|192b/96mb|80CU|192b/96mb

amdfanuwe

2021-06-02, 09:31:12

Gabs nicht ein Patent, welches Option 1 beschrieb?
AMD vorherzudagen ist momentan wie Lotto spielen. Sie haben viele Möglichkeiten ihre Komponenten miteinander zu vereinen.
Da die richtige Möglichkeit für den nächsten Chip ohne Kenntnis der Preise, Anforderungen, genauen Produktionsverhältnisse seitens Kosten und Aufwand etc. zu kennen -> Lotto
AMD wird weiterhin überraschen und für sie optimale Lösungen finden die das Machbare ausreizen.

basix

2021-06-02, 10:35:15

Ein Tweet (https://twitter.com/Kepler_L2/status/1399698209849720835), der neue Fragen aufwirft:

Ein unverändert 256bit großes SI in Verbindung mit gleich 512mb Infinity Cache bei N31 ist nicht gänzlich unerwartet.
Doch die Aufteilung auf gleich 4 MCDs? Passt nicht zur Theorie von 2 GCD, verbunden durch eine MCD-Brücke.

Option 1: ...

Option 2: ...

Kann natürlich auch sein, dass es ganz anders kommt oder dass der Twitterer falsch liegt.
Oder dass es gar keine Brücken geben wird. Oder es nicht nur GCD und MCD sondern auch IOD gibt.
Oder...

Mit dem Epyc 1 MCM Ansatz handelst du dir aber Probleme ein. Wo ist dann der Speichercontroller? Wo die Video Engine und PCIe? Dies auf einem separaten Die zu sammeln macht am meisten Sinn (siehe Ryzen und EPYC)

Edit:
Ich habe das mal aufgezeichnet. Beim GCD + MCD Ansatz inkl. gestapeltem Infinity Cache gibt es noch vier Subvarianten.

Abgesetzter IF$ aber "monolithisch" für die Chiplets
Einzelne IF$ Stacks pro GCD. Die wahrscheinlichste Ausführungsform, da am skalierbarsten, einfachsten und von der Technologie her gleich wie beim gezeigten Zen 3 Prototypen
Technisch performanteste Lösung aber eher unwahrscheinlich (komplex, Symmetrie der GCDs?)
Technisch zweit-performanteste Lösung. Vermutlich fast keine Nachteile bei der Energieffizienz zu monolithisch (weitere Datenleitungen kann man auch über den Cache Die ziehen, man muss nicht übers substrat). Skalierbarkeit gleich gut wie bei Lösung 2, technologisch aber anspruchsvoller, da man über zwei verschiedene Die kontaktieren muss und somit nochmals komplexer. Das geht dann auch nicht mehr mit Die-on-Wafer oder wie auch immer TSMCs Technologie dazu heisst.

4x 32MB macht zudem auch Sinn verglichen mit 2x 64MB, da man damit weniger Hotspots des GCD abdeckt.

Bei Varianten ohne separates MCD ist die Skalierbarkeit zwar gegeben, aber mit Nachteilen behaftet (z.B V-Cache Stackhöhe müsste variieren) und es stellt sich die Frage, wo z.B. das Speicherinterface, PCIe, VCN usw. untergebracht werden. Das wird man höchstens einmal pro GPU haben wollen.

Brillus

2021-06-02, 11:21:43

Mit dem Epyc 1 MCM Ansatz handelst du dir aber Probleme ein. Wo ist dann der Speichercontroller? Wo die Video Engine und PCIe? Dies auf einem separaten Die zu sammeln macht am meisten Sinn (siehe Ryzen und EPYC)

Edit:
Ich habe das mal aufgezeichnet. Beim GCD + MCD Ansatz inkl. gestapeltem Infinity Cache gibt es noch vier Subvarianten.

Abgesetzter IF$ aber "monolithisch" für die Chiplets
Einzelne IF$ Stacks pro GCD. Die wahrscheinlichste Ausführungsform, da am skalierbarsten, einfachsten und von der Technologie her gleich wie beim gezeigten Zen 3 Prototypen
Technisch performanteste Lösung aber eher unwahrscheinlich (komplex, Symmetrie der GCDs?)
Technisch zweit-performanteste Lösung. Vermutlich fast keine Nachteile bei der Energieffizienz zu monolithisch (weitere Datenleitungen kann man auch über den Cache Die ziehen, man muss nicht übers substrat). Skalierbarkeit gleich gut wie bei Lösung 2, technologisch aber anspruchsvoller, da man über zwei verschiedene Die kontaktieren muss und somit nochmals komplexer. Das geht dann auch nicht mehr mit Die-on-Wafer oder wie auch immer TSMCs Technologie dazu heisst.

4x 32MB macht zudem auch Sinn verglichen mit 2x 64MB, da man damit weniger Hotspots des GCD abdeckt.

Bei Varianten ohne separates MCD ist die Skalierbarkeit zwar gegeben, aber mit Nachteilen behaftet (z.B V-Cache Stackhöhe müsste variieren) und es stellt sich die Frage, wo z.B. das Speicherinterface, PCIe, VCN usw. untergebracht werden. Das wird man höchstens einmal pro GPU haben wollen.

Was sind jetzt deine Variante 3 und 4?

amdfanuwe

2021-06-02, 12:29:16

Habs gefunden
https://www.forum-3dcenter.org/vbulletin/attachment.php?attachmentid=75545&d=1622629576
https://www.freepatentsonline.com/20200409859.pdf
Im Patent mit passiver Crossbar.

basix

2021-06-02, 12:33:11

Was sind jetzt deine Variante 3 und 4?
1-4 sind in den ersten zwei Grafiken nummeriert ;)

Die dritte + vierte Grafik habe ich einfach vollständigkeitshalber eingefügt (siehe vorherigen Post von amdfanuwe). Dazu gibt es noch ein zweites Patent (die vierte Grafik) welche die Memory-Die so über die Chiplets legt (siehe vorigen Post von Cyberfries). Diese zwei Varianten sind meines Erachtens für Gaming GPUs nicht geeignet. Für HPC eher, aber auch dort stellt sich die Frage, wo und wie die I/O Funktionsblöcke implementiert werden. Eine Lösung wäre, dass es das Produkt immer nur mit der maximalen Anzahl an Chiplets herstellt. Das geht bei HPC. Bei Consumer-Produkten will man das eher nicht.

amdfanuwe

2021-06-02, 12:57:02

es stellt sich die Frage, wo z.B. das Speicherinterface, PCIe, VCN usw. untergebracht werden. Das wird man höchstens einmal pro GPU haben wollen.
Die Frage stell ich mir auch immer.
Ich denke aber, das kommt später.
Erstmal geht AMD die Sache langsam an mit einem Produkt das sie auch verkaufen können mit kleinen Erweiterungen für Experimente.
ZEN1 mit den IF Links für EPYC. Funktionierte auch erst mit den B2 Dies während sich im Desktop der Einzelchip schon verkaufen ließ.
ZEN2, die Komponenten (IF Link und das Zusammenspiel derselben) sind getestet, anderer Aufbau des ganzen.
ZEN3 vorbereitet für stacked Cache, funktioniert bei neuen B2 Dies.
ZEN4 optimale Nutzung der stacked Option und weitere Aufteilung der Chiplets
RDNA1 gabs neue Architektur
RDNA2 Infinity Cache
RDNA3 entspricht ZEN1 Phase, vorbereitet für MCM
RDNA4 optimale diversifizierung der Chiplets (Speicherinterface, PCIe, VCN...)

AMD hat langfristige Pläne und arbeitet sich Stück für Stück voran.
Letztendlich läuft es immer noch in die Richtung Exascale wie sie es schon 2016 kundgetan haben und dafür damals belächelt wurden.
https://coreteks.tech/articles/wp-content/uploads/2020/01/amdExascale2016-1024x576.jpg
https://coreteks.tech/articles/index.php/2020/01/24/amd-master-plan-achieving-exascale-through-heterogeneous-computing/

Brillus

2021-06-02, 16:02:10

1-4 sind in den ersten zwei Grafiken nummeriert ;)

Die dritte + vierte Grafik habe ich einfach vollständigkeitshalber eingefügt (siehe vorherigen Post von amdfanuwe). Dazu gibt es noch ein zweites Patent (die vierte Grafik) welche die Memory-Die so über die Chiplets legt (siehe vorigen Post von Cyberfries). Diese zwei Varianten sind meines Erachtens für Gaming GPUs nicht geeignet. Für HPC eher, aber auch dort stellt sich die Frage, wo und wie die I/O Funktionsblöcke implementiert werden. Eine Lösung wäre, dass es das Produkt immer nur mit der maximalen Anzahl an Chiplets herstellt. Das geht bei HPC. Bei Consumer-Produkten will man das eher nicht.

Ah mobile wurden die Anhänge nicht richtig angezeigt.

Nightspider

2021-06-03, 16:37:37

Für GPUs würde auch breites (e)DRAM reichen, Latenz ist da nicht ganz so wichtig.
Gibt es da Hersteller, Patente oder Ankündigungen?
Oder wie beim M1 den DRAM direkt aufs Package.
Bei DRAM und eDRAM sehe ich einfach den Bandbreitengewinn gegenüber HBM nicht. Ohne diesen kann man es sein lassen und bei HBM bleiben. Ein lokaler, grosser DRAM Memory Pool wäre sicher nicht schlecht (z.B. Dual/Quad-Channel DDR5 mit 100...200GB/s angebunden), da kommt man aber schon bald in die Nähe von der CPU/GPU-zu-GPU Bandbreite (CXL oder was auch immer es dann ist).

Und je nach Anwendung profitiert ja auch die IPC von Bandbreite und/oder Latenz eines grossen lokalen SRAM (siehe Raytracing, gewisse ML/DL Modelle und den RDNA2 Foliensatz).

Beim IO-Die von RDNA3 aka MCU könnte es thermisch vielleicht klappen HBM/DRAM zu stacken.

Die HBM Stacks sind ja deutlich "dicker" auf Grund von bis zu 9 Slices.

Pro HBM2e Stack wären 16GB und 460GB/s drin. Würde sich schon anbieten sowas zu nutzen, wenn man eh schon stacken kann und mit den IO bzw. MCU Chiplets keine großen thermischen Probleme bekommt. 32GB für RDNA3 wären eh sinnvoll.

basix

2021-06-03, 17:41:16

Ich glaube nicht, dass wir HBM auf Logic Stacking so bald sehen werden.

So viel Energieeffizienz gewinnt man damit nicht, speziell bei grossem LLC / stacked SRAM (welcher als Bonus nochmals deutlich mehr Bandbreite liefern kann). Mit lokalem grossem LLC gewinnt man mehr Performance/Energieeffizienz als man bei stacked HBM an Energieeffizienz gewinnen würde (nicht belegte Aussage ;))

Das grösste Problem bei HBM ist die thermische Ableitung und das HBM relativ temperatursensitiv ist. Das geht mit SRAM und relativ kleinen SRAM Die mMn besser.

Auch HBM-Stacking auf einem separaten IO Die sehe ich schwierig an. Der Platz ist begrenzt und gerade bei HPC verbraucht auch IO viel Saft und wird entsprechend warm.

Bei Consumer sehe ich noch lange GDDR6. Vor allem bei AMD aufgrund des Infinity Caches. Spart Energie und erlaubt kostengünstigen und voluminösen Speicher. Bei 256bit sind 32GByte bei annehmbarem Verbrauch und Kosten möglich. Das reicht für Consumer noch lange. Bei 384 MByte IF$ hat man ~4...5x Bandwidth Amplification bei 4K. Das würde bei 256b und 16GT/s auf effektiv 2...2.5 TB/s hinauslaufen. Das reicht für 160CUs ;)

Nightspider

2021-06-03, 17:55:34

16-32 GB Speicher braucht man sowieso und das GDDR6 PHY frisst auch einige Watt und nimmt relativ viel Platz ein.

Und billig ist SRAM nun auch nicht. Eventuell sehen wir aber auch V-Cache und HBM.
V-Cache auf den GCD und HBM auf dem MCU

Aber vielleicht wäre das auch too much für eine Generation und HBM kommt erst mit RDNA4.

Der teure Interposer war früher ja der Hauptgrund gegen HBM in Consumer Karten.

Wenn man den Infinity Cache aber aus dem Chip herausbekommt hat man doppelt so viel Platz für die CUs, kann diese massiv breiter bauen und verkürzt die Latenzen eventuell noch zum "zentralen" V-Cache.
Könnte auch mit erklären wie man mit Navi31 bis zu Faktor 2,7 der Navi21 Leistung erreichen will.

basix

2021-06-03, 17:57:06

Der Interposer ist nicht das teure, es ist der HBM ;)

Und den IF$ sehe ich klar auf der Seite, wo die CUs sitzen. Dort will man die höchste Bandbreite und den geringsten Off-Chip Traffic.

JVC

2021-06-03, 17:58:20

Den Aufpreis zahle ich gern ^^

Neurosphere

2021-06-03, 18:00:50

Beim Infiniti Cache mal ne Frage an die Profis:

Wenn wir davon ausgehen das die Cachegröße steigt, steigt damit auch bei nicht geänderter Auflösung automatisch die Hitrate mit und das nun scheinbar stärkere Abfallen bei höheren Auflösungen von Navi 2x reduziert sich bzw verschiebt sich weiter nach oben oder gibt es noch andere Faktoren die eine Rolle spielen abseits der Auflösung die den positiven Effekt des größeren Caches wieder aufwiegen?

Zumindest falls nein, träte dann ja der Fall ein das Navi 3x schon besser gegenüber Navi 2x da steht in 4K einfach nur durch den größeren Cache. Ohne überhaupt sonst Vorteile bei der Arch mit rein zu rechnen.

Nightspider

2021-06-03, 18:04:08

Mehr Cache -> Höhere Hitrate -> höhere Geschwindigkeit + bessere Energieeffizienz

Und ja, die Grenze bzgl. Auflösung verschiebt sich nach oben.

basix

2021-06-03, 18:04:15

Zu deiner ersten Frage: Ja, die Hitrate steigt automatisch. /Nightspider war schneller

Und N21 hat keine 4K Schwäche per se. Eher hat Ampere eine 4K Stärke.

Zossel

2021-06-03, 18:36:43

Das grösste Problem bei HBM ist die thermische Ableitung und das HBM relativ temperatursensitiv ist. Das geht mit SRAM und relativ kleinen SRAM Die mMn besser.

Für einen Cache braucht man nicht zig Dies übereinander.
Wie ist der Stand der Technik bei HBM bzgl. Speicherkapazität und Anzahl Dies?

basix

2021-06-03, 18:51:20

Für einen Cache braucht man nicht zig Dies übereinander

Das nicht. Thermische Sensitivität bleibt aber. Und pro HBM-Stack werden ~100mm2 abgedeckt. Da hast du fast garantiert Hotspots drunter. SRAM-Stacks kann man kleiner machen und organisierter über Lowpower Bereichen platzieren. Und haben einen grossen Bandbreitenvorteil.

Pro HBM Die liegen glaube ich 2 GByte drin. A100 gibt es bei 5 Stacks mit 80 GByte.

Cyberfries

2021-06-04, 09:34:59

Und noch ein Patent (https://www.freepatentsonline.com/20210158599.pdf), ähnlich den bisherigen.
Zuerst kam im Januar die passive Chiplet-Brücke, im April die aktive Cache-Brücke und jetzt ein Patent zum Datenfluss.
Mag sein, dass es oft schwierig ist AMD vorherzusehen, aber die Zeichen verdichten sich auf ein Chiplet-Design,
verknüft über Cache-Brücken (MCD - Multi-Cache-Die), bei dem nur ein GCD (Graphics Core Die) über ein Speicherinterface verfügt.

Danke basix für die Darstellungen.
Ich habe auch mal Paint angeworfen um eine Option darzustellen. Zerrupft mich nicht wegen Ungenauigkeiten oder Darstellung.
Das wäre aus meiner Sicht eine Möglichkeit, wie N31 und N32 ausschauen könnten.
Dabei dann N31 mit Master + 2x Slave, ca. 160cu, 256bit und 512mb Inf$
N32 mit Master + 1x Slave, ca. 120cu, 256bit und 256mb Inf$
2022 ist leider echt noch ne Weile hin, da werden wir noch lange auf die Auflösung warten müssen.

HOT

2021-06-04, 10:07:05

ChaosTM

2021-06-04, 10:23:20

Das ist glaube ich zu früh dafür. Die Patente werden RDNA4 beschreiben (wenn überhaupt), aber RDNA3 wird ziemlich sicher wie prognostiziert.

Wenn dann ist das auch umgekehrt, dann ist N31 der Master-Chip und N32 der Slave, da N31 erheblich früher war. Aber ich gehe eher davon aus, dass wir 2 Compute-Chips haben (vllt. tatsächlich einer N31 und einer N32, viele Gründe sind denkbar) und zusätzlich einen IOD. 5+6nm war ja auch bestätigt IIRC.

Master/Slave ist politisch unkorrekt. Das heißt heutzutage Primär/Sekundär oder wwi :D

scnr

fondness

2021-06-04, 11:22:07

Das ist glaube ich zu früh dafür. Die Patente werden RDNA4 beschreiben (wenn überhaupt), aber RDNA3 wird ziemlich sicher wie prognostiziert.

Wenn dann ist das auch umgekehrt, dann ist N31 der Master-Chip und N32 der Slave, da N31 erheblich früher war. Aber ich gehe eher davon aus, dass wir 2 Compute-Chips haben (vllt. tatsächlich einer N31 und einer N32, viele Gründe sind denkbar) und zusätzlich einen IOD. 5+6nm war ja auch bestätigt IIRC.

Was genau verstehst du unter "wie prognostiziert"? Das Patent wurde am 27. November 2019 eingereicht. Das könnte für ein 2022 Produkt schon machbar sein. Zumal man ein Patent oft erst dann einreicht, wenn man die Konzeptphase schon hinter sich hat.

Nightspider

2021-06-04, 17:05:33

@Cyberfrieds:

Deine äußeren Chiplets haben kein L2 Cache.

Leonidas

2021-06-07, 15:07:43

Vegeta @ Twitter:
https://twitter.com/Broly_X1/status/1401861684403204103

RDNA3 and ZEN4 will be launched around the same time.
RDNA3 will tape out later this year.
Q4 2022

aufkrawall

2021-06-07, 15:13:36

Wer hatte eigentlich nochmal diesen Blödsinn von Q1 in die Welt gesetzt?

Leonidas

2021-06-07, 15:18:17

3DC Newsindex-Liste ist Dein Freund:
https://www.3dcenter.org/news/amd-rdna3

"Kepler_L2" reitet auf dem (angeblich) bereits erfolgten Navi-31-Launch rum und sagte daher H1/2022 voraus.

Daneben gab und gibt es noch diese Fraktion, die die AMD-Roadmaps immer als "endend zum Jahresanfang 2022" lesen müssen, anstatt (richtigerweise) als "endend zum Jahresende 2022" - und dann darauf basierend RDNA3 und Zen 4 felsenfest im Jahr 2021 erwarten.

basix

2021-06-07, 16:07:13

Was ich mich nun Frage: N31 != RDNA3? Oder noch N6/7? N31 hatte laut Gerüchten ja schon März 2020 das Tapeout? Siehe ebenfalls via Newsindex: https://www.3dcenter.org/news/hardware-und-nachrichten-links-des-26-januar-2021

Entweder komplett falsch, oder AMD überrascht uns zu Weihnachten mit doppeltem N21 im Chipletdesign in 7nm :D Ein wenig als Pipecleaner für die "richtigen" RDNA3 Karten.

HOT

2021-06-07, 16:09:23

Oder das war nur ein Testprodukt und kommt nie auf den Markt.

amdfanuwe

2021-06-07, 17:12:04

AMD traue ich fast alles zu. Ebenso, dass sie den N22 oder N23 schon vorbereitet haben um diese als Chiplets mit einer passive Bridge im Refreshzyklus 2021 zu bringen.
N23 für 32, 64, 96CU wär doch ein netter refresh.

basix

2021-06-07, 17:27:34

Wer erinnert sich noch an die 2x xGMI Links von N21? :D Bei CDNA laufen die bis max. 23 GT/s bei 16bit Breite, was bei 2x Links auf 92GB/s Bandbreite (bidirektional) hinausläuft. Etwas wenig, aber wer weiss.

2x 520mm2 und 512b SI ergäbe aber einen ziemlich grossen Brummer ;) Bei ~1.7...1.8 GHz Takt wäre das aber vermutlich effizient genug für 350W.

Leonidas

2021-06-09, 12:05:53

Oder das war nur ein Testprodukt und kommt nie auf den Markt.

Es gibt diejenigen, die sagen: Das war nur einer der Chips für dieses Chiplet-Konstrukt, was da Tape-Out hatte.

Denkbarerweise: Der MCD. Der basiert weitgehend auf bekannter Technologie. In dieser Auslegungsform ist tatsächlich ein Tape-Out passiert, aber es war halt keiner der GCDs.

amdfanuwe

2021-06-09, 12:54:10

Schade, dass wir noch keine Dieshoots von den N2x Chips haben.
Vielleicht könnte man dann ja den benötigten HBX Controller und HBX Phys auf einem der Chips entdecken, der dann als GCD Chiplet in Frage kommt.
Wenn der MCD aktiv ist und auch Cache hat, relativiert sich der kleine IF$ beim N23.

Leonidas

2021-06-09, 14:33:59

AMDs "Navi 33" soll genauso im Chiplet-Design antreten
https://www.3dcenter.org/news/geruechtekueche-amds-navi-33-soll-genauso-im-chiplet-design-antreten

Leonidas

2021-06-11, 04:42:21

Ich habe das mal aufgezeichnet.

Kepler @ Twitter:
https://twitter.com/Kepler_L2/status/1403179997351878662
"#3 is close"

MLID @ Twitter:
https://twitter.com/mooreslawisdead/status/1403199525557260288
Yeah, but people may want to think bigger on the Infinity Cache....

Cyberfries

2021-06-11, 08:36:20

Ja...
So sehr ich mich auch über die Ehre freue in einem News-Eintrag erwähnt worden zu sein, meine Idee war gerade mal zwei Tage
eine halbwegs realistische Variante, bis sie von diesem (https://twitter.com/Kepler_L2/status/1401334289699164164) Tweet beerdigt wurde.

Es tendiert wohl eher in die unten skizzierte, konventionellere Richtung, mit gleich großen Die.
Sofern man den Leaks glauben darf ist immerhin die CU-Zahl, die GCD-Zahl und die Inf$-Menge klar.
Aber selbst damit ist es für sichere Aussagen zur Konfiguration viel zu früh, das sind wohl eher Gedankenspiele.
Und außerdem steht immer noch der 4MCD-Tweet (https://twitter.com/Kepler_L2/status/1399703331627483140) für 512mb auf N31 im Raum, wie auch immer das aussehen soll...

Leonidas

2021-06-11, 10:35:49

Kopite7kimi @ Twitter
https://twitter.com/kopite7kimi/status/1403265337714302984
I think MCs are separated to every GCD, not integrated into one die.

Kepler @ Twitter
https://twitter.com/Kepler_L2/status/1403263965464076288
I think it will look like this (horizontal view).

https://pbs.twimg.com/media/E3lk31WWUAIKfci?format=png&name=small

basix

2021-06-11, 14:10:51

@Cyberfries:
Ja so ein zentrales MCD würde Sinn machen. Würdest du für N32 aber nicht auch einfach die gleichen GCDs nehmen und jeweils 1x SE deaktivieren? Siehe N21 auf der RX 6800. Ist einfach ein Yield enhancement Thema.
Und Memory Controller / IO / VCN / PCIe würde ich ins MCD legen -> Nur 1x vorhanden pro GPU

@Leo:
Das MCD über dem GCD (Schaubild von Kepler) ginge bei Cyberfries Ansatz auch. Einfach mit einer Lücke zwischen den GCD. Das hat den Vorteil, dass man die Hotspots des GCD nicht abdeckt und die Power / GDDR / PCIe Leitungen nicht durchs GCD routen muss. Cyberfries Aufteilung finde ich von dem her eigentlich ideal: Wenig Abdeckung der GCDs und allgemein wenig Thermik-Probleme, ein gemeinsamer IF$ (kein Split) und keine Power usw. Vias durch andere Die hindurch. Evtl. Legt man das MCD auch teilweise dort drüber, wo die GCPs liegen (weniger Hitze dort als in den CUs). Also eher MCD in die Breite als in die Höhe bei Cyberfries Schaubild.

Cyberfries

2021-06-12, 12:30:12

Mit ganz ähnlichen Ideen kommen auch CapframeX (https://twitter.com/CapFrameX/status/1403304096145227777) und kopite7kimi (https://twitter.com/kopite7kimi/status/1403260603293077508).
Würdest du für N32 aber nicht auch einfach die gleichen GCDs nehmen und jeweils 1x SE deaktivieren?

Es würden immerhin 25% der SEs, des SIs und des L2 $ auf dem GCD deaktiviert, dafür gibts Präzedenzfälle (Pascal,Turing,GCN).
Die 6800 ist mehr ein Lückenfüller, für den sich kein eigener Chip lohnt, N22 durfte nicht zu groß (teuer) werden.
Das N32-GCD ist in einem preissensibleren Segment als N21 und die Maske wäre durch die Doppelnutzung in N32/N34 auch wirtschaftlicher.
Und Memory Controller / IO / VCN / PCIe würde ich ins MCD legen -> Nur 1x vorhanden pro GPU

Wäre auch sinnvoll. Widerspricht aber den im letzten halben Jahr publizierten Patenten.
Außerdem wäre es möglich, ein gemeinsames MCD in allen vier Chips zu verwenden und darauf Cache unterschiedlich hoch zu stapeln.
N31 (4/8 Ebenen -> 512mb), N32 (3/6 Ebenen -> 384mb), etc...

HOT

2021-06-12, 13:49:56

Selbst wenn N31 im Frühjahr 20 Tapeout hatte, kann der dennoch problemlos in N5 erfolgt sein. Den Prozess gibts schon recht lange, Massenfertigung gibts AFAIK seit April 2020.

Leonidas
Die Aufteilung war ja von Anfang an klar. Alle komplexeren Designs dürften erst mit RDNA4 erfolgen. Man muss halt einen Schritt nach dem anderen machen.

Geldmann3

2021-06-19, 03:29:21

Ich habe nachgedacht und schätze, dass die RX 7950 XT rund 76% schneller sein wird, als die 6900 XT, vermute jedoch auch, dass sie teurer wird als eine RTX 3090.

Zuerst gehe ich davon aus, dass wir beim selben Stromverbrauch, aufgrund besserer Taktraten und höherer IPC, ca. 40% Performance gewinnen. Die schnellste Single-Chipvariante sollte demnach ca. 40% auf die 6900XT legen. Die liegt dann eventuell bei 999$.

Im nächsten Schritt gehe ich jedoch von einem zweiten Grafikchip aus, welcher mit einer Effizienz von rund 80% skaliert. Womit ich insgesamt auf 2,52x die Performance einer 6900 XT komme. Jedoch würde dieses Monster nicht mehr effektiv zu kühlen sein, weshalb das Power-Limit der einzelnen Chips deutlich, um je 30%, nach unten muss. Momentan skalieren Grafikchips recht gut mit ihrem Powerlimit. Ziehen wir nun also 30% ab, kommen wir auf ein Performanceplus von 76,4% zur 6900 XT. Eine Wakü-Variante könnte auch durchaus auf +90% kommen.
(Wobei ich bei meiner 6900XT das Powertarget schon sehr weit herunterstellen kann, ohne riesig an Performance zu verlieren, die Zahlen sollte man also nicht so genau nehmen.)

Das halte ich 2022 für realistisch.

Rasterizing +~80%
Raytracing +~110%.

Lovelace wird zumindest beim reinen Rasterizing nicht mehr ganz mithalten können.
Wobei die neuesten Titel sich kaum noch mit reiner Rastergrafik messen werden und auch das Software-Ökosystem zunehmend wichtiger im Verhältnis zur Rohleistung wird.

(Nur ein kleines, nächtliches Gedankenspiel von mir, um halb 4. haha)

Neurosphere

2021-06-19, 10:34:46

Rasterizing +~80%
Raytracing +~110%.

Ich glaube RT wird für AMD wichtiger sein bei RDNA3 und man wird dort mehr investieren.

Eine Verdopplung würde RDNA3 zwar besser als Ampere dastehen lassen, dürfte aber gegen Lovelace wieder chancenlos sein. Gerade im Enthusiast oder High-End dürfte RT eine Hürde für RDNA2 sein weil, auch wenn das Feature nicht unbedingt lebenswichtig ist, die Leute für so viel Geld nicht irgendwo zurückstecken wollen.

Ich könnte mir auch vorstellen das die deutlich höheren Performanceprognosen die es ja schon gab eher in diese Richtung gehen, also 2,5x für RT, alles andere die gewohnten +/-50% wenn man nicht beim Energieverbrauch in die vollen gehen möchte. Kann sein das bei den 50% durch MCM etwas mehr Freiheit besteht, aber der Energieverbrauch wird wie immer eine deutliche Hürde bleiben.

Nightspider

2021-06-19, 11:02:37

Alle Quellen behaupten RDNA3 wird massiv schneller werden bei Raytracing gegenüber RDNA2.

Nvidia wird sicherlich auch in Raytracing keine Chance gegen den Navi31 Topausbau haben.

Vor allem falls Nvidias nächster Gaming-Chip immernoch von Samsung hergestellt wird, sehe ich AMD in jedem Benchmark weit vor Nvidia.

Eine 80% Skalierung für den zweiten Compute Chip ist viel zu niedrig angesetzt.
Wenn dann werden die Compute Chips durch den Infinity Fabric(?) Interconnect gleichermaßen ausgebremst aber das trifft schon auf den 1. Compute Chip zu. Der zweite wird genauso ausgebremst wie der erste, also kann man eher eine 95% Skalierung erwarten, da der Infinity Cache sicherlich groß dimensioniert wird mit insgesamt 256 MB wird man nicht im Bandbreiten-Limit landen.

TSMC N5 soll ja schon um die 30% bessere Energieeffizienz haben. Der N5HPC wird eventuell noch besser und mit HBM könnte man auch noch einige Watt sparen.

Durch die Architektur könnte AMD eventuell nochmal 30-50% bessere Effizienz aufbieten. Da hat man mit RDNA1 und 2 schon gut vorgelegt.

Würde mich aber nicht wundern wenn es auch eine "XTXH" Variante mit 450W gibt. Dual-Radiator AiO regelt.

ChaosTM

2021-06-19, 13:39:58

Sag so was nicht zu laut. Gewisse Leute könnten in Schnappatmung verfallen und kollabieren. Es ist nebenbei auch ziemlich heiß. ;)
Alles noch Spekulation, aber mehr Konkurrenz im Bereich RT wäre natürlich sehr zu begrüßen.

OgrEGT

2021-06-19, 14:26:34

Vor allem falls Nvidias nächster Gaming-Chip immernoch von Samsung hergestellt wird, sehe ich AMD in jedem Benchmark weit vor Nvidia.

Entscheidend mMn wird sein ob NV auch MCM nutzen wird... selbst wenn beide 5nm TSMC nutzen wird MCM vs Monolith jetzt den Unterschied machen... mehr CUs mit mehr Ausbeute und mehr Flexibilität...

Nightspider

2021-06-19, 14:31:32

Soweit bekannt ist spricht bisher alles dagegen das Nvidia bei der nächsten Gaming GPU Gen schon auf MCM setzt.

Neurosphere

2021-06-19, 14:34:38

Soweit bekannt ist spricht bisher alles dagegen das Nvidia bei der nächsten Gaming GPU Gen schon auf MCM setzt.

Es gibt nicht wirklich viel zu Lovelace, von daher wäre ich da nicht so sicher. Ein Vorteil den AMD aber mit Sicherheit haben wird ist mehr Erfahrung in dem Bereich.

Der_Korken

2021-06-19, 14:50:07

Eine 80% Skalierung für den zweiten Compute Chip ist viel zu niedrig angesetzt.
Wenn dann werden die Compute Chips durch den Infinity Fabric(?) Interconnect gleichermaßen ausgebremst aber das trifft schon auf den 1. Compute Chip zu. Der zweite wird genauso ausgebremst wie der erste, also kann man eher eine 95% Skalierung erwarten, da der Infinity Cache sicherlich groß dimensioniert wird mit insgesamt 256 MB wird man nicht im Bandbreiten-Limit landen.

Soso, das Chiplet-Design soll über die CUs also besser skalieren als ein monolithischer Chip:

https://www.computerbase.de/2021-03/amd-radeon-rdna2-rdna-gcn-ipc-cu-vergleich/2/#abschnitt_cuskalierung_in_3840__2160_ultra_hd

Durch die Architektur könnte AMD eventuell nochmal 30-50% bessere Effizienz aufbieten. Da hat man mit RDNA1 und 2 schon gut vorgelegt.

Immer diese Logik, dass sich junge Erfolge und Trends unmittelbar fortsetzen sollen. Die Tatsache, dass AMD gerade erst aus dem selben Prozess >50% Effizienz rausgeholt hat (was im übrigen einer der größten Sprünge überhaupt in den letzten 15 Jahren sein dürfte), spricht eher dafür, dass das Pulver erstmal verschossen ist und große Architekturverbesserungen Zeit brauchen werden bzw. die Chips erstmal wachsen müssen, damit sich wieder Räume für Effizienzverbesserungen auftun. Ansonsten hätte AMD ja auch einfach Tahiti in 28nm jedes Jahr um 30% effizienter machen können, um in 2021 dann alle 7nm-Chips bei der Effizienz komplett nasszumachen.

Linmoum

2021-06-19, 17:16:51

Die Tatsache, dass AMD gerade erst aus dem selben Prozess >50% Effizienz rausgeholt hat (was im übrigen einer der größten Sprünge überhaupt in den letzten 15 Jahren sein dürfte), spricht eher dafür, dass das Pulver erstmal verschossen ist und große Architekturverbesserungen Zeit brauchen werden bzw. die Chips erstmal wachsen müssen, damit sich wieder Räume für Effizienzverbesserungen auftun.Da ist nichts verschossen, sonst hätte sich Rick Bergman damals rund um den RDNA2-Launch nicht hingestellt und gesagt, dass man aggressiv bei RDNA2 auf Perf/Watt gegangen ist und dasselbe auch mit RDNA3 vor hat.

Man braucht jetzt nicht sinnlos über absolute Zahlen philosophieren, aber ein erneut großer Sprung bei Perf/Watt steht IMO außer Frage.

AffenJack

2021-06-19, 17:21:10

Da ist nichts verschossen, sonst hätte sich Rick Bergman damals rund um den RDNA2-Launch nicht hingestellt und gesagt, dass man aggressiv bei RDNA2 auf Perf/Watt gegangen ist und dasselbe auch mit RDNA3 vor hat.

Man braucht jetzt nicht sinnlos über absolute Zahlen philosophieren, aber ein erneut großer Sprung bei Perf/Watt steht IMO außer Frage.

Es spricht auch niemand gegen einen weiteren Sprung, aber gegen die Luftschlösser die Leute hier bauen. Inkl. Prozess kann man nen 50%-60% Perf/W Sprung erwarten, das ist auch das was Bergman damals kommuniziert hat, da man sich ähnliche Ziele wie bei RDNA1/2 vorgenommen hat. Aber keine 30% Prozess, 50% Architektur.

Linmoum

2021-06-19, 17:35:43

Ohne N5 bei RDNA3 sind 30-50% durch die Architektur aber zwingend notwendig, um überhaupt einen großen Sprung hinzulegen.

So offen, wie AMD bei Zen4 schon lange mit N5 wirbt und so zurückhaltend sie sich bei RDNA3 geben ("Advanced Node"), wäre ich mir alles andere als sicher, dass es überhaupt N5 wird.

Nightspider

2021-06-20, 11:31:48

Soso, das Chiplet-Design soll über die CUs also besser skalieren als ein monolithischer Chip:

https://www.computerbase.de/2021-03/amd-radeon-rdna2-rdna-gcn-ipc-cu-vergleich/2/#abschnitt_cuskalierung_in_3840__2160_ultra_hd

Das war nicht der Punkt. Sonst könntest du auch sagen das die 80 CUs eines Chiplets schon ineffektiv laufen werden. Es ging, meine ich, darum ob das Chiplet Design auch bremst durch höhere Latenzen oder ggf eine zu geringe Bandbreite zwischen den Chips.
Was du anbringst ist aber ein valider Punkt, man muss die 160 CUs dann auch sinnvoll auslasten können.
Navi21 hat halt irgendwo ein Bottleneck das es zu beheben gilt. Durch das Chiplet Design hat man effektiv mehr Platz und kann hoffentlich alles so breit auslegen das auch die 160 CUs sehr gut skalieren. Da wird man nicht nur den Infininty Cache verdoppeln sondern auch viel an den anderen Schrauben drehen müssen.

Immer diese Logik, dass sich junge Erfolge und Trends unmittelbar fortsetzen sollen. Die Tatsache, dass AMD gerade erst aus dem selben Prozess >50% Effizienz rausgeholt hat (was im übrigen einer der größten Sprünge überhaupt in den letzten 15 Jahren sein dürfte), spricht eher dafür, dass das Pulver erstmal verschossen ist und große Architekturverbesserungen Zeit brauchen werden bzw. die Chips erstmal wachsen müssen, damit sich wieder Räume für Effizienzverbesserungen auftun. Ansonsten hätte AMD ja auch einfach Tahiti in 28nm jedes Jahr um 30% effizienter machen können, um in 2021 dann alle 7nm-Chips bei der Effizienz komplett nasszumachen.

Übertreib mal nicht.
Ich habe geschrieben AMD >könnte< einen ähnlich großen Sprung machen.

Die bisherigen Leaks sprechen zumindest dafür das RDNA3 ein großer Wurf wird. Dafür muss die Effizienz zwangsläufig auch deutlich besser werden, sonst würden die Leaks nicht stimmen.

Es spricht auch niemand gegen einen weiteren Sprung, aber gegen die Luftschlösser die Leute hier bauen. Inkl. Prozess kann man nen 50%-60% Perf/W Sprung erwarten, das ist auch das was Bergman damals kommuniziert hat, da man sich ähnliche Ziele wie bei RDNA1/2 vorgenommen hat. Aber keine 30% Prozess, 50% Architektur.

Was heißt Luftschlösser? Was ist an "könnte 30-50%" bringen schwer zu verstehen.

Für Navi31 sprechen diverse Leaker von >2x Navi21 Leistung. Irgendwo muss die bessere Effizienz ja herkommen.

Und das AMD sein Pulver verschossen hat weil die letzte Gen schon so gut war ist eine bescheuerte Aussage.
Das ist genau wie Zen2 war so toll, Zen 3 wird bestimmt nur ein kleiner Sprung.
Oder: AMD hat 8 Jahre lang nur Müll produziert, Zen1 wird bestimmt nicht so toll.
Oder: 2013: Es wird keine großen IPC Sprünge im zweistelligen Bereich mehr geben weil wir schon am Maximum sind. ;D

mironicus

2021-06-20, 13:10:58

Mehr Cache könnte RDNA3 schon mal brauchen, aber da mache ich mir keine Sorgen, wenn sie stapelbaren Cache verwenden, dann dürfte das für 4K und darüber reichen.

amdfanuwe

2021-06-20, 14:15:24

aber da mache ich mir keine Sorgen, wenn sie stapelbaren Cache verwenden,
Lies mal das hier:
https://conferences.computer.org/iscapub/pdfs/ISCA2021-4ghucdBnCWYB7ES2Pe4YdT/333300a057/333300a057.pdf

Jede Technologie hat ihren Preis. Höherer Takt kostet Effizienz, Chiplet kostet Latenz, Interposer sind teuer, HBM benötigte bisher Interposer, und stacked Cache hat auch seinen Preis.
Mehr Leistung gibt es ncht für umme und nur die richtige Komposition der Komponenten, Technologieen, Architektur etc. gibt ein akzeptables Produkt.
AMDs Ziel ist letztendlich die Gewinnmaximierung. Also hoffen wir mal, dass ihnen mit RDNA 3 wieder ein Produkt gelingt das wir haben wollen und wir uns leisten können. Ob mit oder ohne stacked Cache.

basix

2021-06-20, 14:50:58

Ich behaupte, dass stacked Cache günstiger ist.
- 7nm SRAM-Die ist schon designed (NRE Kosten schon vorbei und diese Kosten können zusätzlich über CPU-Verkäufe amortisiert werden)
- 1.5x SRAM-Density verglichen mit 108mm2 für 128 MByte von N21 (höher als in 5nm auf der GPU selbst überhaupt möglich ist -> 1.3x SRAM Scaling bei N7 zu N5)
- 7nm anstatt 5nm (günstigerer und stabiler Prozess)
- Kleinere 5nm Die (höherer Yield, weniger 5nm Wafer nötig)

Bei 160 CU will man auf vermutlich 256 MByte IF$ gehen. Mit 108mm2 IF$ bei N21 sind das @ 5nm (1.3x SRAM Scaling) 2*83mm2. Die 80 RDNA2 CUs sind ca. 300mm2 gross. Bei sagen wir mal 1.5x Scaling von N7 auf N5 landen wir dann bei 200mm2 pro GCD (je 80 CUs, ohne RDNA3 Änderungen hier jetzt einzubeziehen). Rechnet man dort die 83mm2 IF$ obendrauf wird das Chiplet vermutlich etwa +50% teurer (grössere Fläche + Yield Reduktion).

Angenommene Waferpreise:
- 5nm = 8000$
- 7nm = 6400$

Folgende Beispiele mit Salvage schon ungefähr reingerechnet:
-> 1x SRAM Die @ 7nm @ 64 MByte @ 36mm2 --> ~1600 Die/Wafer --> ~4$
-> 1x GCD @ 5nm @ 200mm2 --> ~250 Die/Wafer --> ~32$
-> 1x GCD @ 5nm @ 283mm2 --> ~170 Die/Wafer --> ~47$

128MB SRAM kosten dich in 5nm also ~15$, während 2x SRAM Die gerade mal ~8$ kosten. Das 3D-Stacking darf dich also fast gleich viel kosten, wie die beiden SRAM-Die. Ich kann mir fast nicht vorstellen, dass das so teuer ist. Neben dem Vorteil, dass man 1.5x weniger 5nm Wafer für die selbe Anzahl GCDs benötigt.

Edit:
Nicht berücksichtigt in den Die Sizes ist alles IO (PCIe, GDDR, Display) sowie VCN usw.

Wenn ich also "raten" müsste:
- MCD mit allem IO, VCN usw. integriert
- Stacked V-IF$ auf dem MCD
- 2x GCD
- MCD stacked auf das GCD
- Falls nur 1x GCD -> Zweites Dummy GCD ohne Funktion

Andere Variante:
Es gibt ein "Master-GCD", welche zusätzlich alles IO enthält. Das "Slave-GCD" enthält nur noch zusätzliche Shader-Engines. Sind dann halt wieder zwei Chips, welche designed werden müssen.

AffenJack

2021-06-20, 15:00:28

Für Navi31 sprechen diverse Leaker von >2x Navi21 Leistung. Irgendwo muss die bessere Effizienz ja herkommen.

Sie reden von Leistung, nicht von Effizienz. Gab durchaus auch einige Aussagen, die eher in die Richtung gehen, dass man mit der Leistungsaufnahme deutlich hochgeht. Mit 400W bist und 50% Effizienzsteigerung bist du schon bei 2x Leistung. Das ist für ne ordentliche Dual-Chip Lösung in Anbetracht von Nvidias 3090 keine TDP, die groß überraschend wäre.

basix

2021-06-20, 15:27:43

Lies mal das hier:
https://conferences.computer.org/iscapub/pdfs/ISCA2021-4ghucdBnCWYB7ES2Pe4YdT/333300a057/333300a057.pdf

Was man anhand der Grafiken zur Kosten-Skalierung rausnehmen kann: Das EPYC IOD macht etwa 55% der Kosten eines 64C Derivats aus. Bei Ryzen kostet ein CCD etwa gleich viel wie das IOD. Letzteres liegt im Rahmen meiner Erwartungen, bei EPYC bin ich etwas erstaunt.

Nightspider

2021-06-20, 15:34:45

Deswegen schreibe ich ja auch von Leistung.
Aber für 2,5x Geschwindigkeit erhöht man ja nicht den Verbrauch auf >750W oder mit 30% besserer Effizienz durch N5 eben auf 525W.
Mit 25% effizienterer Architektur würde man auf dann knapp unter 400W kommen.

basix

2021-06-20, 15:40:36

Ich glaube nicht, dass AMD >300W gehen will. Man sieht bei GA102, dass 350W schon deutlich mehr Aufwand als bei N21 mit 300W benötigt.

Ich denke eher, dass es >1.5x Energieeffizienz beim Topdog werden:
- 5nm = 1/0.7 = 1.43x Energieeffizienz
- Vergrösserter IF$ = Gleichbleibender Verbrauch von GDDR6 (ich gehe von weiterhin 256bit aus)
- Nochmals verbesserte Architektur
- Chiplets für verbessertes Binning, gab Paper dazu wo von 1.1...1.2x Taktraten/Effizienz sprachen

Nehmen wir also an:
- 1.4x Prozess
- 1.1x Binning
- 1.1x Architektur

--> Total 1.7x Effizienz

Das würde ziemlich gut mit 160 CUs bei ~6900XT Taktraten zusammenpassen (siehe 1.7x CU Scaling auf dem vorher verlinkten CB Link).

Nightspider

2021-06-20, 16:01:47

Was man anhand der Grafiken zur Kosten-Skalierung rausnehmen kann: Das EPYC IOD macht etwa 55% der Kosten eines 64C Derivats aus. Bei Ryzen kostet ein CCD etwa gleich viel wie das IOD. Letzteres liegt im Rahmen meiner Erwartungen, bei EPYC bin ich etwas erstaunt.

Welcher Grafik entnimmst du das? Hab eben 3 mal durchgescrollt und das nicht gefunden. Auf welcher Seite bzw. welcher Grafiknummer entnimmst du das?

mboeller

2021-06-20, 16:40:06

Welcher Grafik entnimmst du das? Hab eben 3 mal durchgescrollt und das nicht gefunden. Auf welcher Seite bzw. welcher Grafiknummer entnimmst du das?

Fig14 und Fig17. soweit ich das sehe.
Ich komme auf fast die gleichen Werte beim Pixelauszählen

amdfanuwe

2021-06-20, 16:41:24

ich war zu spät

Nightspider

2021-06-20, 16:51:21

Ahjo klar.

https://abload.de/img/iodcosta2jmh.png

amdfanuwe

2021-06-20, 17:03:18

Sind dann halt wieder zwei Chips, welche designed werden müssen.
Seh ich nicht das Problem. Die Kosten stecken im Gesamtdesign. Ob das in einem oder mehreren Chips relaisiert wird dürfte kaum eine Rolle spielen.

Neurosphere

2021-06-20, 21:45:06

Die Frage ist halt was AMD dadurch gewinnen kann mit doppelt sovielen Einheiten massiv in die Breite zu gehen.

Normiert auf 300 Watt dürfte das schon einiges bringen gegenüber Navi21 mit doppelt so vielen Einheiten + besserer Effizienz durch Prozess und Arch.

Was man ja aus der derzeitigen Gen lernt ist, dass die Einbußen bei den Frames mit Undervolting doch eher gering sind. Zu Navi 21 habe ich leider nichts direkt gefunden das verwertbar ist, aber im Luxx Test zu 3080 sorgten rund 30% weniger Watt für nur 10% weniger FPS. Das ist natürlich nicht direkt verwertbar, aber zeigt gut das die FPS-Leistung nicht linear zu den Watt sinkt (also ebenso wie andersrum). AMD könnte also eine 300 Watt Version bringen ohne auf 400 Watt massiv zu verlieren. Dafür kann man dann den Herstellern die freie Hand lassen mit den OC Modellen was für jene interessant ist wegen der größeren Marge.

Lehdro

2021-06-21, 13:39:04

Was man ja aus der derzeitigen Gen lernt ist, dass die Einbußen bei den Frames mit Undervolting doch eher gering sind. Zu Navi 21 habe ich leider nichts direkt gefunden das verwertbar ist, aber im Luxx Test zu 3080 sorgten rund 30% weniger Watt für nur 10% weniger FPS.
Oder anders gesagt: Die letzten 10% FPS kosten 30% mehr Strom: Gerade Ampere Karten sind ziemlich ans Limit getrieben, da läuft nichts mehr im Sweetspot. Das ist bei RDNA2 nicht ganz so krass der Fall, aber mir fällt auch keine Karte der letzten paar Jahre ein, die wirklich im Sweetspot aus Leistung und Verbrauch läuft. Die R9 Nano war so eine, ebenso die GTX 1070, aber da hört es eben auch schon auf.

mboeller

2021-06-21, 13:55:58

dargo

2021-06-21, 15:05:03

Im Sweetspot laufen heute nur noch die Mobile-Varianten würde ich sagen da man dort mit ganz anderen TDP-Klassen zu kämpfen hat. Am Desktop ballern die IHVs die Frequenzen mal mehr, mal weniger übers Ziel hinaus. Je nachdem wie gut das eigene Design + Fertigung gegenüber der Konkurrenz und natürlich der eigenen Vorgänger-Generation rauskommt. Man will ja auch eine gewisse Mehrleistung zwischen zwei Generationen bieten.

Odal

2021-06-22, 17:34:26

Oder anders gesagt: Die letzten 10% FPS kosten 30% mehr Strom: Gerade Ampere Karten sind ziemlich ans Limit getrieben, da läuft nichts mehr im Sweetspot. Das ist bei RDNA2 nicht ganz so krass der Fall, aber mir fällt auch keine Karte der letzten paar Jahre ein, die wirklich im Sweetspot aus Leistung und Verbrauch läuft. Die R9 Nano war so eine, ebenso die GTX 1070, aber da hört es eben auch schon auf.

das sollte wahrscheinlich sogar mehr sein als nur 30% mehr Energiebedarf für die letzten 10%.

Merk ich schon am Polaris da braucht das Gesamtsystem mit (recht stark also eher 25++%) untertakteter Karte an der Dose ähnlich viel (120-135Watt) wie eigentlich nur die Karte auf Defaulteinstellungen. Das Problem ist das du meist gar nicht soviel Saft geben kannst um noch 10% rauszuholen da (wie du schon sagst) fast das max. rausgepresst wurde. Sweetspot ist da eher (>=20%) deutlich untertaktet.

gedi

2021-07-06, 18:26:32

Ich habe mich mit dem Thema gar nicht mehr auseinandergesetzt, aber wäre es nicht möglich, dass ein Stack 40CUs, ein 128-192 Bit SI und zwischen 64 und 96 Vcache bei je 60-100W bereit hält? Könnte man also nicht "beliebig" viele Stacks stapeln?

Nightspider

2021-07-06, 18:54:17

Nein.

gedi

2021-07-06, 21:43:52

Nein.

Begründung abseits jeglichem ...? Wäre doch ein Full-Win für die kommende Gen. Relativ (naja okay, alles ist relativ) günstig herzustellen, die Performance zwischen den einzelnen Parts ist sowohl der Stacks als auch des SIs gesichert und man könnte noch bez. des Verbrauchs regulieren. Wenn es technisch möglich wäre, dann klingt das für mich schlüssig. Aber wie bereits erwähnt, habe ich mich mit dem Thema nicht befasst - hätte mich nur interessiert ...

Brillus

2021-07-06, 23:33:44

Begründung abseits jeglichem ...? Wäre doch ein Full-Win für die kommende Gen. Relativ (naja okay, alles ist relativ) günstig herzustellen, die Performance zwischen den einzelnen Parts ist sowohl der Stacks als auch des SIs gesichert und man könnte noch bez. des Verbrauchs regulieren. Wenn es technisch möglich wäre, dann klingt das für mich schlüssig. Aber wie bereits erwähnt, habe ich mich mit dem Thema nicht befasst - hätte mich nur interessiert ...
Abwärme und auserdem SI stacken bringt irgendwie nichts.

gedi

2021-07-07, 11:43:30

Abwärme und auserdem SI stacken bringt irgendwie nichts.

Okay, ... :)

Leonidas

2021-07-07, 17:46:34

Liste neuer AMD-Patente:
https://twitter.com/Underfox3/status/1412502324644298756

pilzsammler2002

2021-07-08, 11:12:29

Liste neuer AMD-Patente:
https://twitter.com/Underfox3/status/1412502324644298756

Uff da sind nen paar interessante Sachen dabei :freak:

Geldmann3

2021-07-13, 20:11:03

:rolleyes:

https://www.forum-3dcenter.org/vbulletin/attachment.php?attachmentid=76156&stc=1&d=1626199800

Blediator16

2021-07-13, 20:12:23

Quelle?

ChaosTM

2021-07-13, 20:23:32

Eh nur 2,8k für das Dickschiff :D
Entspricht 3090 SLI Level preislich.

Die Chance dass das totale BS ist liegt bei 100%.

Im Sweetspot laufen heute nur noch die Mobile-Varianten würde ich sagen da man dort mit ganz anderen TDP-Klassen zu kämpfen hat. Am Desktop ballern die IHVs die Frequenzen mal mehr, mal weniger übers Ziel hinaus. Je nachdem wie gut das eigene Design + Fertigung gegenüber der Konkurrenz und natürlich der eigenen Vorgänger-Generation rauskommt. Man will ja auch eine gewisse Mehrleistung zwischen zwei Generationen bieten.

Das ist wahr. Die mobile "3080"er ist erstaunlich Effizient, wenn auch blöd überteuert, aber welche Karte ist das momentan nicht. Zieht schon bei 90-95 Watt mit der Desktop 3060er praktisch gleich.

Linmoum

2021-07-13, 20:32:04

Ich dachte wir wären mittlerweile schon davon weg, irgendwelchen fragwürdigen Tabellen Aufmerksamkeit zu schenken. Vor allem über ein Jahr vor dem potentiellen Launch.

Neurosphere

2021-07-13, 20:35:10

Unabhängig ob das nun BS ist oder nicht. Gleiches wie im Lovelace thread, 550 Watt sind zu viel. Ist zwar toll für Enthusiasten, aber wie will man das noch argumentieren?

Die Leistung wäre zwar gigantisch, die Frage ist aber ob der Preis für die nächste Gen und die potentielle überproportionale Leistungssteigerung quasi nur über den Mehrverbrauch rechtfertigen kann.

vinacis_vivids

2021-07-13, 20:46:07

32GB, 160CUs, 512MB IF Cache, 3Ghz GPU-CLK, 2,5Ghz MEM-CLK -> ich bin dabei, wenn NV so richtig vernichtet wird :D

2799$ ~ 3000€ Custom Marktpreis ist schon :eek:

HOT

2021-07-13, 20:59:48

Wohl eher 160CUs, 192MiB IF$, 384Bit 18GT/s GDDR6. Und das Ding ist die 7900XT. Eine 144CU-Variante wird dann die 7800XT, ähnlich wie in der jetzigen Generation.

Geldmann3

2021-07-13, 22:24:37

Wohl eher 160CUs, 192MiB IF$, 384Bit 18GT/s GDDR6. Und das Ding ist die 7900XT. Eine 144CU-Variante wird dann die 7800XT, ähnlich wie in der jetzigen Generation.

Du vermutest wirklich AMD gibt der Toplösung in einem Jahr (pro Chip) weniger Infinity Cache als es bei der Toplösung heute der Fall ist?
Und Du glaubst wirklich, ein Design bestehend aus mehreren Chips wird einfach das jetzige Singlechip-Leistungssegment übernehmen, obwohl der neue Chip mindestens 40% schneller pro CU sein wird?

gedi

2021-07-13, 22:28:03

:rolleyes:

https://www.forum-3dcenter.org/vbulletin/attachment.php?attachmentid=76156&stc=1&d=1626199800

Selten einen größeren Müll gelesen. Computerbild?

Geldmann3

2021-07-13, 22:29:19

Selten einen größeren Müll gelesen. Computerbild?

Warum? :rolleyes:

(Außer natürlich, dass AMD selbst noch nicht weiß, wie sie den Markt nächstes Jahr segmentieren wollen und wie genau die GPUs performen werden.)

maximus_hertus

2021-07-13, 23:50:01

Warum? :rolleyes:

(Außer natürlich, dass AMD selbst noch nicht weiß, wie sie den Markt nächstes Jahr segmentieren wollen und wie genau die GPUs performen werden.)

Weil die komplette Tabelle 0 Sinn ergibt.

Die ganze Segmentierung bei den Preisen ist „interessant“.

Vor allem Preise jetzt schon zu nennen. Ich habe lange Jahre mehr oder weniger an der Distriquelle gearbeitet. Bei Grafikkarten wurden die Preise teils erst einen Tag vor Launch festgelegt.

Klar überlegt man von Anfang an, in welche Preissegmente man möchte. Aber über 1 Jahr vor Launch solch exakten Preise? Das macht keinen Sinn.

Das ist ein wirklich schlechter „Fake“. Auch die Produktnamen sind BS.

Zum Nachdenken: wer um alles in der Welt würde freiwillig die 2400 Euro Karte kaufen? Welchen Markt / Käufer soll bedient werden?

Das gleiche für 1500 und 1300 Euro. Die 1300er wird niemand kaufen. Sie macht 0 Sinn.

Ein Chip, dessen größter Ausbau 50% schneller sein soll als eine Salvage Variante?

Der Speicherausbau / IFCache und CU Anzahl passt teilweise nicht zusammen.

3090 + 170%? Alleine da kann man aufhören zu lesen. Ende 2022 / 2023 wird eine 3090 wohl ein gutes Stück weg gezogen sein (im Vergleich zur 6900 XT). RT wird dann wohl langsam die Regel und AMD kann auch nicht zaubern.

Imo ist die Tabelle von oben bis unten Schwachsinn. Leistung und Preis der Vanilla 7700 bevor die 6700 gelauncht wurde. Alles klar ;)

Geldmann3

2021-07-14, 00:19:47

Weil die komplette Tabelle 0 Sinn ergibt.

Die ganze Segmentierung bei den Preisen ist „interessant“.

Vor allem Preise jetzt schon zu nennen. Ich habe lange Jahre mehr oder weniger an der Distriquelle gearbeitet. Bei Grafikkarten wurden die Preise teils erst einen Tag vor Launch festgelegt.

Klar überlegt man von Anfang an, in welche Preissegmente man möchte. Aber über 1 Jahr vor Launch solch exakten Preise? Das macht keinen Sinn.

Das ist ein wirklich schlechter „Fake“. Auch die Produktnamen sind BS.

Zum Nachdenken: wer um alles in der Welt würde freiwillig die 2400 Euro Karte kaufen? Welchen Markt / Käufer soll bedient werden?

Das gleiche für 1500 und 1300 Euro. Die 1300er wird niemand kaufen. Sie macht 0 Sinn.

Ein Chip, dessen größter Ausbau 50% schneller sein soll als eine Salvage Variante?

Der Speicherausbau / IFCache und CU Anzahl passt teilweise nicht zusammen.

3090 + 170%? Alleine da kann man aufhören zu lesen. Ende 2022 / 2023 wird eine 3090 wohl ein gutes Stück weg gezogen sein (im Vergleich zur 6900 XT). RT wird dann wohl langsam die Regel und AMD kann auch nicht zaubern.

Imo ist die Tabelle von oben bis unten Schwachsinn. Leistung und Preis der Vanilla 7700 bevor die 6700 gelauncht wurde. Alles klar ;)

AMD weiß sicher selbst noch nicht, wo die finalen Preise liegen.

Nun ja, wer die 2400€ Karte kaufen soll, ich weiß nicht, bei der 2,8k Karte wäre ich aber dabei. AMD wird diese Karten eher als Halo Produkt und an professionelle Käufer richten. Auch, wenn es in Wirklichkeit die ultimativen Gaming-Monster sind, die jeder gerne hätte, sich aber kaum jemand leistet.

Warum macht die 1300€ Karte keinen Sinn? Die RTX 3090 wurde schließlich auch aus den Regalen gerissen und die 7900 XT wäre günstiger und deutlich schneller.

Wenn die RX 7800 256MB Infinity Cache haben soll ist davon auszugehen, dass es eine Salvage-Lösung der 7950 XT ist. Doch dann 33% langsamer als diese? Das erscheint mir auch etwas viel. Wobei, die RX 6800 ist auch 25% langsamer als die 6900XT...

AMD kann zwar nicht zaubern doch physikalisch sehe ich keinen Grund, warum sie in einem Jahr nicht mindestens die Performance-Charakteristik von Ampere erreichen und das auf einen kleineren node bringen können sollten.

Ja, RTX 3090 + 170% ist ein unglaublicher Sprung. Doch mit 2 Chips +40-60% IPC in 5nm und 550 Watt Leistungsaufnahme spricht auch nicht viel dagegen.

Linmoum

2021-07-14, 00:22:38

Warum? :rolleyes:

(Außer natürlich, dass AMD selbst noch nicht weiß, wie sie den Markt nächstes Jahr segmentieren wollen und wie genau die GPUs performen werden.)Ist die Frage ernst gemeint?

Der Launch soll gerüchteweise irgendwann H2 2022 sein. Also in 12+++ Monaten.

Wenn Chiplets kommen, wofür es immer wieder Anhaltspunkte gibt, dann wird das schon alleine auf Seiten der Software einiges an Arbeit erfordern. Das ist noch ewig hin bis zum Launch.

Performanceprognosen bzw. Ziele gibt es intern natürlich. Das ist völlig normal. Aber da ist noch nichts annähernd final zum jetzigen Zeitpunkt. Speicher(bandbreite), Takt, Verbrauch, ggf. Größe des IF$.

Und spätestens dann, wenn da Preise auftauchen, ist sowas mit Computerbild noch nett umschrieben.

Geldmann3

2021-07-14, 00:25:22

Ist die Frage ernst gemeint?

Der Launch soll gerüchteweise irgendwann H2 2022 sein. Also in 12+++ Monaten.

Wenn Chiplets kommen, wofür es immer wieder Anhaltspunkte gibt, dann wird das schon alleine auf Seiten der Software einiges an Arbeit erfordern. Das ist noch ewig hin bis zum Launch.

Performanceprognosen bzw. Ziele gibt es intern natürlich. Das ist völlig normal. Aber da ist noch nichts annähernd final zum jetzigen Zeitpunkt. Speicher(bandbreite), Takt, Verbrauch, ggf. Größe des IF$.

Und spätestens dann, wenn da Preise auftauchen, ist sowas mit Computerbild noch nett umschrieben.

Es ist ja auch eine ,,Future Projection" und kein Leak...
Final ist da sicher sogar intern noch gar nichts.

Leonidas

2021-07-16, 12:29:19

Man sollte es kenntlicher machen, das es eine eigene Projektion ist - dann kommt es auch nicht in den falschen Hals.

Cyberfries

2021-07-22, 11:08:48

Interessanter Tweet von Yuko Yoshida (https://twitter.com/KittyYYuko/status/1418086308006686720), automatisch übersetzt durch deepL:
Wir sind überzeugt, dass Navi31 6x10 sein wird, aber wir wissen nicht, wie es gebaut ist.
Was Navi33 betrifft, so wird es im vierten Quartal dieses Jahres auf Band erscheinen.

In Bezug auf Rohleistung wäre das ein echtes Monster:
- 6 Shader Engines (bisher erwartet 8)
- 60 WGPs (20 mehr als gedacht)
- 15360 Shader laut kopite7kimi in den Kommentaren (50% mehr als vermutet, 3x N21)
Geht AMD also den gleichen Schritt wie Ampere mit 128fp32 je CU?
Oder gelten die 60wgp je GCD und die 15360 Shader für das Gesamtkonstrukt?

Zu Tapeouts:
31 MCD Soon!
32 Maybe 2022Q1?

AffenJack

2021-07-22, 11:24:52

Der_Korken

2021-07-22, 11:55:40

Mal gucken, ob da was dran ist. Das erklärt einfach die aberwitzigen Performanceangaben der ganzen Leaker. Das Ding könnte ne riesige Shaderpower haben, wie Ampere. Aber die IPC dürfte genauso deutlich runter gehen in Spielen. Guckt man aber nur auf die Flops, dann ist die Steigerung natürlich extrem.

Das würde tatsächlich Sinn ergeben. Die ganzen Performance-Prognosen konnten einfach nicht stimmen, weil es völlig unglaubwürdig ist, dass AMD entweder die Effizienz um Faktor 2.5-3.0 steigert oder auf 450W Standard-Verbrauch hochgeht. Wenn die dreifache Shader-Zahl aber nur im Schnitt nur knapp doppelte Leistung bringt, dann würde es aber wieder passen.

Ich frage mich nur, warum AMD diesen Schritt gehen sollte. Sie sind gerade erst weg von der Vega-"Luftpumpe" und konnten ihre Leistung signifikant steigern, weil sie den CU-Count klein halten konnten und stattdessen IPC und Takt erhöht haben. Eigentlich haben sie mit N21 sogar etwas IPC verloren, denn der Chip ist "nur" ca. doppelt so schnell wie N10, hat dafür aber doppelte CUs und deutlich mehr Takt. Der Taktbonus wird vom IPC-Verlust quasi komplett aufgefressen. Könnte man diese IPC wiederherstellen, wäre das alleine schon ein 25%-Leistungsplus, ohne dass es dafür mehr flops/s braucht.

Das hier ist übrigens auch sehr interessant: https://chipsandcheese.com/2021/05/13/gpu-memory-latencys-impact-and-updated-test/

Wenn ich das richtig interpretiere, ist die Auslastung der SMs bei Ampere deutlich gegenüber Pascal gesunken und der größte Verursacher ist die Cache- und Speicherlatenz. Da ist schon fraglich, ob die Transistoren in größere Caches nicht besser investiert wären als in mehr SMs. GA102 hat übrigens mehr SPs als ein 4K-Display Pixel hat. Da ich nicht vom Fach bin, weiß ich nicht wie relevant das ist, aber wenn die Anzahl von SPs schneller steigt als die Anzahl zu berechnender Pixel, läuft man dann nicht irgendwann in das Problem, dass die Renderpipeline gar nicht genug parallele Arbeit generieren kann um alle SPs zu beschäftigen? Ampere fällt bei kleinen Auflösungen ja bereits sichtbar zurück gegenüber Turing und RDNA2.

mboeller

2021-07-22, 12:18:46

Interessanter Tweet von Yuko Yoshida (https://twitter.com/KittyYYuko/status/1418086308006686720), automatisch übersetzt durch deepL:

der Google-Translator spuckt folgendes aus:

I'm sure Navi31 will be 6x10, but I'm not sure how it's built.
Navi33 will be taped out in the fourth quarter of this year

robbitop

2021-07-22, 13:18:25

@Korken
Ampere kann die 128 fp pro SM kaum ausnutzen aufgrund von einer Limitierung von registern und ports im SM. Es war billig, die fpus zu verdoppeln aber man hat viele andere Dinge im SM nicht verdoppelt. Dass man die auslasten kann, zeigt Maxwell und Pascal (die diese Limitierung nicht hatten).

Latenz spielt für gpus nur eine untergeordnete Rolle. Einfach weil so viele threads in flight sind.

basix

2021-07-22, 14:23:31

Eigentlich haben sie mit N21 sogar etwas IPC verloren, denn der Chip ist "nur" ca. doppelt so schnell wie N10, hat dafür aber doppelte CUs und deutlich mehr Takt. Der Taktbonus wird vom IPC-Verlust quasi komplett aufgefressen. Könnte man diese IPC wiederherstellen, wäre das alleine schon ein 25%-Leistungsplus, ohne dass es dafür mehr flops/s braucht.
RDNA2 hat ziemlich exakt die gleiche IPC wie RDNA1: https://www.computerbase.de/2021-03/amd-radeon-rdna2-rdna-gcn-ipc-cu-vergleich/#abschnitt_gcn_vs_rdna_vs_rdna_2_benchmarks_in_full_hd

Bei hohen Taktraten wird ein IPC-Vorteil für RDNA2 resultieren, das sieht man bei den Messungen von CB auch (bei 2.0GHz 1.02 vs. 0.96 bei 1.0GHz). Und genau das ist der Vorteil vom Infinity Cache und niedrigen Latenzen.

N21 hat ein anderes "Problem": Mehr CUs. Siehe den selben CB Test, dort ist auch die CU Skalierung dabei. Von 40 auf 80 CUs skaliert RDNA2 nur mit Faktor 1.7x, und das in 4K.

GA102 hat übrigens mehr SPs als ein 4K-Display Pixel hat.

Bei den SPs und Pixel hast du dich um ca. 3 Grössenordnungen vertan ;)

Latenz spielt für gpus nur eine untergeordnete Rolle. Einfach weil so viele threads in flight sind.

Anhand der letzten Untersuchungen die ich im Kopf habe ist es eher so, dass GPUs mittlerweile ebenfalls in der Tendenz Latency-Bound sind. Insbesondere, wenn die Taktraten steigen. AMD hat niedrige Latenz = >IPC bei der IF$ Präsentation explizit erwähnt und alle neueren GPUs tendieren zu grösseren Caches und niedrigeren Latenzen. Grundlos wird das nicht so designed.

Der_Korken

2021-07-22, 14:35:42

N21 hat ein anderes "Problem": Mehr CUs. Siehe den selben CB Test, dort ist auch die CU Skalierung dabei. Von 40 auf 80 CUs skaliert man nur mit Faktor 1.7x, und das in 4K.

OK, ich hatte mich oben falsch ausgedrückt: Die IPC ist nicht in den CUs selbst verloren gegangen, sondern im Gesamtkonstrukt. Wenn man davon ausgeht, dass die Skalierung oberhalb von 80 CUs nochmal schlechter wird, ist man bei 240 CUs (nach aktueller Zählweise) gar nicht mehr so weit von doppelter Performance auf 80 CUs entfernt. Eventuell sieht es bei RT besser aus. Zumindest scheint die 6700XT gegenüber der 6900XT deutlich stärker abzufallen: https://www.computerbase.de/thema/grafikkarte/rangliste/#diagramm-performancerating-fuer-raytracing-3840-2160

6900XT = 6700XT + 58% in 4K
6900XT = 6700XT + 77% in 4K+RT (bei vermutlich unspielbaren fps, aber es geht ja um Skalierung)

Bei den SPs und Pixel hast du dich um ca. 3 Grössenordnungen vertan ;)

Uuuups :freak:

In meinem Kopf war 4K*2K=8K (statt 8M). Hätte mir gleich komisch vorkommen müssen :D

unl34shed

2021-07-22, 15:00:45

Wenn 240CUs nur für die doppelte Leistung reichen soll, läuft aber gewaltig was schief, vergleichbarer Takt vorausgesetzt. Die Skalierung von in etwa 70% ist doch übrigens schon immer so, war schon von 285 zu Fury so.

dargo

2021-07-22, 15:15:54

Langlay

2021-07-22, 15:39:20

6900XT = 6700XT + 58% in 4K
6900XT = 6700XT + 77% in 4K+RT (bei vermutlich unspielbaren fps, aber es geht ja um Skalierung)

Die 6900XT hat zwar doppelt soviel CUs aber nur 30% mehr Powerlimit als die 6700XT. Also klaro wird die nicht doppelt so schnell sein.

Sunrise

2021-07-22, 15:44:25

Noch so eine Luftpumpe wie Ampere? Bitte nicht.
Mir persönlich wäre das völlig wurscht, stünden wir weiterhin bei $699 MSRP für eine 3080. Aber lassen wir das, natürlich hat es nicht jeder gern, wenn sein abgelecktes Silizium nicht ständig Vollgas geben kann.

Bei NV würde ich eher die Nutzung von GDDR6X ankreiden, denn das war für die letzten paar Prozent wohl notwendig.

Ich bin echt gespannt, wie AMD diese “Rohpower vs. Verbrauch und genug Bandbreite”-Thematik lösen wird. Hatten wir ja schon das Thema.

robbitop

2021-07-22, 16:02:06

Anhand der letzten Untersuchungen die ich im Kopf habe ist es eher so, dass GPUs mittlerweile ebenfalls in der Tendenz Latency-Bound sind. Insbesondere, wenn die Taktraten steigen. AMD hat niedrige Latenz = >IPC bei der IF$ Präsentation explizit erwähnt und alle neueren GPUs tendieren zu grösseren Caches und niedrigeren Latenzen. Grundlos wird das nicht so designed.
Naja. Die IF$ ist deutlich schneller in der Latenz und es bringt keinen IPC Vorteil ggü Navi 1x. In der Hauptsache entlastet es das SI. Ja ggf hat es auch mal einen sekundären Effekt. Aber auf keinen Fall den, den der User Korken beschrieben hat.

Am Ende ist auch das ein Effekt der von der Auslegung der uArch abhängt.

Der_Korken

2021-07-22, 16:28:13

Die 6900XT hat zwar doppelt soviel CUs aber nur 30% mehr Powerlimit als die 6700XT. Also klaro wird die nicht doppelt so schnell sein.

Korrekt, aber darum ging es in dem Post nicht. Die Skalierung wird besser, wenn RT dazu kommt. Einen taktnormierten Vergleich hat basix weiter oben verlinkt, aber auch da sind wir von Faktor 2 noch ein gutes Stück entfernt. Was natürlich OK ist, ich habe nur hinterfragt inwiefern eine Verdreifachung der Rohleistung bei den N31-Spekulationen noch sinnig ist (ohne dass man noch etliches mehr aufbohrt, aber das wäre in 5nm und in 300W dann nicht mehr realistisch imho).

Naja. Die IF$ ist deutlich schneller in der Latenz und es bringt keinen IPC Vorteil ggü Navi 1x. In der Hauptsache entlastet es das SI. Ja ggf hat es auch mal einen sekundären Effekt. Aber auf keinen Fall den, den der User Korken beschrieben hat.

Ja, das muss ich dir leider zustimmen. Im CB-Vergleich macht sich der IF$ nicht bemerkbar.

basix

2021-07-22, 16:35:58

In meinem Kopf war 4K*2K=8K (statt 8M). Hätte mir gleich komisch vorkommen müssen :D

Interessant ist es dennoch: Bei 2 GHz Takt und 120fps hat man mit einer 3090 genau...
- 349.9 GFlops/Frame
- 42.2 kFlops/Pixel

:D

Interessanter Tweet von Yuko Yoshida (https://twitter.com/KittyYYuko/status/1418086308006686720), automatisch übersetzt durch deepL:

In Bezug auf Rohleistung wäre das ein echtes Monster:
- 6 Shader Engines (bisher erwartet 8)
- 60 WGPs (20 mehr als gedacht)
- 15360 Shader laut kopite7kimi in den Kommentaren (50% mehr als vermutet, 3x N21)
Geht AMD also den gleichen Schritt wie Ampere mit 128fp32 je CU?
Oder gelten die 60wgp je GCD und die 15360 Shader für das Gesamtkonstrukt?

Irgendwie schwingt da "Hype Train Incoming!" stark mit.

So würde N33 1x 80CU (monolithisch) mehr Sinn machen. N32 passt da aber irgendwie auch nicht rein.

Cyberfries

2021-07-23, 09:11:37

Das Ding könnte ne riesige Shaderpower haben, wie Ampere. Aber die IPC dürfte genauso deutlich runter gehen in Spielen.

Das hat mit Ampere nichts zu tun. Eine WGP hat derzeit schon 128fp32. Und es scheint als ob es deutlich mehr SEs gibt.

Es wurde doch von N32 als einfach nur 1 Chiplet von N31 und MCD spekuliert?

Kann sein, dass es diese Idee mal gab, ist aber schon länger verworfen. N33 stand mal mit der Konfiguration im Gespräch.

Wenn die dreifache Shader-Zahl aber nur im Schnitt nur knapp doppelte Leistung bringt,

Die Leaker sprachen von 2,5-2,7x Leistung, was bei doppelter Anzahl Recheneinheiten unsinnig war.

Sie sind gerade erst weg von der Vega-"Luftpumpe" und konnten ihre Leistung signifikant steigern, weil sie den CU-Count klein halten konnten und stattdessen IPC und Takt erhöht haben.

Offensichtlich glaubt man die GCN-Probleme behoben zu haben. Kleine CU-Anzahl? Bereits N21 ist deutlich drüber.
Und wenn sich die These erhärtet, dass WGP die neuen CU sind, steigt die Zahl nur um 50%.

der Google-Translator spuckt folgendes aus:

Was willst du mir damit sagen? Das sind die gleichen Informationen, ist das ein Vorwurf dass ich google nicht genutzt habe?
google translate spricht im deutschen von "veröffentlicht", aus deepLs "Band" erkennt man wenigstens noch die ursprüngliche Aussage.
Englisch sind beide gleichwertig, allerdings erschließt sich mir der Sinn nicht,
in einem deutschsprachigen Forum einen japanischen Tweet auf englisch zu teilen.

Von 40 auf 80 CUs skaliert RDNA2 nur mit Faktor 1.7x, und das in 4K.

Ist doch ein üblicher Skalierungsfaktor für GraKas, im Bereich 1,6-1,7x lagen bisherige Generationen beider Hersteller auch.

So würde N33 1x 80CU (monolithisch) mehr Sinn machen. N32 passt da aber irgendwie auch nicht rein.

Die meisten bisherigen Überlegungen zu RDNA3 sind wohl Makulatur wenn die Treibereinträge zu N31 nur Platzhalter waren.

------------------------

6x10 ist eine sehr knappe Aussage, da lässt sich viel interpretieren.
Steht die 6 für SEs? SHs? Anzahl Chiplets? Sind 10 WGPs? CUs? Geht es gar nicht um Recheneinheiten?
Genauso kann kopites 15360 auch nur eine Korrektur des Rechenfehlers sein und keine eigene Information.
Vielleicht gab es eine Verwechslung und die 60 wgp sind zu N32
Und nochmal: man muss nicht weit scrollen um Fehlinformationen des Leakers zu finden.

Die Gerüchteküche ist sehr aktiv - ein Jahr vor Markstart - da kann noch viel passieren, ist vieles noch ungewiss.
Wir (glauben zu) wissen, dass N31 und N32 aus je 2GCD und 1 MCD aufgebaut sind, N33 nur aus einem GCD, ob es ein MCD gibt ist unklar.
Die Unterteilung der WGP in 2CU entfällt, wodurch die kleinste Einheit bei 128fp32 landet.

Auffallend ist, dass eine Skalierung über mehr SEs erfolgt, anders als bei nVidia.
10 WGPs je SE scheint optimal zu sein, wie bereits gesagt denke ich, dass die xBox Konfiguration ein schlechter Kompromiss ist.
Bei unverändertem SI wird der Inf$ vervierfacht, das SI wirkt trotzdem unterdimensioniert, ich kann mir kaum vorstellen
dass 512mb Inf$ das ausgleichen können. Und Leistungsaufnahme? selbst im Bestfall 400w

|N31|N32|N33|N21
SE|2x6|2x4|4|4
WGP|2x60|2x40|40|40
Shader|15360|10240|5120|5120
SI|256bit|192bit|128bit|256bit
Inf$|512mb|384mb|256mb|128mb

fondness

2021-07-23, 09:39:34

Der_Korken

2021-07-23, 10:09:22

Die Leaker sprachen von 2,5-2,7x Leistung, was bei doppelter Anzahl Recheneinheiten unsinnig war.

Offensichtlich glaubt man die GCN-Probleme behoben zu haben. Kleine CU-Anzahl? Bereits N21 ist deutlich drüber.

2,5-2,7-fache Leistung oder Rohleistung? Ich halte alles oberhalb von 100% Effizienzgewinn für unrealistisch und eine stark gestiegene Rohleistung, die aber nicht komplett in echte Leistung umgesetzt wird, ist für mich im Moment die plausibelste Erklärung beides unter einen Hut zu bekommen. Und ja, gemessen an der Leistung (2,5-fache V64-Leistung) sind 80 CUs "wenig".

Man braucht sich nur mal das Diagramm von AMD anzusehen, um zu wissen, dass mehr als 128MB Infinity Cache keinen Sinn machen, da die Hitraten nicht/kaum mehr steigt.

Ich glaube, dass sich die Hitrates in Zukunft verschieben. Bei der nächsten Gen mit mehr VRAM und Spielen, die auch mehr VRAM verwenden, wird man mehr Cache brauchen, um die Hitrate zu halten. Alles andere wäre ja völlig makaber, wenn ein 128MB großer Cache in jedem System der Welt immer für 50% Hitrate reicht, auch bei 1TB RAM dahinter :D.

vinacis_vivids

2021-07-23, 10:36:32

Um die Hitrate beim IF-Cache zu erhöhen, braucht AMD eine längere Rendering-pipeline, was also auch mehr GPU-Takt bedeuten muss.
Navi 21 ist ja bei 2.5-2.6Ghz. N31 geht sicherlich Richtung ~ 3.0Ghz
Der IF-Cache ist ja eine Art branch-prediction Cache, der wahrscheinlich eine nähere Anbindung bzw. Synchronisation mit dem L1/L2 Cache von Ryzen-CPU braucht. Nur so kann die CPU auch in höheren Auflösungen und RT richtig krass ausgelastet werden.
Die Auslastung ist in vielen Games bei 4K Ultra ja 99% GPU (6900XT) und 10-25% CPU (5950X).

Um, dann mGPU mit 160CUs oder auch in Zukunft auf 320CUs skalieren zu können, ist die Ausweitung des IF-Cache schon Pflicht. Bin gespannt wie die Bandbreite steigen wird, weil das ja Ultra-teuer ist. AMD geht also eher Richtung IF-Cache und Takt statt Bandbreite.

Der_Korken

2021-07-23, 10:44:03

Um die Hitrate beim IF-Cache zu erhöhen, braucht AMD eine längere Rendering-pipeline [...]

Den Zusammenhang verstehe ich nicht.

Der IF-Cache ist ja eine Art branch-prediction Cache, der wahrscheinlich eine nähere Anbindung bzw. Synchronisation mit dem L1/L2 Cache von Ryzen-CPU braucht. Nur so kann die CPU auch in höheren Auflösungen und RT richtig krass ausgelastet werden.

:uconf2:

Dir ist schon klar, dass der IF$ ein ganz klassischer Daten-Cache ist? Man hätte ihn auch L3-Cache nennen können.

basix

2021-07-23, 11:27:44

Man braucht sich nur mal das Diagramm von AMD anzusehen, um zu wissen, dass mehr als 128MB Infinity Cache keinen Sinn machen, da die Hitraten nicht/kaum mehr steigt. Die Angaben oben sind daher mit an Sicherheit grenzender Wahrscheinlichkeit Blödsinn.

BS. IF$ ist wie ein normaler Cache, die Missrate sinkt um ~sqrt(N) wobei N der Faktor der Cache Grösse ist. Bei 256MB sind es dann 1.42x und bei 512MB 2x Missrate Reduktion, beides verglichen zu 128MB.
Und da 1/Missrate dem effektiven Bandbreiten-Multiplikator entspricht, hat man mit halbierter Missrate auch doppelte effektive Bandbreite (oder kann die SI Bandbreite pro Performance halbieren)

384bit SI + 512MByte IF$ würden dann perfekt für 3.0x Performance verglichen mit N21 passen (1.5x SI, halbierte IF$ Missrate -> 3.0x effektive Bandbreite) ;)

Edit:
Bei 60 WGP pro Chiplet bestünde das Gesamtkonstrukt aus ziemlich viel Silizium. Bei N21 sind die 80 CUs inkl. L1/L2 und Common Core etwa. 300mm2 gross. In 5nm werden +50% Shadereinheiten wohl wiederum auf einer ähnlichen Grössenordnung landen. Dazu das MCD, welches ebenfalls 150...200mm2 gross werden wird plus 8-hi 512MB V-Cache. Wären total >1000mm2 Silizium und somit das doppelte von N21.

Günstig in der Herstellung wäre das auf jedenfall nicht: N5P, MCM, 3D-Stacking, viel Silizium.

vinacis_vivids

2021-07-23, 12:38:51

IF$ ist kein klassischer Cache, weil da die CPU via PCIe - SAM direkt drauf zugreifen kann, mit PCIe gen 5, wirds sicherlich noch breiter.

RDNA3 wird das Bandbreitenproblem mit steigender Auflösung (5K-8K) und RT mit dem Zuwachs des Caches lösen. Kann sein, dass der Cache dann flächenmäßig größer ist als die CU`s, die ja relativ wenig Fläche brauchen.

Das erklärt auch warum AMD so massivst an CU`s zulegen kann. Mittlerweile sind von 15360SP fp32 die Rede.

Ausgegend von full N21 5120SP sind das +300% :eek:

"RX 7900 XTX"
15360SP ~ 3Ghz ~ 92,16 Tflop/s fp32

RX 6900 XT
5120SP ~ 2,5Ghz ~ 25,6 Tflop/s fp32

Die aktuelle 6900XT sieht aus wie Kindergarten :eek:

WedgeAntilles

2021-07-23, 12:49:54

Ausgegend von full N21 5120SP sind das +300% :eek:

Check your math ;)

robbitop

2021-07-23, 14:06:13

IF$ ist wie ein normaler Cache, die Missrate sinkt um ~sqrt(N) wobei N der Faktor der Cache Grösse ist. Bei 256MB sind es dann 1.42x und bei 512MB 2x Missrate Reduktion, beides verglichen zu 128MB.
Genau so ist es.

Linmoum

2021-07-24, 03:31:14

Bondrewd hatte drüben im beyond3d übrigens auch noch mal ein wenig zu RDNA3/N31 geschrieben. Unter anderem

Auf die Frage nach den "CUs" bei N31:
120 per GCD, but they're 30WGP and you should count them as such.

Auf die Frage "256MiB IF$ per Chiplet/GCD":
No, those are discrete blobs attached to the MCDs.

Und auf die Anmerkung, dass ein 256bit SI (mit GDDR6) irgendwie nicht angemessen erscheinen:
Well technically yes but magic abound here.
https://forum.beyond3d.com/posts/2216653/

Er schreibt weiter auch noch, dass es "CUs" nicht mehr gibt und WGP jetzt die neuen CUs sind. Das hatte Cyberfries ja auch schon kurz angeschnitten. Nach alter CU-Rechnung haben wir bei N31 also 120 pro GCD*2 = 240 = 15360 Shader. Auch die hatte Cyberfries ja schon erwähnt. Und scheinbar bleibt es auch wie bei N21 bei einem 256bit SI.

Leonidas

2021-07-24, 06:24:01

120 per GCD, but they're 30WGP and you should count them as such.

... das würde ja bedeuten, 4 CU pro WGP !?

HOT

2021-07-24, 07:47:31

Jo ein Quar pro WGP. Riecht ein bisschen nach CCX -Design ;). Vielleicht baut man die 256 FP32-Einheiten (bzw. 512 FP16-Einheiten) um einen Cache herum.
Auf jeden Fall scheint AMD massiv die Organisation anzupacken, das was mMn bislang noch ne Schwäche bei RDNA.
3x soviele Einheiten, 2,7-Fache Leistung riecht allerdings auch nach 400W TDP und 1500€.
Ein gestackter Cache kann übrigens auch in 12LP+ kommen und er kann mehrere Lagen haben, das muss nicht zwingend 6nm sein.

Linmoum

2021-07-24, 08:46:33

... das würde ja bedeuten, 4 CU pro WGP !?Zumindest nach "altem" Verständnis. Ich bin noch bei CUs geblieben, da das für jeden noch verständlich und nachvollziehbar sein dürfte. Aber CUs wie wir sie bisher kannten und kennen scheint es mit RDNA3 nicht mehr zu geben. Er schreibt ja auch weiter
There's no "CU" anymore.
Just WGP.

basix

2021-07-24, 10:24:40

Ein gestackter Cache kann übrigens auch in 12LP+ kommen und er kann mehrere Lagen haben, das muss nicht zwingend 6nm sein.

Wieso sollte AMD das tun? Sie haben den 7nm V-Cache ja schon designed und in bald in Production.

Leonidas

2021-07-24, 11:59:44

Validierung des 5nm-Packagings für Zen 4 & RDNA3 läuft an:
https://www.3dcenter.org/news/hardware-und-nachrichten-links-des-23-juli-2021

Cyberfries

2021-07-24, 13:04:24

Die Angaben oben sind daher mit an Sicherheit grenzender Wahrscheinlichkeit Blödsinn.

Ist nicht auf meinem Mist gewachsen, 512mb wurden mehrfach von Leakern genannt und kamen auch in diesem Thread bereits vor.

Jo ein Quar pro WGP. Riecht ein bisschen nach CCX -Design ;).

Spannende Sache, damit hat wohl keiner gerechnet, das wären je WGP 256fp32.
Eine Verbindung zum Ryzen-CCX würde ich aber nicht suchen.

3x soviele Einheiten, 2,7-Fache Leistung riecht allerdings auch nach 400W TDP und 1500€.

Wenn es "nur" 1500€ und 400w werden, haben wir noch Glück gehabt. Könnte bei der Hardware noch wesentlich mehr werden.

Ein gestackter Cache kann übrigens auch in 12LP+ kommen und er kann mehrere Lagen haben, das muss nicht zwingend 6nm sein.

6nm für das MCD wurden mehrfach genannt, ich glaube nicht, dass darauf in einem anderen Verfahren gestapelt wird.

Wieso sollte AMD das tun? Sie haben den 7nm V-Cache ja schon designed und in bald in Production.

Ich kann mir kaum vorstellen, dass der Ryzen V-Cache bei RDNA3 zum Einsatz kommt, das wird eine eigene Lösung.

---------------------
Habe ich das richtig verstanden? Greymon55 ist Broly_X1? Damit müssen einige Leaks neu eingeordnet werden.

---------------------
Mit dieser neuen WGP Einteilung würde ich ausschließen, dass N33 ein Refresh ist.
Das wären dann unter Berücksichtigung der N31-Gerüchte eher 20WGP, 128bit SI und 256mb Inf$,
aber dann auch nur 2 Shader Engines? ... Wenig ... dann auch unter Entfall der Shader Arrays?

Leonidas

2021-07-24, 13:23:46

Habe ich das richtig verstanden? Greymon55 ist Broly_X1? Damit müssen einige Leaks neu eingeordnet werden.

Sieht so aus. Und auch Broly ist vorher unter anderem Namen aktiv gewesen. Treibt ein wenig ein Katz- und Maus-Spiel zur Verhinderung seiner Enttarnung.

Sunrise

2021-07-24, 21:37:30

…Wenn es "nur" 1500€ und 400w werden, haben wir noch Glück gehabt. Könnte bei der Hardware noch wesentlich mehr werden.
Wesentlich mehr als 400W? Aber natürlich…

Geldmann3

2021-07-24, 22:01:21

Wesentlich mehr als 400W? Aber natürlich…

Es sieht für mich so aus als würde man nächstens Jahr für 1500€ noch nicht das (MCM) Topmodell bekommen, auch wenn AMD die darüber liegenden Karten eventuell nicht an ,,Gamer" richtet, sondern eher an die Titan Kundschaft.
(Seien wir ehrlich, das sind in Wirklichkeit meist auch Gamer, mit viel Geld in der Tasche.)

Ich könnte mich aber absolut täuschen.

Orko

2021-07-24, 22:34:23

Der IF-Cache ist ja eine Art branch-prediction Cache, der wahrscheinlich eine nähere Anbindung bzw. Synchronisation mit dem L1/L2 Cache von Ryzen-CPU braucht.

Ein Hoch auf den neuen "Branch-Prediction Cache", Wunderwerk der internationalen Imagineurskunst. Diese Art Datenansammlung weist Ihnen trotz aller Verzweigungen den kürzesten Weg zur krudesten These, noch bevor Sie überhaupt Ihr Gehirn einschalten müssen. Jetzt bei Mammazon vorbestellen.

Infinity Cache + Branch Prediction Einheit = Branch-Prediction Cache. Genial.

Da melde ich mich nach > 10 Jahren stillen Mitlesen doch gleich mal an, um meiner Begeisterung Ausdruck zu verleihen.

Eine Wortkreation bei der ich vor Lachen über den Horizont kippe hat einfach meine vollste Anerkennung verdient, die ich hiermit gebührend (r)ausdrücken möchte.

Check
"level 1/2" wie in Level 2 TAGE Branch Prediction
vs
"level 1/2/3/ ..." wie in Level x Daten Cache in CPUs und GPUs

--------
Disclaimer: Dieser Post besteht zu 10% aus Zitaten, 0% aus Fakten, 0% aus Spekulation, 60% aus Ironie / Sarkasmus / Zynismus, 0% aus persönlicher Erfahrung, 5% aus Eigendarstellung, und 25% aus Begeisterung. Das Konsumieren erfolgt auf eigene Gefahr. Für geistiges Eigentum und Gesundheit Unbeteiligter wird keine Haftung übernommen.

Iscaran

2021-07-24, 23:05:23

Bondrewd hatte drüben im beyond3d übrigens auch noch mal ein wenig zu RDNA3/N31 geschrieben.

120 per GCD, but they're 30WGP and you should count them as such.

Auf die Frage "256MiB IF$ per Chiplet/GCD":
Zitat:

No, those are discrete blobs attached to the MCDs.

Und auf die Anmerkung, dass ein 256bit SI (mit GDDR6) irgendwie nicht angemessen erscheinen:

Er schreibt weiter auch noch, dass es "CUs" nicht mehr gibt und WGP jetzt die neuen CUs sind. Das hatte Cyberfries ja auch schon kurz angeschnitten. Nach alter CU-Rechnung haben wir bei N31 also 120 pro GCD*2 = 240 = 15360 Shader. Auch die hatte Cyberfries ja schon erwähnt. Und scheinbar bleibt es auch wie bei N21 bei einem 256bit SI.

Das würde ich aber aus dem Englischen irgendwie anders interpretieren:
120 per GCD, but they're 30WGP and you should count them as such.

ich denke das "they are 30 WGP" bezieht er auf den GCD.

Und was genau meint er mit "das sind WGP und man sollte sie auch als solche Zählen..."

Klassische WGP sind 2CU...wenn ich diese also als solche wie bislang zählen sollte, wären wir demnach bei

120 CU pro GCD? oder 120 CU für das Gesamte Konstrukt?
Ein GCD hat aber nur 30 WGPs (=60 CUs) ("you should count them as such")

=> ein GCD hat 2 Shader Cluster (oder engines?) womit 2x30 = 60 WGP =120 CUs pro GCD

Da Navi31 aus 2GCD+1MCD womöglich bestehen soll, wäre die Konfig also "klar":
Lösung 1:
2xGCD zu je 2x30WGP(mit je 2CU pro WGP) = 2x60 WGP = 2x120 CU
und damit "klassisch" x64 = 15.360 Shadern

ODER aber
Lösung 2: Da der Gesamtchip nur 120 CUs trägt aber in 2 GCDs zerlegt ist und diese wiederum aus 30 WGP bestehen die klassisch 2 CUs tragen:
2x30*2= 120 CU in 2 Chiplets zu je 60 CUs.

womit wir klassisch bei 7680 Shadern wären.

Der Performance-Sprung mit 2.5 -2.7 erscheint mir auch viel zu hoch...kann es sein, dass man hier wieder den klassichen Fehler von Performance vs +Performance macht.

250% Leistung sind nicht +250%.

Demnach wäre ein Faktor von 2.5 "leistung" ein Plus von 150% Leistung.

Basierend auf den 5120 Shadern in Navi21 wäre das aber mit 7680 Shadern nur sehr schwer zu realisieren... +50% CUs ...= +50% Leistung.

Wohingegen mit 15k Shader wären wir bei 300%. Wenn davon die Hälfte ankommt ist man zwar nicht gut - aber OK. Übliches scaling sind ja so ~1.7 bei +100% Shadern.
15k Shader mit ~1.7 skaliert wären + 175% Leistung... (siehe oben faktor 2.5-2.7 in "Leistung" ist ein Leistungsplus von 150-170%.

Just my point of view.

reaperrr

2021-07-24, 23:58:35

Der Performance-Sprung mit 2.5 -2.7 erscheint mir auch viel zu hoch...kann es sein, dass man hier wieder den klassichen Fehler von Performance vs +Performance macht.

250% Leistung sind nicht +250%.

Demnach wäre ein Faktor von 2.5 "leistung" ein Plus von 150% Leistung.
Ich dachte, dass wäre sowieso klar?
Mit 2.5-2.7 ist der Faktor gemeint, also 2.5x-2.7x. 100% x 2.5-2.7 = 250-270% der N21-Leistung, also ein + von 150-170%.

Von Seiten der Leaker/Gerüchteküchen wurde meines Wissens auch nie was anderes behauptet, wenn da jemand hier mehr draus macht sind das Fehlinterpretationen.

Geldmann3

2021-07-25, 02:54:11

Ich dachte, dass wäre sowieso klar?
Mit 2.5-2.7 ist der Faktor gemeint, also 2.5x-2.7x. 100% x 2.5-2.7 = 250-270% der N21-Leistung, also ein + von 150-170%.

Von Seiten der Leaker/Gerüchteküchen wurde meines Wissens auch nie was anderes behauptet, wenn da jemand hier mehr draus macht sind das Fehlinterpretationen.

RedGamingTech hat gefühlt 100x gesagt, ,,2.7x faster", was einer Performancesteigerung von 270% entsprechen würde, was natürlich Unsinn ist. Wahrscheinlich meinte er immer 170% faster, doch solche Unachtsamkeiten regen mich irgendwie auf. Die sollen aufpassen, was für einen Bullshit sie den ganzen Tag reden. Oft hat er auch gezeigt, dass er gewisse Technologien überhaupt nicht versteht und hat dennoch echt viel Mist dazu gelabert. Gerüchte, die eigentlich seiner eigenen Meinung entsprechen. DLSS 2.0 z.b. immer so beschrieben, als ob eine AI das Bild hochrechnen würde, als ,,Magie" und das mit Microsofts Direct ML Lösung verglichen. Dabei ist DLSS 1.8+ im Kern temporales Supersampling. Habe oft versucht ihn zu korrigieren, doch meine Kommentare zu solch technischen Themen gehen auf Youtube natürlich völlig unter. Auch ,,Moores Law is Dead" hat großteils keine Ahnung von der Technologie über die er ,,dummbabbelt". Bei ihm weiß ich aber, dass er zumindest wirklich gute Quellen hat, wenn da nur nicht der ganze Unsinn wäre, den er nebenher noch raushaut.

Langlay

2021-07-25, 03:44:26

RedGamingTech hat gefühlt 100x gesagt, ,,2.7x faster", was einer Performancesteigerung von 270% entsprechen würde, was natürlich Unsinn ist.

https://abload.de/img/giphyrkjps.gif

Dein Satz ist unsinn. 2.7x schneller ist 170% schneller.

2x so schnell ist +100%, ergo ist 2,7x 170%.

Leonidas

2021-07-25, 05:21:28

Dieser Post besteht zu 10% aus Zitaten, 0% aus Fakten, 0% aus Spekulation, 60% aus Ironie / Sarkasmus / Zynismus, 0% aus persönlicher Erfahrung, 5% aus Eigendarstellung, und 25% aus Begeisterung. Das Konsumieren erfolgt auf eigene Gefahr. Für geistiges Eigentum und Gesundheit Unbeteiligter wird keine Haftung übernommen.

:up:
Gesunde Mischung.

Zossel

2021-07-25, 07:22:24

Dein Satz ist unsinn. 2.7x schneller ist 170% schneller.

Warum propagiert man so unübersichtliche Formulierungen?

Distroia

2021-07-25, 11:01:28

https://abload.de/img/giphyrkjps.gif

Dein Satz ist unsinn. 2.7x schneller ist 170% schneller.

2x so schnell ist +100%, ergo ist 2,7x 170%.

Du schreibst erst "170% schneller" und dann "2x so schnell" und tust so als ob es das gleiche wäre. Die Formulierung "2,7x schneller" (mit Komma, nicht mit Punkt im Deutschen) sollte es meiner Meinung nach gar nicht geben, denn sie stiftet nur Verwirrung. Entweder soundsovielmal so schnell oder soundsoviel Prozent schneller.

Rein logisch wäre 2,7x schneller sogar wirklich +270%, aber wie gesagt, ich finde diese Formulierung sollte man gar nicht benutzen.

Geldmann3

2021-07-25, 12:12:28

Dein Satz ist unsinn. 2.7x schneller ist 170% schneller.

2x so schnell ist +100%, ergo ist 2,7x 170%.

Ähhm nö.

,,2.7 times as fast" bedeutet +170%.

Wenn er aber

,,2.7 times faster" sagt, bedeutet das +270%.

basix

2021-07-25, 14:07:40

Jeder normale Mensch versteht "2.7x faster" als 2.7x normiert auf 1.0 und nicht 1 + 2.7. Wenn man das nicht verstehen will: Überlegt euch, wie man es auf Deutsch sagen würde. Wenn ich sage "es ist 2.7x schneller" versteht man das auch, dass es effektiv 3.7x schneller als die Basis ist? :rolleyes: Ein Auto fährt 40km/h und das andere 100km/h. Ist das letztere nun 2.5x schneller oder 1.5x? Ich glaube alle sollten wissen, was logischer ist.

Edit:
Das "faster" und "schneller" ist immer erweiterbar zu "faster than" und "schneller als", kann aber weggelassen werden ohne die Meinung des Inhalts zu ändern ;)

Nightspider

2021-07-25, 14:16:34

Ein Auto fährt 40km/h und das andere 100km/h. Ist das letztere nun 2.5x schneller oder 1.5x?

Na 1,5x. Alles andere ist falsch.

Die Diskussion erinnert an Hübies Künste bei der Prozentrechnung.

unl34shed

2021-07-25, 14:22:13

Na 1,5x. Alles andere ist falsch.

Die Diskussion erinnert an Hübies Künste bei der Prozentrechnung.

Das Problem ist einfach der wörtlichen Übersetzung geschuldet.
"two times faster" im Englischen entspricht im deutschen doppelt so schnell, wörtlich übersetzt wäre es aber "zweimal schneller", was in der deutschen Sprache eben die dreifachen Performance entsprechen würde.

aufkrawall

2021-07-25, 14:29:00

Empfehle zu sprechen, was geschrieben steht (x = xmal so schnell) -> riddle solved.

Distroia

2021-07-25, 19:47:37

Im Englischen scheint man sich da auch nicht einig zu sein.

https://forum.wordreference.com/threads/ten-times-faster-than-me-ten-times-as-fast-as-me.2323287/

Ich schätze mal, irgendwie hat mit damit angefangen und hat damit das selbe gemeint wie "x times as fast" und dann haben andere (zu Recht) gesagt, dass das rein logisch nicht stimmt. Trotzdem wird es von vielen noch so verwendet. Dann haben das andere wörtlich ins Deutsche übersetzt, was jetzt noch mehr Verwirrung stiftet.

Wir haben x times as fast und x percent faster und damit alles, was wir brauchen. Wie schon gesagt, ich finde X times faster sollte einfach grundsätzlich nicht verwendet werden, weil nutzlos und stiftet sehr viel Verwirrung. Wenn es jemand benutzt hat sollte die Frage daher auch nicht sein, was richtig ist, sondern was gemeint war.

ChaosTM

2021-07-26, 08:11:36

Grafikkarte "XY" hat 190% der Rasterisierungsleistung und 250% der RTRT Leistung des Vorgängers. Diese Angabe wäre nicht misszuverstehen.
Ich hoffe das schafft man diesmal. (Wishful thinking).
Vielleicht bei 500 Watt Verbrauch einer "Dual Chiplet" Karte. ;)

HOT

2021-07-26, 08:24:26

Na ja, man meint halt, dass RDNA3 dann eben 3x mehr Rohleistung hat und 2,7x davon umsetzt. MMn geht das nur mit gleichzeitig mehr Takt. Das bedeutet in meinem Verständnis aber mindestens 400W.

basix

2021-07-26, 09:46:49

Na ja, man meint halt, dass RDNA3 dann eben 3x mehr Rohleistung hat und 2,7x davon umsetzt. MMn geht das nur mit gleichzeitig mehr Takt. Das bedeutet in meinem Verständnis aber mindestens 400W.

Bei den letzten Gerüchten spricht man von 240 CUs. Takt müsste also nicht steigen für die 3-fache Rohleistung. 2.7x von 3.0x wäre aber ein 90% Scaling, was recht stark wäre. Evtl. hat da der Umbau der WGPs einen grossen Beitrag, man spricht ja von 256x FP32 pro WGP (aka 4x CUs pro WGP) und nur noch 60 WGPs für den Maximalausbau.

HOT

2021-07-26, 11:01:20

Jop, hab eben die Effizienz etwas bezweifelt. Ich denke, man wird weniger als 90% schaffen bei der Skalierung, das ist ja bereits enorm.

Leonidas

2021-07-26, 11:04:25

Lösung 1:
2xGCD zu je 2x30WGP(mit je 2CU pro WGP) = 2x60 WGP = 2x120 CU
und damit "klassisch" x64 = 15.360 Shadern

ODER aber
Lösung 2: Da der Gesamtchip nur 120 CUs trägt aber in 2 GCDs zerlegt ist und diese wiederum aus 30 WGP bestehen die klassisch 2 CUs tragen:
2x30*2= 120 CU in 2 Chiplets zu je 60 CUs.

womit wir klassisch bei 7680 Shadern wären.

Lösung 3:
2x GCD mit jeweils 30 WGP und jeweils 7680 FP32 (1 WGP = 256 FP32).
-> ergibt zusammen 15360 und 60 WGP, so wie von den anderen Quellen genannt

Meines Erachtens nach kann man es auch gar nicht anders auslegen. Bondrewd ordnet einem GCD klar 30 WGP und 120 (sinngemäße) CU zu. Mit der CU-Angabe will er nur klarmachen, wie dies im alten System wäre. Damit trifft er aber gleichzeitig auch eine Aussage zur gesamten FP32-Anzahl. 120 CU sind 7680 FP32, die aber in 30 WGP organisiert sind. Alles pro GCD.

Linmoum

2021-07-26, 12:44:58

(it's 32 * 8 * 10 * 3 * 2)
https://forum.beyond3d.com/threads/amd-rdna-3-speculation-rumours-and-discussion.62092/page-25#post-2216907

Da habt ihr eure Lösung. ;) Er sagt auch noch weiterhin, dass das GCD kleiner als 350mm2 sein wird.

basix

2021-07-26, 12:54:01

https://forum.beyond3d.com/threads/amd-rdna-3-speculation-rumours-and-discussion.62092/page-25#post-2216907

Da habt ihr eure Lösung. ;) Er sagt auch noch weiterhin, dass das GCD kleiner als 350mm2 sein wird.

32 FP32 * 8 = 256 FP32 pro WGP
10 * 3 = 30 WGP pro GCD
256 * 30 = 7680 FP32 Units
7680 * 2 GCDs = 15'360 FP32 Units

<350mm2 für 120 CUs? Wäre so ziemlich das, was man ausgehend von ~300mm2 für 80 CUs bei N21 erwarten kann.

Edit:
2*350mm2 + ~160mm2 (MCD) + 288mm2 (8x 36mm2 V-Cache) = 1150mm2 :eek:

Selbst ohne stacked IF$ wäre das Ding von der Grössenordnung her ein TU102: ~750mm2 in 5nm

Und damit hätte AMD auch ähnlich viele TFlops wie AD102 (Gedankenspiel anhand der bestehenden Gerüchte):
- 144 SMs @ 2.0 GHz = 73.73 TFlops
- 60 WGPs @ 2.4 GHz = 73.73 TFlops

Irgendwie alles ein wenig krass "Hype Train" Specs. Und weit weg von 300W ;)

Piefkee

2021-07-26, 13:22:34

<350mm2 für 120 CUs? Wäre so ziemlich das, was man ausgehend von ~300mm2 für 80 CUs bei N21 erwarten kann.

Navi21 ist doch 505mm² ?

vinacis_vivids

2021-07-26, 13:27:18

520mm² - Das ist die Gesamtfläche für Navi21
Die 80 CU`s an sich sind so ~ 300mm²

basix

2021-07-26, 13:46:28

Jepp, danke @VV

300mm2 = Nur CUs, Control-Block (Common Core) und L2$. Ohne GDDR6-Speicherinterface, IF$, PCIe, Display Controller, VCN, sonstiges IO

Edit:
bondrewd beschreibt im Beyond3D Forum auch, dass 7nm auf 5nm SoIC kein Problem sein sollte und von einer gewissen Packaging Firma auch schon angeboten wird. Das würde es ermöglichen, den V-Cache von Zen 3 (7nm) auch für RDNA3 zu verwenden (6nm oder 5nm). Meiner Meinung nach die naheliegenste und logischste Variante.

Edit 2:
Wenn AMD 512 MByte V-Cache verbauen sollte, müssten es total dann nicht 544 MByte IF$ sein? Siehe Zen 3, wo man 32 MByte auf dem CCD hat. Diese 32 MByte wären im Falle von RDNA3 auf dem MCD.

HOT

2021-07-26, 16:18:01

Man weiss ja jetzt, dass es einen Markt für 1000€+ gibt. Und vielleicht will man nach sehr sehr langer Zeit mal wieder ganz weit vorne rauskommen, koste es was es wolle, weil man es kann ;).

Ich vermute, dass sich mit dem Wegfall der "CU-Grenzen" noch mal ordentlich Fläche (und Latenz) sparen lässt u.U., also N21 konsequent weitergedacht.

Relic

2021-07-26, 16:31:49

Edit 2:
Wenn AMD 512 MByte V-Cache verbauen sollte, müssten es total dann nicht 544 MByte IF$ sein? Siehe Zen 3, wo man 32 MByte auf dem CCD hat. Diese 32 MByte wären im Falle von RDNA3 auf dem MCD.

Wenn man von Anfang an mit Stacked Cache geplant hat braucht man ja keinen in den MCD einbauen.
Ist ja bei ZEN3 anders dort muss der CCD ja auch ohne den V-Cache laufen.

AffenJack

2021-07-26, 16:47:56

Man weiss ja jetzt, dass es einen Markt für 1000€+ gibt. Und vielleicht will man nach sehr sehr langer Zeit mal wieder ganz weit vorne rauskommen, koste es was es wolle, weil man es kann ;).

Jupp. Man sollte bei N21 jetzt keine humanen Preise erwarten. Wenn wir Bondrewd als Quelle für andere Dinge nehmen, sagt er ja auch:

...
MCP GPUs are a win more setup.
You pay $2500 and you get more!

Die günstigste N31 würde ich da als Salvage vll bei 999$ erwarten. Dann kann man auch mit TDP von bis zu 450W arbeiten.

Leonidas

2021-07-26, 17:24:18

Sozusagen eine echte Wiederbelebung von SLI. Da hat man ja auch mehr gezahlt, um mehr zu bekommen.

Linmoum

2021-07-26, 17:29:21

Hat nur mehr schlecht als recht funktioniert. :D

Nightspider

2021-07-26, 17:30:28

Deswegen lohnt es sich bei N31 um so mehr 1500-2000 Euro auszugeben.

vinacis_vivids

2021-07-26, 19:45:50

1500-2000 Euro sind unrealistisch, weil die 6900XT derzeit 1500-2000 Euro kostet.

Preislich denke ich eher an 2000-3000€ für den Top-Dog RDNA3 mit 15360 fp32 Units, 512MB IF$ und vllt. 64GB VRAM.
Das ganze noch garniert mit 3Ghz GPU-CLK :eek:

basix

2021-07-26, 19:52:00

Wenn man von Anfang an mit Stacked Cache geplant hat braucht man ja keinen in den MCD einbauen.
Ist ja bei ZEN3 anders dort muss der CCD ja auch ohne den V-Cache laufen.

Prinzipiell hast du recht. Aber wo ist dann der Cache-Controller? Die Cache-Tags? Der Bereich des Chips, welcher nicht viel Saft benötigt damit man darüber den Cache stapeln kann? Ich denke es ist deutlich einfacher für AMD, einfach das Grundkonzept und die Funktionsblöcke von Zen zu übernehmen. Das beinhaltetet nicht nur das Design des ganzen sondern auch das Testing und die aufwändige Evaluation (Signaling, Thermik, Hot Spots, Materialien, SoIC Machbarkeit, ...). AMD ist immer noch eine relativ kleine Bude und hat so viele Chips in der Pipeline. Synergien zu nutzen wäre einfach sinnvoll, anstatt überall etwas neues zu erfinden.

@VV:
64GByte und 3GHz sind vermutlich etwas übers Ziel hinaus geschossen ;) 32 GByte sind bereits ziemlich Overkill und 3.0 GHz wirst du bei so viel HW nur mit starkem OC sehen (wenn es dir vorher nicht noch das 1kW PSU um die Ohren weht).

Thunder99

2021-07-26, 21:57:20

Heutige Straßenpreise sind die neuen UVPs, genau :rolleyes:

Ich Frage mich echt wieso viele denken die GPUs sind absolute Energieschleuder. Ob AMD oder Nvidia, wartet doch ab bis es handfeste Hinweise gibt. Für mich ist das mehr als übertrieben...

davidzo

2021-07-27, 10:05:53

Es ist doch zu hoffen dass die ganze Verbrauchsexplosion irgendwann mal endet.
So beeindruckend die Leistungssteigerungen der letzten Generation auch sein mögen, so mies sieht das aus wenn man die TDPs dazu sieht.

Für mich ist ein Upgradegrund immer dann wenn ich die doppelte Leistung oder mehr erreichen kann.
Das ist derzeit noch nichtmal gegenüber meiner uralten Maxwell GTX980 der Fall. 174 Watt, das ist genau der Verbrauch einer 3060 und die erreicht im FHD index noch nichtmal die doppelte Leistung 600 vs 1150%).

Das Zeigt wie auf Kante genäht die SKUs die vergangenen Jahre konzipiert werden. 2.5 Fullnode Sprünge sind dazwischen und 3 komplett neue Architekturen., doppelt so schneller speicher, etc.
Die Chips werden aber mittlerweile so weit vom Sweetspot entfernt betrieben dass davon kaum noch etwas hängen bleibt.

Das ist ein Wettrüsten das allen schadet. Den AIBs die nun defekte 3090s haben, den Kunden die unter dem Lärm und Stromrechnung leiden und den Vendors die absurde VRM designs erfinden müssen und dabei massig ressourcen verheizen. Es schadet sogar dem Markt selber weil nicht mehr genug Karten hergestellt werden können wenn eine einzelne soviele komponenten benötigt. Ich denke da wäre eine Regulierung so wie bei Netzteilen ein Segen. Festgelegte maximale TDPklassen, So ähnlich wie 80plus pronze, gold, platinum und vorgeschriebene harte Limits für idle/desktop, 2-monitor-betrieb und videodecoding.

Es kann doch nicht sein das in der Ökodesignrichtlinie immer härtere Grenzwerte für PCs und labtops gelten und gleichzeitig munter 500Watt Grafikkarten für Spieler gebaut werden mit deren power man eine ganze Abteilung an OfficePCs betreiben könnte. Oder man versucht das über den Markt zu regeln, aber dafür ist der Strom noch viel zu billig. Das muss teurer werden bevor es wehtut und irgendeinen Effekt zeigt! Und sozial verträglich ist eine Regelung rein über hohe strompreise auch eher nicht (ist nicht progressiv zum einkommen, daher unfair).

Nightspider

2021-07-27, 10:47:39

wolik

2021-07-27, 10:55:17

Sozusagen eine echte Wiederbelebung von SLI. Da hat man ja auch mehr gezahlt, um mehr zu bekommen.
Hoffen wir nicht... SLI war (ist) angewiesen auf Software (Treiber / Spiele) Unterstützung. Wenn ich mich richtig erinnere, hat die 3Dfx Voodoo5 5500 AGP dieses Manko nicht.
RTX 5500. Das wäre doch ein schöner Name. :smile:

Preislich denke ich eher an 2000-3000€ für den Top-Dog RDNA3 mit 15360 fp32 Units, 512MB IF$ und vllt. 64GB VRAM.
Das ganze noch garniert mit 3Ghz GPU-CLK :eek:
Locker.

Leonidas

2021-07-27, 12:03:22

Hoffen wir nicht... SLI war (ist) angewiesen auf Software (Treiber / Spiele) Unterstützung. Wenn ich mich richtig erinnere, hat die 3Dfx Voodoo5 5500 AGP dieses Manko nicht.

Eigentlich meinte ich auch diese nur. Das war noch richtiges SLI.

vinacis_vivids

2021-07-27, 12:12:04

Wieso denn nicht?
Aktuell wird der Vollausbau 7nm 520mm² für 1500-2000€ verkauft.

Sollte der kommende MCM-Vollausbau bei 1100mm² 5nm liegen, sehe ich annähernd eine Preisverdopplung. Wüsste nicht was dagegen spricht.

Bei 1100mm², riesen Cache, viel VRAM, dazu noch die ganzen VRMs, Platine, Kühler usw. sind da 2000-3000€ locker drin. Und ja, es ist nicht die GPU für Jedermann, der sich gerade mal für ne 3060er zusammenkratzen kann.

Bei CPUs verkauft AMD den Threadripper 3990X - 3995WX bereits für 4000-5000€ bei 1008mm².

Übrigens ist eine solche RDNA3-GPU auch für Content-Creator gedacht. Du brauchst halt ne starke GPU und viel VRAM um bspw. 8K Content und massivste Assets in einer guten Zeit zu schaffen bzw. zu kreieren.

Sollte MCM RDNA3 wirklich bei 1100mm² und 5nm kommen, sind 2000-3000€ gar ein Schnäppchen.

Für einen Singel Full RDNA3 bei 550mm² sind Preise von 1000-1500€ angebracht. Salvage und weniger CUs dann sicherlich billiger.

FarCry

2021-07-27, 12:23:32

Wieso denn nicht?
Aktuell wird der Vollausbau 7nm 520mm² für 1500-2000€ verkauft.

Sollte der kommende MCM-Vollausbau bei 1100mm² 5nm liegen, sehe ich annähernd eine Preisverdopplung. Wüsste nicht was dagegen spricht.
...

Dagegen spricht, dass du nicht zwei Karten kaufst, sondern nur eine Karte mit zwei Chips. Und weiterhin dagegen spricht, dass die aktuellen Straßenpreise mit an Sicherheit grenzender Wahrscheinlichkeit nicht die Grundlage für kommende UVPs werden.

wolik

2021-07-27, 12:25:42

Eigentlich meinte ich auch diese nur. Das war noch richtiges SLI.
:love4:

vinacis_vivids

2021-07-27, 14:26:13

Dagegen spricht, dass du nicht zwei Karten kaufst, sondern nur eine Karte mit zwei Chips. Und weiterhin dagegen spricht, dass die aktuellen Straßenpreise mit an Sicherheit grenzender Wahrscheinlichkeit nicht die Grundlage für kommende UVPs werden.

-> 999,99€ UVP für die 6900XT 7nm - 520mm² - 16GB

MCM:
-> 1999,99€ UVP für die 7950XTX 5nm - 1100mm² - 32GB -
Vollausbau 15.360SP
-> 1499,99€ UVP für die 7950XT 5nm - 1100mm² - 32GB
Salvage 12.288SP

Singel-Chip:
-> 999,99€ UVP für die 7900XT 5nm - 550mm² - 16GB
Vollausbau 7.680SP
-> 699,99€ UVP für die 7800XT 5nm - 550mm² - 16GB
Salvage 6.144SP

Straßenpreise liegen sicher deutlich höher als UVP, weshalb 2000-3000€ für den MCM TopDog realistisch sind.

Leute mit weniger Geld, können immer noch zum singel-Chip 7900XT greifen, der 40-50% schneller sein wird als die 6900XT. Selbst der salvage N31 wird 10-15% schneller sein als die 6900XT.

Takt, CUs und Cache - das hat AMD alles sehr sehr sicher im Griff. 2022 ist Zeit für die Große Ernte als Nr. 1 in der GPU-Welt :D

amdfanuwe

2021-07-27, 14:41:29

Quatsch.
MCM für $999
andere entsprechend billiger.
Nvidia muß dann noch drauflegen um ihre monolithischen Monster loszuwerden.

Leonidas

2021-07-27, 14:46:25

Dein Wort in den Gehörgang der Hardware-Götter. Aber wie schreibt man im B3D-Forum (https://forum.beyond3d.com/threads/amd-rdna-3-speculation-rumours-and-discussion.62092/page-24#post-2216678):
Yea it's a config designed around being unreachable by anything or anyone.

Linmoum

2021-07-27, 14:56:53

Ich glaube tatsächlich, dass wenn wir von NV nächstes Jahr mit Lovelace noch kein MCM sehen werden (und bisher gibt es dafür keine Anhaltspunkte), es oben an der Spitze ziemlich einsam wird, wenn sich dieses >15000 Shader-Monster (also "echte" und nicht der Quatsch mit dem NV bei Ampere wirbt und damit Probleme gegen andere Karten mit halb so vielen hat) bewahrheitet.

BlacKi

2021-07-27, 15:08:37

aber an einen lovelace mit 700mm²+ in 5nm glaub ich auch nicht so recht. alles andere wäre zu langsam. dann käme der top dog wohl nichtmal bei +50% raus. mcm macht beim großen einfach sinn, wenn man gegen amd und mcm gewinnen will.

FarCry

2021-07-27, 15:32:40

Straßenpreise liegen sicher deutlich höher als UVP, weshalb 2000-3000€ für den MCM TopDog realistisch sind.

Über zukünftige Straßenpreise redet keiner, ist so wie über zukünftige Lottozahlen zu reden. Keiner hatte vor 2 Jahren Corona aufm Schirm. Wenn du da gesagt hättest, dass man für ne gute GK knapp 3000 Euro zahlen muss, hätten sie dich eingewiesen.
Insofern: UVP des Topmodells dürfte bei 1500 liegen, damit nicht gleich abgewunken wird. Wo die Straßenpreise dann liegen, wird man sehen.

Orko

2021-07-27, 17:29:27

Und weiterhin dagegen spricht, dass die aktuellen Straßenpreise mit an Sicherheit grenzender Wahrscheinlichkeit nicht die Grundlage für kommende UVPs werden.

Das ist gut zu Wissen. Ich hatte schon befürchtet dass die aktuellen Strassenpreise bei den Chip-Herstellern habgierige Fantasien wecken würden, wie weit man sich in Zukunft denn mit den UVPs vorwagen könnte.

Aber bekanntermaßen folgt auf jeden Hype eine Regressionsphase. Ein Schwein im Zyklus hat mir das verraten. Die spannende Frage dabei ist immer nur das Timing.

Nightspider

2021-07-27, 22:44:44

Quatsch.
MCM für $999
andere entsprechend billiger.
Nvidia muß dann noch drauflegen um ihre monolithischen Monster loszuwerden.

Bullshit.

AMD verschenkt doch nicht das Topmodell.

basix

2021-07-27, 23:38:38

Den kleinen MCM (N32) bekommen wir mit Glück für 999$. Ist jetzt nicht ein sooo schlechter Deal. Ich meine, der wird laut Gerüchten 160 CUs haben.

FarCry

2021-07-28, 01:05:27

Das ist gut zu Wissen. Ich hatte schon befürchtet dass die aktuellen Strassenpreise bei den Chip-Herstellern habgierige Fantasien wecken würden, wie weit man sich in Zukunft denn mit den UVPs vorwagen könnte.

Phantasien wecken sicherlich, gierig auch. Nur nützt denen ja auch keine Karte, auf der sie sitzenbleiben. Da muss man schon entsprechend agieren und die Preise nicht zu hoch ansetzen.
1.000.000 verkaufte Karten zu $1500 ergeben halt mehr Gewinn als 500.000 zu $2000 oder 100.000 zu $3000.
Aber man wird sehen.

Daredevil

2021-07-28, 01:50:22

Und auch wenn ich sicherlich niemand bin, der sagt "Die Leistung reicht"... welches Problem will man mit einer Karte dieser Leistungsklasse denn lösen?
4K@60-120fps schafft eine aktuelle HighEnd 6900xt/3090 schon, selbst wenn man so ein Monster bauen sollte und es meinetwegen für 2000€ anbietet, muss es erstmal Leute geben, die soviel zahlen können und gleichzeitig auch diejenigen, die die Leistung auch benötigen.

Ich könnte mir vorstellen, dass das eine Karte wird, die im MacPRO verkauft wird, solange der nicht auf Apples Architektur basieren wird in nächster Zeit. Dort ist Geldbeutel und Bedarf da.
Sonst sehe ich da in 2021 nicht.

PS: Mehr Leistung ist immer toll, wenn sie aber im nichts verpufft, ist es auch schade.
Aber das schafft AMD ja auch mit ihren 16c GPUs gut, die unter den Gamern zu bringen, obwohl seltenst bis nie benötigt. ( Abgesehen von dem SC Takt.... )