AMD/ATI - RDNA3 (Navi 3X, Radeon RX 7000 Serie, tlw. Chiplets, 5/6 nm, 2022) [Archiv] - Seite 15

GrimReaper85

2022-09-24, 07:28:40

Diesen Beitrag gespeichert. Ich denke immer noch, dass 7900 XT 2x 6900 XT sein wird, wie sie immer sagten.
Wenn 4090 60% schneller ist als 3090 Ti, wie Nvidia gezeigt hat, dann ist 4090 Ti höchstens 80% schneller.

Bei RT habe ich keine Ahnung. Resident Evil Village hat RT. Und Nvidia zeigte, dass es 70% schneller ist als 3090 Ti. 4090 Ti dann 90% schneller als 3090 Ti. Der RT Uplift beträgt also höchstens 10% des Rasters.
AMD hingegen sollte einen höheren Uplift erhalten, 2,5-3x RDNA 2.
3090 war 70% schneller als 6900 XT in 6 anspruchsvollsten Spielen:
https://cdn.mos.cms.futurecdn.net/XgkUXNMVKwrDXdKnX5Fqaj-970-80.png.webp
7900 XT wird also 45-75% schneller sein als 3090. Ähnlich wird 7950 XT gegenüber 3090 Ti sein.

Fazit im Vergleich zu 3090 Ti:
4090 Ti +80% Raster, +90% RT
7950 XT +100% Raster, +45-75% RT

RT sieht für AMD immer noch schlecht aus, es sei denn, sie kommen wirklich auf 3x RDNA 2.
Wenn meine Zahlen stimmen, wird der 7950 XT immer noch 10-40% hinter dem 4090 Ti zurückbleiben. Und in dieser Generation liegen sie 40% zurück.

Damit RDNA 3 interessant ist, muss es auf +10-20% Raster und -20 bis -10% RT kommen. Das war wohl auch das Ziel von AMD für diese Gen.

Lurtz

2022-09-24, 10:06:05

https://twitter.com/CapFrameX/status/1573189202392629255

Ich archiviere seine Aussage mal, damit man in Zukunft die Tests von DF besser einordnen kann. Die Meinung scheint bereits gebildet worden zu sein.

https://s20.directupload.net/images/220923/db8jmayi.jpg
Dass Digital Foundry ein nVidia-Bias haben, ist jetzt nichts Neues. Ist kein Zufall, dass die schon Videos zur 4000er-Serie angeteast haben. So läuft das bei Techfluencern.

dargo

2022-09-24, 10:34:34

3090 war 70% schneller als 6900 XT in 6 anspruchsvollsten Spielen:
https://cdn.mos.cms.futurecdn.net/XgkUXNMVKwrDXdKnX5Fqaj-970-80.png.webp

Ich finde es etwas befremdlich, dass man sich immer nur auf die schnellsten GPUs konzentriert. Schau dir bsw. die RX6800 vs. RTX 3070 an. Dort sind es nur noch +32% für die 3070. Die Skalierung der RT-Performance innerhalb der gasamten Generation ist nicht linear zwischen beiden IHVs.

Platos

2022-09-24, 11:06:38

Ob nun AMD gleichzieht oder nicht, spielt doch keine Rolle mehr bei solchen Preisen. Das einzige, was jetzt noch zählt ist, dass AMD die Preise nicht erhöht oder nur leicht.

Das wird aber vermutlich nicht passieren.

AMD wird wahrscheinlich kommen und sagen: Hey, schaut wir haben einen 4080 16GB Konter für nur 1099$ :freak:

Neurosphere

2022-09-24, 12:27:40

AMD's launching the Radeon RX 7000 series of RDNA 3 graphics cards this November (https://www.overclock3d.net/news/gpu_displays/amd_s_launching_the_radeon_rx_7000_series_of_rdna_3_graphics_cards_this_november/1)

Also doch Launch im eigentlichem Sinne?

HOT

2022-09-24, 12:29:40

Es ergibt einfach keinen Sinn, für das letzte Produkt im Jahr noch ne extra Vorstellung zu machen. Dann kannste es auch gleich beim Launch vorstellen.

Daredevil

2022-09-24, 12:30:41

Ich finde es etwas befremdlich, dass man sich immer nur auf die schnellsten GPUs konzentriert. Schau dir bsw. die RX6800 vs. RTX 3070 an. Dort sind es nur noch +32% für die 3070. Die Skalierung der RT-Performance innerhalb der gasamten Generation ist nicht linear zwischen beiden IHVs.
Viel wichtiger ist doch, dass eine 3060ti mit DLSS eine 6900xt hinter sich lassen kann. Best Bang for the Buck, mh?

basix

2022-09-24, 12:34:59

Viel wichtiger ist doch, dass eine 3060ti mit DLSS eine 6900xt hinter sich lassen kann. Best Bang for the Buck, mh?

Wenn DLSS verfügbar ist ;)

Bei dem Artikel fand ich noch interessant, dass die Loveleacne GPCs ~45% der Die Size ausmachen:
https://www.tomshardware.com/news/why-nvidias-4080-4090-cost-so-damn-much

- 18'432 FP32-Units = 608mm2 * 0.45 = 274mm2

Das jetzt auf 12'288 FP32-Units von N31 skaliert:
- 274mm2 * 12'288 / 18'432 = 183mm2

Anhand dieser Zahlen schliesse ich, dass AMDs Shader Engines von RDNA3 in etwa ähnlich fett sein müssen wie die GPCs von Lovelace es sind. Und Lovelace packt sehr viel in ihre GPCs (hohe FP32-Leistung, Tensor Cores, RT-Cores, Cache, ...)

Monsta

2022-09-24, 12:38:35

Viel wichtiger ist doch, dass eine 3060ti mit DLSS eine 6900xt hinter sich lassen kann. Best Bang for the Buck, mh?

Kann der Amd user kein Fsr einschalten, oder warum dieser dämliche Vergleich?

HOT

2022-09-24, 12:39:04

Viel wichtiger ist doch, dass eine 3060ti mit DLSS eine 6900xt hinter sich lassen kann. Best Bang for the Buck, mh?
Nicht wirklich. Ich hab im Lovelace-Thread schon erklärt, warum das eigentlich ne Mogelpackung ist bei DLSS3. Denn es sind eben doch nur halbe Framerates vom Feeling des Spieles her. Nur die Ausgabe ist schneller mit DLSS3, sonst nichts. Der Gesamte Latenzstrang bleibt gleich, bis auf die Ausgabe und das ist sehr wenig.

Monsta

2022-09-24, 12:41:47

Nicht wirklich. Ich hab im Lovelace-Thread schon erklärt, warum das eigentlich ne Mogelpackung ist bei DLSS3. Denn es sind eben doch nur halbe Framerates vom Feeling des Spieles her. Nur die Ausgabe ist schneller mit DLSS3, sonst nichts. Der Gesamte Latenzstrang bleibt gleich, bis auf die Ausgabe und das ist sehr wenig (sofern DLSS3 nicht die Ausgabelatenz sogar noch erhöht durch verzögertes Rendern durch die AI-Berechnungen).

Die 3060 kann doch gar kein DLSS3.

HOT

2022-09-24, 12:42:56

Ah, missverstanden.

Daredevil

2022-09-24, 12:45:37

Kann der Amd user kein Fsr einschalten, oder warum dieser dämliche Vergleich?
In dem Spielevergleich oben offensichtlich nicht, darum ging es doch. War dort vielleicht kein FSR verfügbar? I dont know.

Nicht wirklich. Ich hab im Lovelace-Thread schon erklärt, warum das eigentlich ne Mogelpackung ist bei DLSS3. Denn es sind eben doch nur halbe Framerates vom Feeling des Spieles her. Nur die Ausgabe ist schneller mit DLSS3, sonst nichts. Der Gesamte Latenzstrang bleibt gleich, bis auf die Ausgabe und das ist sehr wenig.
Niemand muss DLSS3 nutzen und im Vergleich oben wird offenbar nicht DLSS3 genutzt, da noch alte Spiele und alte GPUs.
Aber auch hier: Der Nutzer hat die Möglichkeit zu nutzen was er will.
30FPS nativ
60FPS DLSS2 mit gleichem Input Lag
90fps DLSS3 mit gleichem Input Lag wie mit 60fps
Haben ist besser als wollen.

Das gleiche gilt ja auch für AMD Nutzer mit FSR, niemand ist zu etwas gezwungen.
Wenn man aber "Budget" argumentiert, sind alle Karten über 500€ natürlich Unsinn, wenn 200-300€ Karten die gleiche Performance mit DLSS/FSR herbei zaubern.
Oder anders gesagt. Wer "nativ" seine FPS erreicht, obwohl DLSS/FSR angeboten wird, hat zu viel Geld ausgegeben, wenn es wirklich um Best Bang for Buck geht.

basix

2022-09-24, 12:55:12

Bei DLSS3 muss man mal abwarten und schauen, wie das Look & Feel ist. Vielleicht ja sehr positiv, dann nehme ich das gerne mit.

Wenn man aber "Budget" argumentiert, sind alle Karten über 500€ natürlich Unsinn, wenn 200-300€ Karten die gleiche Performance mit DLSS/FSR herbei zaubern.
Das Argument zieht allerdings nur bei einer fixen Auflösung und Qualitätsstufe. Bei einer 200$ Karte reicht es vielleicht für 1440p. Bei 500$ für 4K. Man kann auch bei der teuren Karten DLSS und Co. einschalten und allenfalls auch ein paar Details mehr ;)

Daredevil

2022-09-24, 13:09:03

Gut, es lässt sich jetzt bestimmt darüber streiten, ob man sich als P/L Käufer WQHD oder 4K als Ziel setzen sollte, wenn man Null Budget hat, aber sicherlich ist der Weg nach oben immer offen.

DLSS3 ist mir grundsätzlich erstmal egal, da DLSS2 bzw. FSR den Job schon so gut macht, das man viel Geld sparen kann für die gleiche Leistung. Damit meine ich z.B. das man mit einem FullHD/WQHD Monitor keine 6800 benötigt, um diesen mit seinen nativen 60fps zu bespielen mit RT und whatever, sondern in Zukunft vielleicht schon eine Radeon IGP mit RDNA3 und FSR ausreicht.
Wenn DLSS und FSR noch besser werden sollte, bin ich umso dankbarer, da man weniger Ressourcen benötigt für das "nahezu" gleiche Bild.

Diese AI Geschichten sind für mich ein klares Beispiel für die 80/20 Regel.
Wenig Aufwand > Viel Ergebnis

horn 12

2022-09-24, 14:43:12

03 November, Ein DROP Donnerstag wird wohl Launchtag und Reale Verfügbarkeit AMD´s Referenz Design und jenes der Boardpartner im AMD Ref. Design werden.
Zudem dann ab 3 bis 4 Wochen nach Launch langsam die Custom Karten, noch vor dem Weihnachtsfest.
Ausser AMD lässt dies bis ins nächste Jahr driften, was ich aber nicht rechne.

Nun sollten langsam Leaks und Benches gewisser Insider auftauchen.
Rechne ab Anfang OKTOBER SPÄTESTENS

Wichtig für AMD war wohl ein "Traditioneller" DROP Donnerstag für den effektiven Lauchday!
Ist dies noch niemanden aufgefallen?

[MK2]Mythos

2022-09-24, 15:31:19

Tangletingle

2022-09-24, 17:02:13

Ich bin wirklich auf die Verfügbarkeit sowohl von RDna3 als auch Loveless gespannt. Das war ja die letzten Generationen ein Trauerspiel vor dem Herrn. Nach dem Ende von PoW wäre eine schlechte Verfügbarkeit imho nur auf künstliche Verknappung zurück zu führen.

OgrEGT

2022-09-24, 18:47:49

https://videocardz.com/newz/amd-radeon-7000-desktop-rdna3-graphics-card-featured-in-beautiful-fan-made-renders
Technetium posted new renders of the alleged RDNA3 graphics card, possibly Radeon RX 7900XT. It is based on the official render revealed by AMD last month.

Sieht nach 3slot aus... wenns so kommt...
Sollte dann auch einigermaßen leise sein wenns angeblich nicht über 350-375W hinausgeht...

why_me

2022-09-24, 18:54:31

Und wer soll Technetium sein, damit man diesem rendering trauen kann? Würde da nicht viel drauf geben.

Ravenhearth

2022-09-24, 18:59:36

Da steht doch, dass das ein Fan-Rendering ist, daraus lässt sich gar nichts ableiten.

Ex3cut3r

2022-09-24, 19:00:30

Uff, wäre ähnlich wie die 4090 FE. Bei bis zu 400W auch kein Wunder.

https://abload.de/img/fdv4iqxakaimpecsyfoxjucv6.png

Meiner Meinung haben beide IHVs nicht mehr alle Latten am Zaun. Klimawandel, Strompreise, vollkommen falsche Entwicklung.

Berniyh

2022-09-24, 19:14:27

Is halt wie bei den Autos (SUVs) …

davidzo

2022-09-24, 19:49:07

Ist ein ziemlich schlechtes Mockup imo. Auf Lisas Teaserfoto wirkte der Lamellenstack weder so dick noch wirkte die Karte so dick und kurz.
Die Rundungen fehlen ganz und die Fanshroud wirkt flachgepresst. Ich bin mir sicher das eigentliche Referenzdesign sieht anders aus von den Proportionen.

OgrEGT

2022-09-24, 21:01:37

Da steht ja "... might be showing the design of an enthusiast RDNA3 graphics card."
Muss ja nicht die "normale" 7900XT sein... vielleicht ist das ja eine special 450W Edition :uexplode:

Linmoum

2022-09-24, 21:07:00

Das ist irgendein fanmade render von jemandem, der genauso nur das gesehen hat, was jeder andere auch gesehen hat. Nichts weiter.

Wenn ich jetzt sowas anfertige, hab ich das mit genauso viel Wissen gemacht, wie der Typ dort. ;)

Ex3cut3r

2022-09-24, 21:58:53

Verstehe die Diskussion gar nicht, natürlich wird AMD für den Top Dog auch 400W anpeilen. Alles anderes wurde mich wundern. Ist doch klar, dass der AMD Kühler auch ein "Monster" wird.

Linmoum

2022-09-24, 22:04:50

Nach aktuellem Stand sind es 2x8pin bei der Referenz, das wären 350W, vielleicht noch 360W.

Neurosphere

2022-09-24, 22:17:00

Ich hoffe ja immernoch auf ATX 3.0 Anschluss. Finds einfach schöner weniger Kabel im Gehäuse zu haben.

Linmoum

2022-09-24, 22:21:05

Mit dem 12VHPWR hast du aber sogar eins mehr, da du definitiv einen Adapter brauchen würdest. ;)

Ex3cut3r

2022-09-24, 22:23:18

Nach aktuellem Stand sind es 2x8pin bei der Referenz, das wären 350W, vielleicht noch 360W.

2x8Pin + 75W vom Board. Wären auch 375W.

Dann lieber gleich 3x8Pin und das MB nicht so belasten.

Linmoum

2022-09-24, 22:31:08

Dass das - offizielle - Maximum bei 375W liegt ist mir schon klar. Das wird die Karte aber nicht ziehen bei 2x8pin, die Erfahrung mit sowas hat AMD erst vor sechs Jahren gemacht. Und bei ~350W brauchst du keine 3x8pin.

Ex3cut3r

2022-09-24, 22:44:55

Die Customs von Sapphire, ASUS und Co. werden sicherlich die 400W mit 3x8Pin realisieren. Ob man eine AMD "FE" zum rls. bekommt sei auch mal dahingestellt.

dargo

2022-09-25, 06:42:21

2x8Pin + 75W vom Board. Wären auch 375W.

Vom Board 75W zu ziehen wäre Selbstmord.

Die Customs von Sapphire, ASUS und Co. werden sicherlich die 400W mit 3x8Pin realisieren.
Natürlich werden einzelne AIBs das tun. Das haben die doch schon bei N21 gemacht, was ja auch kaum verwundern sollte wenn man einen N21 400+W saufen lässt.
https://www.igorslab.de/sapphire-nitro-rx-6850xt-pure-white-im-test-heisser-feger-als-weisse-schoenheit-mit-charakter/5/

M4xw0lf

2022-09-25, 08:57:33

Vom Board 75W zu ziehen wäre Selbstmord.
Nicht wirklich. AMD hatte ja schon mal die Thematik, dass die Karten sogar mehr als die spezifizierten 75W über den Sockel gesaugt haben, aber mir ist nichts im Gedächtnis geblieben, dass das zu (verbreiteten) Problemen geführt hätte.

robbitop

2022-09-25, 10:15:29

Es gab aber einen Shitstorm und das will man ohne Not sicher nicht nochmal.

HOT

2022-09-25, 10:28:33

Das war ein PR-GAU, das wird garantiert niemand mehr machen...

M4xw0lf

2022-09-25, 10:33:57

Natürlich, aber es ging ja gerade darum bis zu 75W über den Slot zu beziehen, was die Spezifikation ja hergibt.

HOT

2022-09-25, 10:37:27

IIRC sind es nur 66W, wenn man 5V weglässt.

Zossel

2022-09-25, 10:48:21

Was käme da am Ende des Tages bei rum?

https://www.phoronix.com/news/AMD-RDNA3-More-VGPRs

GFX11 with 50% more physical VGPRs and 50% larger allocation granule than GFX10.

Neurosphere

2022-09-25, 11:10:31

https://pbs.twimg.com/media/FdeZtMvacAE1NNb?format=jpg&name=large
https://pbs.twimg.com/media/FdeZtMyaEAAIzKG?format=jpg&name=large

:biggrin:
Man muss ja auch mal lachen können auf nem Sonntag.

Originalquelle:
http://c.tieba.baidu.com/p/8039906069

Edgecrusher86

2022-09-25, 11:14:41

Ziemlich schwache Raster-Skalierung für 187 TF/s+ FP32 muss ich sagen. Die Balken links sollten so hoch sein, wie die rechts - und rechts entsprechend höher. Da fliegt auch noch ein 7950XT herum. :freak:

Gut, das Dingen verhungert ja total an der Bandbreite - der Inf-Cache ist dafür in der Größe ein Witz. Sollen mal HBM2e verbauen, die Geizhälse. :D

Dann sicher noch $2999 MSRP ansetzen....das haben wir gern. :rolleyes::biggrin:

Berniyh

2022-09-25, 12:22:07

Sollen mal HBM2e verbauen, die Geizhälse. :D
Prinzipiell sollte das sogar möglich sein. Die entsprechenden MCDs sollten für die CDNA Serie ja auch in Planung sein. (Ob auch schon welche hergestellt werden weiß man aber natürlich nicht.)

Der_Korken

2022-09-25, 12:40:26

:biggrin:
Man muss ja auch mal lachen können auf nem Sonntag.

Originalquelle:
http://c.tieba.baidu.com/p/8039906069

Wenigstens richtig rechnen sollte man bei solchen Späßen: 2x60 WGPs wären 30k Shader, nicht 24k. Und ich weiß nicht, ob das gute Werbung ist, wenn die 7950XT in einigen Titeln langsamer als die 3090Ti unterwegs ist :freak:.

davidzo

2022-09-25, 12:47:39

Was käme da am Ende des Tages bei rum?

https://www.phoronix.com/news/AMD-RDNA3-More-VGPRs

Hatten wir schon. Gipsel ist er Meinung dass das was bringt um die zusätzlichen Alus pro WGP besser auszulasten. Wieviel? - wir werden sehen:

Wie viel bringt das grob über den Daumen gepeilt?

Daß die Registerbandbreite zum dauerhaften Co-Issue von zwei 3-Operanden FMAs (also 6 Vektor-Operanden aus den vGPRs pro Takt [ohne Skalarregister oder Forwarding]) ausreichen dürfte und dies nicht über die Registerbandbreite ausgebremst wird (anders könnte es mit 4 Operanden-FMAs aussehen, die aber per VOPD sowieso nicht gehen [und dann als Co-Issue von 2 Wavefronts eventuell auch nicht, wenn man das nicht aus den oben erwähnten anderen Quellen bedienen kann]).
Wie das genau funktioniert (und mit welcher Performance), läßt sich ohne weitere Details noch nicht abschätzen.

GrimReaper85

2022-09-26, 09:11:02

https://twitter.com/_wildc/status/1572999523345076229

Let's get this out of the way:
AMD won't announce a single GPU priced below $1000 this year, and we'd be lucky to see a cut-down Navi31 at $1200 or less

Realistically:
RX 7900 20GB ≈ $1299
RX 7900 XT 24GB ≈ $1599

So viel zu meinen Träumen von 7900 XT 24 GB, die 1200 $ oder 1500€ kosten.
7900 20GB ist immer noch eine Option, aber die Leistung muss im Vergleich zu 4080 16GB gut sein.

Exxtreme

2022-09-26, 09:12:51

Sunrise

2022-09-26, 09:16:39

@GrimReaper85
Jeder, der jetzt schon über Preise berichtet ist per se nicht vertrauenswürdig. Mal davon ab, dass sich der Preis an der Leistung festmachen muss, das ist ja kein Würfelspiel.

Edgecrusher86

2022-09-26, 09:47:07

Möglich ist es natürlich. Die Preise zu RDNA2 dürften locker um ein Viertel anziehen - wenn das mal schickt. Meine Meinung.

ChaosTM

2022-09-26, 09:48:49

Im Graka Bereich sollte AMD preislich doch noch relativ deutlich unter NV liegen. Dort hat man noch nicht die Reputation, die man sich mit ZEN bei den CPUs erarbeitet hat.
Mit RDNA4 kann man dann NV Preise oder höher abrufen, falls 3 und 4 richtig gut sind.

dildo4u

2022-09-26, 09:51:36

mboeller

2022-09-26, 09:59:49

Sie werden 16GB Karten für Preise von NVs 12GB haben, denke aber nicht das was für 800€ kommt.
AMD hat selber noch 6900/6950XT zu verkaufen.

https://geizhals.de/?cat=gra16_512&xf=132_16384~9809_05+12+-+RX+6900+XT~9809_05+12+-+RX+6950+XT&asuch=&bpmin=&bpmax=&v=l&hloc=de&plz=&dist=&mail=&sort=p&bl1_id=30

6900/6950xt haben ein Die mit >500mm² in 7nm

N32 hat folgende Die:

GCD on TSMC N5, ~200 mm²
MCD on TSMC N6, ~37.5 mm² (4x)

Zusammen 350mm²

Selbst incl. "Bonding" dürfte N32 in der Fertigung um einiges günstiger sein als N21. Deshalb kann ich mir schon vorstellen, das AMD N32 Karten günstiger anbietet als N21-Karten, allerdings erst 2023

dildo4u

2022-09-26, 10:09:57

basix

2022-09-26, 10:22:56

https://twitter.com/_wildc/status/1572999523345076229

So viel zu meinen Träumen von 7900 XT 24 GB, die 1200 $ oder 1500€ kosten.
7900 20GB ist immer noch eine Option, aber die Leistung muss im Vergleich zu 4080 16GB gut sein.

Wären Nvidia Preise. Entsprechend müsste man >Nvidia Performance bieten, um einen Marktvorteil zu haben.

Aber ich warte noch auf die offiziellen Preise, evtl. ist das ja ein Nvidia Shill, der die Lovelace Verkäufe pushen will ;D

mboeller

2022-09-26, 10:36:15

Ich vermute die 7nm Chip sind billig genug das Limit waren die 16GB, die 6800 ist ja jetzt endlich bei 600€.
Das Gerücht ist ja nicht umsonst das die Mainstream AMD GPU auf 6nm gehen um Kosten zu sparen.

Naja, es gibt einen Bericht wie hoch die Kosten für 7nm und 5nm Wafer bei TSMC sind. Im Endeffekt sind (überschlägig gerechnet ohne Yield) N21 und N32 gleich teuer (nur Chips)

das ist der Report:
https://cset.georgetown.edu/publication/ai-chips-what-they-are-and-why-they-matter/

7nm Wafer: 9346 Dollar
5nm Wafer: 16988 Dollar

Verrechnest du die Chipgrößen und unter der Voraussetzung das 6nm genauso viel kostet wie 7nm (obwohl es ja eine Art Lowcost 7nm Version sein soll) kommen für N21 und N32 nahezu gleiche Kosten raus. Das Bonding für N32 ist dann noch on Top.

Ergo: ich lag mit meinem letzten Kommentar wahrscheinlich falsch.

Es gibt aber Kommentare, dass die 5nm Wafer Kosten im Report zu hoch sind

https://semiwiki.com/forum/index.php?threads/5nm-wafer-cost-very-high.13101/

Edgecrusher86

2022-09-26, 10:51:24

why_me

2022-09-26, 10:56:49

Marktanteile im Gaming ja, das bleibt aber nicht im Mindset der Consumer hängen. Viele denken ja immer noch, das man für Gaming eine Intel CPU braucht und die nur mit Nvidia GPUs kompatibel ist. Weil AMD nur mit AMD funktioniert...

dildo4u

2022-09-26, 11:15:12

Naja, es gibt einen Bericht wie hoch die Kosten für 7nm und 5nm Wafer bei TSMC sind. Im Endeffekt sind (überschlägig gerechnet ohne Yield) N21 und N32 gleich teuer (nur Chips)

das ist der Report:
https://cset.georgetown.edu/publication/ai-chips-what-they-are-and-why-they-matter/

7nm Wafer: 9346 Dollar
5nm Wafer: 16988 Dollar

Verrechnest du die Chipgrößen und unter der Voraussetzung das 6nm genauso viel kostet wie 7nm (obwohl es ja eine Art Lowcost 7nm Version sein soll) kommen für N21 und N32 nahezu gleiche Kosten raus. Das Bonding für N32 ist dann noch on Top.

Ergo: ich lag mit meinem letzten Kommentar wahrscheinlich falsch.

Es gibt aber Kommentare, dass die 5nm Wafer Kosten im Report zu hoch sind

https://semiwiki.com/forum/index.php?threads/5nm-wafer-cost-very-high.13101/
NV und AMD können die Preise nicht mehr verhandeln da Samsung als Alternative nicht gut genug ist.
Das einzige was pro AMD spricht ist das sie jetzt mehr abnehmen als Nvidia.

Platos

2022-09-26, 11:18:36

Es wird wahrscheinlich so laufen: AMD kommt mit absurden Preisen, aber immer noch etwas günstiger wie nvidia und die Leute werden AMD dafür lieben :D

amdfanuwe

2022-09-26, 11:20:54

7nm Wafer: 9346 Dollar
5nm Wafer: 16988 Dollar

Wenn man 100 500mm² Chips vom Wafer holt, wären das
7nm: 93$/Chip
5nm: 170$/Chip

300mm² Chips holt man ~180 Stück von einem Wafer:
7nm: 52$/Chip
5nm: 94$/Chip

Also kein Grund, dass alles so Wahnsinnig teuer wird.

Edit:
Es wird wahrscheinlich so laufen: AMD kommt mit absurden Preisen, aber immer noch etwas günstiger wie nvidia und die Leute werden AMD dafür lieben :D
Das wäre Gewinnmaximierung, man sortiert sich eintsprechend der Konkurrenz ein.
Hoffen wir mal, dass AMD auf Marktanteilsgewinne aus ist und normale Preise verlangt.

Meridian12

2022-09-26, 11:22:27

Es wird wahrscheinlich so laufen: AMD kommt mit absurden Preisen, aber immer noch etwas günstiger wie nvidia und die Leute werden AMD dafür lieben :D

Unwahrscheinlich.

Mit absurden Preisen verkauft AMD nix.

Da kann eine 7900XT gleich schnell sein wie eine 4090 und 200 Euro billiger, da wird dann dennoch die NVIDIA Karte gekauft,weil Marktführerbonus.

why_me

2022-09-26, 11:24:53

Bei fast gleichen Preisen rennen die Kunden doch wieder nur zu Nvidia, weil sie sich von DLSS3 blenden lassen oder wieder Probleme mit den "ATI Treibern" vorschieben.

Wenn AMD wirklich Marktanteile gewinnen will, dann nur über den Preis. Ähnliche Leistung zum fast gleichen Preis, wird nicht ausreichen.

Und ob die Mondpreise von Nvidia mit den gebrauchten Miningkarten aufgehen, bleibt auch noch offen.

Und sind wir mal ehrlich, leichter Marktanteile zu bekommen als jetzt, wird es für AMD auf absehbare Zeit nicht.

Daredevil

2022-09-26, 11:30:50

Unwahrscheinlich.

Mit absurden Preisen verkauft AMD nix.

Du weißt aber schon, dass AMD seine 6950XT im eigenen Shop gerade für 1340€ anbietet, oder? ^^

@why_me
Doch, mit ähnlichen Preisen gewinnt man Marktanteile, es kommt am Ende nämlich auf nur auf den Preisunterschied an. :)
Der Unterschied zwischen einer 400€ Nvidia GPU und 320€ AMD GPU mag nicht so hoch sein, das man sich vermutlich für die Nvidia Karte entscheiden würde als Laie.
Wenn man die 20% aber mal auf 1000€ und 800€ anwendet, sieht das Blatt schon deutlich anders aus. Bei 1500€ oder 1200€ ist es schon fast ein schöner Wochenendurlaub.
AMD wird günstiger anbieten, aber sicherlich nicht billig.

Erst wenn AMD Alleinstellungsmerkmale hat, die Nvidia nicht liefern kann, werden sie in ein Premium aufschlagen. Bis dahin melken sie die Gamer und werden mit jeder Generation trotz "technisch unterlegendem" Produkt größer und Stärker. Und das gute ist, der Gamer freut sich drüber und sieht Nvidia als Feind, der an allem Schuld ist. Perfekte Situation aus AMDs Sicht.

Das Problem wird aber kommen, das man von "Discount" in den "Premium" wechselst, siehe Zen3.
Ein Hexa Core von AMD für 300€ hat schon einen kleinen Shitstorm erzeugt bei den Budget Fans, die dachten, AMD verschenkt ihre Hardware. ;)
Und m.M. nach reagiert die AMD Fanbase deutlich emotionaler als die von Nvidia, also die Stimmen werden hier deutlich lauter sein.

amdfanuwe

2022-09-26, 11:39:31

Du weißt aber schon, dass AMD seine 6950XT im eigenen Shop gerade für 1340€ anbietet, oder? ^^

Deren Shop kann man eh vergessen.
Da steht der 5600X auch noch mit 364€ drin (aktuell im Handel ab 180€).

Edgecrusher86

2022-09-26, 11:43:59

Naja, also die MSRPs werden schon locker um 200-300€ pro Karte/Segment steigen und das wäre wohl noch vorsichtig angesetzt. 5nm kostet halt und das gibt man an die Kunden weiter.

amdfanuwe

2022-09-26, 12:38:18

5nm kostet halt und das gibt man an die Kunden weiter.
5nm ist aber nur der Chip. Und wenn der sich um 50$ - 100$ verteuert ist das nicht der Grund 400$ mehr für die Karte zu verlangen.

Meridian12

2022-09-26, 12:45:14

Du weißt aber schon, dass AMD seine 6950XT im eigenen Shop gerade für 1340€ anbietet, oder? ^^

Das sagt selten was aus.Die eigenen Firmenshops bieten oftmals reine UVP Preise, selbst wenn im Handel die 50% weniger kosten.

Kannst ja mal einen TV direkt bei Samsung kaufen, oder einen Bosch Herd direkt bei Bosch.

Da kann es passieren,dass der Preis doppelt so hoch ist wie bei den "normalen" Händlern.

Exxtreme

2022-09-26, 13:03:10

Du weißt aber schon, dass AMD seine 6950XT im eigenen Shop gerade für 1340€ anbietet, oder? ^^

Das ist egal, hier gibt es diese um mehr als 30% billiger:
https://www.mindfactory.de/Hardware/Grafikkarten+(VGA)/Radeon+RX+Serie/RX+6950+XT.html

Ich hoffe, die nächste Serie wird in ähnlichen Preisregionen sein.

Daredevil

2022-09-26, 13:07:12

Das sagt selten was aus.Die eigenen Firmenshops bieten oftmals reine UVP Preise, selbst wenn im Handel die 50% weniger kosten.

Kannst ja mal einen TV direkt bei Samsung kaufen, oder einen Bosch Herd direkt bei Bosch.

Da kann es passieren,dass der Preis doppelt so hoch ist wie bei den "normalen" Händlern.
Dann kann die 4090 ja noch ein Schnäppchen werden? ;)
Das mag vielleicht sein, du hast aber geschrieben, ich zitiere "Mit absurden Preisen verkauft AMD nix.". Genau das macht AMD in ihrem Shop, sie verkaufen mit absurden Preisen.
Wenn der Preis nicht der Realität entspricht, wieso senkt AMD nicht die Preise im Shop?

why_me

2022-09-26, 13:08:40

In zwei jahren, im Abverkauf vielleicht. Aber auch nur, wenn die 5000er nicht wieder Preislich on top gesetzt werden ;)

Mangel76

2022-09-26, 13:42:48

Dann kann die 4090 ja noch ein Schnäppchen werden? ;)
Das mag vielleicht sein, du hast aber geschrieben, ich zitiere "Mit absurden Preisen verkauft AMD nix.". Genau das macht AMD in ihrem Shop, sie verkaufen mit absurden Preisen.
Wenn der Preis nicht der Realität entspricht, wieso senkt AMD nicht die Preise im Shop?

Du bist doch nicht neu hier, oder? Im Shop gibt's die offiziellen Preise, egal ob Marktpreise höher (Miningboom) oder niedriger (Abverkauf) sind. Je nach Marktlage gibt's dann entweder kaum welche zu kaufen oder sie liegen da wie Blei. Aber AMD ist doch nicht auf die Verkäufe im eigenen Shop angewiesen. Und zu günstige Preise würden die Partner verärgern, die ihren Kram dann nicht loskriegen.

Und weil alle immer Zen 3 anführen: das war eine komplett andere Marktlage! AMD konnte gar nicht so viel produzieren, wie sie hätten verkaufen können. Daher wurde alles zunächst in die teuren Versionen gesteckt. Mal sehen, wie lange diesmal günstigere Versionen brauchen. Wenn sie ihre Kontingente nicht loswerden, wird es bessere Angebote geben.

Bei GPUs genauso. Jetzt haben sie sicher mehr Kapazitäten und weniger Nachfrage. Keine Ahnung wie NV auf die Idee kommt, ihre bestellten Kontingente zu diesen Preisen in dieser Marktlage absetzen zu können.

Daredevil

2022-09-26, 14:16:58

Und weil alle immer Zen 3 anführen: das war eine komplett andere Marktlage!
Da gebe ich dir recht. Die aktuelle Situation ist schlimmer für uns Europäer. :D
Und der Preis der 6900xt war im Shop ab Start immer bei um die 999 Taler, mittlerweile ist der Preis stark angestiegen. Lass es die UVP sein, AMD "empfiehlt" dann offenbar einen höheren Preis als noch vor 2 Jahren.

Linmoum

2022-09-26, 14:19:55

AMD empfiehlt denselben Preis wie von Anfang an. Genaugenommen ist AMDs Preis im Shop sogar 13€ unterhalb des aktuellen Wechselkurses inkl. 19% USt. (das wären ~1231€).

Mangel76

2022-09-26, 15:58:59

Da gebe ich dir recht. Die aktuelle Situation ist schlimmer für uns Europäer. :D
Und der Preis der 6900xt war im Shop ab Start immer bei um die 999 Taler, mittlerweile ist der Preis stark angestiegen. Lass es die UVP sein, AMD "empfiehlt" dann offenbar einen höheren Preis als noch vor 2 Jahren.

Quatsch. Ich meine die empfohlenen Dollarpreise. Für Wechselkurse kann AMD nichts. Aber bei Angebot und Nachfrage sind wir in einer ganz anderen Situation!

Nightspider

2022-09-26, 20:25:28

dildo4u

2022-09-26, 22:23:25

Bin gespannt ob sich AMD eine 4090 besorgt und Benches gegen ihr Top Modell zeigt, zeitlich wäre das möglich.

ChaosTM

2022-09-26, 22:31:01

AMD braucht keine Karte, man kann sich das auf Grund von (sehr teurer) Soft(AI)Hard-Ware schon vorher ausrechnen.
So wie NV..

Es wird spannend :D

gruntzmaker

2022-09-27, 09:00:24

Bisschen lustig ist es schon wie anfangs von teils +140 bis 170% Leistung gesprochen wurde und jetzt viele meinen RDNA3 kann gar nicht so schnell wie Lovelace werden. :D

Dabei scheint AMD ja schon den ~1Ghz Taktvorsprung als Vorteil zu haben.

Die Stärken und Schwächen werden imho fast dieselben sein wie zur letzten Generation.

AMD wird ja laut PC Games Hardware wieder auf fixed function hardware verzichten.
An der Preisreduktion der RX 6000er Serie kann man, denke ich, schon Einiges hinsichtlich der Performance von RX 7000 ableiten.

Vielleicht sehen wir knapp 30% mehr Leistung, man sollte die Erwartungen nicht zu hoch stellen.

Redneck

2022-09-27, 09:37:32

Bisschen lustig ist es schon wie anfangs von teils +140 bis 170% Leistung gesprochen wurde und jetzt viele meinen RDNA3 kann gar nicht so schnell wie Lovelace werden. :D

Dabei scheint AMD ja schon den ~1Ghz Taktvorsprung als Vorteil zu haben.
Können Sie auch nicht, wegen DLSS 3 (das wird auch ein Grund gewesen sein, das NV so stark auf die Frame Interpolation eingegangen ist und nicht auf die raw Performance). Ein Apple to Apple Vergleich wird RDNA3 nicht scheuen müssen.

Neurosphere

2022-09-27, 10:20:28

Die Stärken und Schwächen werden imho fast dieselben sein wie zur letzten Generation.

AMD wird ja laut PC Games Hardware wieder auf fixed function hardware verzichten.
An der Preisreduktion der RX 6000er Serie kann man, denke ich, schon Einiges hinsichtlich der Performance von RX 7000 ableiten.

Vielleicht sehen wir knapp 30% mehr Leistung, man sollte die Erwartungen nicht zu hoch stellen.

Minimum sind 50%, andernfalls könnte AMD die Aussage mit >50% Performance pro Watt nicht halten.

Die Fragen bleiben halt was mit der RT Leistung ist, was ">"50% nun bedeutet und wie viel Watt AMD zumindest Navi 31 gönnt.

reaperrr

2022-09-27, 11:06:58

Vielleicht sehen wir knapp 30% mehr Leistung, man sollte die Erwartungen nicht zu hoch stellen.
Du meinst 30% mehr Leistung pro Mhz, oder?

So wie es bisher aussieht, schafft RDNA3 allein schon 30-50% mehr Takt als RDNA2, dann noch 20% mehr WGPs, doppelt so viele ALUs je WGP, doppelt so große L1 und 50% größere Register, verbesserte Delta Color Compression, und das sind nur die Dinge die wir bereits relativ sicher wissen, an der uArch wird sich im Detail noch mehr getan haben.

Dass RDNA3 in absoluter Perf gegen Lovelace verliert kann sein, aber nur 30% ggü. RDNA2 ist nun wirklich eine ziemlich unrealistische Annahme angesichts der bekannten Infos.

An der Preisreduktion der RX 6000er Serie kann man, denke ich, schon Einiges hinsichtlich der Performance von RX 7000 ableiten.
Nur bedingt, ich gehe davon aus, dass AMD die Preise ggü. der Vorgänger merklich anziehen wird.
Von nur moderaten Preissenkungen bei RDNA2 jetzt auf nur moderate Leistungssteigerungen bei RDNA3 zu schließen ist mMn jedenfalls falsch. Die Chips sind heute zu teuer in der Herstellung und dem Drumherum, als dass man RDNA2-Karten jetzt verramscht und sich komplett die Margen zerschießt.

Außerdem ist hier der limitierende Faktor, wieviel die Boardpartner nehmen müssen, um keinen Verlust zu machen, sprich zu welchem Preis die Chips mal eingekauft wurden. Wenn AMD da nix zuschießen will, senken die Boardpartner auch die Preise nicht großartig, egal wie viel schneller Ada und RDNA3 sind.

Complicated

2022-09-27, 12:33:02

Die gesenkten RDNA2 Preise erschweren lediglich der Konkurrenz den Abverkauf der Lagerbestände, die sie deutlich schlechter dastehen lassen zum Launch der neuen Generation. Nvidia muss die neuen hoch bepreisen und AMD kann sich mit seiner neuen Generation da gut drunter positionieren und gleichzeitig mit RDNA2 den Schmerz bei den Nvidia-AIBs erhöhen und damit den Zeitraum verlängern bis Nvidia auch mit der neuen Generation in den Preiskampf gehen kann. Ganz nebenbei werden die Fertigungsnodes 7/6/5 gut über die gesamte Produktpalette (inkl. CPUs) balanciert und so mehr Stückzahlen ermöglicht um Marktanteile zu gewinnen in allen Segmenten.

Platos

2022-09-27, 14:41:48

AMD hat die Preise nicht gesenkt, das sind Strassenpreise.

Dural

2022-09-27, 14:52:04

Welchen Taktvorteil von 1Ghz? Habe ich was verpasst? :confused:

Navi3 taktet mit 3,5-3,8GHz?

Palpatin

2022-09-27, 15:37:46

Welchen Taktvorteil von 1Ghz? Habe ich was verpasst? :confused:

Navi3 taktet mit 3,5-3,8GHz?
Ja laut aktuellen gerüchten sollen die Customs bis 4ghz gehen.

vinacis_vivids

2022-09-27, 15:38:10

~1 Ghz Taktunterschied stimmt weitestgehend von N21XTX auf N31XTX. Von 2,5-2,8Ghz auf 3,5-3,8Ghz.

N21 Takrate:
https://abload.de/img/2022-05-1021_35_11-satpjqk.png

Die erste N31 Iteration wird sicherlich im Referenz hauptsächlich 3,3-3,5Ghz takten und ist damit ebenfalls 1Ghz über der N21XTX Referenz ~ 2,3-2,5Ghz.
Die spekulierten 3,7-3,8Ghz sind sicherlich nur mit Customs und/oder Wakü zu erreichen.

Dural

2022-09-27, 15:46:22

OK, 3,5 GHz wären krass.

Cyberfries

2022-09-27, 15:57:33

Ja laut aktuellen gerüchten sollen die Customs bis 4ghz gehen.

So ein Käse.
Das BIOS-Limit liegt angeblich bei 3,72 GHz, die zu erwartenden Taktraten sind deutlich darunter.
Die 6900 xt hatte ein Limit von 2,8 GHz bei einem durchschnittlichen Realtakt von ca. 2,25 GHz.

Nachzulesen hier: https://www.3dcenter.org/news/news-des-21-september-2022

edit: Scheinbar 3,0 GHz bei der 6900xt, siehe Lehdro oder Computerbase (https://www.computerbase.de/2020-12/amd-radeon-rx-6900-xt-review-test/), ändert aber an der Grundaussage nichts.

Lehdro

2022-09-27, 16:03:08

Die 6900 xt hatte ein Limit von 2,8 GHz bei einem durchschnittlichen Realtakt von ca. 2,25 GHz.

Nicht ganz korrekt - die 6800XT hat ein 2.8 GHz Limit, die 6900XT hat 3.0 GHz und die XTXHs sowie die 6950XT haben gar kein effektives (5 GHz afaik).

Langlay

2022-09-27, 16:10:43

Nicht ganz korrekt - die 6800XT hat ein 2.8 GHz Limit, die 6900XT hat 3.0 GHz und die XTXHs sowie die 6950XT haben gar kein effektives (5 GHz afaik).

Und wenn man ne einen guten Chip auf na 6800XT hast, kannste den Regler auf Anschlag ziehen.

dargo

2022-09-28, 06:19:57

Gibt es eigentlich schon Schätzungen zur Größe vom GCD bei N32? Wenn der GCD bei N31 308mm² haben soll sind ca. 210-220mm² vom GCD bei N32 realistisch?

Linmoum

2022-09-28, 07:01:24

Gab's alles von Angstronomics.

N31: ~308mm²
N32: ~200mm²
N33: ~203mm²

mboeller

2022-09-28, 07:07:55

Gab's alles von Angstronomics.

N31: ~308mm²
N32: ~200mm²
N33: ~203mm²

N33 ist die gesamte GPU

vinacis_vivids

2022-09-28, 07:54:15

Interessant ist, dass es drei Versionen gibt für N31.

288MB IF$
192MB IF$
96MB IF$

Die 288MB Version wurde aus Kostengründen gestrichen. Das wären 2x 3D-Cache drauf gestapelt gewesen. Abnehmender Grenznutzen.

Dass N31 mit "nur" 96MB IF$ erscheint mir etwas wenig angesichts der 12288SP im Vergleich zu N21 5120SP mit satten 128MB.
Entweder der IF$ in der zweiten Generation wurde massivst ausgebaut, also weniger Latenz und höhere Taktrate und die Hitrate des IF$ wurde intern massivst verbessert.
Gut, das SI wurde wieder mal auf 384bit ausgeweitet bei N31. Aber nur wenig (1,5 Fach) im Vergleich zur Verdreifachung der Shaderleistung.

Der IF$ wird von AMD wie ein Staatsgeheimnis behütet. Vermutlich wird AMD bald ein unified IF$-Cache bauen, insbesondere für den mobilen Bereich.

Die 192MB IF$ sind bei N31 also Leistungs-Sweetspot.

Bin sehr gespannt auf alle N3X Neuerscheinungen.

Bei meiner N21XL 6800er merke ich auf jeden Fall, dass der Chip praktisch in Bandbreite schwimmt und manchmal zu wenig Rechenleistung hat (für 6K-8K Auflösung).

Bei N31 besteht die Möglichkeit, endlich von UHD auch häufiger mal auf 5K bzw. 6K zu schalten.

Bei N32 erscheint mir 64MB IF$ bei 7680SP ebenfalls sehr klein zu sein. Dafür ist das SI mit 256bit sicherlich breit genug für 1440p.

Hoffe da gibs noch ne N32 Version mit 128MB IF$, insbesondere für den mobilen Bereich wäre das ein absolut geiler Chip.

mboeller

2022-09-28, 08:05:50

Gut, das SI wurde wieder mal auf 384bit ausgeweitet bei N31. Aber nur wenig (1,5 Fach) im Vergleich zur Verdreifachung der Shaderleistung.

das passt schon. Die Bandbreite geht ja vor allem für Texturen, Vertex, und Framebuffer-"Spielereien" drauf. Da die ROP/TMU mit der Anzahl der WGP wachen passt das dann. N21 = 40WGP, N31 = 48WGP (+20%). Zusammen mit dem höheren Takt sollte die real 1,9-2,2 - fache Bandbreite gut passen. 256bit/16Gbit/s => 384bit/20 oder gar 24Gbit/s

die höhere FLOPs-Leistung ist vor allem für RT wichtig, damit AMD hier wenigstens ein wenig besser gegen Nvidia anstinken kann ;)

unl34shed

2022-09-28, 09:36:47

Aber die 96MB IF$ machen doch immer noch keinen Sinn. 16MB IF$ bei Navi2 sind 16MB * 0.625mm²/MB = 10mm² (N21 und N24 als Vergleich genommen), dazu noch 10mm² für 64bit GDDR6 macht 18mm² Rest.
Und der Rest ist eigentlich nur ein Datenbus und das Interface zum GCD. Der Bus ist nicht wirklich komplex, da es ja nur 3 Teilnehmer gibt (4 mit in-chip Testing). Das Interface kann eigentlich nicht >10mm² sein, sonst hätte man das ganze einfach monolithisch gemacht.

amdfanuwe

2022-09-28, 13:35:28

Das Interface kann eigentlich nicht >10mm² sein, sonst hätte man das ganze einfach monolithisch gemacht.
Hatten wir doch schon auf Seite 152ff

Hat noch jemand eine Anschätzung, welche Fläche die Kontrolllogik für Cache, GDDR Ansteuerung, Interface Steuerung etc. benötigt wird?

Reicht ja nicht Phys und Cachezellen auf dem MCD unterzubringen, das muss ja auch koordiniert zusammenarbeiten.

Bin ja auch der Meinung, dass es billiger ist ein MCD mit 32MB IF$ aufzulegen als da noch 16MB IF$ zu stacken.
Chiplets bringen besseren Yield und mehr Flexibilität gegenüber monolithisch.
Naja, bin mal gespannt, wie sich das alles auflöst.

Linmoum

2022-09-28, 13:58:17

The "one more thing" will be V-Cache but not for CPUs ;)
https://forums.anandtech.com/threads/speculation-zen-4-epyc-4-genoa-ryzen-7000-etc.2571425/page-393#post-40854260

Also dann quasi analog RDNA2, wo man erst die 6800XT mit "da gibt's noch was darüber" angeteasert hat? Ggf. N31 mit V-Cache auch im Vollausbau und alles darunter sind nur Salvages?

Berniyh

2022-09-28, 14:44:59

Bin ja auch der Meinung, dass es billiger ist ein MCD mit 32MB IF$ aufzulegen als da noch 16MB IF$ zu stacken.
Nur, sofern du für die 32MB auch sonst noch eine Anwendung hast. In der aktuellen Situation würden die aber nur dafür gefertigt.
Nur für eine Handvoll High-End GPUs legt man kein extra MCD auf.

Wie ich schon vor einigen Seiten mal schrieb: ich könnte mir gut vorstellen, dass man bei RDNA4 dann die MCDs aus der CDNA Linie dafür zweckentfremdet. Die könnten ja auch entsprechend größer sein und HBM2 brächte dann auch noch generell ein paar Vorteile.
Aber aktuell gibt es die ja noch nicht.
Es ist zudem auch Vorteilhaft für AMD weiter Erfahrung mit dem Stacking zu sammeln, denn offensichtlich ist das Konzept ein wesentlicher Baustein bei der zukünftigen Chip Strategie.

amdfanuwe

2022-09-28, 14:56:15

.
Nur für eine Handvoll High-End GPUs legt man kein extra MCD auf.

Aber extra ein Cache Die auflegen und dieses dann stacken ist billiger?
Zudem muss in jedem MCD die stacking Option angelegt sein, kostet auch Fläche.

Tangletingle

2022-09-28, 15:02:45

Ja, so ist der allgemeine Tenor. Halte ich auch nicht für unrealistisch.

Neurosphere

2022-09-28, 15:20:12

https://forums.anandtech.com/threads/speculation-zen-4-epyc-4-genoa-ryzen-7000-etc.2571425/page-393#post-40854260

Also dann quasi analog RDNA2, wo man erst die 6800XT mit "da gibt's noch was darüber" angeteasert hat? Ggf. N31 mit V-Cache auch im Vollausbau und alles darunter sind nur Salvages?

Ich denke mal so viel mehr wird da nicht wirklich kommen durch den zusätzlichen Cache. Ich kann mir nicht vorstellen das bei 4K zwischen 96 und 192MB mehr als 5% liegen werden wenn wir mal davon ausgehen das die 96MB sich ähnlich wie die 128MB von Navi 21 verhalten und es abseits des mehr an Cache kein mehr an Takt gibt.

basix

2022-09-28, 15:21:47

Ja, so ist der allgemeine Tenor. Halte ich auch nicht für unrealistisch.

Gestackte MCDs sind mMn zu teuer und eine Ente. MCDs + GCDs auf einem InFO RDL, that's it. Stacked gibt vorläufig nur bei CDNA

why_me

2022-09-28, 15:26:33

vinacis_vivids

2022-09-28, 15:31:23

Der Aufbau der N3X uArch ist auch logisch auf Preis-Leistung, hohe Ausbeute und kleine Siliziumstücke ausgelegt.

Es gibt ein GCD welches es geschafft hat in die Produktion für N31/32/33. Alle anderen Versionen bleiben in der Schublade.

5120SP / 128bit SI / 32MB IF$ physisch vorhanden ?
4096SP / 128bit SI / 32MB IF$ full chip
3840SP / 128bit SI / 32MB IF$ salvage

MCM-GPU
N31 = 3X GCD full chip = 12288SP / 384bit SI / 96MB IF$
N31 = 3X GCD full chip = 12288SP / 384bit SI / 192MB IF$ (96MB IF$ + 96MB 3D VCache)

Die 192MB Version wurde wegen abnehmenden Grenznutzen vllt. verworfen?

N32 = 2x GCD salvage = 7680SP / 256bit SI / 64MB IF$
N32 = 2x GCD salvage = 7680SP / 256bit SI / 128MB IF$ (64MB IF$ + 64MB 3D VCache)

Die 128MB Version wurde wegen abnehmenden Grenznutzen vllt. verworfen?

Singel-GPU
N33 = 1x GCD full chip = 4096SP / 128bit SI / 32MB IF$

Der IF$ + 3D-Staking ist für normale Anwender wohl (noch) zu teuer und AMD hat noch nicht genügend Marktmacht um hohe Preise auszurufen.

Die beste Lösung ist natürlich aus einem kleinen IF$ das maximale rauszuholen. Das Problem bei IF$ ist, dass er teuer ist und Cache sich kaum schrumpfen lässt im Gegensatz zu den Shader-Prozessoren.

basix

2022-09-28, 15:37:48

Warum sollten sie zu teuer sein?
Die MCDs selbst sind auf Grund ihrer Größe günstig herzustellen, die Caches noch günstiger, da weniger komplex (sollten ja nur die Speicherzellen sein und keine Logik).

Klar kommen da noch ein paar zusätzliche Prozesse fürs Stacking dazu, wie plan schleifen, aber so viel kann das eigenltich nicht ausmachen.

Da bis anhin jeder in der Industrie sagt (insbesondere auch laut AMD), dass 3D_SoIC teuer ist, wieso sollte das aufgrund kleinen MCDs nun günstiger sein? Der Prozess ist der selbe. Ob da viele oder wenig Schritte ist erstmal nicht relevant. Es kann auch ein einzelner Schritt sehr teuer sein. Aus welchen Gründen auch immer.

Einzig Wafer-on-Wafer und Chip-on-Wafer können Unterschiede ausmachen.

amdfanuwe

2022-09-28, 15:43:14

Warum sollten sie zu teuer sein?

Weil es mehr Prozessschritte, mehr Aufwand ist als direkt einen MCD mit mehr Cache zu bauen.

Vielleicht sollte man mal andersherum fragen:
Was, außer Cache, könnte auf einem MCD Speichernah noch gestacked werden?
Könnte AMD da was in Richtung in Memory Computing, AI, Compression etc. vorhaben?
Gestackter Cache only könnte dann auch nur ein Testlauf für die Technik sein.

basix

2022-09-28, 15:44:20

Den Gedanken mag ich :)

ML Accelerator aufs MCD

amdfanuwe

2022-09-28, 15:59:11

Den Gedanken mag ich :)

ML Accelerator aufs MCD
Ich frag mich nur, wie das funktionieren soll, da die MCDs untereinander schlecht kommunizieren können und der Speicher noch interleaved angelegt ist.

why_me

2022-09-28, 16:02:28

Da bis anhin jeder in der Industrie sagt (insbesondere auch laut AMD), dass 3D_SoIC teuer ist, wieso sollte das aufgrund kleinen MCDs nun günstiger sein? Der Prozess ist der selbe. Ob da viele oder wenig Schritte ist erstmal nicht relevant. Es kann auch ein einzelner Schritt sehr teuer sein. Aus welchen Gründen auch immer.

Einzig Wafer-on-Wafer und Chip-on-Wafer können Unterschiede ausmachen.

Teuer ist immer relativ.
Wenn sich durch stacking zum Beispiel der Waferpreis verdreifacht, dann ist das teuer, keine Frage.
Aber auf den Anteil eines kleinen MCD bzw 6 Stk davon bei einer >800$ GPU gerechnet aber fast vernachlässigbar.

Berniyh

2022-09-28, 16:10:15

Aber extra ein Cache Die auflegen und dieses dann stacken ist billiger?
Zudem muss in jedem MCD die stacking Option angelegt sein, kostet auch Fläche.
Also wirklich genau kann dir das natürlich keiner hier beantworten, aber es ist eine Strategie, die AMD auch vorher schon so praktiziert hat, also ist es zumindest plausibel.
Die Anzahl der Chiplet-Designs hat man allerdings klar beschränkt, sonst hätte es ja evtl. auch für EPYC und/oder Ryzen unterschiedliche geben können. Hat man aber nicht gemacht, sondern lieber teildeaktivierte verwendet, auch wenn die im Prinzip "ok" gewesen wären.

Unterschiedliche MCD könnten aber schon auch eine Option für die Zukunft sein, muss man mal abwarten.

Berniyh

2022-09-28, 16:13:11

Gestackte MCDs sind mMn zu teuer und eine Ente. MCDs + GCDs auf einem InFO RDL, that's it. Stacked gibt vorläufig nur bei CDNA
Stacked gibt es auch maximal beim Showcase Produkt für die Balkenlänge. Im Verkauf wird man sich sicher so positionieren, dass praktisch ausschließlich die nicht gestackten verkauft werden.

Cyberfries

2022-09-28, 16:24:12

Linmoum

2022-09-28, 16:32:10

Tangletingle

2022-09-28, 16:33:42

Dann fragt man sich doch aber warum man so ein Produkt überhaupt auflegt. Das muss dann schon einen deutlichen Haloeffekt gegenüber dem Produkten der Konkurrenz haben.

amdfanuwe

2022-09-28, 16:34:48

Hat man aber nicht gemacht, sondern lieber teildeaktivierte verwendet, auch wenn die im Prinzip "ok" gewesen wären.

Ja, aber bei welchem Takt und welchem Verbrauch?
Um eine entsprechende Ausbeute zu erhalten, müßte man den Base CLK entsprechend der schlechtesten Chips ansetzen.
Da lohnt es sich eher durch abschalten der schlechtesten Cores diese eben noch als gut taktende 6 Core zu verkaufen und insgesamt höhere Base CLK und bessere TDP Einstufungen zu erreichen.

davidzo

2022-09-28, 17:03:48

Ich finde wir sollten auch die Möglichkeit aufrecht erhalten dass sich Angstronomics kolossal irrt und N31 und N32 standardmäßig mit mehr cache / stacked MCDs kommen.

Bisher ist Angstronomics die einzige Quelle die nur von 96MB Cache bei Top-dog N31 ausgeht. Davor gab es viel höhere Spekulationen, ich erinnere mich an 192, 256 bis zu 512MB.
AngS weiß zwar anscheinend mehr als die Anderen, aber das heißt noch lange nicht dass sie mit allem richtig liegen müssen.

Weil es mehr Prozessschritte, mehr Aufwand ist als direkt einen MCD mit mehr Cache zu bauen.

Es ist total unglaubwürdig dass AMD die Kosten des Packaging nicht schon vorher gekannt hat. TSMC baut doch gerade die Fabs für den Kunden, bzw. werden die Kapazitäten das unter anderem von AMD mitfinanziert. Da werden sich die Kosten also nicht mal eben verändert haben so dass AMD für ein Hauptprodukt mit der Technik abspringt.
Da wäre imo eine Erklärung glaubwürdiger dass man mehr CPUs mit X3D auflegt als geplant um Intel den killing blow im gaming zu geben und darunter eben die geplante stacked Packaging linie für GPUs leiden muss. Ist durch den allgemeinen Marktabschwung aber auch nicht ganz plausibel.

Ebenso ist es unglaubwürdig dass man das Bandbreiten-Scaling nicht schon sehr gut vorher einschätzen kann. Das dürfte eine der einfacheren Simulationen sein, zumal man ja das Scaling von N21, 22, 23, 24 als Ausgangspunkt hat.
Und wenn man a) Preis und b) Scaling schon vorher kannte, wieso ist man dann nicht schon weit vor dem Tape-out auf die Idee gekommen weniger Cache zu verbauen? Diese Erklärung mit einer last minute Entscheidung von wegen "prototypen haben Stacking aber Serie nicht" ist mir nicht schlüssig genug.

Iscaran

2022-09-28, 17:14:17

Wahrscheinlich hat sich aus Kosten/Nutzen-Sicht für AMD schlicht herausgestellt, dass der Zugewinn von (deutlich) mehr Cache bei RDNA3 zu gering ist, um die MCDs schon standardmäßig mit mehr als der nun kommenden Größe an Cache auszustatten.

Das erklärt aber immer noch nicht warum der MCD fast doppelt so groß ist (37 mm2 wie er für "nur" 16 MB Cache sein müsste.
Siehe dazu unl34shed weiter oben.

EDIT: THIS
Ich finde wir sollten auch die Möglichkeit aufrecht erhalten dass sich Angstronomics kolossal irrt und N31 und N32 standardmäßig mit mehr cache / stacked MCDs kommen.

Bisher ist Angstronomics die einzige Quelle die nur von 96MB Cache bei Top-dog N31 ausgeht. Davor gab es viel höhere Spekulationen, ich erinnere mich an 192, 256 bis zu 512MB.
AngS weiß zwar anscheinend mehr als die Anderen, aber das heißt noch lange nicht dass sie mit allem richtig liegen müssen.

amdfanuwe

2022-09-28, 17:27:29

Es ist total unglaubwürdig dass AMD die Kosten des Packaging nicht schon vorher gekannt hat. TSMC baut doch gerade die Fabs für den Kunden, bzw. werden die Kapazitäten das unter anderem von AMD mitfinanziert. Da werden sich die Kosten also nicht mal eben verändert haben so dass AMD für ein Hauptprodukt mit der Technik abspringt.
Hat ja auch keiner Behauptet.

Berniyh

2022-09-28, 17:46:53

Die Frage ob sich ein extra MCD mit doppeltem Cache oder das Stapeln auf das bestehende MCD eher lohnt,
wird in den Sphären wohl kaum rein nach betriebswirtschaftlichen Gesichtspunkten beantwortet.
Bei Ryzen X3D ging es um die Minimierung der Latenzen, ob das auch für RDNA3 das wichtigste Argument ist?

Jedenfalls ist die Begründung für einen verdoppelten Cache als Leistungsschub für ein mögliches Topmodell dürftig,
wenn gleichzeitig Cache bei den übrigen Modellen reduziert wird.

Bei Ryzen X3D wurde der Cache verdreifacht, hier nur verdoppelt, der zusätzliche Raumbedarf bleibt in engen Grenzen.
Weshalb da nicht einfach die MCDs direkt auf 32mb ausgelegt werden, gerade im günstigeren 6nm Prozess...
Die Größe der MCDs wird sicher nicht danach ausgerichtet, dass man beim Topmodell ja verdoppelt kann, sondern einzig danach was nach Kosten/Nutzen am meisten Sinn macht (oder zu machen scheint).
Das Stacken ist da schlicht und einfach Bonus, das man für ein Topmodell machen kann, wenn es notwendig wird.
Dann fragt man sich doch aber warum man so ein Produkt überhaupt auflegt. Das muss dann schon einen deutlichen Haloeffekt gegenüber dem Produkten der Konkurrenz haben.
Es ist ja auch nicht sicher, dass man es macht, aber es ist halt eine Option, die AMD nutzen kann, notfalls auch später, wie das Beispiel Ryzen zeigte. ;)

Ich finde wir sollten auch die Möglichkeit aufrecht erhalten dass sich Angstronomics kolossal irrt und N31 und N32 standardmäßig mit mehr cache / stacked MCDs kommen.

Bisher ist Angstronomics die einzige Quelle die nur von 96MB Cache bei Top-dog N31 ausgeht. Davor gab es viel höhere Spekulationen, ich erinnere mich an 192, 256 bis zu 512MB.
AngS weiß zwar anscheinend mehr als die Anderen, aber das heißt noch lange nicht dass sie mit allem richtig liegen müssen.
Das stimmt natürlich. Allerdings ist auch fraglich inwiefern frühere Quellen auf wirklichen Daten basierten. Letztendlich ging man teilweise vermutlich einfach davon aus, dass AMD bei den Nachfolgern der RDNA2 Produkte den Cache nicht verkleinern, sondern eher vergrößern würde.
Tatsächlich aber kann eine Verkleinerung für das gesamte Balancing schon Sinn machen, wenn man bei RDNA3 generell mit breiteren Speicherinterfaces plant.
Ein Hinweis, dass 96 MB bei einem 384 Bit Speicherinterface ein guter Kompromiss sein könnte, könnte ja auch sein, dass Ada da in ähnlichen Regionen liegt.

basix

2022-09-28, 20:37:09

Man kann auch N21 als Referenz nehmen:
384bit und 24 Gbps wären 2.25x Bandbreite. Bei ~2x Performance passt das doch nicht schlecht, auch wenn es jetzt etwas weniger als 24Gbps wären. N21 hatte in 4K effektiv >1TB/s Bandbreite, was für die Performance nicht zwingend nötig ist. Eine RTX 3070 schafft mit 448GB/s deutlich mehr als die Hälfte der Performance einer 6900XT.

Dass es mehr als 96MByte werden könnten, ja das kann sein. Aber dann mehr auf dem MCD und nicht stacked und entsprechend auf allen N31/32 SKUs mit der selben Speichermenge.

Ach ja, neben Kosten ist auch die Kapazität der Fertigungslinie relevant, welche es für 3D-Stacking braucht. Die ist momentan wohl besser bei EPYC, CDNA und der Gaming Krone im Desktop aufgehoben. Mit Dragon Range könnte es V-Cache sogar im Notebook geben :) Klar, jetzt kann man argumentieren "Wieso bei GPUs nicht"? Weil nicht nötig und kein Vorteil verglichen mit der Konkurrenz. Ganz einfach. KISS gilt auch hier. V-Cache Testballone sind was anderes. Hatte nicht bereits das Zen 2 CCD TSVs für V-Cache?

Cyberfries

2022-09-28, 21:16:55

Die Größe der MCDs wird sicher nicht danach ausgerichtet, dass man beim Topmodell ja verdoppelt kann,

Das hat nichts mit dem zu tun was ich geschrieben habe?
Meine Aussage bezog sich auf den Vergleich 32mb-MCD vs. 16mb-MCD+16mb-Stapel.

sondern einzig danach was nach Kosten/Nutzen am meisten Sinn macht...Das Stacken ist da schlicht und einfach Bonus,

Etwas mehr als "Bonus" sollte das schon sein, bei dem zu betreibenden Aufwand für Entwicklung und Umsetzung.
+5% nur beim Topmodell ist da etwas mager und ob bei verdoppeltem Cache realistisch gesehen mehr erwartbar ist?
Ein spürbarer Schub würde eher den Verdacht aufkommen lassen, dass die 2D-Variante an Bandbreite verhungert
und das wiederum ist unwahrscheinlich, da kein Hersteller ohne Not das eigene Portfolio torpediert.

Ein Hinweis, dass 96 MB bei einem 384 Bit Speicherinterface ein guter Kompromiss sein könnte, könnte ja auch sein, dass Ada da in ähnlichen Regionen liegt.

Es wird sich zeigen ob die Architekturen in der Hinsicht trotz unterschiedlicher Ansätze vergleichbar sind.
In der Vergangenheit hat AMD oft mehr unter geringer Bandbreite gelitten als nVidia.
Und wenn sich 96mb als optimale Größe für Karten dieser Geschwindigkeitsklasse herausstellt: Wozu noch stapeln?

OgrEGT

2022-09-28, 21:33:26

Hmm... :freak:
Da könnte man Recheneinheiten näher zusammenbringen und wenn so über den MCD Teilen gestacked ließe sich auch die Hitze besser abführen...

https://www.forum-3dcenter.org/vbulletin/attachment.php?attachmentid=80682&stc=1&d=1664393261

N31 = 2 GCDs
2x24 WGPs/GCD
12288 SP
2x3x64bit = 384bit SI
2x3x16 / 32MB = 96 / 196MB IF$

N32 = N31 Salvage = 2 GCDs
2x20 WGPs/GCD
8192 SP
2x2x64bit = 256bit SI
2x2x16 / 32MB = 64 / 128MB IF$

N33 = 1 GCD
1x16 / 1x20 WGPs
4096 / 5120 SP
1x2x64bit = 128bit SI
1x2x16 / 32MB = 32 / 64MB IF$

davidzo

2022-09-28, 22:06:18

Hat ja auch keiner Behauptet.
Aber ist es dann nicht auch unglaubwürdig dass AMD wie von Angstronomics ebenfalls behauptet eine Testserie mit 1-hi stacked MCDs gebaut hat und erst danach entschieden hat die GPUs ohne Stacked cache zu launchen?
Wenn es also keine Kostengründe sind, weshalb hat AMD dann angeblich ein MCD mit stacking connections gebaut nur um dann SKUs ohne stacked cache zu launchen die zwar arithmetikleistung ohne Ende haben, aber im Gegensatz zum Ursprungsdesign unter Bandbreitenknappheit zumindest in höheren Auflösungen leiden?
Du suggerrierst also das es das Zweite ist: AMD hat einfach falsch geplant bzw. falsch simuliert wieviel Bandbreite an bräuchte? Oder was ist deine Erklärung?

amdfanuwe

2022-09-28, 22:19:44

Du suggerrierst also das es das Zweite ist: AMD hat einfach falsch geplant bzw. falsch simuliert wieviel Bandbreite an bräuchte? Oder was ist deine Erklärung?
Hääh???
Würfelst du da was durcheinander?
Les nochmal die letzten Posts im Zusammenhang.

r3ptil3

2022-09-28, 22:23:18

Etwas merkwürdig, dass es zum Navi31 Chip noch rein gar keine Leistungs-Leaks gibt.

Entweder haut AMD kurz vor Review-Freigabe der RTX 4090 noch irgendwelche Infos raus oder es bleibt still, weil vielleicht die Leistung nicht mit diesem Nvidia-Modell konkurriert.

basix

2022-09-28, 22:59:10

Ach, die haben aus Versehen 9700 Pro anstatt 7900XT auf die Packung geschrieben :D

vinacis_vivids

2022-09-28, 23:00:25

Über Navi 31 ist bisher die Shaderanzahl, MCM, 5nm, SI, Taktrate, Siliziumgröße, Board und Verbrauch, Preis durchgesickert und relativ gesichert.

Unbekannt ist dagegen die Cachegröße, Ray-Tracing, interne uArch Verbesserungen an den CU`s und neuere Upscaling-Methoden, die entscheidend auf die Leistung einwirken. AMD hat auch kein White-Paper zu Navi2X geliefert, lediglich zu Navi1X. Auch der IF$ ist bisher nur oberflächlich betrachtet worden.

Bei der Vorstellung von Lisa Su zu den Ryzen 7000 gabs ein lauffähiges N31 Exemplar in einem unreleased game. Im Prinzip ist es auch egal, weil im GPU-Geschäft hoch gepokert wird.

Bei vergangenen Vorstellungen wie Fiji und Vega, bis dato die größten Projekte im GCN uArch hatte man sich im Marketing-Bereich nicht mit Ruhm bekleckert.
Heute unter Führung von Su, geht AMD viel gelassener und bodenständiger im Marketing um. AMD liefert einfach und hält das Versprechen für Gamer bezahlbare Chips zu produzieren.

Die allermeisten Gamer sind ohnehin ahnungslos was Hardware angeht und sind überhaupt nicht interessiert. Für die paar Nerds hat AMD meinem Geschmack nach genügend geliefert, finde die neue Strategie passend und gut.

Iscaran

2022-09-28, 23:04:26

@OgrEGT verstehe deine Skizzen irgendwie nicht? Kannst du das nochmal irgendwie anders erläutern oder zeichen?

Dass es mehr als 96MByte werden könnten, ja das kann sein. Aber dann mehr auf dem MCD und nicht stacked und entsprechend auf allen N31/32 SKUs mit der selben Speichermenge.

Absolut, das sehe ich aktuell als am Wahrscheinlichsten.

ODER die Angabe mit den 37 mm2 fürs MCD stimmt eben nicht. Wären das nur so ~20 mm2 würde das auf 16 MB Cache passen.

Vielleicht bekam Angstronomics Daten/Chips für ihr Leak wo AMD mit kleineren MCDs experimentiert hat, dieser aber 1-hi stacked waren. Und aus einer Anderen Quelle dann die Info die MCDs sind 37 mm^2 groß.

Auf jeden Fall denke ich haben wir 3 Fälle:
1.) die 37mm^2 fürs MCD stimmen nicht, ODER
2.) Die 16 MB Cache pro MCD stimmen nicht, ODER
3.) Die 16 MB cache und die 37mm^2 stimmen.
=> MCDs sind komplexer aufgebaut und enthalten uns noch unbekannte Bauteile die ca die Hälfte das Platzes brauchen.

basix

2022-09-28, 23:11:28

=> MCDs sind komplexer aufgebaut und enthalten uns noch unbekannte Bauteile die ca die Hälfte das Platzes brauchen.

Matrix *hust* Units...

OgrEGT

2022-09-28, 23:19:11

@OgrEGT verstehe deine Skizzen irgendwie nicht? Kannst du das nochmal irgendwie anders erläutern oder zeichen?

Wenn es nur ein monolithisches Chiplet mit GCD und MCD gäbe, welches über je 24 WGPs verfügen würde, könnte man dieses drehen und auf ein weiteres Chiplet als Ganzes stacken... ggf. Wafer on Wafer... vorausgesetzt dass es genügend TSVs in den Bereichen gibt, über die sich die Chiplets verbinden lassen.

So könnte man mehr SPs räumlich näher zusammenbringen, Energie durch kürzere Verbindungen sparen und durch die versetzte Anordnung würden über große Bereiche IF$ und GCD Logik stacked verbunden so dass die Abwärme der SPs gut abgeleitet werden könnte...

https://www.forum-3dcenter.org/vbulletin/attachment.php?attachmentid=80683&stc=1&d=1664400251

Iscaran

2022-09-29, 00:22:27

Matrix *hust* Units...
Ja, möglich wäre das vielleicht. Nur verstehe ich nicht ganz warum die Matrix-Einheiten auf dem MCD hausen sollten, soweit weg von den Shadern?

Wie ist das bei nVidia mit den Tensor-Units? Wo stecken die denn (geometrisch gesehen) auf dem Chip?

Wenn es nur ein monolithisches Chiplet mit GCD und MCD gäbe, welches über je 24 WGPs verfügen würde, könnte man dieses drehen und auf ein weiteres Chiplet als Ganzes stacken... ggf. Wafer on Wafer... vorausgesetzt dass es genügend TSVs in den Bereichen gibt, über die sich die Chiplets verbinden lassen.

Danke sehr, jetzt versteh ich es denke ich. Aber ob man wirklich schon "stacked" GCDs plant in RDNA3?

Würde erstmal mit MCD an MCD denken für die Brückung zwischen GCDs.
Aber, ja der Ansatz von dir wäre ziemlich radikal.

vinacis_vivids

2022-09-29, 00:36:57

Aber ob man wirklich schon "stacked" GCDs plant in RDNA3?

Nein.

Erst ab CDNA3 wird Wafer on Wafer gestapelt.

basix

2022-09-29, 08:12:31

Ja, möglich wäre das vielleicht. Nur verstehe ich nicht ganz warum die Matrix-Einheiten auf dem MCD hausen sollten, soweit weg von den Shadern?

Wie ist das bei nVidia mit den Tensor-Units? Wo stecken die denn (geometrisch gesehen) auf dem Chip?

Die stecken bei Nvidia innerhalb der SMs ;) Ist nämlich auch sinnvoll, weil man da die ganze Infrastruktur rund ums SM mitnutzen kann (z.B. L1 & L2 Caches, Datenpfade).

Der Vorteil beim MCD wäre: L3 ist recht gross und man hätte die kürzest möglichen Datenpfade zum diesem Speicherpool. Man ist einfach am nähesten am Speicher, was Latenzen und Energieeffizienz verbessert. Und wenn man nicht mit oft dem GCD schwatzen muss, spart man sich die entsprechenden Datenübertragungen ans GCD und auch innerhalb des GCDs werden die Datenpfade nicht durch Matrix-Load belastet. Ich würde das dann so als Art ausgelagerter Co-Prozessor interpretieren. Sobald die Matrix Units viel mit anderen Einheiten wie FP32 Units oder auch RT/TMU etc. Cores kommunizieren, dann sind die Matrix Units im GCD aber deutlich besser aufgehoben. Andererseits wird man ein paar TByte/s zwischen MCDs und GCD haben, wo für das was anfällt evtl. reicht.

mksn7

2022-09-29, 08:29:04

Die stecken bei Nvidia innerhalb der SMs ;) Ist nämlich auch sinnvoll, weil man da die ganze Infrastruktur rund ums SM mitnutzen kann (z.B. L1 & L2 Caches, Datenpfade).

Genau, matrix cores führen ja auch keine Programme aus. Dazu braucht es immer noch den ganz normalen scheduler der die Instruktionen scheduled, eine ALU die Adressen berechnet, eine load/store unit die inputs lädt, und die Ergebnisse dann auch wieder irgendwo hinschreibt, branching für den Kontrollfluss...

Deswegen sind die Vorschläge, matrix cores oder RT cores irgendwo auszulagern, nicht sinnvoll.

Weltraumeule

2022-09-29, 15:33:06

Ich hatte zuletzt zwei NV Karten und würde eigentlich schon gerne zu AMD wechseln weil ich NV eigentlich schon immer hasse, jedoch spiele ich sehr oft Portal 2 Community Test Chambers und nutze SGSSAA oder OGSSAA per NV Inspector, nur damit erhalte ich ein einigermaßen ruhiges Bild bei der Darstellung von zerbrochenen durchsichtigen Glasscheiben. Ohne SGSSAA oder OGSSAA flimmern diese wie die Hölle....

Auch bei Turok Dinosaur Hunter Remaster hilft nur SGSSAA oder OGSSAA für ein ruhiges Bild.

Werde auch viele alte Spiele nachholen und bräuchte daher diese coolen Techniken.

Bei AMD gibt es sowas ja nicht laut meiner Recherche. Oder bieten diese auch ein Pendant dazu? Denn wenn nicht, scheidet AMD für mich leider aus :frown:

vinacis_vivids

2022-09-29, 15:44:45

Auch bei Turok Dinosaur Hunter Remaster hilft nur SGSSAA oder OGSSAA für ein ruhiges Bild.

Werde auch viele alte Spiele nachholen und bräuchte daher diese coolen Techniken.

Bei AMD gibt es sowas ja nicht laut meiner Recherche. Oder bieten diese auch ein Pendant dazu?

SSAA heißt bei AMD heißt Virtual Super Resolution und Radeon Super Resolution. Du kannst damit 8K Auflösung auf einem 4K Monitor fahren (wenn die Leistung es zulässt).

Benchmarks siehe hier (5k, 6k und 8k - alles auf einem 4k Monitor)
https://www.forum-3dcenter.org/vbulletin/showpost.php?p=12984502&postcount=304

Es sieht nicht nur deutlich besser aus, es sind auch deutlich mehr Details dargestellt. Leider ist der Hunger nach Leistung extrem groß bei nativen 8K Rendering. Die Anzahl der gerenderten Pixel ist viermal so hoch.

DrFreaK666

2022-09-29, 15:53:07

SSAA heißt bei AMD heißt Virtual Super Resolution und Radeon Super Resolution. Du kannst damit 8K Auflösung auf einem 4K Monitor fahren (wenn die Leistung es zulässt).

Benchmarks siehe hier (5k, 6k und 8k - alles auf einem 4k Monitor)
https://www.forum-3dcenter.org/vbulletin/showpost.php?p=12984502&postcount=304

Es sieht nicht nur deutlich besser aus, es sind auch deutlich mehr Details dargestellt. Leider ist der Hunger nach Leistung extrem groß bei nativen 8K Rendering. Die Anzahl der gerenderten Pixel ist viermal so hoch.

Du verwechselst da was. VSR ist das Pendant zu NVs DSR. Darum gings aber nicht.

edit:
Die Radeons können aber tatsächlich SSAA, was mit NVs vergleichbar ist, bei NV und insbesondere mit dem Inspector ist es aber einfacher und effektiver erzwingbar.
Habe weder Portal 2 noch Turok zum Testen.

Es geht um das Ergebnis. Ob SGSSAA oder OGSSAA oder SSAA durch VRS ist im Endergebnis gleich. Alle SSAA-Verfahren rendern mehr Pixel als der Monitor darstellen kann und lindern somit das Flimmern.

Ältere Spiele können das HUD zu klein darstellen, wenn die Auflösung zu hoch ist. Im Endergebnis ist das daher nicht unbedingt gleich

vinacis_vivids

2022-09-29, 15:57:34

Es geht um das Ergebnis. Ob SGSSAA oder OGSSAA oder SSAA durch VRS ist im Endergebnis gleich. Alle SSAA-Verfahren rendern mehr Pixel als der Monitor darstellen kann und lindern somit das Flimmern.

SSAA ist sogar besser als SGSSAA oder ODSSAA weil da mehr Details dargestellt werden, neben dem Anti-Aliasing und vermindertes Flimmern.

Ich nutze selber SSAA bei "älteren Spielen" häufig.
Leider habe ich kein Turok da.

basix

2022-09-29, 16:01:09

Genau, matrix cores führen ja auch keine Programme aus. Dazu braucht es immer noch den ganz normalen scheduler der die Instruktionen scheduled, eine ALU die Adressen berechnet, eine load/store unit die inputs lädt, und die Ergebnisse dann auch wieder irgendwo hinschreibt, branching für den Kontrollfluss...

Deswegen sind die Vorschläge, matrix cores oder RT cores irgendwo auszulagern, nicht sinnvoll.

Deswegen sage ich ja, dass es innerhalb der SMs und CUs sinnvoll ist ;)

Doch wie macht es Ponte Vecchio mit zig Chiplets? Und wenn man nur wenig "Control Flow Logic" benötigt, wieso das nicht mitauslagern? Was ist mit dedizierten NPUs? Müssen die mit den anderen Rechenwerken im Chip wie CPU oder GPU gross schwatzen?

mksn7

2022-09-29, 16:51:52

Deswegen sage ich ja, dass es innerhalb der SMs und CUs sinnvoll ist ;)

Doch wie macht es Ponte Vecchio mit zig Chiplets? Und wenn man nur wenig "Control Flow Logic" benötigt, wieso das nicht mitauslagern? Was ist mit dedizierten NPUs? Müssen die mit den anderen Rechenwerken im Chip wie CPU oder GPU gross schwatzen?

Ich pflichte dir ja bei!

Mhm, Ponte Vechio. Ich glaube der besteht aus compute, cache und IO tiles, aber compute Funktionen bleiben jeweils zusammen.

Ich kenn mich mit den NPUs die in SoCs drin sind ehrlich gesagt nicht so aus, aber ich denke die sind eher wie DSPs fast schon fixed function Logik. Nur begrenzt programmierbar, oder jedenfalls nicht allzu general purpose. Aber die sind ziemlich eigenständig, weil die auch verwendet werden um in einem low power modus auf Aufwachwörter zu hören, während der Rest schläft.

Gipsel

2022-09-30, 16:33:43

Deswegen sage ich ja, dass es innerhalb der SMs und CUs sinnvoll ist ;)Aber warum hast Du dann was von Matrix Units "gehustet" (https://www.forum-3dcenter.org/vbulletin/showthread.php?p=13122079#post13122079), als es darum ging, was in den MCDs noch so drin sein könnte? :confused:

basix

2022-09-30, 16:52:26

Siehe meine weitere Argumentation in den nachfolgenden Posts:
- Nähe zum Cache und VRAM Pool (Bandbreite, Latenz, Distanzen & pJ/bit)
- Belastet MCD <-> GCD Interface weniger, da "nur" Resultate mit GCD geteilt werden können
- NPUs arbeiten meines Wissens auch mehr oder minder eigenständig als Co-Processor / Accelerator (wobei LL-Caches sicher mitgenutzt werden)

Ist nicht so, dass es gar keinen Sinn macht. Jedenfalls aus meiner Sicht mehr als lediglich +16 MByte Cache draufzustacken.

amdfanuwe

2022-09-30, 17:32:58

Mit NPU müssen wir etwas vorsichtig sein.
Du meinst sicher Neural Prozessing Units.

Auf dem letztem Leak der Desktop Roadmap gibt es APU und NPU.
Da ist dann eher eine Network Prozessing Unit, also ein schwacher Prozessor ohne GPU für den Einsatz im Netzwerk, gemeint.
https://abload.de/img/fd4lxfkayaa5w2vlaio2.jpg

basix

2022-10-02, 12:11:51

Ada Whitepaper:
Ein wenig Lektüre vor der Nachtruhe:
images.nvidia.com ... nvidia-ada-gpu-architecture.pdf (https://images.nvidia.com/aem-dam/Solutions/geforce/ada/nvidia-ada-gpu-architecture.pdf)

Wieso ich das hier Poste:

Nvidia hat bei Ampere wie auch Ada die Ray/Triangle Intersection Rate verglichen zum Vorgänger verdoppelt. Also gleich zwei Mal hintereinander. Soweit ich mich erinnere gab es einen GPU-Trace Graph bei RDNA2, welcher bei Ray/Triangle einen Engpass andeutete. Hier könnte AMD also für Performance-Verbesserungen ansetzen. Ray/Box müsste vermutlich ebenfalls nach oben skaliert werden. Nimmt man Anzahl RT-Cores, erhöhte Ray/Triangle usw. Rates und den erhöhten Takt, könnten die RT-Performance der RT-Cores von N31 z.B. ~6x schneller als N21 sein (Beispiel mit 4x/clock Boost bei RDNA3 & wenn nichts anderes limitiert). Irgendwas um die 6x fand sich mal in einem Beispiel im Beyond3D Forum (finde den Post gerade nicht)
Ada bleibt bei Registerfiles sowie L0/1 Cache-System bei dem von Ampere. RDNA3 nähert sich in dieser Hinsicht nicht an, sondern balanciert es verglichem mit RDNA2 etwas anders aus: Weniger Registerfiles pro FP32-Unit und dafür mehr L1-Cache pro Shader Engine (gleichbleibend pro FP32-Unit).
Turing hat hinsichtlich Registerfile und L1$ pro FP32-Unit insgesamt deutlich mehr Ressourcen als alle anderen hier aufgelisteten Architekturen.

Edit:
Ach ja, was noch interessant ist: RDNA2 bringt deutlich mehr Performance pro FLOP als auch pro [kB] Registerfile & L1$ auf den Boden. Könnte hinsichtlich Performance/Ressourcen bei RDNA3 vs. Lovelace ähnlich ausfallen, wobei man bei RT den Abstand verringern können sollte. Ein grösserer Local Data Share (LDS) wäre bei RT allerdings hilfreich:
Our traversal system runs on the RDNA® 2 WGP and uses LDS extensively.
https://gpuopen.com/performance/
https://gpuopen.com/learn/improving-rt-perf-with-rra/

|Turing|Ampere|Lovelace|RDNA1|RDNA2|RDNA3
GPC/Shader Engine pro Chip (xx102, Nx1)|6|7|12|2|4|6
SM/CU pro Chip (xx102, Nx1)|72|84|144|40|80|96
FP32 pro Chip (xx102, Nx1)|4608|10'752|18'432|2560|5120|12'288
SM/CU pro GPC/Shader Engine|12|12|12|20|20|16
FP32 pro GPC/Shader Engine|768|1536|1536|1280|1280|2048
FP32 pro SM/CU|64|128|128|64|64|128
Registerfile pro SM/CU [kB]|256|256|256|256|256|384 (N33 = 256)
Registerfile pro FP32 [kB/FP32]|4|2|2| 4|4|3 (N33 = 2)
Registerfile pro GPC/Shader Engine [kB]|3072|3072|3072| 5120| 5120| 6144
Registerfile pro Chip (xx102, Nx1) [MB]|18.4|21.5|36.9|10.2|20.5|36.9
L0$ pro SM/CU [kB]|n.a.|n.a.|n.a.|16|16|32
L0$ (Instruction) pro SM/WGP [kB]|Yes, size ???|Yes, size ???|Yes, size ???|32 (+10 scalar)|32 (+10 scalar)|32 (+10 scalar)
L1$ pro GPC/Shader Engine [kB]|n.a.|n.a.|n.a.|256|256|512
L1$ pro SM/CU [kB]|96|128|128|12.8|12.8|32
L1$ pro FP32 [kB]|1.5|1.0|1.0|0.20|0.20|0.250
L1$ pro Chip (xx102, Nx1) [kB]|6912|10'752|18'432|512|1024|3072
L2$ pro Chip (xx102, Nx1) [MB]|6|6|96|2|4|6
L3$ pro Chip (xx102, Nx1) [MB]|n.a.|n.a.|n.a.|n.a.|128|96
RT Cores pro Chip (xx102, Nx1|72|84|144|n.a.|80|96?
Ray/Box intersections per Clock pro RT/Core|???|???|???|n.a.|4|??? -> 16?
Ray/Triangle intersections per Clock pro RT/Core|??? (1x)|??? (2x)|??? (4x)|n.a.|1|??? -> 4?
||||||

Gipsel

2022-10-02, 16:18:36

AMD benutzt seit ewigen Zeiten schon 256kB Registerfiles pro CU (seit R600, also seit es unified Shader gibt). Die 128kB bei RDNA gelten pro SIMD. RDNA3 erhöht das bei N31/N32 auf 192kB, also 384kB pro CU bzw 768kB pro WGP.
N21 hatte schon 20MB Vektorregister, N31 hat 36MB.

basix

2022-10-02, 16:35:00

Gefixt, danke :)

So macht es auch mehr Sinn, dass RDNA1/2 in etwa bei Turing liegen was Perf/Flop angeht. Die geringere Menge an L1$ bleibt verglichen mit Nvidias Chips allerdings bestehen.

Neurosphere

2022-10-02, 16:41:47

Wir wissen auch nicht ob es weiterhin einen RT-Core pro CU gibt oder AMD die Zahl auf 192 verdoppelt.

basix

2022-10-02, 16:44:18

Richtig, evtl. werden die verdoppelt. Allerdings wird die CU-Anzahl bei RDNA3 verdoppelt, und bei RDNA2 gibt es momentan 1x RA per CU. Bei Nvidia das selbe pro SM. Da würde ich eher erwarten, dass der RA an sich verbessert wird.

Gipsel

2022-10-02, 17:58:33

Gefixt, danke :)

So macht es auch mehr Sinn, dass RDNA1/2 in etwa bei Turing liegen was Perf/Flop angeht. Die geringere Menge an L1$ bleibt verglichen mit Nvidias Chips allerdings bestehen.Die Cache-Strukturen sehen auch noch etwas anders aus. AMD hat getrennte Vektor- und Skalar-L0-Caches.
Pro CU gibt es bei RDNA 16kB (RDNA3 32kB) L0-vD$. Die L0-I$ (32kB) und L0-sD$ (16kB) gibt es pro WGP. Alle davon (zusammen mit den ROPs, die nochmal spezialisierte Color- und Z-Tile Caches besitzen) hängen dann am pro Shader-Array (nicht Shader-Engine!) vorhandenem L1$ (128kB bzw. 256kB mit RDNA3, N31 hat also 12 einzelne L1$ zu je 256kB, insgesamt also 3MB).

Iscaran

2022-10-02, 17:59:07

L3$ pro Chip (Gx102, Nx1) [kB]

Das muss MB heissen sonst stimmen dei 128 für RDNA2 nicht? (128*1024 = 131.072)

basix

2022-10-02, 22:20:03

Klar :)

Danke euch für die Korrekturen. Hoffe es stimmt jetzt dann langsam einigermassen :D

r3ptil3

2022-10-02, 23:40:06

Ausgehend von der Herangehensweise von AMD, kurz vor der Vorstellung der RTX 4090 noch das Launch-Date 2h rauszuhauen, vermute ich am 05.10 wieder das gleiche. :D

Wird mir die Entscheidung am 12.10 bestenfalls einfacher machen.

OgrEGT

2022-10-03, 10:51:40

https://forum.beyond3d.com/threads/amd-rdna-3-speculation-rumours-and-discussion.62092/post-2266722
CoWoS-R confirmed?

Nightspider

2022-10-03, 13:29:23

Wohl nicht bei Navi31 aber vielleicht später bei CDNA3.

Wäre aber zu geil falls AMD RDNA3 so skalierbar gemacht hätte, das man später eine "Über-Version" herausbringen könnte. :D

basix

2022-10-03, 13:46:22

RDNA3 ist vermutlich InFO_oS, CoWoS-R bietet aber nochmals höhere Interconnect Density.
https://semiwiki.com/semiconductor-manufacturers/tsmc/314439-tsmc-2022-technology-symposium-review-advanced-packaging-development/

amdfanuwe

2022-10-03, 13:47:21

oder gar COWOS-R+?
https://semianalysis.com/packaging-developments-from-ectc-2022-tsmc-cowos-r-tsmc-4th-generation-soic-intel-collective-die-to-wafer-hybrid-bonding-amd-v-cache-sonys-leading-1-micron-pitch-hybrid-bonding-mediatek-netw/

basix

2022-10-03, 14:25:17

Ich nehme auch CoWoS-R+, wenn das die bessere Lösung ist (technisch und/oder Kosten) ;)

Linmoum

2022-10-06, 15:14:23

https://forum.beyond3d.com/threads/amd-rdna-3-speculation-rumours-and-discussion.62092/page-93#post-2267467
https://forum.beyond3d.com/threads/amd-rdna-3-speculation-rumours-and-discussion.62092/page-94#post-2267492

Ich mach mal frech einfach Cross-Posting ausm beyond3D, das ist Mobile leider immer alles ein Krampf.

Das Patent ist heute veröffentlicht worden, datiert aber schon auf den März 2021. Ob das in diesem Fall schon zeitlich für RDNA3 reichen würde? Who knows, zumal es auch um Stacking geht.

Statt nur GCD und MCD haben wir hier jetzt AID (active interposer die), SED (shader engine die), MID (multimedia und I/O die) sowie das GCD (graphics complex die).

mboeller

2022-10-06, 15:26:22

Neurosphere

2022-10-06, 16:21:30

dann wären wir wieder bei
N33 = 1x AID
N32 = 2x AID
N33 = 3x AID

jeweils + MID

Amd geht also den Nvidia weg nun auch bei den Codenamen:freak:

Nazar

2022-10-07, 09:08:20

Es gab von IrgorsLab eine interessante Aussage (https://www.igorslab.de/nvidia-geforce-rtx-4090-wo-der-irrtum-mit-den-600-watt-wirklich-herkommt-und-warum-die-karten-so-riesig-sind/) zum N31.
Am Ende des Artikels spekuliert er über dessen Leistungsfähigkeit (auf Grundlage von interner Informationen) zwischen einer 4080 12GB und 4080 16GB ein.
Ich kann seine Aussagen schlecht abschätzen, da ich seinen Kanal nur sporadisch verfolge und deshalb nichts über seine Trefferquote sagen kann.
Interessant ist die Aussage aber auf jeden Fall. Weil damit die von AMD prognostizierte RZ Leistungssteigerung pro Watt weit hinter den eigenen Aussagen zurückbleiben würde.
Eine 7900XT wäre damit kaum schneller als eine 6950XT.
Ich habe meine 3090 im TSE getestet und war rund 10% langsamer als eine 4080 16GB (https://www.guru3d.com/news-story/assumed-nvidia-geforce-rtx-4080-16gb-3dmark-performance-benchmarks-leaked.html).
Im Grunde würde das bedeuten, dass der N31 von der Leistungsfähigkeit auf dem Level einer 3090 ankommen würde, was dann schon extrem enttäuschend wäre.
Eventuell auch ein Grund dafür, dass AMD derzeit so extrem schweigsam ist?

unl34shed

2022-10-07, 09:15:07

Das passt doch alleine mit der perf/W Angabe von AMD nicht zusammen

Iscaran

2022-10-07, 09:20:21

Na, ich weiss nicht - die Gerüchtelage die Igor sich da zusammenreimt ist ja mehr als dünn.

Letztlich spekuliert er die Einordnung von N31 auf Basis der bisher noch nicht wirklich auch gesicherten großen Lücke zwischen 4080 12 GB und 4080 16 GB. Und dem Fakt dass nVidia die "kleinere" Karte nicht 4070 nennt.

IMHO hat er genau NULL Informationen zu N31 überhaupt und der Rest ist halt eine eher wilde Interpretation davon, dass er meint die "nVidia-Investigativ-Abteilung" wüsste hier schon mehr als alle anderen und hat deswegen bereits das Marketing entsprechend "sortiert"....

IMHO...."fake news".

Etwa auf einer Stufe mit: Die Äpfel an unserem Baum in diesem Jahr waren röter als letztes Jahr => die Performance von N31 wird deutlich besser als vermutet. (oder auch nicht).

Gipsel

2022-10-07, 09:22:59

Vor Allem paßt die Begründung nicht (die "älteren Nodes" [6nm Chiplets?] würden den Verbrauch hochtreiben). Den aktuellen Gerüchten zu Folge sitzen quasi alle wesentlichen Stromfresser im 5nm GCD. Die Speichercontroller/GDDR6 PHYs ändern ihren Stromverbrauch zwischen 6nm und 5nm wohl nur unbedeutend.

Linmoum

2022-10-07, 09:23:21

Für zwischen 4080 12G und 4080 16GB müsste N31 vermutlich nur 20-30% schneller als N21 sein. Ist total sinnvoll. Genau.

Wenn Igor die RT-Performamce meint, dann keine Ahnung. Das kann außerhalb von AMD schlicht niemand zum aktuellen Zeitpunkt seriös beurteilen.

basix

2022-10-07, 09:42:57

Ja, normalerweise ist Igor gut informiert und seine Begründungen schlüssig. Hier merkt man aber gut, dass er wie alle anderen auch nur am schwimmen ist.

HOT

2022-10-07, 09:44:01

Ob der Chip jetzt N5P-Basis oder N4-Basis gefertigt ist dürfte, bis auf minmal Packdichte, furzegal sein, da liegt er sicherlich falsch. Er hat aber auch begründet, wie er darauf kommt, der hat die 6800XT + 50% gerechnet und ist auf 300W gebleiben. Das wird ja nicht passieren. Wir werden ja einen W-Sprung auf 350W ziemlich sicher sehen, weil das Ref-Design den PEG-Strom verwerten wird. AMD wird das Ref-Designs aus Marketinggründen unbedingt mit nur 2 8-Pin-Sterckern bringen wollen. Ich glaub zwar nicht voll an seine Thesen und Begründungen, aber die 4090 knackt AMD mMn nicht. Die 7900XT wird über der 4080 16GB rauskommen ist meine Prognose, die 7800XT (die er ja meint in seiner Vorhersage) zwischen den 4080.

Virtual

2022-10-07, 09:46:58

Für Igor untypisch spekuliert er mit offensichtlich mit Aussagen, die allen bisherigen spekulativen Erkenntnissen widersprechen. Ich vermute, es zeigt nur (s)eine Form der Frustration, weil selbst die gerne genannte "Quellen" bei den Boardpartner dicht halten (müssen). Möchte er damit wirklich einen Leak bei AMD provozieren, damit der Willen zum Warten auf NV31 außerhalb NV-Fanbase schwindet?

Er bietet bisher nur eine "AMD Radeon RX 7900XT – Mögliche Platine ..." als einzige Information aus seinen "Quellen" und folgert daraus zu viel. Er sollte eher seine Frustration über den Informationsmangel weniger öffentlich bekämpfen. Kreativ ist er ja.

Mehr als 'Igor ist frustriert, ob des Mangels an Leaks' sehe ich nicht in seinem Aussagen zu N31.

Linmoum

2022-10-07, 09:47:32

Naja, in dem Fall ist das aber schon logisch denkend. Wenn wir alleine von ~3GHz Game Clock ausgehen, würde man schon oberhalb einer 4080 12G landen. Ohne den massiven ALU-Anstieg und sonstiger uArch-Improvements.

Kann natürlich sein, dass er die RT-Performance meint. Da kann man aber nicht einmal halbwegs seriös anhand von mutmaßlich glaubwürdigen Gerüchten spekulieren, weil es dazu schlicht solche nicht gibt.

HOT

2022-10-07, 09:50:46

Er meint nicht die RT-Performance :freak:

Linmoum

2022-10-07, 09:52:45

Vielleicht meint er es ohne es zu sagen. Man weiß durch Nvidia, wo sich die beiden 4080 grob auch verglichen mit N21 bei non-RT platzieren werden. Davon ausgehend zu meinen, AMD würde mit N31 non-RT nur vielleicht 20% mehr Performance bieten ist schlicht absurd.

HOT

2022-10-07, 09:54:24

Nein, er meint nicht die RT-Performance, so ein Unsinn.

Linmoum

2022-10-07, 09:59:27

Unsinn ist eher alles andere bei logischer Betrachtung. Zumal das mit 50% Perf/Watt schon gar nicht hinhaut.

Iscaran

2022-10-07, 10:01:51

Hmmm, also wenn Igor hier auf die RT-Performance anspricht, dann könnte es vielleicht passen.

Damit wäre der RT-Sprung bei AMD halt auch nur "ähnlich" wie der bei der normalen Hardware, somit also der "Abstand" bei RT immer noch in etwa ähnlich wie bei RDNA2 vs Ampere.

IMHO kein Beinbruch, wäre allerdings unerwartet - eine stärkere Anhebung der RT-Leistung seitens AMD wird eigentlich erwartet.

Andererseits - sehe ich aktuell noch nicht den wirklich durchschlagenden Nutzen, weder in Verbreitung noch in Anwendung ist RT, der "Vernichtungserfolg" den sich so mancher erhofft hat.

HOT

2022-10-07, 10:15:28

Unsinn ist eher alles andere bei logischer Betrachtung. Zumal das mit 50% Perf/Watt schon gar nicht hinhaut.
RT-Leistung ist wohl eher 300% mehr Perf/W, nicht 50%. Die 50% gelten für Rasterizer, Punkt.

Igor meint, offenbar dass 5nm = 5nm ist und 4nm besser ist. Das stimmt ja nicht wirklich, das ist sein Problem.

Ada sollte in 5LPP kommen, das wird jetzt 4N, deshalb braucht AD102 halt 450W statt 600W, der TSMC-Prozess ist halt soviel besser als der Samsung-Prozess.
Und er meint, dass AMD nur 5-6nm ist und deshalb schlechter. Mehr ist da nicht hinter.

Complicated

2022-10-07, 10:42:21

Ja, normalerweise ist Igor gut informiert und seine Begründungen schlüssig. Du meinst er tut gerne so als sei er gut informiert... siehe auch den Humbug mit Nvidias Ada Portierung von Samsung 8nm zu TSMC 4nm:
https://www.igorslab.de/nvidia-geforce-rtx-4090-wo-der-irrtum-mit-den-600-watt-wirklich-herkommt-und-warum-die-karten-so-riesig-sind/
Der eigentliche Grund für die ursprünglich angesetzten 600 Watt Default Power Limit liegen hier bei Samsung und dem sehr ineffizienten, alten 8-nm-Node, für den Ada seinerseits geplant wurde. Um die für die Steigerung der Performance notwenigen Takterhöhungen überhaupt realisieren zu können, wäre genau diese Menge an Energie notwendig gewesen. Und weil man Grafikkarten langfristig planen muss und sich natürlich dann auch im Vorfeld alle Beteiligten wie z.B. die ganzen Boardpartner (AIC) mit ins Boot holt, sind die ganzen Eckdaten natürlich immer das Worst-Case-Scenario einschließlich aller nötigen Reserven.Man überlege sich nur mal die Diegröße in 8nm Samsung.

Wenn es um Fertigung geht kommt so manch seltsames bei ihm, daher eher auch hier zu den hypothetischen und unüberprüfbaren Bemerkungen eher ein "besser ignorieren".

HOT

2022-10-07, 10:45:48

[...]

Wenn es um Fertigung geht kommt so manch seltsames bei ihm, daher eher auch hier zu den hypothetischen und unüberprüfbaren Bemerkungen eher ein "besser ignorieren".

Hat er relativiert, er meinte explizit 5nm Samsung, also 5LPP. Nur die Prognose sollte auf dem Verhalten von 8LPP +x (also eben 5LPP) bestehen. 4N ist aber nochmal 1/4 effizienter als diese Prognose. Darum ging es.

Complicated

2022-10-07, 10:54:15

Warum korrigiert er das dann nicht?

HOT

2022-10-07, 11:16:03

Hat er ja.

https://youtu.be/QrBc_Bq848M

in den Kommentaren:

Planung war wohl 5nm mit Hochrechnung basierend auf dem 8nm-Yield. Ich habe mich vielleicht unklar ausgedrückt. Taktskalierung und Power Estimation basierten auf Samsungs Datenschatz 🙂

Ich hoffe er korrigiert das auch im Artikel.

why_me

2022-10-07, 11:35:54

Unsinn ist eher alles andere bei logischer Betrachtung. Zumal das mit 50% Perf/Watt schon gar nicht hinhaut.

Igor geht in den Kommentaren zum Artikel auch von "bis zu 50%" aus, was auch nicht zu den ">50%" auf den AMD folien passen.

Kann den Kerl auch irgendwie nicht ab, er hat zwar Ahnung, aber labert mir zu viel um den heißen Brei herum und viel zu kryptisch. Dabei lässt er einfach viel zu viel Spielraum für interpretationen.

Was zum Beispiel soll so etwas?
Eine kleine Starthilfe gebe ich Euch dann aber doch noch:
Wenn es Karte A oder B oder C gelingt, selbst in UHD noch die Prozessorlast samt Leistungsaufnahme erheblich zu erhöhen, dann darf gerätselt werden, welche Karte und welcher Hersteller und was das bedeutet ;)

Troyan

2022-10-07, 11:39:08

Nun, solange es keine Zen4 Effizienzsteigerung ist...
https://cdn.mos.cms.futurecdn.net/z8xzPAEsGVJipyAruZEyBo-970-80.jpg

why_me

2022-10-07, 11:54:38

Zumindest das Performance improvement schlägt AMD deutlich. In Cinebench 20 MT ist der 7950x bei Computerbase 44% schneller als ein 5950x.
Zur Perf/W gibt es ja ein Stern, da steht bestimmt, wie AMD das gemessen hat. Vermutlich bei gleicher TDP? Hast du da vielleicht auch noch die Passende Folie zur Hand.
AMD gibt das, anders als Nvidia, immer schön am Ende ihre Folien an.

basix

2022-10-07, 11:57:50

Zen 4 hat bei selber TDP +30% Effizienzgewinn im Cinebench MT: https://www.computerbase.de/2022-09/amd-ryzen-7950x-7900x-7700x-7600x-test/4/#abschnitt_leistung_in_multicorelasten_klassisch

Was zum Beispiel soll so etwas?

Das schnellere Karten die CPU mehr beanspruchen :D Informationsgehalt ist also Null.

Nvidias Treiber ist zudem CPU-lastiger unterwegs als der von AMD. Bei DX11 bringt das aber was, da gewisse Sachen vom Treiber parallelisiert werden können und damit die FPS steigen.

Platos

2022-10-07, 12:02:09

Architekturen sollte man nicht nur in einem Betriebszustand vergleichen (Auslieferungszustand) sondern auch mit verschiedenen Powerlimits (aber Stromverbrauch messen nicht vergessen).

So sieht man, wie effizient eine Architektur ist.

Troyan

2022-10-07, 12:02:10

Tangletingle

2022-10-07, 12:03:27

Trolljan der alte Märchenonkel: https://www.computerbase.de/2022-09/amd-ryzen-7950x-7900x-7700x-7600x-test/4/#abschnitt_leistung_in_multicorelasten_klassisch

basix

2022-10-07, 12:06:34

Ja und eine nicht vorhandene RDNA3 Karte kann auch >50% effizienter sein. AMD verkauft kein Zen4 Prozessor, der die dort gezeigte Effizienzssteigerung zeigt.

Aktuell benötigt der 7950X den doppelten Strom für 45% Mehrleistung gegenüber 5950X in Cinebench. Das zeigt einfach, dass geäußerte Zahlen im Vorfeld auch nicht stimmen müssen, weil das reale Produkt anders gestaltet wird.

Auf RDNA3 übertragen: Bei 300W ist man >50% schneller. Was ist daran so schwierig? Wenn es bei 350W dann <50% sind, ist das möglich aber nicht dramatisch weit weg. Oder soll ich nochmals Nvidias Ampere Folien mit "1.9x Effizienzsteigerung" rauskramen? Der 7950X mit halbem Power Budget eines 5950X auch in etwa gleich schnell. Soll ich nun das auf die Folien schreiben? +25% bei Iso-Power Budget sind hier bei weitem ehrlicher. Energieeffizienz von GPUs und CPUs sollte immer Iso-Power durchgeführt werden. Die Leistungssteigerung ist das, was interessiert.

Troyan

2022-10-07, 12:09:40

Auf RDNA3 übertragen: Bei 300W ist man >50% schneller. Was ist daran so schwierig? Wenn es bei 350W dann <50% sind, ist das möglich aber nicht dramatisch weit weg. Oder soll ich nochmals Nvidias Ampere Folien mit "1.9x Effizienzsteigerung" rauskramen?

Jo und ein mögliches reales Produkt ist bei 400W nur noch 33% effizienter. :cool:

Da AMD bei Zen4 gelogen hat, sollte man die Aussagen aus Juni eben nicht als 100% Wahrheit nehmen. Sind ja nur noch vier Wochen.

basix

2022-10-07, 12:11:05

Da AMD bei Zen4 gelogen hat, sollte man die Aussagen aus Juni eben nicht als 100% Wahrheit nehmen. Sind ja nur noch vier Wochen.

Du stehst in der Beweislast, hier die Lüge aufzuzeigen. Ich warte ;)

Nvidia hat mit den 1.9x auch nicht gelogen. War einfach irreführend. Man kann AMD hinsichtlich Zen 4 höchstens Irreführung vorwerfen, immerhin aber mit einem "*" gekennzeichnet (neben dem, dass die Zen 3 TDPs den Zen 4 Produkten deutlich besser gestanden hätte). Nvidia war hier aber deutlich weiter weg von der Realität als AMD es auf der Folie ist. Oder betreibt jemand eine 3090 bei 150W? Beim 7950X gibt es die offiziellen Eco-Modes, welche sogar bequem via Ryzen Master einstellbar sind. Das auf der Folie gezeigte 105W TDP Setting ist eines davon. Und eben: Iso-Power Vergleich.

Jo und ein mögliches reales Produkt ist bei 400W nur noch 33% effizienter. :cool:
Vielleicht nur noch +33% effizienter, aber nochmals schneller unterwegs als "nur" +50% :biggrin:

Troyan

2022-10-07, 12:20:49

Dein Vergleich mit Ampere ist falsch, da nVidia diese Aussage nicht 3 Monate vorher gemacht hat. Hätten die im Juni 2020 mit 90% Effizienzsteigerung geworben, du würdest es bestimmt nicht rechtfertigen...

Du stehst in der Beweislast, hier die Lüge aufzuzeigen. Ich warte ;)

https://d1io3yog0oux5.cloudfront.net/_9ca0e03f6683adbbae60a26633e6e363/amd/db/812/6832/presentation/FAD+2022_Mark+Papermaster_Final.pdf

Letzte Folie.

Effizienzsteigerung in Cinebench R23 nT, Leistungssteigerung in Cinebench R23 1T (das steht nichtmal auf der Hauptfolie...).

Wenn ich es jetzt sehe, macht die Folie null Sinn. :eek:

basix

2022-10-07, 12:27:25

Unter den Balken steht ganz klar CB nT. Was die Endnote mit ST dort zu suchen hat: Keine Ahnung.

Edit:
Dein Vergleich mit Ampere ist falsch, da nVidia diese Aussage nicht 3 Monate vorher gemacht hat. Hätten die im Juni 2020 mit 90% Effizienzsteigerung geworben, du würdest es bestimmt nicht rechtfertigen...
Noch schlimmer, bei Ampere wurde es während dem Launch gemacht. Bei Zen 4 war es ein "Pre-Production" Sample.

Und wie gesagt: Zen 4 Effizienzssteigerung ist bei selber TDP ja da. AMD hätte einen auf Ampere machen können und die CPUs bei 65W vs. 142W vergleichen können. Dann wäre dort nicht +25% gestanden sondern +70% oder gar +100%.
Ampere war unter dem Strich nämlich fast Null(!) effizienter wie Turing (+10% vielleicht?), wenn man sich die Founders Edition anschaut bei Default-Einstellungen. Und ja, ist vom Betriebspunkt abhängig. Hat Nvidia damals aber so gewählt. Da kann ich hier deine Aussage zu diesem Punkt also gerne zurückspiegeln ;)

So, nun bitte BTT und RDNA3.

iamthebear

2022-10-07, 13:31:38

Igor geht in den Kommentaren zum Artikel auch von "bis zu 50%" aus, was auch nicht zu den ">50%" auf den AMD folien passen.

Kann den Kerl auch irgendwie nicht ab, er hat zwar Ahnung, aber labert mir zu viel um den heißen Brei herum und viel zu kryptisch. Dabei lässt er einfach viel zu viel Spielraum für interpretationen.

Was zum Beispiel soll so etwas?

Kenne jetzt den Kontext nicht aber ich würde mal sagen er spielt auf den CPU Overhead an. Im Schnitt brauchen Nvidia Karten 10-20% mehr CPU Performance für dieselbe Frameraten (wenn nicht GPU limitiert). Intel hinkt sowueso meilenweit hinterher.

Aktuell benötigt der 7950X den doppelten Strom für 45% Mehrleistung gegenüber 5950X in Cinebench. Das zeigt einfach, dass geäußerte Zahlen im Vorfeld auch nicht stimmen müssen, weil das reale Produkt anders gestaltet wird.

Nur weil AMD nun auch einen aktuellen Sockel hat der 230W liefern kann und AMD dies auch für die CPUs freischaltet bedeutet das nicht, dass Zen4 mehr Strom braucht. Selbst mit 88W schlägt der 7950X noch den 140W 5950X um >10% laut CB Test. Von 142W auf 230W gibt er gerade Mal 5% Leistungssteigerung.

vinacis_vivids

2022-10-07, 13:39:49

Gabs das schon?

https://abload.de/img/2022-10-0622_02_05-ambccix.png

Die effektiv verfügbare Bandbreite von bis zu 4TB/s bei N31 sind krass. Die CoWos IO von TSMC erlaubt wohl noch höhere Taktraten für den IF.

Bei N21XT ist die effektive Bandbreite bei 1986,56 GB/s bei 1940Mhz FLCK, bei N31 ist also die doppelte effektive Bandbreite zu erwarten von 4TB/s, was einem FLCK von ~2600Mhz FLCK entspricht 3993,60 GB/s , also beim N31XTX.
Die Salvage Variante würde niedriger Takten, vllt. 2200Mhz bei 3379,20 GB/s.

Der IF$ und damit verbunden FLCK ist mit die größte Errungenschaft zur Lösung des Bandbreitenproblems bei RDNA uArch. 8K output-Auflösung (mit FSR 3.0) kann wohl langsam zum Standard mutieren dank RDNA3.

Wird noch interessant ob Zen4-3D einen direkten Zugriff auf den IF$ der N31-GPU erlaubt und eine Kohärenz erzeugen kann.

Die Aussichten beim AMD sind hervorragend, insbesondere für den Gamer-Nerd am Desktop.

robbitop

2022-10-07, 13:41:57

Nur weil AMD nun auch einen aktuellen Sockel hat der 230W liefern kann und AMD dies auch für die CPUs freischaltet bedeutet das nicht, dass Zen4 mehr Strom braucht. Selbst mit 88W schlägt der 7950X noch den 140W 5950X um >10% laut CB Test. Von 142W auf 230W gibt er gerade Mal 5% Leistungssteigerung.

Es hat keinen Sinn mit ihm. Extremer Anti-AMD Bias. Keine Fakten können ihm vom Gegenteil überzeugen. Propellerjungs.

--------------

Welche Reputation hat @AMDGPU_?

HOT

2022-10-07, 14:05:25

2,7x RT wäre sehr enttäuschend oder? Ich mein, wir kommen da von einem echt niedrigen Niveau...

Exxtreme

2022-10-07, 14:07:48

2,7x RT wäre sehr enttäuschend oder? Ich mein, wir kommen da von einem echt niedrigen Niveau...

Japp. Wenn das stimmt dann ist Lovelace so um die 2 - 3x schneller in RT.

Linmoum

2022-10-07, 14:15:50

vinacis_vivids

2022-10-07, 14:18:27

@Hot
Wieso enttäuschend? AMD liegt im RT zurück und wird den Abstand verkleinern und bei einigen Titeln Parität erreichen. Einst muss du bedenken: Die Games sind Raster/RT Hybrid Games und nicht reines RTRT. NV-Marketing wird sicher mehr RT pushen wollen, wie einst Tesselation (x64) und Hairworks, wo der Effekt nicht nennenswert ist und die Performance bei alten uArch einbricht. Der Tesselation Faktor hat den Grenznutzen bei x16, wo AMD den clamp eingestellt hat. Analog gilt es für Ray-Tracing.

Es geht darum RT weit verbreitet verfügbar und bezahlbar zu machen und nicht nur für die Top-Dogs.

Ravenhearth

2022-10-07, 14:33:22

Ich glaube man sollte klarstellen, dass der Typ anscheinend nur Gerüchte/Leaks zusammenträgt (wie er auch selber sagt) und nicht selber eine Quelle ist. Er vergisst z.B., dass N31 auch noch 20% mehr WGPs haben soll, vertut sich bei der L3-Angabe (es müssten 384MB statt 386MB sein), wobei der eh viel zu groß erscheint, nimmt wohl an, dass der GDDR6-Takt nicht steigt, und was soll überhaupt "1xFP16 cores" bedeuten? Die Performance-Angaben würde ich also nicht auf die Goldwaage legen.

iamthebear

2022-10-07, 14:41:28

Gabs das schon?

Also laut Angstronomics sind es nur 96MB genauso wie bei Nvidia.

Die effektiv verfügbare Bandbreite von bis zu 4TB/s bei N31 sind krass. Die CoWos IO von TSMC erlaubt wohl noch höhere Taktraten für den IF.

Navi21 hatte auch schon 2TB/s. Ist also nicht so weltbewegend.

Der IF$ und damit verbunden FLCK ist mit die größte Errungenschaft zur Lösung des Bandbreitenproblems bei RDNA uArch. 8K output-Auflösung (mit FSR 3.0) kann wohl langsam zum Standard mutieren dank RDNA3.

Bei Monitoren sind 8K überdimensioniert. Bei TVs sind mit HDMI 2.1 nur mehr 60Hz möglich und das braucht schon DSC.

Wird noch interessant ob Zen4-3D einen direkten Zugriff auf den IF$ der N31-erlaubt und eine Kohärenz erzeugen kann.

Die Frage ist wozu. Die PCIe Bandbreite ist niedriger als wenn gleich auf den DDR5/GDDDR6 zugegriffen wird und die Latenz ist auch höher. Gemeinsam genutzte Daten gibt es auch nicht wirklich.[/quote]

Die Aussichten beim AMD sind hervorragend, insbesondere für den Gamer-Nerd am Desktop.

Wir wissen noch nichts von der Performance außer die 2.5x-3x, die offensichtlich nicht stimmen falls die 300mm² GCD von Angstronomics stimmen.

Exxtreme

2022-10-07, 14:42:18

Wut? Mit fast Faktor 3x würde man Ampere deutlich distanzieren und Ada legt keine >2x bei RT drauf auf Ampere nach allem, was bisher - auch durch Nvidia selbst - bekannt ist. Oder wird das hier jetzt in Kombination mit DLSS3 verglichen?

Ich glaube schon, dass die Faktor 2 drauflegen bezüglich 4090 vs. 3090Ti. Und wie schon geschrieben, AMD startet von einem sehr niedrigen Niveau aus. Bzw. AMD ist noch halbwegs schnell wenn man RT nur zur Schattenberechnung benutzt. Will man aber auch Beleuchtung berechnen dann kacken die richtig ab.

Iscaran

2022-10-07, 14:52:55

Ich glaube schon, dass die Faktor 2 drauflegen bezüglich 4090 vs. 3090Ti. Und wie schon geschrieben, AMD startet von einem sehr niedrigen Niveau aus.

Ja - aber wenn nV x2 drauflegt und AMD x2.7 dann holt AMD hier schon etwas auf.

Nur mal willkürliche Zahlen angenommen für die RT-Performance:
nV_Ampere = 200
AMD_RDNA2 = 100
(also nVidia/AMD = x2 bzw. +100%)

Mit x2 für nV = nV_Ada = 400 = +100% (relativ zu nV_Ampere)
und mit x2.7 für AMD = AMD_RDNA3 = 270 = +170%

Und damit dann nVidia_Ada/AMD_RDNA3 = +48%

AMD hätte also den Vorsprung nVidias in etwa halbiert.
Klar ein "gleichziehen" oder zumindest nur noch ~20% Rückstand wären noch nicer gewesen, aber +50% aufzuholen ist schon auch ne Ansage.

Cyberfries

2022-10-07, 15:21:35

Aktuell benötigt der 7950X den doppelten Strom für 45% Mehrleistung gegenüber 5950X in Cinebench.

Seit wann hat der 7950x 210w TDP und 284w PPT?

AMD verkauft kein Zen4 Prozessor, der die dort gezeigte Effizienzssteigerung zeigt.

Deine Aussage ist nachweisbar falsch.
Der 7700x liegt 25% (ST) bis 30% (MT) vor dem 5800x, zwei Produkte mit gleicher Kernkonfig, TDP und Marktposition.

Dein Vergleich mit Ampere ist falsch, da nVidia diese Aussage nicht 3 Monate vorher gemacht hat.

Viel schlimmer: Bei der Produktvorstellung.
Und im Gegensatz zu Zen4, wo es das entsprechende Produkt tatsächlich gibt (siehe oben),
warte ich immer noch auf die 90% effizientere nVidia-Karte.

Gabs das schon?

Gegenüber was soll das Die 40% schrumpfen? Es gibt bisher kein GCD mit dem man vergleichen kann.
Soll hier der Vergleich N31 GCD vs N21 angestrebt werden ist das ob des Fehlens der MCD unseriös.
Der Rest klingt sehr nach Wunschliste.

Berniyh

2022-10-07, 19:01:48

ChaosTM

2022-10-07, 19:03:16

Jop, die RTX Marketing Schiene war ein Geniestreich.

fondness

2022-10-07, 19:04:59

Jop, die RTX Marketing Schiene war ein Geniestreich.

War ja damals mit tesslation nichts anderes, jedes nv gesponserte Spiel hatte plötzlich für noch so sinnlose Dinge x64 tesslation. Verwendet heute eigentlich noch jemand tesslation?

ChaosTM

2022-10-07, 19:09:14

Bei Crysis 2 hat Tessellation 50% der FPS vernichtet für praktisch nichts.
Wird aber schon verwendet afain..

dargo

2022-10-07, 19:12:45

Jop, die RTX Marketing Schiene war ein Geniestreich.
Bin schon gespannt was NV sich wieder neues einfallen lässt wenn die RT-Schiene nicht mehr zieht und die Lemminge wieder drauf einfallen. ;D

ChaosTM

2022-10-07, 19:16:12

RTX lässt sich noch sehr lange spielen. Das ist ja das geniale dran..

Wenn Crysis in 100% Pathtracing spielbar ist, sehen wir ein Ende.

aufkrawall

2022-10-07, 19:16:33

Keine Ahnung, in welcher Traumwelt ihr lebt, aber AAA-Spiele mit "RTX" mit direkter NV-Involviertheit wird es weiterhin geben. Ein von AMD oder Intel unterstütztes RT in Spielen, das irgendwie beeindruckend wäre, ist immer noch komplett überhaupt nicht zu sehen.

ChaosTM

2022-10-07, 19:20:32

Ein paar Szenen in ein paar Spielen sind durchaus beeindruckend, aber das ist zu wenig für den Hype.
Das hat nix mit AMD oder NV zu tun.

Ex3cut3r

2022-10-07, 19:21:32

RT ist doch ne tolle optionale Sache, weiß gar nicht, warum darüber regelmäßig gehatet wird.

Also DL2 ist ein komplett anderes Spiel mit RT als ohne. KA, warum man das nicht einsehen will.

ChaosTM

2022-10-07, 19:23:45

Niemand hated es. Es geht nur um die Relationen.
DL2 hab ich noch nicht gesehen - vielleicht überzeugt mich das dann vollends. :)

aufkrawall

2022-10-07, 19:24:29

@ChaosTM Dass du nur technisch langweilige Spiele spielst, ist dein Problem.
Habe mit der 3060 schon zig Dutzende Stunden Spiele spielen, in denen RT einen Mehrwert bietet. Anders als mit der 6800, damit war es echt häufig frustrierend und eklig.
Mit Reflex in mehr Spielen dürfte es in Zukunft sogar noch besser laufen, während RDNA2 nach RDNA3 bei RT noch toter sein wird als es ohnehin schon war... :cool:

Ex3cut3r

2022-10-07, 19:26:10

Das stimmt. Mit RDNA 2 machen die "richtigen" RT Titeln einfach keinen Spaß. Mit FSR 2.1 (Mods) kann man mittlerweile wenigstens etwas mehr herausholen als früher. Hoffe RDNA 3 legt eine gute Schippe oben drauf.

ChaosTM

2022-10-07, 19:26:29

Das ist gut möglich.
Momentan hinke ich da etwas hinterher.. F.U. FS2020

@ richtige RTRT Titel - wie viele sind das wirklich - nach 5 Jahren

add.: ich finde DLSS (3) um Welten wichtiger als RT bisher.
Daher wird die nächste desktop Karte wohl auch eine NV, außer AMD kann was vergleichbares nachlegen, was aber sicher noch 1-2 Jahre dauern wird

Berniyh

2022-10-07, 20:34:28

RT ist doch ne tolle optionale Sache, weiß gar nicht, warum darüber regelmäßig gehatet wird.

Also DL2 ist ein komplett anderes Spiel mit RT als ohne. KA, warum man das nicht einsehen will.
Die Idee ist schon nett. Ich würde auch gar nicht unbedingt gegen RT haten, mir geht nur der Hype darum auf den Keks, denn es wird immer und überall in den Mittelpunkt gerückt, obwohl es – wie oben gesagt – nur eine Randerscheinung ist.
Das mag sich irgendwann in 2-4 Jahren mal ändern, aber für den Moment ist und bleibt es einfach der Spezialfall.

Mir persönlich ist RT sowieso total schnurz, denn keines der Games, welche ich spiele, unterstützt das. Und wenn sich das mal ändern sollte, dann ist meine Prio ziemlich sicher dennoch eine andere als das zu aktivieren. (nach den Vergleichsbildern zu urteilen)
@ChaosTM Dass du nur technisch langweilige Spiele spielst, ist dein Problem.
Also das Argument kann man aber auch umdrehen. :P
Und übrigens ist es ja auch eine Frage wie man "technisch interessant" definiert. Da fallen mir sehr viele Aspekte ein, die mit RT nichts am Hut haben. z.B. Physiksimulation. Was auch für das Gameplay wesentlich wichtiger sein kann, wie in der Vergangenheit schon häufiger gezeigt wurde …

ChaosTM

2022-10-07, 20:41:12

Dass RT eine der Zukunftstechnologien ist - keine Frage.
Aber bitte nicht überbewerten..

Für unsere PQ Fetischisten ist es natürlich der "heilige Gral", aber die meisten von uns bewerten keine Standbilder, sondern das Spiele Erlebnis im allgemeinen..

why_me

2022-10-07, 20:43:07

@ richtige RTRT Titel - wie viele sind das wirklich - nach 5 Jahren

It just works ;D :biggrin:

dargo

2022-10-07, 20:59:22

Für unsere PQ Fetischisten ist es natürlich der "heilige Gral", aber die meisten von uns bewerten keine Standbilder, sondern das Spiele Erlebnis im allgemeinen..
Das witzige an der Geschichte ist ja gerade da wird krampfhaft eine Szene gesucht wo du größere Unterschiede siehst und 10 Sekunden weiter gespielt siehst du wieder praktisch keinen Unterschied. Ich kann mich bei dem Cherry Picking jedes Mal totlachen. ;D

ChaosTM

2022-10-07, 21:05:02

Bei Metro gibt es einige Szenen indoors, wo RTRT wirklich grandios ausschaut.

again.: die Technik ist grandios - aber "its just works" spiels leider ned

aber wie schon angemerkt wurde.: ich spiel nicht die neuesten Spiele ;)

Ex3cut3r

2022-10-07, 21:07:53

Die Idee ist schon nett. Ich würde auch gar nicht unbedingt gegen RT haten, mir geht nur der Hype darum auf den Keks, denn es wird immer und überall in den Mittelpunkt gerückt, obwohl es – wie oben gesagt – nur eine Randerscheinung ist.
Das mag sich irgendwann in 2-4 Jahren mal ändern, aber für den Moment ist und bleibt es einfach der Spezialfall.

Mir persönlich ist RT sowieso total schnurz, denn keines der Games, welche ich spiele, unterstützt das. Und wenn sich das mal ändern sollte, dann ist meine Prio ziemlich sicher dennoch eine andere als das zu aktivieren. (nach den Vergleichsbildern zu urteilen)

Also das Argument kann man aber auch umdrehen. :P
Und übrigens ist es ja auch eine Frage wie man "technisch interessant" definiert. Da fallen mir sehr viele Aspekte ein, die mit RT nichts am Hut haben. z.B. Physiksimulation. Was auch für das Gameplay wesentlich wichtiger sein kann, wie in der Vergangenheit schon häufiger gezeigt wurde …

So unterschiedlich könne die Meinungen und Spiele sein die man spielt.

Ich zocke eigentlich nur AAA Spiele. Und seit 2019 hat fast jedes neue AAA Game RT und DLSS integriert. Das heißt also, dass ich seit der RTX 2080 (2018) mit RT spiele. Und ja, ich finde es für ein SP Spiel immer eine gute Sache.

dargo

2022-10-07, 21:13:09

Bei Metro gibt es einige Szenen indoors, wo RTRT wirklich grandios ausschaut.

Ich kenne doch Metro EE selbst. Es ist ok... dem Hype dennoch imho nicht gerecht. Mir fehlen da einfach noch Nextgen-Assets in Verbindung mit RT damit das einen richtigen Wow-Effekt bei mir auslöst. Dank FSR 2.1 Mod hatte ich das Game wieder angefangen gehabt, gab damit schön hohe Frameraten. Nur leider ändert es nichts an dem immer noch extrem langweiligen Spiel.

ChaosTM

2022-10-07, 21:13:58

So viele Spiele haben RT integriert, aber nur bei einer handvoll hat man durchgehen (77 ?) oder gelegentlich das Gefühl das ist "wow".
DLSS/FSR hingegen ist immer/meist großartig wenn verfügbar..

aja, und Control ;)

dargo

2022-10-07, 21:21:20

aja, und Control ;)
Hatte ich auch mit RT etwas gespielt. Auch nur ok. Allgemein ist mir Control zu viel PP-Seuche. Dann noch dieser Ameisenhaufen, in den Reflektionen, egal ob mit oder ohne RT. Bäh... offenbar ist der Denoiser in Control totaler Mist.

Berniyh

2022-10-07, 21:21:46

So unterschiedlich könne die Meinungen und Spiele sein die man spielt.
Das ist schön für dich.
Ich zocke eigentlich nur AAA Spiele. Und seit 2019 hat fast jedes neue AAA Game RT und DLSS integriert. Das heißt also, dass ich seit der RTX 2080 (2018) mit RT spiele. Und ja, ich finde es für ein SP Spiel immer eine gute Sache.
Klar und viele Spiele unterstützen heute auch Vulkan oder DX12, aber nur in einer nicht allzu großen Teilmenge bringt es auch was.

Ex3cut3r

2022-10-07, 22:29:03

Viele Spiele wären ohne DX12 und Vulkan hoffnungslos CPU limitiert KA, was du so spielst. Wundert mich diese Aussage.

aufkrawall

2022-10-07, 22:34:42

ChaosTM

2022-10-07, 22:40:38

So wie bei RT: Ein paar schlechtere Implementierungen und schon ist das Weltbild unverrückbar festgesetzt.

Stell dich nicht so dumm. Ich weiß dass du es nicht bist.

RT ist eine wunderbare technology, aber bisher ist sie leider eher irrelevant, und ja ich spiel eher ältere Spiele ;)

aufkrawall

2022-10-07, 22:54:31

Stell dich nicht so dumm. Ich weiß dass du es nicht bist.

Den Eindruck hab ich bei dir auch, wenn du immer irgendwas von "bisher" zum Besten gibst und Control mittlerweile 3,5 Jahre alt ist. Eine Platte mit Sprung, die schon längst gewechselt gehört hätte.

Berniyh

2022-10-08, 08:03:21

Viele Spiele wären ohne DX12 und Vulkan hoffnungslos CPU limitiert KA, was du so spielst. Wundert mich diese Aussage.
So wie bei RT: Ein paar schlechtere Implementierungen und schon ist das Weltbild unverrückbar festgesetzt.
Nichts ist festgesetzt, wie kommst du denn auf den Unsinn?

Dass es bei Vulkan/DX12 schlechte Implementierungen gibt steht wohl (leider) außer Frage. Natürlich gibt es aber auch gute.
Wie hoch da nun die Quote ist ist wieder eine andere Frage, aber allzu toll wird sie nicht sein, weil sich viele Entwicklerteams einfach den (zusätzlichen) Aufwand nicht leisten können das wirklich gut umzusetzen.
Manche der schlechten Implementierungen (XP12 fällt mir da z.B. ein) könnten in Zukunft natürlich auch noch besser werden, da man noch im Migrationsprozess ist.

Letztendlich ist es aber eben so, dass es diese schlechten Implementierungen gibt und natürlich wirft das auch ein schlechteres Bild auf die Technik insgesamt, das ist ja praktisch unvermeidbar. Außer natürlich man schaut sich immer nur die Paradebeispiele an, aber das ist ja irgendwo auch realitätsfern.

Platos

2022-10-08, 09:42:21

Sind heute die Spiele nicht oft immer noch zweigleisig ? Also DX11 und 12 gleichzeitig verfügbar? Kenne mich da nicht aus.

Und bezüglich Vulkan: Es gibt ein paar Spiele damit, aber irgendwie nicht genug... Die Verbreitung scheint mir (leider) nicht sehr hoch. Oder irre ich mich da?

Berniyh

2022-10-08, 09:52:11

Sind heute die Spiele nicht oft immer noch zweigleisig ? Also DX11 und 12 gleichzeitig verfügbar? Kenne mich da nicht aus.
Ja und genau in den Fällen ist es halt oft so, dass es eher suboptimal umgesetzt ist, weil man halt versucht so viel Code wie möglich zwischen den beiden Wegen zu teilen, was dann auch Vorteile von DX12 nimmt. Wie z.B. mehrere CPU Threads für Grafik zu nutzen.
Und bezüglich Vulkan: Es gibt ein paar Spiele damit, aber irgendwie nicht genug... Die Verbreitung scheint mir (leider) nicht sehr hoch. Oder irre ich mich da?
Doch, gibt schon einige. Ob jetzt mehr oder weniger als mit DX12, das kenne ich keine Statistiken.

The_Invisible

2022-10-08, 09:58:53

RT ist eine wunderbare technology, aber bisher ist sie leider eher irrelevant, und ja ich spiel eher ältere Spiele ;)

Hört sich gleich an als die FX 5800 released wurde und das gleiche über Shader gesagt wurde und ja ich hatte damals eine Fx 5900 Ultra und habe mich geärgert.

Fortschritt ist nicht aufzuhalten und ich freue mich das ich dabeisein darf

robbitop

2022-10-08, 10:57:47

Wobei programmierbare Shader schon mit der Geforce 3 Einzug hielten. (Allerdings brachte SM2.0/DX9 kompatible shader das ganze auf ein ganz anderes Level. Radeon 9700 pro / Geforce FX 5800 in 2002.)

Ich sehe das übrigens komplett genauso. Raytracing ist der logische nächste Schritt in der Evolution der 3D Grafik. So wie damals der Einzug frei programmierbarer Shader (der auch irre Leistung und Transistoren gefressen hat).
Langsam wachsen die Transistorbudgets auch genug, um eine ordentliche RT Hardwarepipeline zu bieten. Volles Level 5 (gem. IMGTec) bietet aber nicht mal Ada. Soweit ich weiß ist IMG der einzige der das hat. Ada und Xe sind bei Level 4. Übrigens auch interessant wie NV mit dem SER etwas als neue Revolution vermarktet, was Intel bereits implementiert hat und IMG seit vielen Jahren als Level 4 definitiert hat und auch noch länger dazu bereits Hardware hat. :D

https://blog.imaginationtech.com/introducing-the-ray-tracing-levels-system-and-what-it-will-mean-for-gaming/

Level 0: Legacy solutions
Level 1: Software on traditional GPUs
Level 2: Ray/box and ray/tri-testers in hardware
Level 3: Bounding Volume Hierarchy (BVH) processing in hardware
Level 4: BVH processing and coherency sorting in hardware
Level 5: Coherent BVH processing with Scene Hierarchy Generation (SHG) in hardware

In ein paar Jahren wird jede GPU Level 5 haben und stark genug für RT sein und es wird wie heute Shader Alltag sein und kein Mensch will zurück zu reinem Rasterizing.

Der Hybridansatz Raster/RT macht ja auch Sinn. (je nach Konfiguration) - so kann man jeweils das nutzen was das Verfahren gut kann.

Dovregubben

2022-10-08, 11:18:31

Ada und Xe sind bei Level 4. Übrigens auch interessant wie NV mit dem SER etwas als neue Revolution vermarktet, was Intel bereits implementiert hat und IMG seit vielen Jahren als Level 4 definitiert hat und auch noch länger dazu bereits Hardware hat. :D

Unter Coherency Sorting versteht man in dem Kontext eigentlich, dass die Strahlen sortiert werden, um auch das Traversal wesentlich effizienter zu machen. Raybundle Support hat man auch schon vor 20 Jahren vor Intel und IMG in Raytracing APIs für CPUs gesehen. Falls Ada es mit den großen Caches schafft, die BVH Zugriffe effizient genug zu haben, ist es vielleicht nicht so extrem notwendig.

Ob SER aber genau das ist oder es erst danach beim Shading eingreift, ist mir nicht so ganz klar.

unl34shed

2022-10-08, 11:44:53

In ein paar Jahren wird jede GPU Level 5 haben und stark genug für RT sein und es wird wie heute Shader Alltag sein und kein Mensch will zurück zu reinem Rasterizing.

Das wird hier denke ich auch keiner bestreiten, aber das wurde bereits zu Turing erzählt, noch eine Gen und RT ist überall drin, "It just works" :freak: etc. Wir sind jetzt 2 Generationen Weiter, haben mit DLSS3 und den Verbesserungen in HW, Verdopplung der SM/RT-Cores von Nvidia die 80x* "Rechenleistung" für RT (inkl. 1.25x für SER und 8x für Upscaling und Interpolation) und das ganze ohne jegliche Software Verbesserungen, die auch noch in den letzten Jahren noch entwickelt wurden, zu berücksichtigen.

Und die Leistung reicht halt immer noch nicht für echtes RT. Es sind immer noch viel zu wenige Bounces, die berechnet werden und das ist blöderweise auch noch ein exponentielles Problem. Wirklich Spruchreif wird RT sowie erst, wenn genug Leistung in der Mittelklasse angekommen ist (400$ Klasse) aber die Karten verkauft man ja gerade für 900$+. Dass sich der Verbrauch noch fast verdoppelt hat um auf diese Leistung zu kommen ist auch noch ein Punkt der das ganze für die Mittelklasse ausbremst.

TLDR: Ist nett, aber wir sind noch lange nicht am Ziel.

*Milchmädchen Rechnung; Ignoriert, dass es DLSS bei Turing auch schon gab; Rechenleistung ist auch das Falsche Wort, denn mit DLSS3 wird das Problem auf 1/8 reduziert.

HOT

2022-10-08, 12:04:56

Das ist alles vollkommen klar, wohin die Reise geht. Aber den wirklichen Durchbruch als absuloter Standardtechnologie im Spielebereich wird RT erst mit der nächsten Konsolengeneration erleben, das dauert noch ein paar Jahre. RT wird in gewisser Form jetzt Alltag werden (die jetzigen können ja schon etwas Hardware-RT), aber der Spielemarkt wird sich eben vor allem daran orientieren. Bis dahin gibts ne evolutionäre Entwicklung bei der RT-Effizienz aus meiner Sicht. Die Entwickler werden lernen, was am meisten optischen Impact hat und was zuviel kostet und daher deutlich mehr Leistungseffizienz erzeugen können. Starke Level4 Hardware befördert diese Entwicklung natürlich.
Die nächste Konsolengeneration (2026ff) dürfte dann auch selbst Level5 schon sein. Leider wirken die Konsolen wieder als Bremsen in der Entwicklung.

robbitop

2022-10-08, 12:33:59

Naja zumindest die 4090 scheint mit RT Optimierung (im Spiel selbst - und somit die volle Nutzbarkeit der neuen HW) und DLSS ja auf ziemlich gute frameraten selbst bei 4K zu kommen im neuen Cyberpunk (die Version, die das komplette traditionelle Lighting rausgeschmissen hat und ALLES durch RT ersetzt). Klar ist das keine Massenhardware aber ich finde es ist jetzt schon deutlich greifbarer als noch bei Turing. Und eigentlich ist Ampere relativ gesehen und normiert praktisch kaum schneller als Turing in RT. IMO ist erst Ada ein echter zweiter Schritt was RT Implementierung angeht nach Turing.

Bis die Möglichkeiten von AD102 ins absolute Mainstream kommen, wird es dann wohl noch 1-2 Gens brauchen. Also irgendwo zwischen 2-4 Jahren. Das könnte dann auch mit nextgen Konsolen HW passen.

Platos

2022-10-08, 13:11:07

Bis die Möglichkeiten von AD102 ins absolute Mainstream kommen, wird es dann wohl noch 1-2 Gens brauchen. Also irgendwo zwischen 2-4 Jahren. Das könnte dann auch mit nextgen Konsolen HW passen.

Hmm? Ist mir (oder vlt. dir?) was entgangen? Ada verdoppelt die Preise. Bis das, was eine 4090 kann, im Mainstream ankommt (150-350 Euro/Dollar), vergehen eher 3-5 Generationen.

HOT

2022-10-08, 13:17:04

davidzo

2022-10-08, 17:20:53

Ich sehe das übrigens komplett genauso. Raytracing ist der logische nächste Schritt in der Evolution der 3D Grafik. So wie damals der Einzug frei programmierbarer Shader (der auch irre Leistung und Transistoren gefressen hat).

Der nächste logische schritt ist es aber seit mindestens 20 Jahren.
Es hätte genau so gut im Jahr 2009 mit DirectX11 launchen können und wäre im nachhinein genau der logische Schritt für die Evolution der 3D Grafik gewesen als der er jetzt erscheint.

Seit DirectX10 gab es bis auf Tesselation eigentlich keine visuell interessanten neuen features mehr, alle weiteren techlevels waren eher code-refacturing, compute features um eine bessere Auslastung etc. zu erziehlen.

Es ist reiner Zufall dass Raytracing erst jetzt Einzug hält, das hätte auch direkt nach PS2.0 kommen können, im Geiste von T&L.
Caustic hatte schon 2009 eine performante Hardwarelösung die coherency sorting in hardware macht, also das was jetzt zu level4 gehört (wenn auch andere Teile wohl weiter auf der CPU liefen wovon sicher einiges mittlerweile auf den shadern lauffähig wäre).

Reiner Zufall ist das Timing zwar aus er gesamtgeschichtlichen Sicht, aber aus Nvidias Sicht war das natürlich Absicht. Der Hardware und den Patenten Caustics und später IMGtec hätte man wenig entgegen zu setzen gehabt aber bei annähernd 80% Marktanteil kann man halt bestimmen welche Technologien für Spiele benutzt werden können und welche nicht. Als Marktführer mit Anspruch auf Technologieführerschaft darf man eine fremde Technologie nicht so früh aufgreifen dass sich die Leute noch erinnern wer der eigentliche Pionier ist.
Selbst ATI/AMD war einfach zu klein um eine neue Technologie in den Markt zu tragen. Siehe TruForm Hardware Tesselation mit der sie im Jahr 2000 mit dem R200 krachend gescheitert sind. Gab es überhaupt ein Spiel dass das supported hat und nicht nach dem launch wieder rausgepatcht wurde? Dabei hätte Hardware Tess den damaligen games sicher gut getan. Es ist ziemlich willkürlich, bzw. aus Nvidias Willkür und Marktmacht heraus entstanden Tesselation dann mit Fermi wieder auszubuddeln.

robbitop

2022-10-08, 17:40:01

Es fehlte einfach an Leistung und Transistorbudget um das sinnvoll umsetzen zu können. Es wäre einfach zu lahm gewesen oder man hätte kein vernünftiges BQ Level hinbekommen (man muss ja immer die Opportunität für den Vergleich heranziehen und die ist rasterizing vs rt und rt hätte mit so wenig Leistung einfach alt ausgesehen). Die ganzen Tricks und Fakes mit Rasterizing waren einfach viel billiger. Man ist mit dem optischen BQ Fortschritt so besser vorangekommen. Und das würde ich auch nicht unbedingt an directx features festmachen. Man vergleiche heutige Topspiele mit Spielen als DX11 neu war vor grob 10 Jahren. Jetzt kommt so langsam der Punkt wo das Gesetz des sinkenden Grenzertrags keine großen Fortschritte mehr bringt und nun hat man genug Transistorbudget um den nächsten Schritt zu gehen.

Platos

2022-10-08, 18:09:34

Glaub ich nicht. Du darfst nicht vergessen, dass auch im Mainstream Level5-Hardware ankommen wird. Das wird einfach nen ganzen Tacken effizienter sein als jetzt. Da gibts viel Potenzial. Das wird dann schon RDNA4/Blackwell sein. MMn ist die erste Level5-Generation Battlemage. Das sind also etwas 3 Jahre, bis solche Mainstreamprodukte auf dem Markt sind (in N3e, und zwar wahrscheinlich alle :D).

3090 Leistung (RT und Raster) für 300 Dollar nächste Generation? Oder übernächste?

Von was träumt ihr Nachts :D ?

Die 4080 12GB kostet 900$. Das würde bedeuten, dass das PL in einer Generation um das 3-Fache ansteigen müsste bzw. innerhalb von 2 Generationen um das 1.73-Fache.

Und wenn man sich nun mal Lovelace anschaut, dann müsste jeder, der logisch denken kann, genau das ausschliessen. Jetzt gibts sogar einen Rückschritt vom P/L abseits vom Enthusiastenbereich.