AMD/ATI - RDNA3 (Navi 3X, Radeon RX 7000 Serie, tlw. Chiplets, 5/6 nm, 2022) [Archiv] - Seite 19

basix

2022-10-19, 18:18:57

Zum Gamen ist N24 zu schwach und dann noch mit 4GB...
Eigentlich was für den 100€ Bereich um überhaupt ein Bild auf den Schirm zu bekommen. Da spielt die Luft zum N33 keine Rolle.
N33 mit ~200mm² @N6 sollte zudem billiger zu produzieren sein als N23.
Macht keinen Sinn, die weiter zu produzieren.
Da stellt sich mir eher die Frage, ob N23 noch eine Weile im Programm bleibt und N33 teuer darüber positioniert wird oder ob N23 abverkauft wird und N33 relativ günstig startet.

Genau.

N23 wird nach N33 Release EOL gehen. N33 wird schneller, energieffizienter und günstiger in der Herstellung sein. Dazu laut Gerüchten noch pinkompatibel mit N23.

N24 schleppt man evtl. noch mit. Damit man einfach irgendwas hat. Obwohl: Phoenix als APU könnte N24 bezüglich Performance überholen. Für Mobile hat es sich für N24 also ebenfalls ausgespielt. Im Desktop als Low Profile Beschleuniger fehlen N24 sogar noch die richtigen Video-Einheiten. Zen 4 wie auch Phoenix haben die aber schon. Wenn man also am Desktop nicht auf >8C gehen muss / will und eine Low End GPU ausreicht, sind Raphael oder Phoenix bei mehr GPU-Bedarf für die meisten Kunden genau richtig. Sobald man >8C gehen will/muss und noch mehr GPU-Leistung gefragt ist, könnte eine abgespeckte N33-Karte Sinn machen (z.B. 24 CU, 6 GByte, 75-120W, 229-249$)

Wenn wir schon von höheren Auflösungen reden, dann bräuchte AMD auf jeden Fall ein DL-DSR-Pendant. Denn das ist wirklich ein wahrer Augenöffner und mit der Performance wie bei einer 4090 ist in vielen Spielen bei UHD noch lange nicht Schluss.
+1

Nightspider

2022-10-19, 18:34:16

Wenn wir schon von höheren Auflösungen reden, dann bräuchte AMD auf jeden Fall ein DL-DSR-Pendant. Denn das ist wirklich ein wahrer Augenöffner und mit der Performance wie bei einer 4090 ist in vielen Spielen bei UHD noch lange nicht Schluss.

+1

Wäre schön, auch wenn ich DLDSR noch nicht testen konnte.

dargo

2022-10-19, 18:35:49

Genau.

N23 wird nach N33 Release EOL gehen. N33 wird schneller, energieffizienter und günstiger in der Herstellung sein. Dazu laut Gerüchten noch pinkompatibel mit N23.

Irgendwie macht das alles keinen Sinn. Es sei denn diese Gerüchte @N33 = ~N21 waren nichts weiter als feuchte Träume.

btw.
Sicher, dass ein N33 mit 200mm² @N6 günstiger in der Herstellung ist als ein N23 mit 237mm² @N7? Ich wäre mir da nicht so sicher.

Savay

2022-10-19, 18:36:26

War es nicht so das VSR Qualitativ genau in der Mitte zwischen DSR und DL-DSR liegt?

D.h. aber auch der Bedarf für ein "VSR2.0" ist wesentlich geringer.

basix

2022-10-19, 18:44:03

Irgendwie macht das alles keinen Sinn. Es sei denn diese Gerüchte @N33 = ~N21 waren nichts weiter als feuchte Träume.

N21 ist ein hohes Ziel. Von den FLOPs her würde es passen. Die Frage ist hier, ob man sie auch auf den Boden bringt. Zudem würde ich N21 nur bei 1080p und allenfalls etwas darunter bei 1440p erwarten, niemals bei 4K.

Und auch wenn es N21 Performance werden sollte: N33 scheint ein sehr kleines Die in N6 zu werden. Hier sind in erster Linie die Kosten und Kompatibilität mit N23-Pinout relevant und nicht die Performance.

btw.
Sicher, dass ein N33 mit 200mm² @N6 günstiger in der Herstellung ist als ein N23 mit 237mm² @N7? Ich wäre mir da nicht so sicher.

N6 wird als günstiger als N7 angesehen, da durch EUV weniger Prozessschritte involviert sind. Ob da bereits der Density Vorteil miteinbezogen wird, ist nicht ganz klar. Aber auch in diesem Fall wäre N33 günstiger oder zumindest vergleichbar mit N23 von den Kosten her.

War es nicht so das VSR Qualitativ genau in der Mitte zwischen DSR und DL-DSR liegt?

D.h. aber auch der Bedarf für ein "VSR2.0" ist wesentlich geringer.
Es war glaube ich besser als DSR mit 1.78x und 2.25x Faktoren. Bei VSR war doch aber noch irgendwas, dass nur wenige Auflösungen unterstützt werden? Hat sich das mittlerweile geändert?

dargo

2022-10-19, 18:52:46

Es war glaube ich besser als DSR mit 1.78x und 2.25x Faktoren. Bei VSR war doch aber noch irgendwas, dass nur wenige Auflösungen unterstützt werden? Hat sich das mittlerweile geändert?
Was ist denn für dich wenig? Also ich kann bei einem 1440p Bildschirm bis 8k verwenden.

Edit:
Bin gerade nicht zu Hause. Afaik gibts aber 1800p, 2160p, 2880p, 3240p und 4320p @VSR. Ob man noch Customs dazu erstellen kann weiß ich jetzt gerade nicht.

basix

2022-10-19, 19:06:41

OK, Danke. Dann hat sich das deutlich verbessert. Das war am Anfang eben nicht so.

Nightspider

2022-10-19, 19:21:28

RGT Tech:

"Rasterleistung wahrscheinlich höher als 4090, Raytracing wahrscheinlich etwas langsamer"

"N31 ist absurd effizient"

https://www.youtube.com/watch?v=Gpgz2hBdEA4

vinacis_vivids

2022-10-19, 19:54:43

Nochmals eine Rechnung, ausgehend von CB 5120 x 2880 avg Raster:

Name |GPU |WGPs |Shaders |GPU-Takt |Speicher|Bandbreite |IF-Cache |TDP |fp32-Tflop|
6900XT |N21XTX |20 |5.120 |2.3Ghz + |16GB / 18 Gbps |512 GB/s |128MB |350W |23,55+|
7900 |N31XL |44 |11.264 |2.8Ghz + |24GB / 20 Gbps |960 GB/s |96MB |350W |63,07+|
7900 XT |N31XT |48 |12.288 |2.9Ghz + |24GB / 21 Gbps |1,008 GB/s |96MB |420W |71,27+|
7900 XTX |N31XTX |48 |12.288 |3.2Ghz + |24GB / 21 Gbps |1,008 GB/s |192MB |420W |78,64+|

Diesmal mit der Metrik fps/Watt von +65%

4090 FE – 100 fps – 432W – 4,32W/fps – 23,14fps pro 100W
3090 Ti – 61,6 fps – 463W – 7,51W/fps – 13,30fps pro 100W

6900 XT – 50,5 fps – 296W – 5,86W/fps – 17,06fps pro 100W
Aufwand: 296W
Ergebnis: 50,5fps
Effizienz: 17,06fps pro 100W

7900 XT
Aufwand: 296W übernommen von 6900XT
Effizienz: 17,06fps übernommen von 6900XT

Rechnung:
17,06fps pro 100W * 1,65 = 28,15 fps pro 100W
Hochrechnung 7900XT auf 420W: 28,15 fps * 4,2 = 118,22fps

- Bei der anderen Rechnung mit Tflop/s fp32 und 30% Effizienzverlust komme ich auf 120,10 fps.
- Bei der 4090 FE wurde nun auch die +8% durch 4090 OC mitkalkuliert.

Es kommt dann folgendes Bild raus:

https://abload.de/img/rdna3vsadas3cjf.png

amdfanuwe

2022-10-19, 20:01:29

N24 schleppt man evtl. noch mit. Damit man einfach irgendwas hat.
Gibt genügend Alt Systeme ohne IGPU bei denen die GPU versagt.
Neue GPU rein ist dann einfacher als BIOS flashen und neue CPU rein, sofern man noch eine passende findet oder gar einen neuen PC aufsetzen.

In normalen Zeiten wäre N24 ein Chip für 80-120$ GPUs und Gaming fing bei 200$ an.
Muss ich mich erst daran gewöhnen, dass sich das nun um 100€ nach oben verschoben hat.

M4xw0lf

2022-10-19, 20:20:06

RGT Tech:

"Rasterleistung wahrscheinlich höher als 4090, Raytracing wahrscheinlich etwas langsamer"

"N31 ist absurd effizient"

https://www.youtube.com/watch?v=Gpgz2hBdEA4
Das klingt jetzt wiederum nur nach Greymon + blumiges Ausschmücken der Details.

Berniyh

2022-10-19, 20:21:17

RGT Tech:

"Rasterleistung wahrscheinlich höher als 4090, Raytracing wahrscheinlich etwas langsamer"

"N31 ist absurd effizient"

https://www.youtube.com/watch?v=Gpgz2hBdEA4
Nun ja, er sagt doch selbst, dass er keine Ahnung hat.
Gibt im Grunde doch nur das wieder was hier eh alle schon 50x mal gelesen haben.

Das Video ist es nicht wert gesehen zu werden.

amdfanuwe

2022-10-19, 20:23:58

Nochmals eine Rechnung, ausgehend von CB 5120 x 2880 avg Raster:

Name |GPU |WGPs |Shaders |GPU-Takt |Speicher|Bandbreite |IF-Cache |TDP |fp32-Tflop|

7900 |N31XL |44 |11.264 |2.8Ghz + |24GB / 20 Gbps |960 GB/s |96MB |350W |63,07+|

44 WGPs passen nicht.
Entweder 42 WGPs, 1WGP pro SE weniger oder 40WGPs, nur 5 SE.
5 SE mit 5 MCDs und 20 GB würden gut passen.
Entsprechend selektiert ( nur GCD mit schlechtem Takt/Verbrauchs Verhalten in einer SE, die dann abgeschaltet wird) kann der Takt da auch höher liegen.

Nightspider

2022-10-19, 20:24:04

Kann natürlich sein das sich die Aussagen bzgl. der "absurden" Effizienz auf die N31 Variante mit doppeltem IF$ und Stacking beziehen.

Sind 10-20% bessere Effizienz durch doppelten IF$ realistisch?

Das klingt jetzt wiederum nur nach Greymon + blumiges Ausschmücken der Details.

Teilweise zitiert er ja auch Greymon aber er hat wohl auch eigene Quellen.

Berniyh

2022-10-19, 20:32:06

Teilweise zitiert er ja auch Greymon aber er hat wohl auch eigene Quellen.
Für mich klingen seine eigenen Aussagen eher nach "Ich sag jetzt mal, dass ich das auch gehört hab, damit meine Relevanz steigt".
Ich glaube nicht, dass er wirklich brauchbare Quellen hat bzgl. RDNA3.

2022-10-19, 21:03:28

Can anyone remind me who first mentioned "Infinity Cache" in the rdna2?

Badesalz

2022-10-19, 21:20:15

AMD verkauft die Karten so, dass die Marge hoch genug ist. Su hat in der Vergangenheit mehrfach klar gemacht, wie sie zu Produkten und deren Margen steht. Das wird man auch nicht für Marktanteile über Bord werfen.Fiel mir bisher trotzdem nicht so auf, daß sie strikt NVs Preisgestaltung folgen..(?)

Für mich klingen seine eigenen Aussagen eher nach "Ich sag jetzt mal, dass ich das auch gehört hab, damit meine Relevanz steigt".
Ich glaube nicht, dass er wirklich brauchbare Quellen hat bzgl. RDNA3.Der hat keine brauchbaren Quellen bezüglich Nichts. Ich ignorier ihn völlig. Wenn es da jemanden geben sollte dem man den Titel "Trittbrettfahrer" gerecht vergeben müsste, dann ist der das. Ignoriert das.

iamthebear

2022-10-19, 21:34:42

vinacis_vivids

2022-10-19, 21:37:13

Can anyone remind me who first mentioned "Infinity Cache" in the rdna2?

"Red Gaming Tech" spoke about a 100% AMD confident source of the "Infinity Cache" 11.09.2020
RYV4muLkbss?t=668

At that time, everyone thought that the 384bit SI of the 3090 ist superior to the 256bit SI of the 6900 because of the higher bandwith.

Badesalz

2022-10-19, 21:49:26

@iamthebear
HAst du grad erzählt, daß bei irgendwelchen Leistungsabwegungen der Takt eine vernachlässigbare Größe ist?

Exxtreme

2022-10-19, 21:53:47

RGT Tech:

"Rasterleistung wahrscheinlich höher als 4090, Raytracing wahrscheinlich etwas langsamer"

Die Frage ist wiederum bei was. :D

Solange nur Schatten berechnet werden da ist RDNA2 auch nur etwas langsamer als Ampere. ;D Kommen aber noch Lichtstrahlen dazu dann dreht Ampere Kreise um RDNA2. Könnte bei RDNA3 auch passieren, dass das nur unter bestimmten Umständen etwas langsamer ist.

Nakai

2022-10-19, 22:00:33

Also ich denke nicht, dass sowohl die Daten von Angstronomics, als auch die Performanceangaben von Greymon stimmen. Speziell mit dem Navi33 > Navi21 habe ich meine Probleme.
Wie soll das bitte mit 200mm² N6 möglich sein? Wie schafft es AMD, dass der Chip mit nur 32MB IF$ (statt 128MB) und halbiertem Speicherinterface nicht massiv bandbreitenlimitiert ist? Das spießt und zwar gewaltig.

Und auch für Navi31 ist das etwas unglaubwürdig:
Bei Navi21 war der GCD Teil um die 400mm² in N7 wovon ca. 80mm² nur IO waren.
Nun soll Navi31 2x gaming fps bringen? Dafür ist mindestens 2.5-3x Rohleistung notwendig (siehe 4090 vs. 4080 12GB) und das auf einem 300mm² GCD?

Bei Navi31 belegen die WGPs selbst eine Fläche von ca. 30% des Gesamt Dies.
Die FP32 innerhalb des WGPs. Und auch innerhalb der WGPs machen die FP32 Einheiten nur maximal 50% aus wenn man den diversen gemalten Die Shots glauben darf. Würde das reine Verdoppeln der FP32 Einheiten auch nur annähernd zu einer Verdopplung der Performance führen hätte das AMD sicher schon viel früher gemacht.

Vielleicht ging es hier um RT-Performance?

Wir kennen die Cache-Strukur von N3x noch gar nicht und wissen nicht was sich noch alles architekturell geändert hat. Aber ich glaube auch nicht, dass ein N33 sich vor einem N21 positionieren wird. Nach Usecase im Mittel knapp dahinter. Bei klassischen Usecases eher mehr dahinter, bei RT und niedrigeren Auflösungen ziemlich auf einem Level.

Ich bin da eher optimistisch bei N3x.

why_me

2022-10-19, 22:04:50

Also ich denke nicht, dass sowohl die Daten von Angstronomics, als auch die Performanceangaben von Greymon stimmen. Speziell mit dem Navi33 > Navi21 habe ich meine Probleme.
Wie soll das bitte mit 200mm² N6 möglich sein? Wie schafft es AMD, dass der Chip mit nur 32MB IF$ (statt 128MB) und halbiertem Speicherinterface nicht massiv bandbreitenlimitiert ist? Das spießt und zwar gewaltig.

AMD wird am Cache gearbeitet habe und auch, was in ihm landet. Wenn verhindert werden kann, dass Daten, die nur einmal bearbeitet werden, nicht den Cache blockieren. Dann kann auch ein kleinerer Cache ausreichend sein.
Und auch die Speicherchips werden bei N33 deutlichlich höher takten. So dass die Bandbreite nicht so viel weniger sein wird.
Ich denke auch, das N33 als FHD/WQHD Karte plaziert werden wird. Da braucht es auch nicht so viel Cache.

Unmöglich ist es sicherlich nicht und es sind viele wenns. Hab da auch meine Zweifel, aber auch bei RDNA2 wollte keiner glauben, das AMD mit nur 256bit gegen Nvidia eine Cahcne hat. ;)

Und auch für Navi31 ist das etwas unglaubwürdig:
Bei Navi21 war der GCD Teil um die 400mm² in N7 wovon ca. 80mm² nur IO waren.
Nun soll Navi31 2x gaming fps bringen? Dafür ist mindestens 2.5-3x Rohleistung notwendig (siehe 4090 vs. 4080 12GB) und das auf einem 300mm² GCD?

Bei Navi31 belegen die WGPs selbst eine Fläche von ca. 30% des Gesamt Dies.
Die FP32 innerhalb des WGPs. Und auch innerhalb der WGPs machen die FP32 Einheiten nur maximal 50% aus wenn man den diversen gemalten Die Shots glauben darf. Würde das reine Verdoppeln der FP32 Einheiten auch nur annähernd zu einer Verdopplung der Performance führen hätte das AMD sicher schon viel früher gemacht.

Würde da nicht viel auf die 4090 geben, die ist eine Luftpumpe.
AMD hat diesmal wohl auch viel auf Flächeneffizienz gesetzt und Altlasten aus den Pipelines entfernt.
Verdopplung der Shader war vorher aufgrund der Bandbreite einfach nicht möglich. Das ist erst durch Infitiny Cache möglich und hätte in Kombination mit dem Cache bei 7nm zu viel Fläche gekostet und zu viel verbraucht.

Achill

2022-10-19, 22:26:03

Can anyone remind me who first mentioned "Infinity Cache" in the rdna2?

Here in the forum it was first referenced by [MK2]Mythos on 2020-09-11 ..

Mythos;12422305']Aus dem neusten RedGamingTech Video:

- RDNA2 Performance per Watt Improvement around 60%
- no hbm2
- no 512bit SI
- 16Gb VRam GDDR6
- 128MB Infinity Cache auf der GPU
- hohe Taktrate ~2200Mhz
- 80CU Big Navi
- 3 GPUS insgesamt
- 6700 auf RTX3070 Niveau
- 6800 auf RTX3080 Niveau
- 6800XT auf Niveau einer potenziellen RTX3080Ti (lol?)
- 6900 auf RTX3090 Niveau
- Raytracing wie bei Konsolen und auf Turing Niveau
- Der Typ ist komisch und für mich sind das einfach ein paar bisher aufgepickte Gerüchte mit ein bisschen Quatsch. Nothing to see here.

https://www.youtube.com/watch?v=RYV4muLkbss

basix

2022-10-19, 22:28:53

Würde da nicht viel auf die 4090 geben, die ist eine Luftpumpe.
AMD hat diesmal wohl auch viel auf Flächeneffizienz gesetzt und Altlasten aus den Pipelines entfernt.
Verdopplung der Shader war vorher aufgrund der Bandbreite einfach nicht möglich. Das ist erst durch Infitiny Cache möglich und hätte in Kombination mit dem Cache bei 7nm zu viel Fläche gekostet und zu viel verbraucht.

An der Verdopplung der FP32-Units hängen auch viele Architektur-Änderungen: VOPD / VLIW2, vergrösserte VGPRs, Anpassungen an der Pipeline, ...

Das ist nicht "for-free", da braucht es unterstützende Massnahmen und Architekturanpassungen. Sonst sieht es dann eben aus wie bei Ampere & Lovelace, wo Peak-FLOPs in Spielen nie erreicht werden können.

Cyberfries

2022-10-19, 22:33:01

Also ich denke nicht, dass sowohl die Daten von Angstronomics, als auch die Performanceangaben von Greymon stimmen.

Es würde viel mehr Sinn ergeben, wenn du nicht Sachen erfinden würdest.

Speziell mit dem Navi33 > Navi21 habe ich meine Probleme.

Wo kommt das her? Selbst die frühen, optimistischen Gerüchte gingen noch von einem Gleichstand aus.
Mit N31 = 2x N21 sollte wohl klar sein, dass N33 mit einem Drittel an WGPs N21 nicht übertrifft.

Bei Navi21 war der GCD Teil um die 400mm² in N7 wovon ca. 80mm² nur IO waren.

Quark. Inf$ und SIs machen rund ein Drittel von N21 aus. Auf welcher Basis kommst du auf 400mm²?
Und vergiss nicht dass beim Rest auch Dinge entfallen.

Nun soll Navi31 2x gaming fps bringen? Dafür ist mindestens 2.5-3x Rohleistung notwendig

3x Rohleistung wären 70 TFlops, was mit 2,85 GHz erreicht werden würde. Wo liegen Iscarans Schätzungen momentan?

Würde das reine Verdoppeln der FP32 Einheiten auch nur annähernd zu einer Verdopplung der Performance führen hätte das AMD sicher schon viel früher gemacht.

Und wäre wie nVidia auf die Nase gefallen.

"Red Gaming Tech" spoke about a 100% AMD confident source of the "Infinity Cache" 11.09.2020
Here in the forum it was first referenced by [MK2]Mythos on 2020-09-11 ..

Eure Hilfsbereitschaft in Ehren, aber es ist doch wohl offensichtlich dass das PJ bekannt ist.

Das ist erst durch Infitiny Cache möglich und hätte in Kombination mit dem Cache bei 7nm zu viel Fläche gekostet und zu viel verbraucht.

Das widerspricht aber ein wenig der Narrative der geschrumpften WGPs...

Berniyh

2022-10-19, 22:47:29

Can anyone remind me who first mentioned "Infinity Cache" in the rdna2?
Ja, das war er, das stimmt.
Aber der Leak damals hatte eine ganz andere Qualität, das war nichts im Sinne von "ja, ich hab auch gehört was alle anderen behaupten", sondern wesentlich konkreter.
Genau solche vage Aussagen machen Leute halt, wenn sie keine Ahnung haben, das aber vertuschen wollen bzw. relevant bleiben wollen.

Insofern hast du mit deiner Anmerkung schon recht, er hatte zu RDNA2 Infos, aber bei RDNA3 sehe ich da bisher nichts was vermuten lassen würde, dass er auch weiter an der Quelle sitzt.
Nicht vergessen, dass irgendwelche solche Quellen auch versiegen können aus verschiedenen Gründen. ggf. hat AMD die Lücke einfach geschlossen.
(Man scheint ja inzwischen viel Wert darauf zu legen, dass so gut wie fast wenig nach außen dringt.)

[MK2]Mythos

2022-10-19, 23:27:05

Here in the forum it was first referenced by [MK2]Mythos on 2020-09-11 ..
Danke für die Erinnerung. Habe gerade ein bisschen nachgelesen. Ist schon verrückt wie die Eckdaten von RDNA2 noch vor 2 Jahren zum Teil als undenkbar abgetan wurden.

Und nun kommt AMD vermutlich wieder mit einem revolutionären Design. :D

DrFreaK666

2022-10-19, 23:47:08

Exxtreme

2022-10-20, 00:01:19

r3ptil3

2022-10-20, 00:05:36

RT-Performance mehr als doppelt so hoch.
Das dürfte dann über Ampere-Niveau liegen

https://abload.de/thumb/screenshot_20221019_2f4dzh.jpg (https://abload.de/image.php?img=screenshot_20221019_2f4dzh.jpg)

Also fast der gleiche Rückstand wie die RX 6900 auf die RTX 3090 aktuell in RT.
Ohne RT wäre dann das Top-Modell bestenfalls auf RTX 4090 Niveau.

Selbst 1200$ UVP wären dann aber zu viel, da ja noch der ganze Rückstand auf der Softwareebene kommt.

Wenn der Verbrauch auch deutlich unter der RTX 4090 liegen würde, dann hätte ich einen Grund die Bestellung der Strix RTX 4090 zu stornieren.

amdfanuwe

2022-10-20, 00:12:57

Mythos;13144026']
Und nun kommt AMD vermutlich wieder mit einem revolutionären Design. :D
Mal abwarten, ob evolution oder revolution.
CDNA3 seh ich da schon eher reolutionär mit Server "APU".
Fehlt als nächster Schritt noch die passende CPU mit bei der GPU zu verbauen (so ein kleines 8 Core mit 3D Cache Chiplet direkt am GPU Chip), wodurch dann auch noch der lahmste Celeron PC zu einer Gaming-Maschine mutiert.

Platos

2022-10-20, 00:38:30

Doppelte RT Perfomance wäre gerade mal 28% über 3090Ti Perfomance. Die 4090 wäre ca. einen drittel schneller (32%).

Die 3090Ti ist ca. 56% schneller, wie die 6950XT. Der Abstand hätte sich somit verringert, nvidia wäre aber immer noch weit weg.

Selbst mit “über 2-Fach" wird nvidia vermutlich immer noch 1/4 schneller sein. Bid AMD gleichauf ist, wird es wahrscheinlich mindestens noch eine weitere Generation dauern (RDNA 4 ).

Raff

2022-10-20, 00:42:36

OK, Danke. Dann hat sich das deutlich verbessert. Das war am Anfang eben nicht so.

VSR unterstützt seit März dieses Jahres Auflösungen bis hinauf zu 8K: https://www.pcgameshardware.de/AMD-Radeon-Grafikkarte-255597/Specials/AMD-Software-FSR-20-VSR-8K-RSR-1391135/

"VSR wurde just um die Auflösungen 5.760 × 3.240 (6K) und 7.680 × 4.320 (8K) erweitert - zuvor war "nur" 5.120 × 2.880 alias 5K möglich. Interessanterweise nennt AMD dieses Upgrade weder in den Release Notes, noch im Begleitmaterial für Tester. Enthusiasten dürften dennoch frohlocken, dass VSR nun ähnlich potent ist wie das von Nvidia just verbesserte Dynamic Super Resolution (DSR) mit Deep-Learning-Zusatz (DL-DSR)."

Sogar auf einer RX 6400, die phasenweise bei 2D-Desktop-Content in UHD ruckelt. ;D

MfG
Raff

Thomas Gräf

2022-10-20, 00:43:44

Mal abwarten, ob evolution oder revolution.
CDNA3 seh ich da schon eher reolutionär mit Server "APU".
Fehlt als nächster Schritt noch die passende CPU mit bei der GPU zu verbauen (so ein kleines 8 Core mit 3D Cache Chiplet direkt am GPU Chip), wodurch dann auch noch der lahmste Celeron PC zu einer Gaming-Maschine mutiert.

Also mal ganz ehrlich, warum sollte AMD jetzt auf Teufel komm raus einer 4090 die Zähne zeigen? Das Ding is gelaufen, so wie die Briefmarken Sammlung aus der DDR. (is'n Lesch Kalauer ;) )
Denn sie haben den Zeitpunkt dafür sausen lassen, sie haben kein Störfeuer gelegt, sie schweigen einfach. Punkt
Immer wieder wird hier von all den Kosten geredet, also ich geh davon aus das Lederjacke mit der 4090 den Vogel abgeschossen hat und dabei bleibts auch.

Ich sehs wie amdfanuwe, bei AMD wird man sich auf soliden Grundlagen die man sich selbst erschaffen kann weiterentwickeln und bauen.
CDNA3 noch nicht als Revolution, aber das was danach kommt wird was anderes sein.

Mein Wunsch für 2023 wär ne 4k taugliche Graka ohne RT und schnickschnack aber iwie bezahlbar...

Linmoum

2022-10-20, 01:05:26

Doppelte RT Perfomance wäre gerade mal 28% über 3090Ti Perfomance. Die 4090 wäre ca. einen drittel schneller (32%). Aber auch nur in Spielen, wo AMD jetzt schon nicht groß abkackt. Oder anders gesagt: In weniger anspruchsvollen RT-Titeln.

Mit doppelter RT-Performance wäre man in div. Spielen (z.B. DL2, CP2077, Minecraft RTX, Quake RTX) nur gleichauf bzw. sogar langsamer als eine 3090Ti. In Spielen wie Lego Builder's Journey, Control, Doom, ME:EE oder Guardians of the Galaxy sind wir auch mal schnell bei 80-90% Differenz.

Man sollte als Grundlage für RT-Performance nicht sowas wie Far Cry 6 nehmen. Das ist Kindergeburtstag und läuft selbst auf einem Toaster (okay, etwas übertrieben) vernünftig. Und dann gibt's auch noch größere Unterschiede je nachdem, wie stark man RT innerhalb der Spiele aufdreht. In ME:EE performt eine 6900XT auf RT "Normal" noch halbwegs vernünftig (nur +43% für die 3090Ti laut PCGH), mit RT auf "Ultra" beträgt der Vorsprung dann aber plötzlich +90%.

RDNA3 wird bei "RT light" sicher annehmbar genug performen. Die viel spannendere Frage ist nur, wie es aussieht, wenn man den Karten dann wirklich Feuer unterm Hintern macht. Wenn RDNA3 und Ada dichter beieinander liegen ist das toll und das wünscht sich jeder, wenn das aber dann bedeutet, dass der eine das nur mit Normal schafft während der andere auf Ultra gehen kann - und dabei trotzdem noch schneller ist - dann ist das wieder wenig beeindruckend.

DrFreaK666

2022-10-20, 01:13:18

Laut CB ist die 3090Ti doppelt so schnell in CP2077 und Guardians verglichen mit der RX6900XT mit RT

Raff

2022-10-20, 01:17:19

iamthebear

2022-10-20, 02:35:13

@iamthebear
HAst du grad erzählt, daß bei irgendwelchen Leistungsabwegungen der Takt eine vernachlässigbare Größe ist?

Vernachlässigbar nicht aber Takt entsteht nicht aus dem Nichts. Diesen erreicht man in der Regel nur dadurch, dass man mehr Transistoren investiert. Ada ist hier das beste Beispiel wie man es nicht macht: 40-50% mehr Takt aber dafür musste Nvidia um die 60% mehr Transistoren pro SM investieren und die IPC ist auch noch gesunken.

AMD wird am Cache gearbeitet habe und auch, was in ihm landet. Wenn verhindert werden kann, dass Daten, die nur einmal bearbeitet werden, nicht den Cache blockieren. Dann kann auch ein kleinerer Cache ausreichend sein.

Das mag schon sein aber wir reden hier immerhin von der 4 fachen Cachegröße UND halbiertem Speicherinterface.

Und auch die Speicherchips werden bei N33 deutlichlich höher takten. So dass die Bandbreite nicht so viel weniger sein wird.

Wenn ich die Grafik zur RDNA2 Hitrate als Basis hernehme:
Navi21 mit 128MB IF$ 62% Hitrate. Effektive Speicherbandbreite:
256Bit * 16gbps / 8 / (1-0.62) = 1.35TB/s

Navi33 mit 20gbps 27% Hitrate:
128 Bit * 20 / 8 / (1-0.27) = 440GB/s

Da kann AMD lange am Cache tüfteln bis die 3x Bandbreite kompensiert haben.

Ich denke auch, das N33 als FHD/WQHD Karte plaziert werden wird. Da braucht es auch nicht so viel Cache.

N21 ist eine 4K Karte. Wenn N33 nur für FHD/WQHD geeignet ist, dann ist das eben nicht N21 Performance.

Unmöglich ist es sicherlich nicht und es sind viele wenns. Hab da auch meine Zweifel, aber auch bei RDNA2 wollte keiner glauben, das AMD mit nur 256bit gegen Nvidia eine Cahcne hat. ;)

Bei RDNA2 kamen ja 128MB IF$ dazu. Dadurch wird die effektive Speicherbandbreite mehr als Verdoppelt da (unter 4K) 60% der Speicherzugriffe nun aus dem Cache gezogen werden können.

Verdopplung der Shader war vorher aufgrund der Bandbreite einfach nicht möglich. Das ist erst durch Infitiny Cache möglich und hätte in Kombination mit dem Cache bei 7nm zu viel Fläche gekostet und zu viel verbraucht.

Verstehe die Logik nicht. Den IF$ gab es ja schon mit RDNA2. Dieser wird ja bei RDNA3 kleiner und nicht größer.

An der Verdopplung der FP32-Units hängen auch viele Architektur-Änderungen: VOPD / VLIW2, vergrösserte VGPRs, Anpassungen an der Pipeline, ...

Das ist nicht "for-free", da braucht es unterstützende Massnahmen und Architekturanpassungen. Sonst sieht es dann eben aus wie bei Ampere & Lovelace, wo Peak-FLOPs in Spielen nie erreicht werden können.

Oder man spart sich diese unterstützenden Maßnahmen und freut sich, dass man am Schluss 45% mehr Performance raus bekommt nachdem man nur 40% mehr Transistoren investiert hat also im Endeffekt 5% effizienter.
Ampere ist hier ein gutes Beispiel: 46 SMs der 3070 sind hier ca. so schnell wie 68SMs der 2080 Ti. Und die beiden Karten haben auch ca. gleich viele Transistoren.

Wo kommt das her? Selbst die frühen, optimistischen Gerüchte gingen noch von einem Gleichstand aus.

https://twitter.com/greymon55/status/1439486356548325387?s=20&t=p5xOJ6HJW8Fe59uZpHeXcw

Was ich mich erinnern kann war er zwischendurch sogar schon bei 1.2x Navi31 aber da finde ich den Link nicht mehr. Gut möglich, dass er das schon gelöscht hat.
Meine Vermutung: Die 1-1.2x N21 beziehen sich auf N32, nicht auf N33.

Mit N31 = 2x N21 sollte wohl klar sein, dass N33 mit einem Drittel an WGPs N21 nicht übertrifft.

Das ist mir auch klar, dass die Aussagen vorne und hinten nicht zusammen passen.

Quark. Inf$ und SIs machen rund ein Drittel von N21 aus. Auf welcher Basis kommst du auf 400mm²?

Beim IF$ habe ich 80mm² gemessen.
Beim SI komme ich in Summe auf ca. 50mm²
Bleiben 390mm² übrig.
Grob geschätzt 80mm² gehen für IO drauf also noch 310mm²
Die 4 Shader Engines alleine brauchen 230mm²
Die restlichen 80mm² sind schwerer zuordenbar, verteilen sich aber auf den L2 und den Kram im Zentrum (laut Locuza Command Frontend+Geometry Processor?) bzw. außen die Infinity Fabric für die Kommunikation innerhalb des GCDs bzw. hin zum IF$. Die wird wohl bei RDNA3 anders aussehen aber irgendetwas in der Form wird es da auch geben müssen.

Und vergiss nicht dass beim Rest auch Dinge entfallen.

Also wenn man mit N31 vergleicht wird da eher noch mehr dazu kommen z.B. DP 2.0 oder PCIe 5.

3x Rohleistung wären 70 TFlops, was mit 2,85 GHz erreicht werden würde. Wo liegen Iscarans Schätzungen momentan?

Ich meine nicht theoretische TFlops. Das ist wieder eine andere Baustelle.

Du brauchst ca. 2.5 - 3x so viele Shader der gleichen Architektur und Takt, damit du in etwa auf 2x 4K gaming fps kommst.
Bestes Beispiel hier: 3090 Ti vs. 3060. Hier wurde alles verdreifacht angefangen von SM über Verlustleistung (IO Teil mal raus gerechnet), ROPs usw.

Laut techpowerup sind es dann noch 2.4x fps. Wenn dann aber wie bei 4090 jedes 2. Spiel teilweise ins CPU Limit läuft kann man über 2x reale fps noch froh sein.

Und wäre wie nVidia auf die Nase gefallen.

Inwiefern ist Nvidia auf die Nase gefallen. Aus Performance/Transistor Sicht sind beide Lösungen gleich effizient.

Mit Turing wurden die FP32/SM halbiert.
Mit Ampere wieder verdoppelt
Mit Ada blieb man dabei und hat mit Hopper die Datacenter Architekturen auch auf 128 FP32/SM umgestellt also scheint es sich auf Dauer doch durchgesetzt zu haben.
Wobei das nicht 1:1 vergleichbar ist. Nvidias 128FP32/SM sind kein VLIW. Dafür können nun die INT Einheiten nicht mehr gleichzeitig mit den FP32 Einheiten arbeiten.

Das widerspricht aber ein wenig der Narrative der geschrumpften WGPs...

Das Größenargument ist bei GPUs sowieso sinnlos. Entweder hat eine Architekturänderung mehr Performance/Fläche oder eben nicht aber das ist ja unabhängig davon wie groß der Chip ist. Dann hätte es eben wie bei N23 nur 8 statt 10 WGPs/SE gegeben.

vinacis_vivids

2022-10-20, 04:20:28

@iamthebear
@Topic

RDNA2 uArch-Skalierung ist schon ziemlich geil.

N22: 17,2mrd Tr. - 13,21 Tflop/s - 335mm² - 53,5 fps
N21: 26,8mrd Tr. - 23,04 Tflop/s - 520mm² - 86,1 fps
Erhöhung der Transistoren ~ +56%
Erhöhung der Chipfläche von ~ +55%
Erhöhung der max. Rechenleistung von ~ +74%
Entspricht einer Erhöhung der fps von ~ +61%

N22: 0,2469 Tflop per frame
N21: 0,2676 Tflop per frame

Skalieren wir das mal hoch auf RDNA3 uArch N31@3,0Ghz ~ 73,72 Tflop/s fp32
Wir nehmen an, dass Tflop per frame bei RDNA3 schlechter wird wegen der schwierigen Auslastung, weil die Shader doch krass in die Breite gehen. Lass es 30% mehr Rechenleistung per frame sein. Dann sind es bei N31: 0,2676 * 1,3 = 0,3479 Tflop per frame

N31: 0,3479 Tflop per frame
Rechenleistung 73,72 Tflop/s fp32 durch N31: 0,3479 Tflop per frame ~ 211,90 fps

Entspricht einer Erhöhung der fps von ~ 146% also Faktor 2,46!

Es kann gut sein, dass unter UHD bei einigen Tests ein CPU-Limit auftritt und wir daher auf Faktor 2,3 abrunden können, bei einer langsamen CPU auf Faktor 2,2.

Mehrere konservative Rechnungen bei der Raster-Leistung von mir ergeben durchgehend deutlich mehr als Faktor 2, deutlich. Und das gilt für die 96MB IF$ Version von N31 mit moderatem Takt von 3,0Ghz.

N31 192MB IF$ taktet bei erhöhtem Powerlimit auch höher als 3,0Ghz, vllt. 3,2-3,3Ghz. Das sind dann schon 78,64 - 81,10 Tflop/s fp32.

Rechenleistung 78,64 Tflop/s fp32 durch N31: 0,3479 Tflop per frame ~ 226,04 fps

Entspricht einer Erhöhung der fps von ~ 162% also Faktor 2,62!

CPU-Limit schlägt wieder zu bei UHD und wir landen bei Faktor 2,5 und bei einer langsamen CPU vllt. auf 2,4.

Der Multiplikator für Raster fp32 schwankt je nach Hochrechnung von Faktor 2,2 bis 2,5. Dabei sind unrealistische Taktraten von 3,72Ghz oder Effizienzverluste von mehr als 30% weitgehend ausgeklammert.

Letzte Anmerkung: Über RT bei RDNA3 und dem Multiplikator machen ich mir noch Gedanken und schreibe zeitnah was dazu.

Nightspider

2022-10-20, 04:39:58

Ich glaube was die relative und die absolute Raytracing Leistung betrifft besteht schnell Verwechslungsgefahr in Diskussionen und Tweets die nur aus <10 Zeichen bestehen.

sklave_gottes

2022-10-20, 06:26:28

Das war auch mein erster Gedanke, denn relativ hat sich bei AD102 in punkto RT Geschwindigkeit wenig gegenüber GA102 erhöht. Der RT Speed kommt fast ausschließlich durch die generelle Verbreiterung+Takterhöhung. Genau hier sehe ich die Chance für RDNA3.

Nightspider

2022-10-20, 07:00:00

CPU-Limit schlägt wieder zu bei UHD und wir landen bei Faktor 2,5 und bei einer langsamen CPU vllt. auf 2,4.

The fck am i reading?

dargo

2022-10-20, 07:19:57

Hier nochmal die Gemeinheits-Benches von GA102 vs. AD102 vs. Navi 21 OC @ 2,6 GHz und 19,2 GT/s zum Nachlesen: https://www.pcgameshardware.de/Geforce-RTX-4090-Grafikkarte-279170/Tests/RTX-4090-Raytracing-Benchmarks-1405125/#a2

Da tun sich Abgründe auf, die AMD hoffentlich überbrücken kann.

Warum testest ihr bei sowas nur die schnellsten Grafikkarten? Hat das System? Mir fehlt bei solchen Tests mal was "volksnahes" wie zb. RTX 3070 vs. RX 6800 oder Ähnliches. Bei der PCGH wird wieder so getan als ob PC-Gaming nur aus 6900XT, 3090TI und 4090 bestehen würde. :freak:

Aber auch nur in Spielen, wo AMD jetzt schon nicht groß abkackt. Oder anders gesagt: In weniger anspruchsvollen RT-Titeln.

Es werden halt auch Spiele released ohne Lederjacken-Bullshit-Settings bei Raytracing wie zb. Hitman 3 oder Spiderman um eine größere Gaminggemeinschaft anzusprechen, deal with this.

Darkearth27

2022-10-20, 07:26:55

Was die RT Leistung angeht bin ich immer noch der Meinung, man sollte die 6000er Reihe eher mit der 2000er von NV vergleichen, da NV eben eine gen weiter vorne ist.

Die Umsetzung wie dies erreicht wird ist ja auch eine andere, als z.b. bei Intel und stellt man alle Erstlingsgenerationen der RT Kompatibilität gegenüber, kommt AMD zwar auch am schlechtesten weg (Full RT), der Unterschied ist dann aber eben nicht mehr so gravierend, als wenn man gegen die zweite gen von NV vergleicht (6000er gegen 3000er)

Naja wie dem auch sei, RT wird in MP Games vermutlich weiterhin keine große Rolle spielen, in Singleplayer Games würde ich es aber gerne mitnehmen.
Wenn da etwas mehr als die 3000er erreicht wird, dann passt das schon (für mich).

Virtual

2022-10-20, 08:58:46

...
RDNA3 wird bei "RT light" sicher annehmbar genug performen. Die viel spannendere Frage ist nur, wie es aussieht, wenn man den Karten dann wirklich Feuer unterm Hintern macht. Wenn RDNA3 und Ada dichter beieinander liegen ist das toll und das wünscht sich jeder, wenn das aber dann bedeutet, dass der eine das nur mit Normal schafft während der andere auf Ultra gehen kann - und dabei trotzdem noch schneller ist - dann ist das wieder wenig beeindruckend.
"... dass der eine das nur mit Normal schafft während der andere auf Ultra gehen kann - und dabei trotzdem noch schneller ist - dann ist das wieder wenig beeindruckend" ... wenig beeindruckend war bisher der visuelle Unterschied zwischen Normal-RT und Ultra-RT eines RT-lastigen Spiels. Solange die Zahl der 40x0-Grafikkarten bei der Summe aller Zocker nur marginal ist, solange wird es den Normal-RT Modus sogar in einem RT-lastigen Spiel geben.

Raff

2022-10-20, 09:10:22

Warum testest ihr bei sowas nur die schnellsten Grafikkarten? Hat das System? Mir fehlt bei solchen Tests mal was "volksnahes" wie zb. RTX 3070 vs. RX 6800 oder Ähnliches. Bei der PCGH wird wieder so getan als ob PC-Gaming nur aus 6900XT, 3090TI und 4090 bestehen würde. :freak:

Aufhänger ist die RTX 4090, welche sich (erneut) beweisen muss. Die schnellste Radeon ist da noch naheliegend, aber RTX 3070 und RX 6800 sehen in diesem Vergleich mit maximaler Raytracing-Komplexität in Ultra HD ziemlich verloren aus. Wem bringen die einstelligen Vergleichswerte etwas?

MfG
Raff

Badesalz

2022-10-20, 09:37:39

Die schnellste Radeon ist da noch naheliegend, aber RTX 3070 und RX 6800 sehen in diesem Vergleich mit maximaler Raytracing-Komplexität in Ultra HD ziemlich verloren aus. Wem bringen die einstelligen Vergleichswerte etwas?
DIESE Frage finde ich garnicht so verkehrt. Auch wenn die Antwort drauf noch kurz davor bereits angedeutet wurde:

... wenig beeindruckend war bisher der visuelle Unterschied zwischen Normal-RT und Ultra-RT eines RT-lastigen Spiels.
In der Tat also bringt das niemandem etwas. Es ist nur ein weiterer schwachsinniger Versuch den Völkern einzureden, RT ist auf AMD unbenutzbar.

Linmoum

2022-10-20, 09:46:10

Die Performance auf RDNA2 ist in diesen Fällen einfach schlecht im Vergleich mit Ampere. Das sind Fakten und die müssen nirgendwo eingeredet werden.

Daher bleibt auch zu hoffen, dass sich das mit RDNA3 ändern wird. Davon hat jeder was.

Badesalz

2022-10-20, 09:56:17

Die Performance auf RDNA2 ist in diesen Fällen einfach schlecht im Vergleich mit Ampere.Und trotzdem real nicht wirklich notwendig.

Daher bleibt auch zu hoffen, dass sich das mit RDNA3 ändern wird. Davon hat jeder was.Real werden es in etwa 2,45x sein. Vielleicht auch mal 2,55x. Kann man sich grob ausrechnen wo man rauskommt. Mehr ist halt nicht diesmal. Kann man machen nix. Achtung: RT-Leistung der RT-Logik. Das ist nicht == FPS. Wie man das auf FPS umrechnet sollten mal fähige Leute nachschauen :wink:

Ob das für den Markt ein Deal ist werden hoffentlich eher die Preise entscheiden als all die seltsamen Schreiberlinge.
Raster wird eh auf jeden Fall stimmen. RT auf Normal bis High sollte unterhalb 4k langen. Damit sollte auch das primäre Ziel, mit RDNA3 Geld zu verdienen, erreichbar sein.

Raff

2022-10-20, 10:10:37

Und trotzdem real nicht wirklich notwendig.

Das ist argumentativ sehr dünnes Eis. "Notwendig" sind neue High-End-GPUs auch nicht. Und dann zu meinen, dass eine neue Grafikkarte für vierstellige Summen nicht unbedingt geil beim Raytracing sein muss, wirkt schon etwas konstruiert. Der grafische Fortschritt kommt schneller, wenn alle Marktteilnehmer die Hardware dafür haben. :)

MfG
Raff

//differentRob

2022-10-20, 10:12:47

Gibt es schon Meldungen dazu welches RT Feature Level RDNA3 unterstützt?

@Raff
Bei einer 2000 € Karte dürfte aber auch DP 2.0 drin liegen -scnr-

Raff

2022-10-20, 10:17:00

@Raff
Bei einer 2000 € Karte dürfte aber auch DP 2.0 drin liegen -scnr-

Definitiv. Ich verstehe auch nicht, warum Nvidia daran spart - eine GPU hält schließlich länger als sechs Monate. Wir wissen nicht, inwiefern die Spezifikation des Standards mit der Festlegung der Display-Fertigkeiten von Ada zusammenpassten, aber offenbar hatte das genauso wenig Prio wie PCI-Express 5.0.

MfG
Raff

Badesalz

2022-10-20, 10:35:41

Das ist argumentativ sehr dünnes Eis. "Notwendig" sind neue High-End-GPUs auch nicht.An sich ja, da sich davon all die marktsinnvollen Modelle ableiten. Korrekt?

Und dann zu meinen, dass eine neue Grafikkarte für vierstellige Summen nicht unbedingt geil beim Raytracing sein muss, wirkt schon etwas konstruiert,Konstruiert, wirkt erstmal der Unterschied zwischen feststellbarem Mehrwert-RT und Geil-RT. Warum macht ihr keine Artikel darüber denn? Womöglich ohne Pixelpeeper-Battles? +600€ für geiles Pixelpeepern wäre ja wie Covid mit Globuli bekämpfen...

Klar muss man schauen wie man preislich zur Konkurrenz steht um für die Kundschaft eine Alternative sein zu können. Das steht ja außer Frage. Sonstige "Metriken" :wink: werden aber auch nur konstruiert. In Forenblasen über die PR-Journalie.
Damit ist man mal mehr, mal weniger erfolgreich :uup: Irgendwie scheint es, was mich selbst überrascht, daß diese Aufgabe sich diesmal nicht so einfach gestaltet wie bisher... Und das trotz des regelrechten - bisher aber auch nur eines einzelnen - Paukenschlags der Grünen.

Wir leben aktuell wohl in jeder Hinsicht in seltsam spannenden Zeiten.

@all
Gibt es schon Meldungen dazu welches RT Feature Level RDNA3 unterstützt?:D Ist das denn schon durch für die Benutzung von "RT feature level" mit der einen Woche Bann? :wink:

Edgecrusher86

2022-10-20, 12:04:30

Gibt es eigentlich für AMD auch Custom-Res. Tools oder dergleichen, mit dem man Games bis hinauf zu 16K testen kann?
Mich würden ja einmal gerne die Raster-Ergebnisse vom RDNA3 hier interessieren:

https://www.forum-3dcenter.org/vbulletin/showthread.php?p=13144299#post13144299

Wieviel schneller die RX 7900XT dort wäre - VRAM ist ja mit 24GB auch genug vorhanden.
Naja, viel mehr als 30 fps kann es oben auch nicht sein. 16x HQ-AF global natürlich aktiv, ist klar.

E: Einmal noch BF1 @ 10320x4320:
https://www.forum-3dcenter.org/vbulletin/showpost.php?p=13144219&postcount=1104

why_me

2022-10-20, 12:12:31

VSR per Treiber, oder was meinst du genau?
Ich kann hier mit 2560x1440 bis hoch zu 7680x4320 einstellen. Also 3x der Pixel pro Achse.

dargo

2022-10-20, 12:14:41

Aufhänger ist die RTX 4090, welche sich (erneut) beweisen muss. Die schnellste Radeon ist da noch naheliegend, aber RTX 3070 und RX 6800 sehen in diesem Vergleich mit maximaler Raytracing-Komplexität in Ultra HD ziemlich verloren aus. Wem bringen die einstelligen Vergleichswerte etwas?

In diesem Fall hättet ihr auch die RX 6900XT und 3090TI im Test rauslassen können, denn gut spielbar ist damit vieles dann auch nicht. Es muss ja nicht nur stur 4k getestet werden. 1440p würden hier auch ganz gut passen. Es geht mir darum zu zeigen, dass RT-Skalierung sich nicht einfach 1:1 von den schnellsten GPUs auf das gesamte Portfolio übertragen lässt. Egal... sieht man ja schon bei CB ganz gut.

Das ist argumentativ sehr dünnes Eis. "Notwendig" sind neue High-End-GPUs auch nicht. Und dann zu meinen, dass eine neue Grafikkarte für vierstellige Summen nicht unbedingt geil beim Raytracing sein muss, wirkt schon etwas konstruiert. Der grafische Fortschritt kommt schneller, wenn alle Marktteilnehmer die Hardware dafür haben. :)

Zu Marktteilnehmern gehören vor allem Konsolen. Rafft ihr das immer noch nicht? Wie verblendet diese PC-Nerds immer noch sind ist echt verblüffend.

Edit:
@basix

Ich hatte bei VSR noch 1728p vergessen.
81017

Edgecrusher86

2022-10-20, 12:16:26

VSR per Treiber, oder was meinst du genau?
Ich kann hier mit 2560x1440 bis hoch zu 7680x4320 einstellen. Also 3x der Pixel pro Achse.

Japp, das ginge dann - Bis 8K VSR und bis zu 200% Scaling ist 16K.
Ich muss mal kurz gegen rechnen, was in 16:9 ca. 79,2MP entspräche. ;)

13760x5760 (21:9 => 3440x1440 + 4.00x DSR & 200% Scaling) wäre ca. 7680x4320 + 155% Scaling @ 16:9 => 11904x6696 [79,2 MP vs. 79,7 MP].

In BF1 ist es zumindest leider bei NV so, dass er ingame nicht 4.00x DSR akzeptiert - es bleibt also hier bei 2.25x (DL-)DSR maximal. Ansonsten hätte ich natürlich auch 13760x5760 on top gefahren dort.

Exxtreme

2022-10-20, 12:20:15

basix

2022-10-20, 12:48:41

VSR unterstützt seit März dieses Jahres Auflösungen bis hinauf zu 8K: https://www.pcgameshardware.de/AMD-Radeon-Grafikkarte-255597/Specials/AMD-Software-FSR-20-VSR-8K-RSR-1391135/

"VSR wurde just um die Auflösungen 5.760 × 3.240 (6K) und 7.680 × 4.320 (8K) erweitert - zuvor war "nur" 5.120 × 2.880 alias 5K möglich. Interessanterweise nennt AMD dieses Upgrade weder in den Release Notes, noch im Begleitmaterial für Tester. Enthusiasten dürften dennoch frohlocken, dass VSR nun ähnlich potent ist wie das von Nvidia just verbesserte Dynamic Super Resolution (DSR) mit Deep-Learning-Zusatz (DL-DSR)."

Cool :)

Gibt es irgendwo einen aktuellen Test hinsichtlich VSR vs. (DL)DSR? Finde nur die alten VSR vs. DSR Vergleiche.

Badesalz

2022-10-20, 13:11:34

Wieviel schneller die RX 7900XT dort wäre -Durch welche Infos hast du das jetzt herbeifantasiert, daß die AMD da um irgendwas schneller sein müsste als die 4090?

Ich weiß auch nicht warum du keinen 24k Monitor hast. Die allgemeine Bewunderung wäre die gesichert (oder geht es grad um was anderes?)

@Exxtreme
:uclap:

mboeller

2022-10-20, 13:18:28

Deshalb sage ich ja, die müssten um Faktor 4 schneller werden um in Schlagreichweite zu kommen. :)

echt? Also selbst eine RTX4080 ist für dich für RT untauglich?

OgrEGT

2022-10-20, 13:18:50

Erinnert irgendwie an die Tesselation Diskussion... auch da gibt es einen visuellen Sweetspot der wenn überschritten nur horrend Leistung kostet aber keinen visuellen Mehrwert bringt...

Raff

2022-10-20, 13:22:05

Diesen Punkt gibt es mit allem. Gut, wenn die Hardware nicht den auf Kante genähten Minimalisten-Ansatz bietet, sondern dafür gerüstet ist. Dafür kaufen wir High-End - oder nicht?

Deshalb sage ich ja, die müssten um Faktor 4 schneller werden um in Schlagreichweite zu kommen. :)

+1. Nein, +2! :D

In diesem Fall hättet ihr auch die RX 6900XT und 3090TI im Test rauslassen können, denn gut spielbar ist damit vieles dann auch nicht. Es muss ja nicht nur stur 4k getestet werden. 1440p würden hier auch ganz gut passen. Es geht mir darum zu zeigen, dass RT-Skalierung sich nicht einfach 1:1 von den schnellsten GPUs auf das gesamte Portfolio übertragen lässt. Egal... sieht man ja schon bei CB ganz gut.

Ich bin, mal wieder, nicht sicher, ob das Kritik um der Kritik willen ist (im 3DCF eine fragwürdige Modeerscheinung), oder ernstgemeint. Wir diskutieren hier über einen Artikel, der den Haupttest um weitere Betrachtungen ergänzt. Haupttest = Standard-Benchmarks, 4 Auflösungen, 20+10 Spiele. Ergänzung: Killer-Benchmarks in Killer-Settings. Ist nicht der erste seine Art.

MfG
Raff

OgrEGT

2022-10-20, 13:25:12

Ich sprach von Sweetspot. Dieser sollte wohl sinnvoll zwischen Minimum und Maximum liegen... also soweit wie es keinen weiteren visuellen Mehrwert mehr bringt...
Ja Highend ist schön aber es disqualifiziert alles was darunter ggf im Sweetspot performt nicht automatisch als unwürdig...

sklave_gottes

2022-10-20, 13:34:29

Deshalb sage ich ja, die müssten um Faktor 4 schneller werden um in Schlagreichweite zu kommen. :)

Ist doch gar nicht so krass, 2-fache RT Leistungssteigerung reicht, der Rest kommt durch die Verbreiterung+ Tak.

fondness

2022-10-20, 13:38:19

Ist doch gar nicht so krass, 2-fache RT Leistungssteigerung reicht, der Rest kommt durch die Verbreiterung+ Tak.

So ist es. Hier wird ja so getan als wäre N21 so schnell wie die 4090 und nur die RT-Leistung das Problem.

Linmoum

2022-10-20, 13:43:11

So ist es. Hier wird ja so getan als wäre N21 so schnell wie die 4090 und nur die RT-Leistung das Problem.Das ist das, was aktuell vermutet wird. Raster irgendwo +-4090 und dafür aber weiterhin bei RT um einiges hinten.

fondness

2022-10-20, 13:45:46

Das ist das, was aktuell vermutet wird. Raster irgendwo +-4090 und dafür aber weiterhin bei RT um einiges hinten.

Ich rede von N21 nicht N31. Die Aussage es benötigt 4x RT-Leistung ist widersprüchlich weil Chips in völlig unterschiedlicher Leistungsklasse verglichen werden. Ergo selbst wenn sich nichts an der RT-Implementierung bei AMD ändern würde, wäre N31 natürlich schon deutlich schneller auch bei RT da einfach die Grundleistung schon wesentlich höher ist.

Linmoum

2022-10-20, 13:49:13

Wo vergleicht man denn unterschiedliche Leistungsklassen? N21 ist nur die Basis, von der aus man den Zuwachs mit N31 annimmt. Die Vergleichbarkeit bezieht sich dann ja trotzdem beim Endresultat auf N31 vs. AD102.

why_me

2022-10-20, 13:59:54

Das ist das, was aktuell vermutet wird. Raster irgendwo +-4090 und dafür aber weiterhin bei RT um einiges hinten.

Sagt wer? Und wieviel ist "einiges"?
Aktuelle Gerüchte sagen doch Raster 2x zu N21, RT mehr als 2x, wieviel das am Ende wird? Bei dir klingt es so als ob nichtmal die 2x ankommen würden...

Linmoum

2022-10-20, 14:12:05

Es klingt bei mir eher so, als wäre es weniger als Faktor 3x. ;)

Wie gesagt, ich nehme als Ausgangspunkt nicht sowas wie Far Cry 6, was anspruchslos ist und überall läuft. Sondern anspruchsvolles, was mit RDNA2 einfach richtig scheiße läuft. Das sind die Spiele und Situationen, wo es darauf ankommt.

mboeller

2022-10-20, 14:15:36

Die Vergleichbarkeit bezieht sich dann ja trotzdem beim Endresultat auf N31 vs. AD102.

warum nicht AD103?
Wenn AMD für die N31-Karten in etwa den Preis für eine RTX4080 verlangen wird (big IF!) dann darf man die N31-Karten doch auch mit RTX 4080 vergleichen und nicht mit RTX 4090.

Und alleine von den Specs und den Charts von Nvidia ist ja klar, dass die RTX 4080 nur so 2/3 der RT-Leistung der RTX4090 haben wird. Also nur so die 2,6fache Leistung einer N21.

Ihr tut aber alle so, als ob alles <RTX4090 plötzlich für RT untauglich ist

why_me

2022-10-20, 14:33:22

dargo

2022-10-20, 14:53:17

Ich bin, mal wieder, nicht sicher, ob das Kritik um der Kritik willen ist (im 3DCF eine fragwürdige Modeerscheinung), oder ernstgemeint.
Keine Kritik, nur ein Hinweis. Man sieht ja schon wieder vorzüglich zu welchen Schlussfolgerungen solche Benchmarks führen. Zuerst werden sich Rosinen rausgepickt wo Ampere doppelt so schnell wie RDNA2 mit RT dasteht als hätte jedes Game Lederjacken-RT-Settings. Als weiteres wird dieser Bullshit dann auf das gesamte Portfolio übertragen als wenn bsw. eine 3070 auch doppelt so schnell wäre wie eine 6800 nur um ein Beispiel zu nennen. Ich hoffe du kannst mir folgen.

Wo vergleicht man denn unterschiedliche Leistungsklassen? N21 ist nur die Basis, von der aus man den Zuwachs mit N31 annimmt. Die Vergleichbarkeit bezieht sich dann ja trotzdem beim Endresultat auf N31 vs. AD102.
Erstmal sollte man die Füße stillhalten und schauen ob AMD überhaupt gewillt ist 1599$ für eine Referenz N31 abzurufen (Customs legen da noch einiges drauf). Ist es so schwer die paar Tage noch abzuwarten? :rolleyes: Vor allem was juckt dich großartig N31 wenn du dir schon die 4090 zugelegt hast? Oder brauchst du unbedingt eine Bestätigung von uns... hast du fein gemacht? :comfort2:

warum nicht AD103?
Wenn AMD für die N31-Karten in etwa den Preis für eine RTX4080 verlangen wird (big IF!) dann darf man die N31-Karten doch auch mit RTX 4080 vergleichen und nicht mit RTX 4090.

Und alleine von den Specs und den Charts von Nvidia ist ja klar, dass die RTX 4080 nur so 2/3 der RT-Leistung der RTX4090 haben wird. Also nur so die 2,6fache Leistung einer N21.

Ihr tut aber alle so, als ob alles <RTX4090 plötzlich für RT untauglich ist
Richtig... und ich gehe da noch weiter. Wenn N31 bei Raster die 4090 erreicht/leicht schlägt oder leicht drunter bleibt, dafür bei RT in etwa bei AD103 rauskommt warum sollte AMD dann nicht einfach einen Preis verlangen der zwischen AD103 und AD102 Salvage liegt? Vor allem auch wenn N31 dann beim Verbrauch unter AD102 Salvage rauskommen sollte?

Exxtreme

2022-10-20, 15:03:08

echt? Also selbst eine RTX4080 ist für dich für RT untauglich?

Das habe ich nicht geschrieben. :)

Erinnert irgendwie an die Tesselation Diskussion... auch da gibt es einen visuellen Sweetspot der wenn überschritten nur horrend Leistung kostet aber keinen visuellen Mehrwert bringt...

Nur ist man bisher weeeeeeit weg vom Sweetspot entfernt. RTX 4090 mal 5 was RT-Leistung angeht und schon kommt man wohl in die Nähe. RT ist derzeit in einem Stadium, welches man als "erträglich" bezeichnen kann. Bilineare Texturfilterung quasi. Da muss man aber immer so Sachen wie einen Denoiser draufwerfen um das Aliasing des RT unscharf zu machen etc.

Virtual

2022-10-20, 15:15:11

Das habe ich nicht geschrieben. :)

Nur ist man bisher weeeeeeit weg vom Sweetspot entfernt. RTX 4090 mal 5 was RT-Leistung angeht und schon kommt man wohl in die Nähe. RT ist derzeit in einem Stadium, welches man als "erträglich" bezeichnen kann. Bilineare Texturfilterung quasi. Da muss man aber immer so Sachen wie einen Denoiser draufwerfen um das Aliasing des RT unscharf zu machen etc.
Wenn doooooort wirklich der einzig wahre Sweetspot liegen soll, dann wäre eine 4090 in Näherung genauso weeeeeeit weg, wie die noch unbekannte RT-Leistung von N31.

Iscaran

2022-10-20, 15:34:53

Deshalb sage ich ja, die müssten um Faktor 4 schneller werden um in Schlagreichweite zu kommen. :)

Die 4090 ist in den Benches ca 3 - 4x schneller als die 6900 XT.

Daher, seh ich nicht ganz so schwarz. Wenn AMD RT x3 auf die 6900XT packen kann, wäre man dann vielleicht noch ca 25-30% langsamer als die 4090 und wenn man DANN noch in Raster sogar schneller ist!

Kein Beinbruch - da RT ja immer noch nicht mal Ansatzweise Massenfähig.

RDNA4 wird dann nochmal RT draufsetzen, evtl. die erste RT-designete RTNA Karte sein.

Exxtreme

2022-10-20, 15:37:34

Wenn doooooort wirklich der einzig wahre Sweetspot liegen soll, dann wäre eine 4090 in Näherung genauso weeeeeeit weg, wie die noch unbekannte RT-Leistung von N31.

Das habe ich auch nicht geschrieben, dass da der einzig wahre Sweetspot liegt. ;) Es ist aber so, dass wenn man so Sachen wie Denoiser nutzen muss weil es sonst schrottig aussieht dann ist man noch sehr weit vom Sweetspot entfernt.

Rolsch

2022-10-20, 15:41:18

Was haben nur alle mit dem blöden Raytracing. Für die hohen Auflösungen und VR ist doch Rasterleistung und DLSS/FSR viel entscheidender.

2022-10-20, 16:28:40

RT ist derzeit in einem Stadium, welches man als "erträglich" bezeichnen kann. Bilineare Texturfilterung quasi. Ich würde es mit vielleicht erster 3D Spielehardware vergleichen. Wir sind gerade über Software RT hinweg, wie damals über Software Rasterizer. Es ist nicht wirklich ausreichend schnell, aber eine Vorschau was in Zukunft möglich sein wird.
RT hat aber ganz andere Probleme. Rasterisierung in Hardware ging super gut, weil alles sehr kohärent war/ist. RT-Leistung braucht man, abseits von Gimmicks, wenn Strahlen ziemlich zufällig durch die Welt prallen, da ist man schnell Speicherlatenzlimitiert.
Aber RT skaliert auch nicht linear, z.B. um bei Path Tracing das Rauschen zu halbieren, werden 4 mal soviel Ray benötigt. Daher wird es noch länger dauern bis wir an einem Punkt sind wo RT immer die beste Wahl ist um das opische Ziel zu erreichen

Exxtreme

2022-10-20, 16:39:36

Was haben nur alle mit dem blöden Raytracing. Für die hohen Auflösungen und VR ist doch Rasterleistung und DLSS/FSR viel entscheidender.
Richtig. Andererseits, wenn man sich anschaut in welcher Auflösung die meisten Spieler spielen dann ist eine Erhöhung der RZ-Leistung eine Optimierung für 5% der Kundschaft. Der Rest hat kaum noch was davon weil er solche Auflösungen nicht fährt wo das ein Flaschenhals sein wird.

dildo4u

2022-10-20, 16:44:56

AMD Stream für 3.11 angekündigt.

https://ir.amd.com/news-events/press-releases/detail/1096/amd-to-host-livestream-event-to-unveil-amd-rdna-3-graphics

Badesalz

2022-10-20, 18:13:32

Dafür kaufen wir High-End - oder nicht?Geben die letzten Umfragen, selbst auf 3DC, das "wir" überhaupt so flockig her?
Übrigens hast du von deiner 4090 explizit noch garnichts berichtet. Welche ist es denn geworden? Welcher Laden?

Richtig. Andererseits, wenn man sich anschaut in welcher Auflösung die meisten Spieler spielen dann ist eine Erhöhung der RZ-Leistung eine Optimierung für 5% der Kundschaft. Der Rest hat kaum noch was davon weil er solche Auflösungen nicht fährt wo das ein Flaschenhals sein wird.Was denn jetzt? Was ist nun der nächste geile Shit? VR oder RT? :rolleyes: Also Alyx hab ich mal 2h gezockt. Irgendwie hatte ich persönlich mehr davon als jemals von RT on/off. Bisher, natürlich. Bisher wird VR aber halt von dem gleichen eingeschränkt wie RT. Von der Grakaleistung.

Die ersten Jodelarien zu VR mit der 4090 sind ja auch schon gelaufen. Zurecht. Ohne Frage goil. Aber hier "5%" wegen RT, hier "5%" wegen VR... Irgendwie baut man heutzutage neue GPUs wohl nur noch für 10% der Spieler oder wie?

Hierdrauf nochmal kurz
wenn man sich anschaut in welcher Auflösung die meisten Spieler spielenDu hast mit Normalos vielleicht weniger zu tun. Ich schon. Das hat nichts mit ausreichend zu tun. Der Wunsch mal in 1440 mit 120 auf max (kein Jensen-Ultra-Shit) zu spielen und dabei auch nicht immer mal in 1%Low blöd abzurutschen, existiert. Das gibt eine 2080S noch lange nicht her und eine 3060Ti auch nicht.

Es gibt keinen einzigen realen Grund Raster einzufrieren. Auch auf dem 4090 Level nicht, wenn man die Fakemassungen (DLSS3) außen vor lässt. Überhaupt keinen, zu einem Zeitpunkt in dem RT grad so hinbekommen hat seine Kinderschuhe anzuziehen.

dargo

2022-10-20, 18:40:44

Richtig. Andererseits, wenn man sich anschaut in welcher Auflösung die meisten Spieler spielen dann ist eine Erhöhung der RZ-Leistung eine Optimierung für 5% der Kundschaft.
Wofür hat Nvidia dann bei Ada die RZ-Leistung erhöht wenn die eh 95% der Spieler nicht interessiert? *hust*

Cyberfries

2022-10-20, 21:56:18

Takt entsteht nicht aus dem Nichts. Diesen erreicht man in der Regel nur dadurch, dass man mehr Transistoren investiert.
Ada ... 40-50% mehr Takt aber dafür musste Nvidia um die 60% mehr Transistoren pro SM investieren

Der Vergleich hinkt aufgrund des Caches gewaltig. N22 hat 67% mehr Transistoren als N10,
bei gleich vielen CUs und kleinerem SI. Und 55% mehr als N23, bei nur 25% mehr CUs aber 200% mehr Cache.

https://twitter.com/greymon55/status/1439486356548325387?s=20&t=p5xOJ6HJW8Fe59uZpHeXcw

Einerseits: Danke, konnte ich mich nicht mehr dran erinnern.
Andererseits: Eine über ein Jahr alte Einschätzung, wirklich? Damals ging man noch von 5120 Shadern aus....

Die 4 Shader Engines alleine brauchen 230mm²

+30mm² für den "Mittelteil" + 50mm² VCN/PCIe etc. macht 310mm² für das GCD. Alles andere MCD oder raus.

Ich meine nicht theoretische TFlops. Das ist wieder eine andere Baustelle.

Wieso theoretisch? Die sind da... Wieviel davon in Spielen ankommt ist eine andere Frage.

Du brauchst ca. 2.5 - 3x so viele Shader der gleichen Architektur und Takt, damit du in etwa auf 2x 4K gaming fps kommst.

Es geht auch effizienter: 6600xt vs 6900xt 217% TFlops 197% Leistung unter WQHD laut CB.
Dass GA102 nicht besonders effizient mit seiner Rohleistung umgeht ist ein ganz anderes Thema.

Inwiefern ist Nvidia auf die Nase gefallen. Aus Performance/Transistor Sicht sind beide Lösungen gleich effizient.

Seit wann ist die Anzahl der Transistoren eine interessante Metrik? Aufwand (Chipgröße, Fertigung)
und Ertrag (Leistung und Effizienz) zählen. Nicht Transistoren zum erreichen dieser Werte.

TheGood

2022-10-20, 22:03:33

Geben die letzten Umfragen, selbst auf 3DC, das "wir" überhaupt so flockig her?
Übrigens hast du von deiner 4090 explizit noch garnichts berichtet. Welche ist es denn geworden? Welcher Laden?

Was denn jetzt? Was ist nun der nächste geile Shit? VR oder RT? :rolleyes: Also Alyx hab ich mal 2h gezockt. Irgendwie hatte ich persönlich mehr davon als jemals von RT on/off. Bisher, natürlich. Bisher wird VR aber halt von dem gleichen eingeschränkt wie RT. Von der Grakaleistung.

Die ersten Jodelarien zu VR mit der 4090 sind ja auch schon gelaufen. Zurecht. Ohne Frage goil. Aber hier "5%" wegen RT, hier "5%" wegen VR... Irgendwie baut man heutzutage neue GPUs wohl nur noch für 10% der Spieler oder wie?

Hierdrauf nochmal kurz
Du hast mit Normalos vielleicht weniger zu tun. Ich schon. Das hat nichts mit ausreichend zu tun. Der Wunsch mal in 1440 mit 120 auf max (kein Jensen-Ultra-Shit) zu spielen und dabei auch nicht immer mal in 1%Low blöd abzurutschen, existiert. Das gibt eine 2080S noch lange nicht her und eine 3060Ti auch nicht.

Es gibt keinen einzigen realen Grund Raster einzufrieren. Auch auf dem 4090 Level nicht, wenn man die Fakemassungen (DLSS3) außen vor lässt. Überhaupt keinen, zu einem Zeitpunkt in dem RT grad so hinbekommen hat seine Kinderschuhe anzuziehen.

Der normalo spielt mit FHD der Realist mit WQHD und alle anderen versuchen sich irgendwie in 4K.
RT wird vor allem für die globale Beleuchtung richtig viel Entlastung bringen und merklich 'Vorteile für alle. Für mich ist Raytracing im Bereich der globalen Beleuchtung, der viel bessere Einsatz als für Spiegelungen usw. ingesamt bringt das für alle beteiligten wahrscheinlich auch viel mehr.
ABer so hat halt jeder seine eigene Einschätzung zu dem Thema.

Wenn man noch die ersten Infos zu Lumen liest, dann nutzt dies Raytracing, aber als default Software Raytracing. Natprlich wird auch Hardware Raytracing unterstützt (https://docs.unrealengine.com/5.0/en-US/lumen-technical-details-in-unreal-engine/)
Schön wäre wenn man die Unterschiede hier in der Engine mal rausarbeiten könnte.

iamthebear

2022-10-20, 23:13:04

Der Vergleich hinkt aufgrund des Caches gewaltig. N22 hat 67% mehr Transistoren als N10,
bei gleich vielen CUs und kleinerem SI. Und 55% mehr als N23, bei nur 25% mehr CUs aber 200% mehr Cache.

Von deinen Prozentwerten bekomme ich Kopfschmerzen.

1MB SRAM hat 48M Transistoren d.h. 4.6Mrd Transistoren von N22 gingen für die 96MB SRAM drauf. Wenn man die raus rechnet sind es 12.6Mrd für N22 vs. 10.3Mrd für N10 also 23% mehr. Takt waren ca. 30% mehr, wobei aber rund 10% von N7P vs. N7 kommen sollen. Am Ende kommen wir also bei +/- 0 an als was wolltest du damit sagen?

Bei AD102 sind es 4.3Mrd Transistoren durch den Cache mehr. Ich war so dreist diese bei der Überschlagsrechnung als Beispiel bei einem Gesamtbudget von 76.4Mrd zu unterschlagen.

Einerseits: Danke, konnte ich mich nicht mehr dran erinnern.
Andererseits: Eine über ein Jahr alte Einschätzung, wirklich? Damals ging man noch von 5120 Shadern aus....

Und von 400mm² Die size. Und von Dual GCD für N31/32. Da wurde schon so viel Schwachsinn verbreitet. Die 5120 Shader hat er ja glaube ich schon widerrufen aber bei den alten N33 Performanceangaben kann ich mich nicht daran erinnern.

+30mm² für den "Mittelteil" + 50mm² VCN/PCIe etc. macht 310mm² für das GCD. Alles andere MCD oder raus.

Und die Daten fliegen dann von alleine über den Chip? Irgendwie müssen die MCDs ja auch angebunden werden.

Wieso theoretisch? Die sind da... Wieviel davon in Spielen ankommt ist eine andere Frage.

Das sind 3 verschiedene Dinge:
a) Die Peak TFlops, die nur bei bestimmten syntehtischen Code erreicht wird (bei aktuellen GPUs ist das z.B. fused multiply add). Hier werden dafür nur FP32 gezählt aber z.B. INT komplett ignoriert.
b) Die durchschnittlichen TFlop/s, die die GPU bei realem Shadercode im Durchschnitt erreicht. Das kann man nicht messen, sondern nur durch Vergleiche hinschätzen. Da fließt z.B. auch mit ein wie sehr die Speicherbandbreite limitiert.
c) Was dann als Gaming fps davon ankommt ist dann wieder ein anderes Thema. Dies hängt davon davon ab wie viel externe Faktoren wie doe CPU bremsen.

Dass GA102 nicht besonders effizient mit seiner Rohleistung umgeht ist ein ganz anderes Thema.

GA102 hatte weniger TMUs/ROPs pro Shader. Dadurch skaliert die 3080 vs. 3070 nicht so toll. Das macht ca. 10% aus.
GA102 vs. GA106 ist aber wieder fast gleich. Deshalb habe ich auch 3090 Ti vs. 3060 als Beispiel gebracht.

Es geht auch effizienter: 6600xt vs 6900xt 217% TFlops 197% Leistung unter WQHD laut CB.

Die 6600XT ist etwas schwächer, da sie nur 1/4 des IF$ hat und somit weniger effektive Speicherbandbreite/TFlop.
Wenn wir die 6700 XT vs. 6900 XT als Beispiel nehmen:
74.4% mehr TFlop für 53% mehr fps entspricht 76% Skalierung mit der GPU (1.744^0.76=1.53)

Umgelegt auf RDNA3:
2.5^0.76=2
Also 2.5x so viel durchschnittliche TFlop für 2x fps
Da das Ganze dann aber selbst in 4K schon stärker GPU limitiert wird, denke ich dass die Skalierung schlechter ist. Deshalb habe ich 2.5-3x durchschnittliche TFlop geschrieben.

Seit wann ist die Anzahl der Transistoren eine interessante Metrik? Aufwand (Chipgröße, Fertigung)
und Ertrag (Leistung und Effizienz) zählen. Nicht Transistoren zum erreichen dieser Werte.

Die Fertigung und somit indirekt die Transistordichte ist eine gegebene Größe. Deshalb kann man für reine Architekturfragen wie das "verdoppeln" der FP32 Einheiten anhand des Transistoreinsatzes gut vergleichen.
Wenn Die1 mehr Performance/Transistor liefert als Die2, dann bedeutet dies in der Regel auch, dass Die1 mehr Performance/Fläche haben wird als Die2 wenn beide auf demselben Node gefertigt werden zumindest solange die Anteile von SRAM und Logic nicht stark verändert werden.

Beispiel:
Eine 2080 Ti mit ähnlicher Transistoranzahl wie eine 3070 wird wenn sie auf 8nm geshrinkt wird auch eine ähnliche Fläche haben.

Exxtreme

2022-10-20, 23:23:09

Was denn jetzt? Was ist nun der nächste geile Shit? VR oder RT? :rolleyes: Also Alyx hab ich mal 2h gezockt. Irgendwie hatte ich persönlich mehr davon als jemals von RT on/off. Bisher, natürlich. Bisher wird VR aber halt von dem gleichen eingeschränkt wie RT. Von der Grakaleistung.

Mag ja sein, dass dieses eine Spiel toll war.

Die ersten Jodelarien zu VR mit der 4090 sind ja auch schon gelaufen. Zurecht. Ohne Frage goil. Aber hier "5%" wegen RT, hier "5%" wegen VR... Irgendwie baut man heutzutage neue GPUs wohl nur noch für 10% der Spieler oder wie?

Weil RT derzeit das neue heisse Ding ist und es sowohl von Nvidia wie auch AMD wie auch Intel gepusht wird. VR eher nicht so.

Hierdrauf nochmal kurz
Du hast mit Normalos vielleicht weniger zu tun. Ich schon. Das hat nichts mit ausreichend zu tun. Der Wunsch mal in 1440 mit 120 auf max (kein Jensen-Ultra-Shit) zu spielen und dabei auch nicht immer mal in 1%Low blöd abzurutschen, existiert. Das gibt eine 2080S noch lange nicht her und eine 3060Ti auch nicht.

Ich brauche nur hier reinzuschauen:
https://store.steampowered.com/hwsurvey/Steam-Hardware-Software-Survey-Welcome-to-Steam

Und da habe ich weiss auf schwarz was Normalos spielen. Und für diese Leute ist mehr RZ purer Overkill ohne jeglichen Nutzen.

Es gibt keinen einzigen realen Grund Raster einzufrieren. Auch auf dem 4090 Level nicht, wenn man die Fakemassungen (DLSS3) außen vor lässt. Überhaupt keinen, zu einem Zeitpunkt in dem RT grad so hinbekommen hat seine Kinderschuhe anzuziehen.

Ich sage nicht, dass man das einfrieren soll. Aber es bringts nicht ein Auto zu bringen, welches 1000 km/h schnell fährt. Kann man nirgendwo ausfahren also ist diese theoretische Geschwindigkeit in der Praxis nicht nutzbar.

GerryB

2022-10-20, 23:35:14

Durch ein Fps-Limit werden die minFps net groß schlechter und die schnellen Grakas chillen dann genial.
Trotzdem behält man den guten Inputlag.

Die Graka klein kriegen per Downsampling ist bei Bedarf ja immer noch möglich, in WQHD@5k.
Ob man dann noch 4k@6k könnte, bleibt wohl den Enthusiasten vorbehalten.
(wie dann die Cachetrefferrate ist, ... bleibt abzuwarten)

Nightspider

2022-10-21, 02:27:01

Der Normalo wird mittelfristig auch zu Monitoren mit höherer Auflösung greifen.

Auch nicht zuletzt deshalb weil immer mehr Details im Pixelmatsch versinken würden.

Wenn gute 4K Monitore nur noch di Hälfte Kosten würden, hätten schon viel mehr Normalos 4K.

Aber gerade 4K mit mehr als 60Hz lassen sich die Hersteller noch vergolden.

vinacis_vivids

2022-10-21, 04:41:31

Das ist recht interessant für RDNA2 WGP und beantwortet mitunter die Frage wieso diese uArch soviel fps pro Tflop/s fp32 auf die Straße bringt:

https://abload.de/img/arc_1workgroup_bandwifhee9.png

RDNA2 WGP = (1 DCU = 2 CU) 128SP + 4 TMU + Cachestruktur.
Derzeit sieht es so aus, als wäre der Zugriff auf das Speichersystem nur strukturiert bis zum IF$ möglich und sich dort alles vermischt inkl. VRAM. Er herrscht also Datensalat ab IF$ Level.

Bei Ray-Tracing WGP werden modifizierte TMUs für ray/box intersection verwendet. Die sind zwar sehr schnell, aber die TMUs sind dann halt weg (für RT belegt) und können deswegen nicht mehr für fp16-Raster (Texturing) genutzt werden.

RDNA3 WGP = 256SP + 8 TMU ? + Cachestruktur.
Bei gleichzeitiger Verkleinerung des N31 96MB IF$ ist stark zu vermuten, dass ein WGP Zugriff auf das segmentierte IF$ hat um vor Zugriffen anderer WGPs zu schützen. Jedes WGP hat sozusagen ein eigenes ultraschnelles IF$ - Segment. Das erlaubt extrem hohe Taktraten und extrem hohen energiesparenden Durchsatz an Daten. Deutlich höher als RDNA 2 WGP. Das ist der 2nd gen IF$.

Bei Ray-Tracing WGP ist zu vermuten, dass für ray/box intersection nun nicht mehr die fp16-Raster (Texturing) "verschwendet" werden müssen, sondern stattdessen deutlich schnellere int8 / int4 Berechnungen direkt segmentiert in den IF$.

Bei RDNA3 gehe ich wieder verstärkt von der N31=192MB/N32=128MB/N33=64MB IF$ Version aus, eben weil RT-Geschwindigkeit stark davon profitiert (neben dem hohen Takt).
Insbesondere im mobilen Bereich sind für N33 die 64MB IF$ dringend nötig um die Akkulaufzeit deutlich zu verlängern bei gleichzeitiger Erhöhung der Geschwindigkeit (des Taktes).
Die von Angstronomics verbreiteten N33 32MB IF$ rücken daher in weiter ferne, insbesondere mit Blick auf RT. Beim Fokus auf Raster würden die 32MB IF$ vollkommen reichen.

Die spekulierte Verdopplung oder Dreifache RT-Leistung spricht eher für einen 64MB IF$ N33. Sie kann somit doch N21 128MB IF$ (fast) ersetzen und ist mit 203mm² viel viel günstiger als 521mm² Bei N21.

DrFreaK666

2022-10-21, 06:25:10

Wer spricht von einer dreifachen RT-Leistung?

aceCrasher

2022-10-21, 08:57:09

Der normalo spielt mit FHD der Realist mit WQHD und alle anderen versuchen sich irgendwie in 4K.
Und der geneigte 3DC Member natürlich mit 5K/8K Downsampling ;)

mksn7

2022-10-21, 09:20:41

RDNA3 WGP = 256SP + 8 TMU ? + Cachestruktur.
Bei gleichzeitiger Verkleinerung des N31 96MB IF$ ist stark zu vermuten, dass ein WGP Zugriff auf das segmentierte IF$ hat um vor Zugriffen anderer WGPs zu schützen. Jedes WGP hat sozusagen ein eigenes ultraschnelles IF$ - Segment. Das erlaubt extrem hohe Taktraten und extrem hohen energiesparenden Durchsatz an Daten. Deutlich höher als RDNA 2 WGP. Das ist der 2nd gen IF$.

Gegen einen segmentieren IF$ spricht, dass dann Daten masiv dupliziert werden, das reduziert die effektive Größe! Auf den BVH greiften ja alle threads zu (zumindest auf den top level), den müsste jeweils in jedem segment extra gespeichert werden. Einen cache shared zu machen ist eher mehr Aufwand als ein private cache, aber man macht es oft trotzdem um das sharing zu ermöglichen.

Eine bessere Steuerung der cache Inhalte ist aber durchaus denkbar.

Badesalz

2022-10-21, 09:36:16

RT wird vor allem für die globale Beleuchtung richtig viel Entlastung bringen und merklich 'Vorteile für alle.Davon rede ich seit RT20 ;)
Es gibt übrigens schon seit 10 Jahren Abhandlungen über die s.g. hybride 3D-Engines.

@Exxtreme
RT wird nicht gepusht, sondern schlicht ausgebaut und aufgebaut bis es sinnvoll nutzbar ist. (s.o.) ohne daß die FPS zusammenfallen.
Eine, mir gut bekannte, Steam-Statistik ist keine Antwort auf die Feststellung, daß der Wunsch nach mehr sehr wohl exisitert. Das sind STABILE 120Hz/FPS in 1440. Bezahlbar. Was aber u.a. auch eine Frage nach brauchbaren und bezahlbaren Monitoren stellt.

Ich sage nicht, dass man das einfrieren soll. Aber es bringts nicht ein Auto zu bringen, welches 1000 km/h schnell fährt. Kann man nirgendwo ausfahren also ist diese theoretische Geschwindigkeit in der Praxis nicht nutzbar.Das stimmt schon. Steam ist aktuell bei 110kmh. Wir können das Thema gerne wieder aufwärmen, wenn da die 1660S-(Preis)Klasse 200kmh überschreitet.

robbitop

2022-10-21, 09:36:20

Das ist recht interessant für RDNA2 WGP und beantwortet mitunter die Frage wieso diese uArch soviel fps pro Tflop/s fp32 auf die Straße bringt:

https://abload.de/img/arc_1workgroup_bandwifhee9.png

Das liegt nicht an der Latenz sondern primär an Dingen wie Register und Schedulerresources und Kontrolllogik pro SM/CU.
Ampere's SMs haben verglichen mit Pascals SM nur 50% der Schedulerresources weshalb es bei Ampere schwieriger ist, die FP32 Leistung auch auf die Straße zu bringen.

Segmentierung und Abgrenzen von Caches hilft zwar bei der Bandbreite und der Latenz - aber nicht bei der Hitrate. Latenzlimitiert sind GPUs praktisch nie, da genug threads in-flight sind und man ja auch noch niedrigere, schnellere Cache Level hat (bei RDNA2 sind es L0, L1 und L2 die du hier zu vergessen scheinst).
Der IF$ ist dafür da, die Nachfrage zum externen VRAM zu senken. Also muss die Hitrate möglichst hoch sein. Schnell genug ist der IF$ bereits.
Wenn er kleiner werden kann in RDNA3 ohne Hitrate einzubüßen, heißt das dass andere Dinge passiert sein müssen:

- bessere branch prediction, besseres Prefetching
- größere oder zusätzliche Cache Levels unterhalb des IF$ Caches (aktuel L0-L2) um den IF$ zu entlasten

Aber mehr Bandbreite und bessere Latenz hilft der Hitrate des IF Caches als LLC nicht. Das Konzept von Cache Levels ist ja genau dafür da. Kleine Caches sind schnell aber klein und das Level darüber wird dann immer größer und dafür langsamer. Das größte Level aber kleiner zu machen macht keinen Sinn.

basix

2022-10-21, 09:57:38

Eine bessere Steuerung der cache Inhalte ist aber durchaus denkbar.

Sowas wurde bereits für RDNA3 angedeutet. Ist immerhin auch die 2. Generation IF$, da hat AMD sicher dazugelernt.

Edgecrusher86

2022-10-21, 10:01:39

Und der geneigte 3DC Member natürlich mit 5K/8K Downsampling ;)

...oder auch höher, wenn flüssig möglich. :biggrin:

Sunrise

2022-10-21, 10:29:53

Meine Güte, kann denn nicht schon November sein? Ich will endlich mal paar handfeste Daten und Infos…

mksn7

2022-10-21, 10:50:27

Das liegt nicht an der Latenz sondern primär an Dingen wie Register und Schedulerresources und Kontrolllogik pro SM/CU.

Tatsächlich sind Latenzen in diesem Test sehr wichtig, weil mit sehr wenigen threads getestet wird. Aus dem Text von dem Test (https://chipsandcheese.com/2022/10/20/microbenchmarking-intels-arc-a770/):

"Each kernel invocation in this test uses float4 vectors, this test has an explicit parallelism factor of 256 * 4 = 1024 FP32 items"

Mit Little's Law, und einer Speicherlatenz von 400 ns kann man ausrechnen:

1s / 400ns * 1024 FP32 * 4 B/FP32 * 2 (load and store) = ~20GB/s.

Eventuell überlappen bei Arc die loads und stores nicht, deswegen kommt nur knapp die Hälfte raus. Bei doppelt soviel threads ist Arc deswegen auch doppelt so schnell, eindeutiger Hinweis auf Latenzen.

Der NVIDIA compiler unrollt die Schleife und macht die loads von mehreren äußeren Iteration gleichzeitig, damit kann die GPU besser Latenzen verstecken und schafft einen höheren Wert.

Der AMD compiler macht das laut dem Author nicht, da bin ich mir nicht sicher wie der hohe Wert so klappt. Ich hab den Code aber auch nicht gesehen, eventuell ist die Parallelität auch noch höher als das was ich hier angenommen habe. Auf jeden Fall ist der Compiler nicht auf der Höhe von dem was NVIDIA kann, und eventuell ist ARC bei memory ILP nicht so stark.

- bessere branch prediction, besseres Prefetching

Nachdem es das beides auf GPUs bisher gar nicht gibt, kann man "besser" nicht sagen. Es würde überhaupt erst neu eingeführt.

mboeller

2022-10-21, 11:03:00

Nachdem es das beides auf GPUs bisher gar nicht gibt, kann man "besser" nicht sagen. Es würde überhaupt erst neu eingeführt.

Würde es Sinn machen so was bei einer GPU einzuführen?
soweit ich das verstehe lasten UE5 mit den Micropolygonen und RT die GPU nicht mehr richtig aus, da immer nur ein (kleiner) Teil der parallelen Ressourcen für ein Polygon oder einen "Lichtstrahl" bei RT genutzt werden können.

robbitop

2022-10-21, 11:16:12

Tatsächlich sind Latenzen in diesem Test sehr wichtig, weil mit sehr wenigen threads getestet wird. Aus dem Text von dem Test (https://chipsandcheese.com/2022/10/20/microbenchmarking-intels-arc-a770/):

"Each kernel invocation in this test uses float4 vectors, this test has an explicit parallelism factor of 256 * 4 = 1024 FP32 items"

Mit Little's Law, und einer Speicherlatenz von 400 ns kann man ausrechnen:

1s / 400ns * 1024 FP32 * 4 B/FP32 * 2 (load and store) = ~20GB/s.

Eventuell überlappen bei Arc die loads und stores nicht, deswegen kommt nur knapp die Hälfte raus. Bei doppelt soviel threads ist Arc deswegen auch doppelt so schnell, eindeutiger Hinweis auf Latenzen.

Der NVIDIA compiler unrollt die Schleife und macht die loads von mehreren äußeren Iteration gleichzeitig, damit kann die GPU besser Latenzen verstecken und schafft einen höheren Wert.

Der AMD compiler macht das laut dem Author nicht, da bin ich mir nicht sicher wie der hohe Wert so klappt. Ich hab den Code aber auch nicht gesehen, eventuell ist die Parallelität auch noch höher als das was ich hier angenommen habe. Auf jeden Fall ist der Compiler nicht auf der Höhe von dem was NVIDIA kann, und eventuell ist ARC bei memory ILP nicht so stark.

Nachdem es das beides auf GPUs bisher gar nicht gibt, kann man "besser" nicht sagen. Es würde überhaupt erst neu eingeführt.
Naja für entsprechende Latenzen gibt es ja die Caches L0-L2. Es wäre merkwürdig anzunehmen, dass AMD und/oder NV das so dimensionieren, dass da großartig was liegen bleibt wegen der Latenz. Das wird schon entsprechend ausbalanciert sein.

Wie man bei Pascal und RDNA sehen kann, kann man sehr gut (auf vergleichbarem Level) die FP32 Leistung auf die Straße bringen und erst bei der Verdopplung der FP32 FPUs pro SM bei Ampere ist man eingeknickt obwohl die Latenzen ggü Pascal mWn nicht schlechter wurden seitens der Caches.

Compiler ist natürlich nochmal ein zusätzliches Thema. Gerade bei GCN war das Spektrum was man auf die Straße bringen konnte enorm. Die Shadercompiler von Sony und MS waren was man von Devs wie Axel (id Tech) gelesen hat deutlich besser als AMDs eigene. Das hat man sich IIRC in der Entwicklung von Doom / Wolfenstein 2 zu Nutze gemacht und aus dem Code vom Compiler einem der Konsolenhersteller (entweder MS oder Sony) gelernt. Damit wurde Vega damals unnormal (im Vergleich zu anderen Spielen) relativ zu Pascal schnell.

Seit RDNA scheint aber die Ausnutzung der FP32 Performance pro FPU wahnsinnig hoch zu sein. Ggf. ja trotz(!) des schlechteren Shadercompilers (ggf. ist die HW recht robust in der Hinsicht?) erreicht man rohleistungsnormiert mehr Leistung als Pascal - eher auf Turing Level.
Ampere und Ada sind in der Hinsicht ja eher deutliche Rückschritte (wobei ich gleich dazu sagen muss, dass das keine relevante Metrik für den Endverbraucher ist und die Entscheidung rohleistungsnormierte Leistung etwas liegen zu lassen und dafür transistor günstig die Rohleistung zu steigern sinnvoll war).

Gipsel

2022-10-21, 14:04:19

RDNA2 WGP = (1 DCU = 2 CU) 128SP + 4 TMU + Cachestruktur.Nein. Es gibt 4 TMUs pro CU, also insgesamt 8 pro WGP (2 CUs).

DrFreaK666

2022-10-21, 15:24:26

...
Eine, mir gut bekannte, Steam-Statistik ist keine Antwort auf die Feststellung, daß der Wunsch nach mehr sehr wohl exisitert. Das sind STABILE 120Hz/FPS in 1440. Bezahlbar...

Ich glaube du überschätzt, was "normale" Menschen wollen. Viele sind froh, wenn sie 60FPS erreichen

vinacis_vivids

2022-10-21, 15:50:44

Neues Futter :eek:
https://twitter.com/HWTraveler/status/1583423605148651520
https://abload.de/img/ffki_aswiaieq4aovc8j.jpg

Linmoum

2022-10-21, 15:54:46

Photoshop ist schon was feines.

basix

2022-10-21, 16:08:14

Nur noch 2 Wochen Wartezeit ;)

DrFreaK666

2022-10-21, 16:10:34

Jup, Videocardz.com weiß davon überhaupt nichts

r3ptil3

2022-10-21, 16:25:27

Photoshop ist schon was feines.

Er schreibt ja auch selber hin dass er damit spekuliert.

Dino-Fossil

2022-10-21, 16:34:06

Eher ein Wunschkonzert. :rolleyes: Naja, der Hype-Zug muss langsam mal Fahrt aufnehmen.

gedi

2022-10-21, 17:24:46

Hm:)

https://twitter.com/harukaze5719/status/1583470969989267456?t=tnGpRhgAj3X_G64OV3F_CA&s=19

Ravenhearth

2022-10-21, 17:37:05

Hm:)

https://twitter.com/harukaze5719/status/1583470969989267456?t=tnGpRhgAj3X_G64OV3F_CA&s=19
Interessant. Ich habe letzte Woche schon irgendwo gelesen, dass sich das Namensschema verschoben hätte. 7900XT für den Salvage, 7950XT für Full und 7950XT3D o.ä. für den Modell mit 3D-Cache. Ich hoffe nur, dass das nicht bedeutet, dass sich die Preise entsprechend mit erhöht haben. Sonst sieht das nachher noch so aus:

RX 7950 XT3D - 6 SEs, 48 WGPs, 12288 Shader, 192MB Cache, 384Bit, 24GB - $1799
RX 7950 XT - 6 SEs, 48 WGPs, 12288 Shader, 96MB Cache, 384Bit, 24GB - $1499
RX 7900 XT - 6 SEs, 42 WGPs, 10752 Shader, 80MB Cache, 320Bit, 20GB - $1199

:freak:

fondness

2022-10-21, 17:49:49

Die Gerüchte werden positiver. Greymon sieht offensichtlich N33 auf 6950XT Level

https://twitter.com/greymon55/status/1583485036179095556?t=7vkImzyfcL_rw36j2Yc9dg&s=19

mr coffee

2022-10-21, 17:56:19

Das steht da nicht. Er sagt Navi Laptop GPU auf 6950xt Level und später verneint er dass damit N33 gemeint ist.

fondness

2022-10-21, 18:00:52

Das steht da nicht. Er sagt Navi Laptop GPU auf 6950xt Level und später verneint er dass damit N33 gemeint ist.

Stimmt, mein Fehler, das stand vorhin noch nicht da. Dachte er meint mit mobile N33. Wobei das x nicht unbedingt ein nein ist

nordic_pegasus

2022-10-21, 18:01:16

Die Gerüchte werden positiver. Greymon sieht offensichtlich N33 auf 6950XT Level

https://twitter.com/greymon55/status/1583485036179095556?t=7vkImzyfcL_rw36j2Yc9dg&s=19

manche "Leaker" schreiben auch extra so kryptisch, damit man hinter alles daraus lesen kann. Ist ja schlimmer als Nostradamus (btw.... wäre eigentlich ein geiler Name für einen Leaker-Account).

vinacis_vivids

2022-10-21, 18:15:29

N33 32MB IF$ ~ N21 128MB IF$

Das muss man sich mal auf der Zunge zergehen lassen :tongue:
Wäre zwar geil, aber das ist absoluter HypeTrain :eek:

N33 64MB IF$ ~ N21 128MB IF$

Halte ich für etwas realistischer.

mboeller

2022-10-21, 18:41:23

Das steht da nicht. Er sagt Navi Laptop GPU auf 6950xt Level und später verneint er dass damit N33 gemeint ist.

N32 soll es auch als Highend mobile GPU geben (wie üblich nur Gerüchte)

dargo

2022-10-21, 18:41:56

Die Gerüchte werden positiver. Greymon sieht offensichtlich N33 auf 6950XT Level

https://twitter.com/greymon55/status/1583485036179095556?t=7vkImzyfcL_rw36j2Yc9dg&s=19
Das macht für mich immer noch keinen Sinn. Wie kann AMD einen N33 auf 6950XT Level mit 8GB bringen? :ucrazy:

vinacis_vivids

2022-10-21, 19:08:40

Ich schätze mal so:
N33 Desktop 8GB ~ 6950XT
N33 Mobile 8GB ~ 6800

Die üppige Speicheraustattung 128MB IF$ + 256bit SI + 16GB VRAM sind bei der 6800er etwas überdimensioniert. Merke ich bei mir, schwimme überall in Bandbreite und es fehlt relativ an Rechenleistung.
Ich kann den Speicher-Cut absolut nachvollziehen.

gedi

2022-10-21, 19:11:41

N32 soll es auch als Highend mobile GPU geben (wie üblich nur Gerüchte)

Gab doch mal eine Tabelle, wo nur N33 als Laptop genannt wurde. Zudem wurde N33 schon immer 69xx Performance angerichtet. Aber die vermutlich sehr niedrige Wattage überrascht mich schon

Berniyh

2022-10-21, 19:22:32

manche "Leaker" schreiben auch extra so kryptisch, damit man hinter alles daraus lesen kann. Ist ja schlimmer als Nostradamus (btw.... wäre eigentlich ein geiler Name für einen Leaker-Account).
Eher nicht, Nostradamus hatte jetzt keine so dolle Quote …

basix

2022-10-21, 19:25:43

Passt doch für die meisten Leaker :D

Das macht für mich immer noch keinen Sinn. Wie kann AMD einen N33 auf 6950XT Level mit 8GB bringen? :ucrazy:

Zwei Möglichkeiten:
- N33 kommt mit 16 GByte, zumindest in einer Variante ;)
- RDNA3 geht viel effizienter mit Speicher um (Treiber, Kompression, HBCC, ...)

vinacis_vivids

2022-10-21, 19:35:24

Leistungsabschätzung des N31XL Salvage.

Name |GPU |WGPs |Shaders |GPU-Takt |Speicherr-Geschw |SI / Bandbreite |IF-Cache |TDP |fp32-Tflops|
7900 XT |N31XL |40 |10.240 |3.0Ghz + |20GB / 20 Gbps |320bit / 800 GB/s |80MB |350W |61,44+|
7950 XT |N31XT |48 |12.288 |3.0Ghz + |24GB / 21 Gbps |384bit / 1,008 GB/s |96MB |400W |73,72+|
7950 XT3D |N31XTX |48 |12.288 |3.3Ghz + |24GB / 21 Gbps |384bit / 1,008 GB/s |192MB |420W |81,10+|

Originalwerte CB AVG Raster 5120 x 2880 fp32
4090 FE – 100 fps – 2,75Ghz – 16.384SPs ~ 90,11 Tflops fp32 – 0,9011 Tflop 32/frame – 432W – 4,32W/fps – 23,14fps pro 100W
3090 Ti – 61,6 fps – 1,95Ghz – 10.752SPs ~ 41,93 Tflops fp32 – 0,6806 Tflop 32/frame – 463W – 7,51W/fps – 13,30fps pro 100W
6900 XT – 50,5 fps – 2,25Ghz – 5120SPs ~ 23,04 Tflops fp32 – 0,4562 Tflop 32/frame – 296W – 5,86W/fps – 17,06fps pro 100W

Annahme:
1. 30% Effizienzverlust durch breitere Shader-Konfiguration bei N31XL ~ 0,5934 Tflop 32/frame
2. Taktrate 3,0 Ghz

Leistungsrechnung:
A = 10240SP x 3,0 x 2 ~ 61,44 Tflop/s fp32
B = Multiplikator 0,5934 Tflop 32/frame

C = A / B = avg 5120 x 2880 fps
C ~ 103,53 fps

Der Salvage N31XL ~ 7900XT ist 3,53 fps schneller als Salvage AD102 = RTX4090 FE.

dargo

2022-10-21, 19:40:28

Zwei Möglichkeiten:
- N33 kommt mit 16 GByte, zumindest in einer Variante ;)
- RDNA3 geht viel effizienter mit Speicher um (Treiber, Kompression, HBCC, ...)
N33 mit Performance @N21 mit nur 8GB wird ein Rohrkrepierer. Es gibt nur zwei Möglichkeiten. Entweder kommt N33 weit unter N21 bei der Performance raus. Oder AMD wird N33 sowohl mit 8GB als auch 16GB anbieten. Dann haben die weniger informierten User dennoch die Arschkarte gezogen wenn sie sich einen 8GB N33 zulegen.

basix

2022-10-21, 19:44:53

Wie gesagt, es gibt Methoden, wo 8GB einfach weiter reichen. Wenn RDNA3 so auf Effizienz getrimmt ist, wieso nicht auch effizienteren Speicherbedarf? ;)

dargo

2022-10-21, 19:47:08

Hör bitte mit diesen Märchen auf. Selbst wenn aus den 8GB auf magische Effizienzweise "9-10GB" werden macht es diese GPU kein Stück besser.

iamthebear

2022-10-21, 19:48:02

Wenn Desktop N31 350W hat, dann wird Desktop N32 in etwa bei 220W liegen.
Üblicherweise kann man die Verlustleistung von Desktopkarten um 1/3 senken und verliert dabei nur ca. 10% Performance (Faustregel U~f bzw. P~f^3). Dann wären wir bei 150W. Das ist in etwa das, was eine 3080 Ti Mobile hat.

Wenn man die Die Size außen vor lässt wäre damit von "4080 16GB" bis "4090 Ti" für N31 alles drin. Auf jeden Fall muss Nvidia schnell Ada in den Mobile Markt bekommen sonst wird es hier knapp.

prinz_valium_2

2022-10-21, 19:54:19

Badesalz

2022-10-21, 19:57:56

Wenn Desktop N31 350W hat, dann wird Desktop N32 in etwa bei 220W liegen.Wenn ich sowas sehe frag ich mich echt was das mit den kolportierten Traumwerten von Perf/Watt soll (??) Also entweder das Ding frisst 80W weniger bei den FPS, als hier herbeigerechnet. Oder der Verbrauch wird schon so hinhauen, aber der N31 macht 30% mehr FPS als eine 4090 :usweet:
Sonst weiß ich nicht was da die noch nie gesehene "brutale" Effizienz bedeuten soll...

N33 muss doch quasi das komplette mid / low Segment abdecken.
Jedenfalls wenn alle N31 auf oder über RTX 4090 liegen.
Da wird man sich also etwas einfallen lassen müssen.Das wird einfacher als es scheint, da nicht alle N31 auf oder über der 4090 liegen werden.

Hör bitte mit diesen Märchen auf. Selbst wenn aus den 8GB auf magische Effizienzweise "9-10GB" werden macht es diese GPU kein Stück besser.Das ist auch nicht für 4k gedacht ;) Irgendjemand muss endlich die Leute auf Steam mit ihren 1660S/FHD abholen :tongue:

Ex3cut3r

2022-10-21, 20:04:51

Das ist auch nicht für 4k gedacht ;) Irgendjemand muss endlich die Leute auf Steam mit ihren 1660S/FHD abholen :tongue:
Du meinst wohl eher GTX 1060.

https://abload.de/img/unbenanntjui9b.png

dargo

2022-10-21, 20:05:55

Wer spricht von 4k? 8GB machen schon öfter mal Probleme @1440p. Und so ein N33 sollte auch die nächsten 2 Jahre durchhalten... mindestens.

Irgendjemand muss endlich die Leute auf Steam mit ihren 1660S/FHD abholen :tongue:
Dafür ist ein N33 wenn der angebliche ~N21-Speed stimmen sollte Overkill.

DrFreaK666

2022-10-21, 20:07:48

Wer spricht von 4k? 8GB machen schon öfter mal Probleme @1440p. Und so ein N33 sollte auch die nächsten 2 Jahre durchhalten... mindestens.

Immer das gleiche Gelaber hier...
Wer sich keine Topkarte holt, weiß was das Options-Menu ist

Iscaran

2022-10-21, 20:08:34

Originalwerte CB AVG Raster 5120 x 2880 fp32
4090 FE – 100 fps – 2,75Ghz – 16.384SPs ~ 90,11 Tflops fp32 – 0,9011 Tflop 32/frame – 432W – 4,32W/fps – 23,14fps pro 100W
3090 Ti – 61,6 fps – 1,95Ghz – 10.752SPs ~ 41,93 Tflops fp32 – 0,6806 Tflop 32/frame – 463W – 7,51W/fps – 13,30fps pro 100W
6900 XT – 50,5 fps – 2,25Ghz – 5120SPs ~ 23,04 Tflops fp32 – 0,4562 Tflop 32/frame – 296W – 5,86W/fps – 17,06fps pro 100W

Hmm interessante Eckdaten. mit 5.86W/Fps wäre +50% P/W = 3.91 W/Fps
Zum Vergleich die 4090 kommt da mit 4.32 W/Fps daher.

Das ist eigentlich ein ziemlich untrügliches Zeichen, dass AMD hier mit 300 W ankommt und nur evtl. bei einer 7950 XT mit 300 W+ auffährt (375 W?).

Bei den Kennzahlen, dürfte eine 7950 XT auch mit einer 4090 Ti mithalten können, sofern nVidia es nicht noch managed 600 W vernünftig laufen zu lassen ohne das PSUs reihenweise schmelzen zu lassen wie das wohl bei den ersten Tests passierte (https://www.tweaktown.com/news/88869/nvidias-monster-titan-ada-cancelled-dual-16-pin-power-melted-psus/index.html).

dargo

2022-10-21, 20:11:09

Bei den Kennzahlen, dürfte eine 7950 XT auch mit einer 4090 Ti mithalten können, sofern nVidia es nicht noch managed 600 W vernünftig laufen zu lassen ohne das PSUs reihenweise schmelzen zu lassen wie das wohl bei den ersten Tests passierte (https://www.tweaktown.com/news/88869/nvidias-monster-titan-ada-cancelled-dual-16-pin-power-melted-psus/index.html).
Lol... ;D Hatte das gar nicht mitbekommen. :D

Badesalz

2022-10-21, 20:11:17

@Iscaran
Sie werden über raff_inierte Informationskanäle einfach eine DLSS3 Offensive starten ;) Mit deren Mattscheibe-Mods können sie jeden jederzeit schlagen.

Der SaturnV rechnet solange dran rum bis hinten die FPS rauskommen die Jensen vorne eingibt. Sie können +50%, +100%, +150%... Du siehst an den grünen Balken der 4090 daß alles möglich ist :smile:

Lol... ;D Hatte das gar nicht mitbekommen. :DJetzt ehrlich nicht? PCGH hat doch breit und quasi investigativ darüber berichtet :up:

fondness

2022-10-21, 20:23:54

N33 muss doch quasi das komplette mid / low Segment abdecken.
Jedenfalls wenn alle N31 auf oder über RTX 4090 liegen.
Da wird man sich also etwas einfallen lassen müssen.

Gehe davon aus, dass man nicht an 6950 Leistung heran kommt.

Naja, wenn AMD wirklich konkurrenzfähig ist, dann konkurriert N31 mit AD102, N32 mit AD103 ( also ungefähr altes high end Performance bzw leicht darüber) und N33 wäre dann irgendwo auf 6700 Performance. N24 läuft vermutlich weiter im lowend.

TheGood

2022-10-21, 20:28:58

WArum sollte AMD nicht konkurrenzfähig sein, sie waren es schon bei der noch aktuellen gen ?

prinz_valium_2

2022-10-21, 20:31:36

Dafür ist ein N33 wenn der angebliche ~N21-Speed stimmen sollte Overkill.

Sehe ich nicht so.
Gibt genug Leute, die 400 bis 600 fps Spielen in Full H
Oder selbst wenn.

Sollen denn alle dort unten nur noch absolutes low end kaufen, was man früher gerade so für Office Rechner gekauft hätte?

Denn das wäre der Chip unter N33

fondness

2022-10-21, 20:44:05

Sehe ich nicht so.
Gibt genug Leute, die 400 bis 600 fps Spielen in Full H
Oder selbst wenn.

Sollen denn alle dort unten nur noch absolutes low end kaufen, was man früher gerade so für Office Rechner gekauft hätte?

Denn das wäre der Chip unter N33

N33 macht wenns gut geht N22 Performance, was schon eine gute Leistung wäre, aber sicher nicht N21 Leistung. Ausnahme vielleicht mit raytracing. Zumindest wenn die geleakten die sizes stimmen.

[MK2]Mythos

2022-10-21, 20:49:36

dargo

2022-10-21, 20:50:12

N33 macht wenns gut geht N22 Performance...
Das wäre die einzig logische Konsequenz der ich auch durchaus folgen kann.

gedi

2022-10-21, 20:59:11

Das wäre die einzig logische Konsequenz der ich auch durchaus folgen kann.

Was natürlich kompletter Mumpitz ist

gedi

2022-10-21, 21:01:55

Hmm interessante Eckdaten. mit 5.86W/Fps wäre +50% P/W = 3.91 W/Fps
Zum Vergleich die 4090 kommt da mit 4.32 W/Fps daher.

Das ist eigentlich ein ziemlich untrügliches Zeichen, dass AMD hier mit 300 W ankommt und nur evtl. bei einer 7950 XT mit 300 W+ auffährt (375 W?).

Bei den Kennzahlen, dürfte eine 7950 XT auch mit einer 4090 Ti mithalten können, sofern nVidia es nicht noch managed 600 W vernünftig laufen zu lassen ohne das PSUs reihenweise schmelzen zu lassen wie das wohl bei den ersten Tests passierte (https://www.tweaktown.com/news/88869/nvidias-monster-titan-ada-cancelled-dual-16-pin-power-melted-psus/index.html).

Exakt!

dargo

2022-10-21, 21:06:18

Jetzt ehrlich nicht? PCGH hat doch breit und quasi investigativ darüber berichtet :up:
Ich konsumiere die PCGH nicht. ;)

why_me

2022-10-21, 21:26:17

N33 macht wenns gut geht N22 Performance, was schon eine gute Leistung wäre, aber sicher nicht N21 Leistung. Ausnahme vielleicht mit raytracing. Zumindest wenn die geleakten die sizes stimmen.

Wenn die WGP zahlen stimmen, dann braucht N33 nur 25% mehr Takt um mit N22 gleich zu ziehen.
Dabei sind die angeblichen doppelten Shader pro WGP noch nicht eingerechnet. N22 Leistung sollte also die Basis für N33 sein, alle weiteren verbesserungen an der Architektur noch nicht berücksichtigt.

Es gibt 3 Punkte, die offen sind. Wieviel IF$ wird N33 bekommen, wie wurde der IF$ überarbeitet und wievile bringen die zusätzlichen Shader?

Obs für den vollen N21 ausreichen wird, wohl eher nicht, aber N22 wird N33 sehr sicher übertreffen.

E: Sollte die verdopplung der Shader nur wie bei Ampere skalieren, dann wären das ein plus von ca 40% (2080->3070). Damit wäre ein voller N33 Chip mit 25% mehr Takt in der Nähe einer 6800 XT.

Ravenhearth

2022-10-21, 22:09:43

Ich halte es auch für möglich, dass es N33 in 1080p mit der 6800XT aufnehmen kann, in 4K dann aber auf ~6800-Level einbricht. Da die Karte aber eh für 1080p gedacht ist, wäre das kein großes Problem. Auch die 8GB wären hier nicht weiter schlimm. N33 ist auch auf sehr niedrige Kosten getrimmt: kleiner Chip, 6nm (günstig), 128Bit, 8GB, Verbrauch ähnlich wie bei N23 (N33 ist als drop-in replacement gedacht). AMD könnte die Karte für $399 rausbringen, hätte damit eine klasse Perf/$ verglichen mit den Vorgängern (sogar im Abverkauf) und würde trotzdem einen überaus ordentlichen Gewinn einfahren.

Badesalz

2022-10-21, 22:42:05

Ich konsumiere die PCGH nicht. ;)Aaa... Ja ok. Dann konntest du den beissenden Sarkasmus auch nicht erkennen :wink:

Raff

2022-10-21, 22:44:12

Ich konsumiere die PCGH nicht. ;)

Ehrliches Feedback zu den Gründen nehme ich gerne per PN entgegen (zu allen Fachbereichen/Themen). Gilt für alle hier. :)

MfG
Raff

w0mbat

2022-10-21, 22:46:43

iamthebear

2022-10-21, 22:52:18

Wer spricht von 4k? 8GB machen schon öfter mal Probleme @1440p. Und so ein N33 sollte auch die nächsten 2 Jahre durchhalten... mindestens.

Und du hast nicht zufällig einen Link zu einem seriösen Review, wo die 8GB bei einer Midrange Karte wie die 6600 XT oder 3060 Ti in 1440p bei noch sinnvollen Frameraten spürbar gebremst haben?

Dafür ist ein N33 wenn der angebliche ~N21-Speed stimmen sollte Overkill.

N21 Speed auf einem 200mm² N6 Die. Die Karte gibt es dann vermutlich bei Papa Schlumpf im Märchenwald zu kaufen...

Hmm interessante Eckdaten. mit 5.86W/Fps wäre +50% P/W = 3.91 W/Fps
Zum Vergleich die 4090 kommt da mit 4.32 W/Fps daher.

Die Frage ist wie die +50% P/W gemessen wurden:
a) So wie es die meisten hier verstehen: N31 ist 50% schneller bei der gleichen
b) So wie es die meisten Hersteller angeben: Wenn man N31 auf N21 Performance runter schraubt, dann braucht sie 1/3 weniger Leistung

Nur mal aus Vergleich:
Wenn ich meine 6800XT auf 2/3 TDP runter schraube, dann ist sie gerade mal 10% langsamer. Bei Nvidia ist es ähnlich. Und damit meine ich rein den Takt begrenzen. Wenn ich untervolte sind es 2%.

Es spielt auch eine Rolle welche 2 Karten man miteinander vergleicht. Bei RDNA2 vs. RDNA hat AMD auch schon 50% versprochen.

Bei der extrem hochgetriebenen 5700 XT gegen die gemütlich getaktete 6900 XT gab es die 50% mehr Performance/Watt wirklich.

Bei der 6700 XT vs. 5700 XT waren es schon nur mehr 35% mehr Performance/Watt.

Und bei der 6650 XT vs. 5600 XT waren es nur mehr 11%

Das ist eigentlich ein ziemlich untrügliches Zeichen, dass AMD hier mit 300 W ankommt und nur evtl. bei einer 7950 XT mit 300 W+ auffährt (375 W?).

Also ich rechne schon mit mindestens 350W. Aber wahrscheinlich werden die 50% eben nicht im Vergleich zur 6900 XT erreicht, sondern vielleicht nur im Vergleich zur 6900 XTXH mit 375W.

Bei den Kennzahlen, dürfte eine 7950 XT auch mit einer 4090 Ti mithalten können, sofern nVidia es nicht noch managed 600 W vernünftig laufen zu lassen ohne das PSUs reihenweise schmelzen zu lassen wie das wohl bei den ersten Tests passierte (https://www.tweaktown.com/news/88869/nvidias-monster-titan-ada-cancelled-dual-16-pin-power-melted-psus/index.html).

Ich glaube da wurde etwas zu viel durcheinander gemischt:
.) Wenn ein Netzteil abraucht, dann hat der Netzteilhersteller Mist gebaut. Ein Netzteil muss immer in der Lage sein bei Überlast abzuschalten und falls 600W über einen 12VHPWR Stecker gezogen werden, dann ist das nicht einmal Überlast. Mag sein, dass es bei schwächeren GPUs nicht so auffällt aber das schützt den Hersteller nicht vor der Notwendigkeit einer Rückrufaktion wenn er nicht für diverse Brände haften will.
.) Stecker genauso: Anscheinend gab es Fertigungsprobleme bei einigen Steckern. Dann muss eben die Qualitätskontrolle verbessert werden.
.) Wenn ein Prototyp abraucht, dann ist das eben so. Das passiert beim Prototypenbau nun mal. Dann muss man sich eben überlegen was man falsch gemacht hat und noch einmal die Reserven demenstprechend kalkulieren.
.) Fallende Sicherungen: Ist ein reines Amiproblem mit ihrem 120V Schwachsinn. Überall anders sind die Steckdosen mit > 3KW abgesichert.

Das viel größere Problem ist jedoch die Frage wie 600W mit Luftkühlern abgeführt werden sollen. Die GPU ist hier gar nicht das Problem. Das ist der Kühler eben noch 1 Slot größer und das Ding wiegt 3 kg und bekommt einen höhenverstellbaren Standfuß mitgeliefert und kann bei Übertemperatur einfach runtertakten.
Das Problem ist wie bekommt man 600W aus dem Gehäuse ohne dass CPU, RAM, M.2 SSDs, VRMs am Board usw. gebraten werden. Selbst 450W sind bereits sehr grenzwertig.

WArum sollte AMD nicht konkurrenzfähig sein, sie waren es schon bei der noch aktuellen gen ?

Weil Nvidia 2 Node Shrinks gemacht, AMD nur einen. AMD müsste also einen Node durch gute Architektur aufholen. Ich will nicht sagen, dass dies unmöglich ist. Bei RDNA vs. Vega haben sie es bereits einmal geschafft. Aber es ist etwas zu verwegen das bei jeder Generation zu erwarten wenn die Ausgangsarchitektur schon OK war.
Dazu kommt noch, dass der GCD Teil von AD102 um ca. 40% größer ist als die 300mm² von Navi31 (Gerücht laut Angstronomics). Damit habe ich aktuell etwas Schwierigkeiten das zu glauben.

Mythos;13145822']Aha. Und das willst du woher *wissen*?

Einfach etwas mitdenken.
Navi21: 520mm² in TSMC N7P
Navi33 (laut Anstronomics): 200mm² in TSMC N6

N6 vs. N7 bringt ca. 10%.

Da müsste RDNA3 als Architektur 2.4x so viel Performance/Transistor bringen.

Nenn mir ein Beispiel der letzten 20 Jahre wo das schon jemals passiert ist.
Zum Vergleich: 6650 XT vs. Vega 64 waren ca. 1.4x

why_me

2022-10-21, 22:55:37

Navi33 ist so seltsam. Mit 4096 shaders und einem hohen Takt könnte hier mehr Rohleitsung als eine 6800 XT drin sein, dann aber nur ein 128-bit interface und 32MB Infinity Cache. Eine RX 6800 XT hat 256-bit und 128MB.

Entweder AMD hat ne richtig geile Architektur gezaubert, oder die Gerüchte sind mal wieder too much hype...

N33 wird eine FHD/WQHD Karte sein, da braucht es nicht so viel Cache um eine hohe Hitrate zu haben. Speicherchips sind schneller als noch bei RDNA2. Und die 6800XT ist nicht durch ihre Bandbreite limitiert.

Ja, 32MB sind wenig, aber AMD soll daran gearbeitet haben, was im Cache landet. Dadurch könnten sich die 32MB von N33 wie 64MB von RDNA2 verhalten und genug hitrate für die niedrigen Auflösungen liefern.
Für 4k wird N33 sicherlich die Bandbreite ausgehen.

N33 auf höhe einer 6800XT ist deutlich wahrscheinlicher als lediglich auf höhe von N22.

GerryB

2022-10-21, 23:10:02

Ehrliches Feedback zu ...
MfG
Raff

Gar net Lesen wäre ja dämlich!
Eigentlich hat jeder der typischen dt. Reviewer sein für+wieder.

Nur bei PCGH gibts UWQHD, ganz interessant wenn in Game XYZ in 4k das große Bottleneck kommt.(Archirektur oder PL)
Ich finds auch net schlimm wenn ein Game erst 1-2 Tage später mit ready Treibern angeschaut wird.
(da müssen dann Andere ggf. nen Update bringen)

Eher bin ich momentan entsetzt, das der IgorsLab-Parcour jetzt einfach Raster+RT in einen Topf wirft und daraus Verbrauchs+Effizienzwerte ableiten will. (ohne Beachtung der Bottlenecks)

Bei CB kanns mit dem neuen Gehäuse eigentlich nur besser werden, wenn dann net mehr ausversehen die heißen Grakas throttlen.

mczak

2022-10-21, 23:12:45

Obs für den vollen N21 ausreichen wird, wohl eher nicht, aber N22 wird N33 sehr sicher übertreffen.

Ich zähle mich da zum Lager der Skeptiker - einfach weil die kolportierte Chipgrösse in N6 nicht dazu passt. Denn falls diese Angaben stimmen hat das Ding nun halt gerade mal ganz knapp mehr Transistoren als N23. Verbesserte RT-Performance, bessere Videoencoder usw. kosten vielleicht nicht allzuviel Transistoren aber gratis sind diese Dinge auch wieder nicht. Um da am Ende trotzdem generell vor N22 zu liegen wäre eine massive Verbesserung der Perf/Transistor nötig (selbst unter Berücksichtigung dass man durch den besseren Prozess etwas mehr Takt bekommt), und solche Verbesserungen liegen nicht gerade auf der Strasse, schliesslich waren ja die Ingenieure die die vorhergehenden Architekturen entwickelt haben wohl auch nicht alles Anfänger.
Sollte aber richtig günstig zu fertigen sein, da kann man hoffen dass Produkte mit N33 auch bezahlbar sind, bei Nvidia muss man da ja noch auf Produkte mit AD106 / AD107 warten.

why_me

2022-10-21, 23:21:50

Auch alles eine Frage der Packdichte.
Nvidia hat in 7nm 65Mio Transistoren pro mm² gepackt, bei RDNA2 sind es nur 42 50 Mio. AMD hat da also auch noch etwas Luft nach oben um Transistoren unterzubringen.

Ravenhearth

2022-10-21, 23:50:27

Einfach etwas mitdenken.
Navi21: 520mm² in TSMC N7P
Navi33 (laut Anstronomics): 200mm² in TSMC N6

N6 vs. N7 bringt ca. 10%.

Da müsste RDNA3 als Architektur 2.4x so viel Performance/Transistor bringen.

Nenn mir ein Beispiel der letzten 20 Jahre wo das schon jemals passiert ist.
Zum Vergleich: 6650 XT vs. Vega 64 waren ca. 1.4x
Ein besserer Vergleich wäre N23; kleinere Chips haben meist eine bessere Perf/Transistor. N33 ist auf N6 etwas kleiner, dürfte also ähnlich viele Transistoren haben. N21 ist in 1080p etwa doppelt so schnell wie N23. Erreicht N33 dieses Level, wäre die Perf/Transistor verglichen mit N23 etwa doppelt so hoch. Bei 6800 XT-Performance wäre man noch bei 1.8x. Das wäre beeindruckend, aber nicht unmöglich.

Ich zähle mich da zum Lager der Skeptiker - einfach weil die kolportierte Chipgrösse in N6 nicht dazu passt. Denn falls diese Angaben stimmen hat das Ding nun halt gerade mal ganz knapp mehr Transistoren als N23. Verbesserte RT-Performance, bessere Videoencoder usw. kosten vielleicht nicht allzuviel Transistoren aber gratis sind diese Dinge auch wieder nicht. Um da am Ende trotzdem generell vor N22 zu liegen wäre eine massive Verbesserung der Perf/Transistor nötig (selbst unter Berücksichtigung dass man durch den besseren Prozess etwas mehr Takt bekommt), und solche Verbesserungen liegen nicht gerade auf der Strasse, schliesslich waren ja die Ingenieure die die vorhergehenden Architekturen entwickelt haben wohl auch nicht alles Anfänger.
Das gleiche kann man über RDNA auch sagen, und trotzdem war RDNA2 massiv besser. Warum soll das gleiche nicht für RDNA3 gelten? Natürlich liegen diese Verbesserungen nicht auf Straße, sondern erfordern viel Arbeit, die man bei RDNA2 einfach noch nicht investiert hatte. Doch bei RDNA3 kann AMD auf Erfahrungen aus der Entwicklung von RDNA2 und neueren CPUs zurückgreifen und diese einfließen lassen. Laut angstronomics soll ein RDNA3-WGP fertigungsunabhängig trotz der Einheiten-Verdopplung kleiner als bei RDNA2 sein, weil an vielen Stellen wiederum Transistoren gespart werden (z.B. durch OREO).

Langlay

2022-10-22, 00:05:16

Bei der extrem hochgetriebenen 5700 XT gegen die gemütlich getaktete 6900 XT gab es die 50% mehr Performance/Watt wirklich

Weil Nvidia 2 Node Shrinks gemacht, AMD nur einen. AMD müsste also einen Node durch gute Architektur aufholen. Ich will nicht sagen, dass dies unmöglich ist. Bei RDNA vs. Vega haben sie es bereits einmal geschafft. Aber es ist etwas zu verwegen das bei jeder Generation zu erwarten wenn die Ausgangsarchitektur schon OK war.

RDNA1 und RDNA2 laufen im gleichen Note. Mit RDNA3 kommt na noch ein Noteshrink dazu. Und so dick hat Nvidia auch nicht vorgelegt. Das die 4090 "nur" 60-80% schneller ist als die 3090 ist imo eher am unteren Ende der Erwartungen. Wenn RDNA3 ein grosser Wurf ist könnte das reichen um sich zumindestens in Raster vor die 4090 zu setzen.

mczak

2022-10-22, 00:52:50

Das gleiche kann man über RDNA auch sagen, und trotzdem war RDNA2 massiv besser.

So riesig war der Unterschied bei RDNA zu RDNA2 auch wieder nicht. Navi 23 hat zwar locker (zumindest in FullHD) die Performance von Navi 10 erreicht aber der Chip ist auch bloss minimal kleiner (und hat sogar mehr Transistoren - beides wäre allein mit dem kleineren SI und dem IF von N23 begründbar, auch wenn das natürlich sehr vereinfacht ist). Klar die Energieeffizienz war bei RDNA2 viel besser, würde man also die Chips bei ISO-Energieeffizienz vergleichen hätte RDNA2 schon einen Vorsprung punkto Perf/Transistor. Aber nie in dem Ausmass wie das jetzt bei RDNA3 sein müsste damit N33 da RX 6800 Niveau erreicht (es sei denn wenn AMD die Packdichte tatsächlich deutlich mehr steigern würde als man allein aufgrund des Wechsels von N7 zu N6 erwarten könnte, dann wäre natürlich die notwendige Perf/Transistor Steigerung kleiner).

Warum soll das gleiche nicht für RDNA3 gelten? Natürlich liegen diese Verbesserungen nicht auf Straße, sondern erfordern viel Arbeit, die man bei RDNA2 einfach noch nicht investiert hatte. Doch bei RDNA3 kann AMD auf Erfahrungen aus der Entwicklung von RDNA2 und neueren CPUs zurückgreifen und diese einfließen lassen. Laut angstronomics soll ein RDNA3-WGP fertigungsunabhängig trotz der Einheiten-Verdopplung kleiner als bei RDNA2 sein, weil an vielen Stellen wiederum Transistoren gespart werden (z.B. durch OREO).
Klingt für mich einfach zu gut um wahr zu sein, ich lasse mich aber gerne überraschen. Wenn Karten mit N33 tatsächlich die RX 6700 generell hinter sich lassen (und der Preis im Rahmen der N23 Karten bleibt) wird das Teil gekauft!
(Wobei wenn man vergangene Launches in Betracht zieht N33 wohl sowieso noch mindestens ein halbes Jahr auf sich warten lässt.)

vinacis_vivids

2022-10-22, 01:15:48

N33 4096SP @3,3Ghz ~ 27,03 Tflop/s fp32
N21 3840SP @2,2Ghz ~ 16,89 Tflop/s fp32

In 1080p denke ich ist N21XL schon zu erreichen. Allein der Taktsprung ist von N21 zu N33 ist einfach Gigantisch. Der cut am SI und IF$ ist zwar auch riesig, aber bei 1080p ist das auch nicht sonderlich relevant. 1440p und 2160p bricht N33 vermutlich heftig weg, ist aber auch egal. Ist halt ein mini-Chip mit 8GB, da zählt 1080p, hohe Stückzahlen und billiger Preis.

All diese Kriterien erfüllt N33 perfekt.

robbitop

2022-10-22, 06:51:43

In älteren Gerüchten war N33 grob 100mm2 größer als bei den jetzigen Gerüchten wenn ich mich recht erinnere.

TheGood

2022-10-22, 07:23:06

Weil Nvidia 2 Node Shrinks gemacht, AMD nur einen. AMD müsste also einen Node durch gute Architektur aufholen. Ich will nicht sagen, dass dies unmöglich ist. Bei RDNA vs. Vega haben sie es bereits einmal geschafft. Aber es ist etwas zu verwegen das bei jeder Generation zu erwarten wenn die Ausgangsarchitektur schon OK war.
Dazu kommt noch, dass der GCD Teil von AD102 um ca. 40% größer ist als die 300mm² von Navi31 (Gerücht laut Angstronomics). Damit habe ich aktuell etwas Schwierigkeiten das zu glauben.

Sie bringen aber ihre Rohleistung nicht auf die STraße von daher ist das viel heiße Luft.
Der Sprung um 70 bis 80% ist problemlos mit einem Node zu schaffen, das wurde schon mehrmals gezeigt. Seit RDNA hat AMD einen klaren Plan und geliefert und das wird auch bei RDNA 3 so sein.

dargo

2022-10-22, 07:25:47

Und du hast nicht zufällig einen Link zu einem seriösen Review, wo die 8GB bei einer Midrange Karte wie die 6600 XT oder 3060 Ti in 1440p bei noch sinnvollen Frameraten spürbar gebremst haben?

Was willst du mit einer 6600XT? N33 wird von der Rohpower doppelt so schnell sein, wenn die Gerüchte stimmen.

horn 12

2022-10-22, 10:22:30

https://twitter.com/greymon55?ref_src=twsrc%5Egoogle%7Ctwcamp%5Eserp%7Ctwgr%5Eauthor

Preise der Navi31 GPU
Heftig!

robbitop

2022-10-22, 10:37:55

Berniyh

2022-10-22, 10:38:37

https://twitter.com/greymon55?ref_src=twsrc%5Egoogle%7Ctwcamp%5Eserp%7Ctwgr%5Eauthor

Preise der Navi31 GPU
Heftig!
Da steht "guess" …
Abgesehen davon, 1099 USD (also die UVP der 6950) dürften wohl klar das untere Limit der schnellsten Karte sein.
Günstiger als die Vorgängergeneration wird es in der aktuellen Lage ganz sicher nicht.

HOT

2022-10-22, 10:46:35

why_me

2022-10-22, 10:47:49

Linmoum

2022-10-22, 10:52:52

Wer glaubt RDNA3 wird billig wird sich noch wundern. AMD ist seitens der Shareholder genauso verpflichtet das Maximum rauszuholen wie jede andere öffentlich gehandelte Gesellschaft. RDNA3 wird sicherlich gemäß der Performance abzüglich ein kleines Bisschen (weil ihre Marke schwächer ist) bepreist. Scrappy underdog Preise gibt es nur für scrappy Products.Definitiv. Unter Su ist AMD nicht mehr der Underdog, auch preislich nicht, der sich versteckt. Da wird so eingepreist, dass die Margen hoch sind. Natürlich Preise in Relation zur Konkurrenz (geht ja gar nicht anders), aber trotzdem.

Ich gehe fest davon aus, dass sich N31 irgendwo preislich zwischen AD103 und AD102 platzieren wird. Da ist genug Spielraum vorhanden. Die Margen wären mit Sicherheit sehr hoch und man kann eine 4090 trotzdem undercutten, was man wahrscheinlich sowieso muss.

HOT

2022-10-22, 12:16:58

https://twitter.com/Kepler_L2/status/1583550898638245889

Jetzt ändert sich das ja wieder :freak: jede Woche was anderes.
Laut dem soll N31 salvage als 7900XT firmieren und die full 7950XT sein. Die VCache-Varianten sind also noch darüber.
Darunter muss dann ja zwangsläufig die 7800(XT) ein N32 werden und die 7700(XT) ein N33. Also alles wieder auf Anfang. Für die 7600(XT) kommt dann wieder der N22S in die Auswahl... usw.

Bin mal gespannt, was sich aus dem ganzen Informationswust dann so als Tatsachen herauskristallisieren am 3.

Meridian12

2022-10-22, 12:17:09

Die 4090 hat im Grunde genommen ein extrem mieses Performance Transistor Verhältnis. Oder mässiges Verhältnis von technischen Daten zur Praxisleistung.

Fast 3 mal mehr Transistoren als die 3090ti,aber "nur" 60-70% mehr Power. Bei den anderen Daten insgesamt "nur" 60-70% mehr Leistung sieht auch eher wenig aus. Obwohl es natürlich rein vom "Ergebnis" extremst gut ist,was die 4090 leistet.

Aber lange Rede,kurzer Sinn, wenn, ja wenn es AMD schaffen würde, aus ihren Daten statt nur 60-70% wie NVIDIA , die komplette Papiersteigerung auch aufs Parkett zu bringen, dann wäre auch mit weniger Transistoren und Terraflops usw Gleichstand möglich.

Aber dafür muss AMD halt dieses Kunsstück gelingen. Vielleicht mit der neuen Technik machbar.

Wir werden es bald sehen.

Bei der CPU hat mich AMD leider etwas enttäuscht diesbezüglich.

Exxtreme

2022-10-22, 12:23:09

Fast 3 mal mehr Transistoren als die 3090ti,aber "nur" 60-70% mehr Power. Bei den anderen Daten insgesamt "nur" 60-70% mehr Leistung sieht auch eher wenig aus. Obwohl es natürlich rein vom "Ergebnis" extremst gut ist,was die 4090 leistet.

Das meiste dürfte für mehr RT-Leistung draufgegangen sein. Ausserdem sind die Treiber wohl noch nicht ganz so ausgereift. Kann gut sein, dass die noch hier und da 30% zulegen.

HOT

2022-10-22, 12:27:02

basix

2022-10-22, 12:46:28

Das meiste dürfte für mehr RT-Leistung draufgegangen sein. Ausserdem sind die Treiber wohl noch nicht ganz so ausgereift. Kann gut sein, dass die noch hier und da 30% zulegen.

Niemals ist das meiste für RT drauf gegangen ;)

Cache, Taktraten und Energieffizienzoptimierungen, das sind die "Übeltäter". Der Rest wird im Verhältnis nicht so wahnsinnig viel ausmachen. Tensor Cores + RT-Cores kosteten bei Turing gerade Mal ~10% SM-Grösse. Und SMs machen vielleicht die Hälfte des Chips aus. Wenn ein Grossteil also für RT draufgegangen wäre bei Ada, dann müssen die RT-Cores irgendwie 10x grösser geworden sein. Absolut unrealistisch.

Ravenhearth

2022-10-22, 13:02:09

https://twitter.com/greymon55?ref_src=twsrc%5Egoogle%7Ctwcamp%5Eserp%7Ctwgr%5Eauthor

Preise der Navi31 GPU
Heftig!
Ist die Frage was er mit top Navi31 meint, mit oder ohne 3D-Cache? Die Variante ohne Cache sehe ich ehrlich gesagt nicht unter $1199, mit Cache mindestens $200 drüber.

amdfanuwe

2022-10-22, 13:45:47

Darunter muss dann ja zwangsläufig die 7800(XT) ein N32 werden und die 7700(XT) ein N33.
Nö. 7700XT dürfte N32 salvage mit 12GB RAM werden.

Korvaun

2022-10-22, 13:49:34

AMD sollte nach dem nV 4080 12GB Debakel gewarnt sein es nicht zu übertreiben mit den Preisen. Der TopDog kann gerne richtig teuer sein, aber die "normalen" Karten sollten dann doch angemessene Preise haben. D.h. für mich TopDog >1k $, alles andere <1k $ (ohne Steuer).

iamthebear

2022-10-22, 13:57:45

Ein besserer Vergleich wäre N23; kleinere Chips haben meist eine bessere Perf/Transistor. N33 ist auf N6 etwas kleiner, dürfte also ähnlich viele Transistoren haben. N21 ist in 1080p etwa doppelt so schnell wie N23. Erreicht N33 dieses Level, wäre die Perf/Transistor verglichen mit N23 etwa doppelt so hoch. Bei 6800 XT-Performance wäre man noch bei 1.8x. Das wäre beeindruckend, aber nicht unmöglich.

Und für diese 2x Performance braucht man ca. 2.4x mehr Transistoren. Aber du kannst es natürlich auch von der Performanceseite betrachten.

Jetzt meine Frage: Welche GPU der letzten 20 Jahre hat die doppelte Performance bei gleicher Transistoranzahl gebracht? Mir fällt da keine ein selbst nach sehr schlechten Architekturen wie Vega oder in Fällen wo der Takt durch die Fertigung stark gesteigert werden konnte wie bei Pascal.

Das gleiche kann man über RDNA auch sagen, und trotzdem war RDNA2 massiv besser. Warum soll das gleiche nicht für RDNA3 gelten? Natürlich liegen diese Verbesserungen nicht auf Straße, sondern erfordern viel Arbeit, die man bei RDNA2 einfach noch nicht investiert hatte. Doch bei RDNA3 kann AMD auf Erfahrungen aus der Entwicklung von RDNA2 und neueren CPUs zurückgreifen und diese einfließen lassen. Laut angstronomics soll ein RDNA3-WGP fertigungsunabhängig trotz der Einheiten-Verdopplung kleiner als bei RDNA2 sein, weil an vielen Stellen wiederum Transistoren gespart werden (z.B. durch OREO).

RDNA2 hatt eine bessere Energieeffizienz. Das hat man zum Größten Teil dem IF$ zu verdanken, der AMD jahrelanges Problem der Speicherbandbreite gelöst hat. Ein N23 mit 128Bit frisst einfach weniger als ein 256Bit Interface.
Zusätzlich wurden RDNA2 Karten nicht so sehr gepusht wie die 5700 XT. Vergleicht man z.B. die 6650 XT mit der 5700 XT ist der Unterschied schon geringer.

Was die Performance/Transistor angeht sind die Verbesserungen überschaubar siehe 6600 XT vs. 5700 XT. Das sind um die 10% mehr Performance/Transistor und das kommt von N7P vs. N7.

RDNA1 und RDNA2 laufen im gleichen Note. Mit RDNA3 kommt na noch ein Noteshrink dazu. Und so dick hat Nvidia auch nicht vorgelegt. Das die 4090 "nur" 60-80% schneller ist als die 3090 ist imo eher am unteren Ende der Erwartungen. Wenn RDNA3 ein grosser Wurf ist könnte das reichen um sich zumindestens in Raster vor die 4090 zu setzen.

Die 4090 ist auch stark beschnitten ähnlich der 3080 12GB. Mit 144 statt 128SM, vollen 96MB L2, mehr TDP und handselektierten Chips (wie bei der 3090 Ti) dürften dann noch mal um die 20% oben drauf kommen.
Und dann ist natürlich das Problem, dass in dieser Leistungsklasse einfach schon die CPU limitiert bzw. dass die rohe Speicherbandbreite nicht mitskaliert. Das sind beides Probleme, die AMD etwas abgeschwächter Form auch haben wird.

N33 4096SP @3,3Ghz ~ 27,03 Tflop/s fp32
N21 3840SP @2,2Ghz ~ 16,89 Tflop/s fp32

In 1080p denke ich ist N21XL schon zu erreichen. Allein der Taktsprung ist von N21 zu N33 ist einfach Gigantisch. Der cut am SI und IF$ ist zwar auch riesig, aber bei 1080p ist das auch nicht sonderlich relevant. 1440p und 2160p bricht N33 vermutlich heftig weg, ist aber auch egal. Ist halt ein mini-Chip mit 8GB, da zählt 1080p, hohe Stückzahlen und billiger Preis.

All diese Kriterien erfüllt N33 perfekt.

Der hohe Takt kommt ja nicht von alleine. Will man mehr Takt erreichen, so bedeutet dies entweder man muss mehr Transistoren investieren oder irgendwo bei der IPC Abstriche machen.

Sie bringen aber ihre Rohleistung nicht auf die STraße von daher ist das viel heiße Luft.
Der Sprung um 70 bis 80% ist problemlos mit einem Node zu schaffen, das wurde schon mehrmals gezeigt. Seit RDNA hat AMD einen klaren Plan und geliefert und das wird auch bei RDNA 3 so sein.

1.) Vergleicht man gleich beschnittene Karten (z.B. 4090 vs. 3080 oder später 4090 Ti vs. 3090 Ti) so sind es 2x.

2.) Neutralisiert man die CPU Limitierung, die es zwangsweise in der Leistungsklasse gibt, dann sind wir ziemlich genau bei den 2.2x-2.4x die vorhergesagt werden.

3.) Wir vergleichen hier auch Launchtreiber mit Treibern die 2 Jahre alt sind mit bereits am Markt befindlichen Spielen, die noch keinen Nutzen der neuen Features wie SER ziehen.

Was willst du mit einer 6600XT? N33 wird von der Rohpower doppelt so schnell sein, wenn die Gerüchte stimmen.

Dieselben Gerüchte, die auch noch von 350-400mm² Die size gesprochen haben? Und von Dual GCD bei N32/33?

https://twitter.com/greymon55?ref_src=twsrc%5Egoogle%7Ctwcamp%5Eserp%7Ctwgr%5Eauthor

Preise der Navi31 GPU
Heftig!

Also ich finde das hält sich noch ziemlich im Rahmen. Es handelt sich hier ja um das Topmodell und AMD ist bei den UVP Angaben ja deutlich ehrlicher als Nvidia.
Eine 7950 XT um 1500$ für Full Die mit VCache könnte 1200$ für den regulären Full Die bedeuten und 900$ für die 20GB/42WGP Version. Das wäre der Preis der 4080 12GB.

Vor Weihnachten vielleicht aber ab Januar stürzen die Preise eh ins Bodenlose. Dann wird die Rezession richtig fahrt aufnehmen und die Nachfrage bricht eh komplett zusammen.

Das passiert wohl frühestens Sommer 2023 wenn Ampere/RDNA2 Lager weg sind. Wobei bis dahin haben wir sicher noch mal 10% Inflation und in Europa jeder Haushalt 500 Euro/Monat weniger, die er sich für die Gaspreise Winter 2023/24 auf die Seite legen muss.

robbitop

2022-10-22, 14:05:25

Ggf sind die neuen Gerüchte mit den 200mm2 auch falsch. Es hieß ja lange knapp über 300mm2. 6nm ist auch ein klein wenig dichter als 7 nm.
Wenn man nun weniger Cache braucht (weil aus welchem Grund auch immer - die Hitrate steigt), höhere Taktraten erzielt und durch die Verdopplung der FPUs pro WGP auch nochmal mehr Pro Transistor (nicht pro Flop) rausholt und man tatsächlich 300 mm2 hat, kann man ggf doch verglichen mit N2x etwas oberhalb seiner eigenen die size kämpfen.
Aber Wunder zu erwarten wäre naiv.

TheGood

2022-10-22, 14:09:00

1.) Vergleicht man gleich beschnittene Karten (z.B. 4090 vs. 3080 oder später 4090 Ti vs. 3090 Ti) so sind es 2x.

2.) Neutralisiert man die CPU Limitierung, die es zwangsweise in der Leistungsklasse gibt, dann sind wir ziemlich genau bei den 2.2x-2.4x die vorhergesagt werden.

3.) Wir vergleichen hier auch Launchtreiber mit Treibern die 2 Jahre alt sind mit bereits am Markt befindlichen Spielen, die noch keinen Nutzen der neuen Features wie SER ziehen.

.

der Durchschnitt ist relativ klar bei um die 70 % mehrsteigerung. Mehr ist es halt mal nicht. Einfach den Launch Artikel von 3dcenter lesen.

Man sieht ja im 3dcenter vergleich was man bei den Treibern ueber die Jahre noch rausholt, herzlich wenig. Vor allem auf Nvidia seite.

Reine RT Performance ist mir akutell relativ wurscht und für GLobale Beleuchtung nicht relevant (da steht auch AMD jetzt schon gut da), ausser für sinnfreies zu Tode spiegeln, was 75% der spieler nicht merkt ob real oder gebaked. (Ja natürlich ist ersteres besser, aber der Effekt ist halt leider nicht so einfach sicht und vermittelbar. Nicht umsonst hat sich aus meiner Sicht RT immer mehr richtig globale Beleuchtung entwickelt und da bringt es dem Entwickler einen Haufen Ersparnis, wie auch ein sichtbar besseres ERgebnis für die Nutzer).

PS: Ich kann immer nur ein Iststand vergleichen, das haben die NVidia Jünger jahrelang gepredigt.... Also bleiben wir erstmal dabei. In zwei Jahren sieht es dann vielleicht anders aus und die neuen Funktionen im RT Bereich bringen dann ggf. einen Performance Boost, die Frage ist nur bei was genau...

Iscaran

2022-10-22, 14:09:22

Nakai

2022-10-22, 14:42:01

Ne, das meiste werden Massetransistoren zur Taktsteigerung gewesen sein, deswegen ist diese ganze Argumentation anhand der Transistoren nicht zielführend. Die neuen Tensorcores sind übrigens auch nicht zu verachten. RT ist nur ein verhältnismäßig kleiner Teil.
Wenn man es total pauschal vereinfacht würde ich salopp sagen, AMD bringt seine Erfahrungen aus den Zen-Designs auch in die RDNA3-Desgins mit hinein und versucht die ALUs zu entschlacken und effizienter zu machen, wärend man das gesamte Design möglichst schmal hält, ohne die Leistung zu verlieren oder gar die Leistung zu steigern pro WGP, wärend NV damit kämpft, dass die SMs nicht noch ineffizienter werden, wärend man noch mehr Einheiten hinzufügt und einfach mit den GPCs knallhart in die Breite geht.

AMD und Nvidia haben unterschiedliche Designansätze. NV hat schon immer mehr auf dedizierte HW-Einheiten gesetzt. AMD hat eher die bestehenden Einheiten aufgebohrt, um irgendein Featureset zu unterstützen.

Beide Ansätze haben Vor- und Nachteile. FFUs haben einem fixen Durchsatz und bei General Purpose Units teilt man sich die Resourcen. Das hängt dann wieder vom Usecase ab. NV schafft eher den höheren Peak-Durchsatz bei speziellen Usecases, AMD ist effizienter pro Transistor, kann aber teilweise nicht mit dem Durchsatz mithalten. Bei mixed Usecases kann es dann wieder anders aussehen. Ada zeigt hier aber schon wirklich krass, wie weit NV geht dedizierte Einheiten zu verbauen.

why_me

2022-10-22, 15:23:23

Man sieht ja im 3dcenter vergleich was man bei den Treibern ueber die Jahre noch rausholt, herzlich wenig. Vor allem auf Nvidia seite.

Kann man so auch nicht sagen, nachdem alle 4090 benchmarks gemacht wurden, hat Nvidia doch zufälligerweise doch noch Leistung bei den Ampere Karten gefunden.... :biggrin:

iamthebear

2022-10-22, 15:28:05

@iamthebear:

Auch wenn ich die Metrik für etwas seltsam halte aber:
6900 XT hat 348% 4kIndex und 26.8 Mrd Transistoren = ~77 Mio/%Index
3090 Ti / 410% / 28.3 Mrd / = 69 Mio/%
4090 / 640% / 76.3 Mrd / = 119 Mio/%

Die 4090 braucht also ~72% Mehr Transistoren pro "FPS" als eine 3090 Ti.

Das ist mal ein ziemlich Rückschritt würd ich sagen.

Diese Metrik hört sich für dich seltsam an, weil sie eben nur dann funktioniert wenn man entweder bei derselben Performance oder bei derselben Transistoranzahl vergleicht, da fps nicht linear mit dem Transistoreinsatz skalieren.

Der korrekte Vergleich sollte aussehen:
4080 12GB => angeblich um die 11K TSE also 4090 Ti Niveau
AD104: 35,8 Mrd. Transitoren
GA102: 27,4 Mrd. Transistoren
Also ja Ampere ist hier um 30% effizienter. Das war wohl der Preis für das verkleinerte Speicherinterface und die zusätzlichen Features. Dafür ist die Transistordichte relativ hoch. Gut möglich, dass die auch etwas gekostet hat.

Schauen wir uns nun die Archs ein bisschen im Rückblick an
2080 Ti (FE) brauchte für 247% Index ~18.6 Mrd = 75Mio/%
1080 Ti für 173% ~12 Mrd = 69 Mio/%

3070 vs. 2080 Ti => Performance und Transistoranzahl fast ident => +/- 0
2080 vs. 1080 Ti => Ca. 10% mehr Performance für 10% mehr Transitoren => +/- 0, RT/DLSS gab es gratis oben drauf

1080 vs. 980 Ti:
28% mehr Performance für 10% weniger Transistoren. Das lag aber großteils daran, dass die Referenz 980 Ti so niedrig getaktet war.

Wenn man die AIB Modelle vergleicht:
15% mehr Performance bei 10% weniger Transistoren => 25% mehr Transistoreffizienz

Bitte daran denken: Es ist hier nicht zu erwarten, dass die Transistoreffizienz pro Generation steigt. Das Ziel ist diese gleich zu halten. Jede Verbesserung ist schon ein Erfolg.

Aber eigentlich HÄTTE Ada 150% oder mehr zulegen müssen, wenn die Architektur auch nur annähernd so gut gewesen wäre wie die Vorgänger.

Da müssen wir schon 2 Generationen zurück gehen:
GA102 vs. GP102: 27,4/12 = 2,28x so viele Transistoren
Full HD Index: 2180/1180 = 1,85x (entspricht ca. den Frameraten von Ada vs. Ampere in 4K)
Und damals gab es auch noch GDDR6X vs. GDDR5. Mit GDDR7 statt dem L2 wäre AD102 auch noch ein Stück kleiner geworden.

Schauen wir nun mal AMD
GCN 5 | Vega64 | 132 |12.5 | 94.7
RDNA 1 | 5700XT | 156 | 10.3 | 66.0
RDNA 2 | 6900XT | 348 | 26.8 | 77.0

von RDNA1 auf 2 ist die Performance / Transistor gerade um 16% gefallen. Von Ampere zu Ada aber um ~72%.

Auch hier der Fehler, dass du GPUs mit zu unterschiedlicher Performance vergleichen hast.

5700 XT vs. Vega64 => Der Vergleich ist in Ordnung. Hier ist die 5700XT wirklich 43% effizienter. Aber Vega war auch eine ziemliche Vollkatastrophe.
RDNA2 vs. RDNA hättes du die 6600 XT mit der 5700 XT vergleichen müssen (ähnliche Performance, ähnliche Transistoranzahl). Hier sind es um die 10% Verbesserung

Wenn RDNA 3 auf RDNA2 also vielleicht nur um 50% Effizienz/Transistor verliert (und das erscheint mir unlogisch) dann steht es um Ada ziemlich schlecht.

Wenn die Größenangaben von Angstronomics stimmen und ich nur den 5nm GCD Teil betrachte müsste Navi31 eine Effizienzsteigerung von 2x hinlegen um Full AD102 zu schaffen.
Für die beschnittene 4090 reichen 1.6x-1.7x
Für die 4080 16GB reicht es wenn die Effizienz in etwa gleich bleibt
Alle Vergleiche bezogen auf Transistoranzahl@iso performance

Wenn ich versuche die Transistoranzahl zu schätzen:
GCD: 300mm² * 55MTrans/mm² * 1,6x = 26.4Mrd
MCDs: 6*40mm² * 55MTrans/mm² * 1,1x = 14.5Mrd
Gesamt: 40,9Mrd (also zwischen AD104 und AD103)
Das Ganze kann sich jedoch etwas verschieben, da ich von gleicher durchschnittlicher Transistordichte für GCD und MCD in 7nm ausgegangen bin. Das wird wahrscheinlich nicht genau stimmen. IF$ wird dichter sein, SI weniger dicht.

Wenn man sich die Zahlen und die relativen Abstände ansieht dann verhält sich das ganze übrigens nahezu identisch zu den weiter oben schon dargelegten Schätzzahlen auf Basis von Flops und Leistung.

Beides wirft mit der Annahme von +50% P/W und den bislang geleakten Leistungsdaten sowie den bekannten Daten von Ada eigentlich ein sehr gutes Licht auf den 3.11.

EDIT:
RDNA1 hat das gegenüber Vega/GCN[/QUOTE]

GerryB

2022-10-22, 15:54:12

Bitte daran denken: Es ist hier nicht zu erwarten, dass die Transistoreffizienz pro Generation steigt. Das Ziel ist diese gleich zu halten. Jede Verbesserung ist schon ein Erfolg. ...
Wenn die Größenangaben von Angstronomics stimmen und ich nur den 5nm GCD Teil betrachte müsste Navi31 eine Effizienzsteigerung ....
Für die beschnittene 4090 reichen 1.6x-1.7x ...
Alle Vergleiche bezogen auf Transistoranzahl@iso performance

Wenn ich versuche die Transistoranzahl zu schätzen:GCD: 300mm² * 55MTrans/mm² * 1,6x = 26.4Mrd

Zwecks Generationenvgl., wieviel Transistoren hat denn RDNA2 ohne IF-Cache?
Dann hätte man ne Basis, die man mit dem Navi31 GCD(x) vergleichen könnte.

(X) bei Navi 31 abzgl. ein paar Prozent für den Connect zu den MCD´s

mczak

2022-10-22, 16:07:36

Ggf sind die neuen Gerüchte mit den 200mm2 auch falsch. Es hieß ja lange knapp über 300mm2.
Ja alle N3x Chipgrössen die derzeit im Umlauf sind kommen meines Wissens aus derselben Quelle (angstronomics). Wäre N33 allerdings 300mm2 N6 wäre Navi 3x nicht wirklich ein komplettes Lineup, da müsste man wohl weiterhin Karten mit N23 verkaufen (es gibt ja keine Gerüchte über weitere N3x Chips), ganz zuunterst N24 weiterhin zu verwenden macht so oder so Sinn (die Kritikpunkte an N24 haben eh nichts mit der Architektur zu tun).
Oder aber N33 benutzt auch N5 (wobei N6 für N33 war nicht aus der angstronomics Quelle).

Iscaran

2022-10-22, 16:29:05

Zwecks Generationenvgl., wieviel Transistoren hat denn RDNA2 ohne IF-Cache?
Dann hätte man ne Basis, die man mit dem Navi31 GCD(x) vergleichen könnte.

Nein, das macht eher wenig Sinn, denn der IF-Cache ist ja wesentlich für die Performance der Architektur.

Sonst könnte man ja diese oder jene Transistoren dann auch wieder weg-Cherrypicken usw.

aber @iamthebear:

Mir ist nicht ganz klar nach welchen Kriterien du jetzt GPUs aus verschiedenen Generationen auswählst und warum.

Der korrekte Vergleich sollte aussehen:
4080 12GB => angeblich um die 11K TSE also 4090 Ti Niveau
AD104: 35,8 Mrd. Transitoren
GA102: 27,4 Mrd. Transistoren

Warum ist das der "korrekte" vergleich? GA102 vs AD102 ist der korrekte Vergleich, jeweils der "Top"-Chip.

Sosnt bekommt man ja allein schon weil die Architekturen ja eben NIE linear skalieren absolut seltsame Verzerrungen in Perf/Transistor.
1x Wenn ich den Chip im abgespeckter Form und im Taktsweetspot nehme vs 1x Top dog der völlig überreizt ist.

Nur was hab ich dann von so einem Vergleich?
Auch ist es schwierig bei Teildeaktivierten chips den Transistorcount zu schätzen. Daher hab ich EXTRA Chips gewählt wo ich sicher sein kann dass der Gesamttransistorcount stimmt.
In meinem Vergleich über mehrere Generationen habe ich JEWEILS immer nur VOLL aktivierte Chips genommenm, genau damit man nicht in die Bredouille kommt ungleich auf "Effizienz" eingestellt Chips zu vergleichen.

Bei meinem Flops Ansatz vor ein paar Seiten hab ich ja dazu EXTRA sogar die Mittelwerte über ALLE Chips einer Architektur genommen - denn es gibt da ja ziemlich große Ausreisser sonst in die eine oder andere Richtung wenn man nur 1 Chip nimmt.

GerryB

2022-10-22, 16:32:24

Nein, das macht eher wenig Sinn, denn der IF-Cache ist ja wesentlich für die Performance der Architektur.

IF-cache ala RDNA2 und MCD´s bei RDNA3 sollten etwa gleich gut fünzen.(kaum Bandbreitenlimit)
aber
Entscheidend sind die Transistoren OHNE den L3.
(Perf.Transistoren in den WG´s+ROP´s+L0+L1+L2, wobei dank OREO L1+2 besser sein werden oder zumindestens
die Latenz zu den MCD´s wieder gut machen)

6900 ohne IF-Cache ca. 24Mrd.
7900(50)-GCD abzgl Connect auch ca.24Mrd.(falls Deine Schätzung zur Packdichte passt)
--> da kann man easy viel Watt in mehr Takt stecken

fondness

2022-10-22, 16:39:09

why_me

2022-10-22, 16:59:42

Nein, das macht eher wenig Sinn, denn der IF-Cache ist ja wesentlich für die Performance der Architektur.

Sein einwand ist schon richtig, weil der breitere Chip (AD102) in der Regel schlechter skaliert, aber warum er dann AD104 anstatt AD103 nimmt, verstehe ich zum Beispiel nicht.

AD103 vs GA102 unterscheiden sich von den Einheiten etc nur im L2 Cache, Speicherinterface und eben in den 62% mehr Transistoren die AD103 mit sich bringt.
AD103 mag zwar etwas schneller sein, als ein GA102, durch den höheren Takt. Aber Nvidia hat hier einiges an Transistoren in AD103 gesteckt, die scheinbar keine höheren FPS erzeugen.

vinacis_vivids

2022-10-22, 17:05:19

https://appuals.com/rx-7900m-as-fast-as-3090/?utm_source=dlvr.it&utm_medium=twitter

"Fastest RDNA3-Mobile Based ‘RX 7900M’ GPU Rumoured to Be On Par With The RTX 3090"

RX 7900M ist vermutlich mit N32 bestückt. Mobile sind max. 150W für die GPU verfügbar. 150W AMD ~ 450W NV ist hervorragend.

Von der 6800M auf die RTX3090 ist ein sehr starker Sprung.

Mit der 6800S hat AMD den SI-Cut von 96MB auf 32MB sehr gut praktiziert. Sowohl N33m als auch N32m sind geile mobile Chips. Hier kann AMD sehr viel Marktanteile holen.

bbott

2022-10-22, 17:07:15

In älteren Gerüchten war N33 grob 100mm2 größer als bei den jetzigen Gerüchten wenn ich mich recht erinnere.
N33 war ursprünglich 6nm, nun sind es evtl. 5nm?

vinacis_vivids

2022-10-22, 17:19:36

N33 war ursprünglich 6nm, nun sind es evtl. 5nm?

N33 6nm ~ 400mm²
18 WGP + 2 MCD (Allerdings zu groß, Wafer zu knapp und zu teuer)

N33 6nm ~ 203mm²
16 WGP Monolitisch (klein, einfache Fertigung und günstig)

Denkt dran Leute, Gegner des N33 ~ 203mm² ist Intel Alchemist ~ 406mm² :tongue:
Für diese Leistung bracht AMD kein knappes 5nm, sondern billiges und hoch verfügbares 6nm.

Neurosphere

2022-10-22, 17:41:15

Kepler hat jetzt ein paar Sachen rausgehauen, aber wie immer mit einer Prise Salz genießen. Hot hatte das mit dem 3D-VCache schon eine Seite zuvor, ich packs aber nochmal dazu:

https://twitter.com/Kepler_L2/status/1583552467538628608

7900 XT/7950 XT don't have 3D V-Cache. There will be one version of N31 with same CUs and bus as 7950 XT but twice as much Infinity Cache. I don't know what it will be called (7950 XT3D? 7970 XT? Fury X3D?) 😄

https://twitter.com/Kepler_L2/status/1583550898638245889

I still see so many people assume 7800 XT will use Navi31, just stop!

N31 is far too powerful to compete with the lowly 4080.

7900 XT/7950 XT and whatever name AMD chooses for the 3D V-Cache variant are the N31 models 😉

https://twitter.com/Kepler_L2/status/1583660549908271104

No, they aren't releasing any *800 card this year.

https://twitter.com/SBharathNaraya1/status/1583622116372803584

I'm not expecting any competition for the 4090 from AMD.
You'll be pleasantly surprised then.

https://twitter.com/Kepler_L2/status/1583554771322957824

Yes mid-3GHz seems to be the target.

https://twitter.com/Kepler_L2/status/1583660210970771456

Auf greymons Umfrage nach den Preisen.

$999 is a good joke

Zusammengefasst:

Navi 31 nur auf 7900 Aufwärts. Deswegen auch die 7800 und darunter erst kommendes Jahr mit den anderen Chips.

Preis deutlich über 1000€, EU ist ja eh teurer und Performance irgendwo bei der 4090. Welche Chips wo landen sei dahingestellt.

bbott

2022-10-22, 18:19:10

Das ist die Frage.
Auf der einen Seite stimme ich zu und Lieferschwierigkeiten etc. werden aktuell auch gerne genutzt, um die Preise zu erhöhen.

Aber es steigt aktuell auch Intel mit in den Ring. Ob AMD da langfristig auf seinen 20% Marktanteil sitzen bleiben will, oder diesmal nicht doch agressiver mit dem Preis vorgeht.
Nvidia hat sich aktuell verzockt und richtig Probleme mit dem Lagerbestand der alten Gen.
AMD könnte sehr Agressiv vorgehen um sich Marktanteile zu sichern. Nvidia dabei richtig weh tun und gleichzeitig Intel zeigen, das man Intel nicht am Markt haben will.

Wenn AMD bei 20% Marktanteil bleibt und die Preise anzieht, kommen sie mMn. langfristig unter die Räder. Das mag diese Intel Gen noch nicht so sein und vermutlich auch nächste noch nicht. Aber Intel wird schneller aufholen, was die Treiber angeht, als es AMD lieb sein kann und dann braucht man eine Gute position im Markt. Und in diese Position kommt man als zweiter Player mit Nvidia Preisen einfach nicht.

So ein Quatsch, AMD/ATI hat häufiger über den Preis versucht Marktanteile zu bekommen und wo steht AMD jetzt?!
Besonders HD4000 vs. GTX200 hat AMD dort viel besserem P/L Marktanteil verloren. Die meisten haben sich über Günstige Preise bei NV gefreut und beide habe eher Mise gemacht.
NV wird bei deutlich besseren Preis nachziehen und der Markanteil bleibt gleich, das einzige das AMD erreicht ist Marge direkt zu minimieren.

basix

2022-10-22, 18:30:53

Oder aber N33 benutzt auch N5 (wobei N6 für N33 war nicht aus der angstronomics Quelle).

War dort aber auch aufgeführt ;)
https://www.angstronomics.com/p/amds-rdna-3-graphics

Navi 33

gfx1102 (Hotpink Bonefish)
Monolithic
16 WGP (32 legacy CUs, 4096 ALUs)
2 Shader Engines / 4 Shader Arrays
Infinity Cache 32MB
128-bit GDDR6
TSMC N6, ~203 mm²

Wir müssen das so sehen: ALUs sind relativ günstig. Da könnte ein kleines Die schon passen, da die Caches und VGPR bei N33 nicht grösser geworden sind (ok, der L1$ ist grösser geworden, mit 256kB anstatt 128kB ist der aber nicht wirklich gross). N33 muss man als N23 verstehen, wo primär die doppelten ALUs dazugekommen sind.
Nun halt die grosse Frage, ob AMD die zusätzlichen Recheneinheiten auch auslasten kann. Der grössere L1$ ist ein Puzzlestück davon. Und dazu, wie viel besser man bei RT wird. Die RT-Cores sind aber anhand des Beispiels Turing aber nicht unbedingt ein Die-Fläche-Treiber. Da könnten jetzt die anderen RDNA3 Optimierungen, welche auf Flächenreduktion abzielen, die Mehrtransistoren für den L1$ und verbesserte Raytracing Beschleunigung kompensieren. Dazu noch N6 anstatt N7 obendrauf. So unrealistisch sehe ich die 203mm2 in N6 eigentlich nicht. Da gab es schon wildere Spekulationen ;)

TheGood

2022-10-22, 19:16:29

Kann man so auch nicht sagen, nachdem alle 4090 benchmarks gemacht wurden, hat Nvidia doch zufälligerweise doch noch Leistung bei den Ampere Karten gefunden.... :biggrin:

Herzlich wenig heißt ja nicht nichts :) Und die jetzige Aufstockung nach zwei jahren ist natürlich gut, ändert aber auch nicht so viel am ursprünglichen Ergebnis.

robbitop

2022-10-22, 19:36:20

Irgendwo wurde neulich gesagt (rgt) dass nicht alle rdna3 GPUs die neuen WGPs mit den doppelten fpus haben.

dargo

2022-10-22, 21:25:17

Dieselben Gerüchte, die auch noch von 350-400mm² Die size gesprochen haben? Und von Dual GCD bei N32/33?

Keine Ahnung wo du deinen Quatsch her hast, aber mein letzter Gerüchtestand heißt N33 mit ca. 200mm² @N6. Von Dual GCD noch nie was gehört, ist auch vollkommender Bullshit.

Linmoum

2022-10-22, 21:30:45

Dual GCD waren Ewigkeiten die anfänglichen Gerüchte, bis irgendwann im Frühjahr diesen Jahres es das erste Mal hieß, es sei doch nur eines.

prinz_valium_2

2022-10-22, 21:32:34

Kepler hat jetzt ein paar Sachen rausgehauen, aber wie immer mit einer Prise Salz genießen. Hot hatte das mit dem 3D-VCache schon eine Seite zuvor, ich packs aber nochmal dazu:

https://twitter.com/Kepler_L2/status/1583552467538628608

https://twitter.com/Kepler_L2/status/1583550898638245889

https://twitter.com/Kepler_L2/status/1583660549908271104

https://twitter.com/SBharathNaraya1/status/1583622116372803584

https://twitter.com/Kepler_L2/status/1583554771322957824

https://twitter.com/Kepler_L2/status/1583660210970771456

Auf greymons Umfrage nach den Preisen.

Zusammengefasst:

Navi 31 nur auf 7900 Aufwärts. Deswegen auch die 7800 und darunter erst kommendes Jahr mit den anderen Chips.

Preis deutlich über 1000€, EU ist ja eh teurer und Performance irgendwo bei der 4090. Welche Chips wo landen sei dahingestellt.

Sad.
Aber vllt kommt die 7800er mit N32 zu angenehmen Preisen.
Ich brauche keine 4090 Leistung.

vinacis_vivids

2022-10-22, 21:44:51

Es gibt schon noch das Gerücht mit N3X als "Radeon Pro" mit max. 16.384SP und max. 32GB ECC VRAM für Content Creator. Die Karte wird mit der RTX6000 Ada 48GB ECC konkurrieren. Kann aber auch sein dass Navi31 12.288SP als "Radeon Pro" mit 48GB VRAM auftaucht.

Diese Dual GCD wird wohl verwechselt mit der Radeon Pro für Mac: Radeon Pro W6800X Duo mit 2x32GB VRAM.
https://abload.de/img/amd-radeon-pro-w6800xr5f4g.jpg

P.S.: Kostet bei Apple nur 5750€ :-D

Dies ist aber gar nicht für Gaming/Spiele vorgesehen, sondern Compute und andere Sachen.

@dargo
"iamthebear" ist wohl verwirrt von der Informationsflut (wie manch anderer auch :-D)

Die "Dual"-GCD-Grafikkarten kann AMD sehr wohl bauen. Nur ist die Unterstützung seitens der Entwickler eher mangelhaft, weil man zwei physische GPUs ansprechen muss, um skalieren zu können. Die allermeisten Spiele sprechen explizit deshalb nur eine GPU an.

Eine Dual-N33 6nm 203mm² Konfiguration wäre mit 8192SP auf Augenhöhe der N32. Treibertechnisch aber zu kompliziert bisher, deswegen bleibt eine solche Variante in der Schublade und wird niemals erscheinen.

Neurosphere

2022-10-22, 21:55:18

Die "Dual"-GCD-Grafikkarten kann AMD sehr wohl bauen. Nur ist die Unterstützung seitens der Entwickler eher mangelhaft, weil man zwei physische GPUs ansprechen muss, um skalieren zu können. Die allermeisten Spiele sprechen explizit deshalb nur eine GPU an.

Eine Dual-N33 6nm 203mm² Konfiguration wäre mit 8192SP auf Augenhöhe der N32. Treibertechnisch aber zu kompliziert bisher, deswegen bleibt eine solche Variante in der Schublade und wird niemals erscheinen.

Nein! Ein Dual GCD wirkt nach außen wie ein Chip. Das hat nichts mehr mit den alten Dual-GPUs zu tun.

ChaosTM

2022-10-22, 21:58:16

Dual GCD oder Multi GDC`s gelten als einer der heiligen Grale der Software Entwicklung.

Wer das zuerst tackled ist ganz weit vorne.. (natürlich ohne micro Ruckler)

vinacis_vivids

2022-10-22, 22:02:16

Nein! Ein Dual GCD wirkt nach außen wie ein Chip. Das hat nichts mehr mit den alten Dual-GPUs zu tun.

Mir isses egal. Wenn AMD/ATI wieder geile GPUs baut mit Dual-Fähigkeiten, stecke ich gerne im nächsten PCIe-Slot noch eine AMD-Grafikkarte drauf.

Hach, das waren Zeiten :tongue:. Da hab ich mir aus Spaß auch mal 2 X HIS ICE HD 3870 gegönnt mit Kupferkühlung.
Schöne blaue Platine, dick Kupfer und schöner Lüfter. Heute ist irgendwie alles schwarz und mega boring.

https://abload.de/img/dsc00047kf1.jpg
https://abload.de/img/dsc00065txf.jpg

Da hat Crysis schön geruckelt ;D

ChaosTM

2022-10-22, 22:05:27

Ja, weil Crysis nur einen Thread konnte.
Wenn jemand eine Software entwickelt, die das alles umgehen kann, dann ist er der neue Gates/Bezos/Musk..

HOT

2022-10-22, 22:08:17

Irgendwo wurde neulich gesagt (rgt) dass nicht alle rdna3 GPUs die neuen WGPs mit den doppelten fpus haben.
Da würde ich auch darauf tippen. Da sieht man aber, wie gewaltig die neue Generation ausfallen muss. N33 wird sicherlich nah an den RDNA2-WGPs sein, nur weniger Shader als N21, dafür deutlich mehr Takt. Mit 32MB und 128Bit muss das Teil aber mMn sehr hoch getakteten Speicher (20Gb/s+) bekommen, damit der die Leistung auf die Strasse bringen kann.

Wenn man das so sieht, dann sind für N32 3 Salvage-Stufen wahrscheinlich, eine mit 16, eine mit 24 und eine mit vollen 32WGP. N31 dann mit 40, 44 und 48 WGP oder sowas.

Mir ist immer noch schleierhaft, wie man das Ganze in Modellnummern packen will. Eigentlich braucht man ein komplett neues Namensschema...

iamthebear

2022-10-22, 22:20:13

Irgendwo wurde neulich gesagt (rgt) dass nicht alle rdna3 GPUs die neuen WGPs mit den doppelten fpus haben.

Afaik haben alle die doppelten WGPs aber Navi33 ist an diversen anderen Stellen abgespeckt (sorry weiß nicht mehr genau was es war). Kepler_L2 hat dazu etwas aus den Linux Treibern gezogen.
Alleine deshalb ist N33=N21 schon sehr unwahrscheinlich, da N31 dann viel zu stark wäre.

Keine Ahnung wo du deinen Quatsch her hast, aber mein letzter Gerüchtestand heißt N33 mit ca. 200mm² @N6. Von Dual GCD noch nie was gehört, ist auch vollkommender Bullshit.

Die 200mm² kamen was ich mich erinnern kann nur von Angstronomics.
Das N33=N21 kommt von MLID siehe:
https://youtu.be/tefqiCaikGk

Dazu 360-460mm² Die Size und 128MB IF$ mit der Chance auf 256MB.

Einige Monate davor (noch vor Tape out) hat Greymon auch N21=33 gepostet und soviel ich mich erinnern kann anschließend noch nach oben korrigiert bis auf ca. 1.2x

Meine Vermutung: Performance und Die Size stammen von N32, der IF$ war geraten oder ein sehr früher Plan am Anfang der Designphase.

Die "Dual"-GCD-Grafikkarten kann AMD sehr wohl bauen. Nur ist die Unterstützung seitens der Entwickler eher mangelhaft, weil man zwei physische GPUs ansprechen muss, um skalieren zu können. Die allermeisten Spiele sprechen explizit deshalb nur eine GPU an.

Wenn eine Dual GPU Karte den Support der Spieleentwickler braucht, dann ist die schon von vorn herein zum Scheitern verurteilt.
Bei Launch wird dies keine einzige Engine untertützen und man hat nur halbe Performance. Das ist dann so tot wie SLI/Crossfire.

Eine Dual-N33 6nm 203mm² Konfiguration wäre mit 8192SP auf Augenhöhe der N32. Treibertechnisch aber zu kompliziert bisher, deswegen bleibt eine solche Variante in der Schublade und wird niemals erscheinen.

Es würde nur Sinn machen wenn der Interconnect zwischen den 2 GCDs so performant ist, dass sich diese nach außen wie eine GPU ausgeben kann und trotzdem nicht in Performanceprobleme läuft. Die Lösung mit den geshareten MCDs als Bridge dazwischen hat sich ja plausibel angehört. Nur ob diese auch umsetzbar ist, das kann ich nicht sagen. Ich will nicht ausschließen, dass dann mit RDNA4 auch so kommt.

ChaosTM

2022-10-22, 22:27:07

Neurosphere

2022-10-22, 23:01:52

Die Lösung ist intelligente Software, die natürlich unglaublich komplex ist.
Wer das zuerst löst gewinnt..

Das gleiche gilt für CPU Thread Auflösung.
Dort liegen die größten Gewinne bezüglich C/GPU Geschwindigkeit immer noch begraben.

Punkto Die Shrink sind wir fast am Ende - der Gewinn kann nur aus der Software kommen..

Naja, moment. Du hast bei Zen auch mehr als ein CCD und das ist der Software egal, wichtig ist das die Last auf die Kerne aufgeteilt werden kann. Die Herausforderung liegt eher auf der Hardwareseite die Latenzen gering zu halten usw usw. Die Software interessiert das CCD nicht, nur die Kerne die sie ansprechen muss.

Warum sollte das bei einem GCD nun genau anders sein?

Thomas Gräf

2022-10-22, 23:31:14

War das nich so das sich Grafik in Echtzeitberechnung nicht oder kaum parallelisieren lässt?
Im Gegensatz zu manch CPU Zeugs was man aufdröseln kann in Threads.

Ravenhearth

2022-10-22, 23:44:35

Genau das Gegenteil ist der Fall.

Thomas Gräf

2022-10-22, 23:48:49

Ahh ok, danke.

ChaosTM

2022-10-23, 00:05:24

Naja, moment. Du hast bei Zen auch mehr als ein CCD und das ist der Software egal, wichtig ist das die Last auf die Kerne aufgeteilt werden kann. Die Herausforderung liegt eher auf der Hardwareseite die Latenzen gering zu halten usw usw. Die Software interessiert das CCD nicht, nur die Kerne die sie ansprechen muss.

Warum sollte das bei einem GCD nun genau anders sein?

Es geht darum eine Software zu entwickeln, die aus JEDER Software, die (per default) auf nur einem einzelnen Thread beruht und nur den einen Maximal nutzen kann, das Maximum heraus zu holen.

Es gibt Ansätze, aber von der Verwirklichung sind wir immer noch weit entfernt.

add.: deshalb -> THE HOLY GRAIL of softtware

Neurosphere

2022-10-23, 00:41:41

Es geht darum eine Software zu entwickeln, die aus JEDER Software, die (per default) auf nur einem einzelnen Thread beruht und nur den einen Maximal nutzen kann, das Maximum heraus zu holen.

Es gibt Ansätze, aber von der Verwirklichung sind wir immer noch weit entfernt.

add.: deshalb -> THE HOLY GRAIL of softtware

Aber spielt das bei der Grafikberechnung überhaupt eine Rolle? Hier ist doch eh alle maximal parallelisierbar, deswegen haben wir ja tausende einzelne Recheneinheiten in einer GPU. Bei zwei GPUs war die Aufteilung schwierig weil das ganze eben nur ungenügend parallelisiert werden kann weil man beide GPUs nicht an einem Bild Rechnen lassen konnte sondern ähnlich wie bei deiner Beschreibung versuchen musste "Threads" abzuleiten, woraus dann TBR oder AFR entstanden.

Bei mehren GPCs habe ich aber nur eine GPU und sie verhalten sich eben auch so. Beide GPCs können an ein und dem selben Bild Berechnungen ausführen. Ich sehe nicht warum es da generell probleme geben sollte außer die bereits genannten mit der Latenz.

Thomas Gräf

2022-10-23, 01:19:23

ChaosTM

2022-10-23, 01:38:46

Wenn er das bringt, wäre das Billionen wert ;)

Digidi

2022-10-23, 01:45:37

Nicht jedes Mathematische Problem lässt sich Parallelisieren. Es gibt mathematische Probleme die lassen sich nur Seriell lösen.

Aber spielt das bei der Grafikberechnung überhaupt eine Rolle? Hier ist doch eh alle maximal parallelisierbar, deswegen haben wir ja tausende einzelne Recheneinheiten in einer GPU. Bei zwei GPUs war die Aufteilung schwierig weil das ganze eben nur ungenügend parallelisiert werden kann weil man beide GPUs nicht an einem Bild Rechnen lassen konnte sondern ähnlich wie bei deiner Beschreibung versuchen musste "Threads" abzuleiten, woraus dann TBR oder AFR entstanden.

Bei mehren GPCs habe ich aber nur eine GPU und sie verhalten sich eben auch so. Beide GPCs können an ein und dem selben Bild Berechnungen ausführen. Ich sehe nicht warum es da generell probleme geben sollte außer die bereits genannten mit der Latenz.

Es gibt noch mehr als Grafik in einem Spiel. Die ganzen NPC Berechnungen, Physikalische Effekte etc. Wie oben schon gesagt nicht alles lässt sich Mathematisch als Parallel Lösung darstellen.

Neurosphere

2022-10-23, 02:06:42

Nicht jedes Mathematische Problem lässt sich Parallelisieren. Es gibt mathematische Probleme die lassen sich nur Seriell lösen.

Es gibt noch mehr als Grafik in einem Spiel. Die ganzen NPC Berechnungen, Physikalische Effekte etc. Wie oben schon gesagt nicht alles lässt sich Mathematisch als Parallel Lösung darstellen.

Das übernimmt aber eben großteils die CPU und nicht die GPU. Und Physik läuft auch auf den heutigen GPUs, warum dann nicht auf zwei GPCs?

iamthebear

2022-10-23, 02:26:19

War das nich so das sich Grafik in Echtzeitberechnung nicht oder kaum parallelisieren lässt?
Im Gegensatz zu manch CPU Zeugs was man aufdröseln kann in Threads.

GPUs sind hochparallel. Vereinfacht gesagt kann man sagen, dass jedes Pixel eine Aufgabe darstellt, die parallel vom Rest abgearbeitet werden kann.

Bei CPUs ist das komplizierter. Hier hat man es mit einem Mix an verschiedenster Aufgaben zu tun. Teilweise lassen sich diese relativ gut parallisieren, teilweise nicht.
Was aber in der Praxis das größere Problem ist: Wenn nicht jeder Thread mit seinen eigenen Daten arbeitet, sondern gemeinsam genutzte Daten ständig gelesen UND geschrieben werden, dann muss man diese Zugriffe wieder synchronisieren um diverse Race Conditions zu vermeiden, was für die hässlichsten Bugs sorgt, die man sich vorstellen kann, da diese nicht reproduzierbar sind.

Aber spielt das bei der Grafikberechnung überhaupt eine Rolle? Hier ist doch eh alle maximal parallelisierbar, deswegen haben wir ja tausende einzelne Recheneinheiten in einer GPU. Bei zwei GPUs war die Aufteilung schwierig weil das ganze eben nur ungenügend parallelisiert werden kann weil man beide GPUs nicht an einem Bild Rechnen lassen konnte sondern ähnlich wie bei deiner Beschreibung versuchen musste "Threads" abzuleiten, woraus dann TBR oder AFR entstanden.

Das Problem bei den Dual GPU Lösungen ist, dass diese keinen gemeinsamen Speicher haben. Diesen könnte man zwar theoretisch teilen aber ist dafür die Bandbreite zwischen den 2 GPUs viel zu gering als dass das transparent funktionieren würde.

Bei mehren GPCs habe ich aber nur eine GPU und sie verhalten sich eben auch so. Beide GPCs können an ein und dem selben Bild Berechnungen ausführen. Ich sehe nicht warum es da generell probleme geben sollte außer die bereits genannten mit der Latenz.

Die Latenz ist relativ egal. Selbst der L2 hat z.B. bei Nvidia Latenzen um die 200ns. Aber das spielt bei einer hoch parallelen Aufgabe keine Rolle, da (in CPU Sprache) sowieso viel mehr Threads als Kerne da sind. Da zählt nur der Durchsatz.
Die Schwierigkeit bei Dual GCD ist, dass man die 2 GCDs beide schnell genug miteinander verbinden muss. Wir reden hier von mehreren TB/s. Alleine bei den MCDs ist es schon sportlich. Selbst Navi21 hatte schon eine IF$ Bandbreite von 2TB/s. Bei Navi31 müssten es eigentlich 3-4TB/s von GCD zu den MCDs sein. Da kommen dann noch die Daten dazu, die von GCD zu GCD fließen.

AMD hat mit dem MI200 ja bereits eine Dual GCD Lösung am Markt aber da hat die Bridge nur eine Bandbreite von 400GB/s. Da fehlt noch eine 10er Stelle und wir reden hier von 2 extrem fetten Datacenter Dies.

Digidi

2022-10-23, 02:33:41

Das übernimmt aber eben großteils die CPU und nicht die GPU. Und Physik läuft auch auf den heutigen GPUs, warum dann nicht auf zwei GPCs?

Auch wenn Sie Probleme parallelisieren lassen, müssen oft noch daten zwischen den einzelnen Domänen ausgetauscht werden. Je näher das beisammen liegt um so schneller geht das.

Nightspider

2022-10-23, 04:50:27

Ne, das meiste werden Massetransistoren zur Taktsteigerung gewesen sein

Kannst du das mit den Massetransistoren etwas ausführen? Wieso braucht man zusätzliche Massetransistoren, wenn einige Transistoren schneller schalten sollen?

Die "Dual"-GCD-Grafikkarten kann AMD sehr wohl bauen. Nur ist die Unterstützung seitens der Entwickler eher mangelhaf

AMD kann auch 10 GCDs auf eine Platine löten und den Schriftzug "LOOOOL" ins PCB ätzen.

Unterstützung nicht vorhanden ist bei dir mangelhaft?

Was hier wieder für Grütze steht Leute....

War das nich so das sich Grafik in Echtzeitberechnung nicht oder kaum parallelisieren lässt?
Im Gegensatz zu manch CPU Zeugs was man aufdröseln kann in Threads.

:facepalm: ;D

Du bist doch bald 20 Jahre hier im 3D-Center. Was machst du hier eigentlich? :D

Warum haben die Grafikchips wohl tausende Shadereinheiten?

Das Problem ist die Bandbreite, wenn man MultiGPU realisieren will, das sich nach außen hin wie ein monolithischer Chip verhält.

Dual GCD oder Multi GDC`s gelten als einer der heiligen Grale der Software Entwicklung.

Wer das zuerst tackled ist ganz weit vorne.. (natürlich ohne micro Ruckler)

Du meinst Hardware Entwicklung? Weil Software Entwickler in der Regel wenig Hardware entwickeln Bro.

Aber spielt das bei der Grafikberechnung überhaupt eine Rolle? Hier ist doch eh alle maximal parallelisierbar, deswegen haben wir ja tausende einzelne Recheneinheiten in einer GPU. Bei zwei GPUs war die Aufteilung schwierig weil das ganze eben nur ungenügend parallelisiert werden kann weil man beide GPUs nicht an einem Bild Rechnen lassen konnte sondern ähnlich wie bei deiner Beschreibung versuchen musste "Threads" abzuleiten, woraus dann TBR oder AFR entstanden.

Bei mehren GPCs habe ich aber nur eine GPU und sie verhalten sich eben auch so. Beide GPCs können an ein und dem selben Bild Berechnungen ausführen. Ich sehe nicht warum es da generell probleme geben sollte außer die bereits genannten mit der Latenz.

GCDs ist nur ein Name. Nirgends steht das GCD oder Multi-GCDs plötzlich zaubern können und sich nach außen hin wie ein monolithischer Chip verhalten.

Bei Navi N31 gibt es nur einen einzigen GCD.

Wenn du dir AMDs Patente anschaust ist da die Rede von GPU Chiplets und nicht von GCDs wenn es um mehrere GPUs geht, die sich nach außen hin wie ein monolithischer Chip verhalten sollen und das auch nur in Verbindung mit aktiven Interposern.

https://www.freepatentsonline.com/20210097013.pdf

Ich empfehle dir diesen Artikel:

https://www.computerbase.de/2022-07/amd-patentantrag-gpu-chiplet-auslastung/

Daraus ist auch ersichtlich, was das Problem bei der ganzen Sache ist und wie man sie in Zukunft vielleicht lösen könnte.

Es mag sein das AMD jetzt schon eine GPU mit 2 GCDs bauen könnte die deutlich besser als Crossfire funktioniert aber wahrscheinlich würde sie sich nach außen hin noch nicht wie ein monolithischer Chip verhalten oder sehr ineffizient laufen.

Sinnvoller wäre es für AMD da ein GCD mit 400 oder 500mm² zu bauen und mehr MCDs dranzukleben, wenn man die Leistungskrone will.
AMD >könnte< das tun. Will man scheinbar aber nicht.
Durch den Chiplet Aufbau und den IF$ ist AMD aktuell jedenfalls nicht durch die Chipgröße oder die Bandbreite begrenzt.

AMD könnte auch in N4 noch ein ~400mm² TopDog nachlegen und Nvidia auslachen aber auch das wird man nicht tun und sich eher auf RDNA4 und Zen5/6 konzentrieren.

Die Entwicklungsressourcen sind begrenzt und AMD hat ja noch tausende offene Stellen. Es fehlt also an gutem Personal. ;)
Am Geld mangelt es AMD jedenfalls nicht, da man sogar eigene Aktien zurückkauft.

robbitop

2022-10-23, 07:15:33

Neurosphere

2022-10-23, 10:23:48

@Nightspider, danke für die Links. Ich glaube da gab es in der Vergangenheit aber schon mehr. Vor RDNA 2 tauchte damals ein ähnliches Patent von AMD auf das sich mit so einer Thematik beschäftigte.

Aber generell:

Zum einen, das ändert nichts daran das die zwei GCD für die Software kein Problem darstellen.

Zum anderen, wenn der Interconnect bei MI200, auch wenn er bidirektional ist und vermutlich dann real 800 GB/s leistet, reicht doch auch?

Im von robbitop erwähnten Apple M1 Ultra liegt die Bandbreite bei 2,5GB/s, technisch lösbar ist das ganze also.

Man sollte auch nicht vergessen das AMD sich hier mit Xilinx scheinbar echt Kompetenz eingekauft hat was Interposer und Interconnect angeht.

OgrEGT

2022-10-23, 12:13:30

Afaik haben alle die doppelten WGPs aber Navi33 ist an diversen anderen Stellen abgespeckt (sorry weiß nicht mehr genau was es war). Kepler_L2 hat dazu etwas aus den Linux Treibern gezogen.
Alleine deshalb ist N33=N21 schon sehr unwahrscheinlich, da N31 dann viel zu stark wäre.

Die 200mm² kamen was ich mich erinnern kann nur von Angstronomics.
Das N33=N21 kommt von MLID siehe:
https://youtu.be/tefqiCaikGk

Dazu 360-460mm² Die Size und 128MB IF$ mit der Chance auf 256MB.

Einige Monate davor (noch vor Tape out) hat Greymon auch N21=33 gepostet und soviel ich mich erinnern kann anschließend noch nach oben korrigiert bis auf ca. 1.2x

Meine Vermutung: Performance und Die Size stammen von N32, der IF$ war geraten oder ein sehr früher Plan am Anfang der Designphase.

(...)

Sorry, wenn ich Dich falsch verstehe... welchen Sinn macht es einen N5 N32 zu entwickeln, welcher +/- auf N21 Niveau landet und teurer ist?

N21 Leistung macht nur Sinn mit einem günstigeren N6 N33 Chip zu egalisieren, da man ansonsten einfach N21 weiter laufen lassen könnte...

vinacis_vivids

2022-10-23, 12:39:33

https://twitter.com/blueisviolet/status/1584108297207980037

https://abload.de/img/ffvif31uyaeq1teu6fwp.jpg

XDXR (XBOX) kann neben den Shader zusätzlich BHV-Beschleunigung parallel dazu.

Diese Erneuerung kommt auch RDNA3 zu gute.

Derzeit sind ja diese Daten bekannt:
https://www.neogaf.com/threads/xsx-machine-learning-the-real-deal.1555929/
XBOX Series X
12tflops of 32-bit precision
24tflops of 16-bit precision
49 TOPS for 8-bit integer operations
97 TOPS for 4-bit integer operations.

Vgl:
Nvidia 2080ti
14.2tflops of 32-bit precision,
28.4tflops of 16-bit precision,
56.8 TOPS for 8-bit and
113.8 TOPS in 4-bit (113.8 Tensor flops in Nvidia speak).

Falls RDNA3 einen ähnlichen Aufbau hat kann man dies erwarten:
N31XTX erste Variante wie XBOX-X
81,1 Tflops fp32
162,2 Tflops fp16 (1:2)
324,4 TOPS int8 (1:4)
648,8 TOPs int4 (1:8)

N31XTX zweite Variante mit Verdopplung der fp16-Rate
81,1 Tflops fp32
324,4 Tflops bf16/fp16 (1:4) (ähnlich Matrix CDNA2)
324,4 TOPS int8 (1:4)
324,4 TOPs int4 (1:4)

Ich schätze die zweite Variante als eher wahrscheinlich.
Im Gaming-Bereich wird man sicher mehr und mehr die kleineren Einheiten (fp16, int8, int4) weiter ausbauen als fp32.
Die kleineren Einheiten sparen doch massiv an Bandbreite und Transistoren.
Mit dem Ausbau der fp16-Rate kann AMD bei FSR 2.1 und FSR 3.0 massiv an Performance gewinnen (wenn nötig), weil u.a. der Output-Buffer reines fp16 ist.

Badesalz

2022-10-23, 15:34:47

@vinacis_vivids
Eher nicht. Eher 1:8 als 1:4. Und wenn du alles in 16bit rechnest, dann sieht das irgendwann wie NVs Mattscheibe (DLSS3) aus. Und das will AMD eben nicht. Sie wollen diese klaren quality regressions nicht. Fertig.

iamthebear

2022-10-23, 17:35:54

Apple hat es mit dem M1 Ultra ja schon gezeigt. Man verbindet 2 dice mit einem super schnellen Interconnect. Jedes die hat seinen eigenen Speichercontroller. Apple lieferte damit die erste multi gpu, die transparent zur Anwendung sich wie eine GPU verhält. Und genau in diese Richtung wird es wohl mittelfristig gehen. Bei allen IHVs.

In Summe hat dieses Monsterteil 114 Mrd. Transistoren. Selbst wenn wir die CPU Kerne 7nd den ganzen restlichen optionalen Kram wegrechnen dürften wir immer noch um die 80-100 Mrd. Transistor liegen und erreicht dabei in Spielen mit Glück gerade mal 3070 Performance.

Sorry, wenn ich Dich falsch verstehe... welchen Sinn macht es einen N5 N32 zu entwickeln, welcher +/- auf N21 Niveau landet und teurer ist?

N21 Leistung macht nur Sinn mit einem günstigeren N6 N33 Chip zu egalisieren, da man ansonsten einfach N21 weiter laufen lassen könnte...

N32 hat 200mm² für das GCD + 160mm² für die MCDs, in Summe gerade Mal 360mm², was nur eine Spur über dem N22 Die ist und das obwohl die MCDs immer noch in N6 gefertigt sind.

robbitop

2022-10-23, 17:46:06

Naja das war ja gar nicht das Designziel des M1 Ultra in Spielen gut zu sein. Und darum ging es mir auch gar nicht sondern, dass es grundsätzlich funktioniert. Die Spieleperformance hat eher damit zu tun, dass die GPU IP (und die Treiber und der API Support) null auf Spiele ausgelegt sind.

@v_v
Bei FSR 2 wird vieles in FP32 gerechnet und der „Outputbuffer“ ist der Framebuffer - entsprechend auch nichts mit FP16. Erst recherchieren, dann posten.

Badesalz

2022-10-23, 17:48:35

@iamthebear
Ob das daran liegt, daß es bei Apple sowas wie Optimierungen des Treibers für ein Spiel, nicht gibt?
Während AMD und vor allem NV den Shadercode teils quasi komplett gegen ihre Laboroptimierten ersetzen? Oder was meinst du wovon das u.a. kommt, daß ein Grakatreiber heute größer ist als das Installimage von WinXPsp3?

Dafür haben sie immer mehr realen Nutzen von GPGPU, den ich unter Wintel immernoch nicht so sehe. DaVinci Resolve ist nur EIN Paradebeispiel dafür. Da reicht übrigens auch der M1 Pro um Wintel zu pulverisieren. Aber OSX (Apple) kümmert sich auch gut drum. MS kümmert sich nur darum, damit all die Schritte lang genug dauern und teuer genug sind...

Digidi

2022-10-23, 17:52:20

@iamthebear
Ob das daran leigt, daß es bei Apple sowas wie Optimierungen des Treibers für ein Spiel, nicht gibt?
Während AMD und vor allem NV den Shadercode teils quasi komplett gegen ihre Laboroptimierten ersetzen? Oder was meinst du wovon das u.a. kommt, daß ein Grakatreiber heute größer ist als das Installimage von WinXPsp3?

Heute wird in Spielen im Detail verfeinert. Früher waren das nur allgemeine Dinge. Ich glaube für einige Spiele werden dann schon Shader im Treiber mit geliefert oder ausgetauscht.

Eigentlich sagt der große Treiber nur das Spielentwickler einfach nur schlechten Code produzieren der durch Nvidia oder AMD erstzt wird. Manchmal haben die Spielentwickler auch abkommen mit AMD oder Nvidia, wo dann der Code vom Grafikkartenhersteller über den Treiber mitkommt. Was unschön ist, da dann die Konkurrenz nur per Reversengineering die Performance erhöhen kann, was viel Aufwnad bedeutet.

PC Gaming wird immer mehr zum Kapitalimus und dazu zum Sargnagel.

OgrEGT

2022-10-23, 18:31:26

(...)
N32 hat 200mm² für das GCD + 160mm² für die MCDs, in Summe gerade Mal 360mm², was nur eine Spur über dem N22 Die ist und das obwohl die MCDs immer noch in N6 gefertigt sind.
Sofern die kolportierten N3X Die Sizes so stimmen... Du müsstest die in N5 produzierten Chip Komponenten von N32 mit den entsprechenden Komponenten von N22 vergleichen... wie auch immer das gelöst wurde packt N32 wenn die Gerüchte stimmen 32WGPs mit 8192 SPs in N5 vs 2560 SPs von N22 in N7... (oder 30WGPs mit 7680...)
Das sind gut 3x mehr und dazu mehr Takt etc...

HOT

2022-10-23, 19:25:09

Sorry, wenn ich Dich falsch verstehe... welchen Sinn macht es einen N5 N32 zu entwickeln, welcher +/- auf N21 Niveau landet und teurer ist?

N21 Leistung macht nur Sinn mit einem günstigeren N6 N33 Chip zu egalisieren, da man ansonsten einfach N21 weiter laufen lassen könnte...
Ich weiss gar nicht so der Unsinn herkommt, dass der N21-Leistung haben soll. Das hat er garantiert nicht. N33 ist der Nachfolger von N23 und hat ebensoviele Shader, ist halt nur deutlich höher getaktet. Ein N33 wird in etwa das leisten, was ein N22 im Stande ist zu leisten, aber eben auch nur in FHD, denn dafür ist dieser Chip designt. Es ist doch schon länger bekannt, dass er nur die halbe Shaderanzahl pro WGP haben soll. Dann passt das übrigens auch mit den 200mm² in N6 ;). Wenn der Chip über 3GHz taktet braucht er mMn allerdings bei nur 32MB IF$ mehr Bandbreite als heute, so 20GT/s sollte es schon sein, wenn der in QHD nicht völlig abkacken soll.

N33 -> 2048 Shader (16WGPs @128 Shader)
N32 -> 8192 Shader (32WGPs @256 Shader)
N31 -> 12288 Shader (48WGPs @384 Shader)

Jetzt fügt man noch den N6 Chip N24 hinzu und das Lineup ist komplett.

Von der reinen Rechenleistung würde ein Salvage N32 mit 16WGPs einen N21 erreichen. In der Praxis wird die pure Rechenleistung aber auch hier nicht voll durchschlagen mMn. Wenn man hier einen N32 mit 24 WGPs mit einer 69x0XT auf eine Stufe setzt, passt das mit dem N31 full und doppelter Leistung.

Ich würd sagen:
7100-500 -> N24, 4 und 8GB
7600 -> N33 mit 12WGP, 8GB
7600XT -> N33 mit 16WGP, 8GB 20GT/s (6700XT-Leistung)
7700 -> N32 mit 16WGP, 12GB
7700XT -> N32 mit 24WGP, 16GB (6900XT-Leistung)
7800 -> N32 Full, 16GB
7800XT -> N31 mit 36WGP, 20GB
7900XT -> N31 mit 44WGP, 24GB
7950XT/X3D -> N31 full, 24GB (2x 6900XT-Leistung)

OgrEGT

2022-10-23, 19:49:31

Ich weiss gar nicht so der Unsinn herkommt, dass der N21-Leistung haben soll. Das hat er garantiert nicht. N33 ist der Nachfolger von N23 und hat ebensoviele Shader, ist halt nur deutlich höher getaktet. Ein N33 wird in etwa das leisten, was ein N22 im Stande ist zu leisten, aber eben auch nur in FHD, denn dafür ist dieser Chip designt. Es ist doch schon länger bekannt, dass er nur die halbe Shaderanzahl pro WGP haben soll. Dann passt das übrigens auch mit den 200mm² in N6 ;). Wenn der Chip über 3GHz taktet braucht er mMn allerdings bei nur 32MB IF$ mehr Bandbreite als heute, so 20GT/s sollte es schon sein, wenn der in QHD nicht völlig abkacken soll.

N33 -> 2048 Shader (16WGPs @128 Shader)
N32 -> 8192 Shader (32WGPs @256 Shader)
N31 -> 12288 Shader (48WGPs @384 Shader)

Jetzt fügt man noch den N6 Chip N24 hinzu und das Lineup ist komplett.

Von der reinen Rechenleistung würde ein Salvage N32 mit 16WGPs einen N21 erreichen. In der Praxis wird die pure Rechenleistung aber auch hier nicht voll durchschlagen mMn. Wenn man hier einen N32 mit 24 WGPs mit einer 69x0XT auf eine Stufe setzt, passt das mit dem N31 full und doppelter Leistung.

Ich würd sagen:
7100-500 -> N24, 4 und 8GB
7600(XT) -> N33, 8GB
7700 -> N32 mit 16WGP, 12GB
7700XT -> N32 mit 24WGP, 16GB
7800 -> N32 Full, 16GB
7800XT -> N31 mit 36WGP, 20GB
7900XT -> N31 mit 44WGP, 24GB
7950XT/X3D -> N31 full, 24GB

Da wäre aber ein sehr großer Abstand zu N33 2048SPs zu N32 8192SPs...
Wäre doch sinnvoller wenn N33 auch 4096 SPs hätte, dann müsste man den N32 nicht auf 50% salvagen...

Also
N33 -> 1,x N21XL (6800)
N32 -> 1,5-1,x N21XT (6900XT)
N31 -> 2-2,x N21XT (6900XT)

unl34shed

2022-10-23, 19:51:14

Und du meinst nicht, dass ein Faktor 4 zwischen N32 und N33 bzgl. Leistung keine Problem ist?
Oder dass eine so unterschiedliche Anzahl an Shadern/WGP nicht bei Optimierungen eher problematisch werden könnte?

amdfanuwe

2022-10-23, 20:20:46

Ich weiss gar nicht so der Unsinn herkommt,
Schlimmer als "Stille Post".
Gerüchte nicht kennen und noch mehr Unsinn dazuerfinden.

Schau noch mal hier
https://www.computerbase.de/2022-04/amd-phoenix-apu-zen-4-rdna-3/
und hier
https://www.3dcenter.org/news/news-des-15-august-2022
rein.

vinacis_vivids

2022-10-23, 20:21:14

@Hot
N33 - 4096 SP = 16 WGP x 256 ~ 32CU
32MB IF$, 128bit SI

N32 - 7680 / 8192 SP = 30 / 32 WGP x 256 ~ 60/64CU
64MB IF$, 256bit SI

N31 - 10752 / 12288 SP = 42 / 48 WGP x 256 ~ 88/96CU
96/192Mb IF$, 384bit SI

Ich gehe stark davon aus, dass alle RDNA3 WGPs die gleiche Struktur haben.
1 WGP (~1 DCU) ~ 2 CU = 2x128SP = 256SP

Iscaran

2022-10-23, 20:44:09

N33 -> 2048 Shader (16WGPs @128 Shader)
N32 -> 8192 Shader (32WGPs @256 Shader)
N31 -> 12288 Shader (48WGPs @384 Shader)

Wie kommst du darauf dass N33 nur 2.048 Shader hat? Und 48*384 wären übrigens 18.432 Shader und nicht 12.288.

Seit RDNA verbaut AMD WGPs, (werden auch als DCU Dual-Compute Units bezeichnet), diese bestehen aus 2 CUs zu je 64 Shadern.

N10 waren 20 WGP = 40 CU = 2.560 Shader (40*2*64)
N21 waren 40 WGP.
= 40*2*64 = 5.120 Shader
Nachzulesen auch im Architecture-pdf (https://developer.amd.com/wp-content/resources/RDNA2_Shader_ISA_November2020.pdf).

Workgroup Processor(WGP) | The basic unit of shader computation hardware, including scalar & vector ALU’s andmemory, as well as LDS and scalar caches.
Compute Unit (CU) | One half of a WGP. Contains 2 SIMD32’s which share one path to memory.

N33 sind laut Gerüchten 16 WGPs. Sollten diese wie RDNA2 aufgebaut sein:
16*2*64=2.048 Shader.

Das würde zwar zu AMDs bisherigem WGP Aufbau passen, aber die Gerüchte sind eigentlich ziemlich einheitlich und besagen dass die Shaderzahl pro WGP sich verdoppelt bei den RDNA 3 Chips.

Du nimmst also an, dass N33 ANDERS als N32 und N31 KEINE Shaderverdopplung im Chip hat?

Dann wären es in der Tat nur 2.048 Shader (nicht 4.096) die mit dem 5.120 Shadern von N21 konkurrieren müssten.

Das wäre nahezu ausgeschlossen ohne einen Taktsprung von +100% hier eine Performance on N21 Niveau zu erreichen.

Mit 4.096 jedoch + 25% Takt, sieht die Geschichte ganz anders aus. Und die aktuellen Gerüchte gehen eigentlich alle eher in diese Richtung.

Warum sollte AMD zwei unterschiedliche WGP-Arten verbauen in N33 und N32/N31 ?
Einmal mit der Shaderdopplung und einmal ohne? Ergibt für mich keinen Sinn.

iamthebear

2022-10-23, 22:48:22

Dass N33 nur 128FP32/WGP haben soll ist mir neu. Das würde auch dem Leak von Angstronomics widersprechen, der bisher noch von keinem der Leaker angezweifelt wurde.

Derzeit sieht es so aus:

Navi31:6 Shader Engines mit je 8 WGPs
Navi32: 3 Shader Engines aber dafür 10 WGPs
Navi33: 2 Shader Engines mit je 8 WGPs aber diverse andere "Abspeckungen"

Meine Prognose für die Raster Performance wenn alles ideal läuft für AMD:
N33 auf N22 Niveau bzw. leicht darunter
N32 auf N21 Niveau bzw. leicht darüber, Cut down Variante mit 3 MCDs zwischen 6800 XT und 6800
N31 irgendwo zwischen 4080 16GB und 4090, Cut down mit 5 MCDs auf 4080 16GB Niveau bzw. leicht darunter

N31 launched as Spitze
N33 ersetzt N22/23 Karten im Markt
N21 bleibt am Markt bis alle Vorräte weg sind. Dann launched N32
Im Desktop bleibt N24, Mobile decken APUs den gesamten Bereich unter N33 ab.

vinacis_vivids

2022-10-23, 22:53:43

@iamthebear

Deine Prognosen schauen schwach aus. Dir fehlen so paar uArch Kentnisse von RDNA / RDNA2 nehme ich mal stark an. Auch die Kentnisse von Shrinks usw. fehlen dir noch.

amdfanuwe

2022-10-23, 23:04:13

N33 = N21
stammt noch von den ersten Gerüchten her, dass N33 mit 20WGP = 40CU und verdoppelten ALUs ebenso wie der N21 auf 5120 ALUs kommt.
Also N33 so schnell wie N21?
N21 : 40WGP, 80CU, 5120 ALU, 520mm²
Daraus folgerte man zunächst 300mm² in N5, später 400mm² in N6 unter der Annahme, dass die verdoppelten ALUs auch doppelt soviel Fläche brauchen.

Dann kamen die Gerüchte, dass durch die verdoppelten ALUs die CUs sogar minimal kleiner werden, N33 nur noch 16WGP und somit nur noch 4096 ALUs enthält.
Das entspricht einem N23 mit verdoppelten ALUs.
N23 : 16 WGP, 32 CU, 2048 ALU, 32MB IF$, 128 Bit SI, PCIe x8, N7, 237mm²
Gerücht
N33 : 16 WGP, 32 CU, 4096 ALU, 32MB IF$, 128 Bit SI, PCIe x8, N6, 207mm²

Mit 4096 ALUs liegt man zwischen einer 6800, 3840 ALU und 6800XT, 4608ALU.
Wäre aber wirklich ein Meisterstück seitens AMD, wenn die verdoppelten ALUs auch zu einer verdoppelten Performance führen würden.

(Achtung, Fantasien meinerseits, Zahlen basieren auf keinerlei Grundlage)
Bleibt man etwas realistischer und nimmt an, dass die zusätzlichen ALUs 30% mehr Leistung bringen und der Takt durch N6 um 10% gesteigert werden kann, ist man bei 1,3 x 1,1 = 1,43 = 43% mehr Leistung wie eine 6600XT mit N23.
Laut CB liegt im Performancerating Rasterizer, AVG-FPS für 1902*1080 eine 6750 bei 38% und eine 6800 bei 51% über einer 6600XT.

Auf Grund der geringen Speicherbandbreite und des kleinen IF$ wird die Leistung bei WQHD und 4K wohl stark nachlassen.

So gesehen wäre N33 ein würdiger Nachfolger für N22 und brächte als 7600XT die Leistung einer 6700XT, in FHD etwas mehr, in 4K etwas weniger.

Was zur Verwirrung beitrug:
Twitterer Kepler_L2 spricht eine kleine, aber womöglich sehr wohl bedeutsame Differenz zwischen Navi 31/32 und Navi 33 an: Der kleinste der drei RDNA3-Grafikchip hat – wie bisher alle RDNA 1/2 Grafikchips – ein "Vector Register File" von 128 kByte Größe, während Navi 31 & 32 hierzu gleich 192 kByte mitbringen sollen. (https://www.3dcenter.org/news/news-des-15-august-2022)
Vector Register File ist etwas anderes als Shader oder ALUs

Iscaran

2022-10-23, 23:07:34

Dass N33 nur 128FP32/WGP haben soll ist mir neu. Das würde auch dem Leak von Angstronomics widersprechen, der bisher noch von keinem der Leaker angezweifelt wurde.

Also gehst du auch davon aus, dass N33 4.096 Shader haben wird?

Wenn also laut deinem Stand, N21 5.120 Shader hat und N33 deren 4.096 UND man aufgrund des Nodesprunges usw. noch davon ausgehen muss, dass AMD den Takt gesteigert haben könnte (+200 MHz = ~10% sollten da schon drin sein).

Wieso sollte N33 dann nicht mind. N21er Leistung packen?

Nur mal zum mitdenken:
5.120@2.250 MHz = 23 TFlops
4.096@2.500 MHz = 20.8 TFlops

Realistischerweise muss man aber für einen derart "kleinen" Chip wie N33 eher eine Taktfrequenz ähnlich zu N23 annehmen. Und dazu noch einen kleinen "Boost" (wegen des Nodesprungs). Das sind also ~2.600 MHz + X
4.096@2.800 MHz = 22.9 TFlops.

Also ich seh N33 hier nicht sehr weit von N21er Leistung...

Nachtrag: wegen amdfanuwes-Posting, das erschien als ich das tippte.

Das mit den unterschiedlichen Vector Registern macht mich auch ein wenig stutzig. Vor allem, die Gerüchteküche nimmt ja an dass durch die Vergrößerung der Vector Register die CU-Performance auch bei DOPPLUNG der Shader nicht "wesentlich" einbrechen sollte (IIRC "remains linear" habe ich irgendwo dazu gelesen).
Das würde ich so interpretieren, dass die Verdopplung zwar nicht x2 Performance bringt, aber x1.8-1.9 müsste das schon mindestens sein.

Dazu eine interessante Bemerkung: Das Vector Register wird um +50% erhöht, die Zahl der Recheneinheiten aber um +100%., Hätte ja irgendwie +100% / +100% erwartet um gute Skalierung zu erhalten.
ALLERDINGS: N33 hat ja offenbar KEINE um 50% erhöhten Register => Hier könnte dadurch die Performance Regression wirklich stärker sein => aus x2 Performance in "Theorie" werden halt nur x1.5-1.6?

=> die 23 TFlops von N33 wären dann entsprechend eher sowas wie 23/2*1.6 = 18 TFlops (in RDNA 2 "Einheiten").
=> Das wäre dann so ~6800 bis 6800 XT Bereich.
EDIT zum Nachtrag: Immernoch einen Takt von 2.800 MHz angenommen. Die Gerüchte allerdings gehen hier für RDNA 3 von BIS zu 3.500 MHZ !
4.096@3.500 MHz = 28.7 TFlops
Und wenn ich hier mit x1.6 scaling rechne erhalte ich wieder die 22.9 TFlops in "RDNA 2 Einheiten" was uns in die Gegend um N21 bringt.
/EDIT.

why_me

2022-10-23, 23:10:55

@iamthebear: Kann deine Prognose nicht ganz Nachvollziehen. Und vorallem, wie du auf so wenig kommst, wenn alles ideal laufen sollte. :confused:
Willst du da noch ein paar Sätze zu schreiben, wie du da drauf kommst?

Wenn man die doppelten CUs ausklammert und RDNA3 wie RDNA2 mit höherem Takt rechnet. Dann müsste N31 schon 15% über der 4080 raus kommen.
Ada = Ampere in Raster, nur etwas mehr Takt, den bekommt auch RDNA3. Und Ampere SM = RDNA2 CU.

Nach deiner Prognose würden also die doppelten shader also -10 bis +30% gegenüber RDNA2 WGPs bringen, um in deinem prognostizierten Bereich zu landen.
Aber eher weniger, denn der Cutdown soll deiner Meinung nach ja unterhalb der 4080 landen.

Wir wissen doch aktuell nicht einmal ob es Dual CUs mit je 128 shadern pro WGP sind oder doch quad CUs mit 64.

[MK2]Mythos

2022-10-23, 23:11:53

Also ich finde, iamthebear hat sich jetzt genug Seitenlang ziemlich pessimistischen Quatsch zusammengesponnen (sorry). Man könnte das jetzt auch einfach so stehenlassen und auf neue Leaks/Infos warten.

Ravenhearth

2022-10-23, 23:19:06

Also gehts du auch davon aus das N33 4.096 Shader haben wird.

Wenn also laut deinem Stand, N21 5.120 Shader hat und N33 deren 4.096 UND man aufgrund des Nodesprunges usw. noch davon ausgehen muss, dass AMD den Takt gesteigert haben könnte (+200 MHz = ~10% sollten da schon drin sein).

Wieso sollte N33 dann nicht mind. N21er Leistung packen?

Nur mal zum mitdenken:
5.120@2.250 MHz = 23 TFlops
4.096@2.500 MHz = 20.8 TFlops

Realistischerweise muss man aber für einen derart "kleinen" Chip wie N33 eher eine Taktfrequenz ähnlich zu N23 annehmen. Und dazu noch einen kleinen "Boost" (wegen des Nodesprungs). Das sind also ~2.600 MHz + X
4.096@2.800 MHz = 22.9 TFlops.

Also ich seh N33 hier nicht sehr weit von N21er Leistung...
Man darf nicht davon ausgehen, dass die verdoppelten Shader 1:1 skalieren, weil vieles nicht mit verdoppelt wird. Ansonsten wären die WGPs nicht so klein, die sollen schließlich prozessnormiert nicht größer werden. Die Verdopplung scheint ein guter Weg zu sein, die Leistung flächengünstig zu steigern, aber wie gesagt nicht um 100%. Ich würde jetzt eher auf +40% oder so tippen.

Auf der anderen Seite soll RDNA3 wesentlich höher takten. Bei sagen wir 3,2 GHz hätte N33 schon 21,4% mehr Takt als N23, was zusammen mit den +40% aus den Shadern ca. 70% mehr Leistung als bei der 6650XT ergeben würde (schnellerer GDDR6 und 2nd Gen Infinity Cache helfen). Damit wäre man in 1080p etwa auf dem Level einer 6800XT. Das ist m.E. der best case, vielleicht landet man auch bei der 6800.

Edit:

Das mit den unterschiedlichen Vector Registern macht mich auch ein wenig stutzig. Vor allem, die Gerüchteküche nimmt ja an dass durch die Vergrößerung der Vector Register die CU-Performance auch bei DOPPLUNG der Shader nicht "wesentlich" einbrechen sollte (IIRC "remains linear" habe ich irgendwo dazu gelesen).
Das würde ich so interpretieren, dass die Verdopplung zwar nicht x2 Performance bringt, aber x1.8-1.9 müsste das schon mindestens sein.
Hast du dazu einen Link? Das ist an mir vorbei gegangen. Und ehrlich gesagt kann ich das auch nicht glauben, dann müsste N31 ja drei Mal so schnell wie N21 sein...