AMD/ATI - RDNA4 (Navi 4X, Radeon RX 9000 Serie, 4nm, 2025) [Archiv] - Seite 5

bbott

2024-01-01, 14:44:39

Immer wieder lustig jeder AMD Thread. RT -> Blödsinn. 4K Display mit hoher PPi -> Blödsinn, 1440p @ 32" und 27" rul0rt selbst heute noch alles weg. Immer wieder interessant wie Leute versuchen, anderen etwas madig zu machen, nur weil man selber vlt. nicht das Geld hat oder es nicht aufwenden will. Am besten zocken wir alle noch am HD Ready TV mit 720p von 2006 mit 60HZ und spielen ohne AF und AA. Ist doch geil!!!!

Hat irgend wer etwas in dieser Richtung behautet? Ich nutze seit über 8 Jahren 4K und FreeSync. Genauso AF und AA seit über 12(?) Jahren. Damals hatte ich aber schon die Weitsicht, dass es viel Jahre dauern wird, bis Grafikkarten 4K mit 60Hz+ befeuern können, weil einfach von 1080 auf 4K etwa die Vierfache Rechenleistung benötigt wird. Da Grafikkarten, je Generation alle 2 Jahre, (wenn es gut läuft) ~60% pro Gen oben drauflegen. Da Spiele aber immer anspruchsvoller werden, war klar das es nicht in 2 bis 3 Generationen passieren wird. Ich sehe da gewisse Parallel zu RT.

Peinlich was AMDler täglich abziehen.

Sehr Nett. Danke für die Blumen, in einem AMD Thread. Kannst du bitte mal über über den Tellerrand schauen:
- Indie vs. AA(A)
- High FPS vs. High Res
- Konsole vs. PC
- RT vs. noRT
- Mobile vs. Stationär
- Lowend PC vs. Highend PC
- iGPU vs dGPU

Jetzt überleg mal bei wie vielen der genannten Punkte RT möglich ist und/ oder einen Vorteil bietet, genutzt werden kann oder sollte...

RT lohnt sich für die Hardcoregamer, welches immer "up to date" sein wollen und jeden Monat auf das aktuelles Game warten um es in RT zu Zocken. Also jede Gen eine neue Grafikkarte und jedes Jahr (fast) alle veröffentlichten Games. Oder Liebhaber einer bestimmten Spiele Serie und etwa dafür dann eine 1300-1800€ Grafikkarte. Da Empfehle ich ausdrücklich NV, da macht AMD keinen Sinn.

Aber ich kenne kaum so jemanden, die meisten zocken ihre Standard Games, häufige ältere AA(A) Games, gelegentlich mal etwas anderes (Indie/ Genre).

Mich interessieren 99% der aktuellen RT-Games nicht und die mich interessieren ist meine Grafikkarte schnell genug. Also habe ich für mich alles Richtig gemacht! Und auch in meinem Bekanntenkreis stimmen mir die Zocker fast ausnahmelos zu!

Wenn in 2-4 Generationen RT verbreiteter ist und ich mehr Auswahl habe wird AMD auch die RT Leistung bieten, welche ich dann benötige! Klar freue ich mich wenn RDNA4 in RT Auf- oder gar Überholen würde, ein Nörgelerpunkt weniger :D

Wenn ich eine NV hätte müsste ich vorher aufrüsten, weil der Speicher nicht ausreicht! Die Treiber meiner Erfahrung nach deutlich mehr nachlassen wenn die (Nach-)Nachfolger herauskommen. Für mich und meine Bedürfnisse wäre NV die falsche Wahl. Ich hattest es bei jeder meiner NV Karten im nachhinein bereut.

bbott

2024-01-01, 14:54:15

Wenn du bei CP2077 und AW2 zwischen Raster vs RT vs PT keinen Unterschied siehst würde ich mal einen guten Optiker aufsuchen... und jap beides heute schon gut spielbar, beides in 4k durchgespielt mit PT

Welche Hardware wird dazu benötigt? AMD kann es ja nicht, aber schaffe ich das mit meiner GTX2060? Oder 2080Ti? Oder der 4060? In 4K mit Max RT und 60fps Plus? Also ich traue das jedenfalls der RDNA4 (N48) zu.

Also dem einen ist es wichtiger statt 1080p in 1440p oder 4k zu zocken, der andere reichen 30, 60 fps und wieder andere brauchen 120+, andere können nicht mehr ohne RT und wieder andere ist RT nicht so wichtig. Dann gibt es sogar noch Menschen, welche weder CP2077 und AW2 zocken möchten ;) :freak: ;D

dargo

2024-01-01, 16:08:06

Welche Hardware wird dazu benötigt? AMD kann es ja nicht, aber schaffe ich das mit meiner GTX2060? Oder 2080Ti? Oder der 4060? In 4K mit Max RT und 60fps Plus? Also ich traue das jedenfalls der RDNA4 (N48) zu.

Ich nicht, denn nicht mal eine RTX 4090 schafft im nativen 4k durchgehend 60+fps mit max. RT in CP77. Upscaling wird hier schon benötigt. Da erwartest du jetzt viel zu viel von N48, bissel auf dem Teppich bleiben.

Schnitzl

2024-01-01, 16:38:02

Also die ganzen 4090 Besitzer dürfen jetzt aufhören mit stänkern, provozieren und phantasievolle Dinge lesen, die hier gar nicht geschrieben wurden.
Klar?
Es wurde leider viel zu oft geschrieben und es weiss inzw. auch der letzte Forumsteilnehmer hier dass nVidia davongezogen ist...

In diesem Sinne: Frohes Neues!

DrFreaK666

2024-01-01, 17:25:36

Wenn RT auf 4070Ti Level ist, dann können wir uns glücklich schätzen.
Das wäre leicht über 7900XTX Level (11%). 7900XTX Level wäre auch schon nice.
Hoffentlich wird nicht am Speicher gespart

dargo

2024-01-01, 17:41:22

Hoffentlich wird nicht am Speicher gespart
Keine Ahnung was du damit genau meinst, aber ich erwarte keine 24GB bei N48. Imho wird das Ding mit max. 16GB geplant sein, alles andere erhöht nur wieder die Kosten unnötig. Jedenfalls finde ich ca. 7900XT Level mit 24GB schon etwas Overkill.

btw.
Soll RDNA4 eigentlich schon mit GDDR7 kommen? Afaik ist man da etwas flexibler bei der Vram-Bestückung.

Der_Korken

2024-01-01, 17:47:36

GDDR6 -> 16GB, 256b
GDDR7 -> 18GB, 192b

Alles andere ergibt bei der spekulierten Leistungsklasse keinen Sinn, auch wenn mit GDDR7 auch 12GB und 192b technisch möglich wären.

DrFreaK666

2024-01-01, 17:51:44

Keine Ahnung was du damit genau meinst...

Ich meine damit z.B. eine 8600 mit 8GB.
Max 16GB beim "großen" Modell wäre in Ordnung

Der_Korken

2024-01-01, 18:08:18

basix

2024-01-01, 19:58:49

GDDR6 -> 16GB, 256b
GDDR7 -> 18GB, 192b

Alles andere ergibt bei der spekulierten Leistungsklasse keinen Sinn, auch wenn mit GDDR7 auch 12GB und 192b technisch möglich wären.

Da bin ich bei dir. 18GB für N48 und 12GB für N44 wären eigentlich ideal. N48 Salvage mit 15GB noch irgendwo dazwischen.

TheGood

2024-01-02, 10:43:58

3 Seiten neue diskusion und davon über 2 seiten fanboy gehabe (in 2 tage).. Wahnsinn... was ist nru aus diesem tollem forum geworden...

basix

2024-01-02, 11:32:27

Beim kleinen Chip mit angeblich 32CUs täte AMD gut daran entweder auf 192b GDDR6 zu gehen oder auf 128b GDDR7, damit man auf 12GB kommt. Um die Chipfläche zu drücken, kann AMD immer noch den Cache pro Channel reduzieren, wenn der kleine Chip sonst proportional zu viel Bandbreite hat. Ein weiterer Entry-Chip mit 8GB wäre 2024 ein Witz.

8 GByte wären wirklich ein NoGo. Es gibt mittlerweile einfach zu viele Szenarien, wo 8 GByte limitieren können und für einen Neukauf ist das einfach schlecht.

Ideal wären wie gesagt 24 Gbit GDDR7 Bausteine:
- N48: 192bit, ~28 Gbps, 18 GByte, 48 MByte IF$
- N44: 128bit , ~24 Gbps, 12 GByte, 32 MByte IF$

Mit GDDR6 müsste man etwas breiter gehen, könnte aber dafür beim IF$ etwas zurückfahren:
- N48: 256bit, ~24 Gbps, 16 GByte, 32 MByte IF$
- N44: 192bit , ~20 Gbps, 12 GByte, 24 MByte IF$

davidzo

2024-01-02, 11:52:20

Ideal wären wie gesagt 24 Gbit GDDR7 Bausteine:
- N48: 192bit, ~28 Gbps, 18 GByte, 48 MByte IF$
- N44: 128bit , ~24 Gbps, 12 GByte, 32 MByte IF$

Wird es überhaupt so langsamen GDDR7 geben? Samsung will doch mit 32Gbps starten laut Ankündigungen. Klar wird der Ram anfangs auf GPUs häufig unter den Maximaltaktraten betrieben, aber da sehe ich 28Gbps schon eher als neues Minimum.

Da der Speicher sowieso von AMD gesourced wird um dann als Kit zusammen mit der GPU an die Partner zu gehen, könnte ich mir vorstellen dass es günstiger ist einen einzigen Speichertyp zu sourcen. So war das auch bei Navi2x, wo 6600xt, 6700xt bis hoch zur 6900xt mit denselben 16Gbit GDDR6 Modulen ausgestattet waren.

Altehardware

2024-01-02, 12:05:22

für gddr7 kommt rdna4 zu früh das wird vor q3 2025 nicht bereit sein
Daher sehe ich bei n44 192bit und n48 256bit zumal der node billiger ist als n5

BlacKi

2024-01-02, 12:13:05

also wenn n43 im sommer kommen soll, dann müsste gddr7 schon jetzt soweit sein..

€dit: n43 gone?

Der_Korken

2024-01-02, 12:33:11

also wenn n43 im sommer kommen soll, dann müsste gddr7 schon jetzt soweit sein..

€dit: n43 gone?

N41 bis N43 scheinen die gecancelten Chiplet-Konstrukte gewesen zu sein. Der größere Monolith heißt angeblich N48, was man sowohl als "doppelten" N44 interpretieren kann als auch als "N43-Refresh".

Wegen GDDR7: Selbst wenn GDDR7 zeitgleich mit RDNA4 erscheinen sollte, könnte AMD trotzdem auf GDDR6 gesetzt haben, um bei all den internen Verzögerungen und Planänderungen nicht noch von einem externen Hersteller abhängig zu sein. Durch den skalierbaren IF$ drückt der Schuh bei der Bandbreite bisher nicht und mit 12/16GB für N44/N48 ließen sich trotzdem sinnvolle VRAM-Größen realisieren.

basix

2024-01-02, 12:43:50

Wird es überhaupt so langsamen GDDR7 geben? Samsung will doch mit 32Gbps starten laut Ankündigungen. Klar wird der Ram anfangs auf GPUs häufig unter den Maximaltaktraten betrieben, aber da sehe ich 28Gbps schon eher als neues Minimum.

Ich sehe da kein Problem.

Es gibt auf dem Papier schon lange GDDR6 mit 24 Gbps. Sieht man aber nirgends in einem Produkt. Die meisten Produkte bewegen sich zwischen 16...21 Gbps. Das höchste der Gefühle sind die 22.4 Gbps der RTX 4080 (mit GDDR6X). Entweder nimmt man nicht das maximal Mögliche (da günstiger, so viel Bandbreite wird nicht benötigt) oder Chip / PCB limitieren den Maximaltakt. Niedriger Takt drosselt zudem den Verbrauch, auch ein Vorteil. Gerade für N44 schon ein positives Merkmal (Mobile/Notebook). Ausserden hat auch Speicher einen Yield. Nicht alle Module schaffen 32 Gbps. Die meisten wohl 28 Gbps und definitiv alle 24 Gbps. AMD könnte da also den "Ramsch" verwenden, was die Kosten etwas drücken könnte. Und: Wenn nur Samsung 32Gbps liefern kann und alle anderen nur 28Gbps, würde ich eher auf 28Gbps gehen: Lierferbarkeit / Liefersicherheit / Multi-Sourcing

Wegen GDDR7: Selbst wenn GDDR7 zeitgleich mit RDNA4 erscheinen sollte, könnte AMD trotzdem auf GDDR6 gesetzt haben, um bei all den internen Verzögerungen und Planänderungen nicht noch von einem externen Hersteller abhängig zu sein. Durch den skalierbaren IF$ drückt der Schuh bei der Bandbreite bisher nicht und mit 12/16GB für N44/N48 ließen sich trotzdem sinnvolle VRAM-Größen realisieren.

Ist eine Frage von Kosten sowie Lieferbarkeit. AMD und Nvidia sind sicher schon lange im Gespräch mit den Speicherherstellern. GDDR7 sollte eigentlich tendenziell etwas günstiger zu haben sein (24Gbit Chips, weniger GDDR-Packages auf dem PCB), unter dem Strich wird sich das aber vermutlich initial nicht viel nehmen (GDDR7 wird am Anfang sicher einen kleinen Preis-Zuschlag aufweisen).

GDDR6 wird sicher einfacher von der Lieferbarkeit sein. Das ist ganz klar. Und wie du sagst, mit dem IF$ kann man das passend skalieren (so ähnlich wie ich das in meiner Auflistung auch gezeigt habe). N44 hört sich aber einfach nicht nach 192bit an :D Und für Mobile/Notebook wäre ein schmales Interface auch von Vorteil (Platz, Energieverbrauch)

Edit:
Wenn ich nochmals N41...N44 ins Gedächtnis rufe, wäre 384bit, 256bit, 128bit, 96bit wohl die sinnvollste Staffelung. N41...N43 würden durch den Chiplet-Aufbau automatisch so rauskommen. Da wären 96bit für N44 nichtmal verkehrt.

Was man beispielsweise daraus machen könnte:
- N44: 96bit, 12GByte (GDDR6 Clamshell), 24 MByte IF$
- N48: 128bit, 16GByte (GDDR6 Clamshell), 64 MByte IF$

Ist dann halt eine Frage der Performance und Bandbreiten-Anforderung, ob das so klappen würde. Ich sehe die GDDR7 Lösung mit einem etwas breiteren Interface immer noch als die "schönste" Variante. N48 vs. N43 geht von 128bit auf 192bit, dafür von 64MByte auf 48MByte IF$ und etwas reduzierten Speichertakt. N44 hat man vermutlich von vornherein mit 128bit / 32MB IF$ und relativ zahmen Speichertakt geplant gehabt (Mobile/Notebook & Energieeffizienz).

Der_Korken

2024-01-02, 14:46:28

Wenn ich nochmals N41...N44 ins Gedächtnis rufe, wäre 384bit, 256bit, 128bit, 96bit wohl die sinnvollste Staffelung. N41...N43 würden durch den Chiplet-Aufbau automatisch so rauskommen. Da wären 96bit für N44 nichtmal verkehrt.

Was man beispielsweise daraus machen könnte:
- N44: 96bit, 12GByte (GDDR6 Clamshell), 24 MByte IF$
- N48: 128bit, 16GByte (GDDR6 Clamshell), 64 MByte IF$

Ist dann halt eine Frage der Performance und Bandbreiten-Anforderung, ob das so klappen würde. Ich sehe die GDDR7 Lösung mit einem etwas breiteren Interface immer noch als die "schönste" Variante. N48 vs. N43 geht von 128bit auf 192bit, dafür von 64MByte auf 48MByte IF$ und etwas reduzierten Speichertakt. N44 hat man vermutlich von vornherein mit 128bit / 32MB IF$ und relativ zahmen Speichertakt geplant gehabt (Mobile/Notebook & Energieeffizienz).

128bit GDDR6 sind viel zu wenig für 64 CUs. Da müsste es schon GDDR7 mit >=30Gbps sein, damit man wenigstens an die Specs von 4070/Ti rankommt (die haben ~20Gbps mit 192bit). Mit 64MB IF$ verstehst sich, also doppelt so viel pro Channel wie RDNA3.

Wenn man von N41 bis N43 her denkt, dann können deine 384bit bis 128bit durchaus stimmen, aber wenn man bedenkt wieviel schneller N41 gegenüber N31 geworden wäre, dann wären imho GDDR7 Pflicht geworden, sowie eine Verdopplung des IF$ von 96 auf 192MB. Die 96bit für N44 können natürlich stimmen, aber ich würde vermuten, dass der neue N48 mehr Leistung haben wird als der ursprünglich geplante N43, weil zwischen N43 und N44 eher kein Faktor 2 Unterschied bestanden hätte (zwischen N44 und N48 soll es aber wohl so sein). Man sollte N48 also eher zwischen N42 und N43 sehen und da sind 128bit dann zu knapp.

basix

2024-01-02, 15:20:23

Ja, 128bit und GDDR6 wäre etwas knapp. Verglichen mit N33 wäre aber bereits ~2x effektive Bandbreite möglich (24 GT/s vs. 18 GT/s sowie 64MB vs. 32MB IF$). Dazu 1.5x Vektor-Register (192kB vs. 128kB) und evtl. Anpassungen an L0, L1 und L2. Ist knapp, aber nicht völlig ausgeschlossen. Kommt wie gesagt auf die Ansetzung der Performance an. Für eine 4090 reicht es sicher nicht. Für eine 4070 Ti evtl. schon. GDDR6 mit max. 24 Gbps ist zudem nicht so extrem weit von 28...32 Gbps von GDDR7 weg.

Folgende Beispielrechnung mit sqrt(2) Bandbreitenmultiplikator durch den L2$/IF$:
- 4070 Ti = 192bit, 21 Gbps, 48MB L2$ = 1.0x effektive Bandbreite
- N33 = 128bit, 18Gbps, 32MB IF$ = 0.46x effektive Bandbreite
- N48 = 128bit, 24Gbps (GDDR6), 64MB IF$ = 0.88x effektive Bandbreite
- N43 = 128bit, 28Gbps (GDDR7), 64MB IF$ = 1.03x effektive Bandbreite

Könnte schon erreichbar sein.

Aber egal, mir gefallen die Clamshell Varianten eh nicht ;)

BavarianRealist

2024-01-02, 15:44:19

...

Folgende Beispielrechnung mit sqrt(2) Bandbreitenmultiplikator durch den L2$/IF$:
- 4070 Ti = 192bit, 21 Gbps, 48MB L2$ = 1.0x effektive Bandbreite
- N33 = 128bit, 18Gbps, 32MB IF$ = 0.46x effektive Bandbreite
- N48 = 128bit, 24Gbps (GDDR6), 64MB IF$ = 0.88x effektive Bandbreite
- N43 = 128bit, 28Gbps (GDDR7), 64MB IF$ = 1.03x effektive Bandbreite
...

Diese Gedanken könnte man weiter fort führen, in Bezug auf die Diesize: bedenkt man, dass die Logik (CUs) in Navi4x gegenüber N6 auf etwa 60% shrinken sollten, aber die Sram und Controller so gut wie nicht und vergleicht mit dem Navi33 in N6, der 203mm² hat, so müsste ein Navi4x mit 64CU mit ebenfalls nur 128-bit-Controller in etwa fast genauso klein ausfallen, ein Navi4x mit nur 32CUs allerdings nicht allzuviel kleiner, vielleicht 150mm²...dann frage ich mich, was ein solcher N4x mit nur 32CUs für einen Sinn ergeben würde, weil unwesentlich kleiner und zudem AMDs APUs bis dahin diese Leistung liefern sollen? Ob es vielleicht doch eine Version von Navi4x mit mehr als 64CUs geben könnte?

Der_Korken

2024-01-02, 16:05:54

Diese Gedanken könnte man weiter fort führen, in Bezug auf die Diesize: bedenkt man, dass die Logik (CUs) in Navi4x gegenüber N6 auf etwa 60% shrinken sollten, aber die Sram und Controller so gut wie nicht und vergleicht mit dem Navi33 in N6, der 203mm² hat, so müsste ein Navi4x mit 64CU mit ebenfalls nur 128-bit-Controller in etwa fast genauso klein ausfallen, ein Navi4x mit nur 32CUs allerdings nicht allzuviel kleiner, vielleicht 150mm²...dann frage ich mich, was ein solcher N4x mit nur 32CUs für einen Sinn ergeben würde, weil unwesentlich kleiner und zudem AMDs APUs bis dahin diese Leistung liefern sollen? Ob es vielleicht doch eine Version von Navi4x mit mehr als 64CUs geben könnte?

Wenn der 32- und 64-CU-Chip jeweils das gleiche Speichersystem hätten, dann wären sie tatsächlich nicht weit auseinander. Aber in der Praxis wird das Speichersystem mitskaliert, damit es zum Rest passt. Sinn macht ein 32-CU-Chip in N4 für mich trotzdem, auch wenn er nicht viel kleiner als N33 wird. Wenn der Takt entsprechend steigt und das Dual-Issueing messer ausgenutzt wird, könnte die Leistung schnell um 20-30% steigen bei gleichzeitig geringerem Verbrauch. Für Notebooks und für <300$-GPUs nach wie vor relevant.

Bezüglich Speicherinterface, Cache und Chipfläche würde ich noch einwerfen, dass es bei kleineren Chips flächeneffizienter sein sollte das SI zu vergrößern statt des Caches. 128MB Cache bei N21 waren deutlich größer als das 256bit SI. Dementsprechend sind 32MB Cache größer als ein 64bit SI. Ausgehend von 128bit/32MB wären 192bit/32MB (ja, Größe ist schief, ich weiß ...) nach der Hochrechnung kleiner als 128bit/64MB, obwohl ersteres +50% Bandbreite bringt, letzteres aber nach basixs Rechnung nur +41% (sqrt(2)-1). Deswegen kann das SI beim N44 auch deutlich mehr als 50% der Breite von N48 haben, wenn man dafür den Cache pro Channel z.B. halbiert.

basix

2024-01-02, 16:06:01

@BavarianRealist:
N44 sollte kleiner als N33 ausfallen (128bit, 32MB IF$). Ich schätze ~170mm2. N48 würde ich dann schon einiges grösser schätzen. Eher so ~270mm2.

Da ist schon ein Unterschied vorhanden, neben den CUs kommen ja noch Cache und GDDR-Phy dazu. Siehe die Ausführungen von Der_Korken

amdfanuwe

2024-01-02, 16:40:12

Was ist eigentlich mit dem Samsung DDR6W?
https://www.hardwareluxx.de/index.php/news/hardware/grafikkarten/59968-samsung-gddr6w-doppelte-kapazität-und-speicherbandbreite.html
Da reichen 4 Chips für 16 GB. Könnte man die mit auf das Package setzen, bräuchte es auch kleinere PHYs.

BavarianRealist

2024-01-04, 16:41:31

Reine Überlegung zu RDNA4:

Könnte es sein, dass AMD in RDNA4 spezielle Features realisiert, die insbesondere in Richtung AI was bringen? Könnte das Sinn ergeben, dass man hier KnowHow von CDNA3 wieder zurück portiert um sich die speziellen AI-Cores zu sparen und vom AI-Boom zu profitieren?

robbitop

2024-01-04, 22:26:01

Gerüchte über den PS5PRO SoC, dass es ggf einen XDNA2 IP Block (IP aus der Übernahme von Xilinx - eim XDNA block steck zB bereits jetzt in jeder Phoenix APU) geben wird, über den dann AI Upsampling passieren soll. Anders als Nvidia wäre das dann nicht Teil jedes SMs/CU/WGP sondern ein separater IP block im chip (so wie es die mobile SoCs auch machen).
Da Apples MetalFX Upsampling (die AI Variante) auch so läuft ist anzunehmen, dass das eine brauchbare Lösung aein kann.
Sofern das stimmt ist es auch nicht unwahrscheinlich dass man das bei RDNA4 auch nutzen wird.

Die Matrixcores in CDNA sind jetzt kein großes Ding. Das sind einfach nur FPUs die Matritzen rechnen (und zwar nur multiply accumulate). Das zu verbauen ist kein Problem. Macht google seit 2016 in ihrer ersten TPU. AMD hat es wahrscheinlich nicht verbaut bisher, weil man kein AI Upsampling Verfahren (also Software) in der Schubade hatte und man deshalb der Ansicht war die Transistoren sind besser in General Purpose HW investiert, die immer was bringen.

DrFreaK666

2024-01-04, 23:04:35

Für was sind die AI Cores in RDNA3 dann gut? Hat man das inzwischen herausgefunden?

lilgefo~

2024-01-04, 23:30:43

Weiß nicht wie oft ich hier gelesen habe wie enttäuscht manche immer wieder sind... erinnert sehr an die sinnlose Diskussion um Tesselation damals... ein wichtiges Feature ohne Zweifel wenn es sinnvoll eingesetzt wird... so auch bei RT... zocke mit meiner 7900XT gerade Control mit RT high in UWQHD nativ bei super fluffigen 60fps... sieht Hammer aus...

Klar, nur die Frage in welcher Traumwelt wir uns hier bewegen? Control lief mit der 3090 in DLSS Q max+RT in 4k mit knapp 57fps im (Worst)Bad-case. (ray way von pcgh nur als Anhaltspunkt, droppt aber auch tiefer später) Wie da eine 7900xt "super fluffige" 60fps zaubern sollen ausser vielleicht in der Anfangsszene wo nix los ist weiß wohl nur Jesus. Mit der 7900xtx aus dem Zweitpc kann ich nur sagen, dass wir da aber weit entfernt von einem durchgängigem 60fps Erlebnis in Max+RT High sind. Mit der 4090 ist es fast durchgängig (bis auf wenige Ausnahmen die insgesamt wohl unter 2% vom Spiel ausmachen) in 4k native max+rt mit 60fps+ spielbar. (sprich=ruckelt, dlss q ist das höchste setting das die technik derzheit durchgängig erlaubt in 4k dlss q ohne unter 60fps zu droppen und nur mit der 4090)

Kann natürlich sein, dass du von 60 "Konsolen fps" redest wo es manchmal auch auf 35 droppen kann. Oder average fps wenn ich die Hälfte der Zeit nur auf den Boden schaue. Dann alles gut.

btw: Falls wer Crashes mit Intel CPUs mit E-Cores hat. Einfach E-Cores für die App deaktiveiren. Control kommt mit den E-Cores nicht klar und produziert damit random crashes.

Nightspider

2024-01-05, 01:00:36

reaperrr

2024-01-05, 01:09:15

für gddr7 kommt rdna4 zu früh das wird vor q3 2025 nicht bereit sein
Daher sehe ich bei n44 192bit und n48 256bit zumal der node billiger ist als n5
Da sagen die Roadmaps der Speicherhersteller was anderes.

Micron zeigen GDDR7 eher Q3-Q4/2024 (wahrsch. für Nvidias Blackwell), Samsung scheint quasi nur noch auf einen Großauftrag zu warten.

OgrEGT

2024-01-05, 01:40:48

Klar, nur die Frage in welcher Traumwelt wir uns hier bewegen? Control lief mit der 3090 in DLSS Q max+RT in 4k mit knapp 57fps im (Worst)Bad-case. (ray way von pcgh nur als Anhaltspunkt, droppt aber auch tiefer später) Wie da eine 7900xt "super fluffige" 60fps zaubern sollen ausser vielleicht in der Anfangsszene wo nix los ist weiß wohl nur Jesus. Mit der 7900xtx aus dem Zweitpc kann ich nur sagen, dass wir da aber weit entfernt von einem durchgängigem 60fps Erlebnis in Max+RT High sind. Mit der 4090 ist es fast durchgängig (bis auf wenige Ausnahmen die insgesamt wohl unter 2% vom Spiel ausmachen) in 4k native max+rt mit 60fps+ spielbar. (sprich=ruckelt, dlss q ist das höchste setting das die technik derzheit durchgängig erlaubt in 4k dlss q ohne unter 60fps zu droppen und nur mit der 4090)

Kann natürlich sein, dass du von 60 "Konsolen fps" redest wo es manchmal auch auf 35 droppen kann. Oder average fps wenn ich die Hälfte der Zeit nur auf den Boden schaue. Dann alles gut.

btw: Falls wer Crashes mit Intel CPUs mit E-Cores hat. Einfach E-Cores für die App deaktiveiren. Control kommt mit den E-Cores nicht klar und produziert damit random crashes.
Weiß nicht was Du mit 3090 und 4k willst... ich spiele in uwqhd d.h. 3440x1440...
In Control alles Ultra + RT high...
Aber klar im Gefecht geht es auch unter 60fps...
Das Game läuft die ganze Zeit absolut flüssig ohne Ruckelei und deshalb fluffig...

robbitop

2024-01-05, 06:43:31

Für was sind die AI Cores in RDNA3 dann gut? Hat man das inzwischen herausgefunden?

Du bist schön auf das Marketing reingefallen. ;)
RDNA3‘s „AI Cores“ sind nichts als die normalen Vektor FPUs die jetzt auch AMDs WMMA (ai freundliches Instruction set) unterstützen.

vinacis_vivids

2024-01-05, 07:38:09

Du bist schön auf das Marketing reingefallen. ;)
RDNA3‘s „AI Cores“ sind nichts als die normalen Vektor FPUs die jetzt auch AMDs WMMA (ai freundliches Instruction set) unterstützen.

Quelle ?

robbitop

2024-01-05, 08:52:18

Wenn du das fragen musst, hast du noch weniger über RDNA3 verstanden als ich eh schon von dir dachte (was nicht viel ist - aber das ist einer der fundamentalsten basics).

10 Sekunden Google:
https://www.phoronix.net/image.php?id=amd-radeon-rx7900&image=amd_7900_14_med

Hier die Seite mit der Slide:
https://www.phoronix.com/review/amd-radeon-rx7900/2

Leonidas

2024-01-05, 09:06:44

Was ist eigentlich mit dem Samsung DDR6W?

DDR6W ist eine reine Möglichkeit, Speicher zu verdoppeln. An den Interfaces ändert sich nichts. Das wurde von der Fachpresse maßgeblich falsch wiedergegeben, sicherlich auch weil Samsungs PR gut "gearbeitet" hat.

HOT

2024-01-05, 10:17:17

Das ist eine Möglichkeit die Zahl der Packages zu halbieren, also vor allem nützlich für Platzmangel und Mobile. Interface und Menge bleibt jedoch gleich. Will heißen, wärend man für 16GB 256Bit GDDR6 8 16Gb-Module braucht benötigt man mit GDDR6W nur 4 um das gleiche zu erreichen. Das hat 0 Vorteile für Desktop-Grafikkarten - obwohl - man könnte damit sinnvoll ein 512Bit Interface nutzen, das wars aber schon.

Pirx

2024-01-05, 10:34:11

robbitop

2024-01-05, 10:43:44

Hat nicht Phoenix/die 780M zusätzlich eine eigene XDNA-AI-Engine, die von Xilininx stammt?

Gerüchte über den PS5PRO SoC, dass es ggf einen XDNA2 IP Block (IP aus der Übernahme von Xilinx - eim XDNA block steck zB bereits jetzt in jeder Phoenix APU) geben wird, über den dann AI Upsampling passieren soll. Anders als Nvidia wäre das dann nicht Teil jedes SMs/CU/WGP sondern ein separater IP block im chip (so wie es die mobile SoCs auch machen).
Da Apples MetalFX Upsampling (die AI Variante) auch so läuft ist anzunehmen, dass das eine brauchbare Lösung aein kann.
Sofern das stimmt ist es auch nicht unwahrscheinlich dass man das bei RDNA4 auch nutzen wird.

Die Matrixcores in CDNA sind jetzt kein großes Ding. Das sind einfach nur FPUs die Matritzen rechnen (und zwar nur multiply accumulate). Das zu verbauen ist kein Problem. Macht google seit 2016 in ihrer ersten TPU. AMD hat es wahrscheinlich nicht verbaut bisher, weil man kein AI Upsampling Verfahren (also Software) in der Schubade hatte und man deshalb der Ansicht war die Transistoren sind besser in General Purpose HW investiert, die immer was bringen.

Wäre schon cool wenn man erstmal die Vorposts lesen würde. ;)
Und ja das ist aber ein separater IP block der nichts mit der RDNA IP zu tun hat. Und bis dato sind sie in kaufbaren Consumer Produkten wie du sagst nur in Phoenix integriert. Meine Schätzung ist aber auch, dass das potenziell ein Weg ist, ML HW in zukünftige GPUs zu bekommen. Das hat sicherlich auch Nachteile, wenn das nicht in der CU/WGP ist sondern separat. Latenz und Datenlokalität sind dann schlechter. Aber so wie ich das sehe werden bei Nvidia die Tensor Cores gem nsight ja auch ziemlich separat angewendet. Das Bild ist im Prinzip fertig gerendert (nur HUD und PostEffects fehlen noch) und dann wird separat DLSS gemacht und danach kommt dann wieder das HUD. Also scheinen die Aufgaben zeitlich und inhaltlich genug abgetrennt zu sein um sowas wie DLSS Upsampling und Frame Generation zu machen. Für DLSS 3.5 Ray Reconstruction müsste das ja auch gelten, weil Ray Reconstruction auch relativ vom Rendering (auf der zeitlichen Achse) abgekoppelt ist.
Aber sobald es da viele Interdependenzen gibt und es ein hin und her geben muss (wer weiß was es da bei 3D Grafik noch für Anwendungen geben kann) könnte das auch mal zum Nachteil gereichen.

Der Vorteil der XDNA IP scheint zu sein, dass die sehr energieeffizient ist. Siehe hier: https://www.xilinx.com/applications/data-center/v70.html
Ein dedizierter XDNA ASIC der 200 TOPs (BF16) / 400 TOPS (INT8) für 75 W liefert. Gefertigt in 7 nm.

edit so effizient nun doch wieder nicht:
H100 PCIe liefert 4000 TOPS (INT8) bei 350W in 4nm. -> ~8,6 TOPS/W
V70 liefert 404 TOPS (INT8) bei 75 W in 7 nm. -> ~5,3 TOPS/W
Wenn man die Powervorteile von 4 nm auf 7 nm herunterrechnet: N5 vs N7 1,3 und N4/N5P vs N5: 1,15 -> ~1,5x. Dann käme XDNA auf knappe 8 TOPS/W im gleichen Prozess.
Allerdings ist das auch erst XDNA1 IP - XDNA2 wird sicherlich besser.
Es scheint kompetativ zu sein aber keine besonderen Energieeffizienzvorteile ggü der NV Lösung zu haben.

https://www.nvidia.com/de-de/data-center/h100/
https://www.xilinx.com/applications/data-center/v70.html

basix

2024-01-05, 11:00:57

Du bist schön auf das Marketing reingefallen. ;)
RDNA3‘s „AI Cores“ sind nichts als die normalen Vektor FPUs die jetzt auch AMDs WMMA (ai freundliches Instruction set) unterstützen.

Spielt es eine Rolle ob "echte" Matrix Cores oder via Vektor? Fakt ist, dass RDNA3 native Instruktionen für WMMA Berechnungen hat. Ich würde das zwar nicht "AI-Cores" nennen, der Output ist aber der selbe: Schnelle Ausführung von Matrix Berechnungen (wenn auch nicht so potent wie Nvidias Tensor Cores)

robbitop

2024-01-05, 11:03:47

Spielt es eine Rolle ob "echte" Matrix Cores oder via Vektor? Fakt ist, dass RDNA3 native Instruktionen für WMMA Berechnungen hat. Ich würde das zwar nicht "AI-Cores" nennen, der Output ist aber der selbe: Schnelle Ausführung von Matrix Berchnungen (wenn auch nicht so potent wie Nvidias Tensor Cores)
Am Ende zählt nur das Resultat das stimmt. Es ging mir aber um das Framing: AI Cores impliziert in der heutigen Zeit (aufgrund des existierenden Kontext von Volta, Turing, Ampere, Ada, Hopper, Alchemist, CDNA usw) nun mal dedizierte Matrixeinheiten (oder überhaupt zusätzliche dedizierte Einheiten). Und dabei ist es nur so dass die FPUs jetzt das Instructionset beherrschen. Mehr Throughput für INT8 gibt es mit WMMA auch nicht ggü dp4a IIRC. BF16 (double pumped) kam halt hinzu. (zusätzlich zu VOPD was bei RDNA3 neu ist aber auch für alle Operationen potenziell gilt). Also relativ zur peak FP Rate bringt WMMA zumindest für INT8 nicht mehr als vorher. Und das was für FP16 vorher auch schon ging wurde nun für BF16 eingeführt. Das jetzt "AI Cores" zu nennen ist schon ein wenig Marketing IMO.
Bei Intels und Nvidias GPUs hat man die TOP Leistung ja zusätzlich zu der TFLOP Leistung - bei RDNA3 kommt alles aus einem Topf.
Alles was man an NN Anwendungen machen will, kostet Rechenzeit aus dem Frame die dann für 3D nicht zur Verfügung steht. Und das sollte klar sein.

Exxtreme

2024-01-05, 11:22:43

Spielt es eine Rolle ob "echte" Matrix Cores oder via Vektor? Fakt ist, dass RDNA3 native Instruktionen für WMMA Berechnungen hat. Ich würde das zwar nicht "AI-Cores" nennen, der Output ist aber der selbe: Schnelle Ausführung von Matrix Berechnungen (wenn auch nicht so potent wie Nvidias Tensor Cores)

AMD macht mit den "KI-Einheiten" und auch was sie bei RT machen, das was sie schon mit 3DNow! machten: sie bringen keine unabhängige Hardware, die das macht sondern sie erweitern bestehende Hardware damit diese das ebenfalls kann. Bei 3DNow! haben sie schlicht die FPU-Register dafür benutzt. Das ist halt ein Kompromiss mit jeweils eigenen Vor- und Nachteilen. Intel hingegen hat bei KNI/SSE eigene neue Register für diese Anweisungen eingeführt. Der Vorteil von AMDs Vorgehen war: man brauchte kein neues Betriebssystem damit man 3DNow! nutzen konnte. Denn die FPU-Register kannten die Betriebssysteme damals schon. Um SSE nutzen zu können musste man u.U. auch ein neues Windows kaufen, welches die SSE-Register kennt. Windows 3.11, Windows 95 und Windows 98 erste Edition konnten damit nichts anfangen. Erst mit Windows 98 SE ging das.

Der Nachteil ist halt: wenn die erweiterte Hardware jetzt die neuen Anweisungen ausführt dann kann sie ihre eigentliche Aufgabe nicht erfüllen. Oder wenn man grad 3DNow!-Anweisungen durch die FPU-Register durchjagte dann konnte man in der Zeit keine FPUs nutzen und vice versa. Und die gleiche Problematik schlägt auch bei RT zu: wenn die TMUs grad BVH-Berechnungen machen dann sind sie in dieser Zeit keine Textureinheiten. Sprich, anfallende Aufgaben bezüglich Texturfilterung müssen jetzt warten bis die TMUs mit den BHV-Berechnungen fertig sind und vice versa. Nvidia-GPUs können beides parallel ausführen. So wie Intel Katmai damals SSE und FPU-Anweisungen parallel durchführen konnte. 3DNow! hat sich auch nicht durchgesetzt.

basix

2024-01-05, 11:32:41

Das jetzt "AI Cores" zu nennen ist schon ein wenig Marketing IMO.
AMD nennt es offiziell Matrix Accelerator via Vector Units. Was es auch ist. Wenn man dem "AI Cores" sagt, kommt es nicht von AMD ;)

Bei Intels und Nvidias GPUs hat man die TOP Leistung ja zusätzlich zu der TFLOP Leistung - bei RDNA3 kommt alles aus einem Topf.
Alles was man an NN Anwendungen machen will, kostet Rechenzeit aus dem Frame die dann für 3D nicht zur Verfügung steht. Und das sollte klar sein.
Logisch. Dedizierte Einheiten sind deutlich potenter. Das ist hoffentlich jedem klar. Ist mMn aber nur eine Frage der Zeit, bis das auch bei RDNA Einzug hält. Ich tippe auf RDNA5.

DrFreaK666

2024-01-05, 11:42:48

AMD nennt es offiziell "AI MATRIX Accelerator", wie im Slide zu sehen

fondness

2024-01-05, 11:43:40

Logisch. Dedizierte Einheiten sind deutlich potenter. Das ist hoffentlich jedem klar. Ist mMn aber nur eine Frage der Zeit, bis das auch bei RDNA Einzug hält. Ich tippe auf RDNA5.

Das ist nicht selten ein Irrglaube, weil meist register und/oder Datenleitungen geshared werden und man damit vieles nicht parallel nutzen kann. Im Endeffekt hat es AMD schon immer so gemacht, so zu tun als wäre das nicht vollwertig halte ich für seltsam, was zählt kommt hinten raus.

basix

2024-01-05, 12:04:36

AMD nennt es offiziell "AI MATRIX Accelerator", wie im Slide zu sehen

In welcher Slide? Sehe dort (https://www.forum-3dcenter.org/vbulletin/showthread.php?p=13465598#post13465598) nichts von "AI"

Ansonsten: Ja, AI umfasst Matrix Befehle, welche Matrix Acceleration beschleunigt werden können. DP4a ist nicht das gleiche wie WMMA mit INT8. WMMA ermöglicht es, die Performance leichter auf den Boden zu bringen.

Zur Terminologie:
AMD nennt immer nur "Acceleration", nie das Wort "Core". Core würde eine dedizierte Einheit implizieren, was Acceleration nicht macht. Das verstehen manche Leute aber anscheinend nicht.
Bei CDNA wird das dann zum Matrix Core, wo es dedizierte Einheiten gibt. Bei der obigen RDNA3 Folie nennt man es noch "Matrix Accelerator" (was dedizierte Einheiten implizieren könnte), allerdings mit "via Vector Units" gleich auf der selben Linie (was dedizierte Einheiten gleich wieder ausschliesst).

Diese Diskussion ist aber eh etwas müssig. Schlussendlich ist für uns als Kunden die Applikationsleistung entscheidend, egal wie es umgesetzt wurde. AMD hat es jedenfalls nie als "separate Einheiten" vermarktet.

MSABK

2024-01-05, 12:25:00

Ich erwarte auch nicht viel von RDNA4 und hoffe nur das die Karten mit dieser Architektur positiv überraschen werden in den Bereichen RT und FPS/Euro und FPS/Watt.

Wirklich interessieren tun mich aber nur Strix Point (Halo), RDNA5 und RTX5000.

Für Squadron42 werde ich mir dann die schnellste Lösung einbauen, die es gibt, egal von welchem Hersteller.

Ich erwarte mit RDNA4 einen Sprung in der Effizienz wie damals von RDNA1 auf RDNA2.

RT wie bei Nvidia wird erst wahrscheinlich erst mit einer neuen Architektur geben. RTNA oder so…

robbitop

2024-01-05, 13:12:21

fondness

2024-01-05, 13:40:47

Oder man nutzt XDNA - aber eines von beidem wird mittelfristig passieren.

Klar man implementiert es zuerst aufwendig in den bestehenden alus um es dann später nochmal extra zu verbauen.

robbitop

2024-01-05, 13:53:00

Klar man implementiert es zuerst aufwendig in den bestehenden alus um es dann später nochmal extra zu verbauen.
Dieser Aufwand wäre auch dahin wenn man extra Matrixunits verbauen würde. Es ist sicher auch ein gewisser Aufwand die CUs so umzubauen, dass Matrix Cores vorhanden sind und unabhängig zu den FPUs verbaut sind. Register, Scheduler alles muss man anfassen.
Bei Phoenix und Strix hat man ja nicht umsonst auf XDNA gesetzt und es sieht zumindest gerüchteweise so aus als würde es seinen Weg in die PS5 Pro finden.

Für mich sieht RDNA3 wie ein Zwischenschritt aus in der Hinsicht. Und letzten Endes muss man die Situation bei jeder Gen neu bewerten.

mboeller

2024-01-05, 14:43:39

Bei Phoenix und Strix hat man ja nicht umsonst auf XDNA gesetzt und es sieht zumindest gerüchteweise so aus als würde es seinen Weg in die PS5 Pro finden.

ich gehe nicht davon aus, dass AMD das "freiwillig" gemacht hat. Microsoft schreibt für Win11 anscheinend die 40-50TOPS vor, ansonsten wäre es schräg, dass alle SoC/APU für Win11 Notebooks, egal ob ARM od. X86 alle gerade zufällig genau gleich gut sind bzgl. TOPS.
Ich denke auch, der Verzug bei Strix Point/Halo kommt auch daher weil AMD wahrscheinlich ursprünglich weniger TOPS geplant hatte.

robbitop

2024-01-05, 16:07:07

ich gehe nicht davon aus, dass AMD das "freiwillig" gemacht hat. Microsoft schreibt für Win11 anscheinend die 40-50TOPS vor, ansonsten wäre es schräg, dass alle SoC/APU für Win11 Notebooks, egal ob ARM od. X86 alle gerade zufällig genau gleich gut sind bzgl. TOPS.
Ich denke auch, der Verzug bei Strix Point/Halo kommt auch daher weil AMD wahrscheinlich ursprünglich weniger TOPS geplant hatte.
Wo steht das? Und selbst wenn das stimmt: Phoenix hat nur 10 TOPs und Hawk Point nur 16 TOPS. Also deswegen (wenn das requirement wirklich 40 TOPS sind) kann man es nicht gemacht haben, weil man dann ja so oder so die Requirements verfehlt hätte. Und was ist außerdem mit Raphael, Raptorlake oder Vermeer? Auf all denen läuft Windows 11 doch und es ist unwahrscheinlich dass sich das ändert.

IMO hat AMD das aus dem gleichen Grund gemacht wie Intel. Weil NN Inferencing Anwendungen immer mehr Einzug halten werden. Das ist seit langem absehbar. Smartphone SoCs haben solche IP Blöcke schon seit ~ Mitte der 2010er Jahre.

mboeller

2024-01-05, 16:46:54

Wo steht das? Und selbst wenn das stimmt: Phoenix hat nur 10 TOPs und Hawk Point nur 16 TOPS.

darum ging es mir:
https://www.microsoft.com/en-us/windows/copilot-ai-features?r=1

News vom 21.09.23:
https://www.notebookcheck.com/Windows-11-23H2-Grosses-Update-startet-in-Kuerze-mit-KI-Copilot-neuem-Explorer-und-vielen-Detail-Verbesserungen.753854.0.html

Phoenix und Hawk Point (ist ja nur ein Update von Phoenix) wurden anscheinend designed bevor die Copilot-Anforderungen bekannt waren.

Nightspider

2024-01-05, 17:06:20

Bei Hawk Point hat AMD doch auch die NPU und anscheinend sogar ausschließlich die NPU verbessert.

robbitop

2024-01-05, 18:35:45

darum ging es mir:
https://www.microsoft.com/en-us/windows/copilot-ai-features?r=1

News vom 21.09.23:
https://www.notebookcheck.com/Windows-11-23H2-Grosses-Update-startet-in-Kuerze-mit-KI-Copilot-neuem-Explorer-und-vielen-Detail-Verbesserungen.753854.0.html

Phoenix und Hawk Point (ist ja nur ein Update von Phoenix) wurden anscheinend designed bevor die Copilot-Anforderungen bekannt waren.

Ich hab in beiden Links aber keine konkreten TOPS Werte gefunden. Bin ich blind? :)

robbitop

2024-01-05, 18:40:26

Bei Hawk Point hat AMD doch auch die NPU und anscheinend sogar ausschließlich die NPU verbessert.

Die Vermutung liegt nahe dass das nur ein Respin ist. Es ist ja sonst kein IP Block neu und der xdna Block ist immer noch Version 1. Ggf taktet die NPU einfach nur höher oder es gab einen bugfix oder ein künstliches Limit wurde aufgehoben. Hawk Point scheint ja eher ein Phoenix Refresh zu sein.

davidzo

2024-01-05, 18:42:59

Die Vermutung liegt nahe dass das nur ein Respin ist. Es ist ja sonst kein IP Block neu und der xdna Block ist immer noch Version 1. Ggf taktet die NPU einfach nur höher oder es gab einen bugfix oder ein künstliches Limit wurde aufgehoben. Hawk Point scheint ja eher ein Phoenix Refresh zu sein.
Ich dachte immer dass die NPU zum Teil ein FPGA ist. Dann könnte man einfach die HDLs updaten wenn man eine Version gefunden hat die schneller ist und immer noch rein passt.

Nightspider

2024-01-05, 18:48:26

Die Vermutung liegt nahe dass das nur ein Respin ist.

Ich weiß jetzt nicht mehr wer es gesagt hat (RGT?) aber die NPU scheint wohl nicht einfach nur übertaktet zu sein.

robbitop

2024-01-05, 18:55:01

Ich dachte immer dass die NPU zum Teil ein FPGA ist. Dann könnte man einfach die HDLs updaten wenn man eine Version gefunden hat die schneller ist und immer noch rein passt.

Jo das würde dann Sinn machen.

basix

2024-01-05, 23:20:15

Wo steht das? Und selbst wenn das stimmt: Phoenix hat nur 10 TOPs und Hawk Point nur 16 TOPS. Also deswegen (wenn das requirement wirklich 40 TOPS sind) kann man es nicht gemacht haben, weil man dann ja so oder so die Requirements verfehlt hätte.

40-50 TOPS werden für den "AI-Sticker" von Windows 12 genannt. Das gilt für die akkumulierte Leistung (CPU + GPU + NPU). Phoenix schafft das knapp nicht aber Hawk Point evtl. schon. Strix Point auf jeden Fall.

robbitop

2024-01-06, 07:51:10

Ja das mag sein. Aber das Argument war ja dafür hätte man es in Phoenix gemacht.
Wenn das mit der kumulierten Leistung stimmt wäre das womöglich auch wieder so ein Marketing BS. Die drei Komponenten arbeiten ja nicht gleichzeitig am Inferencing für ein AI Modell (es geht ja um den AI sticker). Sinnvoll wäre die TOP Leistung der Komponente die das machen soll (oder der TOP stärksten Komponente - solange man sie dafür nutzen kann)

HOT

2024-01-08, 17:00:13

Angeblich sollen N44 und N48 schon im Sommer Tape out gehabt haben und jetzt kommt die Meldung von neuen Karten und Codenamen aber im Zusammenhang mit RDNA3. Irgendwie passt das alles so nicht zusammen. Was wenn N44 und N48 Ersatzchips für RDNA3 sind und gar nichts mit RDNA4 zu tun haben? Ich mein, N41 und N42 hätten ja eh erst im Oktober/November 23 Tape Out gehabt (das hat AMD bei allen RDNAs so gehandhabt), N43 sogar erst in 24 (den gibts ja offenbar noch, aber es gibt keine neueren Gerüchte). Dann könnte N43 der einzige echte RDNA4-Chip werden, N44 und N48 sind vielleicht einfach RDNA3.5. Es kann sogar sein, dass diese Chips überhaupt keine Speicherinterfaces oder ähnliches haben sondern einfach die bisherigen RDNA3-Packages nutzen und fertig.
Die ganze Nummer ist total seltsam. Natürlich kann es durchaus sein, dass AMD RDNA3.5 einfach RDNA4 nennt jetzt, das würde ja auch fürs Marketing gut für Strix Point kommen. Und N43 und Kraken Point werden dann RDNA4.5 und fertig.
Ich weiss viel rumgespinne, aber lohnt sich vielleicht mal in diese Richtung zu denken.

Wenn das mit dem Tape Out von N44(N48) im Sommer23 stimmt, dann dürfte der nicht RDNA4 sein und ich halte es für wahrscheinlich, dass er MCDs und RDNA3.5 nutzt. 64CUs in N4P RDNA3.5 in 200mm² sind ziemlich wahrscheinlich, wenn man einfach das N32-Package mit 4 MCDs weiternutzt. Daher gibts keine echten Daten dafür außer die CUs-Menge. Der andere Chip N48(N44) dürfte dann nach wie vor 96CUs in 300mm² beherbergen.

Das ist doch vom Kostenstandpunkt her ne viel bessere Lösung als komplett neue Chips in vollem Ausbau zu designen. So kann man die MCDs, das Package, die PCBs, große Teile der Firmware usw. weiterverwenden und müsste nur wenig ändern oder neu validieren und für nen Hersteller säh das so aus als würden nur neue RDNA3-Karten kommen.

reaperrr

2024-01-09, 11:27:44

Angeblich sollen N44 und N48 schon im Sommer Tape out gehabt haben (...)
Wenn das mit dem Tape Out von N44(N48) im Sommer23 stimmt, dann dürfte der nicht RDNA4 sein (...)
Warum?

Sind locker anderthalb Jahre nach RDNA3-TapeOuts, größeres Zeitdelta als bei RDNA1->RDNA2.

Ich vermute, dass die Architektur als solche halt schon fertig war, und bei N41-3 nur noch das Chipletdesign gezickt hat und man nicht das Risiko eingehen wollte, dass man da noch ewig rumdoktern muss und dadurch dann indirekt RDNA5 zu sehr verzögert wird und schon gegen den Blackwell-Nachfolger antreten muss, und man deshalb den Fokus auf die spruchreifen monolithischen Mainstream-RDNA4 gelegt hat, um die wenigstens noch ~ein halbes bis 3/4 Jahr gegen Ada antreten lassen zu können.

Wenn sie an N41/42/43(?) festgehalten hätten, wären halt aus Marketing-Gründen auch die kleineren Chips erst nach dem HighEnd gekommen, und dann wären sie mit Pech etwa gleichzeitig zu Blackwell und damit in ein deutlich schwierigeres Marktumfeld gelauncht worden.

stinki

2024-01-09, 11:48:20

Navi 44/48 will AMD bestimmt als "low-cost" monolitische N4 Chips auch nach dem Navi 5x Launch im Programm behalten. Ähnlich wird man wahrscheinlich auch Navi 24 und vielleicht auch noch Navi 33 (wenn nicht komplett durch Navi 44 ersetzt) als billige monolitische N6 Chips weiterlaufen lassen.
Navi 5x wird dann wahrscheinlich eine reine "teure" N3 Generation mit Chiplets z.B. 9/6/3 Shader-Dies.

basix

2024-01-09, 13:00:22

Ja, würde ich auch vermuten, dass N33 und N44 als Mainstream/Entry-Karten im Portfolio drin bleiben. N48 wird vermutlich von N53 abgelöst werden oder N48 bleibt und RDNA5 startet erst ab N52. Das ergäbe ungefähr folgende Staffelung (anhand VRAM Kapazitäten):
- N33 = 8GB
- N44 = 12GB
- N48 = 16-18GB
- N52 = 24GB
- N51 = 36GB

Angeblich sollen N44 und N48 schon im Sommer Tape out gehabt haben [...]
Wenn H1/2024 Release angestrebt wird, wäre ein Sommer Tape Out relativ früh. Aber RDNA3 war schon einiges verzögert, das könnte hinsichtlich zeitlicher Abstände schon aufgehen. RDNA4 käme dann etwa 3.5 Jahre nach RDNA2 auf den Markt. So unwahrscheinlich ist das nicht.

Kommt RDNA4 einiges vor Blackwell und übertrifft Ada um ein gutes Stück, wäre das eine schöne Gelegenheit für AMD, Marketshare zu gewinnen. Und das ohne Dumping Preise, da man verglichen zu Ada ja gut dastehen würde.

Rampage 2

2024-01-09, 13:12:37

Schnitzl

2024-01-09, 13:20:40

Ja, würde ich auch vermuten, dass N33 und N44 als Mainstream/Entry-Karten im Portfolio drin bleiben. N48 wird vermutlich von N53 abgelöst werden oder N48 bleibt und RDNA5 startet erst ab N52. Das ergäbe ungefähr folgende Staffelung (anhand VRAM Kapazitäten):
- N33 = 8GB
- N44 = 12GB
- N48 = 16-18GB
- N52 = 24GB
- N51 = 36GB

Wenn H1/2024 Release angestrebt wird, wäre ein Sommer Tape Out relativ früh. Aber RDNA3 war schon einiges verzögert, das könnte hinsichtlich zeitlicher Abstände schon aufgehen. RDNA4 käme dann etwa 3.5 Jahre nach RDNA2 auf den Markt. So unwahrscheinlich ist das nicht.

Kommt RDNA4 einiges vor Blackwell und übertrifft Ada um ein gutes Stück, wäre das eine schöne Gelegenheit für AMD, Marketshare zu gewinnen. Und das ohne Dumping Preise, da man verglichen zu Ada ja gut dastehen würde.
immer langsam mit den Pferden... :)

Laut Gerüchten gibts RDNA4 maximal bis 7900XT Performancelevel

Pirx

2024-01-09, 13:21:02

...
Wenn N4x jetzt dank verbesserter Fertigung UND gefixtem Hardware-Bug auf 3.5-4 GHz gehen kann und AMD parallel dazu die RT-Leistung & Fähigkeiten der RDNA4-Rechenwerke verbessert sowie Treiber rausbringt, die das brachliegende DualIssue-Leistungspotenzial auch wirklich ausschöpfen können, dann könnte das SEHR interessant werden und vielleicht sogar einen erneuten RV770-Effekt auf Nvidia haben!

R2
schön wärs ja, das sind allerdings etwas viele wenns für meinen Geschmack

Raff

2024-01-09, 13:32:13

Gibt's denn eigentlich erste Gerüchte rund um die RT-Fertigkeiten von RDNA 4?

Weiß man schon Genaueres zur Taktbarkeit von N4x? N3x war ja ursprünglich für 3-3.5 GHz designt worden, aber wegen des Hardware-Bugs (offensichtlich ist da was schief gelaufen...) musste AMD auf 2.5-3 GHz runtergehen.

Wenn N4x jetzt dank verbesserter Fertigung UND gefixtem Hardware-Bug auf 3.5-4 GHz gehen kann und AMD parallel dazu die RT-Leistung & Fähigkeiten der RDNA4-Rechenwerke verbessert sowie Treiber rausbringt, die das brachliegende DualIssue-Leistungspotenzial auch wirklich ausschöpfen können, dann könnte das SEHR interessant werden und vielleicht sogar einen erneuten RV770-Effekt auf Nvidia haben!

R2

So weit ich weiß, ist der einzige "Hardware Bug" von Navi 31, dass er bei hohem Takt säuft wie ein Loch. Taktpotenzial ist aber da.

MfG
Raff

stinki

2024-01-09, 13:39:12

Die meisten erwarten für RDNA4 RT Performance auf Ada Niveau, also Navi48 etwa RT Performance wie AD104 und Navi44 wir AD106 bzw. auf dem Niveau der beiden Battlemage Chips. Alles weniger wäre für die meisten wahrscheinlich enttäuschend...

Ich glaube Navi53 (N3 Chiplets) wird über der Navi48 (N4 monolithisch) Performance liegen:
- Navi33 32CUs
- Navi44 40CUs (gegen GB207/AD106)
- Navi48 64CUs (gegen GB206/AD104)
- Navi53 90CUs (gegen GB205)
- Navi52 180CUs (gegen GB203)
- Navi51 270CUs (gegen GB202)

Raff

2024-01-09, 13:51:23

Schnitzl

2024-01-09, 14:00:37

Weiß man schon Genaueres zur Taktbarkeit von N4x? N3x war ja ursprünglich für 3-3.5 GHz designt worden, aber wegen des Hardware-Bugs (offensichtlich ist da was schief gelaufen...) musste AMD auf 2.5-3 GHz runtergehen.

Wenn N4x jetzt dank verbesserter Fertigung UND gefixtem Hardware-Bug auf 3.5-4 GHz gehen kann und AMD parallel dazu die RT-Leistung & Fähigkeiten der RDNA4-Rechenwerke verbessert sowie Treiber rausbringt, die das brachliegende DualIssue-Leistungspotenzial auch wirklich ausschöpfen können, dann könnte das SEHR interessant werden und vielleicht sogar einen erneuten RV770-Effekt auf Nvidia haben!

R2
in another universe ... maybe

Bei der Komplexität kannst du nicht einfach EINEN Hardware-Bug fixen und das Ding rennt wie Sau.
Ich erwarte nichts von RDNA4, das muss komplett umgebaut werden was erst oder frühestens mit RDNA5 geht. Lasse mich aber gerne vom Gegenteil überzeugen :)

The_Invisible

2024-01-09, 14:09:46

vinacis_vivids

2024-01-09, 14:22:31

Leider ist DLSS der falsche Weg und AMD sollte ihn auf keinen Fall mitgehen.

Wie einst mit Tesselation betrügt Nvidia mit der Bildqualität, nur um längere Balken zu haben.

Ab Min 9:20 sieht man die Rechenpräzision bei AMD und den optisch fehlerhaften DLSS - Filter-Schrott. Muss man leider so sagen:
GPvbwBQhbTA

Und das ist nur ein Beispiel. In einem andere UE5 Spiel rendert Nvidia ebefalls falsch, glaube da waren die Bäume falsch beleuchtet.

Aber sicher werden die Experten DF-guys das nicht finden :-D

Remnant 2 DLSS VS FSR 2.2 4K | RTX 4090 | RX 7900 XTX
bqmUKnLeHKo

Ab min 7:39 - schaut euch mal die Bäume bei Nvidia an ;D

https://i.ibb.co/238p5X1/DLSS-Fehler.png

robbitop

2024-01-09, 14:25:59

Gibt's denn eigentlich erste Gerüchte rund um die RT-Fertigkeiten von RDNA 4?

Laut Gerüchten wohl mindestens BVH Processing in HW. Der PS5Pro SoC soll sogar ein SER Äquivalent mitbringen. Wenn das stimmt und AMD das für Sony entwickelt, wird man es wohl auch selbst nutzen.

stinki

2024-01-09, 14:28:13

Ada RT-Level ist eh schon sportlich, die knappern ja eher noch an Ampere wenn man sich den PCGH-RT-Index ansieht, von PT nicht zu reden. Ich hoffe mal die bekommen das gebacken, dann noch ein gutes AI-Upsampling dazu und Nvidia könnte preislich den RT/DLSS Bonus nicht mehr einsetzen...

Mit Ada RT-Level meinte ich auf vergleichbaren Chips, also für Navi48 erwarte ich maximal AD104/4070Ti Performance und nicht AD102/4090 Performance...

mboeller

2024-01-09, 14:35:25

Ich erwarte nichts von RDNA4, das muss komplett umgebaut werden was erst oder frühestens mit RDNA5 geht. Lasse mich aber gerne vom Gegenteil überzeugen :)

IMHO

wenn die Leaks stimmen, dann wird RDNA4 ein Lückenfüller, mehr nicht.

Ich habe aber noch die kleine Hoffnung, dass die Leaker das "monolithisch" einfach falsch verstanden haben. Bei N41-N43 gab es ja 2 Level an "Chiplets", wie man in dem Beitrag von basix sehr schön sieht:
https://www.forum-3dcenter.org/vbulletin/showpost.php?p=13374402&postcount=573

Der erste Level mit "SED" "Memory" und "CP" und der 2. Level mit den 3 großen Chiplets (incl. Brücken 704a/b).

Vielleicht wurde nur der erste Level gestrichen, weil die Kapazitäten dafür nicht ausgereicht haben bzw. die Kosten aus dem Ruder gelaufen sind.

N48 könnte also ein monolithisches Design mit 64CU/128bit GDDR7 sein, dass dann doch 1,2 oder gar 3 mal pro Karte verbaut wird. Hängt halt davon ab, ob der verteilte Command-Prozessor funktioniert wie geplant oder nicht.

robbitop

2024-01-09, 14:40:45

IMHO

wenn die Leaks stimmen, dann wird RDNA4 ein Lückenfüller, mehr nicht.

Nur weil die high end Modelle gestrichen worden sind? RDNA4 die uArch muss deshalb nicht schlecht sein. Die Gerüchte um deutlich aufgeweitete RT Units zeigen eigentlich Fortschritt auf. Und wer nach Grafikkarten im niedrigen und mittleren Preisbereich (oder guter IGPs) sucht, für den ist das kein Lückenfüller.
Polaris war IMO ja auch keiner.
Die High End Versionen sind laut Gerüchten mangels moderner Packaging Kapazitäten gestrichen worden. Die lassen sich aktuell für HPC/AI mit höheren Margen verkaufen.

basix

2024-01-09, 15:37:46

immer langsam mit den Pferden... :)

Laut Gerüchten gibts RDNA4 maximal bis 7900XT Performancelevel

Ich hatte damit nicht behauptet, dass man schneller als eine 4090 wird ;) OK, "übertreffen" könnte das implizieren

4070 Ti Performance zu gutem Preis, besserer Energieffizienz, gleichwertiger RT Performance und mit 16-18 GByte ist auch konkurrenzfähig ;)
Damit überträfe man das Konkurrenzangebot bei Energieffizienz und Speicherausbau. Und wohl auch P/L.

Edit:
Was meine Hoffnung/Erwartung wäre:
- RDNA3.5 fixt das Taktbarkeitsproblem (=höhere Taktraten ohne grossen Durst möglich) und im besten Fall gibt es noch ein wenig IPC obendrauf (neue Scalar Unit)
- RDNA4 führt BVH-Traversal in HW ein. Feature Level etwa auf Ampere Niveau. Dazu weitere Verbesserungen an Energieeffizienz und IPC (z.B. erweiterte/schlagkräftigere VOPD Befehle)

Das ist "relativ überschaubar". Würde allerdings die grössten Schwachstellen des Designs angehen.

RDNA5 dann mit leicht verbesserten RT-Units (SER?) und primär Multi-Die GPU. Sozusagen "one problem at a time".

Hübie

2024-01-11, 20:30:05

Erwarten kann man viel - ich meinte erste Indizien dafür, dass AMD vom bisherigen Ansatz des flexiblen, aber verhältnismäßig langsamen Transistor-Recyclings wegkommt und stattdessen robuste/mächtige Fixed-Function-Einheiten implementiert. :) Dann hätten wir in der zweiten Jahreshälfte drei Architekturen mit diesem Ansatz, zwei davon neu.

MfG
Raff

Der Assembler-Aufwand steigt überproportional zur ISA, welche mit FFUs deutlich 'specialized' wird. Rate mal was AMD nicht im Überfluss hat. Richtig. Passende Devs. :smile:

Mein Empfinden ist, dass AMD es alle (ich sag mal) fünf Generationen schafft, ein echtes Konkurrenzprodukt zu entwickeln und dann wieder auf dem absteigendem Ast ist. Passt auch zu deren zyklischen RnD Budgets, dass momentan wohl nicht so viel für GPUs bereit stellt. 2028 dann wieder? :uponder:

DrFreaK666

2024-01-11, 23:11:49

AMD ist finanziell deutlich besser aufgestellt wie vor fünf Jahren. Das kann man wohl kaum vergleichen

Altehardware

2024-01-11, 23:15:58

für amd spricht das mit n2 und n2x der Takt drastisch steigt und die dichte sich verdoppelt bei gleichem strombedarf.
Da braucht es keine drastischen Architektur Änderungen mehr bis man mit a18 umstellen muss.
da zu den alu Verdoppelung dennoch ein Takt Verlust dazukommt.
Das cpu limit dürfte dann eine starke rolle spielen ab 2028 wo a18 node in die Planung der Architektur rein muss.
Schon rdna3,5 zeigt deutlich das die arch nur ein Taktprobleme hatte und die igp läuft mit 2,9ghz aber diese ist auf 12cu und nur 45w limitiert in n5 node
teilt man das kommt da für desktop und 32cu auf diese werte
45/12*32=120w =2,9ghz auf 1,0v +0,05v =1,05v bei 3,4ghz grob 139w
In n4x node kommen da 11% dazu also min 3,55ghz bis 3,7ghz bei grob 180w
Und das ist nur rdna4
rdna5 wird das nochmal +15% sein da es in n3p node wird.
also aus 3,55 wird 4,0ghz-4,1ghz
Das mal folgende mcm Lösung 120cu und 180cu 68tf und 99,6tf
amd wird ab ende 2025 bis Anfang 2026 klar die Nase vorne haben vs nvidia die dann erst mit nen refresh reagieren ob das dann super heißt oder rtx60 ist unklar.
Sicher ist nur eins das es keinen monolithischen chips geben wird mit rdna5 da zu teuer.
Das dürfte nur noch rx8600 rx8600xt und rx8700 rx8700xt bleiben bis 2028
Einmal 28cu +-14,4tf, 32cu +-17,7tf und 56cu +-29,8tf, 64cu +-35,4tf (das kommt dieses Jahr raus irgendwann juni juli)
Und dann ein sprung mit 9700xt 96cu +-53tf, rx9800xt +- 68tf
Und dann high end mit 9900xt 156cu +-84tf und Enthusiast als rx9950xt 180cu +-99,6tf

N2x node mit rdna6 medusa als x bezeichnet kommt mit doppelten alu also min 240cu und 360cu
x700 ab 192cu +-106tf
x800 240cu +-133tf
x900 324cu +-175tf
x950 360cu +-199tf

Nvidia indes wird kaum mithalten können
wo rtx50 noch konkurrieren kann bis 110tf mt dem gb202 und 180sm auf 3,2ghz +-101tf
Wird ab rtx60 ein problem aufkommen
maxed 430mm² limitieren die alu bei nvidia design. Auf etwa 216sm mit je 192core per sm
grob dann bei etwa 3,2ghz ~210tf (2028)
Der Nachfolger wird dann für nvidia zum großem problem da der Takt drastisch fallen wird grob schätze ich bei a18 nur noch 2,4ghhz mit 432sm 315tf

amd indes wird mit mcm mehr gcd hinzufügen also 4 gcd statt 3 und somit dann 960cu bei 3,0ghz grob 383tf erreichen und das ist noch ohne architektur Verbesserung.

Der Takt wird zum problem für nvidia da sicher bei 3,2ghz 80fp32 und nur 3,1-3,2ghz bei 144fp32 sind.
Durch gestapelte chips dürfte das min um 25% Taktverlust geben als grob 2,4ghz maximum also 315tf vs knapp 383tf amd wins
Das problem kann nvidia erst mit a14 node lösen wo Wärmebrücken Einzug erhalten was den Takt dann wieder auf 3,2ghz erhöht.
mein verdacht das nvidia ab a18 node eine mcm Lösung anstrebt.

amd indes wird definitiv vorne liegen ab 2027
dann heißt es 180cu vs 202sm grob dann 199tf vs 196tf
Die Nadel wird dann die software ab diesen perf wohl gemerkt auf 450w tbp das cpu limit zum problem wird.

cpu bis dahin
zen 5 +20% 2025 5,6ghz
zen 6+10% 2026 5,6ghz
zen 7 +25% 2027 7,0ghz
zen 8 +10% 2028 7,0ghz
zen 9 +25% 2029 8,7ghz (unklar)
zen x +25% 2031 11ghz (unklar)

Derzeit 4k pathtracing 63tf kein limit
dann 2026 4k pathracing etwa 100tf kein limit
dann 2028 4k pathtracing etwa 199tf cpu limit(rendert bis 120tf ohne limit)
und das ist alan wake 2

Das nächste bottleneck wird data also pcie ssd wird Pflicht min pcie4 x4 ab 5gb/s
dann dürfte noch die Bandbreite ab 1tb/s Pflicht werden. Und dram sollte ddr5 sein ab 8000mt/s=128gb/s

Womit eins klar wird, bis das auf den Einsteiger gpu standard wird ist es 2032
Und ne ps7 ist da
ps5 hat 10tf 2022
ps5 pro grob 20tf 2024
ps6 sollte die 40tf erreichen 2027
ps6 pro erscheint vermutlich 2030 mit grob 80tf
ps7 erscheint dann 2032 mit grob 160tf und pcie7 standard was dann 64gb/s über x4 spricht ich tippe auf en x8 was 128gb/s entspricht.

Sicher ist nur das ab am6 2026 am pc einige Änderungen beim dram Anbindung und pcie bus geben wird vermutlich x8 Anbindung der ssd und mehr cpu lanes tippe auf doppelt also statt 24 dann 48
2 mal x8 an ssd 1 mal x16 gpu pcie6 einmal x8 an chipsatz, dann den ram mit quadchannel je rambank an ddr6 128bit.
Mit diesen schritt wird amd den kompletten entry level gpu abschaffen die Flaschenhälse entschärfen für apu und somit den Grundstein für gpu past 100tf legen.

Womit 4k zum standard wird und 1080p für apu mit pathtracing da apu's bis 40tf gehen werden bis 2028.
Dann gibt es ne pause bis 2032 und apu haben grob 75tf und die nächste pcie 7 gen kommt mit 256gb/s auf am7 und wir reden über gpu bis 380tf mit gddr8 64gbps ramchips. an dann 256bit 2000gb/s

entry gpu wird es ab 2026 nicht mehr geben die letzte ihrer art sind rtx5060 und amd rx8600 gen.

folgende Konsequenz
pc gaming ab 2026 startet mit amd dgpu ab 450$ nvidia noch die rtx5060 super ab 350$
pc gaming ab 2027 amd ab 500$ nvidia ab 550$ 70 700 class gpu ab 66tf
apu ab 280$ bis 40tf
cpu ab 450$
ddr6 ab 32gbit ramchips ab 12000mt/s ab 128bit per channel 32gb
mainboards ab 200$ apu system 120$ reine cpu systeme
min 2 m2 ssd an pcie6 x8 nur 2 sata ein x8 pcie4 m2
einstieg komplett pc ab 1200$ apu bis 40cu
mid class komplett 1400$ apu 60cu
high end einstieg ab 2000$

Aufrüstjahre Empfehlung 2025 und 2029 für dgpu (einmal maxed 350$ 60class gpu rtx5060 rx8700xt und dann später 400$ 70class gpu akä rtx7070)

cpu ab 2027 2030 einmal zen 7 auf am6 ab 7,0ghz 450$ und zen x 350$ 2030 letzte am6 cpu

bis dahin
amd zen 6 ab 2026 6,0ghz cpu (am5)
rtx5060 oder rx8700
alternativ zen3 5800x3d (am4)
rtx4070 oder rx7800xt (grob 22tf)
bis 2027 low end

intel keine option bis luna lake 2027 völlig unklar was daraus wird.

apu sind die einzige option für entry ab 2027 oder gebr ne rtx5080 (grob 41tf) rx9700xt (57tf)
Das werden teure Jahre

boxleitnerb

2024-01-12, 02:03:20

Leider ist DLSS der falsche Weg und AMD sollte ihn auf keinen Fall mitgehen.

Falsch.
Neben besserer KI-gestützter Programmierung bzw. Optimierung sowie Asseterstellung ist ein ressourcensparender neuer Ansatz wie intelligentes upsampling sinnvoll, um auch in Zukunft trotz steigender Kosten für schnellere Hardware mehr Bildqualität bieten zu können.
Brute Force macht immer weniger Sinn, das sehen zum Glück alle Firmen so.

Hübie

2024-01-12, 06:54:42

AMD ist finanziell deutlich besser aufgestellt wie vor fünf Jahren. Das kann man wohl kaum vergleichen

Bezieht sich das auf meinen Beitrag? Du kannst nicht einfach davon ausgehen, dass ein hohes RnD-Budget auch auszahlt (schon gar nicht 1:1). Und der Markt an Personen, die in Frage kommen ist sehr, sehr klein. Selbst meine Expertise im Testing ist eine Seltenheit...

basix

2024-01-12, 09:12:14

Höheres R&D Budget ist aber mal nicht schlecht ;)

AMD hat RDNA2 mit relativ wenig Mitteln recht konkurrenzfähig zu Ampere hingekriegt. Bei RDNA3 ist was schiefgelaufen, sonst wären sie ähnlich wie bei RDNA2 relativ gut dabei. Nicht vor Nvidia aber gut dabei. Wenn man aber keine Mittel und Manpower hat, wird es ganz einfach nochmals schwieriger um mit Nividia mitzuhalten, da ist mehr Budget also schon gut. Jetzt mit ML/AI und den HPC-Beschleunigern ensteht ein Konkurrenzkampf um Ressourcen. AMD tut nun also das richtige, wenn sie sich bei RDNA4 auf das Wesentliche konzentrieren (nur N44, N48, keine Chiplets) und man erst bei RDNA5 wieder breiter geht. RDNA5 wird zudem zu guten Teilen die Basis für die NextGen Konsolen sein, was erhöhte Investitionen ebenfalls rechtfertigt.

Exxtreme

2024-01-12, 09:17:25

Ob AMD zu wenig R&D Budget hat oder zu wenig Manpower, das ist auch nur reine Spekulation. Eventuell haben sie sogar genug und RDNA3 ist eine reine Management-Entscheidung gewesen. Das Management einer Firma trifft öfter Entscheidungen, die völlig irrational sind weil sie weniger auf das Wohl der Firma abzielen sondern mehr auf die Karriereplanung des Managements.

dargo

2024-01-12, 09:19:34

Falsch.
Neben besserer KI-gestützter Programmierung bzw. Optimierung sowie Asseterstellung ist ein ressourcensparender neuer Ansatz wie intelligentes upsampling sinnvoll, um auch in Zukunft trotz steigender Kosten für schnellere Hardware mehr Bildqualität bieten zu können.
Brute Force macht immer weniger Sinn, das sehen zum Glück alle Firmen so.
Da passt irgendwas nicht zusammen... auf der einen Seite soll höherer Pixelcount Brute Force sein. Auf der anderen Seite gibt es in einzelnen Games (ich nenne es gerne den Lederjackenmodus) wie bsw. CP77 oder AW2 Path Tracing. Und das soll plötzlich kein Brute Force sein? :|

basix

2024-01-12, 10:04:13

Ob AMD zu wenig R&D Budget hat oder zu wenig Manpower, das ist auch nur reine Spekulation. Eventuell haben sie sogar genug und RDNA3 ist eine reine Management-Entscheidung gewesen.

Bei RDNA3 hat technisch was nicht funktioniert, da ist Geld und Management mal egal ;)

RDNA3 ist augenscheinlich auf viel höhere Taktraten ausgelegt. Säuft dann aber wie ein Loch. Das war keine Management-Entscheidung. Irgendwas im Design ist schiefgelaufen, deswegen ist RDNA3 auch eher mittelmässig rausgekommen. Würde RDNA3 +20% höher takten, wären die Karten einiges attraktiver.

boxleitnerb

2024-01-12, 10:10:24

Da passt irgendwas nicht zusammen... auf der einen Seite soll höherer Pixelcount Brute Force sein. Auf der anderen Seite gibt es in einzelnen Games (ich nenne es gerne den Lederjackenmodus) wie bsw. CP77 oder AW2 Path Tracing. Und das soll plötzlich kein Brute Force sein? :|

Sehe es nicht schwarz/weiß. Es ist ein Prozess - auch bei Ray-/Pathtracing wird es Optimierungen geben, bzw. gibt es schon, z.B. Denoiser, weil man eben nicht unendlich viele Strahlen schicken kann.
Denke in Jahren, nicht nur an die aktuelle Situation.

Heute spricht auch niemand mehr über die Kosten von AF, 32 bit usw. Das kam mit den Jahren dann, wenn sich die Bottlenecks verschieben. Es wird immer neue Anforderungen geben, die zunächst noch sehr hardwareintensiv sind, bis man es intelligenter und schneller zu laufen bekommt. Oder sich die Lastverhältnisse verschieben.

Ich verstehe auch nicht, warum du schon wieder auf den Rot/Grün-Zug aufsteigen musst, das ist völlig unnötig. Unabhängig von Ray-/Pathtracing oder IHV finde ich es sinnvoll, z.B. 50% mehr Performance zu erhalten für einen (subjektiv!!!) kleinen Abstrich in der Qualität. Auch das ist nicht schwarz/weiß - die Option ist aber schön und sinnvoll, das muss man nicht dogmatisch schlechtreden.

basix

2024-01-12, 10:53:23

RTXDI und CP77 mit Ray Reconstruction obendrauf ist sicher kein Brute Force. Würde man das Brute Force rechnen, hättest du Frametimes in mehreren Sekunden. Die Algorithmen sind schon gut optimiert und werden dazu immer besser. Pathtracing ist einfach sehr fordernd, langfristig aber der richtige Weg.

Eine erhöhte Auflösung ist aber doch relativ klar "Brute Force". 4K -> 8K bring schon was, aber in Relation zum Leistungsbedarf lohnt sich das das nur wenig. Da wäre 8K DLSS-P deutlich sinnvoller. Man bekommt fast alle Vorteile von 8K mit deutlich geringeren Leistungsbedarf.

Exxtreme

2024-01-12, 11:53:07

Bei RDNA3 hat technisch was nicht funktioniert, da ist Geld und Management mal egal ;)

Angeblich wollte Raja Koduri dedizierte RT-Rechenwerke, wurde aber vom Management gestoppt. Das sind dann solche irrationalen Management-Entscheidungen, die dem Wohl des Managements dienen und nicht dem Kunden. Das passiert auch woanders sehr oft. Z.B. wurde mal ein Skoda-Cheffe entlassen weil die Skodas zu gut waren und die teureren VWs kanibalisierten.

Badesalz

2024-01-16, 10:58:43

Bei RDNA3 hat technisch was nicht funktioniert, da ist Geld und Management mal egal ;)
[...]
Irgendwas im Design ist schiefgelaufen, deswegen ist RDNA3 auch eher mittelmässig rausgekommen.
Macht das RDNA4 nicht zum interessantesten Launch 2024? :tongue:

Weil einerseits scheint das quasi als bestätigt, daß sie da irgendwo zu spät einen design flaw erkannt haben und waren ja auch in der Lage launch-post-hum in wenigen Wochen zu finden und zu fixen :rolleyes:

Und andererseits weiß man damit garnicht wie schnell (nicht nur Takt) RDNA3 ohne des Fehlers könnte. UND, da sie jetzt garantiert 3x drüberschauen werden und das zu einigen Erfahrungen führte, wie schnell RDNA4 nun können wird. Die Story macht das für mich irgendwie interessanter als sonstige Launches. Wegen den paar Unbekannten.
Auch wenn es sich halt schnell festgesetzt hat, RDNA3 läuft deswegen "20%" unter dem Potenzial.

Oder wie seht ihr das? Aktuell find ich das deswegen spannender als den nächsten Zen :ucoffee:

edit:
Leider ist DLSS der falsche Weg und AMD sollte ihn auf keinen Fall mitgehen.

Wie einst mit Tesselation betrügt Nvidia mit der Bildqualität, nur um längere Balken zu haben.Du siehst meine Sig. Ich weiß was ich weiß und auch was ich sehe und das labert mit keine 3DC-Expertenrunde, egal ob mit oder ohne unserer Hausjournalie, andersrum.
Die Cheater-Traditions sind bei denen imho schon zig Jahre alt und werden mal mehr mal weniger immer wieder mal gepflegt.

Und DF ist imho auch nur noch eine PR-Schleuder :mad:

BavarianRealist

2024-01-16, 11:59:05

Macht das RDNA4 nicht zum interessantesten Launch 2024? :tongue:

Weil einerseits scheint das quasi als bestätigt, daß sie da irgendwo zu spät einen design flaw erkannt haben und waren ja auch in der Lage launch-post-hum in wenigen Wochen zu finden und zu fixen...

Für mich sieht das Ganze auch sehr danach aus, dass AMD die Roadmap für RDNA4 erst kurzfristig geändert haben könnte nach Entdecken des Fehlers bzw. Erkennen, dass Navi31/32 so nicht richtig funktionieren. Navi33 in 6nm schafft ja sogar höhere Takte.

Vermutlich hat man einfach Navi41 und Navi42, die vermutlich wieder ähnlich wie deren Vorgänger auf mehrere Dice aufbauen sollten, gestrichen. Ähnlich Navi33 könnte man auch hier von Anfang an die kleinen Varianten als Single-Die geplant haben. Der "neue" Navi48 könnte als Ersatz für die Streichung von Navi41/42 aufgenommen worden sein.

Zudem erwarte ich, dass von Navi4x ein erstes GPU-Chiplet entwickelt werden sollte, z.B. für Strix-Point-Halo etc., sodass man hier sehr genau auf Effizienz schaut und Highend erstmal gezielt auslässt, einfach auch, weil AMD womöglich nicht genug Ingenieurs-Ressourcen dafür hat, um alle Baustellen gleichzeitig zu bedienen. Zudem könnte man die für Navi41/42 georderten Kapazitäten für Multichip für andere Einsätze besser einsetzen, sodass schon alleine daher das Multichip für GPU noch mal eine Runde warten muss.

Badesalz

2024-01-16, 12:04:04

Sich mit NV batteln zu wollen ist ja eine Sache, aber daß man nicht etwas rausbringt was man ohne sich lächerlich zu machen, "our Flagship" nennen kann, das glaube ich niemals.

Man wird dabei halt auf P/L setzen. Hat jetzt nicht so ganz funktioniert (wirtschaftlich), weil sie eben blöd gestolpert sind. Lederjacke hat unverhofft mit eigenen Preisen nur dabei geholfen, daß sie sich nur ein blaues Auge aber keine blutige Nase geholt haben. Bleibt zu hoffen, daß sie genug gelernt haben.

mboeller

2024-01-16, 12:11:43

Für mich sieht das Ganze auch sehr danach aus, dass AMD die Roadmap für RDNA4 erst kurzfristig geändert haben könnte nach Entdecken des Fehlers bzw. Erkennen, dass Navi31/32 so nicht richtig funktionieren. Navi33 in 6nm schafft ja sogar höhere Takte.

das würde dann wohl heißen, dass entweder die ausgelagerten Speicherinterface oder der ausgelagerte $IF nicht so funktioniert wie erwartet bzw. einen viel zu hohen Verbrauch hat. Für beides habe ich aber bisher nichts gelesen.
Auf der anderen Seite rennt die GPU sehr schnell, wenn die nur GPGPU machen darf und damit nur wenige Speicher/$IF Zugriffe benötigt.

Rampage 2

2024-01-16, 12:14:06

Also ich erwarte von RDNA4, genauer von N48 (also vom größten Chip, der nicht gecancelt wurde) eine Leistung auf Niveau der 4070 Ti (Rasterizing UND Raytracing) im Minimum und ~ 4080/4080S-Niveau am Maximum. Vorausgesetzt natürlich, dass der Takt-Bug von RDNA3 behoben wurde und das Ding mindestens 3.5 GHz schafft;)

Überzogene Erwartungen?

R2

Raff

2024-01-16, 12:17:37

Leider ist DLSS der falsche Weg und AMD sollte ihn auf keinen Fall mitgehen.

Komisch. Fluid Motion Frames, also ein simpler Frame-Interpolator, der die Balkenlänge mal eben verdoppelt, feierst du ab. Wo hört ein cleveres Recycling-Verfahren auf und ein Cheat fängt an - doch nicht etwa bei der Schwelle, wo ein Algo nicht von AMD, sondern von Nvidia kommt? ;)

Spielt aber keine Rolle, die Branche ist sich einig: Künftig gibt es Raytracing und KI-gestützte Pixel-Aufbereitung. Da kann man so viel im Dreieck springen und auf "reinrassiges" Rasterizing pochen, wie man will, Dinosaurier sterben aus.

MfG
Raff

BavarianRealist

2024-01-16, 12:20:53

Badesalz

2024-01-16, 12:53:28

Für alle die darüber grübeln: Cheating fängt da an wo es besch... aussieht als wenn eben ordentlich gerendert wurde.

"Die Branche ist sich einig"... Die Branche ist sich einig mit welchen Cheats sie die Blinde Kuh in gewohnter Art (wichtig) und halt im gewohnten Maße weiter melken kann.
Die Nodes geben ja nicht mehr soviel her. 16pol. Stecker fangen dann auch mal zu kokeln. Da muss die Branche sich was anderes überlegen.

Nicht alles so rendern wie die Engine es vorlegt ist schonmal die erste gute Idee. Die Engines verteilen jetzt schon anscheinend keine Renderaufgaben mehr an NV-Grakas. Sie machen Rendervorschläge :crazy:

Und da Blinde Kuh halt blinde Kuh ist, und davon genug, ist sich die Branche daher einig. Das nächste große Ding nach RT wird SR sein. Suggestion-Rendering :uup:

Raff

2024-01-16, 13:15:19

Es wurde noch nie "ordentlich gerendert". Das ist die falsche Grundannahme bei dieser Diskussion. Was ist "richtiger": Ein Konglomerat an Fakes, die nativ mit SSAA dargestellt werden ... oder das Nachahmen von Licht, bei dem die Last durch Pixel-Recycling abgefedert wird? ;)

MfG
Raff

reaperrr

2024-01-16, 13:17:58

Allein die Tatsache, dass Navi48 der größere Chip sein soll, heißt für mich, dass Navi48 erst später als Produkt auf die Roadmap kam. Vermutlich handelt es sich bei Navi48 um nicht viel Anderes als eine Vergrößerung (Verdopplung?) von Navi44.

Aber wo bliebe dann Navi43? Selbst bei Navi44 könnte es sich um eine nachträgliche Veränderung vom ursprünglichen Navi43 handeln, sodass dann Navi44 und 48 spätere Produkte der Roadmap sein könnten und alle ersteren gestrichen worden sind.

N43 war vermutlich entweder ebenfalls Chiplet (N41 = 3 GCX, N42 = 2 GCX, N43 1 GCX, 1 GCX = 48 CUs) und wurde mitgestrichen, oder war zwar monolitisch, aber zu niedrig spezifiziert um die Rolle ausfüllen zu können, die er nach der Streichung der Chiplet-GPUs ausfüllen muss (Ersatz für N32 und Salvage-N31).

N44 wurde in den Gerüchten schon früh erwähnt, außer an den genauen Specs glaube ich nicht, dass sich an dem in der Zeit viel geändert hat.

N48 dürfte N43-Ersatz sein, egal ob Ur-N43 wegen Chiplet gestrichen wurde, an der N43-Konfig so viel aufgebohrt werden musste, dass er zu N48 umbenannt wurde, oder es einfacher war, N44 quasi neu zu doppeln als den alten N43 aufzubohren.

das würde dann wohl heißen, dass entweder die ausgelagerten Speicherinterface oder der ausgelagerte $IF nicht so funktioniert wie erwartet bzw. einen viel zu hohen Verbrauch hat. Für beides habe ich aber bisher nichts gelesen.
Auf der anderen Seite rennt die GPU sehr schnell, wenn die nur GPGPU machen darf und damit nur wenige Speicher/$IF Zugriffe benötigt.
Naja...

- N31 und 32 schaffen trotz N5(P?)-GCD kaum N33-Taktraten
- 7700 XT schafft mit nur 10% deaktivierten CUs in 18W niedrigerem PT in manchen Spielen über 200 MHz höhere Taktraten UND rennt weniger ins Powerlimit als 7800 XT -> ergo: der zusätzliche MCD, Speicher, und höhere Speichertakt bringen bem Verbrauch offenbar schon deutliche Nachteile für die 7800XT mit sich, locker 25-30W, nur performt die 7700XT mit ~5% weniger Rohleistung auch 20% langsamer (also bandbreitenlimitiert), d.h. AMD konnte den 4. MCD bei der 78XT auch nicht einfach aus Verbrauchs- und Kostengründen weglassen.

Aber es sieht schon verdächtig danach aus, dass eine hypothetische 7800 XT mit entweder auch nur 18Gbps Speicher (erlaubt evtl. niedrigere Spannungen, auch bei MCDs?) oder 192bit, aber 20Gbps Speicher und größerem IF$ je MCD (z.B. 24MB je MCD, für 72MB gesamt) eine bessere Perf/W und höhere Taktraten geschafft hätte.

Und wenn 1 MCD schon bei der 78XT so einen negativen Einfluss auf Verbrauch und GCD-Taktraten hat, kann man sich ausmalen, wie das bei der 79XTX aussieht.

Insofern würde ich selbst ohne große uArch-Verbesserungen erwarten, dass RDNA4 einen ordentlichen Perf/W-Sprung hinlegt: N44 ggü. N33 allein schon wegen dem Prozess, N48 ggü. N32 wegen monolithischem Design und gerüchteweise schmalerem SI (dafür GDDR7), mit N4P und uArch-Verbesserungen on top.

Badesalz

2024-01-16, 13:19:05

@Raff
"Nachahmen von Licht"? Ok man kann ja von vinacis_vivids halten was man will, aber die Videos sind halt nicht die schlechtesten.

Willst du damit grad implizieren, daß soetwas wie da eine prinzipbedingte Zwangsläufigkeit ist, wenn man RT macht?

Raff

2024-01-16, 13:22:17

Badesalz

2024-01-16, 13:28:16

Ja. Das kann schon sein. Vielleicht machen sie es dann auch nicht richtig, aber hoffentlich wenigstens gewohnt ordentlich.
Da sie ja eh schon ewig nicht Federführend sind sehen sie hoffentlich auch davon ab es das bei der Cheater-Mafia sein zu wollen.

Und wir weiter bzw. wieder paar Vergleiche ziehen können wie man z.B. aus der Vogelperspektive ordentlich "Schnee" rendert :up:

PS:
Und ja. Es wurde noch nie richtig gerendert. Deine Lehrerfahrung heute betrifft aber auch nicht "richtig", sondern "ordentlich". Gern geschehen, Kollege Aal.

Exxtreme

2024-01-16, 13:29:32

@Raff
"Nachahmen von Licht"? Ok man kann ja von vinacis_vivids halten was man will, aber die Videos sind halt nicht die schlechtesten.

Es ist ein Nachahmen von Licht weil das sonst viel zu lahm wäre. Du kannst Raytracing nicht sinnvoll mit Rastersizing ersetzen. Und deshalb gibt es sowas wie bump mapping, normal mapping, ambient occlusion etc. damit es auch mit Rastersizing so ähnlich wie Licht aussieht und es trotzdem schnell läuft. Es sind aber dennoch Fakes, die man ganz deutlich sieht.

Badesalz

2024-01-16, 13:43:03

@Exxtreme
Bist du da bewandert genug um aufzuklären warum er das als ein entweder-oder in die Diskussion platziert? Sprich, entweder so ne Grütze wie auf den Videos oder eben garkein RT?

Ich komm bei dem Aspekt leider nicht ganz mit. Allerspätestens bei den Bäumen nicht.

][immy

2024-01-16, 13:48:36

Herrje. Ich hoffe einfach sehr, dass AMD mit RDNA 4 so richtig in die Vollen geht, was RT-Einheiten und somit -Leistung angeht. Dann hören diese müßigen Diskussionen auf und die üblichen Verdächtigen fangen plötzlich an, Raytracing-Werbevideos zu posten. Wetten? Ich freue mich drauf. :biggrin:

MfG
Raff

Wenn PT ohne extremen zeitlichen Versatz im Segment unter 400€ ankommt, vielleicht ;)

Nach wie vor stört mich halt am meisten (neben den Preisen) das PT noch ein ganzes Stück von Echtzeit entfernt ist und zusätzliche Artefakte durch das denoising entstehen. Was das angeht bin ich empfindlich, aber mit fortschreitendem alter und damit einhergehender, nachlassender Sehkraft komme ich dem Ganzen wohl auch ein wenig entgegen 😁

Framegen ist auch so ein Reizthema. Noch mehr temporale Artefakte... Würde mich fast nicht wundern wenn dies bald in die Hardware gebaut wird, so das es immer an ist und es somit in Benches für die neuen Generationen besser aussieht.

Die Technik finde ich durchaus interessant (aus rein technischer Sicht), würde es aber nicht aktivieren aufgrund der Nachteile.

Exxtreme

2024-01-16, 13:53:05

Die Grütze kommt daher weil man Upscaler aktiviert. Da selbst eine RTX 4090 ohne Upscaler komplett einbricht wenn man es mit RT übertreibt. Und nein, die Grütze bekommt man nicht weg. Einem hochskalierten Bild fehlen schlicht Informationen, die ein nicht hochskaliertes Bild hätte. Es können zwar Teile von vergangenen Bildern wiederverwertet werden und die fehlenden Informationen könnten in vergangenen Bildern enthalten sein. Aber die Wahrscheinlichkeit, dass die fehlenden Informationen in vergangenen Bildern enthalten sind, liegt definitiv bei unter 100%. Und deshalb sieht man immer Grütze, vor allem in Bewegungen.

Pirx

2024-01-16, 14:28:45

... Da selbst eine RTX 4090 ohne Upscaler komplett einbricht wenn man es mit RT übertreibt...
und deshalb ist dieses blinde Pushen von RT auch sehr fragwürdig. Man ist mit Rasterizer am "Ende", "8K" "16K" ist sinnfrei und nun sucht man einen weiteren Punkt, an dem man Geld verdienen/Ressourcen verschwenden kann kann.

Exxtreme

2024-01-16, 14:39:37

und deshalb ist dieses blinde Pushen von RT auch sehr fragwürdig. Man ist mit Rasterizer am "Ende", "8K" "16K" ist sinnfrei und nun sucht man einen weiteren Punkt, an dem man Geld verdienen/Ressourcen verschwenden kann kann.

RT ist halt trotzdem hübscher als Fake-RT mittels Rastersizer. Es ist viel dynamischer und exakter, da RT nichts vergisst/übersieht solange es Polygone sind. Ja, Nicht-Polygone muss man bei RT speziell behandeln.

Würde man diese Exaktheit auch ohne RT haben wollen dann wäre das ganze noch viel langsamer als mit RT. Und deshalb gibt es diese Exaktheit ohne RT auch nirgendwo sondern man nimmt Fehler inkauf.

Hier mal Beleuchtung ohne RT mittels Rastersizer:
https://www.forum-3dcenter.org/vbulletin/showthread.php?p=13280617#post13280617

https://www.forum-3dcenter.org/vbulletin/showthread.php?p=13256097#post13256097

Da sieht man massiv light bleeding, und dass Dinge keine Schatten werfen obwohl sie sollten.

Der_Korken

2024-01-16, 15:23:48

- N31 und 32 schaffen trotz N5(P?)-GCD kaum N33-Taktraten

Stock ja. Die Clockceiling liegt bei N31 jedenfalls absurd hoch, irgendwo bei 3,5Ghz+. Bei N33 weiß ich nicht, ob jemand schonmal >3Ghz zum laufen bekommen hat. Wenn das Powerlimit dafür zu sehr bremst, wäre das aber ein Indikator dafür, dass die Clockceiling deutlich niedriger liegt. Insofern hat 5nm schon einen Vorteil, er kommt nur aufgrund eines Designfehlers nicht zum tragen.

- 7700 XT schafft mit nur 10% deaktivierten CUs in 18W niedrigerem PT in manchen Spielen über 200 MHz höhere Taktraten UND rennt weniger ins Powerlimit als 7800 XT -> ergo: der zusätzliche MCD, Speicher, und höhere Speichertakt bringen bem Verbrauch offenbar schon deutliche Nachteile für die 7800XT mit sich, locker 25-30W, nur performt die 7700XT mit ~5% weniger Rohleistung auch 20% langsamer (also bandbreitenlimitiert), d.h. AMD konnte den 4. MCD bei der 78XT auch nicht einfach aus Verbrauchs- und Kostengründen weglassen.

Das kann sich auch bedingen: Wenn die 7700XT ständig auf den Speicher warten muss, saufen die CUs vielleicht nicht so extrem und dadurch sieht es so aus, als wäre der Speicher der große Verbraucher. Den gleichen Effekt sieht man auch, wenn man den Spieleverbrauch von CPUs vergleicht, aber dazu den Verbrauch an der Dose misst: Da sehen die langsamen CPUs immer so sparsam aus, was aber durch die GPU verfälscht wird, die bei lahmer CPU auch mehr Däumchen drehen kann.

Laut CB hat die 7800XT gut 15% mehr Perf/W als die 7700XT. Trotzdem sieht aber auch die 7800XT nicht gut aus, denn sie verbraucht etwa 70% einer 7900XTX, hat aber nur 67% des Speicherausbaus, 50% der SEs, knapp 60% der CUs und taktet sogar noch niedriger als die XTX.

Felixxz2

2024-01-16, 15:43:35

und deshalb ist dieses blinde Pushen von RT auch sehr fragwürdig. Man ist mit Rasterizer am "Ende", "8K" "16K" ist sinnfrei und nun sucht man einen weiteren Punkt, an dem man Geld verdienen/Ressourcen verschwenden kann kann.

Das ist doch Quatsch, nach diesem Argument sind alle neuen Rendertechniken nach dem Polygon überflüssig. Belecuhtung ist einfach broken ohne RT, ob einem das gefällt oder nicht.

Erinnert mich an einen Dev im Unreal Forum, der gegen Nanite gestänkert hat, weil seiner Meinung nach baken in Normal Maps viel schlauer sei und sich der polycount mit einer neue Gen maximal verdoppeln dürfe, aber nicht mehr. :freak:
Das sei sonst ineffizient und würde in Spielen nicht benötigt - entscheidet er natürlich allein.

Dino-Fossil

2024-01-16, 15:51:50

Wenn ihr jetzt alle nur noch durch die Spiele lauft und euch den Spaß verderbt, weil ihr nach Stellen sucht, wo die Beleuchtung zusammenbricht, ist euch auch nicht mehr zu helfen... :ugly:

Davon ab: meiner Meinung nach ist RT ne nette Sache, aber nicht das Allheilmittel der Spielegrafik. Und bis es damit richtig losgehen kann, muss ein aktuelles Spiel mit RT auch auf einer beliebigen Karte im Preisbereich von ca 250-350€ UVP aus den letzten 2-3 Jahren vernünftig laufen , ohne massive Einbußen in Kauf nehmen zu müssen (wenigstens fullHD bei mindestens "mittleren" Details mit 60 fps).
Dann hat man, meiner Meinung nach, eine solide (und für viele Gamer bezahlbare) Hardwarebasis mit der man wirklich darüber nachdenken kann, reine Rastergrafik auslaufen zu lassen.

Badesalz

2024-01-16, 17:54:05

und deshalb ist dieses blinde Pushen von RT auch sehr fragwürdig.Man könnte das ja auch einfach Generation für Generation jeweils soweit nutzen, soweit es nicht dazu führt, daß andere Sachen wie Müll aussehen. Da der Benutzer aber wohl für einen völlig benagelten Schwachkopf gehalten wird, der RT halt nicht merkt und deswegen auch nicht zu schätzen lernt, solange sich ihm das nicht direkt in die Pupillen frisst, setzt man lieber gleich voll auf Cheater-Grütze und die advocatus diaboli Journalie -> Verkaufsfördernd :uup:

@Dino-Fossil
Macht ja auch keiner im RL der auf der PS5 zockt ;) Wenn man aber bei der PC-Graka schon für eine 4080 >1000€ bezahlt, dann darf man auch eine etwas andere Qualität erwarten. Und keine Rendercheating-Mafia.

basix

2024-01-16, 17:54:09

Auf der anderen Seite rennt die GPU sehr schnell, wenn die nur GPGPU machen darf und damit nur wenige Speicher/$IF Zugriffe benötigt.

Wurde bei RDNA3 nicht die komplette Raster / Geometrie Einheit auf "NextGen" umgestellt und altes Zeug entschlackt? Vielleicht ist da was noch faul. Jedenfalls scheint es wahrscheinlicher zu sein, als dass die MCDs Probleme machen.

https://hothardware.com/news/flagship-rdna-3-gpu-die-might-be-small
Kepler and Greymon55 are actually in agreement on the die area. Kepler's original statement about "total die area" seems to have been including the six MCDs that we expect the final product to have. He himself commented on the surprise at the die area prediction, noting that the RDNA 3 architecture actually discards "a lot of old architectural bloat."

That includes things like the XGMI GPU-to-GPU interface that was used on the Radeon Pro Duo, the legacy geometry pipeline (meaning that RDNA 3 exclusively uses the Next Generation Geometry design that was implemented but not functional in Vega), the legacy scan converter is gone so there's no hope for analog outputs on these chips, and Vega's Global Data Share function is apparently removed, too.

Evtl. sind die entkoppelten Taktraten von CUs und Frontend noch ein "Problem". Bei N33 liegen die Taktraten viel näher beieinander als bei N31. Oder weil das Frontend eben viel säuft (z.B. oben genannte Geometry Pipeline) zieht es den Takt des ganzen Chips runter. Deswegen ist beim deutlich fetteren Frontend bei N31 der Taktunterschied zu den CUs grösser. Oder es ist einfach ein Problem der physischen Designumsetzung, also der Anordnung der Transistoren und Leitungen (Delays, Leckströme, etc.).

-> Kann vieles sein
-> RDNA3 sollte sicher nicht "architected for >3GHz" sein, kann das bei Compute auch mit dem Takt aber läuft in Games typ. bei nur 2.5 Ghz. Macht keinen Sinn

Rampage 2

2024-01-16, 18:24:58

Und deshalb gibt es sowas wie bump mapping, normal mapping, ambient occlusion etc. damit es auch mit Rastersizing so ähnlich wie Licht aussieht und es trotzdem schnell läuft. Es sind aber dennoch Fakes, die man ganz deutlich sieht.

Soll das heißen, bei Bump/Normal/Displacement/Environment-Maps ist die Beleuchtung inkorrekt/fake? :|

2004 erschienen die ersten Spiele auf Basis von DX9 mit wirklich brauchbarem Shading (Shader Model 2.0 bzw. Pixel/Vertex-Shader 2.0; DX8/8.1 war ja immer noch nur sehr rudimentäres Shading) und schon wenig später mit SM 3.0, wie z.B. Far Cry 1 oder Half-Life 2 und zur gleichen Zeit erschien Doom 3 mit Echtzeit (nichts baked!) per-Pixel Dynamic Lighting & -Shadowing projiziert auf Bump-Maps.

Warum soll z.B. das Wasser bzw. die Reflexionen in FC1 oder HL2 (Bump- oder Environment/Cube-Maps mit PS 2.0, nehme ich mal an?) oder die dynamische Beleuchtung & Schatten in D3 "fake" sein, wenn sie in Echtzeit und per-Pixel berechnet werden? :|

R2

Der_Korken

2024-01-16, 21:03:15

das würde dann wohl heißen, dass entweder die ausgelagerten Speicherinterface oder der ausgelagerte $IF nicht so funktioniert wie erwartet bzw. einen viel zu hohen Verbrauch hat. Für beides habe ich aber bisher nichts gelesen.
Auf der anderen Seite rennt die GPU sehr schnell, wenn die nur GPGPU machen darf und damit nur wenige Speicher/$IF Zugriffe benötigt.

Warum sollte GPGPU weniger Speicherzugriffe benötigen? Gerade die großen HPC/AI-GPUs haben fetten VRAM und Bandbreite im Verhältnis zur Rechenleistung. Dazu gibt es keine Vergleiche, die ein übermäßiges Saufen der MCDs belegen. Die 7900GRE und 7800XT haben nur 4 MCDs, brauchen aber deutlich mehr als 2/3 der 355W, die eine 7900XTX mit 6 MCDs nimmt. Ich halte die MCDs als Verbrauchsproblem unter Last genauso für eine urban legend wie damals die angebliche 4K-Schwäche von RDNA2, die durch den zu kleinen IF$ ausgelöst wurde. Irgendjemand hat das in den Raum geworfen und jeder hat es irgendwie geglaubt, obwohl es nie geprüft wurde. Am Ende war es einfach ein Auslastungsproblem von Ampere in kleinen Auflösungen, da sich RDNA2 in 4K genauso verhalten hat wie zuvor RDNA1 und Turing.

Evtl. sind die entkoppelten Taktraten von CUs und Frontend noch ein "Problem". Bei N33 liegen die Taktraten viel näher beieinander als bei N31. Oder weil das Frontend eben viel säuft (z.B. oben genannte Geometry Pipeline) zieht es den Takt des ganzen Chips runter. Deswegen ist beim deutlich fetteren Frontend bei N31 der Taktunterschied zu den CUs grösser. Oder es ist einfach ein Problem der physischen Designumsetzung, also der Anordnung der Transistoren und Leitungen (Delays, Leckströme, etc.).

Das Frontend als Verbraucher klingt erstmal naheliegend, weil es bei Compute-Last nicht so gebraucht wird. Allerdings taktet das Frontend höher als die CUs. Das wäre doch aber total kontraproduktiv, wenn ich genau den Problemteil höher takte, aber dafür die sparsamen Einheiten ausbremse und Leistung verschenke.

Die besten Ansätze sind imho nach wie vor hier zu finden: https://www.computerbase.de/forum/threads/kuehler-gegen-steckergate-devpandis-hin-und-her.2151961/#text-a14

Das Backend sieht verdächtig aus. Pathtracing und FSR, was stark auf die CUs geht, lässt den Spieletakt steigen, während er bei der 4090 weitgehend konstant bleibt.

Hübie

2024-01-16, 21:34:48

Iirc gerät der Energiebedarf bei RDNA3 außer Kontrolle, wenn die Shaderengines hoch getaktet werden, weil das Frontend dann nochmal deutlich höher taktet und U, also die Spannung, quadratisch in den Verbrauch mit eingeht.
Auch das Speichersubsystem hat bei vielen Vektoranweisungen einen erhöhten Energiebedarf. Mag mit dem IF und Chiplet zusammen hängen.

HOT

2024-01-16, 21:57:42

Also ich glaube eher, dass der ausufernde Verbrauch daran liegt, dass es quasi kein Taktlimit gibt und das Ding auch bei wenig Grafiklast daher viel Verbrauch hat aufgrund des absurd hohen Taktes.

Hübie

2024-01-16, 22:11:36

Taktlimit wovon? RDNA3 hat mehrere Domains und Frontend liegt mit seinem Takt immer höher als das Shaderarray. Aber es ist kein fixer Offset-Wert...
Und glauben kannst du in der Kirche. :smile:

Der_Korken

2024-01-22, 12:31:08

Ich glaube das ist der selbe Dude, der vorher unter dem Namen "Bondrewd" im Beyond3D-Forum gepostet hat, bevor dort das Spekulationsforum geschlossen wurde. Ich wäre sehr vorsichtig, bei dem was er schreibt. Es ist quasi immer Pro-AMD und er schreibt über Details mit einer Gewissheit, die ich bestenfalls den Devs zutrauen würde, die an den Projekten arbeiten. Bei RDNA3 hat er übrigens komplett ins Klo gegriffen - insbesondere den "partially fixed" N32 - und ist dann monatelang untergetaucht (muss nicht deswegen gewesen sein, aber fiel trotzdem auf). Mir sind seine Aussagen zu Zen 5 jedenfalls zu viel Hype.

Kaum schrieb ich das, ist das Beyond3D-Forum nicht nur nicht komplett dicht, sondern die haben den Hardware-Bereich für Spekulationen wieder geöffnet. Im dortigen RDNA4-Thread steht eine Rekapitulation zu dem, was hier eh schon rumgeisterte:

https://forum.beyond3d.com/threads/rdna4.63484/

Anhand der Schreibweise ist offensichtlich, dass Bondrewd der gleiche User wie adroc_thurston aus dem Anandtech-Forum ist. Allerdings muss man auch hier wieder sagen, dass der angeblich Konsenz um gecancelte RDNA4-Chips und den beiden Reservechips sich ziemlich mit dem Geschreibsel von Bondrewd deckt. Dadurch dass er unter mehreren Namen in mehreren Foren schreibt, kann es natürlich leicht passieren, dass seine Spekulation komplett erfunden ist, aber dadurch dass es in mehreren Foren scheinbar unabhängig voneinander auftauchte sich in vielen Köpfen als Konsenz durchsetzte. Der andere User (Frenetic Pony) verweist auf irgendeinen "favorite resident leaker" und einen "confirmed AMD engineer", dass es doch irgendeinen großen Chip geben soll. Ohne weitere Verweise aber nicht nachzuvollziehen, wo es herkommt.

Hübie

2024-01-22, 23:04:23

Quelle? Trust me Bro, quasi :-D

TheGood

2024-01-25, 21:08:40

Kaum schrieb ich das, ist das Beyond3D-Forum nicht nur nicht komplett dicht, sondern die haben den Hardware-Bereich für Spekulationen wieder geöffnet. Im dortigen RDNA4-Thread steht eine Rekapitulation zu dem, was hier eh schon rumgeisterte:

https://forum.beyond3d.com/threads/rdna4.63484/

Anhand der Schreibweise ist offensichtlich, dass Bondrewd der gleiche User wie adroc_thurston aus dem Anandtech-Forum ist. Allerdings muss man auch hier wieder sagen, dass der angeblich Konsenz um gecancelte RDNA4-Chips und den beiden Reservechips sich ziemlich mit dem Geschreibsel von Bondrewd deckt. Dadurch dass er unter mehreren Namen in mehreren Foren schreibt, kann es natürlich leicht passieren, dass seine Spekulation komplett erfunden ist, aber dadurch dass es in mehreren Foren scheinbar unabhängig voneinander auftauchte sich in vielen Köpfen als Konsenz durchsetzte. Der andere User (Frenetic Pony) verweist auf irgendeinen "favorite resident leaker" und einen "confirmed AMD engineer", dass es doch irgendeinen großen Chip geben soll. Ohne weitere Verweise aber nicht nachzuvollziehen, wo es herkommt.
ja klar die packen mehrere kleinen auf ein Die :D

Nakai

2024-01-25, 21:59:26

Der_Korken

2024-01-25, 23:51:19

Also das Chiplet-Design der N3x ist für mich immer noch ein kleines Mysterium.
Ich bin irgendwie der Meinung, dass es auch der Grund war, wieso man die Taktraten nicht so hochziehen kann. Da es aber nun keine Chiplets mehr für N4x gibt, hat man ein Problem bzgl. dem Takt gelöst. Ergo deutlich höhere Taktraten, besseres RT, evtl GDDR7. Ergo wäre ein Midrange-Produkt eher auf N31-Niveau, aber hier und da nicht ganz.

Warum sollten die Chiplets höhere Taktraten verhindern? Die Chipteile, die mit dem eigentlich Kerntakt laufen, bekommen doch gar nicht mit, dass irgendwo hinter dem On-Chip-Fabric noch Off-Chip-Verbindungen kommen. Was man den Chiplets anhängen könnte, wäre der hohe Verbrauch im Idle und unter Teillast, aber das ist nicht das einzige, was bei RDNA3 nicht richtig läuft.

robbitop

2024-01-26, 05:56:51

Also was ich interessant finde: N33 taktet mit der 7600XT praktisch gleich wie N31/32. Trotz 6 nm vs 5 nm (und 6 nm ist eigentlich nur ein cost down Prozessspin off von 7 nm wohingegen 5 nm der nächste full node Prozess ist). Und N31/32 haben zusätzlich viel mehr Transistoren pro CU. Klar da gehen viele für die höhere Registeranzahl drauf - aber es ist anzunehmen dass auch Transistoren für höhere Taktraten investiert wurden. Und trotz allem kommt nicht mehr Takt heraus. Ich denke schon dass da was schief gelaufen ist, was man mit rdna4 (bzw 3.5) verbessern konnte.

mboeller

2024-01-26, 06:43:39

ja klar die packen mehrere kleinen auf ein Die :D

wenn man keine Ahnung hat...

https://www.forum-3dcenter.org/vbulletin/showpost.php?p=13375024&postcount=590

https://www.forum-3dcenter.org/vbulletin/showpost.php?p=13375396&postcount=591

direkt am Anfang vom Video bzgl. N41

Und ja, war schräg.

fondness

2024-01-26, 08:02:26

dargo

2024-01-26, 08:06:12

Es kommt sehr wohl deutlich mehr Takt raus, nur halt nicht bei vertretbaren TDPs.
Richtig... keine Ahnung warum sich der Mythos immer noch hält N31/N32 würde nicht hoch takten können. Natürlich können die das, man muss nur bei N31 verrückte 600W frei geben dann sind >3Ghz auch bei stark heizenden Gaming-Workloads kein Problem. Bei N32 dürften um die 350W bis max. 400W reichen.

robbitop

2024-01-26, 08:26:29

Es kommt sehr wohl deutlich mehr Takt raus, nur halt nicht bei vertretbaren TDPs.
Ich meinte natürlich innerhalb vertretbarer TDPs. Alles andere ist doch reichlich praxisfern (und damit für 99,9% der User irrelevant - und damit eine rein akademische Diskussion), oder?
Und: wissen wir wie hoch sich N33 takten lässt wenn die TDP auf wahnwitzige TDPs erhöht wird und die Kühlung dafür da ist? Entsprechende Untersuchungen habe ich für N33 nie gesehen weil wahrscheinlich weniger Interesse für so ein kleines Kärtchen in diesem Usecase. Auch das könnte mit N33 ähnlich sein zu N31/32.

IMO kann das (praktisch gleiche Taktraten in normalen TDPs) so nicht geplant gewesen sein.

OgrEGT

2024-01-26, 08:34:00

Ich meinte natürlich innerhalb vertretbarer TDPs. Alles andere ist doch reichlich praxisfern (und damit für 99,9% der User irrelevant - und damit eine rein akademische Diskussion), oder?
Und: wissen wir wie hoch sich N33 takten lässt wenn die TDP auf wahnwitzige TDPs erhöht wird und die Kühlung dafür da ist? Entsprechende Untersuchungen habe ich für N33 nie gesehen weil wahrscheinlich weniger Interesse für so ein kleines Kärtchen in diesem Usecase. Auch das könnte mit N33 ähnlich sein zu N31/32.

IMO kann das (praktisch gleiche Taktraten in normalen TDPs) so nicht geplant gewesen sein.

Ist halt bei RDNA3 nicht so einfach das PL über 10% zu erhöhen... abgesehen davon dass es für N33 kein HighPower OC BIOS gibt müsste dieses programmiert werden und dann mit hohem Aufwand mittels EEPROM Programmer auf die Karte gebracht werden... ggf müsste auch noch die Hardware für die Stromversorgung auf der Karte gemoddet werden... All dieser Aufwand für N33? Wer macht das?

robbitop

2024-01-26, 08:36:45

Ist halt bei RDNA3 nicht so einfach das PL über 10% zu erhöhen... abgesehen davob dass es für N33 kein HighPower OC BIOS gibt müsste dieses programmiert werden und dann mit hohem Aufwand mittels EEPROM Programmer auf die Karte gebracht werden... ggf müssten auch noch die Hardware für die Stromversorgung auf der Karte gemoddet werden...
all dieser Aufwand für N33? Wer macht das?
Eben macht keiner. Insofern wissen wir es auch nicht. Man könnte es auch mit HW Mods machen.

Am Ende ist der Punkt: trotz deutlich besserem Node und trotz deutlich mehr Transistoren pro CU macht N31/32 keine bessere Figur was Taktraten bei normalen TDPs angeht. Und das kann so nicht gedacht gewesen sein. Ich kann mir gut vorstellen, dass nachfolgende GFXIP hier einen guten Schritt nach vorn gehen. Entweder gibt es deutlich mehr Takt mit RDNA3.5/4 bei normalen TDPs ODER man hat eingesehen, dass die ganzen extra Transistoren nichts bringen und man verbaut mit dem frei gewordenen Transistorbudget mehr CUs oder kann mehr FF HW einbauen. So oder so ein Potenzial was man nutzen kann.

OgrEGT

2024-01-26, 08:40:56

Gäbe es hier denn jemand der sich sowas zutraut und Zeit für sowas hätte? Das Knoff-Hoff das dabei rauskäme könnte dann der Community zu Gute kommen...

dargo

2024-01-26, 08:42:19

Ich meinte natürlich innerhalb vertretbarer TDPs. Alles andere ist doch reichlich praxisfern (und damit für 99,9% der User irrelevant - und damit eine rein akademische Diskussion), oder?

Daran ist überhaupt nichts praxisfern. Es wurde mehrmals im RX 7900XTX Thread dargelegt, dass N31 ein >500W Heizofen in einem 355W (Customs mit höheren PT ausgeklammert) Korsett ist. Dafür reicht es völlig aus sich die real anliegenden Spannungen in mittel bis hoch heizenden Gaming-Workloads anzusehen vs. N21. Das Ding läuft deutlich tiefer innerhalb der V/F-Kurve damit der Stromverbrauch nicht völlig aus dem Ruder gerät und ist entsprechend stark powerlimitiert.

robbitop

2024-01-26, 08:44:50

Ich sehe deinen Punkt nicht. Mit normalen TDPs kommen ~2,8 GHz raus. Da kommt die 7600XT auch hin.* Deutlich mehr braucht so viel W dass es völlig irrelevant wird. Und as I said: das kann so nicht gedacht sein.
Und again: wir wissen nicht ob sich N33 nicht auch genauso verhält insofern bringt das Argument in dem Vergleich nichts.

*und bei 500W sind es trotzdem nicht überall sustained 3 GHz in allen Games in allen Szenen. Und selbst wenn: das sind gerade mal lächerliche +7 % mehr Takt. Perf/W wird dann richtig lächerlich und praxisfern (und nicht mehr repräsentativ für eine uArch - also in der Praxis eher ein edge case). Das kann so nicht gedacht gewesen sein.

dargo

2024-01-26, 08:47:41

Ich sehe deinen Punkt nicht. Mit normalen TDPs kommen ~2,8 GHz raus. Da kommt die 7600XT auch hin.
Worauf beziehst du deine 2,8Ghz? Auf eine RX 7900XTX? Vergiss es... das wirst du niemals bei 355W sehen, außer in extrem leichter Kost wie zb. Assassin’s Creed Origins. Bei APTR bist du eher bei 2,2GHz. Genauen Wert müsste ich raussuchen.

Edit:
Ganz so tief war es nicht. Die 2,2GHz-2,3GHz bezogen sich damals wohl auf die max. 312W (PT -10%) da mir ~350W schon viel zu viel war.
https://abload.de/image.php?img=unknown_2023.04.09-0795cal.jpg

Für knapp 2,6GHz waren schon 400W nötig.
https://abload.de/image.php?img=unknown_2023.04.09-072jf71.jpg

Den Rest kannst du dir hochrechen was die Karte saufen würde bei 3Ghz in diesem Workload wenn schon +100Mhz +50W brauchen.

robbitop

2024-01-26, 08:51:25

Worauf beziehst du deine 2,8Ghz? Auf eine RX 7900XTX? Vergiss es... das wirst du niemals bei 355W sehen, außer in extrem leichter Kost wie zb. Assassin’s Creed Origins. Bei APTR bis du eher bei 2,2GHz. Genauen Wert müsste ich raussuchen.
Das ist doch genau der Punkt. N31/32 taktet enttäuschend in relevanten TDPs relativ zu N33 trotz deutlich modernerem Node und deutlich mehr Transistoren pro CU (die sicherlich für Takt investiert worden sind uA).
Die 7600XT (N33) hat default sustained 2,7 GHz. Mit etwas OC sind 2,8 GHz sicherlich noch gut drin.
N31/32 kann man auch auf 3 GHz und mehr bringen, wenn man die TDP extremst öffnet. Das kann(!) aber auch bei N33 so sein - hat noch keiner Untersucht.
Ergo: da ist was schief gegangen was AMD sicherlich in nachfolgenden uArchs nutzen kann. Das ist der Punkt auf den ich hinauswollte.

dargo

2024-01-26, 09:00:25

Irgendwo hast du da einen Knoten. :D

Natürlich takten N31/N32 enttäuschend wenn AMD das Korsett enger bei der TDP zuschnürt. :freak: Und nein... bei N33 mit bis zu 195W finde ich die höheren Frequenzen überhaupt nicht bemerkenswert. Das Ding sollte bei den aktuell anliegenden Frequenzen bei so wenigen CUs eher bei <120W liegen. Die RX 7600XT taktet nur höher weil AMD das TDP-Korsett nicht so eng zugeschnürt hat wie bei N31/N32.

Ergo: da ist was schief gegangen was AMD sicherlich in nachfolgenden uArchs nutzen kann. Das ist der Punkt auf den ich hinauswollte.
Natürlich ist bei RDNA3 was schief gelaufen bezüglich Stromverbrauch, ein anderes Fazit lassen die Untersuchungen gar nicht zu. Das wissen wir aber schon längst. ;)

btw.
Die Frequenzen der RX 7600XT vs. RX 7600 sind noch nicht mal viel höher, es sind magere +71Mhz im Schnitt.
https://www.computerbase.de/2024-01/amd-radeon-rx-7600-xt-review-test/2/#abschnitt_gputaktraten_unter_last

Und trotzdem braucht ersteres 35W mehr bei so einer mickrigen GPU.
https://www.computerbase.de/2024-01/amd-radeon-rx-7600-xt-review-test/4/#abschnitt_leistungsaufnahme_spiele_youtube_desktop

Das hier aber nicht vergessen.
Speichermangel sorgt für einen zu hohen Takt
Der direkte Vergleich zur Radeon RX 7600 ist etwas verwirrend. Denn rein nach den Zahlen taktet sie kaum niedriger: 2.716 zu 2.645 MHz lautet der Durchschnitt. Schaut man sich die einzelnen Spiele an, gibt es jedoch einige Titel, in denen die Radeon RX 7600 höher taktet als die Radeon RX 7600 XT, was aufgrund der höheren TBP des XT-Modells und der abseits vom doppelten Speicher gleichen Konfiguration aber überhaupt keinen Sinn ergibt.

Dies liegt daran, dass die Radeon RX 7600 oft in Speichermangel gerät und dann meistens den Takt aufs Maximum schraubt, da die GPU nicht mehr völlig belastet wird und daher die geringere TBP ausreichend ist. Werden diese Spiele jedoch herausgerechnet, steigt der Taktunterschied der zwei Grafikkarten von 71 auf 102 MHz an. Das bedeutet, dass die Radeon RX 7600 XT eine im Schnitt 4 Prozent höhere Rechenleistung als die Radeon RX 7600 bietet. Größere durchschnittliche Steigerungen kommen entsprechend durch den Speicher zu Stande.
Ob das jetzt aber +71Mhz oder +102Mhz sind ist auch irgendwo wayne. Wir reden hier immerhin von knapp +22% Stromverbrauch.

fondness

2024-01-26, 09:48:22

Ich meinte natürlich innerhalb vertretbarer TDPs. Alles andere ist doch reichlich praxisfern (und damit für 99,9% der User irrelevant - und damit eine rein akademische Diskussion), oder?
Und: wissen wir wie hoch sich N33 takten lässt wenn die TDP auf wahnwitzige TDPs erhöht wird und die Kühlung dafür da ist? Entsprechende Untersuchungen habe ich für N33 nie gesehen weil wahrscheinlich weniger Interesse für so ein kleines Kärtchen in diesem Usecase. Auch das könnte mit N33 ähnlich sein zu N31/32.

IMO kann das (praktisch gleiche Taktraten in normalen TDPs) so nicht geplant gewesen sein.

Praxisfern mag sein, aber darum gehts mir nicht. Die extrem hohen möglichen Tatraten zeigen, dass da reichlich Potentiel vorhanden ist das nicht genutzt werden kann. Es gab wohl noch nie eine GPU wo tatsächliche und mögliche Taktraten so weit auseinander lagen wie bei N31. Das zeigt natürlich ganz klar, dass da was nicht nach Plan gelaufen ist und der Chip eigentlich für deutlich höhere Taktraten ausgelegt wurde.

Ich finde es im übrigen gut, dass du jetzt auch so argumentierst, es ist noch nicht so lange her, da musste ich dich genau davon überzeugen. ;)

Der_Korken

2024-01-26, 09:57:11

Anhand der schwachen Skalierung mit mehr Verbrauch, kann man sich ausmalen, dass N33 mit 2,8Ghz schon nahe an der Taktgrenze operiert. Über 3Ghz sind sehr unwahrscheinlich, weil die clock wall da irgendwann zuschlägt. Aber: Immerhin lässt sich der Chip bis dahin ausfahren! Bei N31/N32 limitiert, wie dargo schon sagt, einzig und allein das PPT. Nichts anderes. Ich erinnere an den CB-Artikel, den ich schon mehrmals gepostet habe, wo jemand eine 7900XTX auf 700W hochgemodded hat. Die zieht sich der Chip ohne zu Murren rein und schiebt dann auf 3,3-3,4Ghz hoch. Der Chip hat ein massives Verbrauchsproblem und der einzige Grund, warum überhaupt eine Effizienzsteigerung rauskam gegenüber RDNA2 ist das niedrige PPT, sodass der Chip ootb mit 900mV läuft in Gaming-Last, wo die RDNA2-Chips eher bei 1100mV lagen. Das, und die Tatsache, dass man so viel Taktpotenzial liegen lässt, kann nicht geplant gewesen sein.

Exxtreme

2024-01-26, 10:07:41

Anhand der schwachen Skalierung mit mehr Verbrauch, kann man sich ausmalen, dass N33 mit 2,8Ghz schon nahe an der Taktgrenze operiert.

Jein. Es gibt grundsätzlich zwei Taktgrenzen: eine, die durch Hitzeentwicklung gesetzt ist und eine, die durch Leitungslängen innerhalb des Chips gesetzt ist. N3x rennt immer nur gegen die erste und erreicht die zweite bei weitem nicht. Und deshalb glauben die Leute, dass der Chip so nicht geplant war weil das in ihren Gehirn ein Gefühl von Unausgewogenheit erzeugt. Aber wissen, ob der Chip so geplant war, das tut nur AMD.

dargo

2024-01-26, 10:20:42

Der Chip hat ein massives Verbrauchsproblem und der einzige Grund, warum überhaupt eine Effizienzsteigerung rauskam gegenüber RDNA2 ist das niedrige PPT, sodass der Chip ootb mit 900mV läuft in Gaming-Last, wo die RDNA2-Chips eher bei 1100mV lagen. Das, und die Tatsache, dass man so viel Taktpotenzial liegen lässt, kann nicht geplant gewesen sein.
Ich erlaube mir das mal etwas präziser auszuführen. :) Nicht der Chip ist das Problem sondern das RDNA3 GPU-Design an sich. Es wäre natürlich durchaus möglich, dass diese Problematik bezüglich Durst sich bei N33 etwas weniger negativ bemerkbar macht weil monolithisch. Zudem kann man nicht pauschal sagen die RX 7900XTX läuft bei Gaming-Workloads mit ca. 900mV. Das ist alles abhängig vom Gaming-Workload. Ein APTR läuft bei den ~350W PT mit <900mV wie man in meinen Bildern sehen kann. Ein CP77 läuft mit größer 900mV da weniger Heizlast und entprechend mehr Takt + Spannung.
https://www.forum-3dcenter.org/vbulletin/showpost.php?p=13273938&postcount=2007

Noch leichtere Kost wie FH5 bist du schon nicht weit von 1000mV entfernt.
https://abload.de/image.php?img=unknown_2023.04.02-22dcfhw.jpg

Und nochmals leichtere Kost als FH5 resultieren in 3GHz, 1050mV und 300W (in diesem Beispiel bin ich mir nicht mehr ganz sicher ob das die Default V/F Kurve war, was ich aber garantieren kann... die Heizlast ist definitiv geringer als in FH5).
https://abload.de/image.php?img=assassinscreedoriginsdpf5f.jpg

Was man definitiv pauschal sagen kann N31 läuft trotz höherem PT vs. N21 mit deutlich niedrigeren Spannungen.

Das was man da in AC: Origins sieht... so hätte ich die RX 7900XTX in einem APTR oder von mir aus CP77 erwartet. Das wäre für mich ein würdiger Nachfolger von N21. Bissel schneller aufgrund von mehr Frequenz + wesentlich sparsamer. Letzteres ist mir persönlich deutlich wichtiger als +10% Performance.

Der_Korken

2024-01-26, 11:25:28

Und deshalb glauben die Leute, dass der Chip so nicht geplant war weil das in ihren Gehirn ein Gefühl von Unausgewogenheit erzeugt. Aber wissen, ob der Chip so geplant war, das tut nur AMD.

N31 sticht deutlich heraus gegenüber allen anderen GPUs der letzten Jahre. Das PPT war in jedem anderen Chip immer sehr hoch angesetzt, um noch etwas Performance rauszupressen. Bei N21 vielleicht nicht so sehr, weil AMD die 300W nicht reißen wollte, aber N22 taktete sehr hoch mit viel Spannung, N10 ebenso, Vega ebenso (300W default, mit Spar-BIOS direkt nur noch 230W bei -5% Leistung!) und auch Polaris wurde geprügelt und lief mit >1,1V. Warum sollte AMD ihre Strategie ändern? Warum sollten sie einen unnötig breiten Chip mit gedrosselten Takt launchen, wo sie doch sonst so krass auf Performance/Area gehen? Auch ist AMD in keiner Position für sandbagging. Und die +50% Perf/W, die man auf FAD2022 "versprochen" hat, wurden auch nicht geliefert bzw. nur dadurch, dass man das PPT massiv eingeschnürt hat. Ein Designfehler ist die für mich naheliegendste Erklärung. Das würde auch zu den Vibes bei RDNA3-Präsi passen. Während 2020 die Devs noch richtig enthusiastisch auf der Bühne waren, gaben die sich 2022 sehr zugeknöpft und schmallippig - wie ein Dev, der mit seinem Produkt nicht zufrieden ist und sich trotzdem auf die Bühne stellen und es der Welt verkaufen muss.

Ich erlaube mir das mal etwas präziser auszuführen. :)

[...]

Was man definitiv pauschal sagen kann N31 läuft trotz höherem PT vs. N21 mit deutlich niedrigeren Spannungen.

Allein diese krasse Varianz bei den Spannungen ist absolut kurios. Auch das kenne ich von keinem anderen Chip.

Orko

2024-01-26, 11:26:52

Jein. Es gibt grundsätzlich zwei Taktgrenzen: eine, die durch Hitzeentwicklung gesetzt ist und eine, die durch Leitungslängen innerhalb des Chips gesetzt ist. N3x rennt immer nur gegen die erste und erreicht die zweite bei weitem nicht. Und deshalb glauben die Leute, dass der Chip so nicht geplant war weil das in ihren Gehirn ein Gefühl von Unausgewogenheit erzeugt. Aber wissen, ob der Chip so geplant war, das tut nur AMD.

Naja, wenn N31 / N32 gewollt an der Hitze-Taktgrenze aufschlägt, dann hätte AMD sich die zwischengeschalteten Transistoren sparen können um damit diese kurzen Leitungslängen zu erreichen. Unausgewogenheit deutet IMO schon auf ein "nicht so geplant" hin.

Andererseits wäre das Design (wenn sich die Recheneffizienz nicht fixen lassen sollte) dann wohl geeignet um es auf 3nm zu portieren: Leitungslängen nehmen geringfügig ab, Leitungsquerschnitte nehmen ab, CR nimmt zu, Leitungslängen-Taktgrenze nimmt tendentiell ab. Andererseits nimmt Effizienz zu und damit steigt die Hitze-Taktgrenze an.

dargo

2024-01-26, 11:39:14

Allein diese krasse Varianz bei den Spannungen ist absolut kurios. Auch das kenne ich von keinem anderen Chip.
Das Ding ist viel zu durstig geworden und dann hast du nur einen einzigen Ausweg ohne das Design in den Müll zu schmeißen... das Teil muss tiefer innerhalb der V/F-Kurve arbeiten. Aber ja... dürfte einmalig sein. Zumindest kann ich mich nicht an Ähnliches erinnern.

Raff

2024-01-26, 11:42:25

btw.
Die Frequenzen der RX 7600XT vs. RX 7600 sind noch nicht mal viel höher, es sind magere +71Mhz im Schnitt.
https://www.computerbase.de/2024-01/amd-radeon-rx-7600-xt-review-test/2/#abschnitt_gputaktraten_unter_last

Hier sind's übrigens +170 respektive +150 MHz über alle Tests (20+10 Spiele in jeweils 4 Auflösungen):

https://www.pcgameshardware.de/Radeon-RX-7600-XT-Grafikkarte-280117/Tests/Benchmark-Preis-RX-7600-XT-16GB-Release-Date-1438299/2/
https://www.pcgameshardware.de/Radeon-RX-7600-XT-Grafikkarte-280117/Tests/Benchmark-Preis-RX-7600-XT-16GB-Release-Date-1438299/3/

Leider bringt uns die Info aber nichts bezüglich RDNA 4. Da hilft nur Hoffen. :)

MfG
Raff

robbitop

2024-01-26, 13:26:08

Praxisfern mag sein, aber darum gehts mir nicht. Die extrem hohen möglichen Tatraten zeigen, dass da reichlich Potentiel vorhanden ist das nicht genutzt werden kann. Es gab wohl noch nie eine GPU wo tatsächliche und mögliche Taktraten so weit auseinander lagen wie bei N31. Das zeigt natürlich ganz klar, dass da was nicht nach Plan gelaufen ist und der Chip eigentlich für deutlich höhere Taktraten ausgelegt wurde.
Ja. Aber zusätzlich würde ich gern die Brücke zu N33 machen denn darum ging es mir ja in der Argumentation - nicht darum dass N31 sehr hoch takten kann, wenn man überproportional viel TDP gibt.
(1) die praxisrelevanten Taktraten von N33 sind trotz schlechterem Prozess und trotz weniger Transistoren in normalen TDPs nicht geringer als die von N31/32. Die Erkenntnis ist mit der deutlich höher getakteten 7600XT noch einigermaßen neu und für mich jedenfalls erstaunlich.
(2) könnte dieses Verhalten (wenn man die TDPs jetzt noch krass weiter erhöhen würde bei N33 - sagen wir Faktor 2 oder 3) mit der deutlich höheren Frequenz auch vorliegen - was die Sache nicht weniger erstaunlicher machen würde.

Und ich finde, dass N33XT einen Referenzpunkt liefert, der dass da was schief gelaufen ist noch klarer macht als bis dato.

Ich finde es im übrigen gut, dass du jetzt auch so argumentierst, es ist noch nicht so lange her, da musste ich dich genau davon überzeugen. ;)
Hast du da einen Link? Das kommt mir gar nicht bekannt vor. :confused:

Anhand der schwachen Skalierung mit mehr Verbrauch, kann man sich ausmalen, dass N33 mit 2,8Ghz schon nahe an der Taktgrenze operiert. Über 3Ghz sind sehr unwahrscheinlich, weil die clock wall da irgendwann zuschlägt..
Kann sein - dazu sind mir aber noch keine Untersuchungen bekannt. Insofern ist das Verhalten von N33XT jenseits der TDP völlig offen.

Der_Korken

2024-01-26, 13:57:33

Leider bringt uns die Info aber nichts bezüglich RDNA 4. Da hilft nur Hoffen. :)

Man kann zumindest erahnen, was bei RDNA4 besser werden könnte. Würde RDNA3 in jeder Lage bei 2,8Ghz dicht machen und Perf/W wären so wie jetzt, dann man würde denken, dass die Architektur einfach Mist ist. Aber so wie sich das darstellt, habe ich Hoffnungen, dass RDNA4 wieder an RDNA2 anknüpfen kann. Würden N31/32 bei gleichem Verbrauch einfach mal 20% mehr Takt schaffen, wären sie durchaus ordentlich. Fehlt nur noch HW-Beschleunigung für die BVH-Traversierung, dann gehören die krassen Ausreißer nach unten bei der RT-Performance hoffentlich auch der Vergangenheit an.

Kann sein - dazu sind mir aber noch keine Untersuchungen bekannt. Insofern ist das Verhalten von N33XT jenseits der TDP völlig offen.

Absolut. Aber bei dem kleinen Chip ist das noch mehr akademischer Natur als sonst schon, deswegen macht's keiner :tongue:.

vinacis_vivids

2024-01-26, 14:44:25

AMD müsste mal wieder ein Sprung machen für die Gamer. Ein ~450-500mm² 4nm TSMC GCD mit RDNA4 uArch ist doch bestimmt fertig.

AMD RDNA4 N4X
TSMC N4X
~470mm² GCD
~3,3-3,7Ghz Front-End
~3,0-3,3Ghz Shader-CLK

~6% Area reduction
+15% Performance

160 CUs
320 RT-Cores (verdoppelt ggü. RDNA3)
320 AI-Units (verdoppelt ggü. RDNA3)
384 ROPs

~ 135,16 Tflop/s fp32
~ 270,32 Tflop/s fp16

Speichersystem:
128MB IF$ gen. 3
?? TB/s
512 Bit SI
32 GB GDDR7
36 GBp/s
~ 2304 GB/s

reaperrr

2024-01-26, 15:49:50

Das ist doch genau der Punkt. N31/32 taktet enttäuschend in relevanten TDPs relativ zu N33 trotz deutlich modernerem Node und deutlich mehr Transistoren pro CU (die sicherlich für Takt investiert worden sind uA).
Da habe ich meine Zweifel.

Ich vermute, dass der Großteil der zusätzlichen Transistoren im GCD einfach für die größeren Register draufgegangen ist. 64 KB SRAM zusätzlich je CU, selbst wenn diese SRAM-Zellen so dicht wie die des L2 gepackt sein sollten, sind das fast 4MB zusätzlicher Low-Density SRAM bei N32 und 6 MB bei N31.
Ist ca. so, als wenn beide statt größerer Register doppelt so große L2s bekommen hätten.
Wobei ich nichtmal ausschließen kann, dass für die CUs noch größere, mehr auf Speed optimierte Zellen verwendet werden, als für L2.
Während zusätzlich auf MCD-Seite die IF-Interfaces einen Transistor-Overhead darstellen, den N33 so ebenfalls nicht hat.

Die größeren Register könnten bereits einen Teil der Energie-Einsparungen durch den Prozess auffressen, und die MCDs dem Ganzen dann vielleicht schon den Rest geben und die Geschichte - neben einem zu stromhungrigen CU-Design an sich - erklären.

Wenn man sich den IPC-Vorteil der 7900XT ggü. dem vollen N21 ansieht und mit dem IPC-Vorteil von N33 ggü. N23 vergleicht, scheinen die größeren Register in Spielen noch nicht einmal viel zu bringen.

Wäre nicht überrascht, wenn die beiden Mainstream-RDNA4 u.a. auf die 128KB Register je CU von N33 zurückgehen, weil das Kosten-/Nutzenverhältnis nicht so doll ist, und die Transistoren in andere IPC- oder takterhöhende Maßnahmen investieren.

robbitop

2024-01-26, 16:01:17

dargo

2024-01-26, 16:33:35

Ja. Aber zusätzlich würde ich gern die Brücke zu N33 machen denn darum ging es mir ja in der Argumentation - nicht darum dass N31 sehr hoch takten kann, wenn man überproportional viel TDP gibt.
(1) die praxisrelevanten Taktraten von N33 sind trotz schlechterem Prozess und trotz weniger Transistoren in normalen TDPs nicht geringer als die von N31/32. Die Erkenntnis ist mit der deutlich höher getakteten 7600XT noch einigermaßen neu und für mich jedenfalls erstaunlich.

Ich weiß ehrlich gesagt nicht was du daran erstaunlich findest wenn AMD bei 32CUs vom N33 195W freigibt. Rechne das mal um auf 96CUs einer 7900XTX, auch wenn man das natürlich nicht 1:1 umrechnen kann. Nochmal... würde AMD einer Referenz 7900XTX 450+W erlauben würdest du auch bei dieser Karte oft 2,7-2,8Ghz, nicht nur bei leichter Kost sehen. Im Prinzip zeigen das ja schon Customs die bis zu 464W saufen dürfen.

PS: ich beziehe mich hier natürlich auf 1440p, bei 4k sinkt logischerweise der Takt noch etwas.

Edit:
Man könnte das natürlich auch auf einen N32 mit 60CUs übertragen. Gib einem N32 350W frei und der erreicht auch spielend die Taktraten der 7600XT.

robbitop

2024-01-26, 17:21:22

Jaha aber die 7600XT ist auf einem deutlich schlechteren Prozess (6 nm ist ein cost down 7 nm Prozess - 5 nm ist da ein gutes Stück besser) und hat viel weniger Transistoren pro CU als N31/32 die sicherlich auch in Taktbarkeit geflossen sind. Das müsste für N31/32 in höheren Taktraten (bei normaler TDP) münden als N33. Tut es aber nicht. Also vertanes Potenzial (ob durch einen Designfehler oder eine Fehleinschätzung oder was auch immer spielt keine Rolle), was zukünftig erschließbar ist. Entweder durch Behebung von was auch immer falsch lief oder darin, die Mehrtransistoren nicht mehr zu investieren und lieber mehr CUs zu verbauen (oder mehr FF HW).

Will sagen, dass das Ergebnis der RDNA3 IP von N31/32 (die anders implementiert ist als in N33 und Phoenix) nicht ideal ist. Da hat man Potenzial liegen lassen (Gründe sind spekulativ).

Der_Korken

2024-01-26, 18:27:05

4 MiB sind bei 8T (oder nutzt man nicht sogar nur 6T?) Zellen doch gerade mal ~270 M Transistoren. N31 hat 57,7 Mrd Transistoren.

N33 sind 13,3 Mrd Transistoren - ein 3x N33 sind gerade mal ~40 Mrd Transistoren. Da fallen die ~270 M Transistoren doch kaum in's Gewicht? Die Lücke sind fast 18 Mrd Transistoren (also pro CU auf fast 190 M Transistoren als Differenz - davon grob 4,2 Millionen für die 64 kiB an Registern). Und da sind sicherlich einige Dinge bei N33 die man nicht verdreifachen müsste wie zB den Videokram.
Das müsste für N31/32 in höheren Taktraten (bei normaler TDP) münden als N33. Tut es aber nicht. Also vertanes Potenzial (ob durch einen Designfehler oder eine Fehleinschätzung oder was auch immer spielt keine Rolle), was zukünftig erschließbar ist. Entweder durch Behebung von was auch immer falsch lief oder darin, die Mehrtransistoren nicht mehr zu investieren und lieber mehr CUs zu verbauen (oder mehr FF HW).

+1

Nightspider

2024-01-26, 18:45:43

Gab es in letzter Zeit eigentlich nochmal Gerüchte zu RDNA3+ / 3.5 ?

Hier wurde ja auch mal geäußert, das AMD für RDNA4 ein paar Dinge fallen gelassen haben könnte und RDNA4 ein Mix aus RDNA3.5 und den ursprünglichen RDNA4 Plänen wird.

Wäre echt interessant zu wissen welche Entscheidungen genau bei AMD getroffen wurden.

reaperrr

2024-01-26, 22:57:37

Gab es in letzter Zeit eigentlich nochmal Gerüchte zu RDNA3+ / 3.5 ?

Nein.

Seit die Gerüchteküchen vor ziemlich genau einem Jahr unisono berichtet haben, dass der RDNA3+/.5-Refresh tot ist (und damit lange bevor die Chiplet-RDNA4 gecancelt wurden), gab es außer der Bestätigung, dass zumindest Strix RDNA3.5 hat, absolut nichts mehr an Gerüchten, was ein sehr klares Indiz dafür ist, dass RDNA3+/3.5 außerhalb der APUs auch tatsächlich tot ist/übersprungen wurde.

Hier wurde ja auch mal geäußert, das AMD für RDNA4 ein paar Dinge fallen gelassen haben könnte und RDNA4 ein Mix aus RDNA3.5 und den ursprünglichen RDNA4 Plänen wird.
Sowas habe ich bisher nur von HOT gelesen, der... in dieser Frage sachlichen Gegenargumenten nur bedingt zugänglich ist, um es vorsichtig auszudrücken :rolleyes:

N44 wurde in den Gerüchteküchen schon so früh (gleichzeitig mit N41-43) erwähnt, dass ich nicht glaube, dass sich an dem außer bei der genauen WGP-Zahl seitdem viel geändert hat.

Ich gehe davon aus, dass der IP-Unterschied von N44/48 zu den gecancelten größeren bzw. Chiplet-Designs ähnlich gering oder sogar noch geringer als der zwischen N33 und N31/32 ausfallen wird.

Grundsätzlich war bei AMD bisher immer HighEnd die Lead-Entwicklungsplattform für neue IPs. Die späteren kleineren Designs waren in der Regel auf identischem IP-Level oder sogar einen kleinen Schritt weiter (RV730 u. 710 hatten z.B. leichte Verbesserungen ggü. RV770).
N33 unterscheidet sich außer bei den kleineren Registern IP-technisch auch nicht von N31/32, egal ob die 5nm-GCDs jetzt noch zusätzliche Masse-Transistoren für mehr Takt haben oder nicht.

sulak

2024-01-27, 20:14:04

Es muss aber irgendwas aus der Entwicklung für dir PS5Pro abfallen für den Desktop Bereich, und wenn RDNA 3.5 nur als APU kommen

Hypadaiper

2024-01-27, 20:14:57

Mal so ganz b der ganzen Desktop und mobile Karten..was meint ihr plant AMD für den Phone Markt ? Da war ja letztes Jahr der Exynos mit Samsung, ist aber eher mittelprächtig geworden. Hier wäre doch eine mini APU mit NPU Einheit denkbar. Aber keine Ahnung wie weit RDNA4 nach unten skalierbar ist und ob AMD da Interesse dran hat

Kam jetzt nur drauf weil ich das neue Samsung S24 Ultra in der Hand hatte und da AI ja zum ersten Mal richtig gepusht wird. Das wird definitiv für Smartphones immer wichtiger

dildo4u

2024-01-27, 20:18:08

Exynos 2400 sieht ok aus was die GPU angeht.

3DMark Solar Bay Raytracing

Raytracing-Technologien werden in Smartphones zur Darstellung möglichst realitätsgetreuer Grafiken eingesetzt und kommen auch in den drei Vergleichsmodellen zum Einsatz.

Überraschenderweise schnitt das Galaxy S24 in diesem Test besser ab als das Ultra-Modell. Die höchste Punkt*zahl des S24 war 8.766, die niedrigste 4.874, was 55,6 Prozent Stabilität bedeutet. Das S24 Ultra stemmte 8.590 Punkte als Höchstwertung und 4.324 Punkte und als niedrigster Wert und kam somit nur auf eine 50,3-prozentige Stabilität.

Die Plus-Variante schnitt mit 8.855 und 4.968 Punkten und einer Stabilität von 56,1 Prozent ab. Der Exynos 2400 hatte in diesem Fall also die Nase vorn.

https://www.teltarif.de/galaxy-s24-serie-benchmarktest/news/94361.html

Hypadaiper

2024-01-27, 23:27:09

Zossel

2024-01-28, 07:21:28

Kommt da mehr als nur Samsung ? Oder bleibt das als kleine Sonderlösung für Samsung im Exynos am Leben zu halten ? Sehr da ehrlich gesagt recht viel Potential. Die Dinger verbrauchen doch kaum Wafer Fläche und das packaging sollte auch keine all zu großen Aufwände verursachen, wenn überhaupt.

Die BLOB-only Treiber von Qualcomm dürfen insbesondere für die Pixels dadurch ins Hintertreffen gelangt sein.
Welcher Handy-Hersteller will den schon auf den auf die schlechten Treiber und den schlechten Support von Qualcomm angewiesen sein wenn man seinen Kunden lange Update-Zeiträume verkaufen will?

Hypadaiper

2024-01-28, 08:18:18

Die BLOB-only Treiber von Qualcomm dürfen insbesondere für die Pixels dadurch ins Hintertreffen gelangt sein.
Welcher Handy-Hersteller will den schon auf den auf die schlechten Treiber und den schlechten Support von Qualcomm angewiesen sein wenn man seinen Kunden lange Update-Zeiträume verkaufen will?
Niemand. Deswegen sehe ich da auch ne Möglichkeit für AMD. Kann doch nicht so schwer sein da eigene Chips herauszubringen. Andersrum, Intel hatte sich da ja auch schon was die Finger verbrannt. DKI Beschleuniger in der Leidtubgsklasse sind vllt auch gar nicht mal so komplex für andere herzustellen

Zossel

2024-01-28, 08:49:57

Niemand. Deswegen sehe ich da auch ne Möglichkeit für AMD. Kann doch nicht so schwer sein da eigene Chips herauszubringen. Andersrum, Intel hatte sich da ja auch schon was die Finger verbrannt. DKI Beschleuniger in der Leidtubgsklasse sind vllt auch gar nicht mal so komplex für andere herzustellen

AMD durfte lange Zeit wegen dem Vertrag mit Qualcomm (RADEON vs. ADRENO) keine GPUs für Taschencomputer verkaufen.

Und Intel, naja, hat eigentlich immer alles, außer X86 für PCs, mit Ansage komplett verkackt.

mboeller

2024-01-29, 14:19:52

Chips and Cheese:

Examining AMD’s RDNA 4 Changes in LLVM (https://chipsandcheese.com/2024/01/28/examining-amds-rdna-4-changes-in-llvm/)

link beim Kepler (X) gefunden

basix

2024-01-29, 17:41:15

Interessanter Artikel.

Kurze Zusammenfassung der interessanten Dinge:

Wait Counter sind granularer. Man kann jetzt Vector, Texture und BVH wait counter separat evaluieren. Vorher war in einem Counter zusammengefasst. Das würde eine zielgerichtetere Wait/Execute Policy erlauben (potentiell erhöhte ILP/IPC)
Cache Coherency Handling erlaubt neu, nur den L0 zu überspringen und nicht immer L0+L1. Könnte die relativ schwache L1 Hitrate bei RDNA3 erklären und bei RDNA4 entsprechend verbessern (erhöhte IPC)
Neue WMMA Formate (BF8, FP8)
Neue SWMMA Instruktionen (Sparsity)
Verbessertes Prefetching (Instruktionen und völlig neu auch Daten). Sollte die Latenz reduzieren und damit den Throughput (IPC) erhöhen

Habe dann noch selbst ein bisschen im Repo rumgestöbert:

Neue Atomics (Link1 (https://github.com/llvm/llvm-project/commit/c99da46fc182bd28b0661b1b1a6f0a4c1aef2392), Link2 (https://github.com/llvm/llvm-project/commit/3e6589f21c8088d823377b648aaa1a20ec1bc3d5))
Verbesserte Scalar-Loads (https://github.com/llvm/llvm-project/commit/89226ecbb9975eea1c8dee4744f719555fc39036)
Irgendwelche Anpassungen an den VOPD Befehlen, kann es aber nicht beurteilen, was das bedeutet. Soweit ich sehe gleiche Instruktionen wie bei RDNA3, ausser dass V_DUAL_DOT2ACC_F32_F16 und V_DUAL_DOT2ACC_F32_BF16 nicht mehr drin sind
Ein paar VOP3 Befehle von RDNA3 sind neu VOP2

Ein interessanter Commit-Kommentar findet sich hier: Link (https://github.com/llvm/llvm-project/commit/cfddb59be2124f7ec615f48a2d0395c6fdb1bb56)
…bf8 instructions

Add VOP1, VOP1_DPP8, VOP1_DPP16, VOP3, VOP3_DPP8, VOP3_DPP16
instructions that were supported on GFX940 (MI300):
Es geht da nur um FP8/BF8 Instruktionen. Aber aufgrund der Referenz auf MI300 (und auch FP8 + Sparsity Support): Ein Indiz für Matrix-Cores? Würde mich ein wenig überraschen. Die Instruktionen kann man ja wie bei RDNA3 auch via Vektor-Units abbilden.

robbitop

2024-01-29, 18:57:41

Auch interessant: MI300 ist gfx940? Ist 9er IP nicht GCN? Ggf noch ein Hinweis dass CDNA deutlich mehr von GCN abstammt als RDNA.

reaperrr

2024-01-29, 19:11:12

Auch interessant: MI300 ist gfx940? Ist 9er IP nicht GCN? Ggf noch ein Hinweis dass CDNA deutlich mehr von GCN abstammt als RDNA.
Nix für ungut, aber das ist eigentlich nix neues und war bisher bei allen MIs so.

basix

2024-01-29, 19:15:15

Ja, CDNA ist eindeutig von GCN abstammend und viele Architekturdetails sind davon übernommen worden. RDNA ist da einiges anders aufgebaut.
AMD vertraut bei der MI100 noch einmal auf die Vega-Architektur, die von nun an jedoch unter CDNA läuft.
https://www.computerbase.de/2020-11/amd-instinct-mi100-fp32-fp64-gpu-cnda/

robbitop

2024-01-29, 19:40:30

Nix für ungut, aber das ist eigentlich nix neues und war bisher bei allen MIs so.

Mir ist das klar aber hier im Forum gab es vor einem halben Jahr eine vehemente Diskussion wo einige Leute das nicht wahrhaben wollten. ;)

reaperrr

2024-02-01, 00:29:54

fondness

2024-02-01, 09:30:09

Mir ist das klar aber hier im Forum gab es vor einem halben Jahr eine vehemente Diskussion wo einige Leute das nicht wahrhaben wollten. ;)

Richtig, und ich habe damals schon darauf hingewiesen, dass das Blödsinn ist, aber mit Fakten kann man Leuten eh nicht mehr überzeugen.

HOT

2024-02-01, 09:56:19

Jo Computex Zen5 -> Gamescom RDNA4, das ergibt Sinn.

dargo

2024-02-01, 10:03:31

Im neuesten Zen5 IPC Leakvideo hat RGT am Ende noch kurz angemerkt, dass RDNA4 NICHT auf der Computex im Juni vorgestellt wird.

Mein Tipp: Vorstellung auf Gamescom, Release September, also relativ genau 1 Jahr nach N32.
Uff... September für N48 wäre doch schon wieder recht spät. ;( Auf der anderen Seite... im Sommer juckt mich eine neue GPU sowieso nicht, ergo passt. :tongue:

Der_Korken

2024-02-01, 10:26:08

robbitop

2024-02-01, 10:45:36

HOT

2024-02-01, 10:50:00

Glaub ich nicht. Niedrigere Latenzen und Optimierungen für BhV, aber keine Hardware in RDNA4. Mir scheint RDNA4 auch eher ein Spinoff von RDNA3 zu sein. Man hatte ja recht wenig Entwicklungszeit dafür.

Ich bin ja auch immer noch der Meinung, dass das keine eigenen Chips sind, sondern GCD-Replacements, auch wenn alle Leaker was anderes sagen. Aber die haben alle keine konkrete Informationen zur Speicherbestückung sondern nur wilde Spekus dazu beispielsweise mit GDDR7, was eigentlich zu früh wäre mit RDNA4.

vinacis_vivids

2024-02-01, 13:05:26

Irgendwie sehe ich da langsam doch ein Desaster vor mir. Eine 8800XT, die wieder nur knapp 10% schneller als der Vorgänger ist, bei wieder 250W Verbrauch und wieder keine Verbesserung beim HW-RT-Level. Also quasi der dritte Launch der 6800XT. Dafür aber mit HYPR-DYPR-RX 4.0 ...

Fände ich sogar ganz gut. Ray-Tracing wird in der Mittelklasse entschieden, wo die Karten 200€ bis 500€ kosten. Als netter Bonus zum Raster.

Die Einsteiger sollten von AMD nicht ausgeschlossen werden, sondern mit ihren Karten vernünftig , bezahlbar und flüssig spielen können.

mczak

2024-02-01, 13:56:08

Gerüchte besagen BVH compute Hardware. Das sollte RT Leistung in RDNA4 schon deutlich nach vorn bringen. Das ist dann zwar nur Turing/Ampere RT HW Level aber immerhin.
Andere Gerüchte sprachen sogar von einem SER Äquivalent, was das RT HW Level dann auf Ada / Alchemist Level anheben würde.
Interessanterweise sieht man ja bei Ada in der Praxis so gut wie nichts von den RT Verbesserungen. Trotz doppelter Ray Intersection Rate, SER, OMM, DMM ist eine RTX 4070Ti bei RT-Benchmarks ziemlich exakt so schnell wie eine RTX 3090Ti - so verhält sich das auch bei Raster-Benchmarks. Gut ausser der verdoppelten Intersection Rate braucht alles (bei Nvidia auch SER) Developer-Unterstützung und damit ist's wohl nicht so weit her, ist aber trotzdem enttäuschend. Wenn das so wenig bringt wird da AMD wohl kaum Transistoren investieren.

basix

2024-02-01, 14:22:06

Glaub ich nicht. Niedrigere Latenzen und Optimierungen für BhV, aber keine Hardware in RDNA4.
Ich würde auf BVH Traversal in HW hoffen. Aber solange die Leistung stimmt, spielt es mir nicht so eine Rolle (sagen wir mal Ampere RT Niveau, mit oder ohne HW BVH Traversal).

Es gibt ja Indizien, dass Latenzen hinsichtlich BVH Traversal reduziert werden können, anhander LLVM Commits:
- Separate Wait Counter, wo man BVH vom Rest trennen kann
- L0/L1 Bypass angepasst (unklar)
- Neue Atomics helfen evtl. auch
https://www.forum-3dcenter.org/vbulletin/showthread.php?p=13480855#post13480855

Mir scheint RDNA4 auch eher ein Spinoff von RDNA3 zu sein. Man hatte ja recht wenig Entwicklungszeit dafür.
Wieso wenig Entwicklungszeit? Zwischen RDNA2 und RDN4 liegen 3.5 Jahre. Zwischen RDNA3 und RDNA4 fast 2 Jahre. AMD hat zwischen 2020 und 2023 ihr R&D Budget ungefähr verdreifacht (1.95bn$ 2020 -> 5.8bn$ 2023).

robbitop

2024-02-01, 14:32:55

Interessanterweise sieht man ja bei Ada in der Praxis so gut wie nichts von den RT Verbesserungen. Trotz doppelter Ray Intersection Rate, SER, OMM, DMM ist eine RTX 4070Ti bei RT-Benchmarks ziemlich exakt so schnell wie eine RTX 3090Ti - so verhält sich das auch bei Raster-Benchmarks. Gut ausser der verdoppelten Intersection Rate braucht alles (bei Nvidia auch SER) Developer-Unterstützung und damit ist's wohl nicht so weit her, ist aber trotzdem enttäuschend. Wenn das so wenig bringt wird da AMD wohl kaum Transistoren investieren.
SER, OMM und DMM müssen explizit implementiert werden. IIRC hat Ada in Alan Wake 2 Path Tracing und CP2077 Path Tracing schon seinen Vorsprung etwas mehr ggü Ampere ausgebaut als in anderen Titeln.
Intersection rate: solange die nicht limitiert, bringt mehr davon nach meinem Verständnis auch keinen kleineren Hit. (bitte korrigieren wenn falsch)

So wie ich das verstehe scheint es ein wenig in die Richtung deminishing returns zu gehen. Am meisten bringt HW Ray intersection (ggü software rt). Dann BHV HW. Und dann wird der Vorteil kleiner. Muss man mal sehen was echtes Coherancy Sorting und Scene Hierarchy Generator dann irgendwann mal noch on top bringen.

Glaub ich nicht.
Glauben kannst du in der Kirche. ;)

Niedrigere Latenzen und Optimierungen für BhV, aber keine Hardware in RDNA4. Mir scheint RDNA4 auch eher ein Spinoff von RDNA3 zu sein. Man hatte ja recht wenig Entwicklungszeit dafür.
Worauf baust du die Annahmen auf? Zumindest ist HW BVH Stand der Gerüchte um RDNA in der PS5Pro. Und man wird ja wohl annehmen dürfen, dass RDNA4 ggü älterer IP aus der PS5Pro keine Rückschritte macht.
Weiterhin sagen die Gerüchte ganz klar deutlich gesteigerte RT Leistung relativ zu Raster. Und da scheint BVH in HW eine nicht unwahrscheinliche Möglichkeit zu sein.

Ich bin ja auch immer noch der Meinung, dass das keine eigenen Chips sind, sondern GCD-Replacements, auch wenn alle Leaker was anderes sagen. Aber die haben alle keine konkrete Informationen zur Speicherbestückung sondern nur wilde Spekus dazu beispielsweise mit GDDR7, was eigentlich zu früh wäre mit RDNA4.
N44 und N48 sind laut Gerüchten monolitisch.

Exxtreme

2024-02-01, 15:02:22

Weiterhin sagen die Gerüchte ganz klar deutlich gesteigerte RT Leistung relativ zu Raster. Und da scheint BVH in HW eine nicht unwahrscheinliche Möglichkeit zu sein.

Könnte man auch anders erreichen mit mehr TMUs und die auch noch mehr entkoppeln. Sodass man Texturfilterung und RT besser parallelisieren kann. Dieser Ansatz wäre auch weiterhin AMD-typisch flexibel.

robbitop

2024-02-01, 15:16:03

Könnte man auch anders erreichen mit mehr TMUs und die auch noch mehr entkoppeln. Sodass man Texturfilterung und RT besser parallelisieren kann. Dieser Ansatz wäre auch weiterhin AMD-typisch flexibel.
Ich glaube kaum, dass Texturfilterung ein großer Flaschenhals ist von RDNA2/3. Wenn das so wäre, wäre AF schweine teuer. Ist es aber nicht. Eine TMU kann pro Takt 1x bilinear interpolieren. Trilinear kostet 2 Takte. 2x triAF 4 Takte usw. Und ich denke kein Mensch spielt mehr < 8x triAF. Und dennoch ist super günstig. Ergo das ist es nicht.
Auch bringen mehr Rayintersections nichts mehr. Das ist nicht der Flaschenhals.

Weiterhin: nur weil Rayintersection auch in der TMU verortet ist, heißt das nicht, dass nur eines von beiden geht. Könnte sein muss aber nicht.

Der_Korken

2024-02-01, 15:24:10

Es gibt ja Indizien, dass Latenzen hinsichtlich BVH Traversal reduziert werden können, anhander LLVM Commits:
- Separate Wait Counter, wo man BVH vom Rest trennen kann
- L0/L1 Bypass angepasst (unklar)
- Neue Atomics helfen evtl. auch

Als ich die Verbesserungen gelesen habe, die Chips&Cheese aufgelistet hat, bekam ich so den Verdacht, dass die angebliche BVH-Beschleunigung von RDNA4 sich nicht auf HW-Einheiten beziehen könnte, sondern auf weitere homöopathische Detailverbesserungen wie bei RDNA3, die dann mit etwas Glück den Leistungseinbruch von RT um 5% verringern, aber an der grundsätzlichen Situation nichts ändern. Dass alles wieder so weit nach hinten geschoben wird, ist für mich auch kein gutes Zeichen. Mittlerweile habe ich schon die Spekulation gelesen, dass mangelnde RT-Performance auch ein Grund gewesen sein könnte die RDNA4-Flaggschiffe einzustampfen, weil diese in den wirklichen Performancefressern mit Pathtracing selbst gegen Ada kein Land sehen.

robbitop

2024-02-01, 15:29:06

Man darf nicht erwarten, dass man durch die LLVM patches (darauf basiert der chips and cheese writeup ja) besonders viel über die Implementierung und der Leistungsfähigkeit der uArch erfährt. Wenn es so wäre, würden die IHVs diese deutlich länger zurückhalten - aber die sind ja oft schon viele viele Monate (manchmal schon über 1 Jahr) vor dem Product Launch verfügbar. Eher ein paar Details zur ISA. Ich würde da nicht zu viel reinlesen.

basix

2024-02-01, 15:30:54

Ich habe zumindest nicht den zwingenden Eindruck bekommen, dass garantiert HW BVH Traversal vorhanden ist. Wenn man weiterhin bei RT deutlich langsamer als Nvidia ist, ist das für eine 2024er GPU-Generation schon nicht so prickelnd. Wenn RDNA4 hier nicht ordentlich Fortschritte bringt, hat AMD mMn versagt. RT ist hier um zu bleiben. Bei RDNA3 war es für mich etwas überraschend, dass RT nicht mehr Liebe erhalten hat, aber nicht komplett überraschend. Bei RDNA4 ist die Situation nachmals verschärft, dass man gute RT Performance bringen sollte.

Gibt ja schon Gerüchte, dass man sich bei RDNA4 stark auf RT fokussiert. ML/AI wird mit minimalstem Aufwand so wie es aussieht optimiert (FP8, BF8, allenfalls Verdoppelung INT8/INT4 Throughput und Sparsity). Keine Matrix-Cores aber das Maximum aus der bestehenden Vektorbreite rausgeholt. Finde ich gut. Aber selbst das ist nicht ganz sicher, gibt immer noch eine Rest-Chance für Matrix-Core, halte ich aber für unwahrscheinlich. Und ehrlich gesagt auch deutlich weniger wichtig als gute RT Performance.

robbitop

2024-02-01, 15:32:19

Es ist noch zu früh um dringende Eindrücke zu garantierten HW Details zu erfahren.
Ich erinnere an den IF$ der alle überrascht hat als RDNA2 herauskam (RGT hatte das Detail zwar schon vorher aber noch nicht zu lange und das wurde dann hier nicht geglaubt). Oder die 128 FPs pro SM in Ampere.

Die Gerüchte besagen:
RDNA4 deutlich gesteigerte RT Performance relativ zu Raster
PS5Pro SoC mit HW BVH (obwohl RDNA3.X IP)

Zumindest gibt beides schon eine Indikation.

IMO: Matrixcores sind ungewiss. Für professionelles Inferencing/Training hat AMD ja entsprechende HPC HW basierend auf CDNA3. Für Consumer machen Matrix Cores nur Sinn, wenn man vorhat auf Consumer Ebene AI Anwendungen anzubieten, die besonders viel Tensorleistung brauchen oder parallel zu den FPUs laufen soll. Wie zum Beispiel AI Upsampling. Ob RTG das vorhat ist unklar aber ich würde sagen davon hängt es ab. TSR zeigt ja aktuell, wie gut Upsampling auch ohne AI geht (die Frage ist natürlich wie wesentlich die Engineeinbindung hier ist). Und Framegeneration scheint ja grundsätzlich auch mit Compute relativ günstig zu gehen (wenn man mal die schlechte Execution von AMD außer Acht lässt - framepacing nicht sauber abgestimmt, keine vernünftiges Reflex Pendant zum Launch usw).

basix

2024-02-01, 15:38:10

robbitop

2024-02-01, 15:42:38

Wie gesagt: AMD wäre irgendwie blöd, RT nicht mit entsprechender Priorität zu behandeln. 2024 ist nicht 2022. Ich erwarte eigentlich schon HW BVH Traversal, dämpfe aber noch ein wenig meine Erwartungen. Einen RDNA3 Moment will ich nicht nochmals erleben :)
So sehe ich es 1:1 auch. IMO liegt es nicht an RTGs Hardwareteam. Die sind eigentlich ziemlich gut - die bauen was ihnen gesagt wird. IMO sieht das bei RTG eher nach mittelmäßigem Management aus. Der merkwürdige FSR3 Launch und die merkwürdigen Designentscheidungen zu RDNA3 sprechend da IMO Bände. Die brauchen einen anständigen VP/SVP.

Pirx

2024-02-01, 15:49:07

... RT ist hier um zu bleiben.....
Ob die Kunden wirklich in Salamitaktik wieder und wieder für etwas mehr "RT" und damit minimale Bildqualitätsverbesserungen für immer neue Stromverbrauchsmonster tiefst in die Tasche greifen wollen, darf bezweifelt werden. Entweder es funktioniert mal richtig mit komplett RT (was aber doch utopisch ist, oder?) oder man sollte dem wesentlich weniger Gewicht beimessen. Es ist ein Vehikel, um die Kunden zu melken.

Daß das für die Unternehmen inkl. Presse interessant ist, um über die per Rasterizing schon extrem schnellen Karten (Grenznutzen) hinaus Arbeit zu haben ist natürlich klar.

maximus_hertus

2024-02-01, 16:03:34

Ob die Kunden wirklich in Salamitaktik wieder und wieder für etwas mehr "RT" und damit minimale Bildqualitätsverbesserungen für immer neue Stromverbrauchsmonster tiefst in die Tasche greifen wollen,

Wollen? Nein

Machen sie es trotzdem? Größtenteils ja

Was die PErformanceprognose zu RDNA4 angeht, könnte ich mir vorstellen, dass es bei Raster kaum auf 7900 GRE hoch geht, bei RT jedoch irgendwo im Bereich 7900 XT bzw. fast XTX. Das würde auch ggf. die verschiedenen Performance "Leaks" / Gerüchte / Wunschdenken(?) erklären.

The_Invisible

2024-02-01, 16:13:00

Ob die Kunden wirklich in Salamitaktik wieder und wieder für etwas mehr "RT" und damit minimale Bildqualitätsverbesserungen für immer neue Stromverbrauchsmonster tiefst in die Tasche greifen wollen, darf bezweifelt werden. Entweder es funktioniert mal richtig mit komplett RT (was aber doch utopisch ist, oder?) oder man sollte dem wesentlich weniger Gewicht beimessen. Es ist ein Vehikel, um die Kunden zu melken.

Daß das für die Unternehmen inkl. Presse interessant ist, um über die per Rasterizing schon extrem schnellen Karten (Grenznutzen) hinaus Arbeit zu haben ist natürlich klar.

Wieder der Unsinn das RT/PT sofort perfekt sein muss aber Raster jahrzehntelang sich entwickeln darf...

robbitop

2024-02-01, 16:15:06

Naja und Path Tracing sieht schon richtig fettig aus. Und grundsätzlich sieht global illumination bei dynamischen Bedingungen (also nicht offline bake-bar) schon sau gut aus. Transparenz und Reflextion auch. Das ist schon ein schöner Sprung in der Grafik - aber ja es ist sehr sehr teuer. Ich vermute aber mit mehr FF HW sollte es besser werden. In 10 Jahren wird kein Mensch mehr über RT diskutieren - es ist dann einfach Stand der Technik.

basix

2024-02-01, 16:27:28

Unter dem Strich sieht Raytracing und insbesondere Pathtracing einfach besser aus. Punkt. Und das will man seit Anbeginn der Computergrafik immer weiter verbessern. Bei Rasterizing ist man wohl mehr oder minder am Limit angekommen (nur mit sehr viel Geld geht da noch was). Ergo wird es zwangsläufig immer mehr in Richtung RT gehen.

Vor allem gibt es Raytracing auch in einer extremen Bandbreite:
- SW Raytracing (siehe UE5 Lumen)
- HW Raytracing (verschiedenste Implementationen)
- HW Pathtracing (CP2077 & AW2)

Insgesamt kann man RT/PT also extrem weit skalieren und dennoch ist es in allen Fällen Raytracing. Es muss also nicht ein 2000$ / 500W Monster sein, damit sich Raytracing lohnt.

BavarianRealist

2024-02-01, 16:29:28

Nachdem RDNA3 so daneben gegangen ist, denke ich, dass man jetzt bei AMD erstmal vorsichtiger agiert und vor allem eine weitere Pleite verhindern will. Heißt: Erwartungen niedrig halten und sich auf das Wichtigste bei RDNA4 zu konzentrieren.

Zudem vermute ich:
- die MCM-Lösung von Navi3x hat die Ziele komplett verfehlt: viel zu aufwändig (zusätzliche Diesize-Vergrößerung durch die diversen Inter-Chiplet-Kontroller, die zudem den Energieverbrauch und die Latency nach oben treiben, wenn die Signale die Chiplets wechseln müssen)
- AMD kann seine MCM-Kapazitäten in nächster Zukunft vermutlich besser einsetzen für CDNA3 und Epyc

Vorrangig für RDNA4 dürfte sein:
- maximale Steigerung der Effizienz: besonders wichtig für die kommenden APUs und Notebook-GPU-Lösungen (die nicht Highend sind!) und wichtig für die nächste Konsolen-Generation
- da aktuell die Prioritäten auf KI (CDNA3) liegen, muss AMD mit den für RDNA4 verbleibenden Entwickler-Ressourcen effizient umgehen: d.h. auf das Wichtigste konzentrieren: z.B. auf RT, Realisierung von RDNA4 möglichst erstmal nur für einen Prozess, der für möglichst alles passt: N4P (APUs, Navi4x-GPUs) und unnötige Komplexitäten wegsparen, d.h. nur monolithische Umsetzungen ganz ohne MCM-Lösungen

basix

2024-02-01, 16:35:41

Da bin ich bei dir. Am wichtigsten sehe ich:
- Steigerung der Energieeffizienz
- Steigerung der RT Performance
- Verbesserungen bei FSR3
- Kosteneffektive Fertigung
- Zeitnaher Release / keine allzu grossen Verzögerungen

Resultat:
- Attraktives Portfolio bis 500...600$ (=attraktive P/L)

Nebenschauplatz:
- Ergänzungen bei ML/AI (WMMA Instructions) -> Best effort

Das sind die Dinge, die die meisten Kunden interessiert. Bei dGPU als auch bei APUs.

Pirx

2024-02-01, 16:54:39

AMD soll tatsächlich das Segment bis 1000 € einfach aufgeben, in dem sie jetzt doch ganz gut präsent sind (fragt sich nur, mit welcher Marge)? Zweifelhaft.

dildo4u

2024-02-01, 17:09:52

Die 24GB sind imo Margen Killer wenn NV das zweifache dafür bekommt.
Schon deshalb macht es Sinn nur Midrange zu bringen wenn sie nicht das absolute High-End erreichen.

Würde mich wundern wenn die XTX dauerhaft unter 900€ fällt was aber angebracht wäre.

robbitop

2024-02-01, 17:18:25

GDDR kostet fast gar nichts (zumindest in Relation zum Kaufpreis eine 1000 usd sku). Das ist commodity.
Hier kann man sich mal die Spotpreise für die dram chips anschauen. https://www.dramexchange.com/

Und die IHVs werden noch bessere Konditionen bekommen.

Redneck

2024-02-01, 17:55:25

AMD soll tatsächlich das Segment bis 1000 € einfach aufgeben, in dem sie jetzt doch ganz gut präsent sind (fragt sich nur, mit welcher Marge)? Zweifelhaft.
Das finde ich auch merkwürdig.. 7900 Gre, XT und XTX verkaufen sich doch ordentlich, teilweise besser als die NV Pendants (oder es ist ganz anders und wir sehen das nur aus unserer DE Bubble heraus).
Eine 5090 wird aller Voraussicht nach wieder weit über €1000 liegen und damit sowieso Konkurrenzlos bleiben.. Warum dann also aus dem bis €1000 Markt rausgehen, wenn der doch eigentlich aktuell gut läuft.

Raff

2024-02-01, 18:06:21

Zudem vermute ich:
- die MCM-Lösung von Navi3x hat die Ziele komplett verfehlt: viel zu aufwändig (zusätzliche Diesize-Vergrößerung durch die diversen Inter-Chiplet-Kontroller, die zudem den Energieverbrauch und die Latency nach oben treiben, wenn die Signale die Chiplets wechseln müssen)
- AMD kann seine MCM-Kapazitäten in nächster Zukunft vermutlich besser einsetzen für CDNA3 und Epyc

Jo. Dabei sind sicher viele "Learnings", wie man so unschön sagt, herausgesprungen. Man kann im Labor viel basteln und herumspinnen, aber erst in der Massenfertigung sieht man dann, wo's klemmt. Sooo furchtbar ist RDNA 3 nicht (mich haben etwa die aktuellen Effizienzzahlen beim Rasterizing positiv überrascht (https://www.pcgameshardware.de/Geforce-RTX-4080-Super-Grafikkarte-280114/Tests/Release-Benchmark-Kaufen-Preis-RTX-4080-Super-vs-4080-vs-7900-XTX-1438917/4/)), wie beim guten alten Fiji sieht das aber alles nach viel Aufwand für praktisch nichts aus. Hoffen wir, dass dieses Wissen in Zukunft hilfreich ist. Unterm Strich ist Navi 31 XTX so stark wie AD103-400 und kaum ineffizienter, nur der Weg ist grundverschieden.

GDDR kostet fast gar nichts (zumindest in Relation zum Kaufpreis eine 1000 usd sku). Das ist commodity.
Hier kann man sich mal die Spotpreise für die dram chips anschauen. https://www.dramexchange.com/

Und die IHVs werden noch bessere Konditionen bekommen.

Jo. #2 Das ist ja auch kein High-End-Speicher, sondern vergleichsweise Wald-und-Wiesen-GDDR6. Sicher nicht so spottbillig wie 18 GT/s, aber im Hunderttausenderpack sicher okay.

MfG
Raff

vinacis_vivids

2024-02-01, 18:34:43

][immy

2024-02-01, 18:40:01

FSR3 inkl. AI-Cores wird der Game-Changer für RDNA3/4:

https://www.hardwareluxx.de/index.php/artikel/hardware/grafikkarten/62811-punktet-vor-allem-%C3%BCber-den-preis-die-geforce-rtx-4080-super-im-test.html?start=24

https://i.ibb.co/C2xXrff/Screenshot-2024-02-01-182854.png

RTX4080 DLSS3-Q : 101 fps
RX7900XTX FSR3-Q: 187 fps

Mit Aktivierung der AI-Cores und FSR3 ist AMD bereits vorne weg und die 7900XTX fast doppelt so schnell wie die RTX4080.

Bei Alan Wake 2 und CP2077 fehlt noch FSR3-Implementierung bzw. Nutzung der AI-Cores.
AI cores? Fsr3 ist doch rein software seitig unterwegs. Daher läuft es auch auf jeder Hardware. Zudem sind qualitativ da noch große Unterschiede. Das sehe sogar ich als jemand der upscaling Verfahren nach Möglichkeit komplett weg lässt weil mich die zusätzlichen Artefakte stören.

Langlay

2024-02-01, 20:03:35

FSR3 inkl. AI-Cores wird der Game-Changer für RDNA3/4:

https://www.hardwareluxx.de/index.php/artikel/hardware/grafikkarten/62811-punktet-vor-allem-%C3%BCber-den-preis-die-geforce-rtx-4080-super-im-test.html?start=24

https://i.ibb.co/C2xXrff/Screenshot-2024-02-01-182854.png

RTX4080 DLSS3-Q : 101 fps
RX7900XTX FSR3-Q: 187 fps

Mit Aktivierung der AI-Cores und FSR3 ist AMD bereits vorne weg und die 7900XTX fast doppelt so schnell wie die RTX4080.

Bei Alan Wake 2 und CP2077 fehlt noch FSR3-Implementierung bzw. Nutzung der AI-Cores.

Ne 7900XTX mit FSR 3 + FG ist schneller als ne 4080 mit DLSS ohne FG, ja wow was ne News.

Der Test der ganzen 3 Spiele ist maximal bescheiden, weil Äpfel mit Birnen verglichen wird und die Beschriftung ist auch reichlich suboptimal.

The_Invisible

2024-02-01, 21:28:14

Bitte lass den Mist einfach v_v sonst glaubt das auch noch wer...

Badesalz

2024-02-02, 06:36:07

Ne 7900XTX mit FSR 3 + FG ist schneller als ne 4080 mit DLSS ohne FG, ja wow was ne News.
Jeder so gut er kann?

Langlay

2024-02-02, 06:51:39

Jeder so gut er kann?

FSR 3 + FG läuft auch auf einer 4080. Wenn ich vergleiche, machen Vergleiche zwischen Äpfeln halt mehr Sinn als zwischen Apfel und Birnen, um dann zum Ergebnis zu kommen das Birnen doch birniger schmecken als Äpfel.

Badesalz

2024-02-02, 07:24:09

Jep. Komplett vercheckt. Passt.

Aber macht das auch wer? FSR3+FG default auf NV am laufen?

dargo

2024-02-02, 07:26:07

Da komme ich jetzt nicht ganz mit. Ich dachte bisher DLSS3 ist DLSS2 + FG. :confused:

Langlay

2024-02-02, 07:35:54

Da komme ich jetzt nicht ganz mit. Ich dachte bisher DLSS3 ist DLSS2 + FG. :confused:

Ist es normalerweise auch. Da kommen wir halt zu folgendem Kritikpunkt :

und die Beschriftung ist auch reichlich suboptimal.

In Avatar selber ist immer nur von DLSS die rede ohne Versionnummer. Und wenn man DLSS nutzt kann man kein FG nutzen in Avatar. Das funktioniert als Nvidia User nur dann (ohne Mods) wenn man auch gleichzeitg FSR statt DLSS benutzt.

https://i.imgur.com/WY4qYs1.jpg

Badesalz

2024-02-02, 08:25:40

Gibt es auch Fälle wo FSR3 nicht mit FG geht?

robbitop

2024-02-02, 08:27:11

Da komme ich jetzt nicht ganz mit. Ich dachte bisher DLSS3 ist DLSS2 + FG. :confused:
Streng genommen nicht. DLSS 3 bringt auch Frame Generation mit. Aber nicht zwingend. Das gilt ja auch für FSR3.
Technisch gesehen ist das natürlich trotzdem so, weil das upsampling von DLSS 3 und FSR3 nur der Version 2 entsprechen und weiter verbessert werden. Aber beide IHVs haben sich entschieden die Version eine Nummer hoch zu setzen und beide bieten Version 3 auch ohne Frame Generation an. Die neusten Upsampling dlls sind schon lange Version 3.
DLSS 3.5 (Ray reconstruction) gibt es IIRC auch in Spielen ohne Framegeneration.

dargo

2024-02-02, 08:27:45

Ist es normalerweise auch. Da kommen wir halt zu folgendem Kritikpunkt...

Danke für die Aufklärung, dann hat Hardwareluxx in seinen Diagrammen ganz schönen Bockmist gebaut. :freak:

davidzo

2024-02-02, 11:09:22

Bitte lass den Mist einfach v_v sonst glaubt das auch noch wer...
Wer glaubt denn was v_v schreibt? Ich versuche schon immer das gar nicht erst zu lesen um den Kopf gegen die Wand reflex nicht zu provozieren. Das Überlesen ist leider unvermeidbar wenn Leute wie jetzt darauf reagieren.

Danke für die Aufklärung, dann hat Hardwareluxx in seinen Diagrammen ganz schönen Bockmist gebaut. :freak:

Ich finde in dem Artikel gibt es mehr als genügend 1:1 tests und in diesem Abschnitt ist klar herausgestellt dass hier eben nicht Äpfel mit Äpfeln verglichen werden, sondern die jeweils verfügbaren Verfahren. Es geht also eher darum zu zeigen dass DLSS häufiger verfügbar ist als FSR und beispielhaft die Performancegewinne damit.

Wenn man das nicht aus dem Kontext zitiert dann merkt man auch dass in 4 von 3 Spielen Nvidia das schnellere Upscaling anbietet.
Das finde ich für den Nutzer durchaus relevant, weil die Verfügbarkeit von FG einen echten Praxisunterschied macht.

Ich finde DLSS und FG aber vor allem bei Midrangekarten höchst interessant. Da geht es nicht um bestmögliche Bildqualität sondern darum ob ich mit einer 8GB Karte einn WQHD Monitor bespielt bekomme oder ob ich die die Settings auf Medium fallen lassen muss oder RT aus vs Upscaling und FG. Wenn man eh gewohnt ist Kompromisse zu machen überwiegen einfach die Vorteile. Ich spiele einfach nie ohne FSR wenn es verfügbar ist mit meiner 5700XT, allein schon wegen der Kantenglättung gegenüber nativ.
Im Highend geht es sowieso nur noch um das letzte Extra, daher würde ich nativem Rendering und Framelatenz dort ein höheres Gewicht geben.

basix

2024-02-02, 11:35:13

Jein :D Auch Highend nimmt FG gerne mit, wenn es Sinn macht.

Mit RT/PT usw. maxed out in 4K ist FG auch mit einer 4090 gern gesehen. In AW2 ist es aufgrund des gemächlichen Gamplays auch bei 80fps Output noch gut brauchbar und fühlt sich definitiv besser an als 40-50fps ohne FG. Von der Qualität her ist 4K DLSS-Q + FG eigentlich immer besser als 4K DLSS-P. Wenn das Mausgefühl durch die unterschiedliche Latenz nicht gross leidet, schon ein Pluspunkt.
Bei Midrange Karten ist es genau das selbe Prinzip, einfach mit reduzierter Auflösung (meistens 1440p) und etwas reduzierten Details.

Auch mit der 4090 spiele ich nie ohen DLSS/FSR/TSR wenn es verfügbar ist. 4K XXX-Q ist immer the way to go. Natives TAA hat da keine Vorteile. "Natives Rendering = Am besten" ist ein Dogma aus alten Tagen. Wenn man viel Performance übrig hat kann man auf DLAA oder DLDSR schauen und bei zu wenig Performance auf DLSS-P und/oder FG.
Auch mal max. Settings anschauen. Oftmals kosten die viel ohne viel Nutzen. z.B. bei der UE5 kostet Very High -> Epic fast 50% Performance (Demos, keine Spiele). Viel zu viel für den optischen Mehrwert. Also stellt man halt auf Very High und geniesst hohe Framerates.

vinacis_vivids

2024-02-02, 13:19:49

Oder einfach im AMD-Treiber "Fluid Motion Frames" anschalten und los gehts :-)

Im Prinzip ist die 7900XTX heute bereits schneller als die RTX4090 in fast allen Games, außer bei Alan Wake 2 und CP2077, weil diese beiden Marketing-Games von Nvidia wie einst bei Tessellation zugesperrt ist.

Aber selbst da kann AMD mittlerweile mit Frame-Generation im Treiber nahezu gleichziehen. Eine echte FSR3 Implementierung inkl. Nutzung von fp16 und AI-Cores von AMD in Alan Wake 2 und CP2077 und Nvidia ist weg vom Fenster.

Avatar zeigt da schon wo es lang geht per Grafik mit FSR3 + RT + FG usw.

Ansonsten ist auch bei UE5 gleichstand zwischen 7900XTX und RTX4090.

Statt bei RDNA4 mehr RT-Units zu verlangen, solltet ihr lieber für FSR3 + FG beten.

Native UHD-Rendering bleibt für 8K-Output interessant.

FSR3 + FG ingame und FSR2 + FG im Treiber überzeugen mich jetzt schon bei der RDNA3-Architektur.
Das ist für mich ein kleiner "Zen" Moment.

Bei RDNA4 wäre statt eine Verdopplung, auch eine Vervielfachung der Frames per Seconds möglich durch WMMA usw.
Evtl. quad-Frame-Generation, also Vervierfachung der fps möglich. Das sollte AMD selbst angehen und den Gamern was bieten können.

DrFreaK666

2024-02-02, 13:28:07

Natürlich sollte man für RDNA4 schnelleres RT verlangen. Will mehr Performance nicht nur durch FG erreichen. Außerdem erwarte ich endlich mal schnöneres FSR. Hoffe das kommt dann wenigstens mit RDNA4; dann reicht auch eine kleinere Qualitätsstufe für ein schönes Bild, was zusätzlich auch zu höheren FPS führt

robbitop

2024-02-02, 18:12:50

Da sollte auf jeden Fall auch ohne AI noch Potenzial sein. TSR hat es ja gezeigt. Das war anfänglich hinter fsr2 und ist in den letzten Iterationen immer besser geworden.

Badesalz

2024-02-03, 09:55:05

Nun mit HYPR RX...

Leonidas

2024-02-09, 04:17:27

mczak

2024-02-09, 06:18:59

AMD Posts Linux Graphics Driver Patches For New IP Blocks - Presumably For RDNA4
https://www.phoronix.com/news/AMDGPU-New-IP-RDNA4-February

Läßt sich hieraus nachrechnen, was das zum Release-Datum von RDNA4 eventuell aussagt?
Also ähnliche Patches für RDNA3 gab es etwa im April 2022 (Release der RX 7900 war dann ja im Dezember).
Daraus zu versuchen das genaue Release-Datum zu errechnen würde ich aber nicht.

robbitop

2024-02-09, 08:31:39

Van Gogh war IIRC sogar >1 Jahr vor launch so zu finden.
Die Gerüchte sind aber eher H2 2024 für RDNA4.

reaperrr

2024-02-09, 08:41:42

Ich tippe auf Gamescom Vorstellung, September Launch, wie bei N32.

HOT

2024-02-09, 08:50:37

RDNA3 sollte im Oktober erscheinen und verzögerte sich recht stark. Aber ja, sieht nach September aus, auch lt Gerüchten.

reaperrr

2024-02-09, 16:52:29

RDNA3 sollte im Oktober erscheinen und verzögerte sich recht stark. Aber ja, sieht nach September aus, auch lt Gerüchten.
N31 dürfte sich hauptsächlich verzögert haben, weil er relativ weit unter der Zielperformance gelandet ist und man bis zuletzt versucht hat, über Treiberverbesserungen noch ein paar Prozent rauszuholen.
N32 wurde eher von den großen N21/N22 Restbeständen aufgehalten.

Bei den kleinen N4x gehe ich davon aus, dass die lange vor September fertig sind und der GC/Sept-Launch primär dazu dient, a) die Bühne Gamescom zu nutzen, und b) noch genug Zeit zu haben, möglichst viele N32 und 7900 bis dahin abzuverkaufen, ohne dafür große Rabatte geben zu müssen.

DrFreaK666

2024-02-10, 09:58:24

https://i.postimg.cc/9FGHn64M/Screenshot-20240210-095619-com-google-android-youtube.jpg (https://postimg.cc/bsN5GF9c)
Hbx4AUcQ5do

Matrix-Hardware confirmed?
Aber laut ihm könnte erst RDNA5 ein Riesensprung mit RT machen

robbitop

2024-02-10, 10:04:28

Tja die Frage ist was das heißt. Auch das WMMA Instructionsset für die Vektor FPUs wurde bei RNDA3 als „AI Accelerator“ verkauft. IMO macht das nur Sinn, wenn man vorhat das auch mit entsprechenden Verfahren zu nutzen. Wenn ja spricht das IMO dafür dass man auch an solchen Verfahren arbeitet.

dargo

2024-02-10, 11:45:06

N48 Raster zwischen 7900XT und 7900XTX wäre fein, jetzt bitte das ganze in 225W bis max. 250W und das Ding überzeugt. :up:

robbitop

2024-02-10, 11:57:06

AffenJack

2024-02-10, 12:05:20

Es ist schon sehr wahrscheinlich dass das Ding effizienter wird als N3x. N4P statt N5 und modernere uArch.
So ein bisschen wie der 5700XT damals. Effizient und ein gutes Midrangeprodukt (man muss ja bedenken es muss gegen Nextgen antreten).

Würde ich nicht erwarten. Ich denke eher, dass es mit den Taktraten im gleichen Perf/W Bereich bleiben wird. Nutzer könnten das Design mit Taktreduktion aber evtl. auf sehr schöne Perf/W bringen. Also das Design per se zwar effizienter wird, aber eben an die Kotzgrenze getrieben wird, damit man merh verlangen kann.
Der große Vorteil ist für AMD, dass die Produktionskosten deutlich geringer sein werden.

robbitop

2024-02-10, 12:23:53

Ja kann natürlich gut sein, dass die XT oder XTX SKU dann voll an die Grenze geprügelt ist um mehr Geld vom Endkunden zu verlangen. Das kann uArch unabhängig geschehen.
Dann muss man halt zur Not als User eingreifen.

Nakai

2024-02-10, 12:35:15

https://i.postimg.cc/9FGHn64M/Screenshot-20240210-095619-com-google-android-youtube.jpg (https://postimg.cc/bsN5GF9c)
https://youtu.be/Hbx4AUcQ5do

Matrix-Hardware confirmed?
Aber laut ihm könnte erst RDNA5 ein Riesensprung mit RT machen

Ich sage es mal vorsichtig. Sieht für mich so aus, als ob man RDNA3 Chiplets ersetzen möchte. Verwundert mich auch weniger.

horn 12

2024-02-10, 12:53:02

Warum dies,
Ist der einzig logische Weg, Chiplets sind Zukunft.
Das bei RDNA3 alles nicht komplett harmoniert ist eine andere Story.

HOT

2024-02-10, 12:59:41

Aus Kostengründen und weil sie die Packagingkapazität für CPUs/KI brauchen. Wenn man damit rechnet, dass diese Chips eh in den Mainstream abdriften, müssen die Karten möglichst billig werden. Sie werden auch sicherlich lange Zeit am Markt sein und die RDNA"5" nach unten hin ergänzen mMn.

mczak

2024-02-10, 13:51:12

Navi 44 - "Rasterization performance above RX 7600 XT, but below RX 7800 XT".
Das nenne ich mal eine genaue Schätzung :biggrin:.
Wenn man davon ausgeht dass "below 210mm²" zwar kleiner als 210mm² meint aber nicht so was wie 150mm² müsste der Chip aber schon auch AD106 schlagen und es müsste so Richtung RX 7700XT gehen. Mit bloss 128bit SI hat man zwar nicht gerade viel Bandbreite (und ich vermute mal gerade in N4P möchte AMD nicht unbedingt Unmengen Cache verbauen und es werden bloss 32MB), aber man kann immerhin mittlerweile auch 24gbps gddr6 verbauen. Für die Leistungsklasse nach wie vor ein Problem ist allerdings die Speichermenge, 8GB wäre doch arg wenig, und 16GB braucht halt die ungeliebte Clamshell-Konfiguration.

reaperrr

2024-02-10, 15:08:55

Navi 44 - "Rasterization performance above RX 7600 XT, but below RX 7800 XT".
Das nenne ich mal eine genaue Schätzung :biggrin:.
Jo, nichtssagender geht schon bald nicht mehr:freak:

Ältere Gerüchte sprachen von eventuell 40 CU/20 WGP, also quasi N33 +25% WGPs, + mehr IPC, + mehr Takt.

Würde passen, dass der Chip dann irgendwo im Dunstkreis der 7700 XT rauskommt.

aber man kann immerhin mittlerweile auch 24gbps gddr6 verbauen. Für die Leistungsklasse nach wie vor ein Problem ist allerdings die Speichermenge, 8GB wäre doch arg wenig, und 16GB braucht halt die ungeliebte Clamshell-Konfiguration.
Die 24Gbps-Chips von Samsung haben auch 32Gbit Kapazität, da käme man auch ohne Clamshell auf 16 GB.

Die Frage ist eher, ob dieser 24Gbps-RAM auch von den Kosten her Sinn macht, ich wette, der kostet pro Chip deutlich mehr als doppelt so viel wie ein 16Gbit-20Gbps Chip.

Naja, letztlich ist Clamshell bei der 7600 XT jetzt auch kein Showstopper, ungeliebt hin oder her.
Wichtiger ist, was der Chip in Sachen Leistung und Perf/W kann, schließlich muss er nicht nur AD106 schlagen, sondern es mindestens mit BW207 aufnehmen können, sonst wird er relativ schnell irrelevant.