AMD/ATI - RDNA3 (Navi 3X, Radeon RX 7000 Serie, tlw. Chiplets, 5/6 nm, 2022) [Archiv] - Seite 43

=Floi=

2023-07-29, 14:10:13

Es gab keine überversorgung an bandbreite. Die XT skalierte schon mit mehr bandbreite.

Der_Korken

2023-07-29, 14:18:34

Es gab keine überversorgung an bandbreite. Die XT skalierte schon mit mehr bandbreite.

Die 7900XTX hat 66,7% mehr Bandbreite als die 6950XT für ca. 42% mehr Performance laut CB-Index vom Jahresanfang. Und N21 hing bereits kaum an der Bandbreite, von daher hatte N31 eigentlich mehr als genug. Es kann aber sein, dass die Verbesserungen des IF$ bei weitem nicht die Verkleinerung auffangen. Bei 96MB fällt das noch nicht so auf, aber bei 64MB dann schon, wenn man die gleichen Einstellungen bencht.

HOT

2023-07-29, 14:23:47

**in ganz ausgewählten Szenarien :freak:

Also selten bis nie. ;D
Die GRE hat 260W, die 7900 bzw.7800XT dürfte weniger haben mit nur 70CUs, die N32 mit 60CUs dürfte also irgendwo bei 220 bis maximal 240W rauskommen und um die 6800XT-Leistung haben. Klar kann man auch ne N32XT-Karte bauen, die ne echt schlechte Energieeffizienz hat, siehe 3070Ti, das geht immer, das liegt dann aber nicht an der Architektur ;). RDNA3 ist ca. 25-30% mehr energieeffizient als RDNA2, das ist nunmal so.

=Floi=
RDNA3 wird nur in UHD von der zusätzlichen Bandbreite profitieren.

Der_Korken

2023-07-29, 14:36:43

Ich kann mir nicht vorstellen, dass da noch eine 70CU-Karte kommt. Wo soll man die leistungstechnisch unterbringen? Wenn man unterstellt das N32 die gleiche Effizienz wie N31 hat und der Vollausbau genauso schnell taktet wie die 7900XTX, dann käme man gemäß dem 3DC-Index zwischen 331% und 354% raus und verbraucht dabei 222W bis 236W. Die 7900GRE kommt nach Leos Schätzung auf 360% und verbraucht 260W.

Eigentlich wären bereits diese beiden Modelle so dicht zusammen, dass da irgendwas komisch ist. Ich erwarte ja schon längst nicht mehr, dass N32 in irgendeiner Weise was an den RDNA3-Problemen fixt, aber wenn ich mir angucke wie langsam die 7900GRE schon ist, dann sieht N32 nach einem sogar noch größeren Fail aus. Immerhin sind die Gerüchte um 260W oder gar 285W für N32XT vom Tisch, das wäre absolut lächerlich gewesen. Natürlich könnte AMD (mich) noch mit einer super effizienten 7800(XT) überraschen, die auf 4070/6800XT-Performance mit max. 200W kommt, aber es wäre sehr untypisch von AMD das Topmodell dann nicht einfach hochzuprügeln, so wie N22 gegenüber N21.

amdfanuwe

2023-07-29, 14:39:38

Wäre es die Rechenleistung, müsste die GRE in Spielen mit 2,1Ghz takten, um so stark abzufallen, was ich für unwahrscheinlich halte.

Dann schau doch die Taktraten mal genauer an
https://www.forum-3dcenter.org/vbulletin/attachment.php?attachmentid=84781&d=1690633792
GameCLK 1880MHz.

Der_Korken

2023-07-29, 14:45:01

Die Specs von AMD sind Schall und Rauch. Bei CB haben 7900XT und XTX beide 2560Mhz im Schnitt geschafft: https://www.computerbase.de/2022-12/amd-radeon-rx-7900-xtx-xt-review-test/3/#abschnitt_die_durchschnittlichen_taktraten_unter_last

Das ist nicht nur höher als der Boost-Clock, sondern der angebliche 300Mhz-Unterschied beim Game Clock existiert schlicht und ergreifend nicht. Wenn die GRE mit 1880Mhz gelaufen ist, wäre das Ergebnis natürlich super, aber solange das nicht getestet wurde, gehe ich davon aus, dass der Takt kaum langsamer sein wird als bei der XT. Ich würde so auf 2350-2400Mhz tippen.

amdfanuwe

2023-07-29, 14:56:11

Aus Spaß macht AMD sie Taktangaben nicht. Das sind Mindestwerte, die die Karten erfüllen müssen. Also Glückssache, ob man ein besser oder schlechter taktendes Modell erwischt.
Da hat AMD den besseren Überblick, was ihre Chips minimal können als CB mit ein paar Testexemplaren und wenigen ausgesuchten Benches.
Wäre auch übel, wenn sich in den Benches rausstellen sollte, dass AMD zu hohe Taktangaben macht.

KarlKastor

2023-07-29, 15:02:26

Der Mindestwert ist doch extra angegeben. Ist doch in der Tabelle dargestellt. Mindesttakt bei der XTX sind 1900 MHz

Der_Korken

2023-07-29, 15:05:16

Das mag sein, aber für die Leistungsbetrachtung ist entscheidend, was die Karte in der Praxis im Schnitt schafft. Ich habe ja nicht ausgeschlossen, dass die Karte massiv niedriger taktet, aber ich halte es für sehr unwahrscheinlich, basierend auf Beobachtungen der größeren Karten.

Für N32 wäre es "besser", wenn die GRE ein Taktkrüppel wäre, denn das würde einen normal taktenden 60-CU-Chip wieder näher an diese Leistung rankommen lassen :D.

Edit: Die Specs können auch dadurch so niedrig gewählt sein, weil sie auch in einem super schlecht gekühltem Gehäuse im Sommer noch erreicht werden sollen. Trotzdem sind die hohen Diskrepanzen zwischen XT und XTX für mich reine Phantasie, wenn man diese Karten sinnvoll betreibt. Für die Spekulationen um die GRE haben die Taktraten von AMD für mich daher fast keine Relevanz.

amdfanuwe

2023-07-29, 15:42:32

Edit: Die Specs können auch dadurch so niedrig gewählt sein, weil sie auch in einem super schlecht gekühltem Gehäuse im Sommer noch erreicht werden sollen. Trotzdem sind die hohen Diskrepanzen zwischen XT und XTX für mich reine Phantasie, wenn man diese Karten sinnvoll betreibt. Für die Spekulationen um die GRE haben die Taktraten von AMD für mich daher fast keine Relevanz.
Klar macht die Kühlung einiges aus.
AMD hat Spezifikationen erstellt, nach denen die Chips selektiert werden.
Diese Bedingungen müssen die Chips halt mindestens erfüllen.
Die meisten Chips werden die Takraten der XT erfüllen, man könnte aber auch Pech haben und eine wirklich schlecht taktende GRE erwischen.
Aber ich denke, da werden die OEMs auch noch selektieren. Gibt ja nicht umsonst mehrere Modelle eines Herstellers.

TheGood

2023-07-29, 16:06:40

wenn sie das powerlimit von 260 erreicht, dann geht nicht mehr und vermutlich entspricht das eben dem deutlichen niedrigen boost takt. Woher sonst sollte der 50 Watt minderverbrauch auch herkommen, wenn man nicht den takt drosselt. An dem Chip gab es schliesslich keine Verbesserungen.

Der_Korken

2023-07-29, 16:46:24

wenn sie das powerlimit von 260 erreicht, dann geht nicht mehr und vermutlich entspricht das eben dem deutlichen niedrigen boost takt. Woher sonst sollte der 50 Watt minderverbrauch auch herkommen, wenn man nicht den takt drosselt. An dem Chip gab es schliesslich keine Verbesserungen.

Die 4CUs und 4GB VRAM mitsamt MCD und PHYs muss man auch noch abziehen, d.h. es sind sogar weniger als 50W. Ansonsten wären 260/315 = 82,5%. Wenn ich die 2550Mhz der 7900XT damit multipliziere, bekomme ich 2100Mhz. Mit dem Takt wäre das schlechte Abschneiden gegenüber der XT geradeso erklärbar, aber da stecken die Annahmen drin, dass die 4CUs und 1/5 des SIs nichts verbrauchen und der Takt linear mit dem Verbrauch sinkt, was beides nicht stimmt. Sofern die Taktkurve der GRE nicht so schlecht ist, dass sie bei Iso-Power >10% geringer taktet als die XT, ist die Performance über die CUs für mich nicht erklärbar.

Thunder99

2023-07-29, 17:00:27

Die 60CU werden nicht so stark werden die 7900 GRE gefährlich zu werden. Eine 70CU wäre in der Tat potentiel ne 7800XT. Abstände sind eher niedrig vermute ich.

Navi 3x hat echt so seine Probleme. Nicht überall aber halt immer wieder.

BlacKi

2023-07-29, 17:19:38

Die 60CU werden nicht so stark werden die 7900 GRE gefährlich zu werden. Eine 70CU wäre in der Tat potentiel ne 7800XT. Abstände sind eher niedrig vermute ich.

Navi 3x hat echt so seine Probleme. Nicht überall aber halt immer wieder.doch, die 60cu reichen wohl durchaus aus, da die höher takten darf und scheinbar die bandbreite die vl sogar höher ist als bei der gre, mit schnellerem speicher.

da die performance wohl stark von der bandbreite abhängt, wird durch die speichergeschwindigkeit und das powerlimit wohl vorgegeben ob n32 vl sogar schneller wird als die gre.

die 4 fehlenden cu vs xt sind nicht für 22% schlechtere performance verantwortlich.

und genau deshalb wird die karte nicht im freien handel zu erwerben sein, weil sie direkte konkurenz zur zum n32 wäre.

damit könnte man dann aber auch den preis der n32 full chip karte erahnen. 649$

reaperrr

2023-07-29, 18:38:34

und genau deshalb wird die karte nicht im freien handel zu erwerben sein, weil sie direkte konkurenz zur zum n32 wäre.
Es ist eher so, dass der Prozentsatz an N31-GCDs, die genug Defekte haben, wohl zu niedrig ist um große Volumen außerhalb Chinas damit zu bringen und die Board-Partner deshalb keine große Lust auf die Karte hatten, da sich die Packungen, Marketingkosten, das Binning von OC-Karten wohl nicht gelohnt hätte.

damit könnte man dann aber auch den preis der n32 full chip karte erahnen. 649$
Nö, N32 wird langsamer und billiger. Nicht linear zu den CUs langsamer, klar, aber mir kann auch keiner erzählen, dass man mit nur 3 SE (Auslastung, Primitive-Durchsatz etc.) und 60 CUs bei vielleicht 400 MHz mehr Real-Takt die gleiche Performance schafft wie 5 SE mit 80 CUs, selbst wenn die GRE stark durch Bandbreite ausgebremst wird (die wird bei der 7800 ja auch nicht nennenswert höher ausfallen).
Zumindest in WQHD und FullHD wird N32 definitiv langsamer.

Da die Speicherpreise gerade unten sind, denke ich, die 7800 wird nur 549$ kosten (günstiger und mehr Speicher als 4070 bei leicht schwächerer Perf), 7700 nur 449$ (günstiger und schneller als 4060Ti-16G, deutlich schneller und mehr Speicher als 4060Ti-8G).
Wenn AMD mehr nimmt, verkaufen sie weniger Karten und der Marktanteil schrumpft wahrscheinlich weiter, können sie sich mMn nicht leisten.

woipadinga

2023-07-29, 19:39:59

Meine Schlussfolgerung: Das kleine SI bzw. der kleine Cache ziehen die GRE so weit runter. Dadurch dass die GRE (afaik?) nur mit 18Gbps am VRAM läuft, hat die XT 39% mehr Bandbreite (und die XTX 67% mehr). Nichts anderes an der XT ist 27% schneller, um auf diese 4K-Diskrepanz zu kommen. Wäre es die Rechenleistung, müsste die GRE in Spielen mit 2,1Ghz takten, um so stark abzufallen, was ich für unwahrscheinlich halte.

Das kommt für mich überraschend, da N31 für mich mit Bandbreite komplett überversorgt schien. Es wäre natürlich möglich, dass der Cache zu klein ist. Die 6950XT hat auch 18Gbps@256Bit und auch 80CUs und läuft mit knapp 2,5Ghz, hat aber 128MB IF$. Trotzdem sieht das Review die GRE einen Hauch dahinter. Jetzt ist die Frage, was das für N32 bedeutet. Rechnerisch sollte ein voller N32 auf 62,5% (shader-limitiert) bis 66,7% (bandbreiten-limitiert) einer 7900XTX kommen und somit in Raster auf 6900XT-Niveau liegen (Frontend-Limit schließe ich mal aus, sonst hätte AMD a) das nicht so designed und b) war das bei der 6800 nie wirklich ein Faktor). Dummerweise wäre das gerade mal gute 5% hinter der 7900GRE trotz 60 vs 80CUs. Irgendwas ist hier total fishy.

Du musst INF§-Bandbreite und VRAM-Bandbreite auseinanderhalten. VRAM hat nichts mehr mit der Leistung von GPUs zu tun sondern dient nur noch als Ablage für Daten etc. Die wichtigen Sachen zum berechnen werden im L2/L3 vorgehalten. Bei N3x wird bei jedem MCD ein Teil des INF§ als "Buffer" benutzt und zwar 5,333MB ("An unresolved question is why the latency test cannot see RDNA 3’s full Infinity Cache capacity. On the RX 6900 XT, we see an inflection point at or very close to 128 MB, its advertised cache capacity. On the RX 7900 XTX, there’s an inflection point around 64 MB. Perhaps some cache capacity is reserved for fixed function units." https://chipsandcheese.com/2023/06/14/latency-testing-is-hard-rdna-3-power-saving/ ) Dadurch steht viel weniger INF§ als noch bei N2x bereit und die GRE verliert bei 4K gegen die 6900xt. Eigentlich war geplant jedes MCD doppelt zu bestücken aber das wurde aufgrund der miesen Taktraten in die Tonne getreten. N32 wird wohl auch derb verkrüppelt werden um das bisherige Lineup nicht als Ver@rsche dastehen zu lassen.

Die 7900XTX hat 66,7% mehr Bandbreite als die 6950XT für ca. 42% mehr Performance laut CB-Index vom Jahresanfang. Und N21 hing bereits kaum an der Bandbreite, von daher hatte N31 eigentlich mehr als genug. Es kann aber sein, dass die Verbesserungen des IF$ bei weitem nicht die Verkleinerung auffangen. Bei 96MB fällt das noch nicht so auf, aber bei 64MB dann schon, wenn man die gleichen Einstellungen bencht.
+40% mehr INF§-Bandbreite resultiert in ~40% Mehrleistung

Die 60CU werden nicht so stark werden die 7900 GRE gefährlich zu werden.
Da täuschst du dich gewaltig. Die ursprüngliche Version wäre der 7900XTX nahegekommen...

DrFreaK666

2023-07-29, 20:07:28

Wo hast du diese offizielle AMD-Grafik her? :lol:

BlacKi

2023-07-29, 20:22:25

Nö, N32 wird langsamer und billiger. Nicht linear zu den CUs langsamer, klar, aber mir kann auch keiner erzählen, dass man mit nur 3 SE (Auslastung, Primitive-Durchsatz etc.) und 60 CUs bei vielleicht 400 MHz mehr Real-Takt die gleiche Performance schafft wie 5 SE mit 80 CUs, selbst wenn die GRE stark durch Bandbreite ausgebremst wird (die wird bei der 7800 ja auch nicht nennenswert höher ausfallen).
Zumindest in WQHD und FullHD wird N32 definitiv langsamer.
die karte hat wegen 11% weniger rechenleistung 22% weniger performance die 80 cu skalieren praktisch überhaupt nicht mehr.

wenn die n32 karte 5% mehr bandbreite durch mehr speichertakt und 280-300w powerlimit hat, am besten halt mit besserer voltage curve durch binning, dann halte ich es für möglich, das die karte schneller ist. vl keine 10%, das hab ich nie gesagt.

die hohen taktraten werden ja erst durch die wenigen recheneinheiten möglich, und bandbreite des speicherdurchsatzes dominiert anscheinend die performance.
es ist auch möglich das die n32 karte ein niedrigeres powerlimit bekommt und denselben speichertakt, dann ist die karte bestimmt ein paar prozent langsamer. aber auch da sagt das die speicherbandbreite die grobe performance aus.

n32 bräuchte 33% mehr takt um die rechenleistung eine 80cu gpu auszugleichen. bei selber bandbreite. bei höherer bandbreite und durch die kleinere gpu halte ich es für wahrscheinlich, das mehr als 400mhz core clock anliegen. die 660mhz mehr takt würde selbst die xtx schaffen, wenn sie genug pt hätte. das potential hat die n32 noch mit 285w die ja spekuliert wurden.

Der_Korken

2023-07-29, 20:31:47

Dadurch steht viel weniger INF§ als noch bei N2x bereit und die GRE verliert bei 4K gegen die 6900xt. Eigentlich war geplant jedes MCD doppelt zu bestücken aber das wurde aufgrund der miesen Taktraten in die Tonne getreten. N32 wird wohl auch derb verkrüppelt werden um das bisherige Lineup nicht als Ver@rsche dastehen zu lassen.

Den Teil habe ich bisher tatsächlich nicht gelesen. Ich würde ihn aber anders interpretieren: AMD reserviert einen Teil des Caches für bestimmte Zwecke, damit er nicht komplett polluted werden kann (z.B. durch einen workload, der über große Datenmengen scannt, die gar nicht mehrfach benutzt werden oder so viel größer als der Cache sind, dass ein Caching gar keinen Vorteil bringt). AMD selber sprach davon, dass die zweite Iteration des IF$ "intelligenter" agieren würde, um die Größe besser auszunutzen.

Es stimmt natürlich, dass man IF$-Größe und VRAM-Bandbreite trennen sollte, da durch das fehlende MCD nicht nur die Bandbreite sinkt, sondern durch die kleinere Hitrate auch der Bedarf steigt. Ich war trotzdem überrascht wie krass das reinhaut, da ich bisher davon ausging, dass das Clock-Target für die CUs so stark verfehlt wurde, dass mit das verbaute 384bit-SI entsprechend "überdimensioniert" ist und man da locker was einsparen könnte.

+40% mehr INF§-Bandbreite resultiert in ~40% Mehrleistung

Wenn die IF$-Bandbreite so krass limitieren würde, hätte AMD nicht so eine breite GPU gebaut. E hypothetischer 3Ghz-N31 wäre dann an der IF$-Bandbreite komplett verhungert. Auch ist die Bandbreite gegenüber N21 schon deutlich stärker als die Leistung und Rechenpower gestiegen, d.h. ich würde das als Bottleneck eher ausschließen.

Da täuschst du dich gewaltig. Die ursprüngliche Version wäre der 7900XTX nahegekommen...

3,5Ghz halte ich für übertrieben. Aber ja, 3Ghz auf N32 hätte ich mir gut vorstellen können. Ich hatte die Situation mit N31 vs N32 zu Release mit Tahiti vs Pitcairn verglichen. Die 7870 kam mit 1Ghz sehr nah an die 7950 mit 800Mhz ran trotz +40% CUs und +50% SI. Mit dem Unterschied, dass die 7950 ein absolutes OC-Monster war :D.

Edit:

Ich glaube nicht, dass AMD die N32XT absichtlich klein hält durch langsamen Speicher oder geringes Powerlimit nur um die 7900GRE nicht schlecht aussehen zu lassen. N32 hat die deutlich bessere Marge, d.h. man will viel lieber N32 verkaufen als N31-Chips zu verrammschen. Am besten geht das, wenn man die 4070 schlägt.

reaperrr

2023-07-29, 21:15:12

die karte hat wegen 11% weniger rechenleistung 22% weniger performance die 80 cu skalieren praktisch überhaupt nicht mehr.

wenn die n32 karte 5% mehr bandbreite durch mehr speichertakt und 280-300w powerlimit hat, am besten halt mit besserer voltage curve durch binning, dann halte ich es für möglich, das die karte schneller ist. vl keine 10%, das hab ich nie gesagt.

die hohen taktraten werden ja erst durch die wenigen recheneinheiten möglich, und bandbreite des speicherdurchsatzes dominiert anscheinend die performance.
es ist auch möglich das die n32 karte ein niedrigeres powerlimit bekommt und denselben speichertakt, dann ist die karte bestimmt ein paar prozent langsamer. aber auch da sagt das die speicherbandbreite die grobe performance aus.

n32 bräuchte 33% mehr takt um die rechenleistung eine 80cu gpu auszugleichen. bei selber bandbreite. bei höherer bandbreite und durch die kleinere gpu halte ich es für wahrscheinlich, das mehr als 400mhz core clock anliegen. die 660mhz mehr takt würde selbst die xtx schaffen, wenn sie genug pt hätte. das potential hat die n32 noch mit 285w die ja spekuliert wurden.
Der letzte Gerüchtestand spricht von 260W TBP, wie bei der 7900GRE.

Und wenn man die 79XT/XTX als Maßstab nimmt, dürfte der reale Gameclock der GRE unter Last meistens bei wenigstens ca. 2,2-2,4 Ghz liegen.
Und die GRE hat 66,7% mehr ShaderEngines und ROPs.
Selbst 33% mehr Takt würden das mMn insgesamt nicht ganz ausgleichen, minimal höherer VRAM-Takt auch nicht.

davidzo

2023-07-29, 21:28:46

Wenn die IF$-Bandbreite so krass limitieren würde, hätte AMD nicht so eine breite GPU gebaut. E hypothetischer 3Ghz-N31 wäre dann an der IF$-Bandbreite komplett verhungert.

Wir haben den hypotetischen 3+ Ghz N32 ja auch gar nicht mehr gesehen. Ich glaube da ist was dran an der Geschichte von Angstronomics damals, die völlig in das Nichts der RDNA3 Gerüchte hinein ein eher düsteres Bild gezeichet haben. Diese Einschätzung hat sich mit dem Launch dann letzendlich bestätigt.
Damals war von zwei N31 Varianten die Rede die getestet wurden. Die mit MCDs 0-Hi und mit MCDs 1-Hi. Außerdem wurden die 42WGP 320bit 80mbIF$ der 7900XT sehr genau beschrieben. Ich gehe also davon aus dass das Leak stimmte, zumal Angstronomics schon vorweggenommen hat dass die 1-hi Variante der MCDs erstmal nicht gelaucht würden sondern wenn dann später.

Demnach war die echte highend Variante von N31 eigentlich mit 192mb IF$ geplant. Ob sich beim stacked Cacheausbau auch die Bandbreite verdoppelt oder das gelöst ist wie bei den X3D ryzens weiß ich nicht.
AMD hatte kurz vor dem Launch der 4090 wo es in de rGerüchteküche um 600W TDP ging außerdem kommentiert dass man die Karten nicht so prügeln würde wie nvidia. Da wusste man wohl schon dass die 1-hi 3Ghz+ Variante nicht in Produktion gehen wird, aber nicht dass die 4090 in Wirklichkeit viel sparsamer wird. Zum Launch hat auch noch ein AMD Mitarbeiter in Bezug auf die rechr kompakte Referenz-Kühllösung und die Positionierung als 4080 Gegenspieler erklärt, dass man sehr wohl intern an einer Highend Variante mit anderem preis- und performancepunkt gearbeitet hat und in diesem Markt etwas anbieten könnte, sich aber für eine etwas reduziertere Version entschieden hat die viel günstiger und praxistauglicher sei.

Die 1-hi Variante von N31 mit 192mb cache und 3,3Ghz hätte vermutlich nochmal 20% mehr Leistung gebracht. Das ist nicht genug um die 4090 einzuholen und vermutlich haben die Testkarten dabei über 500W verbraucht und brauchten dementsprechend extreme Kühllösungen und Spannungsversorgung. Dass das komplizierte Package mit stacked MCDs auch sehr teuer gewesen wäre, war dann der Sargnagel für das Projekt "fat N31".
Aber schade dass wir die bereits entwickelten stacked MCDs nicht bei 256bit Navi31 oder bei Navi32 sehen...

iamthebear

2023-07-29, 23:09:29

Das mit dem "Prügeln" ist relativ.
RDNA3 hat ein massiges Problem mit dem Energiebedarf. Das ist eine 500W Karte, die künstlich auf 350W gedrosselt wurde. Da hilft auch mehr IF$ nichts.

Die 4090 hingegen ist eine 350W Karte, die auf 450W aufgeblasen wurde, diese aber großteils gar nicht braucht was für den Käufer den positiven Nebeneffekt hat, dass man sie relativ locker auf 300W zurückschrauben kann ohne dass es viel Performance kostet.

Bei Ampere vs. RDNA2 war es noch umgekehrt. Allerdings war Nvidia da auch noch einen Node hinten.

Nightspider

2023-07-30, 00:49:41

RDNA3 ist ca. 25-30% mehr energieeffizient als RDNA2, das ist nunmal so.

Die Masse der Tests sagt: Nein!

Ich hatte eine 6900XT und habe gerade eine 7900XTX und eine 4090 hier liegen und auch ich sage: Nein!

Nur mir Cherrypicking

davidzo

2023-07-30, 01:08:39

RDNA3 hat ein massiges Problem mit dem Energiebedarf. Das ist eine 500W Karte, die künstlich auf 350W gedrosselt wurde. Da hilft auch mehr IF$ nichts.

Ich denke bei der 500W Version hätten die 192mb IF$ wohl noch etwas gebracht. Aber kaum noch bei der gedrosselten Variante die wir ja letztendlich bekommen haben.

Altehardware

2023-07-30, 04:55:13

Der cache bringt nur eins ein entlasten des SI das bringt pe se keine Leistung, was Leistung bringt ist Takt und bei amd ipc
Die rdna3 arch ist quasi 32bit + 32bit Ausführungen von fp32
Der Fehler ist das die zusätzlichen simd32 die für die zweite fp32 in 32bit Einen latenz hat da man auf dasselbe Speichersyetem zugreift und somit ein problem gibt wenn der cache zu klein ist das reduziert die fp ausführungen
technisch wäre rdna3 in der Lage pro Takt 4 fp32 auszuführen kann es aber nicht da die daten im cache zu klein sind und somit beginnt die farge wann die simd32 daten bekommt amd gibt an 17% der zeit können für die zusätzliche simd32 verwendet werden
Dieser wert ist genagelt und gilt immer bis zu einen bestimmten Takt und genau da liegt der Fehler beim rdna3
Der cache auf der gpu wurde geschrinkt dadurch verdichtet sich die wärme und die datenkonsistenz ist nicht gegeben womit der takt bis eine Ausführung sicher ist.
Will man stabile daten muss die voltage der gpu stark erhöht werden.
ansonsten hat amd im treiber dafür gesorgt das die simd32 einheit quasi nix zu tun bekommt da die Auslastung reduziert wird. damit die Datenintrigität gewährt bleibt.
Sprich alle rdna3 in 5nm können maxed nur 2,4-2,6ghz Takten ales darüber resultiert in geringere fp32 output
Also 3,0ghz hat dieselbe fp32 Leistung wie 2,6ghz
Klar gibt es Serienstreuung bei den chips, mal geht da bis 2,7ghz ohne fp32 Verlust mal nicht und man hat maximal 2,4ghz und 2,34 operationen.

Am deutlichste sieht man das beim n33 der quasi auf 1,6ghz seine volle Auslastung hat bei 2,34
Das resultiert dann das die sku gleich schnell ist wie der Vorgänger bei gleichen Takt.

Das war sicherlich nicht so geplant und dürfte erst kurz vor release aufgefallen sein.
Spricht auch dafür das man kaum samples gemacht hat quasi erste charge von 5nm wafer
Und keine Änderungen mehr vorgenommen hat.
Der Fehler ist die Größe des L1 und L2 cache. rein physisch nicht menge diesen zu vergrößern würde die Auslastung der simd32 erhöhen was ziemlich sicher ist das dass getan wird also von 17% auf 25% bis 30%= 2,34. 2,5. 2,6 fp32 pro cu
Dann kann der Takt des chips auf geplante 3,2ghz hoch und weil es n3 node ist wird daraus 3,6ghz

n41 wird 120cu haben 3,6ghz und eine alu Auslastung von 2,5 =69tf
n42 wird 96 cu haben 3,6ghz =55tf
n43 wird 60cu haben 3,6ghz =34tf

n31 37tf
n32 24tf
n33 10,9tf

zu den koste da der chip sich um min 5% vergrößert wegen des cache und nochmal um 5% mehr cache aber die fertigung um 42% dichter wird ist der chip dennoch billiger als n31
derzeit Größe 300mm² mit shrink 204mnm² als n42 und 255mm² fürn n41
Das beste daran die chips als bausatz kosten dann
n41 95$
n42 75$
n43 50$

alles preise die problemlos alle sku abdecken können
min vram wäre dann 12gb
n43 sku mit 54cu 16gb gddr7 128bit = 31tf und 512gb/s + inf cache =740gb/s
Und noch ne sku mit 96bit 12gb und 40cu = 23tf und 384gb/s +inf cache = 608gb/s

maxed bei 389€ als rx8600 23tf das entspricht der rx6800xt
und maxed bei 439€ rx8700 31tf das entspricht der rx7900xt
Und das ist erst der kleine n43 mit 60cu und nicht der volle chip dieser wäre bei 34,5tf und könnte als rx8800 ab 550€ kommen
n42 84cu käme min auf 48tf das ist schlappe +30% vs rx7900xtx
96cu auf 55tf was +49% vs rx7900xt wäre
und so weiter

Warum die rx7900xtx nur 20% hinter der rtx4090 ist liegt klar am cpu limit die rtx4090 wird massivste in 2160p von der cpu limitiert
Wenn man die gpu vergleichen will gehtd as nur in 2160p mit dxr ohne upscaler.
Das problem wird die nächste gen an gpu haben nvidia hat keine Grund mehr als ne rtx4090 Leistung zu bringen außer amd kontert mit der rx8900xt und 120cu bei 69tf was die 64tf der rtx4090 schlägt man hat aber noch 142sm zur Wahl
Und erst dann also q4 2024 wird nvidia den Vollausbau bringen bzw mit dem refresh ad203 und 142sm bei 3,2ghz und dann 80tf erreichen.

nächstes Jahr wird interessant in gpu amd könnte ab q3 2024 rdna4 bringen mit n43 zu beginn und da aktuelle lineup aufräumen und dann mit n41 q1 2025 ne marke setzen vs rtx5090
Diesmal wird amd warten bis nvidia ihre Leistung präsentieren ich bin mir sicher das man denselben cut mit 128sm auf ad203 bringt maxed 72tf oder +12%
dann folgend nvidia Reaktion darauf und n42 zum abrunden.

rdna3 hatte durch den cache Fehler seine geplante ziele komplett verfehlt.
Der Abverkauf musste in die länge gezogen werden.
jetzt braucht rdna4 nur in dxr deutlich besser sein und fsr3 kommen dann kann amd davon ziehen beim Marktanteil. den die kosten sind geringer als nvidia diese hat
Und ab rdna5 mit multi gcd ist ende bei der krone
man erreicht mit n2 4,0ghz gpu und kann zudem noch 240cu bieten.
nvidia ist ab n2 auf 160sm limitiert beim neuen design und beim alten auf 216sm in n3

Nvidia neues design 128p32 +32int32 aufgetilt in 16fp32 part 8fp32 sicher 8 optional maxed üblich 4fp32 adiert = 140fp32 per sm
neue design in n2 160sm maxed =125tf 2,8ghz
alte design 216sm n3 3,2ghz 121tf
Das wäre dann 2025 rum

der Grund ist klar ab n2 halbiert sich die Belichtungsgröße, ade 850mm² chips maxed 425mm² chips möglich daher nehme ich an 216sm und 4,0ghz gpu 152tf kommt
Amd Konkurrenz aber 240cu =138tf und es its nicht klar ob drei gcd drin sind dann wird es ein klarer sieg für amd mit 199tf

Das sind aber zahlen die nicht ausgelastet werden können von den aktuellen cpu's bis die erste 8,0ghz cpu da ist. Damit rechne ich ab zen6 2027

Aktuell 5,5ghz in zen4 auf n5 dann in zen 5 auf n3 +15% = 6,3ghz
n3 auf zen6 auf n2 +25% =7,9ghz

gpu dann bei start 30tf und high end wie oben um die 138tf-157tf-199tf 2027 rum

Amd sowie nvidia geben falsche fp32 werte an nvidia hat damit angefangen ab turing (rtx20) und konsequent ab ampere rtx30
Amd est seit rdna3 (rx7000)
bei nvidai sind es fp16 werte bei amd Fantasie man muss die zahlen durch 2 teilen + maximal nen siebtel dazu

Fp32 sind das eine das andere ist was hinten raus kommt.

Und die werte sind noch ohne gaa und Transistor Änderung was nochmal den Takt um 40% steigern kann.
ergo cpu maxed 11ghz, gpu 5,6ghz ab n1 node ~2030 rum

Die 10ghz cpu ist doch erreicht worden wie intel das mal angab 2003

basix

2023-07-30, 12:40:53

Leo hat auf der Hauptseite ein Review zur 7900GRE (https://www.3dcenter.org/news/amd-radeon-rx-7900-gre-fuer-den-weltweiten-vertrieb-vorgestellt-sowie-erstmals-getestet) verlinkt.

Die 7900GRE nutzt ein kleineres GPU Package als auf den grösseren Geschwistern. Vermutlich das aus der Gerüchteküche, welches N32 kompatibel ist:
https://www.forum-3dcenter.org/vbulletin/showthread.php?t=615790
https://abload.de/img/3efb9fad-cd90-47bd-9fgey5.jpeg

Nightspider

2023-07-30, 12:47:47

Rein aus analytischer Sicht wäre schon interessant gewesen, wenn AMD N31 auch mal mit doppelter Menge gestapeltem IF$ als Sonderedition auf den Markt gebracht hätte.

Am Ende bremsen die 96MB vielleicht wirklich schon und N31 hätte nicht nur mit 20% mehr Takt sondern doppeltem IF$ auf den Markt kommen sollen.
Dann wäre der Schlagabtausch in dieser Generation auf jeden Fall interessanter gewesen.

Hoffen wir mal das Beste für RDN4 und für Strix Point (Halo) das beste für RDNA 3.5

So viel wie AMD in R&D investiert kann es ja nur besser werden.

Im CPU Segment läuft es ja wie geschmiert und Zen5 scheint im 1. oder 2. Quartal ja auch Intel total abzuhängen, laut Gerüchten.

amdfanuwe

2023-07-30, 13:01:48

n41 wird 120cu haben 3,6ghz und eine alu Auslastung von 2,5 =69tf
n42 wird 96 cu haben 3,6ghz =55tf
n43 wird 60cu haben 3,6ghz =34tf

Das passt nicht.
N21 hat +100% CU gegenüber N22.
N31 hat +80% CU zu N32

Jetzt soll N41 gerade mal +25% mehr CU haben als N42?

basix

2023-07-30, 13:04:05

Hoffen wir mal das Beste für RDN4 und für Strix Point (Halo) das beste für RDNA 3.5

So viel wie AMD in R&D investiert kann es ja nur besser werden.

Im CPU Segment läuft es ja wie geschmiert und Zen5 scheint im 1. oder 2. Quartal ja auch Intel total abzuhängen, laut Gerüchten.

AMDs Fokus sind schon eher CPUs und neu auch Datacenter & AI (MI300, Pensando, Xilinx, AI-Engine).

Aber ja, RDNA3.5 löst hoffentlich die Handbremse. Primär höhere Energieffizienz sind gefragt. Mit Strix Point und Strix Halo könnte AMD den Notebook-Sektor massiv aufmischen. Ca. 4060/4070 Mobile Performance von Strix Halo lesen sich sehr gut (exklusiv RT, was performancemässig in dieser Klasse aber eh etwas fraglich ist). Das Gesamtpaket wird für die Notebook-Partner günstiger und energieffizienter und man grätscht in Nvidias Mobile-GPU Absatz. Einmalige Business-Gelegenheit, da Win-Win für AMD und dessen Partner. Ich hoffe, dass RDNA4 ebenfalls gut wird und bereits 2025 in den APUs aufschlägt. Dann könnte man auch mit Blackwell im Mobile-Bereich bis in die obere Mittelklasse direkt mit einer APU konkurrieren. Meiner Meinung nach decken die zwei APUs 90% des Notebook Segments zwischen 15...120W ab. Bei den paar Highend-Notebook Kloppern steht man in Konkurrenz mit Nvidia (GPU) und Intel (CPU). Im Grossteil des Marktes wäre man mit den zwei APUs allerdings sehr gut aufgestellt und fast konkurrenzlos. Das bei Strix Halo und dessen Nachfolgern noch mit V-Cache gekoppelt und das ergibt sehr schöne, schnelle und energieffiziente Gaming-Notebooks.

HOT

2023-07-30, 13:45:58

N41 120CUs 10 WGP pro SE, 6 SEs.
Die 3-Chiplet-Variante hätte mMn ebenfalls 6 SE gehabt, 2 pro GCD mit je 12 WGP.
N41 dürfte von der Organisation her N31 ähneln. Es ist aber unklar, ob man aus Spargründen nur 4 MCDs verbauen wird oder doch 6.
N42 wird wieder die Hälfte davon sein, nur in ursprünglicher Orga, nämlich 12WGP pro SE, also 3*12WGP wären 72CUs.
N43 dürfte wieder N4 statt N3 werden und weiterhin 2 SEs bieten, wäre maximal 24WGP also 48CUs.

Also
N41 120CUs (statt der 144 geplanten)
N42 72CUs
N43 48CUs

passt doch gut.

Der_Korken

2023-07-30, 13:46:59

Der cache bringt nur eins ein entlasten des SI das bringt pe se keine Leistung, was Leistung bringt ist Takt und bei amd ipc

Wenn das Speichersystem bremst, wird die Karte durch einen größeren Cache auch schneller. Was nützt Rechenleistung, wenn sie nicht ausgereizt werden kann? Imho sieht man das bei der GRE.

Der cache auf der gpu wurde geschrinkt dadurch verdichtet sich die wärme und die datenkonsistenz ist nicht gegeben womit der takt bis eine Ausführung sicher ist.
Will man stabile daten muss die voltage der gpu stark erhöht werden.
ansonsten hat amd im treiber dafür gesorgt das die simd32 einheit quasi nix zu tun bekommt da die Auslastung reduziert wird. damit die Datenintrigität gewährt bleibt.

Was hat Wärme mit Datenkonsistenz zu tun und warum steigt die Wärme, wenn der Cache kleiner wird? Auch läuft die GPU mit einer sehr geringen Voltage (900mV für 2,5Ghz), deutlich weniger als vorige GPUs (Polaris bis RDNA2 lagen stock meist bei 1100mV). N31 braucht keine hohen Spannungen, um auf Takt zu kommen. Das Problem ist der hohe Grundverbrauch, selbst bei geringer Spannung.

Sprich alle rdna3 in 5nm können maxed nur 2,4-2,6ghz Takten ales darüber resultiert in geringere fp32 output
Also 3,0ghz hat dieselbe fp32 Leistung wie 2,6ghz
Klar gibt es Serienstreuung bei den chips, mal geht da bis 2,7ghz ohne fp32 Verlust mal nicht und man hat maximal 2,4ghz und 2,34 operationen.

Diese Ausführung kann nicht stimmen, denn es gibt deutliche Leistungssteigerungen, wenn der GPU-Takt erhöht wird. Auch über 3Ghz hinaus: https://www.computerbase.de/2023-05/oc-auf-3-4-ghz-radeon-rx-7900-xtx-jagt-mit-700-watt-die-rtx-4090/

Das Problem ist eindeutig der Verbrauch, nicht dass ein höherer Takt aufgrund irgendeines Bottlenecks keine Leistungssteigerung bringen kann.

Der Fehler ist die Größe des L1 und L2 cache. rein physisch nicht menge diesen zu vergrößern würde die Auslastung der simd32 erhöhen was ziemlich sicher ist das dass getan wird also von 17% auf 25% bis 30%= 2,34. 2,5. 2,6 fp32 pro cu
Dann kann der Takt des chips auf geplante 3,2ghz hoch und weil es n3 node ist wird daraus 3,6ghz

[...]

rdna3 hatte durch den cache Fehler seine geplante ziele komplett verfehlt.

Über den L1 und L2 hat bisher niemand geredet. Beide Caches hat AMD bei RDNA3 vergrößert, wobei die Hitrate des L1 bei RDNA2 imho so schlecht war, dass man sich ernsthaft fragen muss den wieder rauszuwerfen und stattdessen den L0 zu verdoppeln (Link (https://chipsandcheese.com/2023/02/19/amds-rdna-2-shooting-for-the-top/)). Der L2 hingegen hatte bereits eine sehr hohe Hitrate und scheint gut dimensioniert zu sein. Dass die unteren Levels die CUs ausbremsen mag sein, aber was das mit dem Takt zu tun hat, verstehe ich nicht. Besagte Caches takten mit Chiptakt, d.h. wenn die CUs schneller takten, wird auch der Cache schneller.

Das sind aber zahlen die nicht ausgelastet werden können von den aktuellen cpu's bis die erste 8,0ghz cpu da ist. Damit rechne ich ab zen6 2027

Aktuell 5,5ghz in zen4 auf n5 dann in zen 5 auf n3 +15% = 6,3ghz
n3 auf zen6 auf n2 +25% =7,9ghz

Ist zwar OT hier, aber ich würde irgendwelche "+X% performance"-Angaben der Hersteller nicht in Taktraten umrechnen. Das hat so noch nie funktioniert und wenn sich die ST-Performance von CPUs so leicht hätte erhöhen lassen, wäre der P4 nie begraben worden oder Intel hätte einfach ihre kleinen Skylakes-Kerne immer höher prügeln können statt die riesigen Cove-Kerne zu entwickeln. TSMC N7 hatte angeblich +40% Perf gegenüber GloFo 14nm, aber davon hat man bei Zen 2 vs Zen 1 nicht viel gesehen. Den Taktsprung von Zen 4 würde ich eher so interpretieren, dass es für AMD einfacher war einen detailverbesserten Zen 3 mit mehr Takt zu bringen als die ganze Arch breiter zu machen und den alten Takt zu lassen. Wenn Zen 5 so in die Breite geht wie gemunkelt wird, werden wir auch wieder Taktregressionen sehen.

davidzo

2023-07-30, 14:42:07

Ich stimme Korken bei allem obigen gesagten zu.

Aber ja, RDNA3.5 löst hoffentlich die Handbremse. Primär höhere Energieffizienz sind gefragt.
Das ist nicht das einzige Problem. Da ist imo noch eine zweite Handbremse neben dem Takt. RDNA3 ist ein Rückschritt in der PPA. Statt Dual-issue fähigen Alus und den L1 und die Register aufzubohren hätte man lieber 128 RDNA2 CUs in 5nm bringen können und der Die wäre dabei vermutlich sogar noch kleiner geblieben. Dann hätte der shrink von 7 auf 5nm schon gereicht um auf ähnliche Taktraten und Verbrauch zu kommen wie jetzt N31 mit 96 D-CUs. Dual issue bringt nichtmal 10% mehr Floating Point Leistung auf die Straße, bei Ampere war das wesentlich mehr durch die FP32 Verdopplung. Also entweder in der SW oder der HW steckt noch eine riesige Handbremse. Entweder löst man diese Auslastungsprobleme, oder man sollte imo auf N33 WGPs zurückgreifen die eine sehr viel bessere PPA bieten und davon dann wesentlich mehr verbauen.

Es ist aber unklar, ob man aus Spargründen nur 4 MCDs verbauen wird oder doch 6.
Da bei beiden Nextgen GPUs von GDDR7 die Rede ist kann man von 256bit ausgehen, wahrscheinlich auch bei Nvidia. Das sind trotzdem deutlich über 1tb/s und damit ausreichend schneller als 384bit GDDR6. Man wird bei der ersten GDDR7 Generation nicht gleich das ganze Pulver verschießen, zumal Samsung sicher Premiumpreise für den neuen GDDR7 aufrufen wird.

HOT

2023-07-30, 15:16:19

NV wird ja offenbar 512Bit bekommen beim BW102. Das würde ja auch gut zur spekulierten hohen SM-Anzahl und gleicher Cachegröße (96MB L2$) passen. Ob es beim reduzierten N41 bei 384Bit + ebenfalls 96MB LLC oder 256Bit + 128MB LLC hinausläuft ist unklar.

Gipsel

2023-07-30, 15:24:27

Der Fehler ist das die zusätzlichen simd32 die für die zweite fp32 in 32bit Einen latenz hat da man auf dasselbe Speichersyetem zugreift und somit ein problem gibt wenn der cache zu klein ist das reduziert die fp ausführungenVölliger Blödsinn und für mich ein klares Signal, daß Du Dir den Kram aus den Fingern saugst und keinen Schimmer davon hast.

basix

2023-07-30, 15:28:37

Das ist nicht das einzige Problem. Da ist imo noch eine zweite Handbremse neben dem Takt. RDNA3 ist ein Rückschritt in der PPA. Statt Dual-issue fähigen Alus und den L1 und die Register aufzubohren hätte man lieber 128 RDNA2 CUs in 5nm bringen können und der Die wäre dabei vermutlich sogar noch kleiner geblieben. Dann hätte der shrink von 7 auf 5nm schon gereicht um auf ähnliche Taktraten und Verbrauch zu kommen wie jetzt N31 mit 96 D-CUs. Dual issue bringt nichtmal 10% mehr Floating Point Leistung auf die Straße, bei Ampere war das wesentlich mehr durch die FP32 Verdopplung. Also entweder in der SW oder der HW steckt noch eine riesige Handbremse. Entweder löst man diese Auslastungsprobleme, oder man sollte imo auf N33 WGPs zurückgreifen die eine sehr viel bessere PPA bieten und davon dann wesentlich mehr verbauen.

Energieffizienz kann man über bessere Taktskalierung, höhere IPC, Prozessoptimieren oder irgendwas erreichen. Ich glaube nicht, dass es die eine einzige Stellschraube gibt.

Dennoch würde ich mir von RDNA3.5 nicht allzuviel im dem Sinne erwarten, dass man grössere Dinge an der Architektur ändert. Das kommt erst durch RDNA4. Also sollte man die Low Hanging Fruits ("Bugs") im Design lösen und OK. RDNA3 sollte augenscheinlich viel höher takten, ohne so viel zu verbrauchen. Deswegen denke ich, dass AMD hier bei RDNA3.5 ansetzt. Dazu etwas IPC durch die überarbeitete Skalar-ALU und Treiber-Feinschliff und gut ist.

PPA ist zudem nicht generell ein Problem. N33 in N6 ist kein Rückschritt verglichen mit N23. Das sieht auch prozessnormiert OK aus (+10% Performance, -10% Verbrauch, -10% Fläche bei N33 vs. N23 in Form von 7600 und 6650XT, beide laufen am Taktlimit). Würde man hier auf RDNA3.5 setzen (welches potentiell einen guten Fortschritt bringen könnte), dann sieht es hinsichtlich PPA evtl. nochmals deutlich besser aus. Stell dir vor, N33 hätte +10% IPC, +15% Takt und gleichzeitig -10% Verbrauch (wilde Zahlen, welche RDNA3.5 bringen könnte). Dann hätte niemand gemeckert. Hätte, hätte, Fahrradkette, ich weiss. Doch irgendwo ein solche Steigerung erhoffe ich mir von RDNA3.5.

RDNA4 kann hoffentlich deutlich an der IPC Schraube drehen. Matrix-Operationen kann man mittlerweile in Games einsetzen (DX12 mit WMMA Befehlen), doch bis das breitflächig in SW verwendet wird, dauert es noch lange.

HOT

2023-07-30, 15:36:43

RDNA3.5 soll nur die neuen ALUs innerhalb der CUs durch die SALUs aus RDNA4 ersetzen, nicht etwa die CUs und die sollen deutlich energieffizienter sein als bei RDNA3.
RDNA3 hat mMn 2 Baustellen:
- Die ALU-Effizienz ist schlecht und verhindert hohe Takte bei bestimmten Workloads (zu hohe Leckströme?)
- Die ROPs sind ineffizient, was mit der MCD-Anbindung zusammenhängen könnte

Die erste Baustelle ist vor allem für APUs interessant, weil man da mehr Leistung freisetzen kann bei weniger W, daher RDNA3.5.
Zweiteres muss RDNA4 angehen.

amdfanuwe

2023-07-30, 16:11:26

Mit Strix Point und Strix Halo könnte AMD den Notebook-Sektor massiv aufmischen.
Bei Notebook ist das Problem, dass Intel da noch gute Connektions zu den OEMs hat und ihre CPUs Massenhaft mit Rabatten reindrückt.
Anders kann ich mir die 15% Gewinnmarge im Client Segment bei Intel nicht erklären.

Daher geht AMD das Notebook Segment auch eher von oben an mit Fire Range und Strix Halo.
Strix Point wird es, ebenso wie Phoenix jetzt, schwer haben.

davidzo

2023-07-30, 16:59:55

Also sollte man die Low Hanging Fruits ("Bugs") im Design lösen und OK.
Eine low hanging fruit ist dass die neuen WGPs nix bringen. 3x N33 hat 46% weniger Transistoren als N31 und kommt auf dieselbe Anzahl Recheneinheiten. In N31 wurde viel verschwendet.

PPA ist zudem nicht generell ein Problem. N33 in N6 ist kein Rückschritt verglichen mit N23.
Aber N31 ist ein Rückschritt bei der PPA. Das N33 da viel besser dasteht sehe ich auch so und hatte bereits vorgeschlagen dort weiter zu machen. 3x N33 käme auf 40Mrd Transistoren bzw. rund 400mm2 in N5 - inkl. 384bit Speicherinterface und ebenfalls 96CU, 192Rops, 96RT, 96MB cache etc.
Da N33 in N6 schon vergleichbare Taktraten wie N31 erreicht und die Effizienz auch inline mit den RNDA3 Chips in N5 liegt, würde mich schon sehr interessieren was ein monolitischer 400mm2 N5 Chip so gebracht hätte.

RDNA4 kann hoffentlich deutlich an der IPC Schraube drehen. Matrix-Operationen kann man mittlerweile in Games einsetzen (DX12 mit WMMA Befehlen), doch bis das breitflächig in SW verwendet wird, dauert es noch lange.
Nvidia nutzt das halt für DLSS. Denke das wäre bei AMD auch nur logisch, aber anscheinend mangelt es AMD an Software-Entwicklern.

Bei Notebook ist das Problem, dass Intel da noch gute Connektions zu den OEMs hat und ihre CPUs Massenhaft mit Rabatten reindrückt.
Anders kann ich mir die 15% Gewinnmarge im Client Segment bei Intel nicht erklären.

Daher geht AMD das Notebook Segment auch eher von oben an mit Fire Range und Strix Halo.
Strix Point wird es, ebenso wie Phoenix jetzt, schwer haben.

Ja, wenn AMD weiterhin nur eine gleichwertige Alternative anbietet wird man nur über den Preis in Budget-Geräten landen. Wenn man preislich Intel nicht unterbietet wir man einfach ignoriert, jedenfalls solange Intel liefern kann.

AMD scheint aber langsam verstanden zu haben dass man sich wie im Desktop leistungsmäßig von Intel distanzieren muss um ernst genommen zu werden. Der 7945HX3D ist ein gutes Zeichen das AMD das verstanden hat.

Lisa geht anscheinend den Weg des geringsten Widerstands bei der Entscheidung auf welchen Markt man sich konzentrieren sollte. 2014 war das Naheliegendste bei den Konsolen zu gewinnen. Danach waren die Desktop-CPUs dran und seit ein paar Jahren nun der Server. Als nächstes wir man Intels Mobile-Monopol angreifen und zwar über einen greifbaren Performancevorteil. Nvidia jetzt breitflächig anzugreifen die sich in einer Position der Stärke befinden würde nur in einer Preisschlacht resultieren die man nicht gewinnen kann. Intel ist da aktuell das weit einfachere Ziel und mobile womöglich sogar der größere Markt als diskrete GPUs.

HOT

2023-07-30, 17:22:27

Entwickler sind glaube ich kein Problem, die Strategie aber sehr wohl. Man hat DLSS unterschätzt und FSR überschätzt und das zu reparieren dauert.

amdfanuwe

2023-07-30, 19:08:28

Lisa geht anscheinend den Weg des geringsten Widerstands bei der Entscheidung auf welchen Markt man sich konzentrieren sollte.
Eher den der besseren Gewinnmarge.
Semicustom hat eher einen anderen Stellenwert, ist risikolos und sicheres Geschäft.
Mobile ist größer als Gaming GPUs. Nvidia wird da auch noch Federn lassen, kleine GPUs sind schon nicht mehr nötig und irgendwann bündeln AMD und Intel ihre Mobilchips mit ihren Mobile GPUs.

basix

2023-07-30, 19:32:41

Eine low hanging fruit ist dass die neuen WGPs nix bringen.
Was bringen die Tensor Cores? Auch nix? Die neuen CUs sind ja nicht wirklich grösser (siehe N33 vs. N23), können peak aber deutlich mehr Durchsatz liefern. Netto also bereits ein Win. Und es gibt Produktivanwendungen, wo der doppelte Durchsatz durchschlägt.

3x N33 hat 46% weniger Transistoren als N31 und kommt auf dieselbe Anzahl Recheneinheiten. In N31 wurde viel verschwendet.
N31 ist ein Rückschritt bei der PPA. Das N33 da viel besser dasteht sehe ich auch so und hatte bereits vorgeschlagen dort weiter zu machen. 3x N33 käme auf 40Mrd Transistoren bzw. rund 400mm2 in N5 - inkl. 384bit Speicherinterface und ebenfalls 96CU, 192Rops, 96RT, 96MB cache etc.
Da N33 in N6 schon vergleichbare Taktraten wie N31 erreicht und die Effizienz auch inline mit den RNDA3 Chips in N5 liegt, würde mich schon sehr interessieren was ein monolitischer 400mm2 N5 Chip so gebracht hätte.
N31 hat zwar viele Transistoren, wirklich fett von der Chipfläche her ist er aber eigentlich nicht. 3x N33 wäre sicher schlanker und Lovelace ist sicher einiges besser (auch aufgrund der nicht erreichten RDNA3 Taktziele), doch so dramatisch wie du das darstellst ist es nicht. Chiplets haben zudem einen inhärenten Overhead wegen den Chip-to-Chip Interconnects, sind kostemässig aber an anderer Stelle vorteilhaft.

Gab hier eine Kostenanalyse dazu:
https://www.semianalysis.com/p/ada-lovelace-gpus-shows-how-desperate

RDNA3 schnitt hier sehr gut ab. Hat halt Performance mässig dann weniger abgeliefert.

Nvidia nutzt das halt für DLSS. Denke das wäre bei AMD auch nur logisch, aber anscheinend mangelt es AMD an Software-Entwicklern.

Ich rede Matrix-Befehlen via einheitlicher API. Für alle Vendors (Nvidia, Intel, AMD). Das gibt es erst seit ein paar Wochen (MS Agility SDK (https://devblogs.microsoft.com/directx/agility-sdk-1-711/), AMD News (https://gpuopen.com/wmma_benefits_ml_compute/)). Und da ist auch nicht zwingend AMD am Ball, sondern die Spiele- und Engine-Entwickler. Klar kann AMD hier den Entwicklern auf die Sprünge helfen und unterstützen. Doch am Ende ist nicht AMD für die Spieleprogrammierung zuständig.

davidzo

2023-07-31, 12:19:44

Chiplets haben zudem einen inhärenten Overhead wegen den Chip-to-Chip Interconnects, sind kostemässig aber an anderer Stelle vorteilhaft.

Kostenvorteile? ich weiß nicht. Wenn du dir deinen Link anschaust ist N31 28% teurer als der Gegenspieler AD103. Das sieht imo nicht gut aus für AMD. Und gegenüber einem eigenen monolitischen Chip mit N33 Architektur dürfte das noch viel schlimmer sein. Lass uns das mal ausrechnen.

3x N33 hat mit 39,9Mrd Transistoren immerhin 6Mrd weniger als der N31 GCD allein(45Mrd). Und die 2x extra Videoengines kann man noch abziehen und 8PCIe lanes (wären sonst 24), dann kommt man auf Schätzungsweise 36Mrd. Gar nicht weit weg von einem fiktiven Navi21 mit 96CUs.

Die Density wäre etwas niedriger als der N31 GCD der es auf 150mtr/mm2 bringt. Das kombinierte N6+N5 N31 DIE kommt auf 109mtr/mm2, was also das mindeste wäre was man in N5 erreicht. Ich tippe eher auf ca. 120mtr/mm2, also leicht unter dem was nvidia erreicht.

Bei 120Mtr/mm2 und 36Mrd Transistoren komme ich auf ein 300mm2 DIE. Das ist also nichtmal größer als das N31 GCD. Yield wäre dementsprechend identisch bzw. sogar besser (packaging yield fällt weg), die Kosten geringer.
Das entspricht ziemlich genau AD104. Leistungsmäßig würde sich der 96CU Chip aber wie auch N31 eher bei AD103 einsortieren.

Ich denke das Chiplet-design war eine Fehlentscheidung von AMD. Zu den Gründen kann man folgendes Spekulieren:
1. N31 wurde als erstes entwickelt, brauchte wegen den Chiplets auch am meisten Vorlauf, entsprechend musste man die Architektur vom Reissbrett nehmen. N33 hat also viel mehr Emulation und Optimierung hinter sich.
2. N31 sollte als highend Chip stacked Cache bekommen, was mit einem monolitischen chip schwierig geworden wäre. Passend dazu sollte der und halt viel höher takten. Das ist beides nicht passiert.

Erinnert ihr euch noch dass die erste Gerüchteküche zu N33 so enthusiastisch war? Navi33 sollte "interessanter" sein als N31 und N32, laut kopite_7_kimi. Das war die allererste News zu N33, gut ein Jahr später als die ersten N31 Gerüchte. Falls das auf interne AMD Quellen zurück geht dürfte das eine Architektur-Beurteilung gewesen sein die schon bescheid wusste wieviel mehr PPA N33 bringt verglichen zu den highend Chips. Möglicherweise direkt nach den FPGA Emulationen, also noch ohne zu wissen wie CU-count etc. nachher aussehen.

BlacKi

2023-07-31, 12:33:56

mal sehen was nv mit dem chiplet design schafft. leider erst 2025.

Der_Korken

2023-07-31, 12:48:33

Bei der Hochrechnung von 3xN33 muss man allerdings beachten, dass N33 nicht so hohe Taktraten schafft wie N31. CB hatte mal versucht die Takt-Verbrauchskurve einzufangen: https://www.computerbase.de/2023-05/amd-radeon-rx-7600-test/4/#abschnitt_taktwattskalierung_auf_navi_33_und_navi_23

Dort skaliert N33 mit hohem Takt sogar leicht schlechter als N23, hat also einen niedrigeren Sweetspot. Man muss bei N31 also bedenken, dass viele Transistoren dort wohl nur da sind, um die Taktraten zu pushen. Dass die nie erreicht wurden, wissen wir alle, aber fairerweise muss man dem Transistorenbudget entweder noch 20% mehr Takt zugestehen (dadurch wäre man schneller als 3xN33) oder man muss die Transistoren rausrechnen, die quasi verpufft sind (dadurch wäre das GCD kleiner als 3xN33).

Ich würde hier nicht direkt sagen, dass die Chiplets eine Fehlentscheidung waren. Höchstens insofern, als dass man sich beim Basis-Die unnötig stark unter Zeitdruck gestellt und dadurch Fehler gemacht hat. Als Trost haben sie immerhin einiges an Erfahrungen sammeln können was die Die-to-Die-Kommunikation auf GPUs angeht. Für RDNA4 wurde gar gemunkelt, dass sie vom Dual-GCD-Design intern wieder abgerückt sind und sich der Release dadurch um 6 Monate verschiebt. Wäre RDNA3 monolithisch gewesen, wären sie stattdessen mit RDNA4 vielleicht noch übler ins Messer gelaufen, wenn die GCD-to-GCD-Kommunikation komplett in die Hose gegangen wäre.

HOT

2023-07-31, 12:55:38

Wer den Mobilchip N33 mit den restlichen N3x vergleicht ist sowieso in jeder Hinsicht auf dem Holzweg. Auch diese ganzen Transistor hin und herrechnereien, das führt eh zu nix.

davidzo

2023-07-31, 14:46:34

Bei der Hochrechnung von 3xN33 muss man allerdings beachten, dass N33 nicht so hohe Taktraten schafft wie N31. CB hatte mal versucht die Takt-Verbrauchskurve einzufangen: https://www.computerbase.de/2023-05/amd-radeon-rx-7600-test/4/#abschnitt_taktwattskalierung_auf_navi_33_und_navi_23

N5 != N6
Ist doch überraschend das N33 in N6 fast die gleichen Taktraten schafft wie N31 in N5. In N5 wäre der Chip laut TSMCs Angaben um je 11% schneller und sparsamer. (N7 zu N6 +2% perf -10% Power; N7 zu N5 +13% perf -21% Power)
Btw, die Taktlimits von N23 und N33 sind treiberseitig nicht hardwarelimits. Und dass N33 eine steilere Kurve hat spielt keine Rolle da diese trotzdem deutlich niedriger liegt. Die Grafik ist ein bisschen irreführend, denn in dem Bereich wo sie gleich takten, skalieren sie auch in etwa parallel. N33 kann man aber noch höher takten und da knickt die Kurve minimal ab. Ich wäre da vorsichtig solche Schlüsse zu ziehen wie CB da macht, dazu ist das bei weitem nicht signifikant genug. Sowas hängt mehr vom boarddesign / vrm ab als irgend was anderes.

Ich würde hier nicht direkt sagen, dass die Chiplets eine Fehlentscheidung waren. Höchstens insofern, als dass man sich beim Basis-Die unnötig stark unter Zeitdruck gestellt und dadurch Fehler gemacht hat. Als Trost haben sie immerhin einiges an Erfahrungen sammeln können was die Die-to-Die-Kommunikation auf GPUs angeht. Für RDNA4 wurde gar gemunkelt, dass sie vom Dual-GCD-Design intern wieder abgerückt sind und sich der Release dadurch um 6 Monate verschiebt. Wäre RDNA3 monolithisch gewesen, wären sie stattdessen mit RDNA4 vielleicht noch übler ins Messer gelaufen, wenn die GCD-to-GCD-Kommunikation komplett in die Hose gegangen wäre.

Das mag sein, macht aber die Produkte mit N31 und N32 nicht besser. Fiji war auch engineeringtechnisch eine Höchstleistung, aber es war trotzdem eine Sackgasse.

Sicherlich hatte N31 einiges an Komplexität und hat deswegen auch so lange gedauert. Wir hatten Gerüchte seit 2020, trotzdem ist man erst nach Lovelace gestartet. Ähnlich wird jetzt SPR von den reviewern ob des komplexen packaging und gigantischen Interconnects gewürdigt aber auch gleichzeitig mit Netburst verglichen, weil das ganz schön viel Spezial-Engineering und Entwicklungszeit für wenig Leistungsplus war.

Wer den Mobilchip N33 mit den restlichen N3x vergleicht ist sowieso in jeder Hinsicht auf dem Holzweg. Auch diese ganzen Transistor hin und herrechnereien, das führt eh zu nix.

Ich denke schon dass bei AMD seit Monaten ähnliche Gedankenspiele am laufen sind. Entweder man puscht die beiseite und konzentriert sich auf RDNA4 oder wir bekommen noch einen refresh davor.
Ein RNDA3.5 refresh der 96CUs in 300mm2 monolitisch (gerne mit 128mb IFcache und 256bit SI) auf dem Leistungsniveau der XTX und mit unter 250W TDP bringt, würde Nvidia preislich unter Zugzwang setzen. Denkbar wäre auch ein Highend Contender mit 128CUs in 400mm2. Solche Rechenspiele wird AMD sicher schon durchgegangen sein nachdem man ausreichende Laborergebnisse von N31 und N33 hatte.

reaperrr

2023-07-31, 15:28:26

Ich denke schon dass bei AMD seit Monaten ähnliche Gedankenspiele am laufen sind. Entweder man puscht die beiseite und konzentriert sich auf RDNA4 oder wir bekommen noch einen refresh davor.
Ein RNDA3.5 refresh der 96CUs in 300mm2 monolitisch (gerne mit 128mb IFcache und 256bit SI) auf dem Leistungsniveau der XTX und mit unter 250W TDP bringt, würde Nvidia preislich unter Zugzwang setzen. Denkbar wäre auch ein Highend Contender mit 128CUs in 400mm2. Solche Rechenspiele wird AMD sicher schon durchgegangen sein nachdem man ausreichende Laborergebnisse von N31 und N33 hatte.
Dafür ist es zu spät.

So schnell lassen sich Chips nicht "mal eben" designen.

Maximal würde es einen Refresh des N31-GCD mit gleichbleibenden Specs (und in etwa gleichbleibender Größe) und einigen Fixes, vielleicht von RDNA3.5/4 übernommenen Optimierungen sowie im Idealfall N4P-Shrink geben, aber selbst das würde in einem Release nicht vor Anfang nächsten Jahres münden.
Passt auch nicht zu den Gerüchten, dass RDNA3 so schlecht ausgefallen ist, dass AMD die Idee eines RDNA3+/3.5-basierten Refreshes verworfen hat und sich auf RDNA4 konzentriert. Und dieses Cancel-Gerücht ist aus Januar und seitdem hat man auch tatsächlich nix mehr von einem Refresh gehört, selbst aus den Gerüchteküchen. Klares Indiz, dass der Refresh tot ist.

robbitop

2023-07-31, 15:30:07

Die neuen CUs sind ja nicht wirklich grösser (siehe N33 vs. N23), können peak aber deutlich mehr Durchsatz liefern. Netto also bereits ein Win. Und es gibt Produktivanwendungen, wo der doppelte Durchsatz durchschlägt.

N33 ist bei gleicher WGP Anzahl und sonst gleicher specs (IF$, ROPs, TMUs, L2 Cache usw gleich - nur L0 und L1 Cache sind größer bei N33) 20% größer an Transistoren als N23. Das ist mMn nicht "kaum". Die +20% mehr Transistoren scheint RDNA3 aber nicht gegen RDNA2 in Performance umsetzen zu können. Laut CB rating ist sie gerade mal 8% (Raster) / 11% (RT) schneller als die 6650XT (die hat nahezu identische Taktraten wie die 7600 laut dem CB Artikel).

N31 hat zwar viele Transistoren, wirklich fett von der Chipfläche her ist er aber eigentlich nicht. 3x N33 wäre sicher schlanker
3x N33 wären knappe 40 Mrd Transistoren - N31 hat 57,7 Mrd Transistoren. Das sind immerhin +40% Transistoren vs einem hypothetischem 3x N33. Für das Transistorbudget wäre 4x N33 (oder 5x N23) möglich gewesen.

Ich denke aber auch, dass N31 auf höhere Taktraten gehen sollte (und ein guter Teil der Transistoren dafür da waren). Denn die Skalierung mit den WGPs nimmt ab (es gibt auch bei Grafik Grenzen in der Parallelisierung und dem Overhead). Frequenz skaliert hingegen linear.
Hätte >> 3 GHz funktioniert bei ähnlicher TDP wie N31 hätte sich wohl keiner beschwert. Mal schauen, ob sie es mit RDNA4 dann umgesetzt bekommen. :)

Der_Korken

2023-07-31, 15:47:38

In N5 wäre der Chip laut TSMCs Angaben um je 11% schneller und sparsamer. (N7 zu N6 +2% perf -10% Power; N7 zu N5 +13% perf -21% Power)

Da kommt man aber auch etwas in Effizienzprobleme bei nur -11% Power. 3x160W - 11% = 432W. Die +11% Performance muss man schon komplett in weniger Power investieren, um auf 350W zu kommen, aber dann hat man eben nur N6-Taktraten. Ja, die hat N31 in Spielen auch, aber man sieht in Compute-Benches auch, dass >3Ghz von der Architektur her kein Problem sind. Für N33 habe ich vergleichbares bisher nicht gesehen. Deswegen gehe ich davon aus, dass das Limit hier niedriger liegt, auch wenn N33 von ähnlichen Design-Bugs geplagt wird.

Btw, die Taktlimits von N23 und N33 sind treiberseitig nicht hardwarelimits. Und dass N33 eine steilere Kurve hat spielt keine Rolle da diese trotzdem deutlich niedriger liegt.

Bei 2550Mhz ist der prozentuale Vorteil von N33 deutlich größer als bei 2650Mhz. Daraus schließe ich, dass N33 näher am Limit läuft was die Arch angeht. Ja, auf niedrigerem Niveau, aber mir ging es um den Vergleich zu N31 und den würde bei der Taktbarkeit klar vorne sehen. Klarer als die +11% Perf. für N5.

Grundsätzlich stimme ich dir zu, dass N33 eine bessere Figur als N31 macht und dass AMD mit einem monolithischen N31 ohne die Extraregister deutlich besser abgeschnitten hätte. Sowohl AMD als auch Nvidia ist klar, dass Chiplets in Zukunft im Highend unumgänglich sind. Mit N31 haben sie wohl eine gute Gelegenheit gesehen die Technik zu etablieren, weil es durch das neue Packaging erstmals mögich ist Offchip-Interconnects mit hoher Bandbreite und Effizienz zu realisieren. Ich glaube nicht, dass das eine Sackgasse ist, auch wenn AMD diesmal viel Lehrgeld gezahlt hat.

reaperrr

2023-07-31, 15:53:40

N33 ist bei gleicher WGP Anzahl und sonst gleicher specs (IF$, ROPs, TMUs, L2 Cache usw gleich - nur L0 und L1 Cache sind größer bei N33) 20% größer an Transistoren als N23. Das ist mMn nicht "kaum". Die +20% mehr Transistoren scheint RDNA3 aber nicht gegen RDNA2 in Performance umsetzen zu können. Laut CB rating ist sie gerade mal 8% (Raster) / 11% (RT) schneller als die 6650XT (die hat nahezu identische Taktraten wie die 7600 laut dem CB Artikel).
Wobei man da ein wenig differenzieren muss.

Es gibt Spiele (ohne RT, wohlgemerkt), da ist die 7600 trotz leicht niedrigerer TBP und Taktraten ca. 30% schneller als die 6650XT, die selbst ja schon ein späterer Refresh von N23 war. Da scheinen insbesondere die zusätzlichen SIMD kräftig durchzuschlagen.

Nur gibt es dann eben auch ne Menge Spiele, wo die zusätzlichen SIMD einfach mal rein gar nichts zu bringen scheinen, da werden die paar Prozent mehr IPC vermutlich primär von den größeren L0/Global-L1 Caches und der verbesserten DCC kommen (und was RDNA3 sonst noch so an minimalen uArch-Verbesserungen haben mag).
Das ist aber eine Situation, die sich mit Compiler-Verbesserungen und kommenden Spielen noch zumindest etwas verbessern könnte (sicher nicht flächendeckend, aber wenigstens punktuell).

robbitop

2023-07-31, 16:48:45

Wobei man da ein wenig differenzieren muss.

Es gibt Spiele (ohne RT, wohlgemerkt), da ist die 7600 trotz leicht niedrigerer TBP und Taktraten ca. 30% schneller als die 6650XT, die selbst ja schon ein späterer Refresh von N23 war. Da scheinen insbesondere die zusätzlichen SIMD kräftig durchzuschlagen.

Nur gibt es dann eben auch ne Menge Spiele, wo die zusätzlichen SIMD einfach mal rein gar nichts zu bringen scheinen, da werden die paar Prozent mehr IPC vermutlich primär von den größeren L0/Global-L1 Caches und der verbesserten DCC kommen (und was RDNA3 sonst noch so an minimalen uArch-Verbesserungen haben mag).
Das ist aber eine Situation, die sich mit Compiler-Verbesserungen und kommenden Spielen noch zumindest etwas verbessern könnte (sicher nicht flächendeckend, aber wenigstens punktuell).
Guter Punkt! :)
Gerade mal geschaut - CP2077 haut in RT ordentlich durch.

davidzo

2023-07-31, 17:02:56

Da kommt man aber auch etwas in Effizienzprobleme bei nur -11% Power. 3x160W - 11% = 432W.

So kann man das nicht rechnen, Chips skalieren nicht linear mit der Einheitenanzahl. Dann müsste Navi21 auf der 6900XT ja 460Watt haben, ausgehend von Navi22 auf der 6700XT.

Sowohl AMD als auch Nvidia ist klar, dass Chiplets in Zukunft im Highend unumgänglich sind. Mit N31 haben sie wohl eine gute Gelegenheit gesehen die Technik zu etablieren, weil es durch das neue Packaging erstmals möglich ist Offchip-Interconnects mit hoher Bandbreite und Effizienz zu realisieren. Ich glaube nicht, dass das eine Sackgasse ist, auch wenn AMD diesmal viel Lehrgeld gezahlt hat.
Ja, aber das Timing ist denkbar schlecht. High-NA kommt erst mit TSMCs N2 node, wenn überhaupt. Erst dann ist es durch das reticle Limit notwendig auf Multichip zu gehen. Und nvidia hat sehr gut gezeigt dass man keine Probleme damit hat aus AMDs Fiji - Erfahrungen zu lernen auch ohne dass man sich dabei selber die Hände schmutzig machen musste. V100 hat direkt eine problemfreie HBM Implementierung abgeliefert inkl. Si Interposer etc.

Dafür ist es zu spät.

naja, AMD wird die Laborwerte irgendwann 2021/22 gehabt haben. Das Gerücht dass das MCM Design eher enttäuschend ist und der monolititsche Chip die bessere ppa haben wird kommt aus Februar 2021. Solange wird AMD also Zeit gehabt haben.

Passt auch nicht zu den Gerüchten, dass RDNA3 so schlecht ausgefallen ist, dass AMD die Idee eines RDNA3+/3.5-basierten Refreshes verworfen hat und sich auf RDNA4 konzentriert. Und dieses Cancel-Gerücht ist aus Januar und seitdem hat man auch tatsächlich nix mehr von einem Refresh gehört, selbst aus den Gerüchteküchen. Klares Indiz, dass der Refresh tot ist.
Ja, das Cancel-Gerücht gibt es. Aber genauso ist seitdem RDNA3.5 auf den AMD-Roadmaps aufgetaucht. Zumindest für die APUs wird es also die Refresh Generation geben. Mal sehen ob da wirklich nichts mehr kommt oder ob AMD einfach diesmal besser dicht halten kann. Ich könnte mir eine kostenoptimierte Zwischengeneration monolitisch gefertigt bei Samsung in SF4P vorstellen. Die ist dann nicht schneller aber billiger und man könnte N31 und N32 mit einem einzigen Chip ersetzen. Das würde den auch den RDNA4 Fahrplan bei TSMC nicht gefährden.
Naja, das ist alles Speku - warten wir auf echte Gerüchte.

Der_Korken

2023-07-31, 17:24:42

Ja, aber das Timing ist denkbar schlecht. High-NA kommt erst mit TSMCs N2 node, wenn überhaupt. Erst dann ist es durch das reticle Limit notwendig auf Multichip zu gehen.

Kostenvorteile können sich auch ohne Reticle Limit ergeben. Rome wäre damals ohne Chiplets nicht möglich gewesen. Man hätte einen 800mm² Monster-Die gebraucht mit einer absolut beschissenen Yieldrate. Die Wunschvorstellung, dass man Nvidias üblichen 650mm²-Monstern z.B. einen Dual-GCD mit je 200mm² plus eine handvoll MCDs mit je 40mm² in billiger Fertigung entgegen setzen kann, ist schon sehr verlockend.

robbitop

2023-07-31, 17:57:38

Und nvidia hat sehr gut gezeigt dass man keine Probleme damit hat aus AMDs Fiji - Erfahrungen zu lernen auch ohne dass man sich dabei selber die Hände schmutzig machen musste. V100 hat direkt eine problemfreie HBM Implementierung abgeliefert inkl. Si Interposer etc.

Sehe ich auch so. Man muss nicht alles an einem Serienprodukt ausprobieren, damit man es dann auch irgendwann mal beherrscht.
Vieles kann man auch mit mockups im Labor machen. Oder in einer kleinen Stückzahl. Man muss kein Chipletdesign liefern zu einem Zeitpunkt, der ungünstig ist, damit man das wenn es drauf ankommt beherrscht.

TheAntitheist

2023-07-31, 18:30:50

So schnell kann man keinen Refresh bringen, da es offensichtlich Probleme mit der ersten Gen von Chiplet basierenden GPUs gibt.

Der ersten Ryzen war zwar ok, aber auch noch weit von seinen Möglichkeiten entfernt.
Offensichtlicherweise gibt es eben keine Probleme, weil alle Modelle gleich performen... und da wird auch nichts mit N32 gefixed, ergo kein HW bug, sonst hätte man die 7900GXETZ nicht überall released.

amdfanuwe

2023-07-31, 18:32:54

Vieles kann man auch mit mockups im Labor machen. Oder in einer kleinen Stückzahl.
Da können in der Serie immer noch einige Probleme auftauchen.
Von beherrschen kann man erst reden, wenn es auch wirklich in Serie läuft.

robbitop

2023-07-31, 19:10:52

Gibt genug Beispiele die zeigen, dass es dann auch auf Anhieb klappt wenn man es im Labor fertig entwickelt und es erst in Serie launcht wenn es sinnvoll ist. Es braucht keine halbgare erste Iteration damit es später eine zweite gute gibt. V100 mit HBM. M1 Ultra mit mGPU über Info-LSI.

vinacis_vivids

2023-07-31, 19:29:33

Ich könnte mir eine kostenoptimierte Zwischengeneration monolitisch gefertigt bei Samsung in SF4P vorstellen. Die ist dann nicht schneller aber billiger und man könnte N31 und N32 mit einem einzigen Chip ersetzen. Das würde den auch den RDNA4 Fahrplan bei TSMC nicht gefährden.
Naja, das ist alles Speku - warten wir auf echte Gerüchte.

Totale Zeitverschwendung von 5N TSMC auf SF4P "monolitisch" Samsung umzusteigen für AMD RDNA3. Mit das dünnste Gerücht was ich bisher hier lesen durfte unter den vielen anderen dünnen Gerüchten. Hier fehlen die fundamentalen Marktkenntnisse:

5N TSMC ~304,35mm² (14mm X 21,75mm) GCD

Wafer Cost Calculator: 5nm TSMC 2022/2023
12-inch Wafer: 192 GCDs - 304,5mm²
14105 USD / 13400 USD - 2022 / 2023
Cost per GCD 70% = 134 GCD: 100-105 USD
Cost per GCD 90% = 172 GCD: 78-82 USD

AMD ist derzeit bei 90% Ausbeute und ~78-82USD pro N31 (XTX, XT, XL) GCD.

Für MCDs gelten ~99-99,5% Ausbeute.

Wafer Cost Calculator: 7nm TSMC 2022/2023
12-inch Wafer: 16445 ~37,5mm² MCD (1,935mm X 1,935mm)
10775 USD / 10235 USD - 2022 / 2023
Cost per MCD 99% = 16280 MCD: 0,63 - 0,66 USD
Cost per GCD 99,5% = 16362 GCD: 0,625 - 0,65 USD

80 USD 304,5mm² GCD + 8 X MCD 0,65USD ~ 85,2 USD

Man könnte jetzt noch die kompletten Package-Kosten für 7900XTX 24GB und 7900GRE 16GB ausrechnen.

Die Fragen sind:

Kann Samsung SF4P überhaupt in hoher Ausbeute liefern?
Die Antwort ist NEIN.

Kann Samsung SF4P überhaupt TSMC 5nm überholen?
Die Antwort ist wahrscheinlich ja.

Kann Samsung SF4P überhaupt billiger als TSMC 4nm liefern?
Die Antwort ist NEIN.

Kann AMD mit Samsung SF4P mit RDNA3 besser sein als TSMC 4nm?
Die Antwort ist NEIN.

Kann AMD mit Samsung SF4P mit RDNA3 besser sein als TSMC 3nm?
Die Antwort ist NEIN.

Nehmen wir mal an, Samsung baut ein RDNA3 31XTX "Monolitisch" mit SF4P. Der Chip wird dann wie groß bei ~57,7 Mrd. Transistoren?

Die Antwort ist NEIN, weil zu (groß) teuer für die Kunden. AMD hat keine Strategie für 1500-2000 USD Gaming-GPUs.

Ein hypotetischer RDNA3 "refresh" ist einzig eine "RX 7950XTX 3,0Ghz Edition." mit 192MB IF$, also mehr IF$, mehr Takt, mehr Bandbreite. +20-30% Leistung ggü. MBA 7900XTX ~2,5Ghz

Also reiner Brute-Force-Chip für den Halo-Effekt 3,0Ghz. AMD wird sicherlich überlegen so einen Chip rauszubringen, um zumindest die Raster-Krone bei sich im Haus zu haben (bei 600W). So eine "3Ghz Karte" gibt es schon als Asrock Aqua 7900XTX mit knapp 3Ghz Takt. Aber wenn man ehrlich ist: Wie hoch sind die Käufe in diesem Preisbereich (>1500 USD)?

Bei MF: >1500€ AMD-GPU
80 Sales für Power-Color 7900XTX Liquid Devil
40 Sales für Asrock Aqua 7900XTX OC

Bei MF: ~1000-1100€ AMD-GPU
>1000 Sales für Sapphire Nitro+ 7900XTX
>2000 Sales für XFX Merc 310 7900XTX

Die Marktbreite (Asien) wird mit der billigen 7900 GRE 16GB gemacht.

Ich würde mich sehr freuen über eine "7950XTX 3,0Ghz 192MB IF$" Edition, im aktuellen Marktumfeld dann bei Preisen von ~1500€ (knapp unter RTX4090), die sich keiner leisten kann. Da ist die Strategie von AMD die 7900GRE für 649USD / 650€ schon deutlich freundlicher für den gemeinen Gamer.

Seit Raja raus aus AMD ist, gibs keine Hula-Hula-Marketing mehr bei AMD. Su ist da sehr konservativ was die GPU-Sparte angeht:
Preisoptimierung Perf/USD, Kostenoptimierung Perf/Watt, Gaming-freundlich, solide Technik bei AMD statt (nur) Balkenlänge, Leistungskrone, Marketing und big Dick.

Siehe die RX 7900 Golden Rabbit Edition.

Complicated

2023-07-31, 20:41:46

Ja, aber das Timing ist denkbar schlecht. High-NA kommt erst mit TSMCs N2 node, wenn überhaupt. Erst dann ist es durch das reticle Limit notwendig auf Multichip zu gehen. Und nvidia hat sehr gut gezeigt dass man keine Probleme damit hat aus AMDs Fiji - Erfahrungen zu lernen auch ohne dass man sich dabei selber die Hände schmutzig machen musste. V100 hat direkt eine problemfreie HBM Implementierung abgeliefert inkl. Si Interposer etc.

AMDs Highend Chiplet Design ist MI300 - das ganze an N31 fest zu machen, blendet die ganze CDNA-Serie aus.

horn 12

2023-07-31, 20:49:52

Navi 31 , sprich die 7900XT und XTX ist nicht soo schlecht wie von vielen prognostiziert wird.
Sicher, sind nicht komplett effizienz, aber eine 4080 hat man nun immer in der Tasche und teilweise ist man auf 4090 Performance mit wenigen Prozent Rückstand.
Sind aber auch Games dabei wo man knapp an der 4080 scheitert, aber denke der August Treiber (Gamescon) wird vieles ins Lot rücken und da werden auch die N32 Karten präsentiert und September mit FSR 3.0 womöglich aufschlagen.

AMD muss man aber auch Negativ! ankreuzen dass man den Release zu FSR 3.0 viel zu früh (Nov. 23 angepreist) und den Termin nicht halten konnte, oder wollte)
Hoffen wir alle, Was Länge fruchtet,- schlussendlich auch gut wird.

davidzo

2023-08-01, 11:34:15

AMDs Highend Chiplet Design ist MI300 - das ganze an N31 fest zu machen, blendet die ganze CDNA-Serie aus.
Genau, um Erfahrungen mit großen Chiplet GPUs zu sammeln reicht CDNA ja aus. Da hätte man ruhig den Consumermarkt von verschonen dürfen. Die Highend Strategie mit stacked Cache wäre cool gewesen mal in Aktion zu sehen.
Hätte AMD gewusst dass am Ende eh nur 0-Hi MCDs verbaut werden wäre man wohl monolitisch geblieben.

HOT

2023-08-01, 11:44:38

Irgendwie sollte klar sein, dass ein 300mm²-Chip mit MCDs deutlich billiger ist als ein 500mm²+-Chip, warum hätte AMD das Ding unbedingt monolithisch machen sollen? Wegen ein paar W? Das erschließt sich mir nicht... zumal man es ja technisch konnte.

Complicated

2023-08-01, 12:51:18

Hätte, hätte Fahrradkette. AMDs Strategie ist ganz klar und das Chipletdesign wird auch Nvidia innerhalb der nächsten 2 Generationen aufgezwungen werden. Klar kann man jetzt Nvidia als clever bezeichnen und AMD als ineffizient, weil sie Technologie voran treiben. Eine Frage der Haltung würde ich sagen. Im Aktionärsforum wären deine Argumente ebenfalls nur die halbe Wahrheit, hier in einem Techforum feiere ich jeden Step vorwärts bei der IP.

HOT

2023-08-01, 12:58:28

Ich könnt mir gut vorstellen, dass NV auch MCDs machen wird bei BW, jedenfalls bei den Großen. Aber die werden es natürlich anders machen als AMD, beispielsweise ein 400mm²-GCD mit 2 100mm² MCDs mit jeweils 256Bit oder sowas, das ist dann brutto auch wieder 6xx mm².
aber die Zeit der großen Monolithen ist vorbei. Speicherinterfaces sind einfach flächenmäßig zu teuer für 3nm und die Chips müssen schon aufgrund der Yields kleiner werden.

gedi

2023-08-02, 18:43:04

Komisch, dass hier offensichtlich noch nix gepostet wurde, über die nächste Enthuaist-GPU bereits in Q3 dieses Jahr. Wurde gar von Lisa bestätigt! RDNA3->RDNA3.5 done right?

Der_Korken

2023-08-02, 18:49:31

Du hättest ja einen Link da lassen können, damit man weiß worum es geht ;).

Falls du das meinst: https://videocardz.com/newz/amd-confirms-new-enthusiast-class-radeon-rx-7000-gpus-are-to-launch-this-quarter

"We are on track to further expand our RDNA 3 GPU offerings with the launch of new, enthusiast-class Radeon 7000 series cards in the third quarter."
->

Now, you might assume that this implies an update to the RX 7900 series, but that’s not entirely accurate. AMD itself categorizes the RX 7900 models as ‘ultra-enthusiast,’ suggesting that the potential RX 7800 XT might still fall within the ‘enthusiast’ category.

Geht nur um N32, der nach der (imho) erschreckend langsamen 7900GRE sehr underwhelming ausfallen wird.

Achill

2023-08-02, 18:55:14

Komisch, dass hier offensichtlich noch nix gepostet wurde, über die nächste Enthuaist-GPU bereits in Q3 dieses Jahr. Wurde gar von Lisa bestätigt! RDNA3->RDNA3.5 done right?

M.W. gibt es aktuell nur APUs (Strix Point / Halo) die intern auf RDNA3.5 setzen und es ist auch noch nichts bekannt über die Verbesserungen. Da es APUs sind, könnte das .5 auch für Änderungen stehen die Effizienzsteigernd sind, muss ggf. nix gefixt werden wenn überhaupt etwas "kaputt war".

dildo4u

2023-08-03, 07:47:32

Komisch, dass hier offensichtlich noch nix gepostet wurde, über die nächste Enthuaist-GPU bereits in Q3 dieses Jahr. Wurde gar von Lisa bestätigt! RDNA3->RDNA3.5 done right?
Lisa meint vermutlich Navi 32 Preise steigen im High-End macht kein Sinn den Nachfolger zur 7900 zu bringen wenn die Bald die einzige High-End Lösung ist.

https://youtu.be/3o4U8RTMBxA

DrFreaK666

2023-08-03, 10:37:40

Gerücht über RX7500 mit 8GB
https://twitter.com/All_The_Watts/status/1686700892526088192?s=20

Denniss

2023-08-03, 11:58:48

Also ersatz für die 6600

HOT

2023-08-03, 13:22:36

Jo

6600 -> 7500
6600XT -> 7600
6750XT -> 7700
6800XT -> 7800
6900XT -> 7900GRE

Keine XTs mehr für nicht-ultra-enthusiasts, wie AMD die 7900XT/XTX nennt ;).

mczak

2023-08-03, 14:52:34

Rein vom Namensschema her müsste die RX 7500 ja dann deutlich günstiger sein als die RX 7600...
Aber es wird wohl ähnlich sein wie bei RX 6600 / RX 6600 XT, die RX 7500 wird so knapp 15% langsamer sein als die RX 7600 (und damit auch knapp hinter einer RX 6600 XT landen ausser bei RT), bei etwas besserer Effizienz (-20% Energiebedarf), und der Preis wird auch etwa 15-20% günstiger sein.
Gut möglich dass das die billigste Karte dieser Generation sein wird die für Gaming brauchbar ist, wie schon bei der RX 6600 (die RTX 3050 hatte ja keine Chance, und die RTX 3060 war halt deutlich teurer). Kommt auch darauf an ob die RTX 4050 nun mit 6 oder 8 GB Speicher kommt...

DrFreaK666

2023-08-03, 14:57:52

6GB...
Influencer dürfen CP2077 dann vorab in 900p mit DLSS B und FG benchen

Tarkin

2023-08-03, 20:47:51

https://www.powercolor.com/product?id=1689230953&isView=Y

RX 7800 XT Product Page

Der_Korken

2023-08-03, 21:03:15

https://www.powercolor.com/product?id=1689230953&isView=Y

RX 7800 XT Product Page

Einzig neue Infos: 2520Mhz Boost Clock (Silent), 2565Mhz (OC) und 18Gbps Speicher. Selber Takt wie die 7900XTX Red Devil. Niedriger Speichertakt ist natürlich ärgerlich, da die Karte damit weiter von der 7900GRE entfernt ist. Leider keine Angaben zum Verbrauch.

HOT

2023-08-03, 21:54:59

Ah jetzt doch ne xt, verwirrende Markenmarketing alles. AMD verkackt die Namensgebung der 7k genauso wie NV mit Ada.

Der_Korken

2023-08-03, 22:14:07

Stimmt, darauf hab ich gar nicht geachtet. Wenn man von der 7900GRE jetzt nochmal 10% abzieht, könnte AMD es tatsächlich fertig bringen, dass die 7800XT im Schnitt langsamer als der direkte Vorgänger wird. Nachdem Nvidia es mit der 4060/Ti schon geschafft hat bei VRAM-Mangel den Vorgänger zu unterbieten, konnte AMD das wohl nicht auf sich sitzen lassen.

Bin trotzdem mal auf den Verbrauch gespannt. Da N32 nur 62,5% der CUs von N31 hat bei gleichen Taktraten und nur 66,7% des SI/MCDs bei aber 10% weniger Takt (d.h. 60% von N31) wären 222W eigentlich die Effizienz-Baseline. Bestimmt hat AMD das aber auch noch verkackt und die Karte verbraucht 260W.

vinacis_vivids

2023-08-03, 22:19:27

Rücken wir das mal ans rechte Licht:

6950XT ~ 335W
6900XT ~ 300W
6800XT ~ 300W

7900GRE ~ 260W
7800XT ~ 260W

Die 260W sind völlig in Ordnung in Relation zu den anderen Karten.

reaperrr

2023-08-03, 22:29:33

Stimmt, darauf hab ich gar nicht geachtet. Wenn man von der 7900GRE jetzt nochmal 10% abzieht, könnte AMD es tatsächlich fertig bringen, dass die 7800XT im Schnitt langsamer als der direkte Vorgänger wird. Nachdem Nvidia es mit der 4060/Ti schon geschafft hat bei VRAM-Mangel den Vorgänger zu unterbieten, konnte AMD das wohl nicht auf sich sitzen lassen.

Bin trotzdem mal auf den Verbrauch gespannt. Da N32 nur 62,5% der CUs von N31 hat bei gleichen Taktraten und nur 66,7% des SI/MCDs bei aber 10% weniger Takt (d.h. 60% von N31) wären 222W eigentlich die Effizienz-Baseline. Bestimmt hat AMD das aber auch noch verkackt und die Karte verbraucht 260W.
Ich tippe, dass sie das tun werden, weil dadurch zumindest die Minimum- und Average Taktraten schon ein gutes Stück höher ausfallen dürften, als das bei 222-230W der Fall gewesen wäre.

Letztlich ändert der Name ja nichts am P/L, Perf/W usw., aber ja, wenn sie ne Karte mit in jeder Hinsicht (außer Taktraten) niedrigeren Specs und etwas weniger Performance als ne 6800XT dann 7800XT nennen, wäre das marketingtechnisch schon etwas peinlich. Als ob das XT irgendwen zum Kauf bewegen würde, der ohne XT nicht zuschlagen würde.

Linmoum

2023-08-03, 22:30:56

Die 7800XT könnte womöglich sogar langsamer als eine 6800XT sein. Vor diesem Hintergrund wären 260W trotz N5 und neuer Architektur eine Katastrophe.

Man muss sich aber eigentlich keine Illusionen machen. Das Ding wird hochgeprügelt, damit man so weit wie möglich noch an eine GRE herankommen kann. Und wenn es am Ende halt auf Kosten der Effizienz geht. Mehr Performance heißt, man kann höhere Preise verlangen. Verbrauch interessiert die Hersteller dann nicht.

dildo4u

2023-08-03, 22:46:58

Ich denke in dem Bereich wird die Masse Performance vorziehen der Unterschied(4070 7800XT)wäre deutlich kleiner als bei 7600 vs 4060.

reaperrr

2023-08-03, 23:09:56

Ich denke in dem Bereich wird die Masse Performance vorziehen der Unterschied(4070 7800XT)wäre deutlich kleiner als bei 7600 vs 4060.
Was meinst du mit deutlich kleiner?
4% sind nicht gerade viel (https://www.computerbase.de/2023-06/nvidia-geforce-rtx-4060-test/2/#abschnitt_benchmarks_in_fhd_mit_und_ohne_rt_update), und wenn die 7800XT leicht hinter der 6800XT landet, könnten wir einen nahezu identischen Abstand sehen.

Haupt(marketing)vorteil der 7800(XT) sind die 4GB mehr Speicher, ansonsten muss AMD über den Preis kommen, wenn die sich verkaufen soll.

vinacis_vivids

2023-08-03, 23:27:12

AMD wird mit der RX 7800XT 16GB die 599 USD anpeilen (wie die RTX4070 12GB.)
Die 649USD sind ja von der RX 7900 GRE (wie die 6800XT) besetzt.

1099 USD 6950XT -> 999 USD - 7900XTX 96CU 24GB
999 USD 6900XT -> 899 USD - 7900XT 84CU 20GB
649 USD 6800XT -> 649 USD - 7900GRE 80CU 16GB
549 USD 6800 -> 549 USD - 7800XT 60CU 16GB

Angesichts der nur 60CU (62,5%) bei der 7800XT, sind die 80CU (83,3%) bei der 7900GRE sehr sehr attraktiv. Eventuell ist da noch Platz für N31XL 70CU zwischen der 7900GRE und 7800XT.

Das Lineup ist dann so:

7900 XTX 96CU (100%)
7900 XT 84CU (87,5%)
7900 GRE 80CU (83,3%)
7900 70CU ? (72,9%)
7800 XT 60CU (62,5%)
7700 XT 54CU ? (56,2%)
7700 48CU ? (50%)

Das RDNA3-Lineup ist sehr ausgewogen was die faire Skalierung der CUs angeht.

Lurtz

2023-08-03, 23:43:28

Kein Mensch kauft wegen 4 GB VRAM eine Radeon. Wenn der Gegenspieler von nVidia die stärkere Marke, DLSS3 ohne Gegenspieler (jaja der VRAM für FG, wird die Masse nicht interessieren), superduper RTX Raytracing, bessere Effizienz etc. hat.

Die Gen ist komplett verloren für AMD, das kann nVidia auch mit Speicherknauser mal wieder ganz gemütlich nach Hause bringen...

Sieht man ja hier, selbt die wahrscheinlich unausgewogenste Karte im gesamten Ada-Lineup mit lächerlichen 12 GB VRAM für 900€ verkauft sich am besten:
https://wccftech.com/nvidia-geforce-rtx-4090-is-4-times-more-popular-than-amd-radeon-rx-7900-xtx-steam/

Linmoum

2023-08-03, 23:51:59

Zumal AMD das ganze Pulver auch schon wieder verschießt. Alles Vollausbau, während AD106 (4060Ti) und AD103 (4080) leicht beschnitten sind, AD102 mit der 4090 sogar verhältnismäßig deutlich. Da kann man noch mal mühelos nachlegen, wenn man will, ohne die komplette Brechstange rausholen zu müssen.

Ich hoffe inständig, dass N32 weit weg von den 260W der GRE ist und sich nicht von der 6800XT abziehen lässt. Das ist alles noch weniger Mehrwert für den Kunden, als es Nvidia bei Ada ohnehin schon bei 90% des Lineups anbietet.

Der_Korken

2023-08-04, 00:51:34

Die 260W sind völlig in Ordnung in Relation zu den anderen Karten.

260W wären ein Desaster für diese Leistung. Als diese Werte (260W, 280W) hier rumgeisterten, habe ich nicht umsonst zynisch gefragt, ob N32 wohl mit seinem Fullnode-Vorsprung +10% Perf/W schaffen wird oder ob es weniger wird. Die 6800XT ist sogar nur der schlecht gebinnte Salvage von N21, d.h. die 6900XT schafft die 6800XT-Leistung rechnerisch schon bei 275W bzw. wäre bei 300W ca. 8% schneller. Wo würden 260W in Ordnung gehen? 220W wären in Ordnung, 200W wären gut.

Angesichts der nur 60CU (62,5%) bei der 7800XT, sind die 80CU (83,3%) bei der 7900GRE sehr sehr attraktiv. Eventuell ist da noch Platz für N31XL 70CU zwischen der 7900GRE und 7800XT.

Genau, packen wir zwischen zwei Karten, die maximal 10-15% auseinanderliegen doch noch ein weiteres Modell :rolleyes:.

vinacis_vivids

2023-08-04, 01:06:40

Lies nochmal den Beitrag mit den 6800XT 300W usw.

Der_Korken

2023-08-04, 01:19:21

Lies nochmal den Beitrag mit den 6800XT 300W usw.

Habe ich. Dort sehe ich +15% Perf/W bei einer hypothetischen 7800XT mit 6800XT-Performance und 260W. Die ca. 8% effizientere 6900XT drückt den Effizienzgewinn von AMDs 5nm-Gen damit unter +10% gegenüber der 7nm-Gen.

Das ist weniger als N33 in N6 rausgeholt hat. Da hätte AMD lieber einen doppelten N33 in 6N bringen sollen. Das wären <400mm² geworden und 6800XT-Performance hätte man mit 64CUs und 2500Mhz auch in 300W untergebracht. Kompliziertes Packing und 5nm-Wafer wären gar nicht nötig gewesen.

Ich hoffe für N32 das beste, aber die Leaks sehen leider düster aus.

vinacis_vivids

2023-08-04, 01:58:48

7800XT 260W
7900XT 315W
7900XTX 335W

Alles im Rahmen mit Stromverbrauch. Die 260W der 7800XT sind mit den 250W der 6750XT zu vergleichen. Auch die hervorragende N22 wird vom Markt verschwinden. Ginge der Abverkauf schneller, wäre N32 auch früher da gewesen. AMD baut da lieber sicher das RDNA2-Inventar ab und das RDNA3-Inventar auf. Da ist die Marge höher.

Edit Speku:
RX 7950XTX N4P - RX 7970XTX N4P
-IfBnbk6GAE

Ich würde eine RX 7970XTX mit 192MB IF$ bevorzugen.

aceCrasher

2023-08-04, 03:09:29

Die 260W der 7800XT sind mit den 250W der 6750XT zu vergleichen.
Schon traurig dass man eine 5nm Karte mit einer hochgeprügelten 7nm Karte vergleichen muss damit die Effizienz "okay" aussieht :(

dildo4u

2023-08-04, 06:05:16

Habe ich. Dort sehe ich +15% Perf/W bei einer hypothetischen 7800XT mit 6800XT-Performance und 260W. Die ca. 8% effizientere 6900XT drückt den Effizienzgewinn von AMDs 5nm-Gen damit unter +10% gegenüber der 7nm-Gen.

Das ist weniger als N33 in N6 rausgeholt hat. Da hätte AMD lieber einen doppelten N33 in 6N bringen sollen. Das wären <400mm² geworden und 6800XT-Performance hätte man mit 64CUs und 2500Mhz auch in 300W untergebracht. Kompliziertes Packing und 5nm-Wafer wären gar nicht nötig gewesen.

Ich hoffe für N32 das beste, aber die Leaks sehen leider düster aus.
Juckt das die Masse wirklich?
Die Heutige Mainstream Empfehlung ist die 6700XT zu kaufen die hat für Heutige Verhältnisse miese Performance/Watt.
Der Verbrauch wird imo zum Problem wenn man ein neues Netzteil oder größeres Gehäuse braucht, die 7800XT sollte überall passen.
Wenn die Gerüchte Stimmen und die PS5Pro die selben Specs hat ist die 7800XT die Go to Karte wenn man mit den Konsolen bis zur PS6 mithalten will.

HOT

2023-08-04, 07:40:21

Schon traurig dass man eine 5nm Karte mit einer hochgeprügelten 7nm Karte vergleichen muss damit die Effizienz "okay" aussieht :(
Die 7800XT ist ne hochgeprügelte 5nm-Karte, wieso sollte man das nicht vergleichen? Wichtig bei dem Produkt war es die 4070 zu schlagen.

Das einzige zum Aufregen ist diese bescheuerte Namenswahl.

Hatstick

2023-08-04, 09:40:14

Leider besetzt nVidia im 500-600€ Bereich schon zu lange die Positionen, wird bei der Gen bei AMD leider nur über den Preis und mehr Speicher laufen.
Ansonsten leider keine wirklichen Argumente, gerade die 260W finde ich doch sehr hoch und enttäuschend.
Die 7800er wird ab dem 4. Quartal 2024 aber mit Sicherheit wieder für einige, wie jetzt die 6800XT eine günstige Abverkaufskarte werden, wenn nVidia Anfang 2025 mit den großen 5000er Karten kommt und die natürlich wieder saftig ansetzen wird... und AMD natürlich auch dementsprechend wieder hoch ansetzt.

BlacKi

2023-08-04, 10:44:39

Ich würde eine RX 7970XTX mit 192MB IF$ bevorzugen.
jetzt mal als gedankenspiel. wäre es möglich, mal die kosten nicht betrachtet, 12 chiplets an weiterhin 384bit SI anzubinden? oder reichen dazu die verbindungen nicht aus, die aus dem hauptchip kommen?

angenommen die karte kostet 500€ mehr und schlägt die 4090 deutlich, zusammen mit 450w pl?

Man muss sich aber eigentlich keine Illusionen machen. Das Ding wird hochgeprügelt, damit man so weit wie möglich noch an eine GRE herankommen kann. Und wenn es am Ende halt auf Kosten der Effizienz geht. Mehr Performance heißt, man kann höhere Preise verlangen. Verbrauch interessiert die Hersteller dann nicht.

warum dann aber der gleiche langsame speicher der gre? mit 280w und 20gbit speicher hätte man die gre schlagen können und auch gleichzeitig mehr verlangen können. das hätte ich verstanden, und auch für möglich gehalten.

nun muss man die karte wirklich günstiger anbieten, schon allein, weil die 6800xt schon für 500€ zu haben ist.

robbitop

2023-08-04, 10:50:11

Kein N31 (auch nicht mit 192 MiB IF und auch nicht mit den ursprünglich angepeilten 3,2 GHz) würde AD102 schlagen können - im großen Schnitt meine ich (also keine Rosinen). Der Chip ist einfach auch eine Nummer zu klein.

Für 192 MiB hat AMD angeblich eine Konfiguration mit Stacking von MCDs vorgesehen. Du sähest auf dem Package nur 6 MCDs (die aber doppelt übereinander gestapelt sind). Der Memorycontroller vom oberen MCD würde dann nicht mitgenutzt werden sondern nur dessen Cache.

dildo4u

2023-08-04, 10:53:38

Leider besetzt nVidia im 500-600€ Bereich schon zu lange die Positionen, wird bei der Gen bei AMD leider nur über den Preis und mehr Speicher laufen.
Ansonsten leider keine wirklichen Argumente, gerade die 260W finde ich doch sehr hoch und enttäuschend.
Die 7800er wird ab dem 4. Quartal 2024 aber mit Sicherheit wieder für einige, wie jetzt die 6800XT eine günstige Abverkaufskarte werden, wenn nVidia Anfang 2025 mit den großen 5000er Karten kommt und die natürlich wieder saftig ansetzen wird... und AMD natürlich auch dementsprechend wieder hoch ansetzt.
Der Joker könnte FSR sein AMD sollte endlich Verbesserungen bringen die nur auf RDNA3 laufen, die Hardware kann es die Software ist nur hinten dran.

https://abload.de/img/iurjzgwqmznvbqnocbkqpuecle.png

https://www.tomshardware.com/news/stable-diffusion-gpu-benchmarks

E39Driver

2023-08-04, 10:57:11

Wenn die Gerüchte so stimmen halte ich das für keine kluge Idee eine 260 Watt 7800XT nur 50€ Liste unter einer 4070 anzusetzen.

Ich bin selbst eher der pro Radeon Käufer, da ich persönlich den Treiber viel stabiler und moderner finde als dieses W2k Design-Dingens von Nvidia. Aber bei nur 50€ Unterschied würde ich auch sagen nehme ich lieber das bessere Featureset, besseres RT und den niedrigeren Stromverbrauch der 4070 mit und kann auch mit 4GB weniger klarkommen

BlacKi

2023-08-04, 10:58:11

ich denke schon das 500-600mhz mehr core und leicht schnellerer speicher mit doppeltem cache 30% mehr holen könnte. dass ist ja das was zu 4090 fehlt. vl irre ich mich und die karte liegt 5% niedriger.

Hatstick

2023-08-04, 11:09:30

@dildo4u!

Eventl. ein Mini Joker aber nVidia hat DLSS3 und Released. Ich denke, das wird am Ende kein Game Changer sein.
Und die für die meisten der interessante 500-600€ Bereich ist schon zu lange mit den nVidia Karten besetzt, als das sich jetzt alle auf die 7800XT stürzen.
Gibt ja auch kein Grund, wird ne verkappte 6900XT sein.
Wobei man auch realistisch sein muss und auch in der nächsten Gen werden die Argumente pro AMD der etwas kleinere Preis und eventl. mehr Speicher sein.
Vom Komplettpaket hoffe ich es aber glaube nicht, das AMD nVidia da wirklich Feuer machen kann.

dildo4u

2023-08-04, 11:13:08

Spekulation aber Sony könnte RDNA3 für eine PS5 Pro nutzen FSR3 könnte dann Standard werden.
Der Konsolen Refrech macht imo nur sinn wenn man wieder 60 oder 120fps mit Framegen erreichen kann wenn die normale PS5 mehr 30fps Games bekommt.

HOT

2023-08-04, 11:57:04

Der Joker könnte FSR sein AMD sollte endlich Verbesserungen bringen die nur auf RDNA3 laufen, die Hardware kann es die Software ist nur hinten dran.

https://abload.de/img/iurjzgwqmznvbqnocbkqpuecle.png

https://www.tomshardware.com/news/stable-diffusion-gpu-benchmarks
ROCm soll doch im Herbst ganz normal im RDNA3-Treiber enthalten sein. Vielleicht braucht man das für FSR3?

Der_Korken

2023-08-04, 12:12:36

Juckt das die Masse wirklich?

Die Masse juckt vieles nicht, wie z.B. lärmende Kühler, Spulenrasseln oder 100W Verbrauch aufm Desktop, aber das heißt noch lange nicht, dass man technische Nichtentwicklungen nicht kritisieren sollte.

Die 7800XT ist ne hochgeprügelte 5nm-Karte, wieso sollte man das nicht vergleichen? Wichtig bei dem Produkt war es die 4070 zu schlagen.

Die 7800XT scheint nicht mal hochgeprügelt. Zumindest hat die Red Devil den gleichen Boost-Takt wie die Red Devil 7900XTX. Deswegen nehme ich stand jetzt erstmal an, dass die auch in der Praxis gleich takten.

ich denke schon das 500-600mhz mehr core und leicht schnellerer speicher mit doppeltem cache 30% mehr holen könnte. dass ist ja das was zu 4090 fehlt. vl irre ich mich und die karte liegt 5% niedriger.

Techpowerup hatte damals max. OC bei der TUF getestet: https://www.techpowerup.com/review/asus-radeon-rx-7900-xtx-tuf-oc/39.html

Ungefähr 13-15% mehr Leistung als die stock 7900XTX bei 3,2Ghz GPU-Clock und 22,4Gbps VRAM. Da fehlt einfach zu viel zur 4090, selbst verdoppelter IF$ würde imho maximal 10% rausholen, eher weniger. Wenn man dann noch bedenkt, dass die 4090 nur 128 von 144SMs hat und nur 72 von 96MB L2-Cache, dann ist AD102 völlig unerreichbar.

BlacKi

2023-08-04, 12:40:26

gegen eine 4090ti würds niemals reichen.

aber das OC ergebniss zeigt doch schon, das mit entsprechend cache die 4090 geschlagen werden könnte, erst recht mit nochmal 50-100w mehr.

cyberpunkt entspricht etwa dem durchschnitt aller spiele im test.

Der_Korken

2023-08-04, 17:52:18

gegen eine 4090ti würds niemals reichen.

aber das OC ergebniss zeigt doch schon, das mit entsprechend cache die 4090 geschlagen werden könnte, erst recht mit nochmal 50-100w mehr.

cyberpunkt entspricht etwa dem durchschnitt aller spiele im test.

Bei CB ist die 4090 in CP77 4K 33% schneller als die 7900XTX und 30% im Schnitt über alle Games (alles ohne RT). Mit 3,2Ghz und 192MB IF$ würde sie auf 5-10% rankommen, aber auch klar über 500W verbrauchen, wenn man die üblichen Margen bei der Spannung draufschlägt. Man kann nicht an eine bei Spannung X ans Maximum übertaktete Karte in dem Zustand verkaufen.

Ja, man wäre gar nicht mal so weit entfernt, aber >500W wollen die wenigsten im Gehäuse haben und wenn man RT mit in die Rechnung nimmt, ist man plötzlich wieder näher an der 4080 als an der 4090 dran - trotz >500W. AMD hat sich wohl gesagt, dass so ein Modell nicht lohnt.

Thunder99

2023-08-04, 18:16:50

Wieso AMD kein 70CU Variante bringt uns als XT vermarktet ist mir schleierhaft. Da ja Dual Issue nicht so viel bringt sind ja die 60CU echt knapp bemessen für die 7800XT...

Oder will man bewusst die 800er Serie schlechter machen um besser mit der 900Serie Geld zu verdienen?

robbitop

2023-08-04, 18:19:34

ich denke schon das 500-600mhz mehr core und leicht schnellerer speicher mit doppeltem cache 30% mehr holen könnte. dass ist ja das was zu 4090 fehlt. vl irre ich mich und die karte liegt 5% niedriger.

Wie sollen 20% mehr Frequenz zu 30% mehr Leistung führen? N31 ist mit seiner Standardfrequenz nicht bandbreitenlimitiert. Den extra cache bräuchte man dann um trotz der GPU Clock Erhöhung nicht in die Bandbreitenlimitierung zu laufen.
Für +30% bräuchte es mind 750 MHz mehr Takt. Bisschen optimistisch.

Und selbst wenn es reichen würde, bringt NV einfach eine 4090 ti. Man hat ja 12% der Units in der 4090 noch deaktiviert. (nach Ampere Standard wäre die GPU selbst eigentlich eher eine 4080 ^^)

Der_Korken

2023-08-04, 19:46:38

Wieso AMD kein 70CU Variante bringt uns als XT vermarktet ist mir schleierhaft.

Weil man dazu einen 50% größeren Die verwursten muss. Die Yields von N31 sind vermutlich einfach zu gut als dass man den so verramschen würde. Zumal der mit den dann niedrigeren Taktraten höchstens 5% vor dem vollen N32 wäre. Was wollt ihr (d.h. alle die ständig nach 70 CUs schreien) damit? Das ist wie damals mit den 10-Kern-Modellen für Zen 3, die AMD doch bringen sollte als Zwischenschritt zwischen 8 und 12 Kernen.

Rampage 2

2023-08-09, 18:48:00

Irgendwie kann ich mir immer noch keinen Reim daraus machen, was sich AMD bei RDNA3 gedacht hat... dass die RDNA3-Chips deutlich niedriger takten (bzw. bei höherem Takt dann der Stromverbrauch explodiert), als von den AMD-Ingenieuren geplant, mag ja ein HW-Bug gewesen sein aber unabhaengig davon gibt es noch andere fundamentale Schwachstellen an der Architektur: die reale Erhöhung der Recheneinheiten betraegt nur 20% (5120 -> 6144 SPs), da nicht deren Zahl pro WGP verdoppelt wurde, sondern diese lediglich dualissue-faehig gemacht wurden, also theoretisch bzw. nur unter Idealbedingungen doppelten Durchsatz erreichen können - was im Umkehrschluss einen verdammt guten Scheduler und/oder Shadercompiler (bzw. Treiber), aber am Ende auch entsprechende Software/Spiele (deren Code darauf zugeschnitten/optimiert ist) vorraussetzt... den AMD aber anscheinend bei RDNA3 noch nicht hat!

Wie kann man wohlwissend und mutwillig eine neue Architektur ILP-abhaengig machen und in diesem Zustand auf den Markt bringen, obwohl anscheinend noch gar nicht (bzw. nur unzureichend) der entsprechende Unterbau vorhanden ist, um diese theoretische Mehrleistung auch weitgehend auszuschöpfen? :|

Auch bei der Steigerung der RT-Leistung hat AMD definitiv zu wenig getan, obwohl anscheinend bei RDNA3 die RT-Leistung staerker gesteigert wurde als die Rasterizer-Leistung (ggü. RDNA2). Nur 1.5-1.8x RT-Leistung ist einfach viel zu wenig, um mit Nvidia mithalten (geschweige denn zu Nvidia aufholen) zu können. 2-2.5x bzw. durchgehend 2x im Durchschnitt haette es schon wenigstens sein müssen. Aber wenigstens hat jetzt auch RDNA3 echte RT-Einheiten, korrekt? Oder laufen die immer noch über die TMUs?

R2

vinacis_vivids

2023-08-09, 19:01:23

Einfach die HLSL-Shader für RT-Shading bei CP2077 auf fp16 rechnen lassen statt fp32 und das RT-Problem hat sich für AMD erledigt.

Ist ähnlich wie Tesselation. Warum mehr Transistoren verbauen, die der Nutzer weder zahlen noch großartig nutzen will?

Bessere KI-NPCs statt nur die beschränkte Nutzung von KI als optischen Filter.

Rampage 2

2023-08-09, 19:49:34

Einfach die HLSL-Shader für RT-Shading bei CP2077 auf fp16 rechnen lassen statt fp32 und das RT-Problem hat sich für AMD erledigt.

Ist ähnlich wie Tesselation. Warum mehr Transistoren verbauen, die der Nutzer weder zahlen noch großartig nutzen will?

FP32-Shading gibt es nicht ohne Grund - möglicherweise führt Shading mit nur FP16-Genauigkeit in bestimmten Situationen zu Qualitaetsverlust. Nvidia hat schon Anfang 2003 (vor über 20 Jahren...) mit der GeForce FX versucht, FP32 zu pushen - wurde dann auch 1 Jahr spaeter (Mitte 2004) offiziell eingeführt mit DX9.0c (Shader Model 3.0).

Bessere KI-NPCs statt nur die beschränkte Nutzung von KI als optischen Filter.

Laesst sich das überhaupt wortgemaess auf KI-Berechnungen übertragen? Also die Nutzung von KI-Recheneinheiten für die Steuerung von NPCs bzw. Spiele-KI? :confused:

R2

][immy

2023-08-09, 19:49:47

Irgendwie kann ich mir immer noch keinen Reim daraus machen, was sich AMD bei RDNA3 gedacht hat... dass die RDNA3-Chips deutlich niedriger takten (bzw. bei höherem Takt dann der Stromverbrauch explodiert), als von den AMD-Ingenieuren geplant, mag ja ein HW-Bug gewesen sein aber unabhaengig davon gibt es noch andere fundamentale Schwachstellen an der Architektur: die reale Erhöhung der Recheneinheiten betraegt nur 20% (5120 -> 6144 SPs), da nicht deren Zahl pro WGP verdoppelt wurde, sondern diese lediglich dual-issue faehig gemacht wurden, also theoretisch bzw. nur unter Idealbedingungen doppelten Durchsatz erreichen können - was im Umkehrschluss einen verdammt guten Scheduler und/oder Shadercompiler (bzw. Treiber), aber am Ende auch entsprechende Software/Spiele (deren Code darauf zugeschnitten/optimiert ist) vorraussetzt... den AMD aber anscheinend bei RDNA3 noch nicht hat!

Wie kann man wohlwissend und mutwillig eine neue Architektur ILP-abhaengig machen und in diesem Zustand auf den Markt bringen, obwohl anscheinend noch gar nicht (bzw. nur unzureichend) der entsprechende Unterbau vorhanden ist, um diese theoretische Mehrleistung auch weitgehend auszuschöpfen? :|

Auch bei der Steigerung der RT-Leistung hat AMD definitiv zu wenig getan, obwohl anscheinend bei RDNA3 die RT-Leistung staerker gesteigert wurde als die Rasterizer-Leistung (ggü. RDNA2). Nur 1.5-1.8x RT-Leistung ist einfach viel zu wenig, um mit Nvidia mithalten (geschweige denn zu Nvidia aufholen) zu können. 2-2.5x bzw. durchgehend 2x im Durchschnitt haette es schon wenigstens sein müssen. Aber wenigstens hat jetzt auch RDNA3 echte RT-Einheiten, korrekt? Oder laufen die immer noch über die TMUs?

R2

Sieht fast so aus als würde es noch auf die alte Art laufen, sonst verstehe ich den Umbau nicht, bei den bischen Steigerung was schon von anderen Verbesserungen kommen kann.
Auch die AI Cores sind quasi noch ungenutzt mit an Bord. Kann natürlich sein das fsr 3 einfach noch fehlt um das auch zu nutzen.

The_Invisible

2023-08-09, 20:01:35

Einfach die HLSL-Shader für RT-Shading bei CP2077 auf fp16 rechnen lassen statt fp32 und das RT-Problem hat sich für AMD erledigt.

Ist ähnlich wie Tesselation. Warum mehr Transistoren verbauen, die der Nutzer weder zahlen noch großartig nutzen will?

Bessere KI-NPCs statt nur die beschränkte Nutzung von KI als optischen Filter.

Du bist ja derjenige der behauptet bei Nvidia mit DLSS fp16 entstehen Rundungsfehler und bei AMD ist in diesem Beispiel natürlich wieder alles gut ;D

Hach, immer wieder herrlich hier :D

ChaosTM

2023-08-09, 20:07:05

@Rampage - RDNA3 war der erste Versuch einer Chiplet basierenden GPU. Hat halt nicht ganz so gut funktioniert wie erwartet/geplant. Mal abwarten wie sich die 2. Iteration schlägt.
Die ersten Chiplet Ryzens waren zwar ok, aber auch nicht wirklich Top.

dargo

2023-08-09, 20:14:31

@Rampage - RDNA3 war der erste Versuch einer Chiplet basierenden GPU. Hat halt nicht ganz so gut funktioniert wie erwartet/geplant. Mal abwarten wie sich die 2. Iteration schlägt.
Die ersten Chiplet Ryzens waren zwar ok, aber auch nicht wirklich Top.
Imho liegt das nicht am Chipletdesign, zumindest nicht hauptsächlich. Siehe RX7600 vs. RX6650XT, nahezu Stillstand bei neuer GPU-Gen mit 32 CUs.

Linmoum

2023-08-09, 20:32:25

@Rampage - RDNA3 war der erste Versuch einer Chiplet basierenden GPU. Hat halt nicht ganz so gut funktioniert wie erwartet/geplant. Mal abwarten wie sich die 2. Iteration schlägt.
Die ersten Chiplet Ryzens waren zwar ok, aber auch nicht wirklich Top.Zen2 hat dadurch alles von Intel in Grund und Boden gestampft, egal ob es durch die >=12C im Desktop, Threadripper oder Rome war. Sei es bei der MC-Performance oder der Effizienz. 1T-/Spieleperformance hat(te) nichts mit Chiplets zu tun.

In der Form ergibt das alles erst Sinn bei der Nutzung von mehreren GCDs. Was bei Grafikkarten noch einmal etwas völlig anderes als bei CPUs ist, insbesondere für Spiele. Das sehe ich bei RDNA4 nach aktuellem Stand auch kaum, das wird vermutlich eher Richtung größeres GCD + uarch-Verbesserungen gehen und fertig. Die 300mm² von N31 sind ein Witz, da kann man noch deutlich mehr rausholen, sofern das im Interesse von AMD ist. Den Eindruck hat man bei RDNA aber irgendwie überhaupt nicht, zumal sie nicht einmal den TTM-Vorteil trotz Chiplets ausspielen können, was man eigentlich vermuten würde. Gerade, weil die MCDs in beiden Fällen wiederverwendet werden. Am Ende sind es aber wahrscheinlich 9 Monate, die zwischen dem Launch von N31 und N32 liegen. Das zeigt mir eigentlich eher, dass AMDs Interesse an/für dGPUs verschwindend gering ist und die Prioritäten klar woanders liegen. Gut für AMD und ihre Margen, schlecht für den Markt und die Kunden. Und unter Umständen auch zukünftige Produkte.

dargo

2023-08-09, 20:39:40

Die 300mm² von N31 sind ein Witz, da kann man noch deutlich mehr rausholen, sofern das im Interesse von AMD ist.
Kann man nicht, jedenfalls nicht mit RDNA3. Schon diese SKU inkl. den MCDs säuft ist eher eine um die 400-450W SKU, wurde nur auf 355W stark eingebremst damit es nicht noch übler aussieht. Was soll AMD dann mit bsw. einem 400mm² GCD @RDNA3 Architektur? Die 600W anpeilen? :freak:

vinacis_vivids

2023-08-10, 00:13:48

Du bist ja derjenige der behauptet bei Nvidia mit DLSS fp16 entstehen Rundungsfehler und bei AMD ist in diesem Beispiel natürlich wieder alles gut ;D

Hach, immer wieder herrlich hier :D

Schau dir doch die KI-Fake-Farben bei Nvidia an, ab 7:45

bqmUKnLeHKo

Nvidia manipuliert das Bild mit einem fehlerhaften optischen Filter bei der Farbpräzision.

Probleme mit Banding und Fake-Farben (Color-Buffer-Precision) hat Nvidia schon seit 2016 mit HDR. Jetzt kommen noch fehlerhafte optische KI-Filter hinzu inkl. Artefakte.

SLI-Ruckeln wieder mit Frame-Generation eingeführt. Die Technick von Nvidia ist ein Witz, ich kann mir keinen größeren Absturz vorstellen.

Dino-Fossil

2023-08-10, 00:24:50

Imho liegt das nicht am Chipletdesign, zumindest nicht hauptsächlich. Siehe RX7600 vs. RX6650XT, nahezu Stillstand bei neuer GPU-Gen mit 32 CUs.

Sehe ich auch so. RDNA3 ist auch monolithisch kein besonders großer Fortschritt ggü. RDNA2. Zwar dürfte ein hypothetischer N33 @N5 fertigungsbedingt ein wenig besser abschneiden, aber Wunder würde ich mir auch da nicht erwarten. Die Chiplets jedenfalls dürften nicht der (wesentliche) Grund für die teils eher durchschnittlichen Eigenschaften von RDNA3 sein.

HOT

2023-08-10, 13:31:22

Bezüglich der N36-Geschichte auf 3DC Hauptseite heute:
130CUs dürften nicht stimmen, 512Bit erst recht nicht. Man wird ja so wenig ändern wie möglich und soviel wie nötig. Da ein SE offenbar bis zu 12WGP nutzen kann, wird N36 dann eher 6 SEs weiterhin haben (und die bisherigen 6 MCDs, gleiches Package-Pinout wie N31, vielleicht dann 24GT/s RAM oder 3D-Cache) und damit 6x 12WGP = 144CUs, wie den APUs dürften die ineffizienten RDNA3-ALUs durch RDNA4-sALUs ersetzt worden sein. Ansonsten kann man alles weiterverwenden wie bisher.

Ich fänds total drollig, wenn wie hinterher einen 144CU-RDNA3-Chip mit 450W mit ner 4090Ti mit 144SMs vergleichen könnte...

robbitop

2023-08-10, 13:38:46

RGT sagte ja selbst, dass N36 nicht kommen wird und man nur intern daran geforscht hat.

HOT

2023-08-10, 13:42:07

Nein er sagt, dass er daran nicht glaubt, sonst nichts, da er das nur von einer Quelle hat. Alles weitere sind Spekus von ihm.
Ich hatte das nur aufgebracht, weil mit Leos Daten hier nicht passten ;).

robbitop

2023-08-10, 13:48:45

Er sagt ein paar Sekunden später eine Quelle sagte es sei nur intern getestet worden und die Quelle glaubt es wird nicht releast und die andere Quelle sagte es gab das Projekt wurde aber gecanclet.
Also sehen es beide Quellen so, dass es (wenn auch aus potenziell anderen Gründen) nicht releast wird.

HOT

2023-08-10, 13:55:26

Mir doch egal, ob das Teil kommt oder nicht, darum gings mir gar nicht.

robbitop

2023-08-10, 15:17:41

:| Und warum redest du denn dagegen?

reaperrr

2023-08-10, 16:42:05

Bezüglich der N36-Geschichte auf 3DC Hauptseite heute:
130CUs dürften nicht stimmen, 512Bit erst recht nicht. Man wird ja so wenig ändern wie möglich und soviel wie nötig. Da ein SE offenbar bis zu 12WGP nutzen kann, wird N36 dann eher 6 SEs weiterhin haben (und die bisherigen 6 MCDs, gleiches Package-Pinout wie N31, vielleicht dann 24GT/s RAM oder 3D-Cache) und damit 6x 12WGP = 144CUs, wie den APUs dürften die ineffizienten RDNA3-ALUs durch RDNA4-sALUs ersetzt worden sein. Ansonsten kann man alles weiterverwenden wie bisher.

Ich fänds total drollig, wenn wie hinterher einen 144CU-RDNA3-Chip mit 450W mit ner 4090Ti mit 144SMs vergleichen könnte...
Es gab mal vor ca. 2 Jahren Berichte von einem Chip mit 16384 ALUs, was 128 CUs (also wohl 8 SEs) entspräche.
512bit halte ich ebenfalls für unwahrscheinlich, dann schon eher ein doppelt so großer L2, stacked IF$, etwas mehr Speichertakt.

Wir reden ja eh nur von 33% mehr CUs, bei vermutlich etwas niedrigerem Takt, das wären in der Praxis wohl ohnehin nur ca. 20% mehr Leistung geworden, wenn überhaupt.

vinacis_vivids

2023-08-10, 18:29:08

Machbar ist es, allerdings sind 128CUs /8SE in 5nm zu teuer bzw. wären zu teuer für den Markt gewesen. Wahrscheinlich auch zu hungrig mit ~600W TBP.

Altehardware

2023-08-10, 20:48:37

Die idee war 2 gcd zu je 7680 alu zu bauen die mit aktiven interposer kommunizieren leider klappte das nicht und die Auslastung ging sogar soweit runter das ein crossfire gespann schneller wäre also unter 1,7 fp32 per cu.
Geplant hatte man durch die zusätzliche alu usage 2,5 fp32 per cu
Jetzt ist man froh wenn man mit einen gcd 2,34 fp32 per cu schafft was man auch veröffentlicht hat gedacht waren aber 2,6
Die ursache dafür ist der cache auf dem chip der wurde zu stark verkleinert physisch dadurch geht die Datenkonsisitenz flöten.
Die folge ist, ohne hohe Stromzufuhr gibt es Bildfehler.
Die Effizienz ist schon mit dem sekundären fix dahin von geplanten 54% effizienter als rdna2 sind nur noch 15% übrig
Höher takten bringt nix da man zum quadrat ineffizienter wird
quasi dürfte rdna3 bei 2,0ghz das optimum haben in Effizienz und fp32 per cu
Das belegen die laptop Ableger die nur mit 1,5-2,0ghz laufen.

mein verdacht ist das man rdna4 komplett eingestrichen hat nur ein chip bringt mit maxed 60cu und alle sku daraus kommen mit eine refresh des n33 auf n4x
Somit dürfte rx8700xtx 600€ und rx8700xt 500€ geben in mcm
Und ein refresh chip monolithisch mit 32cu aber dann mit dem angedachten Takt von 3,6ghz
Und das als rx8600xtx 32cu 379€ rx8600xt 28cu 319€
Der fix hatte ich schon gepostet wie dieser sein kann. Man muss lediglich den cache physisch um 5% vergrößern.
Man kürzt das SI da es sich sowieso nicht verkleinern kann beim n44 (akä n33 refresh)
Geht auf gddr7 32gbps und 96bit und hat dann etwa 160mm² chip das sollte billig genug sein als entry level gpu.
Die perf dürfte bei 3,2-3,6ghz +- 15tf bis 17tf sein. und das mit 384gb/s bei maximal 379€
Keine guten Aussichten aktuell gibt es das als rx7700 (40cu 2,6ghz ~17tf) für 400€
langsam aber sicher wird klar was man plant bis man n2x endlich die perf verdoppeln kann.
Am ende ist das stagnation

Der_Korken

2023-08-10, 22:07:39

Den Teil mit der fehlenden "Datenkonsistenz" und dem verkleinerten Cache verstehe ich zwar immer noch nicht, aber beim ersten Satz mit 2x7680SPs fällt mir das Gerücht wieder ein, dass im Sommer 2022 noch umhergeisterte. Ich hielt das immer für Quatsch, denn warum sollte man 120CUs als Dual-Karte bringen, wenn man schon eine 96er GPU hat, die einen zentralen Command Processor haben wir und somit besser skaliert? Der Leistungsspruch wäre sehr gering, unter 20% vermutlich.

Allerdings: Wenn N32 ursprünglich dafür gebaut wurde, um als Dual-GPU zu laufen, frage ich mich, ob die GPU deswegen so spät kommt, weil sie zusätzliche IP enthält oder weil die Pläne irgendwann während der Entwicklung geändert und Teile entfernt wurden, damit der Die kleiner bleibt.

vinacis_vivids

2023-08-10, 22:26:47

Dual-Karte mit 2X60 CU gibs schon seit RDNA2:
AMD könnte auch Dual-RDNA3 bauen...

https://abload.de/img/amd-radeon-pro-w6800xtfif8.jpg

https://abload.de/img/amd_radeon_pro87l8iwd.jpg

Was ist das Problem? Zu teuer! AMD baut keine >1000 USD Gaming-Grafikkarten (außer für Apple) für den Desktop-PC.

Linmoum

2023-08-10, 22:33:04

AMD hat auch nie solche "Gaming-Grafikkarten" für Apple gebaut. Noch mal verinnerlichen und das entscheidende Wort verstehen: Gaming.

vinacis_vivids

2023-08-10, 22:54:51

Die Gamer am PC bezahlen AMD nicht gut genug. Da ist es folgerichtig keine Dual-Gaming Karte zu bauen.

ianm

2023-08-10, 23:08:54

Die Gamer am PC bezahlen AMD nicht gut genug. Da ist es folgerichtig keine Dual-Gaming Karte zu bauen.
Schwachsinn. Sobald AMD vernünftige Produkte zu angemessenen Preisen liefert wird auch gekauft. Das einzige was AMD seit Jahren liefert ist mehr VRAM.

Und das sage ich als jemand der eine AMD Karte kaufen möchte. Ein wenig Hoffnung habe ich noch für die 7800XT, wenigstens 6800XT Leistung, besseres RT und um die 200W für ~500 Euro. Aber ich wette auch da findet AMD einen Weg den Launch zu versauen.

MSABK

2023-08-10, 23:28:58

Schwachsinn. Sobald AMD vernünftige Produkte zu angemessenen Preisen liefert wird auch gekauft. Das einzige was AMD seit Jahren liefert ist mehr VRAM.

Und das sage ich als jemand der eine AMD Karte kaufen möchte. Ein wenig Hoffnung habe ich noch für die 7800XT, wenigstens 6800XT Leistung, besseres RT und um die 200W für ~500 Euro. Aber ich wette auch da findet AMD einen Weg den Launch zu versauen.

Von 200W würde ich mich verabschieden, unter 260W wird es da nichts geben.

ianm

2023-08-11, 08:25:26

Die 7900 GRE soll 260W verbrauchen, da hoffe ich schon das die 7800xt drunter liegt.

TheGood

2023-08-11, 20:12:11

Schwachsinn. Sobald AMD vernünftige Produkte zu angemessenen Preisen liefert wird auch gekauft. Das einzige was AMD seit Jahren liefert ist mehr VRAM.

Und das sage ich als jemand der eine AMD Karte kaufen möchte. Ein wenig Hoffnung habe ich noch für die 7800XT, wenigstens 6800XT Leistung, besseres RT und um die 200W für ~500 Euro. Aber ich wette auch da findet AMD einen Weg den Launch zu versauen.
Der MArkt sagt was völlig anders. RDNA2 war eigetnlich das besser Produkt, wenn es nicht um Raytracing ging, aber gekauft hats trotzdem niemand.
DAs ist die Welt.

AMD müsste tatsächlich 2-3 generation top abliefern, dann würde sich dsa ändern. War ja bei Zen auch nicht anders.
GEnau das schaffen sie aber leider nicht. Wirklich schade. Wenn RDNA3 gut geworden wäre, dann hätte es klappen können. Zumindest mit RNDA 4.
Leider gibts irgendein Problem beim stromverbrauch, wenn das nichtw äre, würde es ganz anders aussehen.

robbitop

2023-08-11, 21:54:50

Kein vernünftiges RT und kein DLSS. Und bei Raster genausoschnell wie Ampere. Insofern leider noch hinten gewesen in Summe. Und RDNA2 war eine der besten Generationen für AMD in den letzten 10 Jahren.

ianm

2023-08-11, 21:57:20

Der MArkt sagt was völlig anders. RDNA2 war eigetnlich das besser Produkt, wenn es nicht um Raytracing ging, aber gekauft hats trotzdem niemand.
DAs ist die Welt.

AMD müsste tatsächlich 2-3 generation top abliefern, dann würde sich dsa ändern. War ja bei Zen auch nicht anders.
GEnau das schaffen sie aber leider nicht. Wirklich schade. Wenn RDNA3 gut geworden wäre, dann hätte es klappen können. Zumindest mit RNDA 4.
Leider gibts irgendein Problem beim stromverbrauch, wenn das nichtw äre, würde es ganz anders aussehen.
Der Markt war Dank Crypto 2020/21 total kaputt. 1000 Euro und mehr für was früher eher oberes Mittelfeld gewesen ist. Miner kaufen alles leer und Scalper tun ihr übriges. Ich denke beide GPU Hersteller haben gut verdient, nur leider gedacht das geht ewig so weiter. Bis zum Crypto Crash bzw. der Umstellung auf proof-of-stake bei Euthereum.

Dann saßen beide auf Bergen "alter" Hardware, darum sind auch die 40er Serie und RDNA3 so scheisse eingeordnet bzw. verfügbar. Man wollte die Lager leer bekommen.

Nvidias Marktanteil tut sein übrigens und Features wie DLSS sind noch besser als AMDs Counterpart. Ich stimme dir zu, AMD brächte Wins über mehrere Generationen und hoffe das kommt auch. Allerdings ist mit AI schon die nächste Blase(~ ?) am Himmel, welche viel mehr Gewinn verspricht als die Gaming Sparte normal abwirft.

Btt, ich hoffe trotzdem auf ein 7800XT Sidegrade für 500 Euro, was sich mit UV bei 200W betreiben lässt. Dazu Starfield, der Verkauf meiner 3070 und ich kann den Kauf für mich rechtfertigen. Oder AMD haut doch wieder daneben und es wird eine 4070 bis 2025.

OgrEGT

2023-08-11, 22:24:19

(...)

Btt, ich hoffe trotzdem auf ein 7800XT Sidegrade für 500 Euro, was sich mit UV bei 200W betreiben lässt. Dazu Starfield, der Verkauf meiner 3070 und ich kann den Kauf für mich rechtfertigen. Oder AMD haut doch wieder daneben und es wird eine 4070 bis 2025.

Das wird davon abhängen, wieviel TBP die 7800XT haben wird. Wenn es 260W sind dann geht es RDNA3 typisch bis 234W (-10%). Weit kann man mit der Spannung auch nicht runter, da dann der Boosttakt noch höher geht und es mit immer niedrigerer Spannung dann instabil wird... Zusätzlich könnte man die fps begrenzen, was je nach Auflösung und Freesync Bereich ohnehin Sinn macht...

TheGood

2023-08-12, 07:17:31

Kein vernünftiges RT und kein DLSS. Und bei Raster genausoschnell wie Ampere. Insofern leider noch hinten gewesen in Summe. Und RDNA2 war eine der besten Generationen für AMD in den letzten 10 Jahren.
Zwei Themen die für den Großteil der spiele nicht relevant sind.

Und der STromverbrauch, vor allem mi mittellast betrieb lässt man wieder völlig aussenvor, da das nur interessant ist wenn Nvidia da vorne liegt und dann auf einmal zum Buzzword wird :D

MEhr VRAM sodass die lösungen heute noch gut funktionieren nicht so wie die ein oder andere Nvidia Karte.
Der Kunde hatte von der RDNA2 Lösungen deutlich mehr fürs Geld bekommen.

TheGood

2023-08-12, 07:19:09

Der Markt war Dank Crypto 2020/21 total kaputt. 1000 Euro und mehr für was früher eher oberes Mittelfeld gewesen ist. Miner kaufen alles leer und Scalper tun ihr übriges. Ich denke beide GPU Hersteller haben gut verdient, nur leider gedacht das geht ewig so weiter. Bis zum Crypto Crash bzw. der Umstellung auf proof-of-stake bei Euthereum.

Dann saßen beide auf Bergen "alter" Hardware, darum sind auch die 40er Serie und RDNA3 so scheisse eingeordnet bzw. verfügbar. Man wollte die Lager leer bekommen.

Nvidias Marktanteil tut sein übrigens und Features wie DLSS sind noch besser als AMDs Counterpart. Ich stimme dir zu, AMD brächte Wins über mehrere Generationen und hoffe das kommt auch. Allerdings ist mit AI schon die nächste Blase(~ ?) am Himmel, welche viel mehr Gewinn verspricht als die Gaming Sparte normal abwirft.

Btt, ich hoffe trotzdem auf ein 7800XT Sidegrade für 500 Euro, was sich mit UV bei 200W betreiben lässt. Dazu Starfield, der Verkauf meiner 3070 und ich kann den Kauf für mich rechtfertigen. Oder AMD haut doch wieder daneben und es wird eine 4070 bis 2025.

Was soll der mehrwert dieses Sidegrades denn sein? Wer eine Graka der letzten Generation hat kann sich schön zurücklegen und der Dinge der nächsten GEneration harren. Alles andere ist aus ökonomischer Sicht, blödsinn.

ianm

2023-08-12, 09:09:58

Was soll der mehrwert dieses Sidegrades denn sein? Wer eine Graka der letzten Generation hat kann sich schön zurücklegen und der Dinge der nächsten GEneration harren. Alles andere ist aus ökonomischer Sicht, blödsinn.
Es ist ein Hobby, da macht eine ökonomische Betrachtung keinen Sinn. Der Mehrwert wäre vor allem mehr VRAM und Starfield, was ich sowieso kaufen möchte. FSR3 soll im September kommen, vielleicht hinterlässt das ebenfalls einen positiven Eindruck.

Andererseits spiele ich momentan relativ wenig am PC. Diablo 4 ist enttäuschend, BG3 werde ich mir noch besorgen, die Reihe habe ich früher sehr gerne gespielt. Divinity: OS2 habe ich seit Jahren auf der Platte, aber komme nicht dazu. Das wäre vorher dran. Vielleicht gucke ich auch nochmal in WoW rein, da braucht es auch kein Upgrade. Phantom Liberty dagegen wird der Knackpunkt werden.

Rational darf man da nicht ran gehen, da gebe ich dir Recht. 2025 ist aber noch weit weg.

TheGood

2023-08-12, 17:19:08

Die Argumentation von Hobby und ökonomischer Betrachtung macht keinen Sinn, höre ich in der Zwischenzeit irgendwie dauernd. Aber so recht will es mir nicht einleuchten. Vor allem, dann wenn nicht viel besseres dabei rausspringt. Von dem mal abgesehen geht es ohne ökonomischer Betrachtung ja gar nicht, ausser man hat genügend Geld auf dem Konto.

natprlich gibt man für ein hobby mehr geld aus und ist bei manchen Dingen weniger kritisch, aber das Hobby ist ja computerspiele zu spielen und nicht jedes Jahr neu neue Graka zu kaufen. Das ist das notwendige übel und dafür gebe ich nicht unsummen geld für kaum mehrleistung ab, weil es einfach unfug ist.

ianm

2023-08-13, 00:09:14

Richtig, du machst das nicht, weil es für dich keinen Sinn macht. Bei mir kann das aber ganz anders aussehen. Die Entscheidung treffe ich dann wenn ich weiß, wo die 7800xt landet. Dann erkläre ich auch gerne, warum das für mich Sinn macht.

robbitop

2023-08-13, 09:15:34

Zwei Themen die für den Großteil der spiele nicht relevant sind.

Und der STromverbrauch, vor allem mi mittellast betrieb lässt man wieder völlig aussenvor, da das nur interessant ist wenn Nvidia da vorne liegt und dann auf einmal zum Buzzword wird :D

MEhr VRAM sodass die lösungen heute noch gut funktionieren nicht so wie die ein oder andere Nvidia Karte.
Der Kunde hatte von der RDNA2 Lösungen deutlich mehr fürs Geld bekommen.

Naja die DLSS und RT Verbreitung schoss schon ordentlich nach oben. In fast jedem neuen Titel gibt es DLSS und auch sehr oft RT.
Und die Ergebnisse sind zT schon ziemlich beeindruckend gewesen. Und da man eine GPU ja nicht nur zum Launch kauft sondern sie auch 2-3 + Jahre nutzen will, war abzusehen, dass DLSS und RT zunehmen wird und man damit besser gewappnet ist.
Deutlich später wurde FSR2 nachgereicht (IMO zu spät- sowas muss zum Launch kommen und nicht 1,5 Jahre später) - und leider bis dato unterlegen. War für mich von der 1080ti kommend (und damit auch FSR2 nutzend) ein riesen Kaufgrund für eine gebrauchte 3080. (Ada war mir viel zu teuer)

Stromverbrauch ist IMO viel weniger interessant als Lautstärke oder Perf/W. RDNA2 war eigentlich nur besser in Perf/W bei der 6900XT. Die 6800XT hat laut CB gleiche Perf/W.
Und wenn man jetzt 10% - also grob 30W beim Spielen pro Stunde spart, dann sind das 1,2 cent. Wer nicht gerade Dauergamer ist für den ist ein so kleiner Vorteil irrelevant. Wenn man mit Stromverbrauch signifikant punkten will, muss der Abstand schon größer sein.

Thunder99

2023-08-13, 15:53:36

Ich befürchte die 7800XT wird verissen werden. Zu spät, zu hoher Stromverbrauch?, zu langsam bzw schneller gegen 6800XT.
Nvidia war ja schon nicht gut aber AMD wird noch schlimmer.
Marketing versucht es zu retten aber macht es noch schlimmer...

robbitop

2023-08-13, 16:03:51

Es kommt alles auf den Preis an. Aber AMD hat anscheined auch kein Interesse mehr mit günstigen Produkten Marktanteile zu holen.

amdfanuwe

2023-08-13, 16:27:38

Die brauchen die Kapazitäten für anderes, lukrativeres.

][immy

2023-08-13, 16:36:20

Ich befürchte die 7800XT wird verissen werden. Zu spät, zu hoher Stromverbrauch?, zu langsam bzw schneller gegen 6800XT.
Nvidia war ja schon nicht gut aber AMD wird noch schlimmer.
Marketing versucht es zu retten aber macht es noch schlimmer...
Vor allem welchen Bereich will man damit besetzen? Nur einen Austausch der letzten Generation?
Zwischen 6800xt und 7900xt ist nicht wirklich so viel Platz zum platzieren (die gre zähle ich mal nicht mit). Die kann also nur enttäuschen. Der Preis kann es allerdings reißen, aber danach sieht's bisher nicht aus.
Sollte man jedoch die Problematik in der Architektur gefunden und behoben haben, sollte die Effizienz deutlich besser sein. Aber dann könnte es zu viel sein, da die 7900 sich schon nicht weit angesetzt hat.

BlacKi

2023-08-13, 16:39:15

Es kommt alles auf den Preis an. Aber AMD hat anscheined auch kein Interesse mehr mit günstigen Produkten Marktanteile zu holen.ich denke, er meint die überschriften der reviews, die oft reißerisch sind.

wenn die 7800xt nur 5% schneller ist als die vorgängerkarte, dann liegt das sehr nahe. hat man bei der 4060 schon so gesehen. dort ist auch ein kritikpunkt der geringe performance uplift gewesen, neben dem vram rückschritt.

horn 12

2023-08-13, 16:42:36

479 Euro für 7800XT wäre ein Klassenschlager und würde NV zum Handeln bewegen müssen.

robbitop

2023-08-13, 17:04:23

ich denke, er meint die überschriften der reviews, die oft reißerisch sind.

wenn die 7800xt nur 5% schneller ist als die vorgängerkarte, dann liegt das sehr nahe. hat man bei der 4060 schon so gesehen. dort ist auch ein kritikpunkt der geringe performance uplift gewesen, neben dem vram rückschritt.

Auch die Überschriften hängen vom Preis ab. 6800XT Leistung für 399€ gibt eine andere Schlagzeile als 699€.

bbott

2023-08-13, 17:46:35

Es kommt alles auf den Preis an. Aber AMD hat anscheined auch kein Interesse mehr mit günstigen Produkten Marktanteile zu holen.
Hat in der Vergangenheit auch nie Funktioniert, Kunden haben's AMD gedankt und zu günstigeren Preisen NV gekauft.
Der Marktanteil ist nur gestiegen, wenn ATI/AMD deutlich bessere Performance lieferte bei vergleichbaren oder geringeren Stromverbrauch.

robbitop

2023-08-13, 20:30:28

Bei Polaris hat das sehr gut funktioniert.

Thunder99

2023-08-13, 21:16:36

Der Preis wird sicher nicht niedrig sein. Es wird eine Wachablösung sein, was mehr als enttäuschend ist bei dem Namen. Als 7700XT würde es verschmerzbar sein...

Ist jetzt alles noch Spekulation aber die Vorzeichen sehen da nicht gut aus.

Gut wäre, im aktuellen Stand, 200W bei 20% mehr Speed.

robbitop

2023-08-14, 08:44:53

Für 399 € wäre es jedenfalls ein feines Kärtchen - insbesondere wenn sie es mit FSR3 launchen können. Und das wäre dann so wie vor der ganzen Eskalation die letzten Jahre. Für knapp 400 € bekam man mit der 70 Serie von NV Enthusiastleistung der Last Gen.

HOT

2023-08-14, 09:10:49

Ich befürchte die 7800XT wird verissen werden. Zu spät, zu hoher Stromverbrauch?, zu langsam bzw schneller gegen 6800XT.
Nvidia war ja schon nicht gut aber AMD wird noch schlimmer.
Marketing versucht es zu retten aber macht es noch schlimmer...
Ich glaub immer noch nicht, dass die das Ding final wirklich so nennen. Die kommen ja nicht vor Herbst in den Handel, ich könnt mir vorstellen, dass das nochmal geändert wird, schon aufgrund der Reveiws der GRE. Ich kann ja verstehen, dass AMD unbedingt ne 7800XT vermarkten möchte, dann aber mit N31 bitte.

aufkrawall

2023-08-14, 09:16:13

Für 399 € wäre es jedenfalls ein feines Kärtchen - insbesondere wenn sie es mit FSR3 launchen können. Und das wäre dann so wie vor der ganzen Eskalation die letzten Jahre. Für knapp 400 € bekam man mit der 70 Serie von NV Enthusiastleistung der Last Gen.
Wo soll FSR 3 herkommen, wenn selbst dieses vermutlich primitive HYPR-RX (man hätte es auch gleich Hyper-BS nennen können) offenbar im Nichts versandet?
Und vermutlich ist FG noch Hardware-abhängiger als gescheites Upsampling. Da würd ich mal sämtlichen Optimismus für FSR 3 nachhaltig abstellen. Hatte ich dir und basix btw. auch empfohlen, als ihr meintet, AMD könnte in absehbarer Zeit mit einem DL-basierten Gegenstück für Upsampling um die Ecke kommen. ;)

Der gleiche Optimismus verbietet sich auch für die Preise. Da kommt nichts mehr. Man bedient etwas die Fanbase und ein paar Leute, die die 12GB-Karten bei Nvidia abschrecken, und das wars.

Linmoum

2023-08-14, 09:26:53

RDNA3 wurde vermutlich nie mit etwas wie FSR3 im Hinterkopf entwickelt. Das war eine spontane Reaktion, nachdem Nvidia plötzlich FG angekündigt hatte. Was kein Allheilmittel ist, aber je nach Spiel halt trotzdem in die Kategorie "Gamechanger" fällt.

Daher dauert das vermutlich auch so lange, die Ankündigung ist mittlerweile ja bald 10 Monate her. AMD hat vermutlich alle Hände voll damit zu tun, das ohne dezidierte Hardware auch vernünftig lauffähig zu bekommen. Und mit Blick auf die Latenz reicht einfach nur FSR3 auch nicht, da muss zusätzlich noch etwas Reflex-ähnliches kommen. Darauf wartet man ja immer noch.

@HOT
Die Ankündigung ist noch diesen Monat und die Produktseite von PC hat auch ganz klar von einer 7800XT gesprochen. Da werden auch schon die ganzen Kartons und Verpackungen fertig sein. Den Aufwand, das alles zu vernichten und auszutauschen wird es sicherlich nicht geben. Das ist eine 7800XT.

aufkrawall

2023-08-14, 09:35:30

Und mit Blick auf die Latenz reicht einfach nur FSR3 auch nicht, da muss zusätzlich noch etwas Reflex-ähnliches kommen. Darauf wartet man ja immer noch.

Meinst du, AMD sieht das auch so, dass Anti-Lag nicht reichen würde? Würd da nicht drauf wetten.
Eine komplette Reflex-Kopie würde vermutlich Arbeit für das Treiber-Team bedeuten. Es ist angeblich immer noch VR für RDNA3 teilweise schlechter als mit RDNA2, so viele Ressourcen sind bei denen frei für Projekte abseits vom Core-Treiber...

Mal ein Lehrvideo für Erwartungen an AMD :D :
uuZvKPgLc_g

][immy

2023-08-14, 09:48:49

Bei Polaris hat das sehr gut funktioniert.

Polaris konnte noch sehr gut über den Preis punkten, das ist richtig. Aber inzwischen sind wir bei Preisen angelangt, wo man sich als Käufer schon fragt ob sich das Angebot noch lohnt, wenn man quasi "nur" 100€+ mehr ausgibt um eine deutliche Mehrleistung zu bekommen.
Je höher der initiale Preis, desto schneller gerät man als Kunde in diese Preisspirale. Der Miningboom hat die extremen Preise halt salonfähig gemacht.

Damals (und das ist ja schon wieder einige Jahre her) drehten dich die Preise im Bereich von 300€. Da war noch die Frage ob man 20-50€ mehr für nen besseren Kühler ausgibt. Jetzt gibt es in dem Bereich nur noch "Low end" wo man froh sein kann wenn es besser als mit der alten Karte.

Für AMD ist in der Zeit aber viel Kundschaft auch weggebrochen, vor allem im high end segment. Die viel spätere Vega könnte das auch nicht mehr reißen.

Aber ja, es dauert inzwischen fast eine komplette Generation, bis man alle Marktsegmente mit der neuen Gen ausgestattet hat. Das zieht sich inzwischen extrem hin. Aber bei dem Minischritt der aktuellen Gen besteht da auch kaum bedarf.

robbitop

2023-08-14, 10:08:09

Wo soll FSR 3 herkommen, wenn selbst dieses vermutlich primitive HYPR-RX (man hätte es auch gleich Hyper-BS nennen können) offenbar im Nichts versandet?
Und vermutlich ist FG noch Hardware-abhängiger als gescheites Upsampling. Da würd ich mal sämtlichen Optimismus für FSR 3 nachhaltig abstellen. Hatte ich dir und basix btw. auch empfohlen, als ihr meintet, AMD könnte in absehbarer Zeit mit einem DL-basierten Gegenstück für Upsampling um die Ecke kommen. ;)

Der gleiche Optimismus verbietet sich auch für die Preise. Da kommt nichts mehr. Man bedient etwas die Fanbase und ein paar Leute, die die 12GB-Karten bei Nvidia abschrecken, und das wars.
Laut MLID soll FSR 3 im September kommen und ist fast fertig. Sagte eine Quelle von ihm bei AMD.
Wie wahrscheinlich das ist, steht auf einem anderen Blatt. Aber AMD hat es angekündigt - entsprechend müssen sie was liefern.

Meine Erwartung zu FSR3 ist allerdings relativ konservativ, weil es eben wie auch FSR2 ohne entsprechende Hardware auskommen muss und weil FSR2 Resultate leider oftmals auch etwas hinter den Erwartungen zurückliegen.

Was ich mir allerdings vorstellen kann: dass es zusätzlich zu FSR3 Fluid Motion auch Updates im Upsampler gibt mit FSR3.

Nightspider

2023-08-14, 10:10:16

Vielleicht kommt es mit Starfield um auch etwas aus dem CPU Limit zu kommen.

Wäre vielleicht der ideale Release Zeitpunkt.

robbitop

2023-08-14, 10:12:57

[immy;13371801']Polaris konnte noch sehr gut über den Preis punkten, das ist richtig. Aber inzwischen sind wir bei Preisen angelangt, wo man sich als Käufer schon fragt ob sich das Angebot noch lohnt, wenn man quasi "nur" 100€+ mehr ausgibt um eine deutliche Mehrleistung zu bekommen.
Je höher der initiale Preis, desto schneller gerät man als Kunde in diese Preisspirale. Der Miningboom hat die extremen Preise halt salonfähig gemacht.

Damals (und das ist ja schon wieder einige Jahre her) drehten dich die Preise im Bereich von 300€. Da war noch die Frage ob man 20-50€ mehr für nen besseren Kühler ausgibt. Jetzt gibt es in dem Bereich nur noch "Low end" wo man froh sein kann wenn es besser als mit der alten Karte.

Für AMD ist in der Zeit aber viel Kundschaft auch weggebrochen, vor allem im high end segment. Die viel spätere Vega könnte das auch nicht mehr reißen.

Aber ja, es dauert inzwischen fast eine komplette Generation, bis man alle Marktsegmente mit der neuen Gen ausgestattet hat. Das zieht sich inzwischen extrem hin. Aber bei dem Minischritt der aktuellen Gen besteht da auch kaum bedarf.

Ich kann mir gut vorstellen, dass man mit niedrigen Preisen (natürlich korrigiert um die tatsächlich gestiegenen Kosten durch Inflation und den neueren Prozess und der immer teureren Forschung) auch wieder Marktanteile holen kann. Aber da man seit einer ganzen Weile eher limitiert durch sein Fertigungskontigent ist, versucht man logischerweise alles zu höchst möglichen Margen zu verkaufen. Also Radeons teurer und wenn die sich nicht so gut verkaufen, shiftet man halt mehr Kontingent zu Ryzen oder Epyc oder Threadripper.
Als Endkunde aber sehr sehr traurig - insbesondere da man interessanterweise wieder relativ günstig (aus P/L Perspektive) CPUs kaufen kann und dort auch wieder richtig Innovation sieht.
Im GPU Markt bekommt man aktuell Lastgen Performance zum Lastgen Preis mit der CurrentGen. Einfach nur traurig.
Wer eine gute GPU braucht und ein gutes P/L will muss eigentlich gebrauchte Lastgen kaufen. (6800XT/3080) Oder kleinere Lastgen Radeons wie die 6700XT. Alles andere ist für die gebotene Performance einfach zu teuer.

Vielleicht kommt es mit Starfield um auch etwas aus dem CPU Limit zu kommen.

Wäre vielleicht der ideale Release Zeitpunkt.
Das würde absolut Sinn machen :up:
Insbesondere wenn die Implementierung auch richtig gut wäre.

fondness

2023-08-14, 10:26:23

weil FSR2 Resultate leider oftmals auch etwas hinter den Erwartungen zurückliegen.

Das sollte man mal die Erwartungen hinterfragen. Es ist IMO sehr viel besser als sein Ruf, aber gegen die Armada an NV-Fanboys kommt an eh nicht an.

robbitop

2023-08-14, 10:30:23

Es muss sich einfach den Vergleich mit anderen verfügbaren Upsamplern gefallen lassen. Und erstens teste ich FSR2 und DLSS selbst in jedem Spiel was ich spiele (und mir sind OEMs egal) und habe diesen Eindruck ebenso und es gibt auch genug neutrale Reviews wie das von HWUB die zu dem gleichen Ergebnis kommen.
Mittlerweile scheint sogar TSR und auch die neusten XeSS Versionen an FSR in Bezug auf BQ vorbeizuziehen. Das passiert halt, wenn man seit nun 9 Monaten mehr keine neue Version mehr liefert. Meine Hoffnung ist, dass man auch daran weiter gearbeitet hat und mit FSR 3 auch beim Upscaler Teil nachlegen kann.

Exxtreme

2023-08-14, 11:07:06

Ja, ich gehe auch davon aus, dass sie den Upscaler mit Fsr3 verbessern werden. Sie müssten halt noch Einiges in Sachen animierte Texturen oder wenn verdeckte Objekte sichtbar werden verbessern. Solche Dinge wirken immer recht ausgefranst. Ist halt blöd wenn man intern auf TAA setzt. Dann fängt man sich auch dessen Nachteile ein.

BlacKi

2023-08-14, 11:23:56

puh, ein glück kann man dann alte spiele mit dem neuen fsr nachpatchen - not.

also die mangelnden fortschritte bei fsr werden sogar bleibende spuren hinterlassen. und was fsr3 angeht, müssen sie schon einen reflex konter bringen, denn selbst mit reflex ist FG nicht perfekt. das ist wohl der punkt, warum fsr3 sich verspätet. sie scheitern gerade am reflex konter. bin gespannt ob, trotz verspätung, dank fehlendem konter, fsr3 unspielbar sein wird(gamepadspieler ausgenommen, die merken eh nichts mehr^^).

robbitop

2023-08-14, 11:32:25

puh, ein glück kann man dann alte spiele mit dem neuen fsr nachpatchen - not.
Das finde ich war auch eine furchtbare Entscheidung. Ich weiß, dass man es so implementieren kann und dass es durch OpenSource keinen Zwang gibt. Dennoch hätte ich an AMDs Stelle den Quellcode per default so ausgeliefert und es auch so in die Implementierungsrichtlinie reingeschrieben. Und dann hätte man die Chance DLLs zu kuratieren und per Radeon Software auf Knopfdruck upzudaten.

Hatstick

2023-08-14, 11:32:30

Kann ich mit meiner 6800XT auch FSR 3 nutzen oder wird es dann auch langsam eine Exklusivgeschichte mit den 7000ern wie bei nVidia?

Exxtreme

2023-08-14, 11:34:23

Naja, es hängt davon ab wie schnell die FG in Fsr3 wird. Wird sie genauso langsam sein wie bei Dlss3 dann braucht man zwingend eine Art Reflex, ja. Und ein Nachteil wird auch sein, dass man das wohl ins Spiel einbauen muss. Treiberseitig gibt es schon Antilag. Und das ist was die Wirkung angeht bei weitem nicht so stark wie Reflex.

Kann ich mit meiner 6800XT auch FSR 3 nutzen oder wird es dann auch langsam eine Exklusivgeschichte mit den 7000ern wie bei nVidia?

Es wird mit aller Wahrscheinlichkeit auch auf RDNA2 laufen, ja. Und womöglich auch auf RDNA1. Möglicherweise läuft das sogar auf Turing.

aufkrawall

2023-08-14, 11:40:44

Ja, ich gehe auch davon aus, dass sie den Upscaler mit Fsr3 verbessern werden. Sie müssten halt noch Einiges in Sachen animierte Texturen oder wenn verdeckte Objekte sichtbar werden verbessern. Solche Dinge wirken immer recht ausgefranst. Ist halt blöd wenn man intern auf TAA setzt. Dann fängt man sich auch dessen Nachteile ein.
Animierte Texturen funktionieren in Overwatch 2 einwandfrei mit FSR 2, da muss der Entwickler bei der Implementierung nur Hand für anlegen.
Mit den Problemen von TAA direkt hat das wenig zu tun, mit 8xMSAA würden solche Effekte in nativer Auflösung ähnlich bescheiden aussehen:
https://abload.de/thumb/overwatch_2023_07_07_ayfrw.png (https://abload.de/image.php?img=overwatch_2023_07_07_ayfrw.png)

robbitop

2023-08-14, 11:54:48

Kann ich mit meiner 6800XT auch FSR 3 nutzen oder wird es dann auch langsam eine Exklusivgeschichte mit den 7000ern wie bei nVidia?
AMD hat im Interview zu FSR3 betont, dass es HW agnostisch ist und dass es deswegen so schwierig und langwierig sei, FSR3 fertig zustellen. Sollte also auf jeder modernen GPU laufen.

BlacKi

2023-08-14, 12:17:37

Naja, es hängt davon ab wie schnell die FG in Fsr3 wird. Wird sie genauso langsam sein wie bei Dlss3 dann braucht man zwingend eine Art Reflex, ja.
versteh ich nicht. FG verdoppelt immer den inputlag, da das zwischenberechnete bild nicht früher kommen darf, sonst gibts kaputte frametimes.

Hatstick

2023-08-14, 12:26:12

Danke für die Antworten bzgl. FSR 3 und der 6800XT!

Exxtreme

2023-08-14, 12:34:53

versteh ich nicht. FG verdoppelt immer den inputlag, da das zwischenberechnete bild nicht früher kommen darf, sonst gibts kaputte frametimes.

So kaputt werden die Frametimes auch nicht sein wenn diese generierten Bilder etwas zu früh oder zu spät kommen. Es ist so, FG braucht mit Dlss3 ca. 5 ms pro Bild. Und mindestens diese 5 ms gibt es immer oben drauf was Eingabeverzögerung angeht. Ist die Grafikkarte stark ausgelastet dann können es auch noch viel mehr als diese 5 ms sein. Diese 5 ms sorgen auch für eine Art Softcap bei 200 fps. Sprich, darüber wird Dlss3 immer mehr kontraproduktiv.

Was witzig ist, Fsr3 soll angeblich nicht nur 1 Bild generieren können sondern auch mehrere zwischen echten Bildern. Was wiederum so bissl impliziert, dass die Bildgenerierung sehr viel schneller sein sollte als mit Dlss3.

BlacKi

2023-08-14, 12:59:51

Diese 5 ms sorgen auch für eine Art Softcap bei 200 fps. Sprich, darüber wird Dlss3 immer mehr kontraproduktiv.
so what? kann das problem nicht sehen. würde also nur leute betreffen, die mit mehr als 200fps spielen wollen. und darunter hast du durch schnellere berechnung keinen vorteil, da die generierten bilder sogar verzögert wiedergegeben werden müssen.

stell dir eine szene mit 100fps vor 50 echte 50 fg bilder. hier muss FG die bildausgabe für perfekte frametimes auf 10ms erhöhen.

wie kann da FG zu langsam sein wie du es beschreibst?

und selbst wenn du hier 2 FG bilder einfügen könntest, wäre der inputlag genauso schlecht. du kannst ja auf das FG bild ja keinen einfluss nehmen.

Ganon

2023-08-14, 13:10:12

Was wiederum so bissl impliziert, dass die Bildgenerierung sehr viel schneller sein sollte als mit Dlss3.

Oder einfach höherer Input-Lag. Klassischer Regler "Höhere FPS <--|--> Weniger Input Lag". Gibt genug Spiele die nicht so heftig auf Input-Lag reagieren. Dazu kommt noch, dass das Gehirn sich an den Input-Lag gewöhnt und entsprechend "nachjustiert".

Wäre also trotzdem durchaus eine valide Option. Ich würde mir bei mehreren Zwischenbildern eher Sorgen um den Qualitätsverfall zwischen den einzelnen Bildern machen.

aufkrawall

2023-08-14, 13:14:03

Ich würde mir bei mehreren Zwischenbildern eher Sorgen um den Qualitätsverfall zwischen den einzelnen Bildern machen.
Das würd ich bei FSR 3 ohne dedizierte Hardware auch schon bei einem interpolierten Bild auf ein echtes.

Ganon

2023-08-14, 13:26:02

Das würd ich bei FSR 3 ohne dedizierte Hardware auch schon bei einem interpolierten Bild auf ein echtes.

Ich nicht so. Zwischenbild-Berechnung ist eigentlich kalter Kaffee, auch schon vor Jahren auf CPUs. Der einzige Unterschied zwischen damals und heute ist, dass der zusätzliche Input-Lag gering genug ist.

basix

2023-08-14, 13:26:02

Was witzig ist, Fsr3 soll angeblich nicht nur 1 Bild generieren können sondern auch mehrere zwischen echten Bildern. Was wiederum so bissl impliziert, dass die Bildgenerierung sehr viel schneller sein sollte als mit Dlss3.

FSR3 soll meinem Verständnis nach "genau gleich" wie FSR2 funktionieren. Einfach mit interpolierten Motion Vectors und allenfalls teilweise interpolierten Sample Points. Der zugrundeliegende Algorithmus ist aber nahe an FSR2 dran, auch für das Zwischenbild. Man nimmt also die Sample-History von FSR2 und interpoliert sich daraus ein Zwischenbild zu einem anderen Zeitpunkt. Vom Prinzip her sollte die Zwischenbildberechnung also sehr ähnlich lange dauern wie bei FSR2 das spatio-temporal upsampling. Im Falle einer 7900XTX sind das 0.7ms bei 4K FSR2 Quality (https://gpuopen.com/manuals/fidelityfx_sdk/fidelityfx_sdk-page_techniques_super-resolution-temporal/#performance) und 0.6ms bei 4K FSR2 Performance. Und beim FSR3 Showcase hat AMD 60fps -> 113fps hochskaliert (8.85ms). Oh schau, ziemlich genau 0.5ms entfernt vom Idealfall von 120fps (8.33ms).

Die Bildqualität des Zwischenbildes sollte sich zudem auch nicht sehr stark von den "echten" Frames unterscheiden, solange die Motion Vectors nicht völlig daneben sind.

Ich kann mich irren, aber anhand der Indizien würde ich das oben beschriebene bei FSR3 vermuten. Wichtig bei Frame Generation ist sicher auch das Frame Pacing, daneben Latenzminimierung. "Nur" das Zwischenbild berechnen ist nur die halbe Lösung.

aufkrawall

2023-08-14, 13:31:10

Ich nicht so. Zwischenbild-Berechnung ist eigentlich kalter Kaffee, auch schon vor Jahren auf CPUs. Der einzige Unterschied zwischen damals und heute ist, dass der zusätzliche Input-Lag gering genug ist.
Nope, selbst zigfach teurere Zwischenbildberechnung für Video sieht aus wie Müll gegen DLSS 3. Laut Nvidia ist da bei Lovelace einiges an Transistoren für verbaut.
Wenn das stimmt und bei AMD die Last zur Zwischenbildberechnung viel stärker mit Renderzeit für andere Berechnungen konkurrieren muss, kann man sich ausmalen, dass das noch viel übler ausgehen wird als bei Upsampling.

Ganon

2023-08-14, 13:44:52

Die Bildqualität des Zwischenbildes sollte sich zudem auch nicht sehr stark von den "echten" Frames unterscheiden, solange die Motion Vectors nicht völlig daneben sind.

Bei einem Bild ja, bei mehreren wird's dann aber schon kritisch. Gerade wenn noch Upsampling dazu kommt. Da hast du dann schon einen ganzen Batzen an Vermutungen, was da in das Bild einfließt.

bbott

2023-08-14, 13:54:04

Bei Polaris hat das sehr gut funktioniert.
Sicher in DE aber, Global war die 1060 trotz 6Gb beliebter.

Troyan

2023-08-14, 14:04:13

Ich nicht so. Zwischenbild-Berechnung ist eigentlich kalter Kaffee, auch schon vor Jahren auf CPUs. Der einzige Unterschied zwischen damals und heute ist, dass der zusätzliche Input-Lag gering genug ist.

Der Unterschied zu früher ist, dass heutige Spiele aufwendiger sind. Aufwendige Effekte haben keine Motion-Vectors (Raytracing z.B.). Und ohne Motion-Vectors kann eben die entsprechen Bewegung nicht sauber rekonstruiert werden.

FSR 2 failt massiv mit Tranzparenzeffekten. Upscaling hat Probleme bei SSRs und Raytracing.

Exxtreme

2023-08-14, 14:25:34

Bei einem Bild ja, bei mehreren wird's dann aber schon kritisch. Gerade wenn noch Upsampling dazu kommt. Da hast du dann schon einen ganzen Batzen an Vermutungen, was da in das Bild einfließt.

Das ist korrekt. Aber wer weiss, vielleicht ist Fsr3 kein Interpolator sondern ein Extrapolator. Dann würde das wiederum funktionieren. Und würde auch die lange Entwicklungszeit erklären.

robbitop

2023-08-14, 14:25:47

Sicher in DE aber, Global war die 1060 trotz 6Gb beliebter.
Polaris hat sich auch global gut verkauft. Aber klar hat sich die Geforce besser verkauft - das ist aufgrund der Marke einfach so. Aber Polaris hat sich gemessen an anderen AMD Generationen sicherlich noch mit am besten verkauft.

The_Invisible

2023-08-14, 14:57:13

Ich nicht so. Zwischenbild-Berechnung ist eigentlich kalter Kaffee, auch schon vor Jahren auf CPUs. Der einzige Unterschied zwischen damals und heute ist, dass der zusätzliche Input-Lag gering genug ist.

Das von DLSS3 ist aber ausgeklügelter da auch Geometrie & Bewegungsvektoren einberechnet werden, früher waren das ja eher "dumme" Algos.
Ist ja auch mit ein Grund warum DLSS/3 nicht einfach per Treiberschalter in jedem Game aktiviert werden kann.

Zwecks FSR3 bin ich gespannt was da rauskommt, vielleicht überlegt man auch ob man es exklusiv auf RDNA3 bringt da diese ja Matrix Einheiten haben...

Exxtreme

2023-08-14, 15:02:15

Zwecks FSR3 bin ich gespannt was da rauskommt, vielleicht überlegt man auch ob man es exklusiv auf RDNA3 bringt da diese ja Matrix Einheiten haben...

Die haben schon angekündigt, dass Fsr3 auch auf älterer Hardware laufen soll. Wahrscheinlich wird Fsr3 sogar mehr Nvidia-GPUs unterstützen als Dlss2.

Ganon

2023-08-14, 15:02:58

Das von DLSS3 ist aber ausgeklügelter da auch Geometrie & Bewegungsvektoren einberechnet werden, früher waren das ja eher "dumme" Algos.

Naja, was heißt "dumm". Der Unterschied ist eben, dass man auf der einen Seite die Vektoren selbst ermittelt und dann eben 2-3 Bilder später erst aktiv werden kann oder dass man die Vektoren sofort bekommt und auch sofort loslegen kann. Aber am Ende läuft beides darauf hinaus, dass Bewegungsvektoren verarbeitet werden. Die gleiche Basis kommt auch bei Videocodecs zum Einsatz. Dort wird ja auch nicht jedes Bild gespeichert, sondern aus einer Kette von Vektoren aus einem Referenzbild das darauffolgende Bild berechnet.

"Vektoren geliefert vom Spiel" braucht natürlich ein angepasstes Spiel. Hat natürlich auch den Vorteil, dass die Vektoren eben besser sind als das was man aus kompletten Frame-Deltas so ermittelt.

BlacKi

2023-08-14, 15:06:15

Wahrscheinlich wird Fsr3 sogar mehr Nvidia-GPUs unterstützen als Dlss2.

mit amd antilag oder doch nicht? was bringt es dir wenn weder reflex noch amds version davon?

Exxtreme

2023-08-14, 15:08:58

mit amd antilag oder doch nicht? was bringt es dir wenn weder reflex noch amds version davon?

Möglicherweise ist Hyprx ebenfalls herstellerneutral. Dann würde das auch auf Nvidia- und Intel-Hardware laufen.

Tesseract

2023-08-14, 15:09:02

vielleicht ist Fsr3 kein Interpolator sondern ein Extrapolator.

ist es nicht, dazu gab es schon slides. FSR3 macht hier im prinzip das gleiche wie DLSS3: wird ein frame N fertig wird seine ausgabe eine halbe frametime verzögert und stattdessen die interpolation von N und N-1 angezeigt. man bekommt also den "halben" neuen frame sofort und dann nochmal den ganzen neuen frame eine halbe frametime später.

amdfanuwe

2023-08-14, 15:22:14

du meinst diesen Slide?

Tesseract

2023-08-14, 15:23:36

ja, der war das.

Linmoum

2023-08-14, 15:35:50

Die haben schon angekündigt, dass Fsr3 auch auf älterer Hardware laufen soll. Wahrscheinlich wird Fsr3 sogar mehr Nvidia-GPUs unterstützen als Dlss2.Wurde das offiziell schon angekündigt? Ich hab nur Aussagen dazu im Hinterkopf (kA ob Herkelman oder Azor), dass man es versucht, FSR3 auch auf anderen GPUs als RDNA3 anbieten zu können.

Der_Korken

2023-08-14, 15:50:13

Aber wer weiss, vielleicht ist Fsr3 kein Interpolator sondern ein Extrapolator.

Extrapolation wäre komplett wild, weil du dann die Benutzereingaben vorhersagen müsstest. Wenn der Nutzer sich erst in die eine Richtung dreht, dann aber schnell zurückdreht, hat eine Frame Extrapolation keine Chance das vorherzusagen. Sie würde einen halben Frame weiter in die falsche Richtung drehen und müsste dann den Richtungswechsel überkompensieren. Bei vielen schnellen Kamerabewegungen dürfte sich das ziemlich beschissen anfühlen, weil die Kamera ständig springt und teilweise Winkel zeigt, die man nie angesteuert hat.

BlacKi

2023-08-14, 16:37:13

Extrapolation wäre komplett wild, weil du dann die Benutzereingaben vorhersagen müsstest. Wenn der Nutzer sich erst in die eine Richtung dreht, dann aber schnell zurückdreht, hat eine Frame Extrapolation keine Chance das vorherzusagen. Sie würde einen halben Frame weiter in die falsche Richtung drehen und müsste dann den Richtungswechsel überkompensieren. Bei vielen schnellen Kamerabewegungen dürfte sich das ziemlich beschissen anfühlen, weil die Kamera ständig springt und teilweise Winkel zeigt, die man nie angesteuert hat.

ich denke, dass das trotzdem die zukunft ist und so kommen wird.

das vorhergesagte bild wird einfach größer berechnet(sozusagen rausgezoomt) und je nach aktueller bewegung sucht der algorithmus dann einen kleinen schwenker in die passende richtung aus, man braucht daher also nicht vorherzusehen was der nutzer machen will. dieser ist dann zwar immernoch fake, aber passender als ein nicht von der bewegung beeinflusstes bild.

man nimmt also input einfluss auf ein fake bild und damit reduziert sich der gefühlte inputlag.

][immy

2023-08-14, 18:01:54

Extrapolation wäre komplett wild, weil du dann die Benutzereingaben vorhersagen müsstest. Wenn der Nutzer sich erst in die eine Richtung dreht, dann aber schnell zurückdreht, hat eine Frame Extrapolation keine Chance das vorherzusagen. Sie würde einen halben Frame weiter in die falsche Richtung drehen und müsste dann den Richtungswechsel überkompensieren. Bei vielen schnellen Kamerabewegungen dürfte sich das ziemlich beschissen anfühlen, weil die Kamera ständig springt und teilweise Winkel zeigt, die man nie angesteuert hat.
Nicht unbedingt. Wir sind schließlich weit davon entfernt den nächsten berechneten frame auch auszugeben bei dem die Benutzerunteraktion auch beachtet wurde. Eine gewisse Latenz von 1-2 Frames zur Steuerung gibt es eigentlich immer. Dementsprechend sollte das eigentlich noch funktionieren können.

Der_Korken

2023-08-14, 18:36:08

das vorhergesagte bild wird einfach größer berechnet(sozusagen rausgezoomt) und je nach aktueller bewegung sucht der algorithmus dann einen kleinen schwenker in die passende richtung aus, man braucht daher also nicht vorherzusehen was der nutzer machen will. dieser ist dann zwar immernoch fake, aber passender als ein nicht von der bewegung beeinflusstes bild.

Das löst mein beschriebenes Problem in keinster Weise.

Nehmen wir mal an, die Kamera startet bei t=0 mit einer Blickrichtung von 0° und für je 20ms wird die Kamera um 10° nach rechts gedreht. Die GPU braucht genau 20ms, um einen Frame zu berechnen. Also haben wir:

t=0: Frame 1, 0°
t=20: Frame 2, 10°
t=40: Frame 3, 20°
t=60: Frame 4, 30°
usw.

Jetzt möchte ich FG machen, aber immer schon das nächste Bild vorhersagen. Dadurch kann die GPU auf halbem Weg immer schon das nächste interpolierte Bild ausgeben (wir nehmen mal an, dass FG nichts kostet, damit es einfacher zu rechnen ist). Dann hätten wir:

t=0: Frame 1, 0° (0°)
t=10: Frame 2, 5° (0°)
t=20: Frame 3, 10° (10°)
t=30: Frame 4, 15° (10°)
t=40: Frame 5, 20° (20°)
t=50: Frame 6, 25° (20°)
t=60: Frame 7, 30° (30°)
usw.

In Klammern steht immer, wo ich laut Spielelogik wirklich hingucke, denn die Zwischenschritte werden nur in der GPU generiert. Das 5°-Frame wird aus dem 0°-Frame (und dessen Vorgängern) extrapoliert und bei t=10 ausgegeben. Tatsächlich hat die CPU aber nie diese Daten an die GPU geschickt.

Soweit so gut. Jetzt tritt bei t=40 eine Richtungsänderung auf, d.h. der Nutzer bewegt die Kamera zurück nach links und zwar wieder mit 10° pro 20ms. Jetzt bekomme ich plötzlich folgende Ausgabe:

t=0: Frame 1, 0° (0°)
t=10: Frame 2, 5° (0°)
t=20: Frame 3, 10° (10°)
t=30: Frame 4, 15° (10°)
t=40: Frame 5, 20° (20°)
t=50: Frame 6, 25° (20°)
t=60: Frame 7, 10° (10°)
usw.

Frame 6 wurde anhand der alten Bewegung fortgesetzt, aber dann kam Frame 7, auf dem die Blickrichtung plötzlich wieder 10° war (wie von der GPU auch dann korrekterweise gerendert). Auf den angezeigten Frames habe ich aber plötzlich einen Riesensprung drin, nämlich von 25° auf 10° Blickrichtung. Frame 6 hätte bei einer Zwischenbildberechnung eine Richtung von 15° gehabt und die Bewegung wäre flüssig gewesen. Bei der Extrapolation habe ich aber jetzt plötzlich ein Artefakt, was sich in Bewegung sehr komisch anfühlen wird.

Man kann jetzt natürlich sagen, dass das ein konstruierter Fall ist und solche abrupten Bewegungen nicht so oft vorkommen. Das mag sein, aber kurze Frametimes und -latenz sind gerade bei schnellen Bewegungen besonders wichtig. Für mich ist das ein Problem, welches sich nicht anhand von Bilddaten aus der Vergangenheit lösen lässt, egal wie man es anstellt. Man bräuchte einen predictor für user inputs aufgrund der Spielsituation und das sehe ich ehrlich gesagt nicht.

[immy;13372145']Nicht unbedingt. Wir sind schließlich weit davon entfernt den nächsten berechneten frame auch auszugeben bei dem die Benutzerunteraktion auch beachtet wurde. Eine gewisse Latenz von 1-2 Frames zur Steuerung gibt es eigentlich immer. Dementsprechend sollte das eigentlich noch funktionieren können.

Dann ist es aber keine Extrapolation mehr, sondern das was FG aktuell schon tut: Das nächste Frame schon als bekannt voraussetzen. Dass FG die Latenz erhöht ist mehrfach nachgewiesen. Und Methoden wie Reflex sind hier kein Argument, denn Reflex kann ich auch ohne FG benutzen und bin dann doch wieder schneller. Das sind einfach zwei unabhängige Techniken.

BlacKi

2023-08-14, 18:54:03

ich versuchs nochmal zu verstehen, wenn du mir sagst was t ist.

Der_Korken

2023-08-14, 18:59:42

t ist der Zeitpunkt. Wir starten bei Zeitpunkt 0 und zählen anschließend die Millisekunden hoch. Statt "t=x" hätte ich auch "x ms" schreiben können (x Millisekunden nach Start).

BlacKi

2023-08-14, 19:12:56

Und Methoden wie Reflex sind hier kein Argument, denn Reflex kann ich auch ohne FG benutzen und bin dann doch wieder schneller. Das sind einfach zwei unabhängige Techniken.und da haben wir schon ganz andere ziele. mir reicht es schon, wenn das spiel gefühl nicht gleich ist, sondern einfach spielbar bleibt. wenn FG mit 80fps und reflex on den inputlag hat von 50-60fps und reflex aus hat, dann reicht das oft für einfache titel.

competitive spiele wie immer ausgenommen.

Frame 6 wurde anhand der alten Bewegung fortgesetzt, aber dann kam Frame 7, auf dem die Blickrichtung plötzlich wieder 10° war (wie von der GPU auch dann korrekterweise gerendert). Auf den angezeigten Frames habe ich aber plötzlich einen Riesensprung drin, nämlich von 25° auf 10° Blickrichtung.

Bei der Extrapolation habe ich aber jetzt plötzlich ein Artefakt, was sich in Bewegung sehr komisch anfühlen wird.

gut möglich, das es zu einem ruckler kommt, bzw. das es sich für einen moment nicht smooth anfühlt. aber wäre das wirklich ein KO kriterium? eher ein trade off vs dlss3 in jetziger form.

Man kann jetzt natürlich sagen, dass das ein konstruierter Fall ist und solche abrupten Bewegungen nicht so oft vorkommen. Das mag sein, aber kurze Frametimes und -latenz sind gerade bei schnellen Bewegungen besonders wichtig. es ist halt nur ein bild. abgesehen von competitive games halte ich das für vertretbar, wenn der inputlag sich dadurch verbessert.

Der_Korken

2023-08-14, 19:45:12

wenn FG mit 80fps und reflex on den inputlag hat von 50-60fps und reflex aus hat, dann reicht das oft für einfache titel.

Irgendwie lügen sich hier imho alle immer einen in die Tasche. Wenn du ohne FG noch Reflex einschaltest, hast du doch sogar noch bessere Latenzen (als wenn alles aus ist). FG ist nicht in allen Metriken besser, es erhöht die Bildrate und verschlechtert die Latenz. Ob einem das gefällt ist Geschmackssache, aber FG ist nicht per se die überlegene Technik.

gut möglich, das es zu einem ruckler kommt, bzw. das es sich für einen moment nicht smooth anfühlt. aber wäre das wirklich ein KO kriterium?

Wer sich über mieses Framepacing aufregt, muss sich auch über solche Bewegungs-Hiccups aufregen. In meinem Beispiel wird in einem Frame die Bewegung von 3 Frames gemacht, d.h. es wird sich (gemessen an den fps unter FG) anfühlen, als hätte das Spiel zwei ganze Frames verschluckt. Und das passiert bei jeder Richtungsänderung. Es ist eine sehr theoretische Diskussion, da aktuell niemand FG mit Extrapolation anbietet, aber mein Tipp wäre, dass sich das anfühlen würde, als würde man ohne VRR, sondern mit VSync+Triple Buffering spielen, nur noch extremer.

BlacKi

2023-08-14, 21:02:26

Irgendwie lügen sich hier imho alle immer einen in die Tasche. Wenn du ohne FG noch Reflex einschaltest, hast du doch sogar noch bessere Latenzen (als wenn alles aus ist).
ja, aber es ist alles ein trade off, sonst wärs ja ein no brainer. du suchst nach dem besten trade off. fg selbst erhöht ja nicht die latenz, es ist die reduzierung der echten bilder die die zusätzlichen latenzen erzeugen, ausser im cpu limit, dort werden keine zusätzlichen latenzen erzeugt. da hast du mit 100fps und fg die gleichen latenzen wie mit nur den echten 50.

OgrEGT

2023-08-14, 21:23:19

t= Frametime in ms?

Langlay

2023-08-14, 21:46:56

. da hast du mit 100fps und fg die gleichen latenzen wie mit nur den echten 50.

Genau, daher versteh ich den Wirbel um FG hier sowieso nicht. Was nützen mir 100FPS wenn sich das Spiel genauso bescheiden anfühlt wie mit 50FPS. Dann kann ich doch gleich mit 50 FPS rumrennen.

Also ich seh irgendwie den Usecase für FG immer noch nicht so wirklich.

Exxtreme

2023-08-14, 21:50:56

Genau, daher versteh ich den Wirbel um FG hier sowieso nicht. Was nützen mir 100FPS wenn sich das Spiel genauso bescheiden anfühlt wie mit 50FPS. Dann kann ich doch gleich mit 50 FPS rumrennen.

Also ich seh irgendwie den Usecase für FG immer noch nicht so wirklich.

Es gibt Spiele, die jetzt nicht so latenzabhängig sind. Bei Strategiespielen ist das jetzt eher egal ob man eine Eingabelatenz von 60 oder 240 fps hat. Und FG hat den Vorteil, dass du damit auch noch das CPU-Limit überwinden kannst.

Langlay

2023-08-14, 22:04:33

Es gibt Spiele, die jetzt nicht so latenzabhängig sind. Bei Strategiespielen ist das jetzt eher egal ob man eine Eingabelatenz von 60 oder 240 fps hat. Und FG hat den Vorteil, dass du damit auch noch das CPU-Limit überwinden kannst.

Das Szenario war mir durchaus klar, das hatte mir aufkrawall vor ein paar Monden schonmal in einem anderen Thread erklärt. Aber es sind ja nicht alle hier feucht im Höschen weil sie Anno mit 30+ FPS in Lategame spielen können.

Wie gesagt für mich ist FG außer in Ausnahmefällen ein Feature auf der Suche nach einem Problem.

Ganon

2023-08-14, 22:20:01

Also ich seh irgendwie den Usecase für FG immer noch nicht so wirklich.

Naja, selbst wenn es für dich als Kunde nicht interessant ist, der Hersteller freut sich über längere Balken in Benchmarks :D

Exxtreme

2023-08-14, 22:28:27

Das Szenario war mir durchaus klar, das hatte mir aufkrawall vor ein paar Monden schonmal in einem anderen Thread erklärt. Aber es sind ja nicht alle hier feucht im Höschen weil sie Anno mit 30+ FPS in Lategame spielen können.

Wie gesagt für mich ist FG außer in Ausnahmefällen ein Feature auf der Suche nach einem Problem.

Für mich ist das jetzt auch nicht so ein Megafeature. ;) Aber ich hätte durchaus hier und da Möglichkeiten das zu nutzen wenn die Spiele das unterstützen würden. Da ich auf Spiele stehe, die in aller Regel an der CPU hängen.

Der_Korken

2023-08-15, 00:28:05

fg selbst erhöht ja nicht die latenz, es ist die reduzierung der echten bilder die die zusätzlichen latenzen erzeugen, ausser im cpu limit, dort werden keine zusätzlichen latenzen erzeugt. da hast du mit 100fps und fg die gleichen latenzen wie mit nur den echten 50.

Zwischenbildberechnung erzeugt prinzipbedingt immer zusätzliche Latenz, selbst wenn die Berechnung des Zwischenbilds keine Rechenzeit kostet. In dem Moment wo Frame n fertiggestellt wird, kann es ohne FG theoretisch sofort ausgegeben werden. Mit FG geht das nicht, sondern es muss erst das Zwischenbild für Frames (n-1) und n berechnet und ausgegeben werden. Danach muss man eine halbe Framerenderzeit warten und erst dann kann Frame n ausgegeben werden. Das heißt, FG erzeugt selbst im best case immer eine zusätzliche Latenz von einer halben Framerenderzeit. Das wird auch bei FSR3 gelten und auch, wenn mehr als ein Zwischenbild berechnet wird (hier wird die Zusatzlatenz sogar noch etwas höher).

Bei 50fps beträgt die Renderzeit 20ms - auch wenn FG an ist, denn die GPU rechnet ja nicht plötzlich schneller. Der best case wäre also eine Zusatzlatenz von 10ms. In der Praxis muss man die Rechenzeit der FG noch dazu addieren, d.h. wenn die Berechnung des Zwischenbilds 3ms dauert, kommt das auf die 10ms noch drauf.

t= Frametime in ms?

t heißt einfach nur Zeitpunkt (in ms). Die Zeit zum rendern eines Frames ist immer 20ms in meinem Beispiel.

BlacKi

2023-08-15, 01:01:08

Zwischenbildberechnung erzeugt prinzipbedingt immer zusätzliche Latenz, selbst wenn die Berechnung des Zwischenbilds keine Rechenzeit kostet. In dem Moment wo Frame n fertiggestellt wird, kann es ohne FG theoretisch sofort ausgegeben werden. Mit FG geht das nicht, sondern es muss erst das Zwischenbild für Frames (n-1) und n berechnet und ausgegeben werden. Danach muss man eine halbe Framerenderzeit warten und erst dann kann Frame n ausgegeben werden. Das heißt, FG erzeugt selbst im best case immer eine zusätzliche Latenz von einer halben Framerenderzeit. Das wird auch bei FSR3 gelten und auch, wenn mehr als ein Zwischenbild berechnet wird (hier wird die Zusatzlatenz sogar noch etwas höher).

Bei 50fps beträgt die Renderzeit 20ms - auch wenn FG an ist, denn die GPU rechnet ja nicht plötzlich schneller. Der best case wäre also eine Zusatzlatenz von 10ms. In der Praxis muss man die Rechenzeit der FG noch dazu addieren, d.h. wenn die Berechnung des Zwischenbilds 3ms dauert, kommt das auf die 10ms noch drauf.

t heißt einfach nur Zeitpunkt (in ms). Die Zeit zum rendern eines Frames ist immer 20ms in meinem Beispiel.

das ist falsch. FG erhält im best case(cpu limit) den inputlag, verdoppelt aber die bildanzahl. und genau so muss man es sehen.

wenn du im gpu limit bist, kann FG zwar die fps erhöhen(30-40%)aber eröht auch den inputlag, da sich die echten frames reduzieren. erst bei 100%(cpu limit) hast du keinen zusätzlichen inputlag.
Genau, daher versteh ich den Wirbel um FG hier sowieso nicht. Was nützen mir 100FPS wenn sich das Spiel genauso bescheiden anfühlt wie mit 50FPS. Dann kann ich doch gleich mit 50 FPS rumrennen.

Also ich seh irgendwie den Usecase für FG immer noch nicht so wirklich.
im gpu limit ist es ein trade off ob du die besseren fps nimmst und den höheren inputlag akzeptieren kannst. und das kann man bei manchen spielen mit reflex sehr gut. und deshalb kommt es eigentlich auch gut in der masse an. denn spiele, die ohne reflex gut spielbar sind, werden dank FG+reflex spielbar bleiben. es geht nicht darum, welche config den niedrigsten input lag hat, es geht darum welche config sich am besten anfühlt. und das kann oft mit FG an einfach der fall sein. ja, höherer input lag kann sich mit 40% mehr fps besser anfühlen als niedrigere inputlag. ich habs getestet. ist so. ich bin da nicht alleine.

Der_Korken

2023-08-15, 01:22:47

das ist falsch. FG erhält im best case(cpu limit) den inputlag, verdoppelt aber die bildanzahl. und genau so muss man es sehen.

Bei meiner Argumentation ist ein CPU-Limit völlig unerheblich. Wenn ich der Einfachheit halber davon ausgehe, dass die Berechnung eines Zwischenbildes keine Zeit kostet (sobald sie Zeit kostet wird die Rechnung für FG nur schlechter, aber niemals besser), dann hat FG an oder FG aus keinen Einfluss darauf, wann die echten Frames fertig werden. Ob CPU- oder GPU-Limit ist egal, die Berechnung der echten Frames dauert in beiden Settings gleich lange.

Bei deinem 50fps-Beispiel werden die Frames also immer bei 0ms, 20ms, 40ms, 60ms, etc. fertig.

Ohne FG sind die Frames sofort für die Ausgabe verfügbar. Mit FG muss ich jeden Frame eine halbe Renderzeit (=10ms) zurückhalten (=Latenz). Wenn ich den berechneten Frame nicht zurückhalten würde, dann würde ich das Zwischenbild und das darauffolgende Bild ja gleichzeitig ausgeben. Das wäre aber Unsinn, denn wenn ich das Zwischenbild nie sehen kann, brauche ich es auch nicht zu berechnen.

BlacKi

2023-08-15, 01:53:07

Ohne FG sind die Frames sofort für die Ausgabe verfügbar. Mit FG muss ich jeden Frame eine halbe Renderzeit (=10ms) zurückhalten (=Latenz). Wenn ich den berechneten Frame nicht zurückhalten würde, dann würde ich das Zwischenbild und das darauffolgende Bild ja gleichzeitig ausgeben. Das wäre aber Unsinn, denn wenn ich das Zwischenbild nie sehen kann, brauche ich es auch nicht zu berechnen.
thats not how it works.

echte bilder bleiben echte bilder mit echtem inputlag. lediglich die zwischenberechneten bilder haben keine einfluss auf das spielgeschehen. deshalb gibt es überhaupt mehr inputlag.

im cpu limit hast du angenommen 50 fps ohne FG. dann hast du mit FG on 100fps denselben in putlag wie mit 50 echten und mit denselben inputlag, aber mit reflex on hast du sogar besseren inputlag als mit 50fps ohne reflex.

Megatron

2023-08-15, 09:48:58

Eigentlich erstaunlich, dass sich hier keiner weiter Richtung Extrapolation versteift hat. Dass das funktioniert und wie das geht, sieht man ja bei der Meta Quest.
Hier noch dank der Matrixeinheiten einen verbesserten Verzerrungsausgleich und man hätte eine FG, die ohne Lag ein deutlicher Mehrgewinn wäre.
Na mal sehen, was hier am Ende wirklich umgesetzt wird.

robbitop

2023-08-15, 09:58:42

Da gab es doch mal ein LTT Video dazu. Wie man mit weniger FPS durch Verzerrung erstaunlich flüssige Ergebnisse hinbekommt. Dazu gab es eine kleine Demo.
Wäre interessant diese Technik mal in echten Spielen im Einsatz zu sehen. Das muss spielespezifisch implementiert werden. Ich habe den Namen dieser Technik leider vergessen - ich glaube es hieß nicht "Extrapolation". Aber ja die Technik kommt aus dem VR Bereich und ist da in manchen Spielen sogar umgesetzt.

Mangel76

2023-08-15, 11:49:51

thats not how it works.

echte bilder bleiben echte bilder mit echtem inputlag. lediglich die zwischenberechneten bilder haben keine einfluss auf das spielgeschehen. deshalb gibt es überhaupt mehr inputlag.

im cpu limit hast du angenommen 50 fps ohne FG. dann hast du mit FG on 100fps denselben in putlag wie mit 50 echten und mit denselben inputlag, aber mit reflex on hast du sogar besseren inputlag als mit 50fps ohne reflex.

Bitte nicht immer mit Reflex argumentieren, da man es auch ohne FG für noch kürzere Latenzen nutzen kann. Da werden dann nur Äpfel mit Birnen verglichen.
Aber erklär bitte, wie echte Bilder mit echtem Inputlag ausgegeben werden können, wenn ein Zwischenbild berechnet und vor dem echten Bild ausgegeben werden soll. Wenn das Zwischenbild erst erstellt werden kann, wenn das neue Bild fertig ist, muss das echte Bild verzögert werden.
Eine Ausgabe ohne Verzögerung wäre nur möglich, wenn z. B. die Bewegungsvektoren zuerst berechnet werden und das Zwischenbild damit berechnet wird. Wenn dies schnell genug geht, könnte das Zwischenbild vor dem echten fertig sein, sodass dieses anschließend ohne zusätzliche Verzögerung ausgegeben werden kann. Ist das so? (hab mich noch nicht so mit FG beschäftigt)

Zur Extrapolation: ich bin mir gar nicht sicher, ob das so ein Problem wäre. Die Latenz auf Eingaben bleibt ja gleich, daher dürfte es nicht schlimm sein, eine Bewegung mit höherer Bildrate fortzusetzen. Das müsste der gleiche Effekt einer doppelten FPS bei gleichbleibendem Inputlag sein (in ms, nicht in Bildern).

BlacKi

2023-08-15, 12:00:58

ganz einfach, du hast 50fps nativ und 100fps mit FG. dann hast du denselben inputlag, weil nur echte bilder deinen input wieder geben können.

haben nun nativ und FG 100fps, dann hast du mit FG die doppelte lantenz. oft wird das so miteinander verglichen und dann wird behauptet FG erzeugt immer input lag. das stimmt so aber nicht siehe vorheriges beispiel. den bei letzterem beispiel muss die grafik runtergedreht werden, damit man die 100fps überhaupt bekommt.

gehen wir nun zu reflex über. reflex reduziert die latenz. das ist gut. aber wenn die lantenz sehr niedrig ist, dann kann man latenz opfern für bessere frames.

ich erhöhe die fps ja nicht nur um bessere latenzen zu bekommen, ich will ein flüssigeres bild erhalten, ohne die lantenzen unangenehm hochzutreiben.

kurz gesagt: die niedrigsten latenzen sind nicht der beste trade off.

Exxtreme

2023-08-15, 13:09:23

Mangel76 hat recht. Man bekommt auch im krassesten CPU-Limit eine zusätzliche Eingabeverzögerung obendrauf. Denn die Erstellung eines Zwischenbildes kostet auch Zeit. Bei Ada sind das ca. 5 ms. Also gibt es immer mindestens 5 ms obendrauf ob man will oder nicht. Sprich, läuft ein Spiel nativ mit 60 fps dann verursacht das eine Eingabelatenz von 16,67 ms. Aktiviert man FG dann kommen noch 5 ms obendrauf und das ergibt 21,67 ms. Und 21,67 ms Eingabelatenz ergeben ein Spielgefühl, welches man mit 46 fps hätte.

Deshalb wären Extrapolatoren auch nicht so übel weil man sich diese Latenz sparen könnte, die die Zwischenbildberechnung erzeugt. Aber mal schauen was Fsr3 so kann. Ist das etwa genauso schnell wie Fsr2 dann würden eher 0,7 ms obendrauf kommen. Bei 60 fps nativ hätte man mit aktivem Fsr3-FG ein Spielgefühl von 57,6 fps. :)

robbitop

2023-08-15, 13:10:10

Bitte nicht immer mit Reflex argumentieren, da man es auch ohne FG für noch kürzere Latenzen nutzen kann. Da werden dann nur Äpfel mit Birnen verglichen.
Das sehe ich auch so.

Gipsel

2023-08-15, 13:14:06

ganz einfach, du hast 50fps nativ und 100fps mit FG. dann hast du denselben inputlag, weil nur echte bilder deinen input wieder geben können.

haben nun nativ und FG 100fps, dann hast du mit FG die doppelte lantenz. oft wird das so miteinander verglichen und dann wird behauptet FG erzeugt immer input lag. das stimmt so aber nicht siehe vorheriges beispiel. den bei letzterem beispiel muss die grafik runtergedreht werden, damit man die 100fps überhaupt bekommt.
Das Argument geht so:
Bei FG wird die Ausgabe des Bildes in dem die Nutzereingaben den vollen Effekt zeigen verzögert (wegen Interpolation zwischen zwei fertig gerenderten Bildern). Deswegen kommt die halbe Frametime effektiv als Latenz oben drauf.
Frametime 100 in willkürlichen Einheiten
t=0: Frame 1 fertig gerendert
t=5: Interpolation zwischen Frame 0 und Frame 1 fertig, Anzeige der Interpolation
t=55: Anzeige Frame 1
t=100: Frame 2 fertig gerendert
t=105: Interpolation zwischen Frame 1 und Frame 2 fertig, Anzeige derselben
t=155: Anzeige Frame 2
...

Meintewegen kannst Du diese 55 Zeiteinheiten effektiven Lag nochmal auf 30 reduzieren für die gefühlte Latenz, da das interpolierte Bild ja schon ein wenig den Nutzerinput berücksichtigt (nur noch nicht voll, obwohl das zu dem zeitpunkt schon vorliegt).
Ohne FG könnte man also das fertig gerenderte Frame jeweils 55 Zeiteinheiten früher anzeigen. Dies könnte man mit einer "Extrapolation" analog zum "Time Warp" bei VR-Anwendungen loswerden.

Langlay

2023-08-15, 13:33:32

welche config den niedrigsten input lag hat, es geht darum welche config sich am besten anfühlt. und das kann oft mit FG an einfach der fall sein. ja, höherer input lag kann sich mit 40% mehr fps besser anfühlen als niedrigere inputlag. ich habs getestet. ist so. ich bin da nicht alleine.

Getestet hab ich es auch und ich komm halt zu einem anderen Schluss ,bis auf wenn stromsparen wirklich wichtig ist das eigentlich ein Feature mit sehr begrenzten Nutzen. Ich merke halt bei FG on/off vom Spielgefühl her keine Verbesserungen mit FG on.

Müsste man mal einen Blindvergleich machen einmal FG und einmal wo der FPS Counter einfach nur den doppelten Wert anzeigt. Das könnte interessante Einblicke liefern.

BlacKi

2023-08-15, 14:24:00

(wegen Interpolation zwischen zwei fertig gerenderten Bildern).
warum ist das so? warum gibt man das echte bild nicht gleich aus?

Platos

2023-08-15, 14:28:05

Wenn "extrapolation" der heilige Gral ist und so einfach, warum macht man es dann nicht am PC? Also wo sind die Nachteile?

Andron

2023-08-15, 15:19:18

Wenn "extrapolation" der heilige Gral ist und so einfach, warum macht man es dann nicht am PC? Also wo sind die Nachteile?

Bei VR-Brillen wird es ja schon seit Jahren genutzt und entkoppelt die Kopfbewegung von der eigentlichen Framerate, um bei Einbrüchen der Framerate oder Frametimespikes auftretende Motion Sickness zu verhindern.

Die Demo, die robbitop weiter oben angesprochen hat, ist vermutlich diese:

f8piCZz0p-Y

Das ganze hat einige Nachteile:

Beim Verschieben (Translation) des Extrapolierten Frames kommt es immer zu Parallaxe Fehlern. Bei sehr nahen Objekten wird das sehr deutlich

Es werden auch Bildbereiche verschoben, die eigentlich statisch bleiben müssten (z.B. ein Fahrzeugcockpit, Waffe beim anvisieren, Spielfigur in Third-Person)

Während Mausbewegungen noch relativ einfach erfasst und berücksichtigt werden können, ist das ganze bei anderen Bewegungseingaben schon deutlich komplexer (funktioniert in der oberen Demo auch nicht)

Tesseract

2023-08-15, 15:39:20

das ist viel zu ineffizient für "normale" spiele. In VR ist die komplette pipeline auf extrem hohe auflösungen, extrem großes field of view und sehr geringe last pro pixel ausleget. außerdem spielen fehler am rand des FoV seine sehr geringe rolle.

soll das in einem normalen spiel auch nur halbwegs gut funktionieren müsste man schnell mal 400%+ mehr pixel berechnen und damit ist es von vornherein relativ sinnlos. das ist eine sehr spezifische lösung für ein sehr spezifisches problem.

Der_Korken

2023-08-15, 15:45:17

warum ist das so? warum gibt man das echte bild nicht gleich aus?

-->

Mit FG muss ich jeden Frame eine halbe Renderzeit (=10ms) zurückhalten (=Latenz). Wenn ich den berechneten Frame nicht zurückhalten würde, dann würde ich das Zwischenbild und das darauffolgende Bild ja gleichzeitig ausgeben. Das wäre aber Unsinn, denn wenn ich das Zwischenbild nie sehen kann, brauche ich es auch nicht zu berechnen.

Andron

2023-08-15, 15:47:15

das ist viel zu ineffizient für "normale" spiele.

Das wollte ich mit meinem Post auch aussagen, habe da den abschließenden Satz vergessen.

Es funktioniert nicht mit jedem Spieltyp, löst nur einen kleinen Teil der Probleme, die durch niedrige Frameraten entstehen und ist in klassischem Non-VR Spielen deutlich komplexer zu implementieren.

BlacKi

2023-08-15, 15:48:38

-->das ist keine erklärung. angenommen es wäre so, warum gibt man nicht das generierte bild später aus und das echte sofort? das ist meine frage.

Der_Korken

2023-08-15, 15:54:52

das ist keine erklärung. angenommen es wäre so, warum gibt man nicht das generierte bild später aus und das echte sofort? das ist meine frage.

Weil du die Bilder dann in einer zeitlich falschen Reihenfolge ausgibst. Also erst Bild 2, dann Bild 1.5, dann Bild 3, dann Bild 2.5, usw.

Platos

2023-08-15, 16:06:20

@ Andron: Danke, dann wäre das ja auch gleich geklärt :)

BlacKi

2023-08-15, 16:57:27

@korken

ich glaub ich habs. ich dachte FG berechnet ein zukünftiges bild, deswegen konnte ich euch einfach nicht folgen. wenn FG ein vergangenes bild erzeugt, dann ist es klar das FG nur inputlag erzeugen kann.

danke für die erleuterung, aber wir haben die ganze zeit aneinander vorbeigeredet. gipsels beispiel hat mir geholfen, auch wenn ich es zuerst zu schnell drübergelesen habe.

mboeller

2023-08-16, 06:27:40

Das ganze hat einige Nachteile:

Beim Verschieben (Translation) des Extrapolierten Frames kommt es immer zu Parallaxe Fehlern. Bei sehr nahen Objekten wird das sehr deutlich

Es werden auch Bildbereiche verschoben, die eigentlich statisch bleiben müssten (z.B. ein Fahrzeugcockpit, Waffe beim anvisieren, Spielfigur in Third-Person)

Während Mausbewegungen noch relativ einfach erfasst und berücksichtigt werden können, ist das ganze bei anderen Bewegungseingaben schon deutlich komplexer (funktioniert in der oberen Demo auch nicht)

Was du brauchst ist "MS Talisman" :) ... die erste und einzige "GPU" von Microsoft (yep, ist schon ewig her, so Mitte der 90er Jahre). Die hat so ähnlich gearbeitet wie DLSS3 aber mittels "Sprites" (3d-Objekte die als Sprite gehandhabt wurden) und die wurden unabhängig vom Input anhand von Bewegungsvektoren verschoben und gestretcht für die Zwischenbild-Berechnung

https://www.computer.org/publications/tech-news/chasing-pixels/microsofts-talisman

davidzo

2023-08-16, 10:30:01

Btw, die Probleme mit der Taktbarkeit von Navi31 scheinen ja noch schlimmer zu sein als anfangs angenommen. Von den +15% perf des N5 Prozesses gegenüber N7 ist nichts zu sehen.

Nicht nur bewegen sich die 7900XT und 7900XTX in der Praxis weit unter dem anvisierten 3Ghz Niveau, sondern schaffen es kaum sich beim Takt von der 6950XT zu distanzieren. Der Durchschnittstakt von 2429mhz einer 7900XTX ist gerademal 53mhz höher als Navi21 KXTX.

Stellt sich heraus das sind noch die Golden Samples!
Wenn man sich mal die 7900GRE anschaut, dann erreicht diese kaum die durchschnittlichen Taktraten einer RX6800 (ca. 2,2Ghz).
Und Navi21-XL war ein solider Overclocker der nur durch die Referenzkühlung und Power delivery zurückgehalten wurde. Die Navi31 GPU auf der 7900GRE dagegen skaliert fast gar nicht mehr. Eine Anhebung des Power Limits um 15% bringt lediglich 100mhz, also 4,6% an Leistung. So weit am Limit der V/F Kurve befinden wir uns also schon mit Navi31 bei knapp über 2Ghz.

Ich werde das Gefühl nicht los dass ein Navi21 refresh in N6 mit der GFX1102 Architektur hier besser gewesen wäre als Navi31-XL.

dargo

2023-08-16, 10:43:27

Btw, die Probleme mit der Taktbarkeit von Navi31 scheinen ja noch schlimmer zu sein als anfangs angenommen. Von den +15% perf des N5 Prozesses gegenüber N7 ist nichts zu sehen.

Nicht nur bewegen sich die 7900XT und 7900XTX in der Praxis weit unter dem anvisierten 3Ghz Niveau, sondern schaffen es kaum sich beim Takt von der 6950XT zu distanzieren. Der Durchschnittstakt von 2429mhz einer 7900XTX ist gerademal 53mhz höher als Navi21 KXTX.

Das Thema wurde doch schon öfter durchgekaut. N31 hat kein Problem hohe Taktraten zu erreichen, das GPU-Design schafft das. Das Hauptproblem ist sein hoher Durst. Deshalb sieht du bsw. 3Ghz nur bei sehr leichter Kost mit niedriger Shaderlast. Hätte AMD deutlich mehr Powerbudget zugelassen (ich rede hier schon von völlig wahnsinnigen 500+W) würdest du diese Frequenzen auch durchgehend in Games sehen.

Edit:
Ein Beispiel für dich.
https://abload.de/image.php?img=assassinscreedoriginsdpf5f.jpg

3GHz + 1050mV + 300W können sich definitiv sehen lassen. Nur hätte ich sowas eher bei mittlerer bis hoher Shaderlast erwartet, ist leider nicht gelungen.

Hier noch ein Beispiel mit eher mittleren Shaderlast.
https://abload.de/image.php?img=unknown_2023.04.02-22dcfhw.jpg

Mit ~450W PT schaffst du die 3Ghz hier auch.

davidzo

2023-08-16, 10:57:42

Das Thema wurde doch schon öfter durchgekaut. N31 hat kein Problem hohe Taktraten zu erreichen, das GPU-Design schafft das. Das Hauptproblem ist sein hoher Durst. Deshalb sieht du bsw. 3Ghz nur bei sehr leichter Kost mit niedriger Shaderlast. Hätte AMD deutlich mehr Powerbudget zugelassen (ich rede hier schon von völlig wahnsinnigen 500+W) würdest du diese Frequenzen auch durchgehend in Games sehen.

Das sehe ich anders. Cedar Mill kann auch 8Ghz erreichen. Wie ist die Frage, bzw. an welchem Punkt in der V/F Kurve. Ob es theoretisch bei 20 kelvin Umgebungstemp und 2000Ampere PSU möglich ist, ist doch völlig irrelevant. Die Taktbarkeit bedeutet immer was ist der sweetspot Takt zwischen maximaler Perf und nicht ganz beschissener Effizienz.

Und da ist N31 nunmal keinen Deut besser als N21. Er wird aber in der XTX sogar höher betrieben, mit dem bekannten negativen Effekt. Dass ein N5 Chip mit ähnlicher Architektur, die noch dazu frequenzoptimiert sein soll, fast die gleiche V/F Kurve hat wie ein älterer N7 Chip ist imo eine Katastrophe.

N21 konnte auch in bestimmten Lasten auf 3Ghz gebracht werden wenn AMD die GPUs nicht bis auf die XTH gelockt hätte. Da war die V/F Kurve aber ebenfalls schon im Arsch. Ich sehe einfach nicht dass N31 bei der Taktbarkeit mehr als nur marginal besser ist als N21, selbst wenn man das Powerlimit auf 400W anhebt.

Die 7900GRE (N31-XL) zeigt nur nochmal wie schlimm der Yield bei N31 wirklich ist. Mit +15% Powerlimit steigt der Takt um gerademal 4,6%.
Die RX6800 (N21-XL) schafft hier +267mhz, also 12% mehr Takt. Die V/F Kurve von dem N31-XL den Computerbase bekommen hat ist also deutlich schlechter als die von deren N21-XL.

BlacKi

2023-08-16, 11:01:48

würde n31 höhere spannungen für mehr takt brauchen, dann hättest du recht. n31 kann aber, vom verbrauch mal abgesehen, bei gleicher spannung 300-400mhz mehr fahren.

das powerlimit als richtwert taugt da garnichts. hätte n21 und n31 kein powerlimit, würde n31 deutlich höher takten. der grund wird wohl einfach der 5nm prozess sein, der einfach mehr takt, pro spannung ermöglicht.

Complicated

2023-08-16, 11:03:10

Btw, die Probleme mit der Taktbarkeit von Navi31 scheinen ja noch schlimmer zu sein als anfangs angenommen. Von den +15% perf des N5 Prozesses gegenüber N7 ist nichts zu sehen.
Die Taktbarkeit bedeutet immer was ist der sweetspot Takt zwischen maximaler Perf und akzeptabler Effizienz.
Du beziehst dich nicht auf Sweespot Angaben und auch die 15% sind nicht für andere Chips anwendbar als für die SRAM Zellen die dort zum Vergleich verwendet werden.
Und dass 3GHz ein Sweetspot sein sollten für RDNA3, kannst du nicht ernst meinen. Daher sehe die Argumentation, der du da folgst, als nicht schlüssig an. Und ich sehe da auch keine Probleme.

dargo

2023-08-16, 11:11:11

Das sehe ich anders.
Ist dein gutes Recht, deshalb wird es nur nicht richtiger. Hast du denn überhaupt einen N31 in Aktion selbst erlebt? :)

davidzo

2023-08-16, 11:44:05

Du beziehst dich nicht auf Sweespot Angaben und auch die 15% sind nicht für andere Chips anwendbar als für die SRAM Zellen die dort zum Vergleich verwendet werden.
Und dass 3GHz ein Sweetspot sein sollten für RDNA3, kannst du nicht ernst meinen. Daher sehe die Argumentation, der du da folgst, als nicht schlüssig an. Und ich sehe da auch keine Probleme.

Die 3Ghz sind gar nicht mein Punkt. Der kam von AMDs technical marketing.

Ich vergleiche lediglich Navi21XL mit Navi31Xl bei CB und bin geschockt dass Navi31XL schlechter taktet als der Vorgänger.
Mein Punkt ist dass der Yield anscheinend noch schlechter ist als wir bisher dachten, da wir bisher nur die XT und XTX gesehen hatten und AMD die aussortierten Chips eh erstmal gesammelt hat. Das volle Ausmaß sehen wir erst jetzt.

Bei den Top SKUs ist das genau andersherum als bei den XL Chips: Die XT und XTX Takten leicht höher als die Vorgänger.
Ergo kann man schlussfolgern dass das Yieldfenster bei N7 noch eng beisammen lag, beim jüngeren N5 Node aber auch nicht völlig unerwartet noch weiter auseinander geht. Was aber krass ist dass der Mittelwert wohl niedriger liegt als gedacht. Also nicht leicht über N21, sondern wohl eher auf einem vergleichbaren v/f Mittelwert. Es gibt also viele N31 welche die Specs von N31XT und N31XTX gar nicht schaffen würden. Aus welchem Grund ist praktisch egal, für AMD wie auch für den User. Also ob sie den takt schaffen, nur dazu eben das Power target sprengen ist für den Bin/Yield egal. Das bedeutet trotzdem ausschuss/salvage. Binning, Yield und Taktbarkeit ist nicht etwas was das 3DC Forenuser einfach mal so definieren, sondern durch die zu erreichenden SKUs definiert. Die SKUs sind nunmal aus wirtschaftlichen Gründen so gesetzt und das binning richtet sich danach - dabei wird AMD sich schon etwas gedacht haben.

robbitop

2023-08-16, 11:52:37

Also wenn man komplett aufmacht wird N31 schon höhere Frequenzen überhaupt erreichen (normale Kühlung) als N21. Der macht dann einfach dicht.
Gibt doch diese eine N31 Karte mit 3,2 GHz mit monströser TDP aber normaler Luftkühlung. Das wäre mit N21 mit keiner TDP der Welt möglich gewesen.
Aber irgendwas ging bei N3x offenbar schief, dass die v/f curve einfach sehr bescheiden (gelinde gesagt) ist. Wir werden mit RDNA4 oder RDNA3.5 sehen, ob sich das grundlegend ändert.

BlacKi

2023-08-16, 11:56:09

die GRE beinhält wohl einfach chips, die bei n21 schon ausschuss wären. diese these, auch wenn sie wahrscheinlich zumindest zum teil stimmt wenn man die taktunterschiede zwischen den GRE karten bertrachtet, nicht neu ist.

wenn du eine gute GRE erwischst sind wohl 100mhz mehr oder weniger drin. das hast du bei den xt und xtx karten auch nicht.

Aber irgendwas ging bei N3x offenbar schief, dass die v/f curve einfach sehr bescheiden (gelinde gesagt) ist.

naja, unter 0,7v kann die karte nichtmehr skalieren.

n21 braucht für 2ghz 0,8v

n31 braucht für 2,4ghz 0,7

jetzt kommst du und meinst, die v/f ist bei n31 scheiße und ich behaupte das gegenteil und verweiße auf langlays 6900xt und meine erfahrungen mit der xtx.

der 5nm prozess ist vorzüglich und macht seinen job. das problem liegt daher im design. richtig übel ist rdna3 unterteillast.

davidzo

2023-08-16, 12:01:24

die GRE beinhält wohl einfach chips, die bei n21 schon ausschuss wären.

Dann würde ich gerne mal sehen was in der 70CU 7900 stecken wird die gerüchteweise noch kommt.

Ich glaube auch nicht dass AMD N21 Ausschuss produziert und entsorgt hat. Genau dafür ist ein XL bin da. Und die 6800 hatte Luft nach unten wenn man den Abstand zur 3070 und 3070ti sieht.

naja, unter 0,7v kann die karte nichtmehr skalieren.

n21 braucht für 2ghz 0,8v

n31 braucht für 2,4ghz 0,7

jetzt kommst du und meinst, die v/f ist bei n31 scheiße und ich behaupte das gegenteil und verweiße auf langlays 6900xt und meine erfahrungen mit der xtx.

der 5nm prozess ist vorzüglich und macht seinen job. das problem liegt daher im design. richtig übel ist rdna3 unterteillast.

Okay, fair enough da hast du einen Punkt. Wenn man isoliert v/f betrachtet sieht n31 ganz okay aus. Und ich hatte ja explizit v/f erwähnt, da hast du also einen Punkt.

Allerdings ist das bei einem neueren Prozess normal dass kleinere Transistoren mit einer kleineren Spannung betrieben werden, was zu einem gewissen Teil aber durch einen größeren Leistungswiderstand bei den kleineren Strukturbreiten wieder aufgefressen wird. Ich glaube nicht dass das voll auf das Konto der µArch geht. N33 scheint das Problem ja nicht zu haben, trotz schlechterem Node.

robbitop

2023-08-16, 12:04:35

naja, unter 0,7v kann die karte nichtmehr skalieren.

n21 braucht für 2ghz 0,8v

n31 braucht für 2,4ghz 0,7

jetzt kommst du und meinst, die v/f ist bei n31 scheiße und ich behaupte das gegenteil und verweiße auf langlays 6900xt und meine erfahrungen mit der xtx.

der 5nm prozess ist vorzüglich und macht seinen job. das problem liegt daher im design. richtig übel ist rdna3 unterteillast.
Ich meine aber den oberen Teil der v/f Curve. Nicht den unteren.

BlacKi

2023-08-16, 12:11:35

Ich meine aber den oberen Teil der v/f Curve. Nicht den unteren.auch da liegt n31 vorne. und das obwohl größere gpus tendenziell generationsbereinigt schlechter takten. eben halt nur durch das prozessupdate.

robbitop

2023-08-16, 12:16:53

Aber nicht so deutlich wie es sein sollte. Ab 2,8 GHz wird es extrem durstig (überproportional).
Ich vermute, dass AMD dort beim Design was anderes vorhatte (und ich vermute auch, dass es am Design liegt).

BlacKi

2023-08-16, 12:20:44

Aber nicht so deutlich wie es sein sollte. Ab 2,8 GHz wird es extrem durstig (überproportional).
Ich vermute, dass AMD dort beim Design was anderes vorhatte (und ich vermute auch, dass es am Design liegt).naja, da es ein größerer chip mit mehr bandbreite ist, skalieren die verbräuche natürlich anders.

n31 ist n21 x1,5, d.h. weils ein größerer chip ist, nimmt der verbrauch exponentiell zu. das ist auch bei älteren generationen schon so gewesen und wird auch weiter zunehmen. genau deshalb gibts es überhaupt powerlimits, weil die karten sich sonst selbst zerstören würden.

amdfanuwe

2023-08-16, 12:22:22

Dann würde ich gerne mal sehen was in der 70CU 7900 stecken wird die gerüchteweise noch kommt.

Ist doch schon lange da
https://www.amd.com/de/products/professional-graphics/amd-radeon-pro-w7800

Wir haben jetzt
7900XTX 96 CU (6SE*8WGP*2CU/WGP)High Clock
7900XT 84 CU (6*7*2) Mid Clock
7900 GRE 80 CU (5*8*2) Low Clock
Pro W7000 70CU (5*7*2) High Clock

Da dürfte kaum noch "Ausschuss" übrig bleiben für ein weiteres SKU.
Vielleicht mal 72 CU (6*6*2) Low Clock

Complicated

2023-08-16, 12:22:51

Bei den Top SKUs ist das genau andersherum als bei den XL Chips: Die XT und XTX Takten leicht höher als die Vorgänger.
Ergo kann man schlussfolgern dass das Yieldfenster bei N7 noch eng beisammen lag, beim jüngeren N5 Node aber auch nicht völlig unerwartet noch weiter auseinander geht.
Das sind Metriken die sich mit jedem Monat ändern auf den Nodes. Da eine Schlußfolgerung auf ein "Yieldfenster" zu ziehen gibt keine nachhaltige Grundlage für einen Vergleich mit irgend etwas anderem. Vor allem dann SKUs mit völlig verschiedenen Chipgrößen/Chiplet-Design/Packaging.

dargo

2023-08-16, 12:23:13

Aber nicht so deutlich wie es sein sollte. Ab 2,8 GHz wird es extrem durstig (überproportional).

Nö... hängt vom Spiel bzw. der Shaderlast ab.