AMD/ATI - RDNA3 (Navi 3X, Radeon RX 7000 Serie, tlw. Chiplets, 5/6 nm, 2022) [Archiv] - Seite 18

dargo

2022-10-15, 08:34:41

Es hat auch einen perf/w Nachteil. 6 nm ist nur ein half nide wenn überhaupt. 5 nm N33 wäre potenziell schneller taktbar oder sparsamer. 6 nm hat nur den Vorteil des geringeren Waferpreises.
Ohne konkrete Zahlen ist diese Behauptung wertlos. Ich bin mir sehr sicher, dass dieser kleine Nachteil (den es da vermutlich gibt) locker über einen besser gewählten Betriebspunkt ausgeglichen werden kann. ;) Ob das Ding nacher mit 3,5Ghz @5nm läuft oder 3,2Ghz @6nm macht sich in der Performance kaum bemerkbar. Wenn der Preis durch 6nm allerdings deutlich profitiert würde ich mich immer für diesen Prozess entscheiden. Schließlich kannst du dein Produkt dann wesentlich aggressiver beim Preis im Markt vs. der Konkurrenz positionieren ohne auf Marge großartig verzichten zu müssen. Und insbesondere unterhalb High-End sind günstigere Fertigungspreise sehr wichtig.

robbitop

2022-10-15, 09:47:21

Du zweifelst ernsthaft den Vorteil eines Fullnodeshrinks an? :|
Ich finde es zwar sinnlos über Axiome zu diskutieren aber hier die Zahlen:

N5 vs N7
30% power@iso speed
15% speed @iso Power

N5P vs N5
15% power @iso speed
7% speed@ iso power

N7P vs N7 (N6 entspricht in etwa N7P)
10% power @ iso speed
7% speed @iso power

Quelle: wikichip - und das hat 2 sek google gedauert. Ich finde nicht, dass man für eine Diskussion wo es um Axiome geht die dann auch noch raussuchen muss. Das kann gern der am Axiom Zweifelnde machen.

Das wären dann grob 35% power @iso speed. Oder 15% speed @iso power.

Gerade im mobile Bereich sind 35% power eine Menge. Im Desktop würde man sich zumindest über die 15% mehr Takt bei gleicher Frequenz oder aber die 35% weniger Power bei gleichem Takt freuen. Bei 200W wären das 70W Reduktion. Bei 3 GHz wären es immerhin 450 MHz Takt…

basix

2022-10-15, 10:07:16

Wie andere schon gesagt haben ist der Sprung in der UE5 duetlich eindrucksvoller als alles was Raytracing bisher auf die beine gestellt hat. Sofern es in Spielen auch ankommt.

Ich denke du spielst auf Nanite an? Dennoch ist RT inkl. GI ein integraler Bestandteil von UE5 ;) Die feine Geometrie will auch entsprechend ausgeleuchtet werden. Bei der Virtual Shadow Maps bin ich mir zwar nicht sicher, ob das via RT gemacht wird oder irgendwie ein Nanite Beiprodukt ist. RT-Beleuchtung ist zudem eigentlich immer(!) qualitativ hochwertiger als dessen RZ Pendant. Selbst auf "RT-Mittel". Und RT ist langfristig eh das Endziel. Wenn dies jetzt mit Accelerator-Units in GPUs beschleunigt wird, wieso das verteufeln? Damit RT nun performant läuft, ist vor allem ein SW Frage. Die HW wäre mMn genug schnell.

Hochwertige Geometrie darzustellen, ist hauptsächlich Sache der Entwickler. Nvidia hat aber mit Mesh Shader und neu Micro-Meshes Dinge in ihre GPU eingeführt, mit welcher detaillierte Geometrie deutlich performanter abgebildet werden kann. Nur nutzt das momentan noch niemand. HW wäre aber da.

So wie heute Spiele aufgebaut sind, kann RT zudem gar nicht alle Vorteile ausspielen. Die meisten Spiele sind hinsichtlich Spielwelt ziemlich statisch. RT ist voll-dynamisch. Änderungen an der Spielgeometrie werden sofort abgebildet (z.B. einstürzende Geäude, umfallendes Zeugs, ...). Wenn man zwischen Realtime RT und RZ keinen oder nur marginalen Unterschied sieht, ist das dem Baked-Lightning geschuldet (welches Oflline-RT ist). Man kann mit Tricks sowie Interpolation über mehrere solcher baked Lightmaps die Illusion von dynamischem Verhalten erzeugen. Ist dann aber nur so dynamisch, wie es der Entwickler vorgesehen hat. Und es ist eine heiden Arbeit. Volldynamisches GI ist definitv eine Arbeitserleichterung für den Entwickler. Dann kann sich der mehr auf hochqualitative Assets (Geometrie) konzentrieren ;) Die UE5 ist hier mit Nanite nochmals weiter gegangen, da der ganze Prozess rund um Geometrie-Erzeugung und dynamischem LoD gleich mit abgearbeitet wird und der Entwickler sich nicht mehr um die verschiedenen LoD-Stufen kümmern muss.

Du zweifelst ernsthaft den Vorteil eines Fullnodeshrinks an? :|
Ich finde es zwar sinnlos über Axiome zu diskutieren aber hier die Zahlen:

N5 vs N7
30% power@iso speed
15% speed @iso Power

N5P vs N5
15% power @iso speed
7% speed@ iso power

N7P vs N7 (N6 entspricht in etwa N7P)
10% power @ iso speed
7% speed @iso power

Quelle: wikichip - und das hat 2 sek google gedauert. Ich finde nicht, dass man für eine Diskussion wo es um Axiome geht die dann auch noch raussuchen muss. Das kann gern der am Axiom Zweifelnde machen.

Das wären dann grob 35% power @iso speed. Oder 15% speed @iso power.

Gerade im mobile Bereich sind 35% power eine Menge. Im Desktop würde man sich zumindest über die 15% mehr Takt bei gleicher Frequenz oder aber die 35% weniger Power bei gleichem Takt freuen. Bei 200W wären das 70W Reduktion. Bei 3 GHz wären es immerhin 450 MHz Takt…

Im Endeffekt wird es genau darauf hinauslaufen: Geringerer Takt. Bei N6 kann man aufgrund der geringen Kosten evtl. noch den ein oder anderen Transistor spendieren, um beim Takt wieder etwas nach oben zu kommen. Aber es bleibt vermutlich dabei: Der Takt ist geringer.

Ist das so eine riesen Problem? Man verschenkt anhand der Prozess-Werte "nur" 15% Performance und somit auch nur 15% Perf/W. Und wenn N33 ein Mobile-First Chip ist, ist evtl. zusätzlich Aufwand in niedrigen Energieverbrauch gesteckt worden. N31/32 sind High Performance Parts.

Tangletingle

2022-10-15, 10:31:21

Abseits der ganzen Zahlenspielereien auf Twitter ist Lisa Sus qualitative (Ein)Schätzung zu RDNA3 von wortwörtlich "... we are feeling great about how RDNA3 looks in the labs ..." die gegenwärtig einzig belastbare Information. Sie kennt die wahren Zahlen. Trägt man derart dick auf und schürt eine hohe Erwartungshaltung, falls RDNA3 ein Performance-Flop wäre? Die Lachnummer traue ich ihr nicht zu.
Du erinnerst dich an Raja? Da ist nämlich die Frage ob das wirklich nur Schmierentheater war oder um die shareholder bei der Stange zu halten. Letzteres könnte auch Lisa tun (müssen).

robbitop

2022-10-15, 10:32:11

@basix
Es ist definitiv ein signifikanter Nachteil. Ob das dann ein „riesen Problem“ wird hängt von den Wettbewerbsprodukten ab.

Ich denke ehr man verschenkt 15% maximalen Takt aber in Bezug auf Power verschenkt man 35%. Das wirkt sich auch auf Betriebspunkte mit weniger Takt aus wenn man vergleicht dass ein hypothetischer N5P N33 auch niedriger takten kann. Ansonsten ist es kein echter Apfel/Apfel Vergleich. Man muss die volle Opportunität berücksichtigen.

Iscaran

2022-10-15, 10:49:47

N5 vs N7
30% power@iso speed
15% speed @iso Power

RDNA2 ist doch in N7 (https://en.wikipedia.org/wiki/List_of_AMD_graphics_processing_units#Radeon_RX_6000_series) (zumindest die Großen chips, N21, N22, N23)?

=> für RDNA3 könnte man also eigentlich mind. mal mit dem Iso Power Takt rechnen
laut Liste und Spec ist der Default Boost bei der 6900 XT @2250 MHz => *1.15 = 2587 MHz. Mit den 12288 SPs folgen daraus eigentlich 67.584 Tflops.

Ist nur noch die Frage wie sich der Architektur"wirkungsgrad" verändert.
Bleibt RDNA3 auf dem Level von RDNA2 (eher unwahrscheinlich) =>

Effienz-Sprung|TFlops | GFlops/%4k-index | extrapolierter Index-Wert
RDNA3 = 1:1 wie RDNA 2|67.584|66|1024
RDNA3 = ähnlich wie Ada/Turing (x1.18)|67.584|78|866
RDNA3 = ähnlich wie Ampere/Turing (x1.6)|67.584|106|638

Damit ergibt sich eigentlich zwangsläufig dass RDNA3, sollte er mit 12.288 SPs kommen, im Bereich einer Performance von ~640% bis 1020 % liegen wird, je nachdem wie viel Performance-Drop durch das Upscaling und den Architekturumbau anfällt.

Realistisch ist irgendwas in der Mitte eher zu erwarten als die jeweiligen Randpunkt. Also mal eine nicht zu pessimistische Schätzung ~ 800% Index scheint durchaus erreichbar zu sein.

robbitop

2022-10-15, 11:13:15

Es wird auch viel über die uArch passieren was Energieeffizienz und Takt angeht IMO.

Virtual

2022-10-15, 11:44:13

Du erinnerst dich an Raja? Da ist nämlich die Frage ob das wirklich nur Schmierentheater war oder um die shareholder bei der Stange zu halten. Letzteres könnte auch Lisa tun (müssen).
Unter Lisa Regentschaft bot AMD endlich wieder anständige CPUs und GPUs, war konkurrzenfähig zu Intel/NVidia. Die Vorstellung von ZEN4 war für die Investoren, der RDNA3-Teaser hätte aber nicht sein müssen. ZEN4 ist kein Flop und für RDNA3 hat sie es gleichermaßen angekündigt, ist aber bewusst vage geblieben, die Konkurrenz schaut auch zu. Führt AMD die Entwicklung von RDNA im gleichen Stile fort, dann wird die RDNA3-Architektur kein Flop und die Performance konkurrenzfähig, dazu passt Lisas Aussage.

"Lies of P" unterstützt RT, die Setting des Teasers waren MAX@4K, sie beschieb die Demo mit "absolutely wonderful". Dennoch, das hat für mich weit weniger Aussagekraft. Die Demo war eine ebenso bewusst vage gehaltene Staffage, die an anderer Stelle nicht nachvollziehbar sein sollte. Seit Lisa hält AMD dicht, teasert nur gezielt, für handfeste Leaks gibt es durchweg Fehlanzeige, was letztlich doch besser ist als der gezielte Hype für Fans durch die Luftpumpe Raja. Ja, Raja war gerne für Selbstdarstellung und Investoren unterwegs.

Tangletingle

2022-10-15, 11:54:21

OgrEGT

2022-10-15, 12:09:50

Ich denke nach wie vor dass die >+50% Perf/W Aussage am besten eignet für Performance Prognosen da sie die architektonischen sowie fertigungsbezogenen Fortschritte einpreist.
Was ich mich nur gerade gefragt habe ob sich das auf Overall Perf/W oder auf die gleiche Anzahl an Recheneinheiten RDNA2 vs RDNA3 bezieht... auf WGPs bezogen...
Das Ganze natürlich als Range zu verstehen über mind 50 bis x% je nach Taktrate...

Virtual

2022-10-15, 12:13:12

Lisa gab's auch schon zu rajas Zeiten. Just saying. Die hat den scheiß den raja verzapft hat mehrere Jahre abgesegnet. Der Unterschied ist halt die Produkte ab Zen und seit einiger Zeit auch bei graphica sind ja ordentlich und man musste nicht übertreiben oder zum Märchenbuch greifen. Das kann sich aber jederzeit ändern.
Raja hatte seine Chance bei AMD, durfte schalten und walten, so wie er es für richtig hielt ... er hat außer einer guten Show nicht viel geliefert. Lisa zog daraus die Konsequenzen und Intel war verzweifelt auf der Suche nach Personal für die eigene Grafiksparte. Passte doch! Seitdem gibt es keinen "Raja" mehr bei AMD.

Aber, sicher doch, alles ist noch möglich, auch gut zwei Wochen vor den (vorläufigen) Fakten. Die ganze Wahrheit kennen wir erst erst nach unabhängiger Betrachtung!

why_me

2022-10-15, 12:14:04

Wir wissen also mal wieder weniger als 3 Wochen vor relase/launch (was auch immer es am 3. jetzt wird) immer noch nichts.

Kann mal einer zusammenfassen was, denn jetzt als ziemlich gesichert gilt?
Chiplets, Die Size, shader und >50% perf/W? Wenn überhaupt. :confused:

Iscaran

2022-10-15, 12:36:34

Ich denke nach wie vor dass die >+50% Perf/W Aussage am besten eignet für Performance Prognosen da sie die architektonischen sowie fertigungsbezogenen Fortschritte einpreist.

Hmm, so gesehen könnte man ja mal überlegen.

6900 XT = 332% Index @300W
+50% P/W => *1.5 @300W = 501% Index @300W

Option1: AMD bleibt beim Takt 2250 MHz um maximale P/W aus dem Prozess zu ziehen.
=> 12288 SP *2250 = 55.3 TFLops um damit 501% Index zu generieren würde die Architektur auf einem Level von 110.4 GFlops/%Index operieren.

Das wäre relativ zu RDNA2 ein Sprung von 66 => 110 = 1.67x was schon ziemlich "grottenschlechtes" Scaling wäre. (132 entspräche genau NULL zugewinn in "Effizenz").

mit 110 von 132 möglichen, würde also die "Verdopplung" der Recheneinheiten NUR zu einem Mehrgewinn von 20% führen (132/110 = 1.2). Das wäre ausserdem sogar noch schlechter als der Sprung Turing => Ampere
Ercheint mir arg wenig bzw. unrealistisch.

Mit 2750 MHz und 12288 SP, hätte RDNA3 67.6 TFlops, wenn das nun zu "nur 501% Index führen würde, ergäbe sich eine Arch-Wirkungsgrad von 135 GFlops/%Index. Das würde also bedeuten dass die Verdoppelung des Chips genau NULL bzw. sogar NEGATIVEN Effekt auf den Wirkungsgrad gehabt hätte (132 ist der Doppelte Wert von RDNA2, was KEINERLEI Architekturoptimierung entsprechen würde).

Das wiederum ist praktisch ausgeschlossen, AMD würde keinen Chip releasen der architekturiell ein Rückschritt darstellt.

Damit bleibt als "Fenster" für die Performanceprognose eigentlich nur der Wert wie oben abgeleitet von 638 - 1024%

Wahrscheinlichste Werte lägen dann im Bereich 700-800% IMHO. Und AMDs Aussage von +50%/W ist offenbar sehr "konservativ" bzw. bewusst tiefgestapelt.

Grendizer

2022-10-15, 12:41:29

Ich frage mich nur, warum nVidia die 4080 mit 12 Gb abgesagt hat. Wäre die zu schlecht gegen die etwas schwächere Karte der RX 7000 Serie?

AffenJack

2022-10-15, 12:48:53

Hmm, so gesehen könnte man ja mal überlegen.

6900 XT = 332% Index @300W
+50% P/W => *1.5 @300W = 501% Index @300W

Option1: AMD bleibt beim Takt 2250 MHz um maximale P/W aus dem Prozess zu ziehen.
=> 12288 SP *2250 = 55.3 TFLops um damit 501% Index zu generieren würde die Architektur auf einem Level von 110.4 GFlops/%Index operieren.

Das wäre relativ zu RDNA2 ein Sprung von 66 => 110 = 1.67x was schon ziemlich "grottenschlechtes" Scaling wäre. (132 entspräche genau NULL zugewinn in "Effizenz").

mit 110 von 132 möglichen, würde also die "Verdopplung" der Recheneinheiten NUR zu einem Mehrgewinn von 20% führen (132/110 = 1.2). Das wäre ausserdem sogar noch schlechter als der Sprung Turing => Ampere
Ercheint mir arg wenig bzw. unrealistisch.

Mit 2750 MHz und 12288 SP, hätte RDNA3 67.6 TFlops, wenn das nun zu "nur 501% Index führen würde, ergäbe sich eine Arch-Wirkungsgrad von 135 GFlops/%Index. Das würde also bedeuten dass die Verdoppelung des Chips genau NULL bzw. sogar NEGATIVEN Effekt auf den Wirkungsgrad gehabt hätte (132 ist der Doppelte Wert von RDNA2, was KEINERLEI Architekturoptimierung entsprechen würde).

Das wiederum ist praktisch ausgeschlossen, AMD würde keinen Chip releasen der architekturiell ein Rückschritt darstellt.

Damit bleibt als "Fenster" für die Performanceprognose eigentlich nur der Wert wie oben abgeleitet von 638 - 1024%

Wahrscheinlichste Werte lägen dann im Bereich 700-800% IMHO. Und AMDs Aussage von +50%/W ist offenbar sehr "konservativ" bzw. bewusst tiefgestapelt.

Du hast Verbrauchserhöhungen nicht miteinbezogen. Ich würde mich auch bei +50%-60% Perf/W orientieren, aber der Verbrauch wird nicht bei 300W bleiben. Damit wird die Leistungserhöhung bei gleicher Perf/W natürlich höher.

Thunder99

2022-10-15, 12:54:15

Ich frage mich nur, warum nVidia die 4080 mit 12 Gb abgesagt hat. Wäre die zu schlecht gegen die etwas schwächere Karte der RX 7000 Serie?

Einsicht, das der Name zu irreführend ist und ggf. Ein Wink von der Rechtsabteilung. Klagen wären sicher gekommen um Profit zu machen von den Anwälten.
AMD hat da wenig Einfluss gehabt denke ich.

Virtual

2022-10-15, 12:57:20

Ich frage mich nur, warum nVidia die 4080 mit 12 Gb abgesagt hat. Wäre die zu schlecht gegen die etwas schwächere Karte der RX 7000 Serie?
Mit AMD bzw. RDNA3 hat das bestenfalls am Rande zu tun, d.h. falls NVidia tatsächlich mehr als nur öffentlich zugängliche Informationen zu RDNA3 sowie geplanten Karten hat.

NVidia hat vielmehr realisiert, dass die 4080 12GB bei ihrem Preis sich zumeist an gut informierte Käufer richtet und von der Fachpresse arg kritisiert wurde ... und nicht zulestzt deshalb mit guter Wahrscheinlichkeit ein Flop wird. Der gute informierte Kunde und selbst Fans mit moderatem NV-Bias lassen sich nur begrenzt hinters Licht führen und NVidia ist durchaus um seinen Ruf bemüht, der u.a. den Verkaufserfolg begründet.

Ist das nicht der Begründung genug für dich?

Iscaran

2022-10-15, 13:15:37

Du hast Verbrauchserhöhungen nicht miteinbezogen. Ich würde mich auch bei +50%-60% Perf/W orientieren, aber der Verbrauch wird nicht bei 300W bleiben. Damit wird die Leistungserhöhung bei gleicher Perf/W natürlich höher.

Das hab ich bewusst nicht - aus 2 Gründen.

1.) Selbst wenn die Leistung perfekt linear skaliert wir sind schon bei 300 W und ich glaube nicht dass AMD hier total auf nVidia macht.

2.) Weil es zunächst mal für P/W egal ist. Es verschiebt sich nur das Performance level nach oben.

Aber reden wir hierzu über Prognosen:

Bestenfalls könnte ich mir den Sprung 300 W => 375 W vorstellen, aber auch das glaube ich nicht. Das wären aber auch nur +25%

Bezogen auf die 501% unterste Erwartungshaltung sind +25% dann auch nur eine Prognose von 626%

Beziehen wir uns auf das realistischere "Fenster" von 638 - 1024% verschiebt sich das auf 797 bis 1280% (Annahme +25% Watt = +25% Leistung)
P/W bleibt ja bei +50%.

Damit sehe ich folgende Optionen seitens AMD.

Ist der Chip/Arch eher "schlecht" (501% unterste Basis) - würde man ggf. auf 375 W gehen um in den Bereich 630% Index zu kommen.

Ist die Arch eher normal, liegt man dort eh schon. Mit +25% Power geht es dann Richtung 800% (oder noch deutlich mehr, wenn die Arch wirklich gut ist).

Eigentlich ist die Angabe AMDs von +50% P/W, wenn es sich auf das Gesamtkonstrukt INKLUSIVE Nodesprung handelt eher ziemlich schlecht. (501% Index + x).

Ich vermute daher der tasächliche P/W Sprung für das Gesamtdesign muss bei 50+x% liegen.

Das ganze ergibt sich irgendwie auch als nahezu notwendige Konsequenz auch aus den Überlegungen oben (https://www.forum-3dcenter.org/vbulletin/showthread.php?p=13139580#post13139580)

Mit dem Taktsprung @ Iso-Power bei "nur" 50% P/W würde die verdoppelte Architektur praktisch NICHTS bringen. Ich denke AMD hat bei den +50% P/W ganz gezielt NICHT den Fertigungseffekt einbezogen, sondern bezieht das rein auf die Architektur bei "gleicher" Fertigung. Nur das ergibt irgendwie Sinn. Damit käme der RDNA3 bei ca 99GFlops/Index% raus, was bezogen auf die Erwartbaren 67.6 TFlops zu ~683% Index führt (und damit +- RTX 4090 oder etwas schneller ist.

Aber schade, dass es kaum brauchbare Gerüchte gibt, außer Die Size, anzahl SPs. usw.

EDIT: Und mit einer 375W Karte kann AMD dann auch eine 4090 Ti kontern...683%+25% = 850% und full-Ada als 4090 Ti dürfte sofern man nicht ebenfalls noch die TDP erhöht so bei ~750 rauskommen (+X je nach Power-Level relativ zur 4090).

amdfanuwe

2022-10-15, 13:42:43

Das wären dann grob 35% power @iso speed. Oder 15% speed @iso power.

Gerade im mobile Bereich sind 35% power eine Menge. Im Desktop würde man sich zumindest über die 15% mehr Takt bei gleicher Frequenz oder aber die 35% weniger Power bei gleichem Takt freuen. Bei 200W wären das 70W Reduktion. Bei 3 GHz wären es immerhin 450 MHz Takt…
Die Power und Speed bezieht sich auf Logik.
Bei N33 N6 gibt es noch viel Cache-RAM und I/O, welche nicht dermaßen profitieren.
Zudem bringt N6 auch noch etwas Verbesserung.
Ist also nicht ganz so nachteilig wie du es vorrechnest.

Nakai

2022-10-15, 13:51:29

AMD hat bisher immer versucht mit ihren GPU-Architekturen das General Purpose Processing hochzuhalten. Bei RT wurden zusätzliche FF-Units in die TMUs eingelagert, damit ein Teil von RT auf HW stattfinden kann.
Auch bei ML versucht man einen Großteil auf den normalen SPs auszulagern, welche man etwas aufgebläht hat. ML und RT wird immer wichtiger werden bzw. zwingend notwendig. Nun hat man die WGPs intern verdoppelt bzw. doppelt soviele SPs reingequetscht. NV hat es mal vorgemacht und die Performance skaliert nicht linear, sondern weit darunter.

Ergo AMD wird den bisherigen Ansatz weiter gehen, hat aber die SPs nun intern verdoppelt (VLIW2?! was soll das überhaupt bringen). Für normale Usecases gibt das nicht viel extra Performance, eher so im unteren zweistelligen %-Bereich. Raytracing und ML (bei DL weiß ich es, bei Raytracing muss ich noch tiefer buddeln) eigentlich nur aus Dot-Products und Vector-Products. Das wird bei NV auf Tensor-Cores ausgelagert, aber normale SIMD-Units können das auch sehr gut. Es fehlt aber einfach an der Rohleistung, ergo muss man zwingend mehr Rechenknechte verbauen und das macht AMD diesmal wohl. Wir denken, dass das die Performance sich verdoppelt, die Realität wird aber sein, dass das nur für AI und RT-Workloads eine größere Relevanz spielt.

Ich sag mal Folgendes (abseits aller Gerüchte):
- Die Anzahl der FF-Units in den TMUs fürs RT wird verdoppelt, eventuell haben wir doppelt soviele TMUs pro WGP
- die SPs werden intern auch verdoppelt in Richtung VLIW2 um RT und AI Workloads zu beschleunigen
- Ansonsten macht es keinen großen Sinn

Bzgl. Chiplets:
- GCD und MCD sieht für mich ziemlich bekloppt aus
- es gab Gerüchte, dass man auch einen noch größeren Navi3x-Chip als Konter vorbereitet und dieser dann einen zusätzlichen GCD hat (?!)
- Multi-GPU macht generell so keinen Sinn, wenn das Konzept nur MCD und GCD vorsieht
- entweder richtiges MCM oder monolithisch
- wenn AMD auf Chiplets geht, dann richtig:
-- GCD und Command Prozessor müssen eigene Chiplets werden
-- Caches können bei den PHYs belassen werden oder falls wirklich nötig als Cache-Die und IO-Dies separiert werden
-- Multimedia-Die für den ganzen anderen Kram
-- aktiver Interposer zum verdrahten

Aufbau eines MCM-Navis:
1 CMD
mehrere GCDs
mehrere IO-Dies mit Cache
1 Multimedia-Die (könnte auch im CMD drin sein)
Interposer

Je nachdem wie die Granularität sein soll, kann N31 dann so aussehen:
1 CMD, 3 GCDs (a 16 WGPs), 3 IO-Dies mit Cache + Interposer -> 7 Chiplets

Für N32:
1 CMD, 2 GCDs (16 (-1) WGP), 2 IO-Dies mit Cache (+ 1 MD) + Interposer --> 5 Chiplets

amdfanuwe

2022-10-15, 13:57:53

Abseits der ganzen Zahlenspielereien auf Twitter ist Lisa Sus qualitative (Ein)Schätzung zu RDNA3 von wortwörtlich "... we are feeling great about how RDNA3 looks in the labs ..." die gegenwärtig einzig belastbare Information. Sie kennt die wahren Zahlen. Trägt man derart dick auf und schürt eine hohe Erwartungshaltung, falls RDNA3 ein Performance-Flop wäre? Die Lachnummer traue ich ihr nicht zu.
Amis darf man da nicht ernst nehmen. Da ist immer alles super, keine Probleme, sieht großartig aus....
Aus Lisas Aussage würde ich lediglich mitnehmen: RDNA3 läuft schon mal im Labor.
Ansonsten hätte sie nichts dazu gesagt.

why_me

2022-10-15, 14:01:42

Woher kommt eigentlich das VLIW2? Ist das sicher aus irgendwelchen Treibern? Oder basiert das auf dem "Super-SIMD" patent von AMD?

basix

2022-10-15, 14:08:25

VLIW2 hält sich hartnäckig, ist aber falsch. Gibt dazu Beiträge von Gipsel und weiteren hier im Thread.

bbott

2022-10-15, 14:38:50

Du erinnerst dich an Raja? Da ist nämlich die Frage ob das wirklich nur Schmierentheater war oder um die shareholder bei der Stange zu halten. Letzteres könnte auch Lisa tun (müssen).
LOL Raja reist ständig die Klappe auf und preist schon Reisbrett Entwürfe als genial an. Lisa wartet auf Endprodukt und gibt dazu kurz vor Release ein Kommentar. Merkst du was?

Virtual

2022-10-15, 14:39:14

Amis darf man da nicht ernst nehmen. Da ist immer alles super, keine Probleme, sieht großartig aus....
Aus Lisas Aussage würde ich lediglich mitnehmen: RDNA3 läuft schon mal im Labor.
Ansonsten hätte sie nichts dazu gesagt.
Mmmmh! So kann man es auch interpretieren. Aber, falls RDNA3 sich Ende August nur bei diesem Entwicklungsstand "RDNA3 läuft schon mal im Labor" befand und es darüber hinaus keinerlei Anhaltspunkte für eine realistische Leistungseinschätzung gab, oder gar ein Flop zu vermuten stünde, dann verhält auch der typische Ami-CEO (Bsp. Pat & Intel Arc) eher still bzw. trifft höchstens eine zurückhaltende Aussage entsprechend deiner Einschätzung, sonst riskiert man für wenig Nutzen mögliche Sammelklagen ob der öffentlichen Falschinformation, die in "we are feeling great about how RDNA3 looks in the labs" für darauf spezialisierte Anwälte zu finden ist. Außerdem deutet die Demo einen anderen Entwicklungsstand an, was deine Interpretation eher als Resultat deiner Verallgemeinerung eines "typischen" Ami-CEO erscheinen lässt.

Iscaran

2022-10-15, 14:39:31

Die Gerüchte sind jedenfalls relativ eindeutig ~40 WGP aber praktisch x2 SPs

Bisher hatte AMD ja 64 SPs pro CU und 2 CUs = 1 WGP (RDNA2 6900 XT: 64SP *2 pro CU* 40 WGP = 5120 SPs bei RDNA2)

Bei RDNA3 dagegen liegen die SP zahlen alle irgendwie x2, und die WGP Zahl ist nur mäßig höher (48 WGP bisweilen Anfangs waren aber höhere WGP Zahlen in der Diskussion (weil man vermutlich die Zahl der SPs kannte, aber wenig zum Aufbau des Chips.

IMHO gibt es hier 2 Varianten wie AMD das Problem angehen kann.
1. es sind nur 4 CUs / WGP
2. es sind nun 128 SPs / CU.

Je nachdem welchen Weg man gegangen ist, dürfte sich auch Cache und Register aufbau geändert haben. Allerdings hab ich keine genaue Kenntnis davon wie und wo Cache/Register eher den CUs oder den einzelnen SPs zugeordnet sind.

Ich MEINE mich zu erinnern dass bei AMD (RDNA aber auch schon GCN?) alle lokalen Caches/Register usw. auf CU oder teilweise auch höher auf WGP-Ebene lokalisiert sind.

Da aus den Treiberentries nun schon bekannt ist, dass AMD auch ein paar Cache und Registergrößen vergrößert hat, neige ich zur Annahme man hat nun 4CUs/WGP (aber nachwievor 64SPs/CU.)

Dies dürfte IMHO aus Effizienzgründen so sein, 64SPs pro Einheit sind vermutlich besser auslastbar, als 128. Vielleicht gerade ein Grund warum bei nVidia die Architekturmaßzahl bei Turing => Ampere so gedropped ist als man ja von 64SP pro Cluster wegging auf 128.

Aber das ist nur eine ziemlich vage Spekulation eines interessierten Laien.

TheGood

2022-10-15, 15:05:55

Ich denke du spielst auf Nanite an? Dennoch ist RT inkl. GI ein integraler Bestandteil von UE5 ;) Die feine Geometrie will auch entsprechend ausgeleuchtet werden. Bei der Virtual Shadow Maps bin ich mir zwar nicht sicher, ob das via RT gemacht wird oder irgendwie ein Nanite Beiprodukt ist. RT-Beleuchtung ist zudem eigentlich immer(!) qualitativ hochwertiger als dessen RZ Pendant. Selbst auf "RT-Mittel". Und RT ist langfristig eh das Endziel. Wenn dies jetzt mit Accelerator-Units in GPUs beschleunigt wird, wieso das verteufeln? Damit RT nun performant läuft, ist vor allem ein SW Frage. Die HW wäre mMn genug schnell.

Hochwertige Geometrie darzustellen, ist hauptsächlich Sache der Entwickler. Nvidia hat aber mit Mesh Shader und neu Micro-Meshes Dinge in ihre GPU eingeführt, mit welcher detaillierte Geometrie deutlich performanter abgebildet werden kann. Nur nutzt das momentan noch niemand. HW wäre aber da.

So wie heute Spiele aufgebaut sind, kann RT zudem gar nicht alle Vorteile ausspielen. Die meisten Spiele sind hinsichtlich Spielwelt ziemlich statisch. RT ist voll-dynamisch. Änderungen an der Spielgeometrie werden sofort abgebildet (z.B. einstürzende Geäude, umfallendes Zeugs, ...). Wenn man zwischen Realtime RT und RZ keinen oder nur marginalen Unterschied sieht, ist das dem Baked-Lightning geschuldet (welches Oflline-RT ist). Man kann mit Tricks sowie Interpolation über mehrere solcher baked Lightmaps die Illusion von dynamischem Verhalten erzeugen. Ist dann aber nur so dynamisch, wie es der Entwickler vorgesehen hat. Und es ist eine heiden Arbeit. Volldynamisches GI ist definitv eine Arbeitserleichterung für den Entwickler. Dann kann sich der mehr auf hochqualitative Assets (Geometrie) konzentrieren ;) Die UE5 ist hier mit Nanite nochmals weiter gegangen, da der ganze Prozess rund um Geometrie-Erzeugung und dynamischem LoD gleich mit abgearbeitet wird und der Entwickler sich nicht mehr um die verschiedenen LoD-Stufen kümmern muss.

Ja mir ist klar dass RAytracing den Entwicklern viel Aufwand erspart und es wird auch nicht verteufelt. FAkt ist aber auch dass nach über 4 Jahren wenig Raytracing im GAming angekommen ist. Das dürfte in den nächsten zwei Jahren, danke den Konsolen besser werden, aber dafür wird der AMD Ansatz ausreichend sein, weil das das Minimum ist. Und meistens ist das ja, was globale BEleuchtung betrifft performant und sieht am Ende "besser" (für manche auch "anders" ) aus.
Für die LIchgtberechnung in UE5 ist ja LUMEn zuständig, leider ist mir nicht bekannt in welcher Form da RT eingesetzt wird. Bewusst rausgehört habe ich das noch in keiner Präsentation von EPIC.

Daher ist es selbst bei der jetzigen Generation noch nicht unbedingt ein KO Kritierium, aber es wird immer wichtiger werden. GGF. ist ADA implentierung die ersten die auch in ein paar Jahren noch mitkommt, denn wie gesagt die Entwicklung von Raytarcing in HArdware ist ja immer noch ganz am Anfang und wird noch Jahre brauchen bis sie eine Endstufe erreicht hat.

Wenn jetzt jemand alle 2-4 Jahre ne neue Graka kauft, dann ist das Kriterium vernachlässigbar. Gilt auch für Spieler die nur eher ältere titel oder Indie und mittelgroße Titel kaufen.
Für Leute die langfristig kaufen mag es wichtiger sein. Ich wollte mir eigentlich eine RDNA2 GPU kaufen, zuerst haben mich die hohen Preise zurückgehalten und nun das erwarten der neuen Generation welche hoffentlich im RT Konkurrenzfähiger sein wird. Andererseits brauche ich auch nicht unbedingt ein TOP Modell, da ich eher nur alte Games zogge.
Nvidia kaufe ich aus Prinzip nicht.

Virtual

2022-10-15, 15:34:17

AMD hat bisher immer versucht mit ihren GPU-Architekturen das General Purpose Processing hochzuhalten. Bei RT wurden zusätzliche FF-Units in die TMUs eingelagert, damit ein Teil von RT auf HW stattfinden kann.
Auch bei ML versucht man einen Großteil auf den normalen SPs auszulagern, welche man etwas aufgebläht hat. ML und RT wird immer wichtiger werden bzw. zwingend notwendig. Nun hat man die WGPs intern verdoppelt bzw. doppelt soviele SPs reingequetscht. NV hat es mal vorgemacht und die Performance skaliert nicht linear, sondern weit darunter.

Ergo AMD wird den bisherigen Ansatz weiter gehen, hat aber die SPs nun intern verdoppelt (VLIW2?! was soll das überhaupt bringen). Für normale Usecases gibt das nicht viel extra Performance, eher so im unteren zweistelligen %-Bereich. Raytracing und ML (bei DL weiß ich es, bei Raytracing muss ich noch tiefer buddeln) eigentlich nur aus Dot-Products und Vector-Products. Das wird bei NV auf Tensor-Cores ausgelagert, aber normale SIMD-Units können das auch sehr gut. Es fehlt aber einfach an der Rohleistung, ergo muss man zwingend mehr Rechenknechte verbauen und das macht AMD diesmal wohl. Wir denken, dass das die Performance sich verdoppelt, die Realität wird aber sein, dass das nur für AI und RT-Workloads eine größere Relevanz spielt.

...

"Ergo AMD wird den bisherigen Ansatz weiter gehen" ... und diese Kontinuität im Ansatz mit notwendigen (Detail-)Verbesserungen/-Anpassungen der Arch hinsichtlich wesentlich breiteren Designs würde ich auch erwarten. Das liegt einfach auf der Hand. Allerdings hast du bei deiner Leistungseinschätzung den den %Gewinn durch das vermeintliche Hochtaktdesign nicht gewürdigt, das zudem einen "günstigen" Betriebspunkt ermöglicht, sofern die Rohleistung der zusätzlichen Einheiten nebst darauf abgestimmte Verbesserungen der Arch ausreichend Spielraum bereitstellt.
Bzgl. des kaufbaren Ergebnisses hängt auch viel davon ab, wo man sich im Vergleich zu NVidia einordnen möchte, will heißen, vielleicht ist der längste Balken nicht Priorität, sondern das Gesamtpaket aus Balkenlänge/Preis/Effizienz/... bei geschätzt günstigeren Herstellungskosten (im Vergleich zur 4090).

Die Kritik am aktuellen Stand des RDNA Chiplet-Design ... "GCD und MCD sieht für mich ziemlich bekloppt aus", "Multi-GPU macht generell so keinen Sinn,wenn das Konzept nur MCD und GCD vorsieht", "entweder richtiges MCM oder monolithisch" ... empfinde ich als zu harsch formuliert. Das RDNA3(Chiplet)-Design ist eher ein behutsamer, evolutionärer Zwischenschritt mit Fokus auf Machbarkeit und Kosteneffizienz und sicher nicht die geplante Vollendung dessen schon heute, was Chiplets-Design zukünftig erreichen werden. Ein zu großer Schritt, auch wenn es der "Tech-Knaller" wäre, war AMD wohl zu riskant bzw. nicht technisch sinnvoll umsetzbar -> Gut so! Alles in allem sollte für N31 die 4090 erreichbar sein und selbst bei RT zumindest auf Schlagdistanz aufschließen. Ansonsten wäre Lisas Aussage "we are feeling great about how RDNA3 looks in the labs" eine Falschinformation.

dargo

2022-10-15, 15:37:56

Du zweifelst ernsthaft den Vorteil eines Fullnodeshrinks an? :|

Mich beschleicht das Gefühl du hast überhaupt nicht meinen Text verstanden. Dann versuche ich es mal anders... nehmen wir an N5 ist bei gleichen Takt 15% (fiktive Zahl) effizienter als N6. Dann lässt du den N6 Chip einfach mit etwas weniger Mhz beim Betriebspunkt laufen und schon hast du die 15% wieder drin. Oder halt 10%, such dir was passendes aus. Niemand wird bei einem Mainstream Chip wie N33 (spekuliert werden um die 200mm² für die gesamte GPU) nach paar "geopferten" Frequenzen heulen wenn das Ding dafür sehr günstig produziert werden kann.

Edit:
Übrigens... Arc A380 ist in N6 157mm² groß mit einer TDP von 75W. Nur um mal grob zu zeigen von welchen Relationen wir hier sprechen. Wenn N33 in N6 bei ca. 200mm² rauskommt würde es mich überraschen wenn das Ding mehr als 120W verbraucht.

Orko

2022-10-15, 15:58:57

Allerdings ist mir aufgefallen, dass ich deine 2E-6 nicht ganz verstehe als Faktor.

Ich habe in der Formel
Missrate = 0.02 + 0.000125 * Wurzel(Pixelanzahl)
gemäß dem gewählten Ansatz ("Wenn sich Datengröße (Pixelanzahl) und IF$-Größe im selben Verhältnis ändern, bleiben die Hit- und Missraten gleich.") nur den Parameter "Pixelanzahl" durch die die beiden Parameter "Pixelanzahl / Cachegröße_in_MB" ersetzt

0.000125 * Wurzel(Pixelanzahl) = 0.000125 * Wurzel(Pixelanzahl * Cachegröße_in_MB / Cachegröße_in_MB)
= [für das Ausgangsdatenset mit 128MB] 0.000125 * Wurzel(Pixelanzahl * 128 / Cachegröße_in_MB).

Für den Steigungsfaktor also
0.000125 * Wurzel(128) = 0.000125 * Wurzel(2 * 8^2) = 0.000125 * 8 * Wurzel(2) = 0.001 * Wurzel(2)

Ich hab dann nur noch Buchstaben gespart in der Darstellung
Missrate = 0.02 + Wurzel( 2E-6 * Pixelanzahl / Cachegröße in MB )
und hätte ganausogut schreiben können
Missrate = 0.02 + Wurzel(2) * (Pixelanzahl in Megapixel / Cachegröße in MB )
oder (falls 1MB = 1000000 B gilt):
Missrate = 0.02 + Wurzel(2) * (Pixelanzahl / Cachegröße in B )

In der Zahl 128 = 2 * 8^2 gibt es halt genau den Faktor 2 welcher nichtquadratisch ist. Wäre das Ausgangsdatenset nicht bei 128MB Cachegröße sondern bei 192MB Cachegröße gegeben gewesen, dann würde dort wegen 192 = 3 * 8^2 dort als Steigungsfaktor eine Wurzel(3) stehen. Und wäre das Ausgangsdatenset nicht bei 128MB Cachegröße sondern bei 96MB Cachegröße gegeben gewesen, dann würde dort wegen 96 = 6 * 4^2 dort als Steigungsfaktor eine 0.5*Wurzel(6) stehen.

Wurzel(2) beschreibt in dieser Darstellung (zusammen mit dem Achsensbschnitt 0.02) einfach rein mathematisch die lineare Charakteristik des Ausgangsdatensets. Keine Ahnung inwiefern dieser Faktor "Wurzel(2)" einen irgendwie technisch begründeten Hintergrund hat.

0.016*Wurzel(Pixel)/Cache + 0.98 = Hitrate in %

Ich habe gemäß meinem gewählten Ansatz ("Wenn sich Datengröße (Pixelanzahl) und IF$-Größe im selben Verhältnis ändern, bleiben die Hit- und Missraten gleich.") den Cache unter die Wurzel gesetzt: "Wurzel(Pixel/Cache)"

Da hast mit "Wurzel(Pixel)/Cache" einen anderen Ansatz gewählt, wie Cachegrößen ungleich 128MB berücksichtigt werden sollen, und kommst dementsprechend natürlich zu anderen Ergebnissen - für alle Cachegrößen ungleich 128MB.

Mich würde deine Begründung für diesen von dir gewählten Ansatz interessieren.

Danke dir für deine Beobachtung und Korrektur mit der Wurzel.

Auf der einen Seite stehen Parameter die Datengrößen beschreiben: Pixelanzahl (als Näherung für die zu bearbeitende Datenmenge) und Cachegröße (im Cache speicherbare Datenmenge). Auf der anderen Seite Parameter die die Eigenschaften des Cache beschreiben: Hitrate bzw Missrate. robbitop hatte ja bereits mehrfach, jedoch ohne Begründung, darauf hingewiesen, dass die Beziehung zwischen diesen beiden Seiten (in guter Näherung) die Quadratwurzel ist. Insofern war es naheliegend in den verfügbaren Datensets die Wurzel der zu erledigten Arbeit (Pixelanzahl) und die Cacheferformance (Hit- bzw Missrate) auf Proportionalität und Linearität zu prüfen.

Mich hatte an deinem Ansatz halt nur gestört, dass bei Verwendung der Auflösungsbezeichnungen (1080p usw) der gedankliche Übergang von der Problemstellung zur mathematischen Beschreibung dieses Problems methodisch etwas unsauber ist. Rein mathematisch betrachtet macht das jedoch keinen Unterschied. Sofern die Bildschirmproportionen gleich bleiben, entspricht die Pixelanzahl dem Quadrat der Auflösungsbezeichnung (mit einem Korrekturfaktor), und damit sind Wurzel(Pixelzahl) und die Auflösungsbezeichnungen proportional.

Bei Verwendung von Wurzel(Pixelzahl) bin ich dann unerwarteterweise auf diesen ganz exakten Wert 0.000125 für die Steigung gekommen. Das war für mich das eigentliche Interessante: Dass die Ausgangs-Datensets höchstwahrscheinlich modelliert und nicht gemessen sind.

Orko

2022-10-15, 16:01:58

Wurzel(Pixelzahl) - jemand ne Idee was da technisch dahintersteht?

Das würde mich auch interessieren.

Missrate = 0.02 + Wurzel( 2E-6 * Pixelanzahl / Cachegröße in MB )
Hitrate = 0.98 - Wurzel( 2E-6 * Pixelanzahl / Cachegröße in MB )

Dass es sich bei der linearen Abhängigkeit um eine lineare Approximation eines komplexeren Modells im interessanten Arbeitsbereich handelt, davon ist auszugehen. Allein dass eine Pixelanzahl mit Wertebereich [0 ... unendlich] auf einen Wahrscheinlichkeitswert mit Wertebereich [0 ... 1] abgebildet wird spricht dafür.

Auch auf die Parameter 0.02 bzw 0.98 würde ich nix geben, denn die sind wahrscheinlich willkürlich gewählt, so nach dem Guard-Band-Prinzip: Wir haben hier ein komplexes mathematisches Modell. Lass uns für die maximale Hitrate ein fixes Limit vom 98% setzen, da 100% in den allermeisten Anwendungsfällen einfach unrealistisch ist.
Und damit ergibt sich nach einer lineare Approximation dieses Modells (oh Wunder) eine maximale Hitrate von 98%, und bei Pixelanzahl = Null genau der Achsenabschnitt von 0.98.
Es hätten also genauso auch 0.99 oder 0.97 sein können.

Laut Ausgangs-Datenset umfasst der Arbeitsbereich zumindest den Hitratenbereich 62% ... 80%. Ich würde raten dass auch im Bereich 31% ...90% noch (mit abnehmender Genauigkeit) linear approximiert werden kann. Der Bereich kleiner 31% und größer 90% würde ich als Gültigkeitsbereich der linearen Formeln ausschliessen. Damit ist es relativ egal, ob der Achsenabschnitt mit 0.97 oder 0.98 oder 0.99 angesetzt wird - alles weit ausserhalb des linearen Anwendungsbereiches.

Aber warum Hit und Missraten überhaupt mit der Quadratwurzel(Pixenanzahl) und der Quadratwurzel (Cachegröße) korrelieren, und nicht mit irgend einer anderen Funktion wie z.B. der Kubikwurzel oder einem passenden Logarithmus, das frage ich mich auch.

Dass bei Pixelanzahl -> 0 und/oder Cachegröße -> unendlich (OK, DRAM Größe reicht) die Hitrate -> 100% bzw die Missrate -> 0% geht, ist ziemlich einleuchtend und wird auch von der Quadratwurzel perfekt modelliert.

Aber bei Pixelanzahl -> unendlich und/oder Cachegröße -> 0 erzeugt die Quadratwurzel schnell (edit) Missraten > 100% bzw (edit) Hitraten < 0%, was offensichtlich unsinnig ist.

Wenn die Ausgangswerte Wahrscheinlichkeiten sind, hätte ich hier eher eine der dafür typischen Funktionen erwartet, z.B. Gauss-Glocken:
Wahrscheinlichkeitswert = Faktor * Exponentialfunktion [ - irgendeine Potenzfunktion incl Wurzeln (Pixenanzahl/Cachegröße) ]

Ich kann daher nur mutmaßen, dass auch diese Quadratwurzel nicht die ganze Wahrheit ist, sondern nur eine Näherung mit eingeschränktem Gültigkeitsbereich darstellt. Sobald sich die (edit) Missrate der 100% Marke nähert, ist diese Quadratwurzel nicht mehr gültig.

basix

2022-10-15, 16:50:00

Für die LIchgtberechnung in UE5 ist ja LUMEn zuständig, leider ist mir nicht bekannt in welcher Form da RT eingesetzt wird. Bewusst rausgehört habe ich das noch in keiner Präsentation von EPIC.

Lumen ist Raytracing ;) Wenn kein HW-RT unterstützt wird, gibt es einen SW-Fallback. Ist dann immer noch RT, allerdings mit geringerer Qualität.

Das ist ja der ganze Witz an der UE5: Erhöhung Entwicklereffizienz (neben Steigerung der Qualität)
- Nanite: Kein LoD Authoring für Geometrie
- Lumen: Kein manuelles setzen von Fake Light oder Light Baking

Lumen Doku:
https://docs.unrealengine.com/5.0/en-US/lumen-global-illumination-and-reflections-in-unreal-engine/
Use Hardware Ray Tracing when available
Software Ray Tracing Mode

Gipsel

2022-10-15, 17:08:46

Woher kommt eigentlich das VLIW2? Ist das sicher aus irgendwelchen Treibern? Oder basiert das auf dem "Super-SIMD" patent von AMD?
VLIW2 hält sich hartnäckig, ist aber falsch. Gibt dazu Beiträge von Gipsel und weiteren hier im Thread.
Siehe hier (https://www.forum-3dcenter.org/vbulletin/showthread.php?p=13044597#post13044597). Es ist kein allgemeines Feature, nur relativ wenige Befehle können in so eine Doppel-Instruktion gepackt werden. Alleine dafür würden sich verdoppelte SPs pro CU wohl kaum lohnen. Deswegen wird auch spekuliert, daß sich die Schedulerresourcen verdoppelt haben könnten (oder zumindest aufgebohrt wurden).

why_me

2022-10-15, 17:35:08

Siehe hier (https://www.forum-3dcenter.org/vbulletin/showthread.php?p=13044597#post13044597). Es ist kein allgemeines Feature, nur relativ wenige Befehle können in so eine Doppel-Instruktion gepackt werden. Alleine dafür würden sich verdoppelte SPs pro CU wohl kaum lohnen. Deswegen wird auch spekuliert, daß sich die Schedulerresourcen verdoppelt haben könnten (oder zumindest aufgebohrt wurden).

Also geht es in die Richtung, wie es im AMD patent beschrieben wird?
https://patentimages.storage.googleapis.com/f4/ed/74/2dbfa00a7be4bb/US20180121386A1.pdf
Instruction scheduler selects one VLIW2 instructions
from the highest priority wave or two single instructions from two waves based on priority

Iscaran

2022-10-15, 19:02:58

@Orko: Danke dir für deine ausführlichere Darlegung!

Ah, verstehe du bildest die Wurzel aus Pixel/Cachegröße...

Interessanterweise ergibt mein Verfahren Wurzel(Pixel) / Cachegröße eine EXAKTE Übereinstimmung mit den publizierten Daten. (Also nicht Wurzel (Pixel/Cache) sonder Wurzel (Pixel)/ Cache. Die Cachegröße ist bei mir nur eine konstanter Teiler.

EDIT: Beispiel, Konkret für die Publizierten 3 Zahlen 80%, 74%, 62%
FHD = 1920x1080 = 2073600 Pixel
=> Wurzel(2073600) = 1440
=> Geteilt durch Cache in MB = 1440/128 = 11.25
=> 11.25*(-0.016) + 0.98 = Hitrate in %
Warum die Steigung nun Wurzel(Pixelzahl)/Cachegröße * -0.016 ist (und warum man als "Deckel" 0.98% Hitrate addieren muss um hier die Linearität in den Daten zu haben ist die interessantere Physikalische/Informationstechnische Frage, von der ich NULL Ahnung habe :-).
/EDIT

Das würde mich auch interessieren.

Zum IT-Technischen/Physikalischen Hintergrund: keine Ahnung. :-)
Ich vermute es liegt eher am sehr begrenzen Parameterraum (3 Punkte) die benutzt werden kann um überhaupt eine Näherungsformel zu erstellen.

Aber warum Hit und Missraten überhaupt mit der Quadratwurzel(Pixenanzahl) und der Quadratwurzel (Cachegröße) korrelieren, und nicht mit irgend einer anderen Funktion wie z.B. der Kubikwurzel oder einem passenden Logarithmus, das frage ich mich auch.

Ja, ich hätte gehofft dass einer der Pro-ITler/GPUler hier im Topic hierzu was einwerfen kann *zu Basix schiel* :-).

Dass bei Pixelanzahl -> 0 und/oder Cachegröße -> unendlich (OK, DRAM Größe reicht) die Hitrate -> 100% bzw die Missrate -> 0% geht, ist ziemlich einleuchtend und wird auch von der Quadratwurzel perfekt modelliert.

Aber bei Pixelanzahl -> unendlich und/oder Cachegröße -> 0 erzeugt die Quadratwurzel schnell Hitraten > 100% bzw Missraten < 0%, was offensichtlich unsinnig ist.

Korrekt, aber beide Fälle sind ja auch irgendwo "physikalisch" unsinning. Ein Monitor mit unendlicher Pixelzahl oder eine Cache von unendlich wird es nicht geben. Ein Cache von 0 hat per definition eine Hitrate von 0%...ein sehr kleiner Cache wohl auch.

Die Wurzel könnte daher kommen, dass ja die Skalierung von GPU-Leistung auch in etwa mit Wurzel aus Pixelzahl "linear" korreliert.
EDIT-Nachtrag: Offensichtlich gibt es bei meinem Ansatz einen "Crossover" bei 24MB wo die Hitrate praktisch 0% erreicht /EDIT. Dies ist vermutlich Unsinn. Nach oben hin, zu größeren Caches hingegen nähert sich die funktion immer mehr 98% an, erreicht den Wert so in etwa ab 50 GB. So gesehen ist es offensichtlich, dass wir hier eine Approxixation einer komplexen Funktion haben, die in einem bestimmten Bereich nahezu LINEAR verläuft, aber bei bestimmten Unter/Obergrenzen dann sehr kollabiert (gegen 0% geht bzw sich 100% annähern müsste)

Wenn die Ausgangswerte Wahrscheinlichkeiten sind, hätte ich hier eher eine der dafür typischen Funktionen erwartet, z.B. Gauss-Glocken:
Wahrscheinlichkeitswert = Faktor * Exponentialfunktion [ - irgendeine Potenzfunktion incl Wurzeln (Pixenanzahl/Cachegröße) ]

Möglich, aber mit nur 3 Ausgangsdatenpunkte ist es unsinn irgendwas anderes als eine Lineare funktion zu "Modellieren". Erstaunt hat mich, DASS es mit einer relativ simplen linearen Funktion geklappt hat.
=> Wie du schon vermutest, hat AMD hier offenbar selbst Zahlen aus einer Modellierung benutzt, welche sich dann nochmals approximativ im Bereich um 128 MB Cache als "perfekt lineare" Funktion abbilden lässt.

Ich kann daher nur mutmaßen, dass auch diese Quadratwurzel nicht die ganze Wahrheit ist, sondern nur eine Näherung mit eingeschränktem Gültigkeitsbereich darstellt. Sobald sich die Hitrate der 100% Marke nähert, ist diese Quadratwurzel nicht mehr gültig.
Bestimmt ist dies so. ICh vermute sogar, dass wir einfach ein Empirisches Scaling gesetz gefunden haben, dass es so in der Realität nicht gibt.
Die Perfekte Übereinstimmung (R^2=1) ist nur ein Artefakt aus der limitierten Anzahl an Datenpunkten zur Formelermittlung.

aceCrasher

2022-10-15, 19:41:12

AMD spricht nicht mehr vom Launch am 3.11. (https://www.pcgameshardware.de/Radeon-RX-7000-Grafikkarte-278190/News/nicht-mehr-Launch-am-311-sondern-Enthuellung-1405372/)

Thomas Gräf

2022-10-15, 19:57:59

Ja gut, aber sie lassen dann endlich die Katze aus'm Sack am 3.Nov.
Die Spannung is ja zum zerreißen...

horn 12

2022-10-15, 20:03:45

OgrEGT

2022-10-15, 20:45:00

Gipsel

2022-10-15, 22:29:30

Also geht es in die Richtung, wie es im AMD patent beschrieben wird?
https://patentimages.storage.googleapis.com/f4/ed/74/2dbfa00a7be4bb/US20180121386A1.pdfJa, so ungefähr. Das Patent spricht ja auch explizit von entweder einer VLIW2-Instruktion (also zwei gepackten Instruktionen für eine Wavefront) oder zwei normalen Instruktionen (für zwei unterschiedliche Waves).
Was davon wirklich kommt, ist noch unklar (also Spekulation). Aus den LLVM-Compilerpatches ist bisher nur der VLIW2- (VOPD-) Teil sicher (für eine eng begrenzte Auswahl an Instruktionen). Und daß die Allocation-Granularität für die vGPRs um 50% steigt (was meiner Meinung nach dafür spricht, daß es auch 50% mehr Registerbänke gibt, auch wenn es im B3D-Forum Gegenargumente gab). Im Patent blieb es dagegen bei 4 Regfile-Bänken und die zusätzlich nötige Bandbreite für die Operanden sollte von einem Operanden-/Registerfile-Cache geliefert werden. Es ist also nicht sicher wie viel von dem Patent umgesetzt wird (oder bei RDNA3 anders gelöst wird). Gibt es mehr Registerfile-Bänke, wird eventuell am Registerfilecache gespart. Oder es ist nicht nötig, weil keine Issue von zwei unabhängigen Instruktionen (für zwei Waves) gleichzeitig erfolgen kann. Das wäre dann das Sparbrötchen mit einem geringeren Vorteil der doppelten ALUs (offenbar haben nicht alle RDNA3-GPUs [N33 nicht?] mehr Register und die erhöhte Granularität für die Registerallokation, sondern nur einige [N31/N32?]). Kann man die doppelten ALUs nur über VOPD nutzen, würden die verdoppelten ALUs wohl nur relativ wenig bringen. Ist dual issue von 2 Waves möglich, bringt es dagegen recht viel. Dann limitieren eher Registerbandbreite (nur +50%?, Operanden-/Registerfile-Cache zum Ausgleich?) oder die anderen Ressourcen wie TMUs oder auch LDS bzw. je nach ausgeführtem Shader auch mal die Skalar-ALU (unter der Annahme, daß die nicht auch verdoppelt wurde, was aber eher unwahrscheinlich ist). Verdoppelte TMUs hätte übrigens den Charme, daß damit auch die RT-Ressourcen pro CU verdoppelt würden (also proportional zu den theoretischen Peak-Flops steigen würden, also etwas überproportional zur echten Leistung, selbst ohne weitere technische Verbesserungen).

Badesalz

2022-10-16, 10:07:30

Guru 3D schriebt anders, User:

There will be some SKU available Nov 3, others coming later. As for competing, they will compete in raster performance, just not in RT. Seems your info is coming from NV shills"from NV shills" :rolleyes: ist doch 100% mit DLSS3 gemeint. Bedeutet garnichts bei deren Renderqualität. Falls man das so überhaupt noch nennen kann...

Die Frage ist also eher, ob sie mit normaler Renderquali bei RT verkürzen konnten. Bei Raster scheinen sie einen großen Schritt gemacht zu haben.

Raff

2022-10-16, 11:04:20

Hier ein paar Gründe, warum der Leistungsfaktor 3 bis 4 beim Raytracing gut wäre: Geforce RTX 4090 am Limit: Schafft sie Raytracing in Ultra HD ohne Upscaling? (https://www.pcgameshardware.de/Geforce-RTX-4090-Grafikkarte-279170/Tests/RTX-4090-Raytracing-Benchmarks-1405125/)

Dort mischt ein Navi 21 @ ~2,6 GHz und 19,2 GT/s mit - und verliert gegen eine RTX 3090 Ti haushoch, welche wiederum von der RTX 4090 gedemütigt wird. Das Potenzial für AMD, hier Sprünge zu machen, ist sehr groß. Das wissen die Ingenieure auch. Die Frage ist nur, ob man diese Investition nun macht, oder eben nicht. Faktor 2 auf Pro-Takt-Basis (praktisch, nicht theoretisch) und ein zusätzliches Taktplus wären ein guter Anfang, aber ausgehend von den Ray Accelerators in RDNA 2 ginge mit Fixed-Function-Zusätzen noch deutlich mehr.

MfG
Raff

fondness

2022-10-16, 11:07:13

Ist die Frage ob da nicht auch der Speicher bei N21 teilweise ausgeht.

dildo4u

2022-10-16, 11:08:31

Ghostwire sieht ok aus waren die ersten UE Games mit RT nicht fast unspielbar? Sieht so aus als ob es an Konsole angepasst wurde.

Raff

2022-10-16, 11:08:58

Ist die Frage ob da nicht auch der Speicher bei N21 teilweise ausgeht.

Nee, mit 16 GiB wäre auch die neue Generation prima aufgestellt - zumindest, was aktuelle Spiele angeht.

MfG
Raff

Linmoum

2022-10-16, 11:37:03

Die EE von Metro spiele ich gerade auf der 4090, das ist echt ein Segen. Die hatte ich mit der 6900XT nur mal ausprobiert, aber da waren mir die fps direkt am Anfang in der ersten spielbaren Szene schon zu wenig (ist schon eine Weile her, iirc waren das 3xfps irgendwas, und das ist ja noch lange nicht Worst Case). Hybrid war keine Option, da das einfach kacke aussieht. Mit der 4090 war ich da schon komfortabel dreistellig ohne irgendwelche Abstriche bei Settings und ohne DLSS.

Man kann definitiv nur auf einen deutlichen RT-Schub bei RDNA3 hoffen. Faktor 2x reicht hier schon nicht mehr aus, denn dann würde man sich wohl nur mit einem AD104 prügeln. Wobei selbst das dann außer Reichweite wäre, wenn wir von wirklichen Worst Cases reden, wo GA102 schon jetzt deutlich >2x davonzieht.

Ich bin echt gespannt, was sie da aus dem Hut zaubern. Wobei ich mir das wahrscheinlich schon denken kann. Am 03.11. gibt's Raster-Benchmarks vs. 4090, wo man noch ganz gut darstehen wird. RT wird entweder komplett verschwiegen oder man zeigt Benchmarks vs. 3090Ti. Am besten noch in Kombination mit FSR, damit es nicht ganz zu düster aussieht.

Badesalz

2022-10-16, 13:58:24

@Linmoum
Ich glaub du hast dir von den ganzen Rays die Augen verblitzt. Wen draußen interessiert eine 2k€ Graka die nicht in den PC gesteckt, sondern wo der PC auf sie gesteckt wird?

Wobei ich mir das wahrscheinlich schon denken kann.Wenn du so ein Hellseher bist warum hast du die 4090 nicht eh längst vorbestellt gehabt, sondern erst auf Reviews gewartet?

Linmoum

2022-10-16, 14:23:37

fondness

2022-10-16, 15:17:51

Ich finde es ja interessant, dass man hier schon in Vorhinein weiß, dass AMD RT vernachlässigt.

Badesalz

2022-10-16, 15:31:31

Dich interessiert es scheinbar nicht, also warum dann überhaupt kommentieren?Weil es HIER nicht um NVs aktuellen Topdog geht. Du kommst hier mit irgendwelchen Annahmen, Einschätzungen, Forderungen... Was soll das werden? Die wollen Grakas an den Mann bringen die jener primär aus perf/$ und sekundär perf/watt für attraktiv genug findet. DAS bestimmt und ergibt "zeitgemäß".

Sorry, daß grad du jetzt unter die Räder gekommen bist, aber diese ständigen Fantasien aus den k... Forenblasen heraus nerven langsam so richtig. Wenn ihr so spielen wollt, warum geht ihr nicht und tut das? :rolleyes:

Bei dem Knaller von 4090 und dazu dem Gerücht, N3x wird noch nicht "competetive" sein, kann RDNA3 trotzdem immernoch massig RT-Leistung bringen. Was soll jetzt schon das Rumgeheule? Weil das wahrscheinlich nicht ausreicht um unter 4k die Spulen zum Fiepen zu bringen? (highfreq. FPS).
JA UND? Was soll der Schwachsinn?

Virtual

2022-10-16, 15:38:18

Dich interessiert es scheinbar nicht, also warum dann überhaupt kommentieren? Vor allem derart sinnlos? Und etwas vorbestellen, was man gar nicht vorbestellen kann... Blitzlogik over 9000.

Spielt aber auch überhaupt keine Rolle, da es hier um RDNA3 gehen soll und AMD N31 sicher nicht zu Spottpreisen verscherbeln wird. Wir reden hier nach aktuellen Gerüchten immer noch von Faktor >4x an N5-Fläche im Vergleich zu einem Zen4-Chiplet. AMD muss im Prinzip mindestens mit einem AD103 bei der RT-Leistung konkurrieren können und das ist ein 379mm² Die. Alles andere sorgt nicht nur für Probleme bei der Etablierung am Markt, sondern ist Ende 2022 schlicht auch nicht mehr zeitgemäß. Raster ist weiterhin relevant, trotzdem darf dies nicht auf Kosten der RT-Performance geschehen. Das war vor zwei Jahren noch verschmerzbar, aber irgendwann muss man den Schalter umlegen. Gerade dann, wenn man Premiumpreise verlangen möchte und nicht ewig die Billiglösung sein will, was ja auch das Ziel von Su ist.
Falls AMD sich wirklich gezwungen fühlt, N31 über den Preis abzusetzen, dann hätte ich gegen eine "Billiglösung" um 1000 Euro mit exzellentem Preis/Leistungsverhältnis nichts einzuwenden. Dann darf RT auch unterhalb der 4090 rauskommen, denn nicht jeder möchte die 2000 Euro Premiumpreis-Strategie von Lederjacke mitgehen. Welche (Premium-)Preisgestaltung AMD letztlich anstreben wird, das dürfte im Übrigen außerhalb von AMD aktuell niemand wissen, zumal sich Preise noch sehr kurzfristig anpassen lassen. Selbst AMD mag sich jetzt noch nicht festgelegt haben. Ich gönne dir aber deine 4090, die für RT-lastige Spiele sicher keine schlechte Wahl ist, sofern man auch bereit ist >2000 Euro an Lederjacke abzudrücken.

Bzgl. RT bei N31, hierzu gibt es nur das Geblubber einiger Twitter-Helden mit einem offensichtlichen Aufmerksamkeitsdefizit. Irgendwo zwischen N21x2 bis x4 wird N31 wohl aufschlagen. Außerhalb von AMD gab es bisher niemand, der glaubwürdige Zahlen veröffenlichen konnte oder mochte.

Cyberfries

2022-10-16, 15:42:41

Ich finde es ja interessant, dass man hier schon in Vorhinein weiß, dass AMD RT vernachlässigt.

Der Verdacht drängt sich angesichts der momentanen Verlegenheitslösung und dem Fehlen an Leaks eben auf.
Ob AMD es schafft gesonderte Raytracing-Einheiten unterzubringen, obwohl die WGPs laut Leaks schrumpfen?
Neben der erwarteten FP32-Dopplung?

Was neben extra RT-Einheiten immer geht ist Brute Force:
Mit 3- bis 4-facher Gesamtleistung kann man den RT-Rückstand auch abfangen. Nur besonders schlau ist das nicht.

There will be some SKU available Nov 3, others coming later.

Niemand wirft eine brandneue Kartengeneration auf den Markt ohne eine anständige Vorstellung.
Wenn nicht spätestens nächste Woche noch ein Vorstellungsevent stattfindet, wird man am 3.Nov nichts kaufen können.

Badesalz

2022-10-16, 15:53:28

Welche Verlegenheitslösung?

Jensen wird sie imho eh fertig machen. Nicht mit der RT40. Sein Munnlager ist mit der RT30 voll ;)

Wenn nicht spätestens nächste Woche noch ein Vorstellungsevent stattfindet, wird man am 3.Nov nichts kaufen können.Ich glaub am Launch von RT40 konnte man auch noch keine kaufen oder? Seit wann ist Launchtag die Verkaufseröffnung?

fondness

2022-10-16, 17:05:57

Der Verdacht drängt sich angesichts der momentanen Verlegenheitslösung und dem Fehlen an Leaks eben auf.
Ob AMD es schafft gesonderte Raytracing-Einheiten unterzubringen, obwohl die WGPs laut Leaks schrumpfen?
Neben der erwarteten FP32-Dopplung?

Was neben extra RT-Einheiten immer geht ist Brute Force:
Mit 3- bis 4-facher Gesamtleistung kann man den RT-Rückstand auch abfangen. Nur besonders schlau ist das nicht.

Es gibt überhaupt keine Leaks, auch nicht zur Raster Leistung. Macht auch keinen Sinn da jetzt einen paper launch abzuziehen. Das heißt aber nicht, dass die neue gpu jetzt irgendwie besonders gut oder schlecht ist.

fondness

2022-10-16, 17:06:42

Nee, mit 16 GiB wäre auch die neue Generation prima aufgestellt - zumindest, was aktuelle Spiele angeht.

MfG
Raff

Es gab schon benchmarks hier wo die 16 GB bei amd nicht reichten. Bei Nvidia scheint das etwas länger zu reichen.

mboeller

2022-10-16, 17:54:11

Der Verdacht drängt sich angesichts der momentanen Verlegenheitslösung und dem Fehlen an Leaks eben auf.

welche momentane Verlegenheitslösung?

Ob AMD es schafft gesonderte Raytracing-Einheiten unterzubringen, obwohl die WGPs laut Leaks schrumpfen?
Neben der erwarteten FP32-Dopplung?

Das basiert doch nur auf den Gerüchten von Angstronomics und anderen "Leakern" die sich bisher alle laufend widersprochen haben.

Das einzige konkrete scheint das neue AMD-Patent zu sein. Und das Patent passt zumindest halbwegs eigentlich nur zu einem Gerücht: 7 Chiplets. Alles andere ist noch offen.

FP32 verdoppelt sich ja angeblich nicht. Es verdreifacht sich incl. der höheren Frequenz (Gerüchte!!). Und was AMD dann noch gedreht hat um RT weiter zu verbessern... werden wir in 2,5 Wochen hoffentlich so halbwegs wissen.

Es besteht für mich immer noch die Möglichkeit, dass AMD nur die wichtigsten Sachen so lala vorstellen wird. In den Foren geht es dann aber erst recht hoch her. Kann also lustig werden.

Warum hier einige so komisch reden... naja, "man" muss sich wohl das viele Geld für die RTX4090 schön reden ... ein wenig auf Linmoum guck. :)

Was neben extra RT-Einheiten immer geht ist Brute Force:
Mit 3- bis 4-facher Gesamtleistung kann man den RT-Rückstand auch abfangen. Nur besonders schlau ist das nicht.

warum? Hardware für RT opfern ist doch auch nicht so schlau. Die sitzt dann bei den übrigen Spielen dumm rum und tut nix. Bei AMD werden alle Einheiten für alle Spiele eingesetzt, egal ob RT oder nicht. Das empfinde ich resourcenschonender.

Wenn nicht spätestens nächste Woche noch ein Vorstellungsevent stattfindet, wird man am 3.Nov nichts kaufen können.

hast du dein "Ultimatum" auch AMD übermittelt ;)
Nov. 3 ist "nur" die Vorstellung. Die Karten kommen später.

Cyberfries

2022-10-16, 21:10:41

Seit wann ist Launchtag die Verkaufseröffnung?
hast du dein "Ultimatum" auch AMD übermittelt ;)
Nov. 3 ist "nur" die Vorstellung. Die Karten kommen später.

Sage ich doch. Dass Horn12s Vorhersage von kaufbaren Karten am 3.Nov eintrifft ist unwahrscheinlich.

Das basiert doch nur auf den Gerüchten von Angstronomics und anderen "Leakern" die sich bisher alle laufend widersprochen haben.
Das einzige konkrete scheint das neue AMD-Patent zu sein. Und das Patent passt zumindest halbwegs eigentlich nur zu einem Gerücht: 7 Chiplets.

Etwas anderes haben wir leider bisher nicht... Das ist das wievielte Chiplet-Patent, das in diesem Thread besprochen wird?
Die anderen Patente haben alle mehr oder weniger in die gleiche Richtung gedeutet, nur das Neueste nicht.

FP32 verdoppelt sich ja angeblich nicht. Es verdreifacht sich incl. der höheren Frequenz (Gerüchte!!).

Doppelt so viele FP32-Einheiten in den WGPs.... war das mit Absicht falsch verstanden?

Hardware für RT opfern ist doch auch nicht so schlau. Die sitzt dann bei den übrigen Spielen dumm rum und tut nix. Bei AMD werden alle Einheiten für alle Spiele eingesetzt, egal ob RT oder nicht. Das empfinde ich resourcenschonender.

Wären eigenständige Einheiten weniger effizient, würden sie nicht verwendet. Wenn man natürlich davon ausgeht,
dass innerhalb des Lebenszyklus der Karte weiterhin 90+% der Anwendungen Raytracing nicht verwenden,
dann ergibt eine Schmalspurlösung Sinn. Aber ist das wirklich für Highend 2023 noch ausreichend?

Exxtreme

2022-10-16, 22:59:01

Es gibt überhaupt keine Leaks, auch nicht zur Raster Leistung. Macht auch keinen Sinn da jetzt einen paper launch abzuziehen. Das heißt aber nicht, dass die neue gpu jetzt irgendwie besonders gut oder schlecht ist.

Das Ding wird schon Faktor 4 schneller sein müssen als RDNA2 nur um in Schlagreichweite zu kommen bez. RT. Und da bin ich ehrlich gesagt nicht so optimistisch. Ich vermute mal, die werden Ampere-Performance erreichen.

Prinzenrolle

2022-10-16, 23:12:06

RDNA3 ist potentiell eine Multi Core Architektur -- da könnte so was auftreten..

Ja, die gibt's auch...😅, Nur nicht ganz so, wie man sich das vorstellt.

Ansonsten ne rechte Luftpumpe.
4090 Leistung erreicht man in keiner Metrik, aber das Kühlerdesign ist wirklich gewöhnungsbedürftig.

Radeon Boost 2.0, was soll das denn.😅
Effizienzvergleiche mit 6950XT...
Die Folien sehen auth.aus.

7800XT ~ 3090 Ti
7950XT - 85% RTX 4090
Better price, 1149 Dollar, Radeon Boost regelt..
7900XT wird wohl der 4080 16 Gegner.
Vielleicht erbarmt sich jemand das zu leaken. Bestimmt morgen auf Twitter.

why_me

2022-10-16, 23:38:17

Verstehe nicht, warum AMD nicht bei RT aufholen können soll, das ist doch jetzt auch keine Raketenwissenschaft, was Nvidia da macht.

Den Vorteil den Nvidia aktuell hat, ist dass ihre RT cores sich automatisch durch den BVH tree arbeiten und bei AMD werden nach jedem Vergelich die shader benötigt. Warum sollte AMD so etwas nicht auch implementieren können?

Wieviele Ray-Triangle Test bzw Ray-Box Tests können denn die RT-Cores pro Takt bei Nvidia verglichen mit AMDs TMU Ansatz?

Reordering ist sicherlich komplizierter, aber bei AMD arbeiten auch schlaue Menschen, denen etwas in die Richtung auch einfallen könnte... manchmal könnte man echt meinen, das manche hier glauben, das bei AMD nur ein haufen Affen in der RND-Abteilung sitzen....

Exxtreme

2022-10-16, 23:43:29

manchmal könnte man echt meinen, das manche hier glauben, das bei AMD nur ein haufen Affen in der RND-Abteilung sitzen....

Das ist mehr eine Kostensache und weniger eine Können-Sache. :)

why_me

2022-10-16, 23:57:52

Linmoum

2022-10-16, 23:59:21

Jop, mit fehlendem Know-How hat das nichts zu tun. Fairerweise muss man halt auch sagen, dass GPUs bei Nvidia auch das Kerngeschäft sind. Bei AMD liegt der Fokus noch immer ganz klar bei CPUs und Servern. Bei letzterem geht man auch All-In, was die maximal mögliche Effizienz und (MT-)Performance anbelangt.

Bei RDNA3 sieht man schon, dass das nicht der Fall ist. Zumindest nicht letzteres. N31 wäre - ausghehend davon, dass die kolportierten Größen stimmen - auch als reiner N5-Chip deutlich kleiner als ein AD102. Und das Ding hat mit seinen 608mm² schon über 75 Mrd. Xtors. Architekturen stampfst du davon ab nicht aus dem Boden, die Arbeiten an RDNA3 haben ganz sicher schon begonnen, bevor Nvidia mit Turing um die Ecke kam. Das hat alles einen riesigen Vorlauf. Da ist nichts mit "mal eben".

Raff

2022-10-17, 00:10:46

Es gab schon benchmarks hier wo die 16 GB bei amd nicht reichten. Bei Nvidia scheint das etwas länger zu reichen.

Jo, dazu muss man sich aber etwas anstrengen - also, das bei praxistauglichen Settings zu erreichen. Mittels perverser Auflösungen kriegt man 16 GiB natürlich voll (auch 24 GiB - siehe u. a. HisN hier im Forum :D), aber das endet in Kombination mit Raytracing schnell im unspielbaren Bereich. Die frischen PCGH-Benches sind jedenfalls, trotz des hohen Anspruchs, mit 16 GiB voll zufrieden.

MfG
Raff

why_me

2022-10-17, 00:16:23

Raff

2022-10-17, 00:29:02

Der Übergang ist fließend. Ein binäres "Speicher reicht, alles flüssig" zu "Speicher ist voll, starkes Ruckeln" gibt es in modernen Spielen wegen der Streaming-Systeme fast nicht mehr (hier war zuletzt Far Cry 6 eine interessante Ausnahme). Texturmatsch bzw. zähes Einladen von Details sind ein Anzeichen für vollen Speicher. Aber yep, hohe Auflösungen legen den Fokus viel mehr auf den Speicher als geringe. Es gibt ja auch erste Extrem-Benchmarks, bei denen eine RTX 4090 relativ zu einer RTX 3090 Ti nicht mehr so geil performt wie beispielsweise in Ultra HD. Die Vermutung, dass das an der sinkenden Hit Rate im L2$ bei unveränderter Speichertransferrate liegt, ist naheliegend, aber schwer nachzuweisen.

MfG
Raff

Exxtreme

2022-10-17, 00:33:47

Ach komm schon, das glaubst du doch selber nicht.
AMD schwimmt die letzten Jahre im Geld und es soll für sie nicht möglich sein, einen Praktikanten einzustellen, der mal eben RT Performance verbessert?
Ja Nvidia macht mehr Umsatz/Gewinn, aber auch bei AMD bleibt genug hängen und die werden auch an ihrer RT performance gearbeitet haben und dabei nicht nur die Einheiten verfielfacht haben. Kann ich mir einfach nicht vorstellen.

Nochmal, ich glaube nicht, dass AMD unfähig ist die RT-Performance zu vervierfachen. Die Frage ist eher, wieviel Chipfläche das zusätzlich kosten wird und wieviel teurer die Grafikkarte dadurch wird.

Nvidia-Preise werden die Kunden nicht bereit zu zahlen.

Linmoum

2022-10-17, 00:49:21

@Linmoum: Muss AMD denn umbedingt einen 600mm² Chip bauen? Nur weil du es dir wünschen würdest?

Selbst wenn die RDNA3 Entwicklung vor Turing begonnen wurde, BVH beschleunigung ist der nächste logische Schritt, um RT zu beschleunigen. Dafür brauchte es kein Turing, um das zu erkennen."Der nächste logische Schritt" wäre es eigentlich schon bei RDNA2 gewesen. Turing ist Level 3 und von 2018, RDNA2 kam erst über zwei Jahre später auf den Markt - aber nur mit Level 2.

Sowohl Ada als auch ARC sind Level 4, insofern sollte es mit RDNA3 auch eigentlich nicht mehr "nur" Level 3 sein.

ppa hilft aus Kostensicht ungemein, aber dann bleibt eben andererseits die Frage, inwiefern bzw. bis wohin AMD mit Nvidia (und auch Intel) bei RT konkurrieren will. Deswegen ist auch die insgesamt aufgewandte Fläche ein entscheidendes Kriterium dafür. Das ist alles eine Frage der Abwägung. Maximal gewollte Performance. Kosten. Wirtschaftlichkeit.

Nakai

2022-10-17, 00:51:54

Das Ding wird schon Faktor 4 schneller sein müssen als RDNA2 nur um in Schlagreichweite zu kommen bez. RT. Und da bin ich ehrlich gesagt nicht so optimistisch. Ich vermute mal, die werden Ampere-Performance erreichen.

Ich denke bei N31 hat man sich das Ziel bei etwa bei Faktor 2 Raster und Faktor 3 RT zu N21 gesetzt.

Doppelte Anzahl der TMUs macht Sinn und falls die diese VLIW2/VOPD-Instruktionen für RT brauchbar sind, dann kann man hier nochmal was rausquetschen. Hinzu kommt etwa ~25% Mehrtakt.
Um es einfach zu sagen, eine N31 WGP ist bei RT etwa sowas wie zwei 2 WGPs bei N21.

Nvidia hat jedenfalls maximal die TDP angezogen...man fragt sich irgendwie wieso.

why_me

2022-10-17, 01:05:22

"Der nächste logische Schritt" wäre es eigentlich schon bei RDNA2 gewesen. Turing ist Level 3 und von 2018, RDNA2 kam erst über zwei Jahre später auf den Markt - aber nur mit Level 2.

RDNA2 wurde hautsächlich für die Konsolen entwickelt. Wir wissen ja nicht, was Microsoft und Sony für ihre Konsolen haben wollte. Wenn es denne nur um GI und Schatten ging, das kann der RDNA2 Ansatz doch ausreichend gut.

Turing kann auch nur Reflexionen so lala, bei mehr RT geht den Turinng karten auch ganz schnell die Puste aus.

Sowohl Ada als auch ARC sind Level 4, insofern sollte es mit RDNA3 auch eigentlich nicht mehr "nur" Level 3 sein.

Und RDNA3 vielleicht auch schon level 5, wir wissen es nicht. Es wird hier aber so getan, als ob RDNA3 weiterhin nur level 2 bleiben würde.

ppa hilft aus Kostensicht ungemein, aber dann bleibt eben andererseits die Frage, inwiefern bzw. bis wohin AMD mit Nvidia (und auch Intel) bei RT konkurrieren will. Deswegen ist auch die insgesamt aufgewandte Fläche ein entscheidendes Kriterium dafür. Das ist alles eine Frage der Abwägung. Maximal gewollte Performance. Kosten. Wirtschaftlichkeit.
Nochmal, ich glaube nicht, dass AMD unfähig ist die RT-Performance zu vervierfachen. Die Frage ist eher, wieviel Chipfläche das zusätzlich kosten wird und wieviel teurer die Grafikkarte dadurch wird.

Gegenfrage, wenn du schon die größe von N31 mit AD102 vergleichst. Wieviel Platz "verschwendet" AD102 für Tensocrores, Opticalflow engine, 2xNvec, großer L2 statt L3 Cache,... (Nvlink? Manche Board scheinen die Kontakte vorzusehen, sind aber nicht bestückt) etc.

@Gipsel: Danke für den ausfühlrichen Text in #4290, sehr informativ, auch wenn der ein paar Absätze zwecks leserlichkeit vertragen könnte.

horn 12

2022-10-17, 01:50:52

Faktor 3,5 bis 4 wäre in etwa ADA RayTracing Leistung
und bei der reinen Raster Leistung überholt AMD die 4090 auch, oder zumindest hauchdünn mehr als die 4090.

Vorstellung der Arch. am 03.ten November mit Release des Top Models einige Tage danach, 10 bis 17.ten November
und der Rest folgt in der Dezemberwoche ab dem 05-ten.

Virtual

2022-10-17, 02:06:43

Ich denke bei N31 hat man sich das Ziel bei etwa bei Faktor 2 Raster und Faktor 3 RT zu N21 gesetzt.

Doppelte Anzahl der TMUs macht Sinn und falls die diese VLIW2/VOPD-Instruktionen für RT brauchbar sind, dann kann man hier nochmal was rausquetschen. Hinzu kommt etwa ~25% Mehrtakt.
Um es einfach zu sagen, eine N31 WGP ist bei RT etwa sowas wie zwei 2 WGPs bei N21.

Nvidia hat jedenfalls maximal die TDP angezogen...man fragt sich irgendwie wieso.

Na, das ist doch jetzt eine rhetorische Frage, oder?

Board und Kühler der 4090 sind für die Ti ausgelegt ... und die ist bereits vorbereitet und wird in kurzer Zeit aus dem Hut gezogen, wenn N31 bei Raster an der 4090 vorbeizieht, ... was gut möglich ist.

AMD hält dicht und NV hat keine Ahnung, ob es N31 reißen wird.

Neurosphere

2022-10-17, 05:41:41

Wie viel will NV denn für die 4090 TI verlangen? Sollte AMD für weniger Geld mit einer 79x0 XT an der 4090 vorbei ziehen kann NV als Konter nicht einfach eine noch teurere Karte bringen.

DrFreaK666

2022-10-17, 05:49:26

Kann NV schon weil NV

Prinzenrolle

2022-10-17, 06:00:04

Faktor 3,5 bis 4 wäre in etwa ADA RayTracing Leistung
und bei der reinen Raster Leistung überholt AMD die 4090 auch, oder zumindest hauchdünn mehr als die 4090.

Warum man immer von AMD erwartet, dass sie Nvidia schlagen.
Das war das letzte Mal bei der 1950x der Fall...🥱

DrFreaK666

2022-10-17, 06:22:03

HD5870

Neurosphere

2022-10-17, 07:06:15

War die 7970 nicht auch schneller?

horn 12

2022-10-17, 07:36:37

Kommt aus dem Nichts, wie damals die 7970 am 21-ten Dezember 2010 ?

dargo

2022-10-17, 08:16:21

Das Ding wird schon Faktor 4 schneller sein müssen als RDNA2 nur um in Schlagreichweite zu kommen bez. RT. Und da bin ich ehrlich gesagt nicht so optimistisch. Ich vermute mal, die werden Ampere-Performance erreichen.
Ich verstehe ehrlich gesagt nicht was dieser Zirkus mit eurer RT-Performance soll? Habt ihr den Bezug zur Realität schon komplett verloren?
https://geizhals.de/?cat=gra16_512&v=e&hloc=at&hloc=de&sort=p&bl1_id=30&xf=9810_06+17+-+RTX+4090

Ich glaube kaum, dass AMD von Anfang an geplant hat Gaming-Grafikkarten für 2300+€ auszuliefern. Insofern wird auch locker eine RT-Performance bei hoher RT-Last von AD103 vollkommen reichen. Rasterizer erwarte ich eher bei AD102 oder zumindest näher an AD102 als AD103. Ich gehe nicht davon aus, dass N31 mehr als 1500€ kosten wird.

btw.
Auch das Rumgelaber @Level 3/Level 4 bei RT ist nur noch gähn. Man sieht anhand aktueller Spiele, dass Ada nirgendwo deutlich schneller mit RT ist als Ampere. Zumindest ohne SER nicht.

Hier ein paar Gründe, warum der Leistungsfaktor 3 bis 4 beim Raytracing gut wäre: Geforce RTX 4090 am Limit: Schafft sie Raytracing in Ultra HD ohne Upscaling? (https://www.pcgameshardware.de/Geforce-RTX-4090-Grafikkarte-279170/Tests/RTX-4090-Raytracing-Benchmarks-1405125/)

Dort mischt ein Navi 21 @ ~2,6 GHz und 19,2 GT/s mit - und verliert gegen eine RTX 3090 Ti haushoch, welche wiederum von der RTX 4090 gedemütigt wird. Das Potenzial für AMD, hier Sprünge zu machen, ist sehr groß. Das wissen die Ingenieure auch. Die Frage ist nur, ob man diese Investition nun macht, oder eben nicht. Faktor 2 auf Pro-Takt-Basis (praktisch, nicht theoretisch) und ein zusätzliches Taktplus wären ein guter Anfang, aber ausgehend von den Ray Accelerators in RDNA 2 ginge mit Fixed-Function-Zusätzen noch deutlich mehr.

Also ich sehe anhand eurer Benchmarks nur eins... selbst RTX 4090 ist immer noch viel zu lahm in 4k + hohe RT-Last. 40+ fps bei DL2, Hitman 3 und CP77 mit einer 2000+€ Grafikkarte, ich lach mich schlapp. ;D ;D ;D

BlacKi

2022-10-17, 08:24:34

War die 7970 nicht auch schneller?durch treiberverbesserungen im nachhinein. so richtig schneller wurde das erst mit der ghz version, aber auch nv hatte oc modelle.

mboeller

2022-10-17, 08:25:14

Habt ihr den Bezug zur Realität schon komplett verloren?

Ich denke viele wünschen sich, dass die N31 bei RT genauso schnell ist wie die RTX 4090, damit Nvidia oder doch zumindest die Partner gezwungen sind die extrem hohen Preise für die RTX4090 zu senken. ... und dann kaufen sie sich ihre RTX4090.

Wird halt nicht funktionieren.

robbitop

2022-10-17, 08:34:04

Es scheint so zu sein, als hätte N31 weniger Transistoren als AD102 wenn man die Flächen aller Chiplets addiert und vergleicht. Aber: AD102 hat 2,7x Transistoren zu GA102 und schafft mit ~12% deaktivierten Einheiten irgendwo zwischen Faktor 1,5 ... 2x von GA102. Die Mehrzahl der Ergebnisse liegen eher dazwischen. Das ist relativ ungewöhnlich. Von TU102 zu GA102 konnten Transistoren noch nahezu linear in Performance umgewandelt werden.
Und da ist ggf. AMDs Chance trotz weniger Transistoren doch besser abzuschneiden als man glaubt. (wobei es natürlich bei expliziter Unterstützung der Level 4 RT HW in AD102 noch schneller als Faktor 2 werden kann und dann sinkt genau dieses Potenzial).

dargo

2022-10-17, 08:58:33

Bei den ganzen Transistoren-/Flächendiskussionen fehlt mir irgendwie die Betrachtung der Tensorcores. Diese brauchen auch einiges an Fläche/Transistoren, was hier seltsamerweise völlig ignoriert wird.
https://tpucdn.com/gpu-specs/images/g/1005-sm-diagram.jpg

Virtual

2022-10-17, 09:11:13

fondness

2022-10-17, 09:13:53

Das Ding wird schon Faktor 4 schneller sein müssen als RDNA2 nur um in Schlagreichweite zu kommen bez. RT. Und da bin ich ehrlich gesagt nicht so optimistisch. Ich vermute mal, die werden Ampere-Performance erreichen.

Ist einzig und alleine die Frage wieviele Transistoren AMD dafür "opfern" will. Bei der RDNA3 Entwicklung wusste man jedenfalls schon, dass Nvidia RT wiedermal als neuen Hypetrain benützt, deshalb bin ich deutlich zuversichtlicher als bei RDNA2. Sie wusste, dass sie hier Defizite haben, also gehe ich davon aus, dass man diese auch beseitigen wollte.

fondness

2022-10-17, 09:20:39

Es scheint so zu sein, als hätte N31 weniger Transistoren als AD102 wenn man die Flächen aller Chiplets addiert und vergleicht.

Es ist auf jeden Fall deutlich weniger, weil:
- 5N vs. 4N bei Shader Array
- 6N vs. 4N bei allem anderen
- Die Interfaces zwischen den Chiplets benötigen auch Fläche.
- Alles zusammen bei AMD: 533mm² vs. 608mm² bei NV

Neurosphere

2022-10-17, 09:22:56

Wobei ich bei NV immernoch glaube das viel Transistorcount für Dinge drauf gehen die bei Spielen nix bringen und eigentlich auf den Profibereich abzielen.

Tensorcores zB werden zwar immer für DLSS beworben, scheinbar ist aber die Nutzung eher gering. So wie es aussieht läuft auch DLSS 3.0 problemlos auf den alten Archs würde NV dies zulassen.

mboeller

2022-10-17, 09:32:32

Tensorcores zB werden zwar immer für DLSS beworben, scheinbar ist aber die Nutzung eher gering. So wie es aussieht läuft auch DLSS 3.0 problemlos auf den alten Archs würde NV dies zulassen.

Auch wenn es der falsche Thread ist. DLSS2 und FSR2.x benutzen ja schon die Bewegungsvektoren für AA, akkumuliert über unterschiedlich "viele" Frames, je nach Content. Wenn diese Bewegungsvektoren "ein wenig" verlängert werden sollte es damit möglich sein zumindest 1 zusätzliches Frame zu rendern und die Framerate zu verdoppeln. Zumindest stelle ich es mir so vor. Schon die alte Talisman-Architektur konnte das basierend auf einer Art 3D-Sprites.

robbitop

2022-10-17, 09:34:17

RDNA2 wurde hautsächlich für die Konsolen entwickelt. Wir wissen ja nicht, was Microsoft und Sony für ihre Konsolen haben wollte. Wenn es denne nur um GI und Schatten ging, das kann der RDNA2 Ansatz doch ausreichend gut.
Ein sehr interessant gewählter Blickwinkel :up:
Für konsequentes RT war das Transistorbudget für XSX und PS5 einfach noch viel zu klein. Selbst AD102 (der ja wirklich crazy viele Transistoren hat) ist bei 4K ohne DLSS beim neuen Cyberpunk Build wo wirklich konsequent alles auf RT umgestellt wurde richtig am Pumpen. Keine 60 fps ohne DLSS. Mit DLSS schon.
Entsprechend wäre konsequentes RT für Konsolen SoCs, wo ~200 mm2 für Grafik reserviert sind wohl erst mit der next gen in Schlagreichweite. Mit einem 20A oder kleinerem Prozess und dann wohl Level 5 HW.

Entsprechend wäre mehr RT HW für einen Konsolen SoC verschwendete Transistoren gewesen. Da Sony und MS einen Großteil von RDNA2 finanziert haben und man damals noch extrem resource strained war, war wohl einfach nicht mehr drin.

Die Frage ist, ab wann sich da dann mehr getan hat. Ggf. schon mit RDNA3.

Redneck

2022-10-17, 09:36:59

Warum man immer von AMD erwartet, dass sie Nvidia schlagen.
Das war das letzte Mal bei der 1950x der Fall...🥱
Weil es die Zahlen hergeben (shadercount, takt, Interface)???

Linmoum

2022-10-17, 09:48:07

Ich verstehe ehrlich gesagt nicht was dieser Zirkus mit eurer RT-Performance soll? Habt ihr den Bezug zur Realität schon komplett verloren?
https://geizhals.de/?cat=gra16_512&v=e&hloc=at&hloc=de&sort=p&bl1_id=30&xf=9810_06+17+-+RTX+4090

Ich glaube kaum, dass AMD von Anfang an geplant hat Gaming-Grafikkarten für 2300+€ auszuliefern. Insofern wird auch locker eine RT-Performance bei hoher RT-Last von AD103 vollkommen reichen. Rasterizer erwarte ich eher bei AD102 oder zumindest näher an AD102 als AD103. Ich gehe nicht davon aus, dass N31 mehr als 1500€ kosten wird.

btw.
Auch das Rumgelaber @Level 3/Level 4 bei RT ist nur noch gähn. Man sieht anhand aktueller Spiele, dass Ada nirgendwo deutlich schneller mit RT ist als Ampere. Zumindest ohne SER nicht.
Der verlorene Bezug zur Realität ist eher, mit Europreisen zu argumentieren. ;) Danach gehen weder Nvidia, noch AMD.

"Locker AD103" würde im Übrigen bedeuten, dass man GA102 mal eben deutlich schlägt. Das dürfte im Prinzip auf Faktor 2.5x-3x hinauslaufen. Nicht unmöglich, aber IMO sehr unwahrscheinlich.

Und dass die 4090 nirgendwo deutlich schneller ist, ist auch Quatsch. +80% in CP/DL2, doppeltes P1 bei Ghostwire, >60% in Doom und Metro. Alles auf die 3090Ti, also sogar Vollausbau vs. Salvage. Da fehlen noch mal 10-15%, auf den direkten Vorgänger die 3090 sind es sogar fast 90% im Schnitt (s. Launch-Review von Leo). Wenn das für dich nicht deutlich ist, dann weiß ich auch nicht.

Ich verstehe dieses herunterspielen von RT ehrlich gesagt überhaupt nicht mehr. Gerade dann, wenn Hersteller einen vierstelligen Betrag verlangen und das wird AMD garantiert tun. Wir haben Ende 2022, das ist keine Randerscheinung mehr, insb. nicht bei einer neuen uarch.

Raster bleibt weiterhin relevant, aber ganz sicher nicht mehr die Nummer 1 bei High-End-Grafikkarten, über die wir hier in Form von N31 reden. Da ist ähnliche Rasterperformance schön, wenn man bei RT aber wieder deutlich hinterherhängt, bringt das auch nichts. Daher kann man nur hoffen, dass AMD hier einen gewaltigen Sprung hinlegt. Auch, wenn ich anhand der kolportierten Daten und Die-Sizes hier große Zweifel habe. Das sieht nach hohem ppa-Fokus aus wegen kostbarer N5-Fläche aus (die bei AMD in anderen Geschäftsfeldern deutlich besser aufgehoben ist als bei Gaming-GPUs), was definitiv nichts falsches ist. Kann aber durchaus größere Nachteile bei der absoluten Performance haben, gerade in Bezug auf RT. Was mehr als nur sehr schade wäre.

Denniss

2022-10-17, 09:57:31

Es ist auf jeden Fall deutlich weniger, weil:
- 5N vs. 4N bei Shader Array
- 6N vs. 4N bei allem anderen
N5 und N6 sind die nodes, 4N ist nur ein custom N5 für Nvidia aber 4 verkauft sich halt besser als 5. Also quasi der Schwanzvergleich nur andersrum.

HOT

2022-10-17, 10:11:10

Und N6 ist irrelevant, weil Cache+Mem-Ctrl in N5 eh kein Vorteil wäre.

dargo

2022-10-17, 10:19:25

Der verlorene Bezug zur Realität ist eher, mit Europreisen zu argumentieren. ;) Danach gehen weder Nvidia, noch AMD.

Och Gottchen, du wirst wohl in der Lage sein das in $ umzurechnen oder? :rolleyes: Zumal in den 1599$ noch sämtliche Steuern fehlen.

Und dass die 4090 nirgendwo deutlich schneller ist, ist auch Quatsch. +80% in CP/DL2, doppeltes P1 bei Ghostwire, >60% in Doom und Metro. Alles auf die 3090Ti, also sogar Vollausbau vs. Salvage. Da fehlen noch mal 10-15%, auf den direkten Vorgänger die 3090 sind es sogar fast 90% im Schnitt (s. Launch-Review von Leo). Wenn das für dich nicht deutlich ist, dann weiß ich auch nicht.

Du hast offenbar nicht verstanden worum es überhaupt geht. In diesem Forum wird doch RT Level 4 von Ada in den Himmel gelobt, nur sieht man davon in Benchmarks von Spielen nichts. Ich sehe bisher keinen großen Vorteil vs. Level 3 von Ampere. Irgendwelche künstlich herbeigeführten Demos von Nvidia gehen mir da am Anus vorbei. Für mich zählen nur Spiele.

Käsetoast

2022-10-17, 10:19:40

Klar wären enorme 3-4x RT Leistungssteigerungen schön, aber ob da die Zeit für gereicht hat? Ich fand es schon überraschend wie stark NVIDIA den Fokus auf RT gelegt hat mit Turing. Im Endeffekt muss man ja sagen, dass der Gamer da ja ziemlich egal war für NVIDIA - die haben da Segel gesetzt Richtung neue Märkte - insbesondere den VFX Render-Bereich wo sich die RT Leistung enorm sinnvoll anwenden lässt und sei es nur für die PreVis. Auch die Tensor Cores sind ja für den Gamer nicht so interessant. Natürlich fällt dadurch DLSS als Nebenprodukt ab, was natürlich eine schöne Synergie für RT im Echtzeitbereich (insbesondere in Spielen) ergibt, aber sowas wie dass à la PhysX die Tensor Cores explizit was beschleunigen in Spielen gibt es ja nicht.

Dementsprechend halt die Frage wie viel Zeit AMD überhaupt hatte auf diesen extremen Fokus zu reagieren. Ich sehe RDNA3 da eigentlich eher als gepimpten RDNA2 mit neuer Chiplet Technologie und besserer Fertigung. Ich erwarte da eigentlich keine Konzeptänderung, denn RDNA2 war noch sehr stark auf Rasterizing Leistung ausgelegt - die Konsolen mit als Hintergrund dafür klingt ja auch ganz plausibel bzw. wenn ich ehrlich bin ist RT für mich immer noch ein Nischenfeature, das nice to have ist, aber kein Gamechanger. Das ändert auch eine 4090 nicht, denn deren brachiale RT Leistung steht halt nur ein paar Enthusiasten zur Verfügung und nicht der breiten Masse. Außer für die paar AAA Spieleentwickler, deren Produkte ich mehr und mehr inhaltlich jedoch uninteressant finde, damit ja ein relativ uninteressantes Feature.

Sicherlich sollte AMD hier nachlegen, aber ich denke eine tiefgründig in der Architektur hinterlegte RT Leistungssteigerung ist in der gegebenen Zeit nicht machbar. Wenn man annimmt, dass RDNA3 die Rasterizing Leistung bis zu verdoppeln soll, rechne ich für RT höchstens mit 2-2,5x. Ich denke RDNA3 hat den Fokus einfach woanders als primär RT zu pushen. Die müssen die neue Fertigung auf die Kette kriegen und werden am Grundkonzept von RDNA2 halt weiteroptimieren. Einen wirklich großen RT Sprung würde ich eher für RDNA4 vermuten, wo der extreme Fokus von NVIDIA auf RT dann im Entwicklungsprozess überhaupt genug Zeit hatte um in die Planung einzufließen. RDNA2 hatte halt einen anderen Fokus bzw. vielleicht hat man NVIDIAs All-In-Move was RT angeht da unterschätzt und RDNA3 sehe ich anhand dessen was man gerüchtemäßig zu glauben scheint nicht als ein Neudenken von RDNA2, sondern eben viel mehr als ein sinnvolles Upgrade der Architektur plus innovativem Fertigungsansatz.

Hoffentlich mit dem Ergebnis, dass man tolle Rasterizing Leistung bekommt mit ordentlichem RT Boost und das im Idealfall für 100-200 € mehr als bei der Vorgängergeneration und keine Mondpreise wie bei NVIDIA (ich gebe doch nichts Vierstelliges für ne Grafikkarte aus - schon gar nicht für ein Derivat der XX70er Reihe). Gerade Letzteres bleibt aber sicherlich fraglich, weil warum sich auf einen Preiskampf einlassen in der momentanen Lage? Dann doch lieber Gewinne mit abgreifen wo es geht...

Badesalz

2022-10-17, 10:27:41

Ich sehe RDNA3 da eigentlich eher als gepimpten RDNA2 mit neuer Chiplet Technologie und besserer Fertigung.Wie schlecht kann das dann sein? Die grauen Balken sprechen ja die gleiche Sprache über RT30 und RT40.
Hoffentlich mit dem Ergebnis, dass man tolle Rasterizing Leistung bekommt mit ordentlichem RT Boost und das im Idealfall für 100-200 € mehr als bei der VorgängergenerationIch sag dazu immer: Naniten auf der PS5 ;)
Der Voodootanz um RT-Leistungen ist ein Witz.

Jetzt siehst du ja schon, daß die Trolle untereinander keine Vergleiche mehr über Notwendigkeiten machen möchten, sondern wie auf Kommando von einer Woche auf die andere, von "Metriken" sprechen. Wenn alles andere seinen Sinn zu verlieren droht, nimmt man halt 3dmark. Oder Aida oder Geekbench. Machen die Blauen ja auch.

Udn man kommt hier erst mit einer Art Zen1+ an. Das wird später wohl noch richtig lustig :rolleyes:

Ja, die gibt's auch...��, Nur nicht ganz so, wie man sich das vorstellt.Bist du jetzt bei Seite 203 angekommen ja? Gehts schon langsam los, da nur noch 2,5 Wochen bleiben? :rolleyes:

Ansonsten ne rechte Luftpumpe.Ich überlasse die Einschätzungen erstmal Leuten welche die 4080/12 nicht zum Verkaufsschlager erklärt haben.

Radeon Boost 2.0, was soll das denn.��Wahrscheinlich sowas wie Intels Turbo-Boost bei CPUs :wink: Da gabs auch mal 2.0 und auch schon 3.0. Wer weiß. Vielleicht kann man sichm im Gegensatz, mit den Roten dann mal ein Video anschauen ohne eines 30W Powerbudgets für die GPU...

7950XT - 85% RTX 4090
Better price, 1149 Dollar, Radeon Boost regelt..?! Und das ohne Mattscheibe (DLSS)? Das wäre mal ein Paukenschlag -> was für ein, entscheidet wohl die TDP ;)

dildo4u

2022-10-17, 10:40:20

Och Gottchen, du wirst wohl in der Lage sein das in $ umzurechnen oder? :rolleyes: Zumal in den 1599$ noch sämtliche Steuern fehlen.

Du hast offenbar nicht verstanden worum es überhaupt geht. In diesem Forum wird doch RT Level 4 von Ada in den Himmel gelobt, nur sieht man davon in Benchmarks von Spielen nichts. Ich sehe bisher keinen großen Vorteil vs. Level 3 von Ampere. Irgendwelche künstlich herbeigeführten Demos von Nvidia gehen mir da am Anus vorbei. Für mich zählen nur Spiele.
Die Karten sind doch schon zu schnell für die Raster Optik überall CPU Limits.
RT kann man hingegen einfach skalieren je dicker die Karte desto mehr Rays und damit weniger Artefakte.
Davon ab das RT in UE5 integriert ist wenn man Lumen nutzt Nvidia sorgt da schon vor.

https://wccftech.com/ser-improves-ue5-lumens-hardware-rt-performance-says-nvidia/

AMD sollte langsam mal lernen NV ist immer zu erst bei Epic damit ihre Karten dominieren.

Linmoum

2022-10-17, 11:00:48

Och Gottchen, du wirst wohl in der Lage sein das in $ umzurechnen oder? :rolleyes: Zumal in den 1599$ noch sämtliche Steuern fehlen.Es geht nicht um Steuern, sondern den beschissenen Eurokurs. Daher sind irgendwelche Vergleiche oder Argumentationen mit Europreisen völlig irrelevant aus der Sicht von AMD und Nvidia bzw. aktuell jedes Unternehmens. Du kannst ja mal ausrechnen, wo die UVP mit dem Kurs von Ende 2020 in Euro liegen würde. Dann geht dir sicher ein Licht auf. ;)

Du hast offenbar nicht verstanden worum es überhaupt geht. In diesem Forum wird doch RT Level 4 von Ada in den Himmel gelobt, nur sieht man davon in Benchmarks von Spielen nichts. Ich sehe bisher keinen großen Vorteil vs. Level 3 von Ampere. Irgendwelche künstlich herbeigeführten Demos von Nvidia gehen mir da am Anus vorbei. Für mich zählen nur Spiele.Ich habe dir große Vorteile genannt und das waren keine Tech-Demos. Sondern Spiele, die für dich ja angeblich zählen. Keine Ahnung, warum du jetzt mit Tech-Demos ankommst.

Ansonsten auch das was dildo schreibt. Wir sind an einem Punkt, wo noch viel mehr Raster-Performance sinnlos ist, weil die CPUs nicht mehr hinterherkommen und limitieren. Selbst in UHD. Da reichen auch keine 10-20% mehr an CPU-Performance aus. Und wenn die nächste Gen an GPUs wieder >50% schneller wird, könnte das Problem noch größer werden. Auch deswegen ist RT ein logischer nächster Schritt. Schon heute.

mboeller

2022-10-17, 11:42:07

mal was anderes. Ich habe mal, anhand der Angaben im Patent versucht zu ermitteln wie groß zB. N33 und N31 werden könnten. Bei beiden ist die GPU in 5nm.

Basis war der N21, alle Angaben sind überschlägig

64MB L3-Cache: 32mm²
5120 ALU: 240mm²
128bit Speicheranbindung: 25mm²
I/O-Bereich: 42mm²

N33:
240mm² -> 4096/5120 ALU + 1,75fach Skalierungsfaktor von 7nm auf 5nm -> 110mm²
32mm² -> 64MB Cache + 1,25fach Skalierungsfaktor von 7nm auf 5nm -> 25mm²

Speicheranbindung + I/O -> keine Skalierung

Summe: 110 + 25 + 25 (=160mm²) + 42 = 202mm² (außer dem I/O kein Chiplet-Design)

Bei N31 würde es dann so aussehen:
3 x 160mm² + 42mm² I/O + 2x Brückenchips + Interposer
Also 522mm² + 2x Brückenchips (zusammen vielleicht 40mm²) + geschätzt ca. 600mm² Interposer

Ich poste dieses Rechenspielchen eigentlich nur, weil ich selbst überrascht war, wie gut es zu den N33 Die-Area-Gerüchten passt.

MSABK

2022-10-17, 11:43:23

Ich persönlich denke, dass AMD mit RDNA nicht gezielt auf RT gehen wird und auch nicht aufschließen kann. Sie werden denke ich eine neue Generation einläuten ala RTNA oder so ähnlich und ein komplett neues Chipdesign bringen.

Virtual

2022-10-17, 11:46:17

Es geht nicht um Steuern, sondern den beschissenen Eurokurs. Daher sind irgendwelche Vergleiche oder Argumentationen mit Europreisen völlig irrelevant aus der Sicht von AMD und Nvidia bzw. aktuell jedes Unternehmens. Du kannst ja mal ausrechnen, wo die UVP mit dem Kurs von Ende 2020 in Euro liegen würde. Dann geht dir sicher ein Licht auf. ;)
...

In bin der Auffassung, der $-UVP der verbleidenden 4080 ist aus Sicht des HighEnd-Zocker um 400$ zu hoch angesetzt. Ein gehörige Schlappe beim Verkauf sollte im Sinne der HighEnd-Kunden die Folge sein. Es wäre sogar wünschenswert, wozu die nun halbwegs brauchbaren (Abverkaufs-)Preise der 3080/90(Ti) hoffentlich weiterhin beitragen werden. Der (noch) 4090er TopDog darf seinen Preis tragen und ist ohnehin nur für Kompromisslose gedacht. Dazu gehöre ich als HighEnd-Kunde nicht.

Hoffentlich erkennt AMD anhand der ZEN4-Verkaufszahlen, es ist nicht die Zeit für maßlose Preiserhöhung bei RDNA3, sonst besteht auch hier die gute Wahrscheinlichkeit im Übermaß georderter N5-Wafer.

why_me

2022-10-17, 11:50:02

Bei N31 würde es dann so aussehen:
3 x 160mm² + 42mm² I/O + 2x Brückenchips + Interposer
Also 522mm² + 2x Brückenchips (zusammen vielleicht 40mm²) + geschätzt ca. 600mm² Interposer

Kannst du da noch 1-2 Worte zu schreiben? Wo kommen z.B. die 3x160 her? Was meinst du mit Brückenchips, etc.

mboeller

2022-10-17, 11:54:10

Kannst du da noch 1-2 Worte zu schreiben? Wo kommen z.B. die 3x160 her? Was meinst du mit Brückenchips, etc.

Wenn du dir das neue Patent von AMD anschaust (US 20220320042) dann besteht ein N31 anscheinend aus 3 GPU, die per Brückenchip miteinander verbunden sind.

Die Patentskizze findest du auch hier:
https://forum.beyond3d.com/threads/amd-rdna-3-speculation-rumours-and-discussion.62092/page-94#post-2267492
Interposer (702) und Brückenchips (704a) sind in der Skizze schön zu sehen.

Bei der N33 Berechnung ist alles außer dem I/O-Bereich (ist in der Patentskizze "708") zusammen 160mm² groß, deshalb eben dann 3x 160mm²

DrFreaK666

2022-10-17, 12:02:23

mal was anderes. Ich habe mal, anhand der Angaben im Patent versucht zu ermitteln wie groß zB. N33 und N31 werden könnten. Bei beiden ist die GPU in 5nm...

basiert das auf neuen Gerüchten? Dachte bisher dass die GPU der N33 in 6nm gefertigt wird

why_me

2022-10-17, 12:13:48

Ach das Patent meinst zu. Das ist meiner Meinung nach zu jung um für RDNA3 relevant zu sein (filed 3.2021).

mboeller

2022-10-17, 12:15:25

basiert das auf neuen Gerüchten? Dachte bisher dass die GPU der N33 in 6nm gefertigt wird

Nein, basiert nicht auf neuen Gerüchten.
IMHO macht es nur keinen Sinn N33 in 6nm zu fertigen während die 2 bzw. 3 N32/N31 Chiplet in 5nm gefertigt werden. Das neue Patent hat mich in meiner Ansicht bestätigt, dass N33=6nm nicht funktioniert. Die 203mm² von Angstronomics.com würden mit N33 in 6nm IMHO gar nicht funktionieren.

fondness

2022-10-17, 12:29:36

N5 und N6 sind die nodes, 4N ist nur ein custom N5 für Nvidia aber 4 verkauft sich halt besser als 5. Also quasi der Schwanzvergleich nur andersrum.

Ist nicht abschließend geklärt wie der NV Node jetzt genau aussieht. Bis auf weiteres muss man aber davon ausgehen, dass es ein 4nm Node ist.

Und N6 ist irrelevant, weil Cache+Mem-Ctrl in N5 eh kein Vorteil wäre.

Das stimmt nicht, es skaliert schlechter aber es skaliert natürlich schon.

vinacis_vivids

2022-10-17, 12:31:34

N33 in 5nm würde den CPU's, GPU's und Server/HPC zu viel Kapazität wegnehmen. Um hohe Stückzahlen zu erreichen bei Midrange GPUs muss AMD auf 6nm in diesem Bereich setzen.
Mag schon sein, dass N33 in 5nm kleiner ist, allerdings geben die Kapazitäten es einfach nicht her.
N33 erscheint daher in 6nm.

dargo

2022-10-17, 12:35:40

Die Karten sind doch schon zu schnell für die Raster Optik überall CPU Limits.

Höchstes für die Lastgen-Spiele. Wird sich bald ändern.

why_me

2022-10-17, 12:36:24

Ist nicht abschließend geklärt wie der NV Node jetzt genau aussieht. Bis auf weiteres muss man aber davon ausgehen, dass es ein 4nm Node ist.

Erster treffer bei google:
https://www.techgoing.com/nvidia-clarifies-the-tsmc-4n-used-by-the-rtx-40-gpu-is-a-5nm-process/
According to Hong Kong media HKEPC, Nvidia clarified today that the RTX 40 GPU uses TSMC’s 4N 5nm process, not the 4nm process, due to a large number of media writing errors.

dargo

2022-10-17, 12:42:06

Es geht nicht um Steuern, sondern den beschissenen Eurokurs. Daher sind irgendwelche Vergleiche oder Argumentationen mit Europreisen völlig irrelevant aus der Sicht von AMD und Nvidia bzw. aktuell jedes Unternehmens. Du kannst ja mal ausrechnen, wo die UVP mit dem Kurs von Ende 2020 in Euro liegen würde. Dann geht dir sicher ein Licht auf. ;)

Und? Dann verkauft eben Nvidia und AMD weniger Karten in Europa sofern das die Masse der Kunden stört, ganz einfach. :rolleyes:

Ich habe dir große Vorteile genannt und das waren keine Tech-Demos. Sondern Spiele, die für dich ja angeblich zählen. Keine Ahnung, warum du jetzt mit Tech-Demos ankommst.

Und ich habe dir gesagt, dass es im Schnitt lächerlich ist anhand der Rohdaten von Ada. Um mal einen der lächerlichen Beispiele aufzuzählen... in Control ist die 4090 gerade mal 64% in 4k + RT schneller als die 3090TI. Dabei wurde von den grünen Lemmingen Monate lang Control als Vorzeigeschild für Raytracing hingehalten.

Ansonsten auch das was dildo schreibt. Wir sind an einem Punkt, wo noch viel mehr Raster-Performance sinnlos ist, weil die CPUs nicht mehr hinterherkommen und limitieren. Selbst in UHD. Da reichen auch keine 10-20% mehr an CPU-Performance aus. Und wenn die nächste Gen an GPUs wieder >50% schneller wird, könnte das Problem noch größer werden. Auch deswegen ist RT ein logischer nächster Schritt. Schon heute.
Blöd nur, dass RT die CPU-Last ebenfalls erhöht. :rolleyes:

davidzo

2022-10-17, 12:42:49

Das ist nur eine fantastische Spekulation. Im Gegensatz zur solchen Ratespielchen gibt es eben auch handfeste Belege aus mehreren unabhängigen Quellen dass es eben nicht so aussieht:

1. Es wird keinen Interposer geben. Das ist für ein consumer Produkt zu teuer und AMD meidet in der Ankündigung von RDNA2 auch das Wort "3D" und "hybrid bonding" und spricht stattdessen von "Advanced Chiplet Design". Gleichzeitig spricht man bei Aldebaran nicht von advanced chiplet design sondern konkret von 2.5D mit EFB und bei den X3D CPUs von "hybrid 3D bonding". Also kein 3D für Navi31/32, eher ein günstigeres 2D Packaging-Verfahren wie CoWoS-R oder höchstens -L.

Ich tippe auf CoWoS-R weil das vom Zeitrahmen genau passt. CoWos-R ist einfach ein organisches package mit klassischem RDL nur mit ein paar mehr Layern und optimierter Density. Dafür musste man das organische Material anpassen um die Wärmeausdehnung an Silizium anzupassen um kleinere pitches zu ermöglichen die bei thermal stress normalerweise kaputt gehen würden. CoWos-R würde vom Preis und Stückzahlen eines consumerprodukts gut passen.
CoWoS-R has not yet arrived in public shipping products, but there are some products coming. The first such product we know of is coming from AMD https://www.semianalysis.com/p/packaging-developments-from-ectc

2. 6nm für N33 ist eine der ältesten und sichersten Infos die wir haben, nicht nur von leakern sondern auch bestätigt von Board-Partnern und zuletzt sogar von AMD Engineers selbst: https://videocardz.com/newz/amd-engineer-confirms-radeon-7000-rdna3-navi-3x-gpus-use-5nm-and-6nm-nodes

basix

2022-10-17, 12:45:35

RDNA3 würde auch bei gleichbleibender RT "IPC" deutlich mehr Leistung haben, rein wegen den 3x FLOPs. Bei RDNA3 denke ich, dass AMD einen grossen Schritt machen wird. Ob es aber Level 4/5 werden wird? Irgendwie habe ich ein Level 2+/3 im Bauchgefühl (siehe spezielle BVH Befehle im Linux Code // Traversal und Compression). Für den Kunden ist das allerdings nicht so relevant, solange die Leistung stimmt (ob Level 2-5 ist mir aus Performance-Sicht egal). Und da sehe ich 3-4x verglichen mit N21 nicht als unrealistisch an:
- 2x pro CU (FLOPs + RT Intersection Rate)
- 1.2x CUs
- 1.5x Takt

Bei Level 2+ würde der BVH Traversal durch die neuen Instruktionen nochmals zusätzlich beschleunigt, da man damit weniger Schritte in den Shadern bräuchte.

Bei den ganzen Transistoren-/Flächendiskussionen fehlt mir irgendwie die Betrachtung der Tensorcores. Diese brauchen auch einiges an Fläche/Transistoren, was hier seltsamerweise völlig ignoriert wird.
https://tpucdn.com/gpu-specs/images/g/1005-sm-diagram.jpg

Sind nicht so gross, wie du denkst. Das Schaubild steht in keiner Relation zu den effektiv vorhandenen Flächen. Kannst ja TU116 mit T106 vergleichen: Sind irgendwie 10-15% grössere SMs, wenn RT + Tensor obendrauf kommen.

Ich persönlich denke, dass AMD mit RDNA nicht gezielt auf RT gehen wird und auch nicht aufschließen kann. Sie werden denke ich eine neue Generation einläuten ala RTNA oder so ähnlich und ein komplett neues Chipdesign bringen.

RTNA, haha :D

robbitop

2022-10-17, 12:48:55

Du hast offenbar nicht verstanden worum es überhaupt geht. In diesem Forum wird doch RT Level 4 von Ada in den Himmel gelobt, nur sieht man davon in Benchmarks von Spielen nichts. Ich sehe bisher keinen großen Vorteil vs. Level 3 von Ampere. Irgendwelche künstlich herbeigeführten Demos von Nvidia gehen mir da am Anus vorbei. Für mich zählen nur Spiele.
Damit es was bringt muss die Hardware explizit vom Entwickler angesprochen werden.

Bei Hitman 3 (allerdings noch ohne diese Implementierungen) zieht die 4090 besonders stark davon mit RT.
https://www.pcgameshardware.de/Geforce-RTX-4090-Grafikkarte-279170/Tests/RTX-4090-Raytracing-Benchmarks-1405125/

Sobald Level 4 per Entwickler umgesetzt ist, ist stark davon auszugehen, dass der RT Uplift deutlich sichtbar ist.

basix

2022-10-17, 12:51:14

SER kann bis zu +44% bringen (CP2077 OVerdrive). Bei der UE5 und Lumen sind es anscheinend ~20% (allerdings evtl. nur für den Lumen Pass, ist nicht ganz klar). +44% ist vermutlich bereits nahe am Optimum. In den meisten Fällen wird es ~20% sein. Ist nicht Nichts, allerdings verglichen mit Level 3 auch nicht etwas, was man mit etwas stärker HW nicht auch lösen könnte.

aufkrawall

2022-10-17, 12:53:24

Aber traurig, dass SER über NVAPI genutzt werden muss. Microsoft kommt wohl einfach nicht mehr hinterher, siehe auch Direct Storage...

basix

2022-10-17, 12:55:36

Ein DXR 1.2 oder gar 2.0 ist wahrscheinlich ;) Die Micro-Meshes und Opacity Masks sind ja auch weitere Optimierungen. Bei RT geschieht momentan einfach wahnsinnig viel (in HW wie SW). Dass hier die Standardisierung hinterherhinkt ist also normal.

DirectStorage ist aber wirklich ein Trauerspiel. Immerhin kommt es schon bald auch inkl. mit GPU-Decompression, wonach es ja lange nicht aussah.

dargo

2022-10-17, 12:55:55

Damit es was bringt muss die Hardware explizit vom Entwickler angesprochen werden.

Bei Hitman 3 (allerdings noch ohne diese Implementierungen) zieht die 4090 besonders stark davon mit RT.
https://www.pcgameshardware.de/Geforce-RTX-4090-Grafikkarte-279170/Tests/RTX-4090-Raytracing-Benchmarks-1405125/

Sobald Level 4 per Entwickler umgesetzt ist, ist stark davon auszugehen, dass der RT Uplift deutlich sichtbar ist.
Sorry... aber die Hitman 3 Werte der PCGH nehme ich nicht ernst. Die 3090TI ist da nur 39% schneller als die 6900XT LC. Irgendwas klemmt da offenbar bei Ampere. Zumindest ein sehr merkwürdiges Ergebnis für Ampere sollte hier die RT-Last besonders hoch sein.

SER kann bis zu +44% bringen (CP2077 OVerdrive). Bei der UE5 und Lumen sind es anscheinend ~20% (allerdings evtl. nur für den Lumen Pass, ist nicht ganz klar). +44% ist vermutlich bereits nahe am Optimum. In den meisten Fällen wird es ~20% sein. Ist nicht Nichts, allerdings verglichen mit Level 3 auch nicht etwas, was man mit etwas stärker HW nicht auch lösen könnte.
Eben... darauf will ich hinaus. Hier wird ja so getan als ob Level 4 Level 3 völlig vernichtet.

basix

2022-10-17, 13:00:52

In gewissen Games scheint der Cache von Ada zuzuschlagen. Teardown ist ebenfalls so ein Beispiel, wo Ampere nicht vom Fleck kam und Ada ist nun 5-6x schneller:
https://www.forum-3dcenter.org/vbulletin/showthread.php?p=13139027#post13139027
https://www.pcgameshardware.de/Teardown-Spiel-73677/Specials/PC-Game-Test-Benchmark-Voxel-Dynamic-Destruction-1394545/4/#a1

Indiz hinsichtlich Cache:
Teardown wie auch Hitman 3 sind Beispiele, wo RDNA2 relativ gut mit Ampere mithalten kann (oder gar schneller ist). RDNA1/2 sind auf niedrige Latenz getrimmt, das hilft hier anscheinend. Und bei Ada ist der grosse L2$ da natürlich sehr hilfreich.

dargo

2022-10-17, 13:02:26

Interessanter Punkt, müsste man am besten im Rasterizer @Hitman 3 gegentesten.

basix

2022-10-17, 13:05:11

Interessanter Punkt, müsste man am besten im Rasterizer @Hitman 3 gegentesten.

Auch bei Raster läuft Hitman 3 relativ gut auf RDNA: 6800XT schlägt 3090 bei 4K @ Ultra
https://www.tomshardware.com/news/hitman-3-benchmarks-and-performance

Nightspider

2022-10-17, 13:13:09

Ergibt Sinn. :up:

Ich hoffe einfach das Navi31 nicht zu weit hinten liegen wird, nachdem wie 1,5 Jahre lang davon gesprochen wird, wie brachial RDNA3 mit Chipletdesign/Stacking wird.

Aber ich denke mir reichen auch 80-85% der Leistung von der 4090 zu einem deutlich besseren Preis.

Es würde mir gefallen wenn AMD viele Kunden gewinnt, durch ein deutlich besseres P/L-Verhältnis und weil die Yieldraten deutlich besser sind.

Ich würde mir aber auch echt wünschen das AMD dann bei RDNA4 mal eher auf dem Markt ist als Nvidia, weil man kleinere Chips fertigt und deutlich bessere Yields haben müsste.
Aber wenn die Packaging-Verfahren den Fertigungsverfahren hinterher hängen kann AMD damit auch nicht eher am Markt sein.

aufkrawall

2022-10-17, 13:16:41

In gewissen Games scheint der Cache von Ada zuzuschlagen. Teardown ist ebenfalls so ein Beispiel, wo Ampere nicht vom Fleck kam und Ada ist nun 5-6x schneller:
https://www.forum-3dcenter.org/vbulletin/showthread.php?p=13139027#post13139027
https://www.pcgameshardware.de/Teardown-Spiel-73677/Specials/PC-Game-Test-Benchmark-Voxel-Dynamic-Destruction-1394545/4/#a1

Das lag wohl eher an einem Performance-Problem mit RTSS in dem Spiel, das im NV-Treiber gefixt wurde:
https://forums.guru3d.com/threads/msi-ab-rtss-development-news-thread.412822/page-185#post-6059672

Raff

2022-10-17, 13:33:07

Sorry... aber die Hitman 3 Werte der PCGH nehme ich nicht ernst. Die 3090TI ist da nur 39% schneller als die 6900XT LC. Irgendwas klemmt da offenbar bei Ampere. Zumindest ein sehr merkwürdiges Ergebnis für Ampere sollte hier die RT-Last besonders hoch sein.

Die Werte sind absolut korrekt, doppelt gecheckt und mit aktuellen Treibern entstanden. Bedenke bitte, dass die Radeon relativ stark übertaktet ist. 2,7 GHz laufen auch, allerdings jenseits von 5K etwas wackelig (Powerlimit), daher "nur" 2,6 GHz in allen tests.

MfG
Raff

Ravenhearth

2022-10-17, 14:10:19

Ein sehr interessant gewählter Blickwinkel :up:
Für konsequentes RT war das Transistorbudget für XSX und PS5 einfach noch viel zu klein. Selbst AD102 (der ja wirklich crazy viele Transistoren hat) ist bei 4K ohne DLSS beim neuen Cyberpunk Build wo wirklich konsequent alles auf RT umgestellt wurde richtig am Pumpen. Keine 60 fps ohne DLSS. Mit DLSS schon.
Entsprechend wäre konsequentes RT für Konsolen SoCs, wo ~200 mm2 für Grafik reserviert sind wohl erst mit der next gen in Schlagreichweite. Mit einem 20A oder kleinerem Prozess und dann wohl Level 5 HW.

Entsprechend wäre mehr RT HW für einen Konsolen SoC verschwendete Transistoren gewesen. Da Sony und MS einen Großteil von RDNA2 finanziert haben und man damals noch extrem resource strained war, war wohl einfach nicht mehr drin.

Die Frage ist, ab wann sich da dann mehr getan hat. Ggf. schon mit RDNA3.
Wie lange dauert es ungefähr, eine neue Arch zu entwickeln? 4 - 5 Jahre? Mit diesem Zeitraum im Hinterkopf ist es sehr plausibel, dass AMD bei RDNA3 das RT stärker aufdreht, denn der Startschuss für RDNA3 dürfte in die Zeit gefallen sein, in der Microsoft mit DXR ankam, und aus dem Turing-Release dürfte AMD auch einiges mitgenommen haben. Dieser ist immerhin schon 4 Jahre her, das ist genug Zeit, um die Lehren daraus in RDNA3 einfließen zu lassen.

basix

2022-10-17, 14:56:53

Das lag wohl eher an einem Performance-Problem mit RTSS in dem Spiel, das im NV-Treiber gefixt wurde:
https://forums.guru3d.com/threads/msi-ab-rtss-development-news-thread.412822/page-185#post-6059672

Ah, interessant.

@Raff:
Wäre es möglich, Teardown mit aktuellen Treibern nochmals mit RDNA1/2 sowie Ampere & Ada zu testen? Wäre interessant.
Ach ja, 522.25 scheint den Speicherverbauch optimiert zu haben. Bei der 2080 Ti lief der Speicher weniger schnell voll (z.B. bei UE5 City Demo)

Sorry für OT.

dargo

2022-10-17, 15:53:17

Die Werte sind absolut korrekt, doppelt gecheckt und mit aktuellen Treibern entstanden. Bedenke bitte, dass die Radeon relativ stark übertaktet ist. 2,7 GHz laufen auch, allerdings jenseits von 5K etwas wackelig (Powerlimit), daher "nur" 2,6 GHz in allen tests.

Wenn die Werte korrekt sind kann die RT-Last in Hitman 3 gar nicht so hoch sein. Ergo sind die +90% von Ada vs. Ampere nicht auf Kosten RT für Ada zuzuschreiben.

basix

2022-10-17, 17:52:27

Wenn die Werte korrekt sind kann die RT-Last in Hitman 3 gar nicht so hoch sein. Ergo sind die +90% von Ada vs. Ampere nicht auf Kosten RT für Ada zuzuschreiben.

Eine 6800XT ist in RZ so schnell wie eine 3090 (habs weiter oben verlinkt). Bei PCGH ist es eine übertaktete 6900XT. Das können 20-30% Performance ausmachen. Sagen wir mal 1.2x da mit einer 3090 Ti anstatt 3090 gebencht wurde. Dazu 1.15x, welche eine 3090 Ti im Schnitt schneller ist als eine 6900XT (CB RZ Rating @ 4K)
- 1.2x * 1.39x * 1.15x = 1.92x

Mein Fazit: Alles in normalen Bereich. Hitman 3 läuft einfach gut auf RDNA2.

dargo

2022-10-17, 19:12:25

@basix

Irgendwas ist in deiner Rechnung verdammt schräg. :D

Bei TH, was du verlinkt hast ist die 6900XT 8% schneller in Hitman 3 @4k als die 3090. Versus eine 3090TI dürfte es in etwa auf Gleichstand hinauslaufen. Von mir aus ~3-5% für die 6900XT wenn wir noch solche mickrigen Werte in Betracht ziehen wollen. Die PCGH verwendet eine 6900XT LC mit mehr Takt, das dürfte aber vs. Referenz 6900XT vielleicht mal 8% bringen (grob geschätzt). Wie kommst du dann am Ende bei +92% raus? :freak:

M4xw0lf

2022-10-17, 19:19:05

Die Displayport 2.1-Spezifikation wurde veröffentlicht. Könnte RDNA3 also am Ende doch schon damit kommen

Nakai

2022-10-17, 19:22:26

RDNA3 würde auch bei gleichbleibender RT "IPC" deutlich mehr Leistung haben, rein wegen den 3x FLOPs. Bei RDNA3 denke ich, dass AMD einen grossen Schritt machen wird. Ob es aber Level 4/5 werden wird? Irgendwie habe ich ein Level 2+/3 im Bauchgefühl (siehe spezielle BVH Befehle im Linux Code // Traversal und Compression). Für den Kunden ist das allerdings nicht so relevant, solange die Leistung stimmt (ob Level 2-5 ist mir aus Performance-Sicht egal). Und da sehe ich 3-4x verglichen mit N21 nicht als unrealistisch an:
- 2x pro CU (FLOPs + RT Intersection Rate)
- 1.2x CUs
- 1.5x Takt

Bei Level 2+ würde der BVH Traversal durch die neuen Instruktionen nochmals zusätzlich beschleunigt, da man damit weniger Schritte in den Shadern bräuchte.

Sind nicht so gross, wie du denkst. Das Schaubild steht in keiner Relation zu den effektiv vorhandenen Flächen. Kannst ja TU116 mit T106 vergleichen: Sind irgendwie 10-15% grössere SMs, wenn RT + Tensor obendrauf kommen.

RTNA, haha :D

Bzgl. RT und N31 -> full ack. Die derzeitigen Specs bzw. "Leaks" gehen schon dramatisch in die RT-Richtung. Und bezüglich Raster-Usecases hat man ein bisschen mehr Rechenknechte, Takt und architekturnelle Verbesserungen im Peto.

basix

2022-10-17, 20:23:53

@basix

Irgendwas ist in deiner Rechnung verdammt schräg. :D

Magie :D

Bei TH, was du verlinkt hast ist die 6900XT 8% schneller in Hitman 3 @4k als die 3090. Versus eine 3090TI dürfte es in etwa auf Gleichstand hinauslaufen. Von mir aus ~3-5% für die 6900XT wenn wir noch solche mickrigen Werte in Betracht ziehen wollen. Die PCGH verwendet eine 6900XT LC mit mehr Takt, das dürfte aber vs. Referenz 6900XT vielleicht mal 8% bringen (grob geschätzt). Wie kommst du dann am Ende bei +92% raus? :freak:

Lass es am Schluss von mir aus +60...70% sein (3090 Ti vs. 6900XT, mit deinen Werten). Passt iimer noch für typische RT Spiele. z.B. Dying Light 2 ist bei +75% und nicht gerade dafür bekannt, "leichtes RT" einzusetzen ;)

dargo

2022-10-17, 20:28:14

Also ich komme da im besten Fall auf +~50% nach meiner Rechnung. ;)

Iscaran

2022-10-18, 16:38:47

https://www.tweaktown.com/news/88976/displayport-2-1-specs-released-just-before-amd-unleashes-rdna-3-gpus/index.html

Anscheinend ist zumindest das Kabel und der DP2.0 Stecker auch zu 100% kompatibel zu DP2.1

=> RDNA2 ist bereits die erste GPU-Generation von AMD die DP2.1 kompatibel ist :-).
RDNA3 wird das dann 100% auch (Seitenhieb: mal wieder ein Fail seitens nVidia bei der RTX 4090 hier immer noch KEIN DP2.0 zu verbauen).
Leider wenig brauchbares sonst zu Performance RDNA3

Platos

2022-10-18, 16:55:08

Also wurde DP 2.0 zu 2.1 umbenannt oder wie muss man das verstehen?

vinacis_vivids

2022-10-18, 17:05:52

DP 2.1 = DP 2.0 + DSC compression.

8K 120hz / 4K 240hz / 16K 60hz sind möglich.

Es öffnet sich dadurch ein Markt für 8K Monitore, die derzeit sehr rar sind. Also ich habe richtig Bock auf native 8K Bildschirmauflösung.

fondness

2022-10-18, 18:05:37

ChaosTM

2022-10-18, 18:13:10

DP2.1 wäre schon nett bei RDNA3. Damit wären endlich WUHD Monitore mit 120+ hz möglich und auf so was warte ich seit Jahren. Genug Horsepower sollte die Karte auch habenh, zur Not mit FSR.
Wäre eine echte "Killer App", auch wenn ich DLSS 3.0 auch recht gerne hätte..

davidzo

2022-10-18, 18:27:52

Das was du schriebst ist ohne dsc möglich.

Ja, mit DP2.0/2.1. Aber mit DP1.4 ist bei HBR3 respektive 26Gbit/s Schluss. Das reicht für 4K 120, 5K 70 und 8K 120Hz, alles aber nur mit 8bit Color.
Aber wer will schon nur 8bit color und kein HDR für seinen NextGen Monitor?

Ich denke 4K@120Hz mit 10bit Color / HDR wird der neue Standard und die verbreiteten mittlerweile 10-20Jahre alten WQHD und FHD Monitore ablösen. 120Hz ist für Gamer ein neues Minimum und bloß wegen der Auflösung wird man nicht von WQHD upgraden, sondern auch wegen Farben und Helligkeit. Momentan ist der einzige Faktor der flächendeckende Upgrades noch verhindert noch die mangelnde bzw. extrem teure Grafikkartenleistung.

Langlay

2022-10-18, 18:39:49

Ich denke 4K@120Hz mit 10bit Color / HDR wird der neue Standard und die verbreiteten mittlerweile 10-20Jahre alten WQHD und FHD Monitore ablösen. 120Hz ist für Gamer ein neues Minimum und bloß wegen der Auflösung wird man nicht von WQHD upgraden, sondern auch wegen Farben und Helligkeit. Momentan ist der einzige Faktor der flächendeckende Upgrades noch verhindert noch die mangelnde bzw. extrem teure Grafikkartenleistung.

Ja, ich hab noch ein uralten Asus MG279q der hat 1440p, 144hz und adaptive Sync von 60-144Hz(mit CRU verschoben). Neue Monitor können quasi nichts wirklich viel besser. Ja VVR-Ranges sind bei den neuen Teilen besser, aber nichts was jetzt der grosse Sprung ist wo es sich lohnt zu wechseln.

Exxtreme

2022-10-18, 18:54:55

Ich denke 4K@120Hz mit 10bit Color / HDR wird der neue Standard und die verbreiteten mittlerweile 10-20Jahre alten WQHD und FHD Monitore ablösen. 120Hz ist für Gamer ein neues Minimum und bloß wegen der Auflösung wird man nicht von WQHD upgraden, sondern auch wegen Farben und Helligkeit. Momentan ist der einzige Faktor der flächendeckende Upgrades noch verhindert noch die mangelnde bzw. extrem teure Grafikkartenleistung.

Also wenn man wechselt dann schon wegen viel höherer Auflösung. Bzw. wenn man auch noch andere Dinge haben will wie Geschwindigkeit und Farben und Helligkeit dann wird es ein OLED sein müssen. Und die Dinger sind schweineteuer.

mboeller

2022-10-18, 19:09:12

https://vesa.org/featured-articles/vesa-releases-displayport-2-1-specification/

VESA has been working closely with member companies to ensure that products supporting DisplayPort 2.0 would actually meet the newer, more demanding DisplayPort 2.1 spec. Due to this effort, all previously certified DisplayPort 2.0 products including UHBR (Ultra-high Bit Rate) capable products – whether GPUs, docking station chips, monitor scalar chips, PHY repeater chips such as re-timers, or DP40/DP80 cables (including both passive and active, and using full-size DisplayPort, Mini DisplayPort or USB Type-C connectors) – have already been certified to the stricter DisplayPort 2.1 spec.

da steht noch mehr.
Anscheinend geht es, wenn ich es beim querlesen richtig verstanden habe "nur" darum USB4 und DP2.0 besser zu "verheiraten"

Badesalz

2022-10-18, 19:48:34

Ich denke 4K@120Hz mit 10bit Color / HDR wird der neue Standard und die verbreiteten mittlerweile 10-20Jahre alten WQHD und FHD Monitore ablösen.Das ist absolut richtig. In den nächsten 7 bis 10 Jahren.

iamthebear

2022-10-18, 21:21:44

Für DB 2.x gilt derselbe Schwachsinn wie für HDMI 2.1 oder USB 4.0:
Die angegebene Maximalgeschwindigkeit ist optional und muss nicht von jedem Gerät unterstützt werden.

Das relevante Feature nennt sich "UHBR 20".

Wobei so dramatisch sehe ich das nicht.

4K120 ist schon mit HDMI 2.1 möglich. Dann verwendet man eben den HDMI Anschluss statt DP.

8K120 ist selbst mit DP 2.0 und UHBR 20 immer noch nicht ohne DSC oder chroma subsampling möglich.

Und wer gibt schon Unmengen für eine 8K GPU + Display aus um das dann mit 60Hz laufen zu lassen.

Wenn es 8K Displays zu erschwinglichen Preisen gibt spricht doch nichts dagegen das Bild in 4K120 auszugeben und vom Display selbst auf 8K hochskalieren zu lassen. Für 8K Ausgabeauflösung fehlt meistens sowieso noch die Performance selbst mit DLSS/FSR.

r3ptil3

2022-10-18, 21:51:05

https://twitter.com/AMDGPU_/status/1580725765267935233

https://abload.de/img/2022-10-1415_54_12-1a2bdyp.png

https://i.ibb.co/bWGXxZf/image.png

Habe ich mal blockiert, sonst kann ich mich irgendwann nicht zurückhalten einen Komment zu hinterlassen.

vinacis_vivids

2022-10-18, 21:57:40

r3ptil3

2022-10-18, 21:59:42

Der AMDGPU Typ hat doch recht und zeigt auch eine seriöse Quelle von CapFrameX.
https://twitter.com/CapFrameX/status/1581329634876325889/photo/1

Von 104fps auf 137fps ist doch ein sehr netter Sprung. Die Zen4 Cores sind einfach gigantisch was Leistung angeht.

Da fehlt noch ein Smilie, sonst erkennt man die Ironie fast nicht.

"Secret gaming performance boost mode" :uup:

DrFreaK666

2022-10-18, 22:09:11

Hat hier genau was zu suchen?

ChaosTM

2022-10-18, 22:31:44

vinacis_vivids

2022-10-18, 23:07:46

Den Tweet hier finde ich viel interessanter:
https://twitter.com/AMDGPU_/status/1582425395013775360

Da geht's um die beschränken Fähigkeiten der 4090, welche auf 4k 160hz 4:2:0 limitiert ist.
Bei 4k 240hz DSC (reduziert auf 8bit pro Farbkanal).

Letztere fällt durch massive BQ-Verluste auf.

Linmoum

2022-10-18, 23:33:59

Den Tweet hier finde ich viel interessanter
Schrieb er und während man den Tweet sieht springt einem direkt das hier ins Gesicht:
It's display output is limited to: - 4k 120hz at full quality:facepalm:

Kann man nicht einmal mit dir vernünftig diskutieren ohne, dass du irgendwelche falschen Behauptungen aufstellst oder verlinkst? Geht das wirklich nicht? Das ist doch einfach nur unnötig, wenn man seinen Standpunkt ständig mit Fake News untermauern tut weil... keine Ahnung warum.

Davon ab, dass alle aktuellen und in den nächsten Wochen kommenden High-End-GPUs sicherlich andere "Probleme" haben werden, als die Diskussionen über UHD@>144Hz bei max. Details. Davon sind wir auch mit einer 4090 oder 79xx whatever weit entfernt.

DP2.0 Ende 2022 nicht zu supporten ist völlig albern, bei Fakten sollte man aber trotzdem bleiben.

vinacis_vivids

2022-10-19, 01:19:59

Alter, hier nochmals für dich:

https://vesa.org/press/vesa-publishes-displayport-2-0-video-standard-enabling-support-for-beyond-8k-resolutions-higher-refresh-rates-for-4k-hdr-and-virtual-reality-applications/

https://abload.de/img/2022-10-1901_09_54-vez8c4m.png

https://de.wikipedia.org/wiki/DisplayPort#DisplayPort_1.4
Es wurden drei neue Übertragungs-Modi definiert, die Übertragungsraten bis 77,37 Gbit/s unterstützen, was eine Übertragung von 8192 × 4320 mit 60 Hz und 12 bit pro Farbkanal ohne Kompression erlaubt.

Ich wiederhole nochmals: Bei AMD gib's volle Signalqualität bis 8192 x 4320 x 60hz x 12bit 4:4:4 ohne Kompression, also verlustfrei.

Bei NV dagegen wird wieder einmal komprimiert um am Ende Bandbreite zu sparen (Wie bei Pascal und HDR), das ist für mich bei einer 4090 für 2600€ einfach unverständlich und auch völlig unnötig.

Mit der vorhandenen Rohleistung kannst du nun locker etwas ältere Engines auf 8K hochpolieren.

Neurosphere

2022-10-19, 06:27:57

Könnten wir die Display Diskussion abschließen? Sollte AMD DP 2.0 oder 2.1 haben ist das nice, es wird aber auch noch etwas brauchen bis da Displays kommen. Das NV nur DP 1.4 hat ist schade, aber auch kein Beinbruch.

Neurosphere

2022-10-19, 08:32:39

OgrEGT

2022-10-19, 08:39:46

robbitop

2022-10-19, 09:03:28

DP 2.1 = DP 2.0 + DSC compression.

Warum verbreitest du mal wieder Unsinn? Recherchieren bevor man Dinge postet. :|

Bei DP2.1 geht es relativ zu 2.0 vor allem um das bessere Alignment mit dem USB-C Stecker und USB 4.0. Die Schnittstelle im Sinne von Signalübertragung ist unverändert zu DP2.0

robbitop

2022-10-19, 09:07:49

Klingt vielversprechend:

https://twitter.com/greymon55/status/1582598870223446016?t=Z7YA2O8kW6WBDQ7ROWdE7Q&s=19

"Some AIBs have already got the chips and are testing them"

"reference's TBP is amazing" (TBP)
Es wäre schlimm, wenn nicht. Immerhin will man RDNA3 in 15 Tagen vorstellen.

---------------------------

Interessant fand ich das RGT Video:
https://www.youtube.com/watch?v=TZjoCXK8I_Q&t=2492s

Dort wird OREO erwähnt als eine Art Instruction Sorting. Wer weiß ob das stimmt. Aber wäre das erste Gerücht um RT Level 4 Hardware (coherency sorting). Wer weiß - ggf. ist OREO auch was anderes oder existiert nicht - aber mich hat das zumindest aufhorchen lassen.
Und gesagt wurde ein großer Sprung in RT. Faktor 3-3,5x. Das spricht zumindest für mehr spezifische RT Hardware.

basix

2022-10-19, 09:10:26

Dort wird OREO erwähnt als eine Art Instruction Sorting. Wer weiß ob das stimmt. Aber wäre das erste Gerücht um RT Level 4 Hardware (coherency sorting). Wer weiß - ggf. ist OREO auch was anderes oder existiert nicht - aber mich hat das zumindest aufhorchen lassen.
Und gesagt wurde ein großer Sprung in RT. Faktor 3-3,5x. Das spricht zumindest für mehr spezifische RT Hardware.

Hat vermutlich nichts mit RT zu tun, aber wer weiss:
https://www.angstronomics.com/p/amds-rdna-3-graphics

One of the features in the RDNA 3 graphics pipeline is OREO: Opaque Random Export Order, which is just one of the many area saving techniques. With gfx10, the pixel shaders run out-of-order, where the outputs go into a Re-Order Buffer before moving to the rest of the pipeline in-order. With OREO, the next step (blend) can now receive and execute operations in any order and export to the next stage in-order. Thus, the ROB can be replaced with a much smaller skid buffer, saving area.

robbitop

2022-10-19, 09:12:50

So ähnlich wurde SER beim Geforce 4090 launch IIRC auch beschrieben. Als out of order execution für SMs.

basix

2022-10-19, 09:20:34

Du, wenn es RT Lvl4 wird, sage ich nicht Nein ;)

robbitop

2022-10-19, 09:36:27

Es wäre gut für den Markt und es wäre nicht unmöglich. IMGTec hat die HW Levels schon vor Jahren veröffentlicht (sie waren die wahren aber weniger bekannten Pioniere des HW RT lange bevor Turing...) und wie man an XeHPG sieht war das für IHVs auch irgendwie offensichtlich.
Man kann gespannt bleiben. :)

Iscaran

2022-10-19, 09:44:22

"reference's TBP is amazing" (TBP)

Das klingt eher nach positiv überrascht wie wenig TBP man braucht?

6900XT hat ja 348% 4k-Index @300W
=> *1.5 (+50% P/W uplift laut AMD) = 348*1.5 =522%
=> *1.25 (300 W => 375 W) = 522*1.25 = 652 %

Allein basierend darauf, kann man eigentlich schon fest machen, dass eine Leistung im Bereich RX4090 (640%) mit 375 W absolut realistisch ist.

Ich bin also nun wirklich positiv gehyped für RDNA 3.

mr coffee

2022-10-19, 09:47:57

Das klingt eher nach positiv überrascht wie wenig TBP man braucht?

Ja, hat er später im thread auf Nachfrage bestätigt.

Linmoum

2022-10-19, 09:53:58

Allein basierend darauf, kann man eigentlich schon fest machen, dass eine Leistung im Bereich RX4090 (640%) mit 375 W absolut realistisch ist.Was ca. Parität wäre. Die 450W der 4090 sind für Gaming völlig überzogen, laut Igor sind's im Mittel ~371W die die zieht. Seh ich bei meiner @Stock auch, dass man auf die 450W nur wenig geben kann.

Ansonsten denke ich nicht, dass die Aussage wesentlich neues bietet. Wir wissen ja schon, dass AMD den Verbrauch anheben wird. Sicherlich auch nicht nur auf 310W. Wahrscheinlich irgendwas 340-360W mit 2x8pin.

Dural

2022-10-19, 10:00:12

Lustige Rechnung.

Wie irgend ein Chip 1:1 mit der Leistungsaufnahme skalieren würde.

horn 12

2022-10-19, 10:01:17

Nun, denke es werden nicht mal 300 Watt werden,- und falls Ja wird maln mit der RTX 4090 gleichziehen,- wenn gar nicht überholen.

Badesalz

2022-10-19, 10:04:00

Es wäre schlimm, wenn nicht. Immerhin will man RDNA3 in 15 Tagen vorstellen.:rolleyes: So wie ich das sehe ist die eigentliche Info, daß die TBP "amazing" ist. Amazing niedrig.

@all
Wann ist eigentlich das Ding mit den Levels geboren worden? Von einem Tag uaf den anderen ging das irgendwie los. So ähnlich wie das mit "Metriken".
Das ist irgendwie nervig, daß sich jetzt jeder plötzlich mit irgendeinem Wissen um irgendwelche Level aufspielt, obwohl das alles diesjahr noch sehr unwichtig ist.

Linmoum

2022-10-19, 10:05:12

Du kannst dir ja mal ausrechnen, wie viel Perf/Watt-Steigerung AMD für 4090-Leistung (Raster) bei 300W bräuchte ggü. N21. Da sind wir von ">50%" weit entfernt. Aber Galaxien. Nicht einmal nur Zen4-Dimensionen was Understatement angeht.

mboeller

2022-10-19, 10:05:29

nt, hätte den Thread erst weiter lesen sollen

basix

2022-10-19, 10:10:01

Lustige Rechnung.

Wie irgend ein Chip 1:1 mit der Leistungsaufnahme skalieren würde.

Hat auch niemand behauptet. Seine Rechnung geht einfach davon aus, dass man bei Referenz-Arbeitspunkt (in diesem Fall 375W) die +50% Effizienz von AMDs Aussagen zu RDNA3 erreicht. Was aus meiner Sicht die richtige Vorgehensweise ist (ob 300W oder 375W ist eine andere Frage). Du kannst es natürlich auch wie Nvidia bei Ampere machen und die neue Karte bei 150W mit der alten Karte bei 300W vergleichen, womit man relativ gesehen sehr hohe Effizienzwerte erreicht, welche der Kunde aber niemals nutzen wird ;)

Du kannst dir ja mal ausrechnen, wie viel Perf/Watt-Steigerung AMD für 4090-Leistung (Raster) bei 300W bräuchte ggü. N21. Da sind wir von ">50%" weit entfernt. Aber Galaxien. Nicht einmal nur Zen4-Dimensionen was Understatement angeht.
Sind knapp etwas unter 2x Performance zwischen 4090 und einer 6900XT bei 4K. Bei 300W sehe ich diese Performance jetzt auch nicht unbedingt. Bei 350...375W evtl. schon, z.B. wenn wir +60...65% Effizienz anstatt +50% sehen. Wie gesagt, die RTX 4090 kann erreichbar sein. Gegen eine 4090 Ti müsste man sich aber wohl arg strecken (deutlich höhere TDP oder wirklich deutlich höhere Effizienz, als AMD es angekündigt hat)

Badesalz

2022-10-19, 10:11:45

Was wäre denn an 360W "amazing" bitte? -> Blödsinn.

Adam D.

2022-10-19, 10:12:10

Das klingt eher nach positiv überrascht wie wenig TBP man braucht?

6900XT hat ja 348% 4k-Index @300W
=> *1.5 (+50% P/W uplift laut AMD) = 348*1.5 =522%
=> *1.25 (300 W => 375 W) = 522*1.25 = 652 %

Allein basierend darauf, kann man eigentlich schon fest machen, dass eine Leistung im Bereich RX4090 (640%) mit 375 W absolut realistisch ist.

Ich bin also nun wirklich positiv gehyped für RDNA 3.
Die 4090 hat uns ja gezeigt, dass diese Rechnungen nicht ganz so eindeutig ausgehen. Wie was skaliert, muss man erstmal sehen.

Ich habe das Gefühl, dass das wie jedes Mal läuft: man weiß so gut wie nichts und der Hype Train fährt los. Am Ende liefert AMD ein solides Produkt und trotzdem sind alle enttäuscht :freak: Ich persönlich glaube, dass der NV Top Dog in Rasterizing und RT nicht erreicht werden kann - und das wäre überhaupt kein Problem. Wichtig ist, dass man größtenteils aufschließt, insbesondere bei RT.

why_me

2022-10-19, 10:14:17

Wann ist eigentlich das Ding mit den Levels geboren worden? Von einem Tag uaf den anderen ging das irgendwie los. So ähnlich wie das mit "Metriken".
Das ist irgendwie nervig, daß sich jetzt jeder plötzlich mit irgendeinem Wissen um die Level so aufspielt...

Imagination hat siche diese Level vor Jahren mal ausgedacht*, in dem sie beschreiben, welche Schiritte notwendig sind, um RT effizient zu beschleunigen.
Seitdem wird das ständig verwendet um eine überlegenheit von NV zu zeigen, etc. Und für manche ist es auch, wie du vor ein paar Seiten sehen durftest, unvorstellbar, dass AMD da auch nur irgendwas verbessern kann.

* https://blog.imaginationtech.com/introducing-the-ray-tracing-levels-system-and-what-it-will-mean-for-gaming/

basix

2022-10-19, 10:19:52

Die Level sind ja völlig egal, wenn die Performance bei eintsprechenden Wattage geliefert wird. Von mir aus auch mit Level 1 ;)

Die Level sind mehr qualitativer Natur hinsichtlich Effizienz und "sophistication" des Accelerators. Von Mobile -> Effizienz kommt ja auch Imgtech. Und bei Effizienz sind entsprechend ausgelegte Accelerators in der GPU in Normalfall halt deutlich im Vorteil. Brute Force ist dann im Nachteil und kann nur schneller sein, wenn man deutlich mehr Rohleistung bietet. Und genau letzteres ist in der heutigen Zeit mit geringer werdenden Fertigungsprozessschritten unrealistisch geworden, womit man anhand der "Levels" des RT-Accelerators die Effizienz und Grundperformance bei RT abschätzen kann.

Dural

2022-10-19, 10:23:45

Die einzige Frage die es aktuell doch gibt ist wie die 6 chiplets skalieren, 1:1 oder hat man doch Verluste und wenn ja wie viel.

Erst wenn diese Frage beantwortet ist kann man alles andere nachgehen.

Die Top Dog Karten haben übrigens nie das beste Perf/Verbrauch Verhältnis, es sind immer die Mittelklasse oder sogar die Einsteiger Karten.
Ist ja bei CPUs nicht anders, und auch da hat AMD kräftig nach oben geschraubt. Die Frage ist halt auch ob AMD auf den 12Pin wechselt, wenn ja werden wir sicher auch Karten mit 400Watt sehen.

mboeller

2022-10-19, 10:30:31

Imagination hat siche diese Level vor Jahren mal ausgedacht*, in dem sie beschreiben, welche Schiritte notwendig sind, um RT effizient zu beschleunigen.

ich höre wohl die Worte aber mir fehlt der Glaube...
<grins>

Im ernst, ich habe mal versucht was dazu zu finden, aber man findet eher wenig inwieweit die verschiedenen Level einen Einfluss auf die Performance bzw. auf die Leistungsaufnahme haben.

Das einzige Papier zu Hardware-Sorting das ich gefunden habe und auf die Performance eingeht zeigt eher das Gegenteil und sagt aus das Hardware-Sorting nur einen geringen Effekt hat:

Faster Incoherent Rays: Multi-BVH Ray Stream Tracing
http://www.eng.uwaterloo.ca/~jtsakok/mbvhrs.pdf

unl34shed

2022-10-19, 10:33:51

Die einzige Frage die es aktuell doch gibt ist wie die 6 chiplets skalieren, 1:1 oder hat man doch Verluste und wenn ja wie viel.

Warum sollten die chiplets irgendwas an der Skalierung ändern? Es ist vom Aufbau eine normale GPU...

Iscaran

2022-10-19, 10:35:33

Lustige Rechnung.

Wie irgend ein Chip 1:1 mit der Leistungsaufnahme skalieren würde.

Ist in dem konkreten Fall irrelevant, denn WENN AMDs Behauptung von +50% P/W stimmt, muss diese auch für den Leistungspunkt stimmen den AMD mit RDNA 3 released
=> Also auch für 375 W.

Und wie basix schon vorrechnet, die 50% sind jetzt eher so ein "Minimum" (AMDs sprech hierzu war bislang immer von >50%, also 50% + X.

Würde AMD +75% P/W schaffen, wäre das Niveau der 4090 @300W basierend auf den RDNA 2 Werten drin.
Soweit wir wissen, ist allein durch den Fertigungsprozess eine Power reduction von 30% machbar.
Das ist schon mehr als die Hälfte was AMD braucht um auf die +50% zu kommen.

Just my 2 cents: AMD wird sicher NICHT über 375 W gehen.
Und AMD wird ggf. drauf pfeiffen, wenn nVidia ein 4090 Ti mit 600-700W released nur um den längeren Balken zu haben.
Auch nVidia hat offenbar eingesehen das 600 - 700 W ein Problem sind, laut Gerüchteküche
https://www.techspot.com/news/96261-nvidia-rtx-titan-ada-reportedly-canceled-after-melted.html

Neurosphere

2022-10-19, 10:52:55

Vollkommen richtig, es kommt auf den Betriebspunkt an.

Wenn AMD sich allerdings mit der alten Gen vergleicht, die 6950XT liegt bei 335 Watt.

Badesalz

2022-10-19, 10:54:22

Wegen den RT-Levels :rolleyes: Danke euch. Ich hab ja schon halbwegs geahnt wie schlimm die Lage ist ;)

Ich habe das Gefühl, dass das wie jedes Mal läuft: man weiß so gut wie nichts und der Hype Train fährt los. Am Ende liefert AMD ein solides Produkt und trotzdem sind alle enttäuscht :freak:BINGO :up:

Ich persönlich glaube, dass der NV Top Dog in Rasterizing und RT nicht erreicht werden kannIch weiß auch nicht wer daran dachte. Das war imho auch noch nie so, daß NV einen Node komplett ausgefahren bis überfahren hat. So weit, daß nichtmal eine nenneswerte Steigerung für eine Titan auch nur im Labor möglich ist :D
Das ist schon auch paar der besseren Leuten auf YT aufgefallen, daß sie die 4090 gemacht hätten als wenn der Teufel hinter ihnen her wäre.

- und das wäre überhaupt kein Problem. Wichtig ist, dass man größtenteils aufschließt, insbesondere bei RT.Wäre auch nicht. Das ist aber innerhalb einer Forenblase nur schwer vermittelbar. Die besteht halt aus diesen ganz besonderen Leuten... :rolleyes:

Wie es bisher aussieht - obwohl man dabei auch gut daneben liegen kann :tongue: - konnten sie beim Rastern dermassen verkürzen, daß man vom Vergleichbar sprechen kann. Um in die Region "vergleichbar" reinzurutschen braucht man weder schneller noch gleich schnell zu sein. Müsste ich das selbst einschätzen, würd ich sagen um die 10% dahinter.
Bei RT haben sie den Abstand zwischen RX6 und RT30 davor, imho mind. halbiert. Zu 4090 mit N31. Da sollte man auch erst schauen was für eine Leistung das bedeutet. Ich sehe da nichts wo man rumheulen müsste. Es kommen nämlich noch 2 weitere Aspekte dazu:

Wieviel Strom zieht sich das rein (+ Geräuschkulisse) und wieviel Gulden wollen sie am Ende dafür haben.
Viel spannender angesichts dessen finde ich auch N32 und vor allem N33. Wie bei NV die 60er S und Ti sind das ja die eigentlichen Zugpferde welche den elitären Bewohnern der Forenblasen überhaupt ermöglichen wegen TopDogs zu masturbieren.

Tangletingle

2022-10-19, 11:00:16

Ich habe das Gefühl, dass das wie jedes Mal läuft: man weiß so gut wie nichts und der Hype Train fährt los. Am Ende liefert AMD ein solides Produkt und trotzdem sind alle enttäuscht :freak:
Business as usual. Ich sehe hier schon trollyan und Dorn aufschlagen.

Ich bin konservative optimistisch. Raster Leistung auf 4090 Niveau, rt auf 3090 Level, Leistungsaufnahme wie die 6900. Preis wie die 6900+Invlationsaufschlag. Kann man damit leben finde ich.

Lyka

2022-10-19, 11:00:32

Am Ende liefert AMD ein solides Produkt und trotzdem sind alle enttäuscht

die Leute, also die Nerds, wollen keine soliden Produkte. Die wollen den absoluten Megakracher, den Paradigmenwechsler, den Hypersportwagen, den man nur nutzen kann, wenn man eine eigene Rennstrecke hat.

Dann ist man natürlich immer enttäuscht :D

Badesalz

2022-10-19, 11:03:36

[...] wenn man eine eigene Rennstrecke hat [...]Du meinst, wenn man mit einer Blechschere sein Bigtower noch so bearbeiten kann, daß die Graka reinpasst? :usweet:

Lyka

2022-10-19, 11:05:35

eigentlich sollte man einen eigenen Benchmark programmieren lassen (y) :D

basix

2022-10-19, 11:08:20

Das einzige Papier zu Hardware-Sorting das ich gefunden habe und auf die Performance eingeht zeigt eher das Gegenteil und sagt aus das Hardware-Sorting nur einen geringen Effekt hat:

Faster Incoherent Rays: Multi-BVH Ray Stream Tracing
http://www.eng.uwaterloo.ca/~jtsakok/mbvhrs.pdf

Das Paper handelt von CPU-RT. Die haben deutlich geringere Nachteile bei Divergent Rays, da CPUs deutlich besser mit zufälligen Zugriffspatterns umgehen können. GPUs sind nur so schnell, da sie mit Vektoren / Matrizen arbeiten und dadurch den Datenfluss deutlich gröber halten können. Sobald bei GPUs die Daten auseinanderlaufen, sackt die Performance stark zusammen.

Ich bin konservative optimistisch. Raster Leistung auf 4090 Niveau, rt auf 3090 Level, Leistungsaufnahme wie die 6900. Preis wie die 6900+Invlationsaufschlag. Kann man damit leben finde ich.

RT mit 3090 Level fände ich etwas entäuschend. Dann hätte man hinsichtlich RT eigentlich Null Fortschritt ggü. RDNA2 gemacht. Kann ich mir fast nicht vorstellen.

Badesalz

2022-10-19, 11:11:54

eigentlich sollte man einen eigenen Benchmark programmieren lassen (y) :DAaa... Ich ahne da was :up:

Iscaran

2022-10-19, 11:14:18

Das Paper handelt von CPU-RT. Die haben deutlich geringere Nachteile bei Divergent Rays, da CPUs deutlich besser mit zufälligen Zugriffspatterns umgehen können. GPUs sind nur so schnell, da sie mit Vektoren / Matrizen arbeiten und dadurch den Datenfluss deutlich gröber halten können. Sobald bei GPUs die Daten auseinanderlaufen, sackt die Performance stark zusammen.

Hmm, was wäre eigentlich wenn AMD hier eine Art "Extra"-CPU auf den GCD klatscht? Die sich genau darum kümmert? Eine Art RT-Scheduler?

Keine Ahnung ob so etwas realistisch ist - nur so ein Gedanke.

mboeller

2022-10-19, 11:19:34

Hmm, was wäre eigentlich wenn AMD hier eine Art "Extra"-CPU auf den GCD klatscht? Die sich genau darum kümmert? Eine Art RT-Scheduler?

Keine Ahnung ob so etwas realistisch ist - nur so ein Gedanke.

bei den alten PowerVR lief das so:
https://m.blog.naver.com/PostView.naver?isHttpsRedirect=true&blogId=jjy0501&logNo=100207903375

auf die Schnelle habe ich leider nichts besseres gefunden bzgl. GR6500

Virtual

2022-10-19, 11:21:41

die Leute, also die Nerds, wollen keine soliden Produkte. Die wollen den absoluten Megakracher, den Paradigmenwechsler, den Hypersportwagen, den man nur nutzen kann, wenn man eine eigene Rennstrecke hat.

Dann ist man natürlich immer enttäuscht :D

Als ob man alle Nerds über den Kamm des Längsten scheren könnte. Was ist ein Megakracher für den Nerd? Ich will den Biggest Bang for my Buck, das ist ausschließlich P/L und natürlich FPS/W im Bereich um 1k Euro.

Badesalz

2022-10-19, 11:24:38

@Iscaran
Gut, ich brauchs wohl nicht erklären, aber trotzdem: Es ist ja nicht so, daß CPUs es viel lieber haben, wenn der Datenstrom eher Santo Domingo ähnelt als dem Rhein. Sie sind nur für sowas viel besser ausgelegt, da das eben meist der Täglich Brot für die CPU darstellt.
Beim Datenstrom für die GPUs ist das sonst und eben genau umgekehrt.

Was mir auffiel :tongue: was in der letzten Zeit - trotz ihrer sonst schon besseren Auslegung für Santo Domingo - der große Kracher bei CPUs war/ist, ist der V-Cache... Man braucht nur bisschen Logik die sich darum kümmert ;)

mironicus

2022-10-19, 11:30:03

Vielleicht sollte AMD auch mal ein neues Features bieten was NVidia noch nicht hat. Sonst bleibt es beim Ständigen hinterherlaufen.

Badesalz

2022-10-19, 11:36:21

Vielleicht sollte AMD auch mal ein neues Features bieten was NVidia noch nicht hat. Sonst bleibt es beim Ständigen hinterherlaufen.Ja genau. Genau so einen Shice brauchen wir :mad: Das hat sich ja bei CPUs total bewehrt :rolleyes:

DrFreaK666

2022-10-19, 11:38:15

Vielleicht sollte AMD auch mal ein neues Features bieten was NVidia noch nicht hat. Sonst bleibt es beim Ständigen hinterherlaufen.

Damit es nur mit AMD-Hardware läuft?
Ähm, nein

mironicus

2022-10-19, 11:44:00

Wo bleibt dann die Innovation wenn AMD nicht selbst mal ein Feature bringt was dann von den anderen übernommen wird?

why_me

2022-10-19, 11:45:54

Infinity Cache :weg:

pilzsammler2002

2022-10-19, 11:51:02

Infinity Cache :weg:
HBM :freak:
Tesselation
Mantle
etc.

Gibt genug ;D;D;D

DrFreaK666

2022-10-19, 11:54:02

Wo bleibt dann die Innovation wenn AMD nicht selbst mal ein Feature bringt was dann von den anderen übernommen wird?

Ist die Chiplet-Architektur denn nicht eine Innovation, die Nvidia erst beim nächsten Chip nutzen wird?
Mir reicht es wenn sie hinterher laufen, eine Frame Generation Alternative aber dann nicht nur mit einer bestimmten Hardware läuft.
Hat mit Adaptive Sync (ja, war nicht von AMD) und FSR auch wunderbar geklappt. Und AMD waren meines Wissens nach die ersten, die Gebrauch von RBAR machten

Badesalz

2022-10-19, 12:07:33

Ist die Chiplet-Architektur denn nicht eine Innovation, die Nvidia erst beim nächsten Chip nutzen wird?Sie haben auch keine andere Wahl. Man sieht ja was Aldebaran mit Hopper macht...

Innovation macht man, wenn man mit MS DX(R)12 (über Bande wegen der xbox) und mit Intel Vulcan mitgestaltet und nicht NV-like nur wie ein Mitesser rumläuft und jede Gelegenheit sucht dem Rest nur den eigenen Vorteil unterzujubeln.

Neurosphere

2022-10-19, 12:08:50

Sorry, ich hoffe das dieser Framegenerieungsblödsinn nicht kommt! Würde man bei NV nicht soviel non gaming Müll mitschleppen könnte die Hardware die Frames auch regulär berechnen.

ChaosTM

2022-10-19, 12:09:44

So lange man im ~ 20% Bereich bleibt und DP 2.1 bietet, wird das eher einfach für mich.
So sehr ich DLSS3 gerne hätte..

basix

2022-10-19, 12:24:41

Hmm, was wäre eigentlich wenn AMD hier eine Art "Extra"-CPU auf den GCD klatscht? Die sich genau darum kümmert? Eine Art RT-Scheduler?

Keine Ahnung ob so etwas realistisch ist - nur so ein Gedanke.

Das was du beschreibst sind die RT-Cores und im Falle von Nvidia noch SER obendrauf ;)

M4xw0lf

2022-10-19, 12:30:07

https://twitter.com/greymon55/status/1582598870223446016

Thread mit Futter für den hype train.

Reference Board amazing TBP

2x Raster Performance (ohne Referenz ;D)

Mehr als 2x RT Performance (ebenso)

aceCrasher

2022-10-19, 12:30:47

4K120 ist schon mit HDMI 2.1 möglich. Dann verwendet man eben den HDMI Anschluss statt DP.

Blödes Argument, den HDMI 2.1 Anschluss brauche ich schon für den Fernseher, ich hätte gerne die Möglichkeit einen 4K HRR Fernseher UND 4K HRR Monitor zu nutzen.

Badesalz

2022-10-19, 12:33:43

https://twitter.com/greymon55/status/1582598870223446016Du bist damit hier gefühlt eine Woche zu spät ;) Leute die keine Threads lesen und nur drin schreiben...

2x Raster Performance (ohne Referenz ;D)

Mehr als 2x RT Performance (ebenso)Sehr sehr wahrscheinlich gegenüber der 6400 oder? :rolleyes:

mksn7

2022-10-19, 12:41:52

So ähnlich wurde SER beim Geforce 4090 launch IIRC auch beschrieben. Als out of order execution für SMs.

Ich glaube genau wie basix dass das zwei völlig unterschiedliche Dinge sind.

Beo OREO geht es nur um die ROPs, und in welcher Reihenfolge fertig berechnete Pixel geblendet werden. Die pixel wurden vorher auch schon out-of-order berechnet, also Pixel von Dreiecken die eigentlich später dran sind, können gleichzeitig oder früher berechnet werden.

Jetzt kann wohl der buffer eingespart werden, der dafür gesorgt hat dass die Pixel in der richtigen Reihenfolge an die ROPs gehen, wo sie geblendet werden.

EDIT: Es ist nicht so wie ich es hier beschreibe, jedenfalls nicht auf diesem Level. Shader werden nicht mitten in der Ausführung umsortiert, also auch kein Registerumkopiere. Mit Out-of-Order a la CPUs hat es aber auf jeden Fall gar nichts zu tun.

Ohne allzuviel zu wissen was SER wirklich macht, aber so könnte ich es mir vorstellen: Das Problem insbesondere beim Raytracing, aber auch bei anderen Anwendungen, ist Divergenz, also dass unterschiedliche threads rays berechnen die bei der BVH traversal unterschiedliche Pfade nehmen. Wenn thread mit unterschiedlichen Pfaden im gleichen Warp kombiniert sind, muss der Warp beide Pfade ausführen. Im schlimmsten Fall muss der Warp 32 verschiedene Pfade nehmen, also jeden thread einzeln durchrechnen.

Was ich mir bei SER vorstellen könnte, ist dass threads innerhalb eines thread blocks so umnummeriert werden, dass gleiche Pfade aufeinander folgen. Also wo vorher (im Beispiel 4 warps zu je 4 threads) hier:

1 2 1 3 | 4 3 2 1 | 4 3 2 3| 2 3 2 4

Jeder warp 3 oder 4 Pfade berechnet, wird so umnummeriert dass hinterher:

1 1 1 2 | 2 2 2 2 | 3 3 3 3 | 3 4 4 4

jeder warp nur noch 2 oder 1 Pfad berechnen muss. So könnte ich mir das jedenfalls vorstellen, das ist aber reine Spekulation meinerseits! Das wäre aber eine sehr teure Operation, weil sämtliche Register umgeshuffled werden müssten. Unter Umständen ist es das aber trotzdem wert.

Richtiges "Level 4" wäre solches umsortieren über alle threads, was nochmal mehr bringt, aber auch viel aufwändiger ist.

M4xw0lf

2022-10-19, 12:43:58

Du bist damit hier gefühlt eine Woche zu spät ;) Leute die keine Threads lesen und nur drin schreiben...

Die Tweets sind von heute, und Greymon ist eine der Primärquellen für alle Radeon-Gerüchte die dann über Wochen wiedergekäut werden.

Badesalz

2022-10-19, 12:46:01

Ist das echt nicht das gleiche wie vor 2 Seiten schon?
https://www.forum-3dcenter.org/vbulletin/showthread.php?p=13143171#post13143171

Sonst entschuldige mich gern aufrichtig :)

Linmoum

2022-10-19, 12:49:22

Blödes Argument, den HDMI 2.1 Anschluss brauche ich schon für den Fernseher, ich hätte gerne die Möglichkeit einen 4K HRR Fernseher UND 4K HRR Monitor zu nutzen.Es gibt Customs mit mehr als 1xHDMI 2.1 und es gibt zudem auch Splitter. Hab ich sogar einen zuhause, an dem PC+PS5 dranhängen. Läuft einwandfrei und teuer sind die auch nicht.

Geizhals hat gerade im Übrigen 0 (in Worten: Null) Monitore mit DP2.0 gelistet.

Aber ja, mit überall aktuellen Anschlüssen müsste man das gar nicht erst diskutieren. Egal ob bei Nvidia oder Intel mit ihrem Fake HDMI2.1.

dargo

2022-10-19, 13:10:33

Die einzige Frage die es aktuell doch gibt ist wie die 6 chiplets skalieren, 1:1 oder hat man doch Verluste und wenn ja wie viel.

Erst wenn diese Frage beantwortet ist kann man alles andere nachgehen.

Mich beschleicht das Gefühl du hast immer noch nicht verstanden was in diese 6 Chiplets wandert. :freak:

Die Top Dog Karten haben übrigens nie das beste Perf/Verbrauch Verhältnis, es sind immer die Mittelklasse oder sogar die Einsteiger Karten.

Blödsinn! Die RX 6800 ist die effizienteste RDNA2 GPU. Hauptsächlich durch den human gewählten Betriebspunkt. Die RX 6400 lasse ich hier bewusst raus, das Ding war eher für Mobile gedacht.

Neurosphere

2022-10-19, 13:17:50

Ist das echt nicht das gleiche wie vor 2 Seiten schon?
https://www.forum-3dcenter.org/vbulletin/showthread.php?p=13143171#post13143171

Sonst entschuldige mich gern aufrichtig :)

Nein, das mit dem 2x Raster ist neu, das war heute morgen noch nicht von ihm kommentiert.

Tangletingle

2022-10-19, 13:18:39

Blödsinn! Die RX 6800 ist die effizienteste RDNA2 GPU. Hauptsächlich durch den human gewählten Betriebspunkt.
Die 6800 ist also topdog? Gibt's da nicht noch 3 schnellere Karten von AMD?

DrFreaK666

2022-10-19, 13:18:58

...Blödsinn! Die RX 6800 ist die effizienteste RDNA2 GPU. Hauptsächlich durch den human gewählten Betriebspunkt.

Die RX6800 war keine Top Dog Karte

Lyka

2022-10-19, 13:21:37

bitte definiert erst einmal den Begriff "Top Dog", bevor ihr mit

Effizienz vs. Speed vs. irgendwas

kommt :D

M4xw0lf

2022-10-19, 13:26:54

Ist das echt nicht das gleiche wie vor 2 Seiten schon?
https://www.forum-3dcenter.org/vbulletin/showthread.php?p=13143171#post13143171

Sonst entschuldige mich gern aufrichtig :)

Nee du hast Recht, einige aber nicht alle der Tweets (waren ja mehrere) hatten es schon hier rein geschafft. Die gefühlten Wochen waren ein paar Stunden, um die ich zu spät war.

Tangletingle

2022-10-19, 13:31:38

Mach dir doch deswegen keinen Kopf. Manchmal ist man einfach to late to the party. :up: vor allem wenn Vormittags so viele Posts droppen wie heute morgen. War ja eher ungewöhnlich.

Iscaran

2022-10-19, 14:00:43

mboeller

2022-10-19, 14:12:30

https://forum.beyond3d.com/threads/amd-rdna-3-speculation-rumours-and-discussion.62092/page-99#post-2269685

Kepler also hinted that the "> 50%" improvement in perf/power ratio must be read as ">>+"

[MK2]Mythos

2022-10-19, 14:16:06

https://forum.beyond3d.com/threads/amd-rdna-3-speculation-rumours-and-discussion.62092/page-99#post-2269685

:eek:

Jetzt reichts aber langsam mit dem Hypetrain! Ick will Fakten, Fakten, Fakten!

DrFreaK666

2022-10-19, 14:16:25

https://forum.beyond3d.com/threads/amd-rdna-3-speculation-rumours-and-discussion.62092/page-99#post-2269685

Auf Keplers Twitter-Account finde ich zu "<<+" genau überhaupt nichts.

dargo

2022-10-19, 14:20:49

Die 6800 ist also topdog? Gibt's da nicht noch 3 schnellere Karten von AMD?
Es ist N21, vielleicht mal im Zusammenhang lesen? :rolleyes: Auch ein voller N21 mit einem Betriebspunkt von 250W wäre die effizienteste RDNA2 GPU. Ist sie halt nicht geworden da sich AMD für 300W entschieden hatte. Die RX 6950XT blende ich hier aus da völlig sinnfreie Karte.

DrFreaK666

2022-10-19, 14:26:15

Es ist N21, vielleicht mal im Zusammenhang lesen? :rolleyes:

Es ging um Top Dog Karte nicht um Chip.

M4xw0lf

2022-10-19, 14:29:18

Auf Keplers Twitter-Account finde ich zu "<<+" genau überhaupt nichts.

Ich lese da "> means more than"

DrFreaK666

2022-10-19, 14:30:03

jup, mehr aber auch nicht

mboeller

2022-10-19, 14:30:19

Mythos;13143537']:eek:

Jetzt reichts aber langsam mit dem Hypetrain! Ick will Fakten, Fakten, Fakten!

ach komm schon... der Thread hat jetzt 224 Seiten und wie viele Fakten hast du hier gelesen... ;)

Fakten gibt es erst in 2 Wochen.

@DrFreaK666
ich hab ehrlich gesagt nicht nachgesehen.

Tangletingle

2022-10-19, 14:40:39

Auf Keplers Twitter-Account finde ich zu "<<+" genau überhaupt nichts.
Fass dir Mal an die eigene Nase. Chip != Karte

Badesalz

2022-10-19, 14:54:30

2x Raster-Performance würde andeuten, dass man zumindest in dem Bereich eher 4090 +X
(2x348 = 696 %)

Aber die Angabe kann natürlich auch nur grob übern Daumen gepeilt gewesen sein und +-10% sind da locker drin.Das könnte aber gut erklären warum NV sich dermassen getrieben sah/sieht und warum sie unbedingt überall die Werte mit der Mattscheibe (DLSS3) als primäre Leistungswerte sehen wollte.

Es scheint, daß mit RDNA3 für die Normalos für seine Monitore einfach nur mehr als genug Leistung zum Zocken bekommen - und nun genug für RT - und das auch halbwegs kühl und leise zu machen ist.
Das wäre etwas was dem PC-Gaming mehr hilft als irgendein TopDog von Melmac der in Gold aufgewogen wird. Wie gesagt, auch bei NV ziehen den Karren die S und Ti 60er. Der Markt interessiert sich nen feuchten für irgendwelche recht seltsamen Gestalten in den Foren.

@M4xw0lf
Ja... Geht so. Ich war dann doch ganz kleinwenig voreilig ;) Hier, einmal kurz den Diener dafür :wink: -> :massa:

Linmoum

2022-10-19, 14:57:18

"Der Markt" interessiert sich aber auch nicht für einen N31 oder N32 nach der Logik. Also bringt AMD auch mit RDNA3 nichts für "Normalos". Das wäre dann nämlich maximal N33. Und der wird von Hause aus sowieso kühl und leise bei dem angenommenen Verbrauch.

Badesalz

2022-10-19, 14:58:57

Neurosphere

2022-10-19, 15:10:36

Auf Keplers Twitter-Account finde ich zu "<<+" genau überhaupt nichts.

Allerdings schreibt auch Bondrewd als Antwort in dem Forum:

Of course it's a lot more than that.

https://forum.beyond3d.com/threads/amd-rdna-3-speculation-rumours-and-discussion.62092/page-99

DrFreaK666

2022-10-19, 15:27:29

Fass dir Mal an die eigene Nase. Chip != Karte

Bitte was?

dargo

2022-10-19, 16:03:34

Das hängt alleine von der Preisgestaltung ab. Es wird sich auch noch zeigen müssen wieviele Modelle mit welchen Chipveriationen AMD vorhat. Ich glaub alleine an den 3 Chips ist das noch nicht so klar erkennbar ;)
Warum sollte das nicht klar sein?

N31 = 2 SKUs (Full + Salvage)
N32 = 2 SKUs (Full + Salvage)
N33 = 2 SKUs (Full + Salvage)

Bei N31 kommt eventuell noch eine dritte SKU mit dem größeren Cache als absoluter Top Dog dazu. Also sind es insgesamt 7 SKUs. Das einzige was ich mich frage ist was unterhalb N33 passiert? Wird N21 RDNA2 unten rum weiter laufen? Oder ist da noch sowas wie N34 und N35 in Sicht @RDNA3?

Berniyh

2022-10-19, 16:33:15

Das hängt alleine von der Preisgestaltung ab. Es wird sich auch noch zeigen müssen wieviele Modelle mit welchen Chipveriationen AMD vorhat. Ich glaub alleine an den 3 Chips ist das noch nicht so klar erkennbar ;)
Warum sollte AMD wesentlich günstiger als Nvidia anbieten?
(bei gleicher Performance, versteht sich)
RDNA2 unten rum weiter laufen? Oder ist da noch sowas wie N34 und N35 in Sicht @RDNA3?
Es ist doch schon seit Ewigkeiten bekannt, dass RDNA2 teilweise einen Refresh bekommen wird.

amdfanuwe

2022-10-19, 16:35:09

Warum sollte das nicht klar sein?

Weil auch mehr als 2 SKUs pro Chip denkbar sind.
Unter N33 wird wohl nur noch N24 weiterlaufen.

Die frage ist, ob AMD bei der Speicherbestückung der 6000 Serie folgt, also:
x800-> 16GB
x700-> 12GB
x600-> 8GB

Dann ergäbe sich z.B.:
N31 7900XT -> 24GB
N31 7900 -> 20GB
N32 7800XT -> 16GB
N32 7800 -> 16GB
N32 7700XT -> 12GB
N33 7600XT -> 8GB
N33 7600 -> 8GB
N33 7500XT -> 6GB
N24 7400 -> 4GB

GerryB

2022-10-19, 16:52:40

Es ist N21, vielleicht mal im Zusammenhang lesen? :rolleyes: Auch ein voller N21 mit einem Betriebspunkt von 250W wäre die effizienteste RDNA2 GPU.
< 200W reichen schon für stock Perf., wenn man UVtet
z.Bsp. mit 150W tgp = 178W tbp ist man schon nahe an 20k Score im TS

dargo

2022-10-19, 16:55:43

< 200W reichen schon für stock Perf., wenn man UVtet

Ein IHV stellt ganz andere Anforderungen an seine GPUs als der Pöbel vor dem Bildschirm. UV hat da nichts verloren. Als IHV hast du nur eine Option... sich innerhalb der vorgegebenen Spannungskurve nach unten bewegen wenn die Grafikkarte weniger verbrauchen soll.

Weil auch mehr als 2 SKUs pro Chip denkbar sind.

Macht wenig Sinn bei den spekulierten Die-Sizes bei N31 bis N33.

Unter N33 wird wohl nur noch N24 weiterlaufen.

What? ;D

Wenn N33 = ~N21 willst du die Lücke zum N24 mit Luft füllen? :D

btw.
Imho braucht AMD N24 im Portfolio von RDNA3 überhaupt nicht mehr. Dafür ist das Ding viel zu langsam für die neue Generation.

Badesalz

2022-10-19, 17:06:38

Warum sollte AMD wesentlich günstiger als Nvidia anbieten?
(bei gleicher Performance, versteht sich)Wow... hölle kompliziert was? Weil man dann NV kauft? Entweder mehr Leistung fürs gleiche Geld oder die gleiche Leistung für bisschen weniger. Wir reden hier nicht von 50:50 MArktanteilen. Was gibts da zu grübeln?

Linmoum

2022-10-19, 17:12:18

AMD verkauft die Karten so, dass die Marge hoch genug ist. Su hat in der Vergangenheit mehrfach klar gemacht, wie sie zu Produkten und deren Margen steht. Das wird man auch nicht für Marktanteile über Bord werfen.

Berniyh

2022-10-19, 17:12:20

Wow... hölle kompliziert was? Weil man dann NV kauft? Entweder mehr Leistung fürs gleiche Geld oder die gleiche Leistung für bisschen weniger. Wir reden hier nicht von 50:50 MArktanteilen. Was gibts da zu grübeln?
Ja schon, aber groß werden die Unterschiede nicht sein, da braucht man sich keine Hoffnungen machen. AMDs Karten werden auch ordentlich teuer.

[MK2]Mythos

2022-10-19, 17:47:11

Ich denke schon dass AMD beim Top dog mindestens 500 dollar Unterschied zu nvidias counterpart lässt. Das Chipletdesign wird schon für hohe Margen sorgen und AMD hat im GPU Bereich noch lange nicht den Ruf wie bei CPUs.

ChaosTM

2022-10-19, 17:51:57

Wenn die Leistung vergleichbar ist , wird die Karte auch dementsprechend teuer !

AMD verschenkt nix mehr..

amdfanuwe

2022-10-19, 17:52:51

Macht wenig Sinn bei den spekulierten Die-Sizes bei N31 bis N33.

Was hat die Die-Size damit zu tun?
Ist wohl eher eine Sache der Selektion und Produktplatzierung.
N21 gabs ja auch 3 SKUs zum Start.

What? ;D

Wenn N33 = ~N21 willst du die Lücke zum N24 mit Luft füllen? :D

btw.
Imho braucht AMD N24 im Portfolio von RDNA3 überhaupt nicht mehr. Dafür ist das Ding viel zu langsam für die neue Generation.
Zum Gamen ist N24 zu schwach und dann noch mit 4GB...
Eigentlich was für den 100€ Bereich um überhaupt ein Bild auf den Schirm zu bekommen. Da spielt die Luft zum N33 keine Rolle.
N33 mit ~200mm² @N6 sollte zudem billiger zu produzieren sein als N23.
Macht keinen Sinn, die weiter zu produzieren.
Da stellt sich mir eher die Frage, ob N23 noch eine Weile im Programm bleibt und N33 teuer darüber positioniert wird oder ob N23 abverkauft wird und N33 relativ günstig startet.
Hab grad nicht schlecht gestaunt, dass die 6500XT noch für 300€ angeboten wird.

Nightspider

2022-10-19, 17:55:34

Ravenhearth

2022-10-19, 17:55:57

Hab grad nicht schlecht gestaunt, dass die 6500XT noch für 300€ angeboten wird.
Wo? Für 300€ bekommst du eine 6600, die 6500 XT gibts ab 200€.

r3ptil3

2022-10-19, 17:56:03

Wenn die Leistung vergleichbar ist , wird die Karte auch dementsprechend teuer !

AMD verschenkt nix mehr..

Ja, aber heute zahlt man auch einen beträchtlichen Teil für die Software bei einer GPU und genau das wird sich bei AMD auch im Preis bemerkbar machen.

Selbst wenn die Leistung ebenbürtig ist, wird das Top-Modell nicht über 1'200$ kosten.

DrFreaK666

2022-10-19, 17:58:49

Ich gehe von ca. 1500€ für das Top-Modell aus

Nightspider

2022-10-19, 17:59:02

Nicht vergessen das AMD günstigere Fertigungskosten hat und Yieldraten des GCDs viel besser sind als von Nvidias riesige >600mm Dickschiff.

GDDR6 dürfte auch billiger sein.

Wenn sich erstmal die paar tausend neureichen Bitcoin-Millionäre ihre 4090 gekauft haben, wird sie danach für 2000 Euro im Regal liegen bleiben.

Ich kenne nur einen Verrückten in meinem Bekanntenkreis der sich je eine Grafikkarte bis 1500 gekauft hat und selbst er ist zu dem Preis nicht an der 4090 interessiert, aktuell.

Nvidia wird dieses Preisniveau nicht halten können, die normalen Menschen sind sparsamer geworden, nicht umgekehrt.

AMD könnte mit dem N33 da genau richtig landen für die Masse.

amdfanuwe

2022-10-19, 17:59:03

Wo? Für 300€ bekommst du eine 6600, die 6500 XT gibts ab 200€.
Ja. Ab 200€, ein paar sind aber noch mit 300+€ ausgezeichnet.

ChaosTM

2022-10-19, 18:00:54

Klar, aber mit FSR ist man für weniger High-Endige ( aside from kr. )Leute schon fast on Par.

Und DP 2.1 könnt für mich all den Unterschied machen.

GerryB

2022-10-19, 18:03:57

die 6500xt gabs letzte Woche für 149€ im MS

btw.
der UVer-Pöbel zeigt ganz gut in welche Richtung es gehen kann mit dem Sweetspot
geht z.Bsp. auch für ne 6800xt wie vom IHV-Fan-dargo

Linmoum

2022-10-19, 18:04:40

Mich wundert es, das einige hier von vornherein davon ausgehen, das AMD gar nicht die Rasterleistung einer 4090 erreichen kann.

Die haben wohl nicht die mageren 5K Benchmarks gesehen, wo die 4090 teils nur 45% vor einer 3090 liegt.Weil Rosinen nie schmecken. Es gibt auch Spiele, wo es >90% auf eine 3090 sind und damit >100% vs. eine 6900XT. Von RT ganz zu schweigen, da werden Abstände noch größer. Aber so what. Passiert in beide Richtungen. Gab es schon immer und wird es auch in Zukunft geben solche Diskrepanzen zwischen einzelnen Spielen.

Nachdem aber auch bei Nvidia zuvor in der Gerüchteküche von Faktor >2x die Rede war, sollte man bei RDNA3 vielleicht lieber die Gerüchte auch dementsprechend einordnen. Nicht, dass da am Ende auch nur 70% von übrig bleiben.