PDA

Archiv verlassen und diese Seite im Standarddesign anzeigen : AMD/ATI - RDNA3 (Navi 3X, Radeon RX 7000 Serie, tlw. Chiplets, 5/6 nm, 2022)


Seiten : 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 [30] 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48

OpenVMSwartoll
2022-11-11, 23:51:55
Warum warten wir nicht erst mal das finale Produkt ab, bevor wir bewerten, was wie zu vergleichen ist.

Wir können einander dann immer noch erzählen, für wie dumm wir einander halten. Oder ist die Idee auch dumm?

So pauschal im Vorfeld basierend auf Vergangenem ein Urteil zu fällen, scheint voreilig.

Nazar
2022-11-12, 01:49:05
du fragst mich das, obwohl ich im gleichen Post sagte warum, dämlicher gehts ja kaum

Du hast keine Ahnung, und das ist dein Spielplatz, auf dem du alleiniger Herrscher bleiben wirst. ;)

reaperrr
2022-11-12, 02:32:28
Die 355W Maximum gelten nur für die Referenzkarten mit 2x8 Pin.

Die AIB Varianten haben 3x8Pin womit sie bis zu 500W ziehen könnten.
Das Problem ist wohl, dass der Chip selbst mit 450W nur bis höchstens 2,8 GHz geht (https://mobile.twitter.com/XpeaGPU/status/1589071686493958145) (ob nur Frontend oder auch Shader/Gameclock wurde nicht näher gesagt) und damit nichtmal 5% Leistung draufpackt (zumindest in TSE).

Und bei 2,9 Ghz soll ne Taktmauer sein, die wohl selbst mit Wahnsinns-TDP und Mega-Kühlung nicht zu knacken ist.

Aber allein schon, dass man mit ~12% mehr Takt nur <=5% mehr Performance rausholt legt nahe, dass hier irgendwo ein Flaschenhals ist (oder die Karte dann in Lastspitzen derart viel säuft, dass selbst 450W TBP nicht mehr reichen, um den Takt stabil zu halten).
Daher ist die Frage, ob sich TBPs über 355W überhaupt lohnen.

Exxtreme
2022-11-12, 05:42:16
Das Problem ist wohl, dass der Chip selbst mit 450W nur bis höchstens 2,8 GHz geht (https://mobile.twitter.com/XpeaGPU/status/1589071686493958145) (ob nur Frontend oder auch Shader/Gameclock wurde nicht näher gesagt) und damit nichtmal 5% Leistung draufpackt (zumindest in TSE).


Ja, laut einem Möchtegern-Insider auf Twitter. :) Mal sehen wie das in der Praxis aussieht.

DrFreaK666
2022-11-12, 06:57:03
Ich frag mich wieso man den Chip unbedingt auf 450W prügeln will.

Redneck
2022-11-12, 09:28:33
Wann fällt denn nun das NDA für reviews?
Oder fällt das NDA Datum auch unter das NDA?

Mortalvision
2022-11-12, 09:31:42
Letzteres :D

robbitop
2022-11-12, 09:32:09
Das Problem ist wohl, dass der Chip selbst mit 450W nur bis höchstens 2,8 GHz geht (https://mobile.twitter.com/XpeaGPU/status/1589071686493958145) (ob nur Frontend oder auch Shader/Gameclock wurde nicht näher gesagt) und damit nichtmal 5% Leistung draufpackt (zumindest in TSE).

Und bei 2,9 Ghz soll ne Taktmauer sein, die wohl selbst mit Wahnsinns-TDP und Mega-Kühlung nicht zu knacken ist.

Aber allein schon, dass man mit ~12% mehr Takt nur <=5% mehr Performance rausholt legt nahe, dass hier irgendwo ein Flaschenhals ist (oder die Karte dann in Lastspitzen derart viel säuft, dass selbst 450W TBP nicht mehr reichen, um den Takt stabil zu halten).
Daher ist die Frage, ob sich TBPs über 355W überhaupt lohnen.

Es wird einen Grund geben warum AMD die Taktraten so gewählt hat. Wenn noch 500 MHz easy drin gewesen wären hätte man davon einen Teil geholt.

Wenn es weniger Leistung als Mehrtakt gibt kann das an mehreren Dingen liegen:

1. Test nicht im GPU Limit (leaker sind die größten Benchmarkdullis - mehr als Synthies kriegen die selten hin wo man nur einen Knopf drücken muss)
2. Leaks sind falsch weil sie noch keine Treiber haben
3. Treiber haben noch irgend ein issue
4. Bandbreitenlimitierung - es muss einen Grund für die VCacheoption haben - GPUs verhalten sich anders als CPUs. Wenn genug Bandbreite da ist bringt noch mehr praktisch nix mehr in Spielen. Ggf hat man mit >3 GHz geplant und ab einem gewissen Punkt reicht die Bandbreite dann nicht mehr für eine lineare Skalierung im OC mit 96 mib und 20gbps GDDR6.

BiG OnE
2022-11-12, 09:33:49
@Redneck
Das ist wie bei 007, wenn wir es Dir verraten würden, müssten wir für Dein sofortiges Ableben sorgen.

Redneck
2022-11-12, 10:09:23
Letzteres :D

Affig.. Sowas stößt mir bitter auf. Man weiß doch, wann die 4080er kommen und die Performance bekannt ist. Ich komme auf keinen triftigen Grund, weshalb man das Review Datum deshalb geheimhalten müsste.. Whats the trick? Glauben die etwa kurzfristig nach Veröffentlichung der 80er noch etwas am Bios drehen zu können mit ihrer 2x8 pin Power limitation? Manoman

Troyan
2022-11-12, 10:12:51
Laut Gamersnexus sollen die Reviews am 12.12. kommen.

Schnitzl
2022-11-12, 11:49:29
du fragst mich das, obwohl ich im gleichen Post sagte warum, dämlicher gehts ja kaum
aha:
200$ Unterschied aber eigentlich muss man AMD Customs vs Nvidia FE vergleichen. die FE ist schon deutlich besser. am Ende wird ein Unterschied von 100-150€ sein wenn keine Überzogenen Preise sind.
DAS ist deine Erklärung? :freak:

r3ptil3
2022-11-12, 12:55:17
Strix RX 7900 XTX incoming...

https://i.ibb.co/4gJLQcW/image.png
https://videocardz.com/newz/asus-is-preparing-radeon-rx-7900-rog-strix-series-according-to-new-eec-filing

Bezweifle aber, dass es final so viele Produkte geben wird. :D

basix
2022-11-12, 14:02:54
Strix RX 7900 XTX incoming...

https://i.ibb.co/4gJLQcW/image.png
https://videocardz.com/newz/asus-is-preparing-radeon-rx-7900-rog-strix-series-according-to-new-eec-filing

Bezweifle aber, dass es final so viele Produkte geben wird. :D

Normal, Advanced, OC, TOP? WTF? :freak:

Edgecrusher86
2022-11-12, 14:22:55
Gewinnmaximierung. MATRIX fehlt noch. ;D

[MK2]Mythos
2022-11-12, 14:47:23
So viele Varianten machen ja eigentlich nur Sinn, wenn es deutliche Unterschiede bei den Boards/Taktraten gibt. Selbst wenn wir davon am Ende nur noch die Hälfte oder weniger auf dem Markt sehen. Stimmt positiv für deutlich fixere N31...

Complicated
2022-11-12, 14:51:25
Naja, wenn man 100,- als Preisegmentierung annimmt, dann muss man nur noch ungefähr einschätzen ab wieviel Performance Plus ein Hersteller ein neues Modell für gerechtfertigt hält.
Nimmt man hier lediglich 5% an, kommt man schon bei Ref+20% mehr Leistung an. Ist zwar grob, die Parameter kann man ja anpassen.

basix
2022-11-12, 14:57:47
Mythos;13165287']So viele Varianten machen ja eigentlich nur Sinn, wenn es deutliche Unterschiede bei den Boards/Taktraten gibt. Selbst wenn wir davon am Ende nur noch die Hälfte oder weniger auf dem Markt sehen. Stimmt positiv für deutlich fixere N31...

Siehe 4090: Zwischen Normal und OC besteht faktisch kein Unterschied, ausser +100/200$ Preis ;)

why_me
2022-11-12, 15:21:09
Würden sich die dinger wenigstens optisch irgendwie unterscheiden, aber die sehen am ende zu 99% gleich aus und haben dann ein paar MHz mehr Takt und sind unnötig teuer.

Thunder99
2022-11-12, 16:49:16
Ist wie bei Autos. Viele unnötige Modelle die nur Ressourcen schlucken
ist bei Team Grün nicht anders

nordic_pegasus
2022-11-12, 16:57:42
wird denn bei einer Strix Top / Advanced / TOP / Vanilla außer dem Binning und BIOS irgendein Unterschied sein? Ich denke hier werden keine zusätzlichen Ressourcen gebunden, höchstens der Aufdruck für die EAN Nummer ist anders. Wobei der Label sowieso einmalig ist, weil die S/N draufsteht.

Letztlich kann man sich nur sicher sein, dass man bei einer Vanilla garantiert die unterste Kategorie vom Binning-Prozess erhalten wird.

Neurosphere
2022-11-12, 17:38:40
Mittlerweile gehts meistens über das Powerlimit. Je "besser" die Modelle, desto weiter lässt sich das Powerlimit für Benchmarks usw. erhöhen. Binning kommt dazu, ob es da aber wirklich gravierende Unterschiede gibt ist schwer zu sagen. Innerhalb einer Serie (bei Asus z.B TUF oder Strix) kann ich mir aber schon vorstellen das gebinnt wird und die besseren Chips auf den OC und die etwas schlechteren auf den non OC Modellen landen.

basix
2022-11-12, 18:07:03
Bei den 4090 sind es ~100 MHz max. zwischen allen Modellen, was ~3% Performance ausmacht

Langlay
2022-11-12, 18:17:58
Mittlerweile gehts meistens über das Powerlimit. Je "besser" die Modelle, desto weiter lässt sich das Powerlimit für Benchmarks usw. erhöhen. Binning kommt dazu, ob es da aber wirklich gravierende Unterschiede gibt ist schwer zu sagen. Innerhalb einer Serie (bei Asus z.B TUF oder Strix) kann ich mir aber schon vorstellen das gebinnt wird und die besseren Chips auf den OC und die etwas schlechteren auf den non OC Modellen landen.

Bei AMD kann man bis jetzt das Powerlimit "relativ" frei einstellen, meine 6900XT Ref geht bis 360W GPU Power Stock sind 255W.

Und das bessere Binning der OC Karten ist meist auch eher minimal.

Complicated
2022-11-12, 20:10:16
Nur ist AMDs Chip der gebinnt wird deutlich kleiner. Da könnte es mehr Streuung geben. Und wenn AMD die schlechtesten für die Referenz nutzt, könnte da eine größere Taktspanne entstehen, die es mit grösseren Chips nicht mehr gibt aus wirtschaftlichen Gründen.

Thunder99
2022-11-12, 20:15:39
Gibt's wirklich noch schlechte Chips in der heutigen Zeit?
Das geht doch unter, da die paar mehr MHz ja kaum was bringen.

Langlay
2022-11-12, 20:32:19
Und wenn AMD die schlechtesten für die Referenz nutzt

Finde den Fehler.

AMD verkauft Chips die die Spezifikation 7900XT oder 7900XTX schaffen. Das weitere Binning passiert dann erst bei den Boardpartnern die die Custommodelle daraus herstellen. Und ich gehe davon aus bei den Referenzkarten wird garnicht weiter gebinnt.

gedi
2022-11-12, 20:51:28
Laut Gamersnexus sollen die Reviews am 12.12. kommen.

13.12.

Und final Bios, ...

Complicated
2022-11-12, 22:38:26
Das weitere Binning passiert dann erst bei den Boardpartnern die die Custommodelle daraus herstellen. Und ich gehe davon aus bei den Referenzkarten wird garnicht weiter gebinnt.
Du meinst so war es bis AMD Chiplets genutzt hat. Meine Spekulation war dass sich das geändert haben könnte mit dem Chiplet-Design. Bisher gab es auch keine 4 Customs in ein und der selben Serie und dazu noch eine weitere Serie mit 4 Designs des selben Herstellers.

AMD könnte selber den Preis Staffeln, wenn die Taktdifferenzen ausreichend differenzierbar wären. Vielleicht waren die 3 GHz der Gerüchteküche gar nicht falsch, sondern nur als beste Bin-Klasse im Umlauf.

maximus_hertus
2022-11-12, 23:01:50
Oh je, was hier wieder teils für Hoffnungen in N31 gesetzt werden. Wenn 3 GHz gehen würden, würde AMD zumindest eine Special Superlimited Variante raus hauen, um am 13.12. Navi 31 bestmöglich dastehen zu lasen und ggf. die 4090 bei Raster anzugreifen.

AMD besetzt eh einen relativ "leeren" Bereich, nV hat entweder eine Klasse höher (4090) oder eine halbe Klasse tiefer (4080) was zu bieten. Was soll ein "Extrem"-Bining da bringen? Die 4090 wird wohl so weit weg sein, dass da wohl eher nichts geht.

Wenn, dann würde man wohl die besten Chips behalten um in Richtung Mitte 2023 ein Konter für eine mögliche (weitere) AD102 Salvage Karte zu haben. Aber selbst das halte ich nicht für so wahrscheinlich.

Ich bin gespannt, wie die Nachfrage in EU bzg. der 4080 verlaufen wird. Mit ca. 1500 Euro ist man ja weit weg vom "normalen" 80 Territorium, auch wenn nV und Co. nichts für den schwachen Euro können. AmEnde müssen wir und auch die IHVs damit umgehen lernen und je nach Verkaufs"erfolg" könnte es in der EU doch recht schnell zu niedrigeren Straßenpreisen kommen (kein gewaltiger Unterschied, aber zumindest eine kleine Linderung).

Bald gibt es zumindest die 4080 Reviews, dann wissen wir mehr.

DrFreaK666
2022-11-12, 23:13:48
...
Ich bin gespannt, wie die Nachfrage in EU bzg. der 4080 verlaufen wird. Mit ca. 1500 Euro ist man ja weit weg vom "normalen" 80 Territorium, auch wenn nV und Co. nichts für den schwachen Euro können...

Das hat doch mit dem Euro nichts zu tun. Die 4080 ist in den USA auch deutlich teurer als die 3080er.
Jensen sagte dass die Zeit der günstigen Karten vorbei sei, und bezog sich dabei nicht nur auf Europa

ChaosTM
2022-11-12, 23:29:26
Jensen muss alles tun, um NVs Stock hoch zu halten, und das geht halt am besten über die Marge.

Er macht betriebswirtschaftlich alles richtig.

Neurosphere
2022-11-13, 00:23:04
Naja, Corona und der Run auf Hardware hat ja gezeigt das die Leute bereit sind mehr Geld auszugeben. Allerdings bricht der Markt gerade ein, Consumer Hardware ist erstmal recht gesättigt. Abwarten wie sich das Ganze entwickelt.

Lehdro
2022-11-13, 00:46:05
AMD wird nur dann noch einmal extra binnen, wenn XTXH oder KXTX angedacht sind - also ganz sicher nicht zum initialen Launch, sondern erst später.
Bei NV mag das etwas anders aussehen, aber die haben auch keinen Vollausbau derzeit, vielleicht sammelt man da tatsächlich schon ein paar 100% funktionsfähige Dies für Axxxx bzw. eine potentielle RTX 4090 Ti bzw. Titan RTX.

Langlay
2022-11-13, 00:49:55
AMD wird nur dann noch einmal extra binnen, wenn XTXH oder KXTX angedacht sind - also ganz sicher nicht zum initialen Launch, sondern erst später.

Das die Anforderungen an eine 7950XTX andere sein werden als an eine 7900XTX beim Binning ist ja klar, aber auch von der von dieser Variante wird es nur ein Binning von AMD geben, nicht 3 verschiedene. Es ist einfach nur ein weiteres Modell was AMD einschiebt mit eigenen Anforderungen.

amdfanuwe
2022-11-13, 01:12:10
Allerdings bricht der Markt gerade ein, Consumer Hardware ist erstmal recht gesättigt. Abwarten wie sich das Ganze entwickelt.
Seh ich nicht so. Da sind noch viele mit alten Systemen unterwegs die im 200€- 500€ Bereich einkaufen und mangels GPU zu akzeptablen Preisen noch nicht aufgerüstet haben.
War ja wegen Mining nichts zu bekommen und Corona trieb die Preise dann hoch.
Nach dem jetzt GPUs im Preis runtergekommen sind, wartet man eventuell noch, wie die nächste Generation mit 7600, 7700, 3060, 3070 aussieht.
Low End CPU der nächsten Generation sind auch noch nicht raus (non-X, APUs, non-k)

Ich hab nicht mehr gewartet und heute die 480 8GB raus und eine 6700XT eingebaut. 439€ waren für mich OK. Vielleicht ersetze ich den 1600X noch durch einen 5600. Reicht dann erstmal.
Ein Bekannter gurkt auch noch auf einer 370 3,5GB rum. War ihm die letzten 3 Jahre auch zu teuer. Mehr als 1500€ für einen Komplett PC will er auch nicht ausgeben.

Also ich denke Consumer ist nicht gesättigt. Low und midrange Gaming hat da noch großen Bedarf.

ChaosTM
2022-11-13, 01:23:54
Low und Midrange wandert immer mehr zu den Konsolen ab was Spiele betrifft.
Da kriegst du deutlich mehr für dein Geld.

dargo
2022-11-13, 08:31:41
Also ich denke Consumer ist nicht gesättigt. Low und midrange Gaming hat da noch großen Bedarf.
"Low" ist mittlerweile ein Problem, zumindest bei Nvidia. Selbst die langsamste Ampere GPU @3050 kostet heute noch ab 300€. Wie wird das dann erst mit Ada aussehen? Ich bin mir nicht mal sicher ob AMD bei RDNA3 noch was unter 300€ eingeplant hat.

mironicus
2022-11-13, 08:45:08
Zum Glück gibt es ja noch so etwas wie das Steam Deck. Und PC-Gaming kann auch im unteren Preissegment weiter bestehen, wenn Valve z.B. eine PC-Konsole mit Zen 4-APU bringen würde. Damit könnte man sogar eine Xbox und Playstation überflüssig machen.

Berniyh
2022-11-13, 09:36:35
Also ich denke Consumer ist nicht gesättigt. Low und midrange Gaming hat da noch großen Bedarf.
Sind das nicht meistens Laptops? Da ist nicht viel mit upgraden.

Platos
2022-11-13, 10:49:32
Zum Glück gibt es ja noch so etwas wie das Steam Deck. Und PC-Gaming kann auch im unteren Preissegment weiter bestehen, wenn Valve z.B. eine PC-Konsole mit Zen 4-APU bringen würde. Damit könnte man sogar eine Xbox und Playstation überflüssig machen.

Wenn man sich die Preise von Steam-Deck anschaut, wird da gar nie was überflüssig gemacht.

amdfanuwe
2022-11-13, 11:18:02
Sind das nicht meistens Laptops? Da ist nicht viel mit upgraden.
Eben deshalb kaufen viele noch PC.
Wer sich einen günstigen Gaming PC zusammenschraubt, schrauben lässt, gibt nicht eine Menge Geld für einen halbwegs brauchbaren Gaming Laptop aus.

Mein Upgrade kostet mich jetzt 670€. Was kostet denn ein Laptop mit 5600 CPU/6700XT GPU Leistung? Zudem noch leise.
Und wenn da was defekt ist, muss man den ganzen Laptop verschrotten.

Berniyh
2022-11-13, 11:50:13
Du betrachtest das aus der falschen Perspektive. Viele kaufen eben keinen PC oder Laptop für Gaming, sondern einfach einen Laptop.
Der wird dann aber eben auch mal für Gaming verwendet und das sind halt größtenteils die Geräte die – aus Gaming Sicht – im Low, evtl. Mid, Range Bereich sind. Und da is halt nix mit Upgrade, außer ein neuer Laptop, was aber auch nicht bzw. nicht häufig passieren wird.

Dass man die Gaming Experience mit einem PC für weniger Geld besser hinbekommen kann steht außer Frage, aber das machen halt nur sehr wenige.

amdfanuwe
2022-11-13, 16:59:10
Da wir keine belegbaren Zahlen haben, können wir nicht entscheiden wessen Perspektive daneben liegt :-)

Der Massenmarkt ist mit Cromebook und und Laptops bis 4C8T ohne großartige GPU bedient.
Reicht auch für Browsergames, Wimmelbild und Candy Crush spielen.

Dann gibt es noch eine kleine Gruppe von Spielern die Wert auf gute Grafik legen.
Ob da mittlerweile die Gaming Laptops den PC ausstechen bezweifle ich halt.
Konsolen sind da auch schon ein Thema.
Muss jeder für sich die einzelnen Vor und Nachteile abwägen.

Wenn man sich die verkauften Stückzahlen an CPUs und GPUs ansieht, sind DIY nicht nur sehr wenige. Auch sieht man, dass zumindest bei MF nicht das teuerste sich am besten verkauft.
Bei CPUs sind es eher 12400 bis 12700, 5600X, 5800X.
Bei den GPUs haben die 6600 mehr Verkäufe als die 6900, wenn ich da einfach mal drüber schaue.
Die Menge, die in diesen Preislagen kaufen decken sich grad mit der letzten Generation ein nachdem jetzt die Preise runterkommen. Evtl. ein 5800X3D den viele ja einfach aufrüsten können oder warten noch bis das GPU Portfolio der neuen Generation bei AMD und Nvidia komplett ist.
Ich denke halt, da sitzen noch viele mit ihrem 3600 oder älter die jetzt erst anfangen ans aufrüsten zu denken nachdem die 5000er im Preis nachgeben.
Die daran denken von FHD auf WQHD umzustellen. War die letzten 2-3 Jahre nicht möglich.

Thunder99
2022-11-13, 17:01:53
3DC hat noch nie die breite Masse abgedeckt sondern die oberen Drittel die Freaks sind :)

Spannend wird in wie weit die 7900XT schneller oder langsamer ist als die 4080. Könnte ein guter Preiskampf geben.

amdfanuwe
2022-11-13, 17:27:19
Ja, die breite Masse kauft bei MM :confused:
Ich bin mehr auf die Preise bei 7600 und 7700 gespannt.

mczak
2022-11-13, 19:46:29
"Low" ist mittlerweile ein Problem, zumindest bei Nvidia. Selbst die langsamste Ampere GPU @3050 kostet heute noch ab 300€. Wie wird das dann erst mit Ada aussehen? Ich bin mir nicht mal sicher ob AMD bei RDNA3 noch was unter 300€ eingeplant hat.
Unter N33 kommt ja offenbar nichts, da bleibt also N24. Rein von den Kosten her würde aber sicher nichts dagegen sprechen ein Produkt mit N33 unterhalb von 300 Euro anzubieten, gibt ja mittlerweile auch RX 6600 die darunter sind und Grafikkarten mit N33 dürften etwa dieselben Herstellungskosten haben.

dargo
2022-11-13, 20:04:00
Ich meine schon Preise direkt zum Release und nicht zum Lebensende einer Generation.

Berniyh
2022-11-13, 20:05:36
Unter N33 kommt ja offenbar nichts, da bleibt also N24. Rein von den Kosten her würde aber sicher nichts dagegen sprechen ein Produkt mit N33 unterhalb von 300 Euro anzubieten, gibt ja mittlerweile auch RX 6600 die darunter sind und Grafikkarten mit N33 dürften etwa dieselben Herstellungskosten haben.
Sollte nicht ein Refresh von Navi2x in N6 kommen? Welche genau ist aber noch nicht klar, Navi21 eher nicht, aber vermutlich Navi23, evtl. auch Navi22.

Cyberfries
2022-11-13, 20:52:13
Low und Midrange wandert immer mehr zu den Konsolen ab was Spiele betrifft.
Da kriegst du deutlich mehr für dein Geld.

Die günstigste PS5 im Preisvergleich liegt bei 700, das günstigste Komplettsystem mit 3060 780.
Dann die höheren Kosten für Multiplayer, Spiele, etc...

Sollte nicht ein Refresh von Navi2x in N6 kommen? Welche genau ist aber noch nicht klar, Navi21 eher nicht, aber vermutlich Navi23, evtl. auch Navi22.

Wozu N22 in N6 neu auflegen? N33 wird schneller, sparsamer und günstiger zu produzieren sein.
N23 bringt auch keine wirklichen Kostenvorteile gegenüber N33, Neuauflage in N6 kann man sich sparen.

Berniyh
2022-11-13, 21:09:11
Wozu N22 in N6 neu auflegen? N33 wird schneller, sparsamer und günstiger zu produzieren sein.
N23 bringt auch keine wirklichen Kostenvorteile gegenüber N33, Neuauflage in N6 kann man sich sparen.
Das war halt bislang das Gerücht.

iamthebear
2022-11-13, 21:15:46
Navi24 ist bereits 6nm
Navi33 ist die Neuauflage von N22 und N23 (irgendwo in der Mitte drin)
Navi32 ist die Neuauflage von N21, kommt aber erst nächstes Jahr nachdem alle N21 Karten verkauft sind

Mandalore
2022-11-14, 16:32:31
https://www.tomshardware.com/news/amd-rdna-3-gpu-architecture-deep-dive-the-ryzen-moment-for-gpus?utm_campaign=socialflow&utm_medium=social&utm_source=twitter.com

Deep Dive RDNA 3

HOT
2022-11-14, 16:47:11
Man bekommt ne Idee, wie aufwendig das wird ne Chiplet-basierte GPU zu designen...

robbitop
2022-11-14, 17:00:41
https://www.tomshardware.com/news/amd-rdna-3-gpu-architecture-deep-dive-the-ryzen-moment-for-gpus?utm_campaign=socialflow&utm_medium=social&utm_source=twitter.com

Deep Dive RDNA 3

Wohl eher ein shallow dive. Aber immerhin ein paar mehr Informationen.

Wenn man sieht wie viel Fläche die IF kostet, stellt man sich schon die Frage, ob Chiplet Navi31 jetzt so viel gebracht haben. Ggf. "musste" man das aber machen um in zukünftigen Generationen diese Übung hinter sich gebracht zu haben und dann nicht darüber zu stolpern.

Wie schon vermutet, wird die Matrixleistung nur über die reine Steigerung der Vektorleistung erhöht und RT nur marginal schneller gemacht durch ein paar Optimierungen, die dafür sorgen, dass das was auf den FPUs passiert (BVH traversal) nun effizienter geschieht und weniger Leistung kostet. Man sieht dass AMD für RDNA3 keine Fixed Function Hardware (Matrix Cores, BVH Traversal, Coherency Sorting) wollte und lieber das Zeit- und Transistorbudget in andere Dinge investieren wollte.
Ich hoffe, dass sie bei RDNA4 eingesehen haben, dass für den Einsatzzweck kein Weg um Fixed Function Units führt, wenn man bei RT mithalten können will.

Interessant ist die RDNA3 uArch schon. Aber ein wenig disconnected vom sich ändernden Zeitgeist der 3D Grafik.

Sunrise
2022-11-14, 17:14:52
https://www.tomshardware.com/news/amd-rdna-3-gpu-architecture-deep-dive-the-ryzen-moment-for-gpus?utm_campaign=socialflow&utm_medium=social&utm_source=twitter.com

Deep Dive RDNA 3
Danke für den Lesestoff.

Ich habe ein Bisschen das Gefühl, dass AMD da in eine absehbare Preis/Leistungs-Sackgasse läuft und es auch in der nächsten Generation wieder NV ist, der hier dominiert und bestimmt.

Der Chiplet-Weg (bei GPUs) ist irgendwie kontrovers, denn wenn man ähnlich wie NV massive GPU-Kapazitäten hätte einkaufen können, wusste man wohl bereits anhand Simulationen, dass selbst ein monolithischer Chip hier unterlegen gewesen wäre. Der Chiplet-Weg hat abseits vielleicht von den Kosten (die man aber relativ zur Endperformance sehen muss..) hier garkeine Vorteile für AMD ergeben, zumindest sehen ich keine.

Man hätte z.B. früher vorstellen können -> ist nicht passiert, kein Zeitvorteil

Im Endeffekt bleiben nur noch die Kosten übrig, bzw. evtl. bessere Kapazität.

All das bringt zumindest beim Top-Dog aber nichts, wenn das Produkt trotz des geringeren Preises klar unterlegen ist.

Ja, die Umsätze werden mit Masse gemacht, aber wenn der Halo-Effekt von AD102 jetzt so nach unten durchschlägt, hat AMD hier IMHO ein Problem.

Dadurch, dass u.a. Sony und MS ja zu den Kunden gehören, habe ich so ein Bisschen das Gefühl, dass man PC-Desktop nicht an die Spitze bringen will, sondern man lieber iterative, relativ stabile Verbesserungen für alle Partner liefern möchte, anstatt eine GPU zu entwickeln, die etwas mutiger nach vorne geht und man etwas mehr Geld in die Hand nimmt. Man scheint hier irgendwie auf Nummer sicher zu gehen (was ja auch ein Weg ist...).

MSABK
2022-11-14, 17:16:28
Ja, die Umsätze werden mit Masse gemacht, aber wenn der Halo-Effekt von AD102 jetzt so nach unten durchschlägt, hat AMD hier IMHO ein Problem.

Erst einmal abwarten was Nvidia unter „unten“ versteht, aktuell sind die Karten schon gut teurer als Amd.

DrFreaK666
2022-11-14, 17:22:02
Neue Balken
https://abload.de/img/radeon-rx-7900-39tdjd.jpg (https://abload.de/image.php?img=radeon-rx-7900-39tdjd.jpg)

https://abload.de/img/radeon-rx-7900-2pve2r.jpg (https://abload.de/image.php?img=radeon-rx-7900-2pve2r.jpg)

https://videocardz.com/newz/amd-compares-its-radeon-rx-7900-series-to-geforce-rtx-4080

Welches FSR wurde für die Benchmarks genutzt? Performance?

Thunderburne
2022-11-14, 17:26:31
Neue Balken

Welches FSR wurde für die Benchmarks genutzt? Performance?
Genau danach sieht es aus !
Schön hübsch verpackt ...oh man jemand der in 4K spielt nutzt minimal Qualität .

HOT
2022-11-14, 17:28:00
Wohl eher ein shallow dive. Aber immerhin ein paar mehr Informationen.

Wenn man sieht wie viel Fläche die IF kostet, stellt man sich schon die Frage, ob Chiplet Navi31 jetzt so viel gebracht haben. Ggf. "musste" man das aber machen um in zukünftigen Generationen diese Übung hinter sich gebracht zu haben und dann nicht darüber zu stolpern.

Wie schon vermutet, wird die Matrixleistung nur über die reine Steigerung der Vektorleistung erhöht und RT nur marginal schneller gemacht durch ein paar Optimierungen, die dafür sorgen, dass das was auf den FPUs passiert (BVH traversal) nun effizienter geschieht und weniger Leistung kostet. Man sieht dass AMD für RDNA3 keine Fixed Function Hardware (Matrix Cores, BVH Traversal, Coherency Sorting) wollte und lieber das Zeit- und Transistorbudget in andere Dinge investieren wollte.
Ich hoffe, dass sie bei RDNA4 eingesehen haben, dass für den Einsatzzweck kein Weg um Fixed Function Units führt, wenn man bei RT mithalten können will.

Interessant ist die RDNA3 uArch schon. Aber ein wenig disconnected vom sich ändernden Zeitgeist der 3D Grafik.

Seh ich etwas anders. Der Ansatz ist eigentlich besser, als alles mit Hardware-Einheiten zuzuschmeissen. Leider zeitigen die Bemühungen bei RDNA3 keinen Erfolg. Das Teil bleibt furchtbar langsam bei RT. Mal sehen, wie der Weg weitergeht, aber ich würde vermuten, dass RT bei AMD, solange diese Konsolengeneration am Start ist, ein Stiefkind bleiben wird. Es wird reichen für die neuen Engines, aber für extra RT-Einlagen wie bei Cyberpunk und Control wird es niemals reichen, anscheinend will man da auch gar nicht in Konkurrenz treten.

aufkrawall
2022-11-14, 17:31:07
Nicht für die volle Dröhnung mehrerer Effekte. Außerdem müsste so die Hardware schneller besser werden als bei Nvidia, was mit RDNA3 vs. Lovelace offenbar schon mal nicht geklappt hat.

dargo
2022-11-14, 17:33:17
Neue Balken
https://abload.de/img/radeon-rx-7900-39tdjd.jpg (https://abload.de/image.php?img=radeon-rx-7900-39tdjd.jpg)

https://abload.de/img/radeon-rx-7900-2pve2r.jpg (https://abload.de/image.php?img=radeon-rx-7900-2pve2r.jpg)

https://videocardz.com/newz/amd-compares-its-radeon-rx-7900-series-to-geforce-rtx-4080

Welches FSR wurde für die Benchmarks genutzt? Performance?
Ich glaube bei AMD kann der Praktikant nicht rechnen. Ich sehe da mit FSR bis zu +85% und ohne FSR bis zu +100% bei RT, AMD spricht von bis zu +82%. :D

HOT
2022-11-14, 17:34:02
Nicht für die volle Dröhnung mehrerer Effekte. Außerdem müsste so die Hardware schneller besser werden als bei Nvidia, was mit RDNA3 vs. Lovelace offenbar schon mal nicht geklappt hat.
So siehts aus.

Danke für den Lesestoff.

Ich habe ein Bisschen das Gefühl, dass AMD da in eine absehbare Preis/Leistungs-Sackgasse läuft und es auch in der nächsten Generation wieder NV ist, der hier dominiert und bestimmt.

Der Chiplet-Weg (bei GPUs) ist irgendwie kontrovers, denn wenn man ähnlich wie NV massive GPU-Kapazitäten hätte einkaufen können, wusste man wohl bereits anhand Simulationen, dass selbst ein monolithischer Chip hier unterlegen gewesen wäre. Der Chiplet-Weg hat abseits vielleicht von den Kosten (die man aber relativ zur Endperformance sehen muss..) hier garkeine Vorteile für AMD ergeben, zumindest sehen ich keine.

Man hätte z.B. früher vorstellen können -> ist nicht passiert, kein Zeitvorteil

Im Endeffekt bleiben nur noch die Kosten übrig, bzw. evtl. bessere Kapazität.

All das bringt zumindest beim Top-Dog aber nichts, wenn das Produkt trotz des geringeren Preises klar unterlegen ist.

Ja, die Umsätze werden mit Masse gemacht, aber wenn der Halo-Effekt von AD102 jetzt so nach unten durchschlägt, hat AMD hier IMHO ein Problem.

Dadurch, dass u.a. Sony und MS ja zu den Kunden gehören, habe ich so ein Bisschen das Gefühl, dass man PC-Desktop nicht an die Spitze bringen will, sondern man lieber iterative, relativ stabile Verbesserungen für alle Partner liefern möchte, anstatt eine GPU zu entwickeln, die etwas mutiger nach vorne geht und man etwas mehr Geld in die Hand nimmt. Man scheint hier irgendwie auf Nummer sicher zu gehen (was ja auch ein Weg ist...).

Chiplets sind nicht kontrovers, das werden alle machen müssen. NV nimmt die Kosten in Kauf, AMD trainiert die Chiplets am laufenden Produkt. Und man spart sehr viel Fläche. Die Chiplets sind zudem nicht hinderlich, brauchen kaum zusätzlichen Strom, nur die Links sind ja redundant. Aber die Ersparnis ist trotzdem phänomenal ggü. dem, was ein Monolith gekostet hätte. Kurz: Braucht brutto mehr Fläche (was total egal ist in dem Fall), minimal mehr Strom aber ist viel viel billiger und kostet keine Performance. Dafür hat die Entwicklung gekostet, aber die muss man ja eh machen. Da das Problem zu suchen ist Unsinn.

Ich glaube bei AMD kann der Praktikant nicht rechnen. Ich sehe da mit FSR bis zu +85% und ohne FSR bis zu +100% bei RT, AMD spricht von bis zu +82%. :D

FSR Performance nutzt eh kein Mensch, die Benchmarks sind einfach nur hilflos. Hätte ehrlicherweise dranschreiben können, geht nicht mit RDNA3.

Berniyh
2022-11-14, 17:34:25
Wenn man sieht wie viel Fläche die IF kostet, stellt man sich schon die Frage, ob Chiplet Navi31 jetzt so viel gebracht haben. Ggf. "musste" man das aber machen um in zukünftigen Generationen diese Übung hinter sich gebracht zu haben und dann nicht darüber zu stolpern.
Bei Zen waren die ersten Versuche (z.B. 1st Gen Threadripper) auch etwas holprig. ;)
Zumindest für manche Workloads.
So Zwischenschritte dürften schon wichtig sein um auch in der Praxis viel darüber zu lernen.
Besser als mit einem großen Schritt zu Chiplets komplett auf die Schnauze zu fliegen ist es sicherlich.
Aber ein wenig disconnected vom sich ändernden Zeitgeist der 3D Grafik.
Das bleibt abzuwarten. Aktuell versucht Nvidia das durchzuziehen, aber der größte Teil (Konsolen, restliche PC GPUs) zieht da nur halbgar mit.

Sunrise
2022-11-14, 17:43:07
Seh ich etwas anders. Der Ansatz ist eigentlich besser, als alles mit Hardware-Einheiten zuzuschmeissen. Leider zeitigen die Bemühungen bei RDNA3 keinen Erfolg. Das Teil bleibt furchtbar langsam bei RT. Mal sehen, wie der Weg weitergeht, aber ich würde vermuten, dass RT bei AMD, solange diese Konsolengeneration am Start ist, ein Stiefkind bleiben wird. Es wird reichen für die neuen Engines, aber für extra RT-Einlagen wie bei Cyberpunk und Control wird es niemals reichen, anscheinend will man da auch gar nicht in Konkurrenz treten.
Das Problem dabei ist eben, "besser" in der Theorie muss sich in Relation dann aber auch im Ergebnis niederschlagen.

Ich verstehe es absolut nicht, wie man hier einerseits Kosten sparen wollte, aber NV schneller am Markt war (evtl. blieb deshalb auch DP auf der Strecke...), und das trotz der Anstrengungen, doch maximalen Yield (5nm + 6nm) und somit auch aufgrund der kleineren Flächen niedrigere Kosten garantieren zu wollen.

-> Wenn NV 50% mehr im Endprodukt vom Kunden verlangen kann, dann kann NV TSMC auch 50% mehr Gewinn in den Rachen schmeißen um min. 50% mehr Kapazität auf einem besseren Prozess-Node einzukaufen und das Ergebnis ist identisch.

Dabei ist ja noch nichtmal berücksichtigt, dass NV auch noch schneller ist.

HOT
2022-11-14, 17:43:58
Das Problem dabei ist eben, "besser" in der Theorie muss sich in Relation dann aber auch im Ergebnis niederschlagen.

Ich verstehe es absolut nicht, wie man hier einerseits Kosten sparen wollte, aber NV schneller war (evtl. blieb deshalb auch DP auf der Strecke...), trotz der Anstrengungen, doch maximalen Yield und niedrigere Kosten garantieren zu wollen.

-> Wenn NV 50% mehr im Endprodukt vom Kunden verlangen kann, dann kann NV TSMC auch 50% mehr Gewinn in den Rachen schmeißen um min. 50% mehr Kapazität auf einem besseren Prozess-Node einzukaufen und das Ergebnis ist identisch.

Dabei ist ja noch nichtmal berücksichtigt, dass NV auch noch schneller ist.

Die Chiplets sparen Geld und kosten keine Leistung. Wo ist dein Problem? Das hat mit NV überhaupt nichts zu tun. Wäre RDNA3 ein Monolith, säh es keinen Deut besser aus. Die Probleme liegen in der Architektur, nicht in den Chiplets. Und eines muss man ihnen lassen: Das Teil ist sicherlich nicht teurer als ein AD103, ganz im Gegenteil.

Savay
2022-11-14, 17:45:31
Hätte ehrlicherweise dranschreiben können, geht nicht mit RDNA3.

:confused:

Wieso geht das bitte nicht?! :rolleyes:

HOT
2022-11-14, 17:48:44
:confused:

Wieso geht das bitte nicht?! :rolleyes:

Weil du mit RT Ultra nicht auf UHD nativ oder FSR-Q spielen kannst ;). Bitte nicht auf Goldwaage legen, aber es ist einfach unrealistisch damit Benchmarks zu machen.

Savay
2022-11-14, 17:51:50
es ist einfach unrealistisch damit Benchmarks zu machen.

Nicht weniger unrealistisch als mit DLSS FG.
Und in 4K ist FSR P idR durchaus nutzbar. :freak:

Herstellerbenchmarks sind generell für die Tonne...das Deep Dive ist viel interessanter. ;)

basix
2022-11-14, 17:52:16
Resident Evil läuft auch ohne FSR schnell genug und die anderen drei unterstützen FSR 2.x

Für 4K ist FSR 2.0 Performance "OK genug". Man muss schon sehen, dass momentan einzig die 4090 schneller ist als das, was da gezeigt wird.

Sunrise
2022-11-14, 17:56:08
Die Chiplets sparen Geld und kosten keine Leistung. Wo ist dein Problem?
Wenn AMD 2 Chiplets/GCDs inkl. MCDs (billig) benötigt, um mit NV (teuer) zu konkurrieren, dann ist der Kostenvorteil keiner mehr.

Der Kostenvorteil ist ja kein Nonsense-Wert in der Kostenrechnung, er soll Marge und schnelle Verfügbarkeit sicherstellen.

Hat AMD hier wirklich beide Werte für sich auf Ihrer Seite? Wenn sie im Endeffekt dann für einen 50% niedrigeren Endpreis anbieten können? Eher nicht...

Und wie gesagt, AMD hat den Zeitvorteil nicht ausgespielt, wie man es dreht und wendet, es ergibt keinen Sinn was AMD da gemacht hat (zumindest im Top-End).

PS:
Wir werden nun sehen müssen, wie alles darunter (noch monolithisch) skaliert, aber das macht es im Endeffekt nicht besser (Vermutung).

Ravenhearth
2022-11-14, 17:57:46
https://www.tomshardware.com/news/amd-rdna-3-gpu-architecture-deep-dive-the-ryzen-moment-for-gpus?utm_campaign=socialflow&utm_medium=social&utm_source=twitter.com

Deep Dive RDNA 3
Dann war die geleakte Folie also doch echt :rolleyes:

Linmoum
2022-11-14, 18:04:55
Wenn ich die weiteren Benchmarks sehe heißt die 7900XT auch nur so, damit man dafür $899 verlangen kann. Eigentlich ist die XTX die XT und die 7900XT die 7800XT. Aber für letztere hätte man ähnlich wie Nvidia einen Shitstorm für den Preis kassiert.

Der Salvage ist einfach komplett sinnlos für diesen Preis und zeigt IMO einfach, dass AMD Sus ASP-/Margenspiel mit weniger nicht fortsetzen könnte. Vom Eindruck her sind die Preise schon auf Kante genäht und AMD kann froh sein, dass Nvidia die 4080 noch höher angesetzt hat. Noch mal $200 weniger für die Karten und das würde... wenig rosig aussehen.

Ansonsten wird auch mit (den) weiteren Folien die >3GHz Geschichte untermauert. Das müssten die Customs dann mit 3x8Pin also spielend leicht schaffen.

@Sunrise

Dass man trotz einer Kombi aus N5/N6 und einem verhältnismäßig kleinen N5-Die trotzdem erst zwei Monate nach der Konkurrenz mit ihrem >600mm²-Riesen aufwarten kann, wirkt in der Tat wenig logisch. Time-to-market und die hohe Flexibilität bei der Wiederverwertung der MCDs sollte ja gerade dafür sorgen, dass man hier deutlich früher am Markt sein sollte. Warum das trotzdem nicht so ist? Keine Ahnung.

Generell wirkt das Konstrukt mit 300mm² für High-End irgendwie... am falschen Ende gespart. Ein GCD mit AD103-Größe hätte immer noch sehr hohe Yields und wäre weiterhin verhältnismäßig klein, man hätte aber noch einmal ein gutes Stück mehr an Performance herausbekommen können und hätte damit auch den Preis (deutlich) höher ansetzen können. IMO wären in dem Fall sogar die Margen höher gewesen, vom ASP ganz zu schweigen.

Chiplets sind die Zukunft und kein Hersteller kommt daran vorbei. Das ist so. Aber je mehr man zu RDNA3 mitbekommt bzw. sich alles zusammenfügt, desto... kurioser wirkt das hier irgendwie.

HOT
2022-11-14, 18:06:17
Wenn AMD 2 Chiplets/GCDs inkl. MCDs (billig) benötigt, um mit NV (teuer) zu konkurrieren, dann ist der Kostenvorteil keiner mehr.

Der Kostenvorteil ist ja kein Nonsense-Wert in der Kostenrechnung, er soll Marge und schnelle Verfügbarkeit sicherstellen.

Hat AMD hier wirklich beide Werte für sich auf Ihrer Seite? Wenn sie im Endeffekt dann für einen 50% niedrigeren Endpreis anbieten können? Eher nicht...

Und wie gesagt, AMD hat den Zeitvorteil nicht ausgespielt, wie man es dreht und wendet, es ergibt keinen Sinn was AMD da gemacht hat (zumindest im Top-End).

PS:
Wir werden nun sehen müssen, wie alles darunter (noch monolithisch) skaliert, aber das macht es im Endeffekt nicht besser (Vermutung).

Was laberst du da? Wenn das Teil monolithisch wäre, würde es deutlich mehr Kosten und könnte noch weniger konkurrieren. Ich versteh dein Problem nicht. Ein 300mm²-Chip kostet vielleicht die Hälfte eines potenziellen 450mm²-Chips und 37mm² in N6 kosten quasi nix, auf jeden Fall viel, viel weniger als ein 222mm²-Chip in N6.

Linmoum
ich nehme an, dass der Yield super ist. Bei 300mm² kein Wunder. Also bepreist man die kleinere Variante sehr hoch, damit die Leute die teurere kaufen. Das ist also nichts weiter als ein Marketing-Preisbooster für die XTX. Da sehen die 1000$ gar nicht mehr so teuer aus. Wert ist das Ding vielleicht 600$, die XTX vielleicht 800$. Die 4080 vielleicht auch 800$. Alles andere ist übertriebene Marge abkassieren. Also mich haben die als Kunden auf absehbare Zeit verloren (beide). Vielleicht biegt die Rezession das wieder grade oder Intel oder China bringt ne Alternative, das geht auch.

dargo
2022-11-14, 18:10:02
FSR Performance nutzt eh kein Mensch, die Benchmarks sind einfach nur hilflos. Hätte ehrlicherweise dranschreiben können, geht nicht mit RDNA3.
Naja... ich sehe das nicht ganz so dramatisch wie du. Schau dir doch mal an was eine 4090 in 4k mit RT so schafft.
https://www.pcgameshardware.de/Geforce-RTX-4090-Grafikkarte-279170/Tests/RTX-4090-Raytracing-Benchmarks-1405125/

CP77 = 40,6fps
DL2 = 44fps
Hitman 3 = 43,6fps

Auch eine 4090 ist in 4k mit RT zumindest hier noch sehr weit von gut spielbar entfernt. Bei CP77 und DL2 heißt es offenbar weiterhin ca. Faktor 2 für Ada vs. RDNA3 bei den Topdogs (war schon bei 3090 vs. 6900XT nicht wirklich anders). Interessanterweise sind die 38fps der 7900XTX vs. 4090 gar nicht mal so schlecht im Vergleich. Aber diese Ergebnisse muss man natürlich eh noch mit Vorsicht genießen, schließlich wurden hier mit hoher Wahrscheinlichkeit nicht die gleichen Szenen gemessen. Und wie sinnvoll es ist eine 999$ Graka vs. 1599$ Graka zu vergleichen... naja, muss jeder selbst wissen.

HOT
2022-11-14, 18:14:36
Naja... ich sehe das nicht ganz so dramatisch wie du. Schau dir doch mal an was eine 4090 in 4k mit RT so schafft.
https://www.pcgameshardware.de/Geforce-RTX-4090-Grafikkarte-279170/Tests/RTX-4090-Raytracing-Benchmarks-1405125/

CP77 = 40,6fps
DL2 = 44fps
Hitman 3 = 43,6fps

Auch eine 4090 ist in 4k mit RT zumindest hier noch sehr weit von gut spielbar entfernt. Bei CP77 und DL2 heißt es offenbar weiterhin ca. Faktor 2 für Ada vs. RDNA3 bei den Topdogs (war schon bei 3090 bs. 6900XT nicht wirklich anders). Interessanterweise sind die 38fps der 7900XTX vs. 4090 gar nicht mal so schlecht. Aber diese Ergebnisse muss man natürlich eh noch mit Vorsicht genießen, schließlich wurden hier mit hoher Wahrscheinlichkeit nicht die gleichen Szenen gemessen. Und wie sinnvoll es ist eine 999$ Graka vs. 1599$ Graka zu vergleichen... naja, muss jeder selbst wissen.
Stimmt. Im Grunde ist viel RT bisher überhaupt nicht drin. Das wird sicher noch 3 Generationen dauern, bis das super ist in 4k.

DrFreaK666
2022-11-14, 18:15:42
.. Und wie sinnvoll es ist eine 999$ Graka vs. 1599$ Graka zu vergleichen... naja, muss jeder selbst wissen.

Überhaupt nicht. Morgen, spätestens übermorgen gibt es Tests der 4080. Das wird spannend. Besonders die Preise

davidzo
2022-11-14, 18:18:31
Wenn man sieht wie viel Fläche die IF kostet, stellt man sich schon die Frage, ob Chiplet Navi31 jetzt so viel gebracht haben.


Verstehe nicht was du meinst. IF spart doch sogar Die-Fläche?

Laut AMDs Folien skaliert Cache sehr schlecht und i/o noch weniger. Das hätte also in N5 viel mehr Fläche gekostet als das bisschen was das IF kostet. Monolitisch wäre der Chip wohl gute 500mm2 groß geworden. Betrachtet man dazu den cutting waste und yield wäre der Chip mindestens doppelt so teuer.

Immerhin haben wir jetzt auch Daten zur Transistordichte. 45,7 Milliarden Transistoren auf 300mm2 bedeutet knapp 152M Tr / mm2. Das sind 21% mehr als Nvidia bei GA102 aus ihrem "cutting edge density" N4 Prozess heraus bekommt.

Selbst bei der durchschnittlichen Dichte des Gesamtkonstrukts (111Mtr/mm2) liegt AMD bei 522mm2 inklusive der N6 MCDs nicht weit von Nvidias AD102 (125Mtr/mm2) AD103 (121) und AD104 (120).

HOT
2022-11-14, 18:20:27
Verstehe nicht was du meinst. IF spart doch sogar Die-Fläche?

Laut AMDs Folien skaliert Cache sehr schlecht und i/o noch weniger. Das hätte also in N5 viel mehr Fläche gekostet als das bisschen was das IF kostet. Monolitisch wäre der Chip wohl gute 500mm2 groß geworden.

Immerhin haben wir jetzt auch Daten zur Transistordichte. 45,7 Milliarden Transistoren auf 300mm2 bedeutet knapp 152M Tr / mm2. Das sind 20% mehr als Nvidia bei GA102 aus ihrem "cutting edge density" N4 Prozess heraus bekommt.

Selbst bei der durchschnittlichen Dichte des Gesamtkonstrukts (111Mtr/mm2) liegt AMD bei 522mm2 inklusive der N6 MCDs nicht weit von Nvidias AD102 (125Mtr/mm2) AD103 (121) und AD104 (120).

Der unterliegt dem gleichen Irrglauben wie Sunrise. Wenn man die Fläche mit der vergleicht, die die MCDs noch dazu gegeben hätten, wär das Ding extrem viel teurer geworden. Brutto-Fläche ist bei Chips aber egal, wichtig sind die konkreten Chip-Preise. Die paar Connects, auch wenn das bei der GPU 10x so viel sind wie bei der CPU, sind nicht mal im Ansatz so flächen- und transistorlastig, dass das auch nur entfernt ein Vergleich wäre. Und bei Chip-Preisen sparen die Chiplets irre viel Geld.

Sunrise
2022-11-14, 18:24:41
@Sunrise

Dass man trotz einer Kombi aus N5/N6 und einem verhältnismäßig kleinen N5-Die trotzdem erst zwei Monate nach der Konkurrenz mit ihrem >600mm²-Riesen aufwarten kann, wirkt in der Tat wenig logisch. Time-to-market und die hohe Flexibilität bei der Wiederverwertung der MCDs sollte ja gerade dafür sorgen, dass man hier deutlich früher am Markt sein sollte. Warum das trotzdem nicht so ist? Keine Ahnung.

Generell wirkt das Konstrukt mit 300mm² für High-End irgendwie... am falschen Ende gespart. Ein GCD mit AD103-Größe hätte immer noch sehr hohe Yields und wäre weiterhin verhältnismäßig klein, man hätte aber noch einmal ein gutes Stück mehr an Performance herausbekommen können und hätte damit auch den Preis (deutlich) höher ansetzen können. IMO wären in dem Fall sogar die Margen höher gewesen, vom ASP ganz zu schweigen.

Chiplets sind die Zukunft und kein Hersteller kommt daran vorbei. Das ist so. Aber je mehr man zu RDNA3 mitbekommt bzw. sich alles zusammenfügt, desto... kurioser wirkt das hier irgendwie.
Exakt...

Geht hier auch nicht darum, Chiplets generell zu verteufeln, aber die Art und Weise, wie es ausgeführt wurde, ist hier das Thema.

Berniyh
2022-11-14, 18:29:42
Das Problem dabei ist eben, "besser" in der Theorie muss sich in Relation dann aber auch im Ergebnis niederschlagen.

Ich verstehe es absolut nicht, wie man hier einerseits Kosten sparen wollte, aber NV schneller am Markt war (evtl. blieb deshalb auch DP auf der Strecke...), und das trotz der Anstrengungen, doch maximalen Yield (5nm + 6nm) und somit auch aufgrund der kleineren Flächen niedrigere Kosten garantieren zu wollen.

-> Wenn NV 50% mehr im Endprodukt vom Kunden verlangen kann, dann kann NV TSMC auch 50% mehr Gewinn in den Rachen schmeißen um min. 50% mehr Kapazität auf einem besseren Prozess-Node einzukaufen und das Ergebnis ist identisch.

Dabei ist ja noch nichtmal berücksichtigt, dass NV auch noch schneller ist.
Was ist denn so toll daran, wenn man noch vorher vorstellt, das macht das Ergebnis doch auch nicht besser :confused:

robbitop
2022-11-14, 18:33:46
Seh ich etwas anders. Der Ansatz ist eigentlich besser, als alles mit Hardware-Einheiten zuzuschmeissen. Leider zeitigen die Bemühungen bei RDNA3 keinen Erfolg. Das Teil bleibt furchtbar langsam bei RT. Mal sehen, wie der Weg weitergeht, aber ich würde vermuten, dass RT bei AMD, solange diese Konsolengeneration am Start ist, ein Stiefkind bleiben wird. Es wird reichen für die neuen Engines, aber für extra RT-Einlagen wie bei Cyberpunk und Control wird es niemals reichen, anscheinend will man da auch gar nicht in Konkurrenz treten.
FF Hardware bietet eigentlich immer massiv viel mehr Performance pro Transistor und pro Watt. Kann dafür aber auch nur eines. Da RT aber ein immer wesentlicher Bestandteil von 3D Grafik wird, führt da einfach kein kompetativer Weg an FF HW vorbei. So viel mehr Budget für GP HW bekommt man für das Eintauschen der Transistoren nicht. Man sieht es ja an Ampere und Ada, dasd man mit dem Ansatz in RT nicht den Hauch einer Chance hat.

robbitop
2022-11-14, 18:37:00
Exakt...

Geht hier auch nicht darum, Chiplets generell zu verteufeln, aber die Art und Weise, wie es ausgeführt wurde, ist hier das Thema.
Man hätte auf jeden Fall dank Chiplets viel stärker skalieren können. Nun topt man bei 300 mm2 aus.

Und IMO fehlt der nächste Schritt noch, den Apple ja bereits erfolgreich realisiert hat: die Skalierung von GCDs. Dann reicht ggf 1x GCD Typ ubd man kann von Midrange bis open end skalieren.

davidzo
2022-11-14, 18:40:43
Naja, die Spezifikation und Validierung, wahrscheinlich sogar RTL wird noch in einer ganz anderen Welt geplant worden sein. Vor Corona, vor der Chipkrise, vor der Spitze des Mining-boom und Crash. Da hat man anscheinend weder mit 450Watt Karten noch mit 1500€ "Performance" und 2,2K "Enthusiast" karten gerechnet. Die wurden durch Jensen einfach auf dem falschen Fuß erwischt.

Was ich nicht recht verstehe ist wieso man bei einem so niedrig angesetzten Chip nicht bei 256bit geblieben ist und stattdessen größere MCDs mit mehr Cache verbaut hat. Das hätte den Compute DIE noch kleiner gemacht (270mm2?) und kostet letztendlich weniger Power (=mehr clockspeed?) als ein breites 384bit Interface.

Sehr merkwürdig dass man ausgerechnet dann die Busbreite erhöht wenn man gleichzeitig auch das Chipletproblem lösen muss, also i/o bzw. interconnect limitiert ist. Die externen MCDs kosten immer noch deutlich mehr Power als ein internes Interface. Ich hätte eher erwartet dass das erste Chiplet Design beim SI etwas zurückgeht und stattdessen voll auf (z.t. gestapelten) Cache setzt.

Also zum Beispiel so:
- Compute DIE in N5 mit 50% weniger IF links, aber ggf. verdoppeltem L2 cache um etwas pressure von den IFlinks zu nehmen. 270-300mm2
- 4x MCDs á 64bit und 64mb - ca. 70-80mm2
- 256bit SI + 256b IFcache mit 3,5TB/s Geschwindigkeit + 640Gb/s GDDR6
- - 50% Energieverbrauch im Speichersystem durch weniger IF-links und größeren Cache
- + 50% mehr Power für den Compute DIE -> 20% mehr Taktrate (2,8-3Ghz)

Also im Prinzip ein N21 in 5nm mit Chiplet-technologie und massiv mehr Shaderpower durch mehr CUs und Dual Issue.

Zudem hätte ich echt ein extra Chiplet für Media, Display Controller etc. erwartet. Das macht Intel ja bei MTL auch so und sowas lässt sich schön in allen SKUs wieder verwenden. Senkt die Entwicklungszeiten+kosten und stärkt die Yields. Große Bandbreite braucht man für sowas auch nicht unbedingt.

dargo
2022-11-14, 18:47:23
Stimmt. Im Grunde ist viel RT bisher überhaupt nicht drin. Das wird sicher noch 3 Generationen dauern, bis das super ist in 4k.
Ich würds anders formulieren. Auch eine 4090 ist hier und da auf Helferlein @DLSS/FSR/XeSS angewiesen in 4k. Und wir reden hier von einer 2000+€ Grafikkarte, schon völlig gaga. :freak:

Complicated
2022-11-14, 18:59:59
Ich hoffe, dass sie bei RDNA4 eingesehen haben, dass für den Einsatzzweck kein Weg um Fixed Function Units führt, wenn man bei RT mithalten können will.
Seh ich etwas anders. Der Ansatz ist eigentlich besser, als alles mit Hardware-Einheiten zuzuschmeissen.
Ich sehe das wie Hot. Interessant ist möglicherweise dazu diese Folie:
https://www.phoronix.net/image.php?id=amd-radeon-rx7900&image=amd_7900_11_show



Hier sollte man den Teil "major improvement for upcoming RT-Content" übersetzen mit "Es muß in der Software genutzt werden" und somit bei derzeit vorhandenen RT-Titeln womöglich vieles nicht genutzt wird - AMD sollte da zum Release auch mit einem Software-Titel als Demo raus kommen oder zumindest ankündigen wer das demnächst in Software auch vollständig nutzt.


Was ist denn so toll daran, wenn man noch vorher vorstellt, das macht das Ergebnis doch auch nicht besser :confused:Das kommt aus der falschen Annahme heraus, dass "Time to market" irgend etwas mit dem Release-Termin der anderen Marktteilnehmern zu tun hat.

basix
2022-11-14, 19:03:30
Hier sollte man den Teil "major improvement for upcoming RT-Content" übersetzen mit "Es muß in der Software genutzt werden" und somit bei derzeit vorhandenen RT-Titeln womöglich vieles nicht genutzt wird - AMD sollte da zum Release auch mit einem Software-Titel als Demo raus kommen oder zumindest ankündigen wer das demnächst in Software auch vollständig nutzt.

Naja, Nvidia hat hier noch SER in der Hinterhand. Relativ zu Lovelace würde ich nicht allzu viel erwarten. Könnte aber reichen, um sich von Ampere absetzen zu können.

Eine UE5 Demo wäre doch nice :)

Complicated
2022-11-14, 19:12:50
SER ist doch auch nur Nvidia exklusiv und muss von den gesponserten Titeln eingebaut werden.

Berniyh
2022-11-14, 19:16:24
Hier sollte man den Teil "major improvement for upcoming RT-Content" übersetzen mit "Es muß in der Software genutzt werden" und somit bei derzeit vorhandenen RT-Titeln womöglich vieles nicht genutzt wird - AMD sollte da zum Release auch mit einem Software-Titel als Demo raus kommen oder zumindest ankündigen wer das demnächst in Software auch vollständig nutzt.
Irgendwie in die Richtung wird es am Ende ja vermutlich auch laufen.

Dass gnadenlos alles raytracen was nicht bei 3 auf'm Baum ist nicht der Weg ist zeigt ja die 4090. Also die absolute Top Klasse und selbst die performt bei nativer Auflösung eher mäßig.
Ein sicheres Zeichen dafür, dass das eher der Holzweg ist und, dass man eine bessere Implementierung in Software braucht und ggf. auch einen Hybridansatz.

robbitop
2022-11-14, 19:18:44
IMO kann man da gar keiner verschiedener Meinung sein. Ada zeigt klar, was deutlich besser funktioniert. Ada hat mit SER, DMM und OMM auch noch ungenutzte RT boosts in der Hinterhand.

SER ist zwar ein NV Begriff. Aber coherency sorting hat auch schon IMG und Intel. Ist halt nach BVH Traversal in HW der nächste Schritt.

Thunderburne
2022-11-14, 19:20:50
Resident Evil läuft auch ohne FSR schnell genug und die anderen drei unterstützen FSR 2.x

Für 4K ist FSR 2.0 Performance "OK genug". Man muss schon sehen, dass momentan einzig die 4090 schneller ist als das, was da gezeigt wird.

Wenn man den FSR Performance Mod nutzt an seinem 4K Bildschirm dann ist demjenigen eh nicht mehr zu helfen .
Das killt jeden Sinn einer solchen Anschaffung und man hätte gleich bei FHD bleiben können.

DrFreaK666
2022-11-14, 19:21:54
Wieso kann man sowas nicht in DX12 einbauen? Für was haben wir das überhaupt, wenn jeder noch eigene Software-Bibliotheken haben?

Thunderburne
2022-11-14, 19:25:32
Ich sehe das wie Hot. Interessant ist möglicherweise dazu diese Folie:
https://www.phoronix.net/image.php?id=amd-radeon-rx7900&image=amd_7900_11_show



Hier sollte man den Teil "major improvement for upcoming RT-Content" übersetzen mit "Es muß in der Software genutzt werden" und somit bei derzeit vorhandenen RT-Titeln womöglich vieles nicht genutzt wird - AMD sollte da zum Release auch mit einem Software-Titel als Demo raus kommen oder zumindest ankündigen wer das demnächst in Software auch vollständig nutzt.


Das kommt aus der falschen Annahme heraus, dass "Time to market" irgend etwas mit dem Release-Termin der anderen Marktteilnehmern zu tun hat.
Calisto Protokoll am 2.Dez wäre so ein Kandidat dort wird AMD ja Supportet.

Troyan
2022-11-14, 19:25:41
Weil man kein zweites DX12 will. DXR ist abstrahierbar. Genauso wie z.B. die Grafikpipeline abstrahiert ist und somit verschiedene Umsetzungen ermöglichte.

DXR schreibt nicht vor, wie BVH traversal und Triangle Intersection erfolgen sollen. Mit nVidias SER kann man dann die Pipeline bzgl. Threadsortierung erweitern, wodurch auch das wieder abstrahiert ist.

basix
2022-11-14, 19:30:35
Wenn man den FSR Performance Mod nutzt an seinem 4K Bildschirm dann ist demjenigen eh nicht mehr zu helfen .
Das killt jeden Sinn einer solchen Anschaffung und man hätte gleich bei FHD bleiben können.

Entweder meinst du FSR 1.0 oder du hast definitiv nie mit DLSS oder FSR 2.x gespielt. Und nein, den FSR 2.0 Mod/Hack (DLSS 2 -> FSR 2) braucht es für die gezeigten Spiele nicht, FSR 2 ist nativ in diese Spiele integriert.

Klar, normalerweise ist die Bildqualität im Performance-Mode etwas schlechter als in nativ 4K. Dafür hast du dann 2-3x Framerate. Und da kann ich dir versichern, dass die gestiegene Framerate den oftmals nur geringen Qualitätsverlust mehr als wieder wettmacht.

rumpeLson
2022-11-14, 20:31:17
Hallo zusammen :)

Ich verstehe die Stimmen nicht so recht, die RDNA3 die Raytracing-Fähigkeit komplett absprechen. Klar ist die Weiterentwicklung im Vergleich zu RDNA2 eher enttäuschend, aber die gezeigten Zahlen deuten ja auf eine Leistung auf Augenhöhe einer 3090 ti an. Und diese war vor wenigen Wochen noch das Maß aller Dinge und durchaus brauchbar auch in 4K mit DLSS/FSR2. Also gut möglich, dass die 7900XTX die dritt stärkste Grafikkarte mit Raytracing wird.

Der_Korken
2022-11-14, 20:41:49
Hallo zusammen :)

Ich verstehe die Stimmen nicht so recht, die RDNA3 die Raytracing-Fähigkeit komplett absprechen. Klar ist die Weiterentwicklung im Vergleich zu RDNA2 eher enttäuschend, aber die gezeigten Zahlen deuten ja auf eine Leistung auf Augenhöhe einer 3090 ti an. Und diese war vor wenigen Wochen noch das Maß aller Dinge und durchaus brauchbar auch in 4K mit DLSS/FSR2. Also gut möglich, dass die 7900XTX die dritt stärkste Grafikkarte mit Raytracing wird.

Die Frage ist, wie sehr RT-Leistung in zukünftigen Spielen an Bedeutung gewinnt und wie repräsentativ die heutigen RT-Implementierungen für die Zukunft sind. Der Vorsprung der 3090Ti auf die 6950XT ist in den üblen RT-Schleudern eher größer als der von AMD gezeigte Speedup. Im worst case wäre die 7900XTX dann quasi ein Re-Release der 3090, nur eben in rot. Selbe Leistung (worst-case!), selber Verbrauch, ähnlicher Preis. Dafür dass die 7900XTX 1,5 Jahre neuer ist, neuere Fertigungstechnologie verwendet und tendenziell teurer zu fertigen ist als eine 3090(Ti), wäre das imho schon enttäuschend.

rumpeLson
2022-11-14, 20:45:20
Die Frage ist, wie sehr RT-Leistung in zukünftigen Spielen an Bedeutung gewinnt und wie repräsentativ die heutigen RT-Implementierungen für die Zukunft sind. Der Vorsprung der 3090Ti auf die 6950XT ist in den üblen RT-Schleudern eher größer als der von AMD gezeigte Speedup. Im worst case wäre die 7900XTX dann quasi ein Re-Release der 3090, nur eben in rot. Selbe Leistung (worst-case!), selber Verbrauch, ähnlicher Preis. Dafür dass die 7900XTX 1,5 Jahre neuer ist, neuere Fertigungstechnologie verwendet und tendenziell teurer zu fertigen ist als eine 3090(Ti), wäre das imho schon enttäuschend.
Ja absolut, natürlich. Dennoch ein gutes Stück entfernt von unbenutzbar. Insbesondere, wenn künftige Spiele noch konfigurierbare Raytracing-Settings bringen wie z.B. Spider-Man.

Thunderburne
2022-11-14, 20:57:06
Entweder meinst du FSR 1.0 oder du hast definitiv nie mit DLSS oder FSR 2.x gespielt. Und nein, den FSR 2.0 Mod/Hack (DLSS 2 -> FSR 2) braucht es für die gezeigten Spiele nicht, FSR 2 ist nativ in diese Spiele integriert.

Klar, normalerweise ist die Bildqualität im Performance-Mode etwas schlechter als in nativ 4K. Dafür hast du dann 2-3x Framerate. Und da kann ich dir versichern, dass die gestiegene Framerate den oftmals nur geringen Qualitätsverlust mehr als wieder wettmacht.
Ich rede vom FSR 2.0 Performance Modus und das das völlig daneben ist für 4K !
FSR und DLSS unter max Qualität zu nutzen in 4K macht einen 4K Bildschirm obsolet!
Das ist Pflicht max Qualität einzuschalten ansonsten kannst gleich beim Monitor ein Downgrade machen .
Was hilft einem dann die Performance wen die Bildqualität so stark leidet ...genau nix!

Linmoum
2022-11-14, 21:02:45
Die Frage ist, wie sehr RT-Leistung in zukünftigen Spielen an Bedeutung gewinnt und wie repräsentativ die heutigen RT-Implementierungen für die Zukunft sind. Der Vorsprung der 3090Ti auf die 6950XT ist in den üblen RT-Schleudern eher größer als der von AMD gezeigte Speedup. Im worst case wäre die 7900XTX dann quasi ein Re-Release der 3090, nur eben in rot. Selbe Leistung (worst-case!), selber Verbrauch, ähnlicher Preis. Dafür dass die 7900XTX 1,5 Jahre neuer ist, neuere Fertigungstechnologie verwendet und tendenziell teurer zu fertigen ist als eine 3090(Ti), wäre das imho schon enttäuschend."Worst Case" wird eher die 3080 sein bzw. dass es eben ein gutes Stück nicht für die 3090 reicht. Das könnte in dem ein oder anderen Spiel durchaus eng werden. Minecraft RTX, Quake 2 RTX, u.U. auch ein Guardians of the Galaxy. DL2 irritiert mich seitens AMD ebenfalls, dort hat man kurioserweise RT nur mit "High" genommen, wohingegen in allen anderen Spielen auf max. RT gestellt wurde.

Nur 3090-RT sollte eigentlich kein Worst Case sein, das dürfte IMO in einem größeren Parcours ~etwa Normalität werden, wenn ich AMDs seigene Benchmarks nehme (tendenziell wird aber auch das womöglich eher knapp...). Vielleicht irgendwo zwischen 3090 und 3090Ti, aber da kann man bei ersterem dann auch nicht wirklich von worst case sprechen. Dafür sind beide zu nah beieinander.

Ich bin ja vor allem auf Witcher 3 nächsten Monat gespannt und wie sich RDNA3 dort präsentiert. Die Ur-Fassung von 2015 hat täglich alleine bei Steam immer noch zehntausende Spieler und das als simples SP-Open-World-RPG. Ich hoffe, dass man da halbwegs glänzen kann.

dargo
2022-11-14, 21:04:19
Die Frage ist, wie sehr RT-Leistung in zukünftigen Spielen an Bedeutung gewinnt und wie repräsentativ die heutigen RT-Implementierungen für die Zukunft sind.
Die Frage ist imo falsch gestellt. Eher sollte die Frage lauten wie in zukünftigen Games die Gewichtung von Rasterizer und Raytracing im hybriden Ansatz ausfallen wird? Hier wird ja oft so getan als ob nur die RT-Last nach oben geschraubt wird was imo völliger Schwachsinn ist. Die Rasterizerlast wird ebenfalls ordentlich nach oben gehen. Nur wird das erst passieren wenn die alten Konsolen endgültig nicht mehr supportet werden müssen. Aktuell hat man mehr oder weniger Lastgen Rasterizerlast + je nach Game völlig überzogene RT-Last wo selbst eine 4090 komplett in 4k einbricht.

OgrEGT
2022-11-14, 21:06:50
Neue Balken
https://abload.de/img/radeon-rx-7900-39tdjd.jpg (https://abload.de/image.php?img=radeon-rx-7900-39tdjd.jpg)

https://abload.de/img/radeon-rx-7900-2pve2r.jpg (https://abload.de/image.php?img=radeon-rx-7900-2pve2r.jpg)

https://videocardz.com/newz/amd-compares-its-radeon-rx-7900-series-to-geforce-rtx-4080

Welches FSR wurde für die Benchmarks genutzt? Performance?

Die Werte der 7900XTX für CP2077 passen irgendwie sehr gut zu Igor's spekulierten Werten... Wenn die 7900XT "nur" 300W benötigt, dann könnte eine 7800XT mit 260W durchaus auch ganz interessant sein je nach Preis...

https://www.forum-3dcenter.org/vbulletin/attachment.php?attachmentid=81433&stc=1&d=1668456188

nordic_pegasus
2022-11-14, 21:20:57
19+1 Phasen sind gar nicht schlecht, das PCB sieht echt nett aus. Leider nicht jeweils einen Kondensator pro Phase als Eingangsfilter, aber die 9 Kondensatoren unter den 8pin Anschlüssen sind deutlich mehr als damals für das Navi21 Referenz-Board.

Vorallem muss man kein Monster-Gehäuse nutzen und auch die Stromkabel bzw. Schläuche bei Custom-Waküs haben noch Platz.

81434

btw. die Folie mit den "Architected to exceed 3GHz" war echt

81435

DrFreaK666
2022-11-14, 21:34:11
...Ich bin ja vor allem auf Witcher 3 nächsten Monat gespannt und wie sich RDNA3 dort präsentiert. Die Ur-Fassung von 2015 hat täglich alleine bei Steam immer noch zehntausende Spieler und das als simples SP-Open-World-RPG. Ich hoffe, dass man da halbwegs glänzen kann.

Meines Wissens ist das von Nvidia gesponsert. FSR gibt es dann höchstens wieder nur per Mod.
Man kann sich ausmalen wie RDNA2/3 dort performen wird...
Allerdings gibt es FSR ja für CP2077. Vielleicht erscheint FSR 2 ja nicht erst zwei Jahre nach Release...

Savay
2022-11-14, 21:34:47
Das ist Pflicht max Qualität einzuschalten ansonsten kannst gleich beim Monitor ein Downgrade machen .


;D

DrFreaK666
2022-11-14, 21:36:22
Ich rede vom FSR 2.0 Performance Modus und das das völlig daneben ist für 4K !
FSR und DLSS unter max Qualität zu nutzen in 4K macht einen 4K Bildschirm obsolet!
Das ist Pflicht max Qualität einzuschalten ansonsten kannst gleich beim Monitor ein Downgrade machen .
Was hilft einem dann die Performance wen die Bildqualität so stark leidet ...genau nix!

[X] Ich habe keine Ahnung von FSR und co.

Platos
2022-11-14, 21:38:42
Lass mich raten, ihr beide habt keinen 4k Monitor ?

Savay
2022-11-14, 21:41:12
Ich hab 3...warum? :freak:

basix
2022-11-14, 21:43:30
Was hilft einem dann die Performance wen die Bildqualität so stark leidet ...genau nix!

Belege bitte diese Aussage. Sonst ist die auch "nix" wert ;)

Bei 1440p stimme ich dir zu, da ist nur Quality brauchbar. Bei 4K und aufwärts ist auch Performance brauchbar. Nicht besser als nativ, aber brauchbar und wie gesagt, deutlich besseres Spielgefühl. Quality ist visuell sicher besser, nur muss man dafür auch eine GPU mit entsprechend Leistung haben, je nach Spiel.

Wenn du es nicht nutzen willst, dann nutze es nicht ;)

DrFreaK666
2022-11-14, 21:44:51
Lass mich raten, ihr beide habt keinen 4k Monitor ?

Ich hab einen TV, gilt das auch?

TheGood
2022-11-14, 21:45:00
FF Hardware bietet eigentlich immer massiv viel mehr Performance pro Transistor und pro Watt. Kann dafür aber auch nur eines. Da RT aber ein immer wesentlicher Bestandteil von 3D Grafik wird, führt da einfach kein kompetativer Weg an FF HW vorbei. So viel mehr Budget für GP HW bekommt man für das Eintauschen der Transistoren nicht. Man sieht es ja an Ampere und Ada, dasd man mit dem Ansatz in RT nicht den Hauch einer Chance hat.
JEtzt sind wir bei der Diskussion die wir schon mal hatten. Mit den super Duper FF HW ist Nvidia im top Dog duell gerade mal doppelt so schnell. Ich sehe hier absolut nicht "massiv" viel mehrperformance mit FF HW. Gerne lasse ich mich da vom Gegenteil überzeugen z.b. bei anderen Themen die per FF HW implementiert wurden und ggf. auch nicht besser als RT skaliert.

Offensichtlich liegt das Problem darin dass RT einfach viel Rasterizering Power benötigt, wie hier auch schonmal erwähnt. Keine Ahnung ob das stimmt. Für mich ist und bleibt das aktuell alles sehr ineffektiv in bezug auf RT.
Vielleicht hilft auch ein Vergleich zu Software RT, den könnte z.b. die UE5 Engine liefern zumindest für das Global Illumination.

TheGood
2022-11-14, 21:52:54
Die Frage ist imo falsch gestellt. Eher sollte die Frage lauten wie in zukünftigen Games die Gewichtung von Rasterizer und Raytracing im hybriden Ansatz ausfallen wird? Hier wird ja oft so getan als ob nur die RT-Last nach oben geschraubt wird was imo völliger Schwachsinn ist. Die Rasterizerlast wird ebenfalls ordentlich nach oben gehen. Nur wird das erst passieren wenn die alten Konsolen endgültig nicht mehr supportet werden müssen. Aktuell hat man mehr oder weniger Lastgen Rasterizerlast + je nach Game völlig überzogene RT-Last wo selbst eine 4090 komplett in 4k einbricht.


Kann ich nur sagen UE5 oder neue Unity. Sehe hier nicht eine überlast an RT auf uns zukommen und das sind die Engines für die nächsten 5-8 Jahre, bevor die die nächste Evolutionsstufe machen.
Die Frage ist halt was die weitere Entwicklung innerhalb der Engine macht und wie groß diese Zwischenschritte sind.

Wenn man den Aufwand an RT einheiten sieht und den daraus zu gewinnenden verbesserten Bildqualität, dann ist das die gefühlt die Hardware nicht wert. Vor allem wenn man UE5 mit NANITE danebenstellt (ja ich lasse GI und Lumen jetzt bewusst weg :) ) Geht ja auch in Software, sie Cryengine SVOGI (glaub so hieß es) und Lumen gibts ja auch mit Software RT, warum weil 80% der Graka kein RT haben :D

TheGood
2022-11-14, 21:59:42
welche Fanbrille soll ich aufhaben? Ich habe derzeit eine 6900XT und will eine 7900XTX kaufen. Ich halte aber nicht viel vom AMD Referenz-Design, darum werde ich wohl eine total übertriebene Custom-Karte kaufen, weil ich u.a. die besseren Eingangsfilterung für einen relevanten Kaufgrund halte.

Ferner halte ich das Nvidia FE Design nicht für "gut", sondern besser in Relation zum Nvidia Referenz-Design. Der Aufhänger meines ersten Postings war die Antwort von Nazar auf Gott1337 (Posts #7236 #7237). Denn Unterkante beim Preis sind NV FE gegen AMD Referenz, Unterkante beim Layout sind NV Referenz gegen AMD Referenz. Anders ausgedrückt enspricht die Nvidia FE bezogen auf das Layout einem mittelprächtigen Custom-Design (egal von welchen Hersteller). Und hier gebe ich Gott1337 recht, ein fairer Vergleich wäre mMn Nvidia FE gegen ein simples AMD Custom Board. Wer mir jetzt wegen dieser Aussage einen Bias für irgendwas in den Mund legen will, dem kann ich auch nicht mehr helfen.

Ich habe bereits in meinem ersten Post auf die Eingangsfilterung bei AMD und die unbestückten Phasen bei Nvidia als Gründe hingewiesen. Darum rudere ich hier nicht zurück. Ich bleibe bei der Aussage, dass ich diese Punkte jeweils kritisch sehe. Es steht jedem frei, dies anders zu bewerten.

Ich verlinke jetzt mal deinen Originalbeitrag:
https://www.forum-3dcenter.org/vbulletin/showthread.php?t=601680
Da ist das sehr undifferenziert und pauschalisierend gesagt und dann auch noch Bauteile mit Design vermischt. Klar gehst du auf dei Eingangsfilter aus im kontext sagst du aber dass AMD Referenzdesigns quasi möglichst billig sind und genau das wurde von anderen Mitgliedern hier widerlegt.

Mit dem Hinweis darauf hast du das sehr schön differenziert und auch klar gemacht, dass du nur den Eingangsfilter damit gemeint hast und damit ist ja auch alles gesagt und OK.
Auf nichts weiteres hab ich nochmals hingewiesen.

HOT
2022-11-14, 22:25:45
Hm, dass die 3GHz+-Folie echt ist, gibt einem zu denken. Mal sehen, was da noch kommt.

Linmoum
2022-11-14, 22:33:37
Ist auch nicht die einzige, die deutlich höheren Takt nicht nur suggeriert, sondern als quasi gesetzt darstellt. Wie gesagt, die Customs mit 3x8pin müssten beim Takt dann richtig explodieren.

https://cdn.videocardz.com/1/2022/11/AMD-RADEON-RX-7900-NAVI-31-1-1200x675.jpg

Troyan
2022-11-14, 22:46:52
Die 7900XT hat einen Game-Takt von 2000MHz. Die 6800XT liegt bei 2015MHz. Beide haben eine TDP von 300W...

Das nVidia und AMD keine realistischen Zahlen nennen, ist das eine. Aber bei Computerbase taktete die 6800XT im Schnitt bei 2200MHz: https://www.computerbase.de/2020-11/amd-radeon-rx-6800-xt-test/3/#abschnitt_taktraten_in_spielen_unter_dauerlast

Da müsste due 7900XT also bei 2860MHz rauskommen...

Raff
2022-11-14, 22:47:31
Achtung, es gibt bei Navi 31 zwei Taktdomänen für die Rechenwerke.

MfG
Raff

OpenVMSwartoll
2022-11-14, 22:52:15
Things just got complicated...

Aber spannend, wenn man über das Thema Respin nachdenkt.

Exxtreme
2022-11-14, 23:05:35
Die Frage ist dann eher wieviel das Ding bei 3 GHz saufen wird wenn sie diesen angeblichen Bug fixen. Die 366 W reissen sie da mit allerhöchster Wahrscheinlichkeit.

TheGood
2022-11-14, 23:16:49
Ist auch nicht die einzige, die deutlich höheren Takt nicht nur suggeriert, sondern als quasi gesetzt darstellt. Wie gesagt, die Customs mit 3x8pin müssten beim Takt dann richtig explodieren.

https://cdn.videocardz.com/1/2022/11/AMD-RADEON-RX-7900-NAVI-31-1-1200x675.jpg
Seh das immer noch nicht so, die 3 GHZ kann bei N33 ja noch kommen oder N32. Es heisst RDNA 3 nicht Navi 31....

Ich gebe aber zu, wenn sie sagen 30% schneller im Verlgiech zu RDNA2 dann wären es vom Game Clock ausgehend
6900 2015 -> 7900XTX 2620
6800 1815 -> 7900XT 2360 (7800 würde tatsächlich viel besser passen:D)
6700 2424 -> N32 3151
usw.

Nicht so abwegig mit den exceed 3 GHZ... wenn man diesen höheren Clock nimmt, Schon wieder vergessen welcher das war...

Nakai
2022-11-14, 23:19:48
Seh das immer noch nicht so, die 3 GHZ kann bei N33 ja noch kommen oder N32. Es heisst RDNA 3 nicht Navi 31....

Ich gebe aber zu, wenn sie sagen 30% schneller im Verlgiech zu RDNA2 dann wären es vom Game Clock ausgehend
6900 2015 -> 7900XTX 2620
6800 1815 -> 7900XT 2360 (passt tatsächlich viel besser :D)
6700 2424 -> N32 3151
usw.

Nicht so abwegig mit den exceed 3 GHZ... wenn man diesen häheren Clock nimmt, Schon wieder vergessen welcher das war...

Lol, ein N32 mit 25% Mehrtakt und bei 33% weniger Rechenknechte. Klar limitieren andere Sachen dann auch irgendwann. Ein OC N32 bei 3 Ghz könnt eher auf Salvage N31 unter bestimmten Bedingungen liegen. Ich rieche da ein sehr nette Karte um die Ecke kommen.

DrFreaK666
2022-11-14, 23:20:07
Wieso muss es denn ein Bug sein?
AMD sagte dass mit diesen Frequenzen 54% Effizienz-Verbesserung möglich waren.
Sie wollten auch sicherlich bei 2x 8Pin bleiben.
Wieso muss es dann gleich ein Bug sein?
>50% wurden versprochen. Wenn es am Ende 40% gewesen wären, dann wäre der Shitstorm enorm.

TheGood
2022-11-14, 23:39:58
Wieso muss es denn ein Bug sein?
AMD sagte dass mit diesen Frequenzen 54% Effizienz-Verbesserung möglich waren.
Sie wollten auch sicherlich bei 2x 8Pin bleiben.
Wieso muss es dann gleich ein Bug sein?
>50% wurden versprochen. Wenn es am Ende 40% gewesen wären, dann wäre der Shitstorm enorm.

Ja die 50% kannste dir ja dann raussuchen wo es am besten passt. Muss aber noch lange nicht das eigentlich Ziel gewesen sein.
Da kann man jetzt lange hin und her eiern und sagen, AMD hats verbockt oder AMD hat einfach ihren Stiefel durchgezogen.
Wenn sie im Schnitt 55% besser als die alte 6950XT sind ist das doch ein gutes ergebnis. Reicht halt nicht, weil Nvidia diesesmal die Brechstange ausgepackt hat. Die wollten es halt richtig Wissen. AMD offensichtlich nicht oder konnte nicht. Trotzdem ist es auf beiden seiten eine interessante Entwicklung und die Verleiche in den verschiedenen leistungsklassen werden nicht minder spannend sein.

Ich bin mal echt auf die Raytracing Benchmarks der Teste gespannt. So recht schlau machen die von AMD veröffentlichen mich bisher nicht... Da ist irgendwie so gut wie alles dabei. Einmal bunt gemischt bitte :) Gilt auch ein wenig für Rasterizing.

Nakai
2022-11-14, 23:55:57
Ja die 50% kannste dir ja dann raussuchen wo es am besten passt. Muss aber noch lange nicht das eigentlich Ziel gewesen sein.
Da kann man jetzt lange hin und her eiern und sagen, AMD hats verbockt oder AMD hat einfach ihren Stiefel durchgezogen.
Wenn sie im Schnitt 55% besser als die alte 6950XT sind ist das doch ein gutes ergebnis. Reicht halt nicht, weil Nvidia diesesmal die Brechstange ausgepackt hat. Die wollten es halt richtig Wissen. AMD offensichtlich nicht oder konnte nicht. Trotzdem ist es auf beiden seiten eine interessante Entwicklung und die Verleiche in den verschiedenen leistungsklassen werden nicht minder spannend sein.

Ich bin mal echt auf die Raytracing Benchmarks der Teste gespannt. So recht schlau machen die von AMD veröffentlichen mich bisher nicht... Da ist irgendwie so gut wie alles dabei. Einmal bunt gemischt bitte :) Gilt auch ein wenig für Rasterizing.

Falls AMD ein Design-Bug bei N31 verbockt hat, dann macht es schon Sinn, wieso NV die Brechstange ausgepackt hat. Falls ein N31 fixed mit 25% Mehrtakt kommt, dann wäre das definitiv schon ein spannendes Duell zwischen AMD und NV. Ein großer Hint, wieso da ein Bug ist, liegt einfach an der RT-Performance. AMD hat wohl versucht NVs Lastgen im Bereich RT zu schlagen. Das schafft man wohl durchgehend nur mit einem höheren Takt.
Aber mal sehen.

TheGood
2022-11-14, 23:59:18
Falls AMD ein Design-Bug bei N31 verbockt hat, dann macht es schon Sinn, wieso NV die Brechstange ausgepackt hat. Falls ein N31 fixed mit 25% Mehrtakt kommt, dann wäre das definitiv schon ein spannendes Duell zwischen AMD und NV. Ein großer Hint, wieso da ein Bug ist, liegt einfach an der RT-Performance. AMD hat wohl versucht NVs Lastgen im Bereich RT zu schlagen. Das schafft man wohl durchgehend nur mit einem höheren Takt.
Aber mal sehen.
Ich glaube weiterhin nicht an die BUG Theorie.
Ja RT scheint eine wundertüte zu sein. Aber bei 1,8 facher performance müsste man die 3090 eigentlich weit hinter sich lassen... Dies scheint aber offensichtlich nicht so oft der Fall zu sein.

horn 12
2022-11-15, 00:03:39
Wenn der Euro nun wirklich kontinuierlich steigt, kann sich die XT und vor Allem das Spizenmodell 7900 XTX wirklich zum Verkaufsschlager etablieren.

TheGood
2022-11-15, 00:05:48
Wenn der Euro nun wirklich kontinuierlich steigt, kann sich die XT und vor Allem das Spizenmodell 7900 XTX wirklich zum Verkaufsschlager etablieren.

weil es dann unter eine magsiche Grenze fällt oder wie kommst du darauf?
Es werden ja schliesslich alle Grakas günstiger....

HOT
2022-11-15, 00:37:17
Die Folien passen schlichtweg nicht zum Produkt so. Sicherlich gibt's 2 Taktdomains aber die takten ja beide weit unter dem Niveau. Und bei Customs würde man keine 500 bis 800mhz mehr sehen. Wenn das Teil wirklich zu niedrig Läuft werden die beiden 7000er die einzigen ihrer Art sein und die beiden anderen Chips sicher zusammen mit N31 heile auf Herbst zur 8k Serie verschoben. Wenn Lisa zur CES nix neues zur 7k ankündigt wissen wir Bescheid.
Es kann ja durchaus Sinn ergeben die jetzigen N31 trotz Defekt zu verkaufen, da man die 5nm ja eh abnehmen muss.

OpenVMSwartoll
2022-11-15, 00:56:35
Alles sehr schwer zu beurteilen. Sollten die Gerüchte stimmen und die beiden anderen Chips bereits korrigiert sein (und hier geht es nicht um Glauben, sondern Möglichkeiten) und somit höher takten, dann kann man sich auf den Refresh freuen.

Aber erst einmal sind die Dinge, wie sie sind. Auf Benchmarks bin ich so oder so gespannt.

amdfanuwe
2022-11-15, 01:39:13
Wieso taktet N21 eigentlich so niedrig?
N22 und N23 takten da wesentlich höher im Boost:
N21 2324 MHz
N22 2600 MHz
N23 2635 MHz

aufkrawall
2022-11-15, 01:40:28
Afair ein reines Watt-Limit im Treiber bzw. Firmware.

Thunderburne
2022-11-15, 07:24:39
Belege bitte diese Aussage. Sonst ist die auch "nix" wert ;)

Bei 1440p stimme ich dir zu, da ist nur Quality brauchbar. Bei 4K und aufwärts ist auch Performance brauchbar. Nicht besser als nativ, aber brauchbar und wie gesagt, deutlich besseres Spielgefühl. Quality ist visuell sicher besser, nur muss man dafür auch eine GPU mit entsprechend Leistung haben, je nach Spiel.

Wenn du es nicht nutzen willst, dann nutze es nicht ;)
Da gibt es nix zu belegen wurde auch schon von den Test Seiten oft genug bestätigt!
Wen du das nicht selber sehen kannst Glückwunsch!
Meine Augen machen das noch mit.

robbitop
2022-11-15, 08:19:21
Entweder meinst du FSR 1.0 oder du hast definitiv nie mit DLSS oder FSR 2.x gespielt. Und nein, den FSR 2.0 Mod/Hack (DLSS 2 -> FSR 2) braucht es für die gezeigten Spiele nicht, FSR 2 ist nativ in diese Spiele integriert.

Klar, normalerweise ist die Bildqualität im Performance-Mode etwas schlechter als in nativ 4K. Dafür hast du dann 2-3x Framerate. Und da kann ich dir versichern, dass die gestiegene Framerate den oftmals nur geringen Qualitätsverlust mehr als wieder wettmacht.
Also ich kenne FSR 2 bis dato nur von RDR2. Aber da sieht es unschön aus im Performancemode. Output ist in diesem Falle 4K auf meinem OLED TV.

robbitop
2022-11-15, 08:22:29
Hallo zusammen :)

Ich verstehe die Stimmen nicht so recht, die RDNA3 die Raytracing-Fähigkeit komplett absprechen. Klar ist die Weiterentwicklung im Vergleich zu RDNA2 eher enttäuschend, aber die gezeigten Zahlen deuten ja auf eine Leistung auf Augenhöhe einer 3090 ti an. Und diese war vor wenigen Wochen noch das Maß aller Dinge und durchaus brauchbar auch in 4K mit DLSS/FSR2. Also gut möglich, dass die 7900XTX die dritt stärkste Grafikkarte mit Raytracing wird.
Tja wenn die 2 Jahre alte Lastgen die Messlatte für das Nextgen Top Dog Produkt sein soll, kann man in der Hinsicht zufrieden sein. :freak:

Ich finde es schlimm, was dem Endverbraucher angewöhnt wurde. 1000 USD GPUs sind "günstig". Und es ist okay, dass Lastgen Kram immer noch knapp 1000 USD kostet und überhaupt noch eine Referenz für irgendetwas ist.

Bis vor ein paar Jahren hast du für die next gen das gleiche wie für die last gen gezahlt. Du hast halt gezahlt, damit du upgradest und nicht die Performancedifferenz on top gezahlt.

Ich finde als Endkunde kann man schon noch Erwartungen haben.

JEtzt sind wir bei der Diskussion die wir schon mal hatten. Mit den super Duper FF HW ist Nvidia im top Dog duell gerade mal doppelt so schnell. Ich sehe hier absolut nicht "massiv" viel mehrperformance mit FF HW. Gerne lasse ich mich da vom Gegenteil überzeugen z.b. bei anderen Themen die per FF HW implementiert wurden und ggf. auch nicht besser als RT skaliert.

Offensichtlich liegt das Problem darin dass RT einfach viel Rasterizering Power benötigt, wie hier auch schonmal erwähnt. Keine Ahnung ob das stimmt. Für mich ist und bleibt das aktuell alles sehr ineffektiv in bezug auf RT.
Vielleicht hilft auch ein Vergleich zu Software RT, den könnte z.b. die UE5 Engine liefern zumindest für das Global Illumination.

Wie gesagt "nur Faktor 2" halte ich für eine gerade zu alberne Aussage. Schaffe mal Faktor 2 mit General Purpose Hardware. Da pumpst du aktuell >2x an Transistoren für rein. Wenn man sich anschaut was der Raytracinganteil pro SM kostet: nur grob 20% (vs. gar kein Raytracing! RDNA2 und 3 haben ja immerhin etwas RT HW). Für 2x Leistung. Ich würde sagen, das ist eine sehr gute Wahl für einen Workload der immer mehr an Bedeutung gewinnt. Die Wahl war für Turing IMO noch fragwürdig aber im Jahr 2022-24 (Lebensdauer der Nextgen) absolut sinnvoll.

Und ja: Rasterizing Leistung braucht man weiterhin. Entsprechen skaliert man die WGPs/SMs und den Takt ja auch weiter nach oben. Die Diskussion ist ziemlich analog zur Einführung von vollprogrammierbaren Pixelshadern. Auch damals hat man mehr Vektorleistung benötigt aber dennoch auch mehr Texturleistung, Geometrieleistung und Rasterleistung (ROP). Es kommt eben immer ein Stück mehr in die Pipelines, was auch immer mehr kostet.

Wenn FF HW genutzt wird, ist sie auch sinnvoll ggü GP HW. Die gleiche Diskussion könnte man über jeden Teil der Pipeline führen. TMUs zum Beispiel. Ampere und Ada zeigen sehr eindeutig, dass der Weg sinnvoll ist. Und es würde mich massiv überraschen, wenn AMD das nicht zukünftig auch so macht und mehr RT in HW einbauen.
NV macht das ja nicht zum Selbstzweck. IMG und Intel sind unabhängig davon auch darauf gekommen. AMD hat RT nur bis dato offenbar noch nicht entsprechend priorisiert.

basix
2022-11-15, 08:27:53
Ist auch nicht die einzige, die deutlich höheren Takt nicht nur suggeriert, sondern als quasi gesetzt darstellt. Wie gesagt, die Customs mit 3x8pin müssten beim Takt dann richtig explodieren.

https://cdn.videocardz.com/1/2022/11/AMD-RADEON-RX-7900-NAVI-31-1-1200x675.jpg

Interessant ist noch, dass RDNA2 mit genau den gleichen Daten angegeben wurde: 1.3x Frequenz bei Iso-Power und 0.5x Power bei Iso-Performance. Nur stand bei RDNA2 noch ein "<" / ">" vor den Zahlen :D

Ich glaube weiterhin nicht an die BUG Theorie.
Ja RT scheint eine wundertüte zu sein. Aber bei 1,8 facher performance müsste man die 3090 eigentlich weit hinter sich lassen... Dies scheint aber offensichtlich nicht so oft der Fall zu sein.
Eine 3090 ist mit RT je nach Spiel und Setting 2x schneller als eine 6900XT. Im Schnitt natürlich nicht, da sind es eher so ~1.6x

Exxtreme
2022-11-15, 08:33:36
Tja wenn die 2 Jahre alte Lastgen die Messlatte für das Nextgen Top Dog Produkt sein soll, kann man in der Hinsicht zufrieden sein. :freak:

Ja. Aber das betrifft ja nur ein einziges Feature, welches nur ein winziger Bruchteil der derzeit gespielten Spiele nutzt. IMHO wird es aufgebauscht hoch drei. Wahrscheinlich fallen etliche Leute hier im Forum auf Marketing rein. :freak:

robbitop
2022-11-15, 08:42:55
Hm, dass die 3GHz+-Folie echt ist, gibt einem zu denken. Mal sehen, was da noch kommt.
Es ist auf jeden Fall super merkwürdig, dass sie solche Folien zeigen im Zusammenhang mit dem N31 Launch und aber was ganz anderes abliefern. Zumindest die Referenzkarten takten verglichen mit der 6950XT (mit der sie die 7900XTX ja auch vergleichen) nicht wirklich höher. Und von >3 GHz ist man weit entfernt.

Ja. Aber das betrifft ja nur ein einziges Feature, welches nur ein winziger Bruchteil der derzeit gespielten Spiele nutzt. IMHO wird es aufgebauscht hoch drei. Wahrscheinlich fallen etliche Leute hier im Forum auf Marketing rein. :freak:
Bedenke, dass die Nextgen 2022-24 aktuell ist. Bereits jetzt kommt ein großer Teil der AAA Spiele mit RT raus. Und wer den Top Dog kauft, erwartet auch dass er sich nicht einschränken muss. IMO galt das Argument noch für RDNA2 aber 2022-24 fährt der Zug langsam ab.
Wer Mainstream will kauft keine 1000 USD GPU sondern eine 200-300 USD GPU oder eine Konsole - ja da ist es natürlich eine andere Erwartunghaltung. Aber beim Next Gen top dog ist das IMO was anderes.

Achtung, es gibt bei Navi 31 zwei Taktdomänen für die Rechenwerke.

MfG
Raff
Weißt du da was Neues oder meinst du die Taktrate für das Frontend (2,5 GHz) und die CUs (2,3 GHz)? Beides ist weit weg von >3 GHz.

DrFreaK666
2022-11-15, 08:58:12
...
Ich finde als Endkunde kann man schon noch Erwartungen haben...

Wer unbedingt Very High RT statt High will, greift halt zur teureren 4080.
So ist die Lage halt aktuell und daran wird sich wahrscheinlich auch nichts ändern.
Im Dezember erscheint ein "AMD-Titel" (The Callisto Protocol), höchstwahrscheinlich schon optimiert für RDNA3. Dann wird man sehen ob man durch Optimierung noch etwas mehr als die 82% rausholen kann

Redneck
2022-11-15, 08:59:22
Also ich kenne FSR 2 bis dato nur von RDR2. Aber da sieht es unschön aus im Performancemode. Output ist in diesem Falle 4K auf meinem OLED TV.
Und du hast ja selber gelesen, daß die Qualität je nach Implementation abweicht.. Ist bei DLSS ja auch so. Wegen einer schlechten DLSS Implementation sagt ja auch keiner, das es generell nicht zu Gebrauchen ist.

robbitop
2022-11-15, 09:02:34
Und du hast ja selber gelesen, daß die Qualität je nach Implementation abweicht.. Ist bei DLSS ja auch so. Wegen einer schlechten DLSS Implementation sagt ja auch keiner, das es generell nicht zu Gebrauchen ist.
Ich habe es ja auch nicht allgemeingültig ausgedrückt sondern explizit auf RDR2 begrenzt. Das mit der Implementierungsgüte schreibe ich selbst hier jeden 2. Tag - das brauchst du mir nicht zu erklären ;)

Was ich aber so beobachte bei Tests im Forum und auch von Reviewern: DLSS scheint inzwischen deutlich robuster gegen schlechte Implementierung zu sein und es scheint gerade im Performancemode (also weniger Inputresolution) dann sichtbar besser zu sein als FSR 2. Bei Quality nehmen sie sich nicht so viel. Aber je kleiner die Inputresolution ist desto mehr trennen sich beide Verfahren.

Exxtreme
2022-11-15, 09:20:52
Bedenke, dass die Nextgen 2022-24 aktuell ist. Bereits jetzt kommt ein großer Teil der AAA Spiele mit RT raus. Und wer den Top Dog kauft, erwartet auch dass er sich nicht einschränken muss. IMO galt das Argument noch für RDNA2 aber 2022-24 fährt der Zug langsam ab.
Wer Mainstream will kauft keine 1000 USD GPU sondern eine 200-300 USD GPU oder eine Konsole - ja da ist es natürlich eine andere Erwartunghaltung. Aber beim Next Gen top dog ist das IMO was anderes.


Trotzdem werden selbst die AAA-Spiele nicht so entwickelt, dass sie auf einer RTX 3090Ti gerade so brauchbar laufen. Die werden global illumination und RT-Schatten drinne haben und das war's. Und wenn man bedenkt, dass man auf Nvidia-eigene APIs zurückgreifen muss um fortschrittlichere RT-Features nutzen zu können weil Direct3D die gar nicht beherrscht und diese noch nachgereicht werden müssen. Dann befindet sich der RT-Teil von Direct3D noch in der Entwicklung. Hat streng genommen also grad mal Alpha-Status. Und wer entwickelt denn gegen API, die Alpha-Status haben? Ergo glaube ich nicht, dass RT-Performance auf RTX 3090Ti-Level für die nächsten 5 Jahre ein Problem sein wird. Von einem GPU-Hersteller bezahlte/gesponserte Spiele mal ausgenommen.

reaperrr
2022-11-15, 09:40:36
Bis vor ein paar Jahren hast du für die next gen das gleiche wie für die last gen gezahlt. Du hast halt gezahlt, damit du upgradest und nicht die Performancedifferenz on top gezahlt.
Bis vor ein paar Jahren mussten AMD und NV aber auch nicht die Hälfte der Perf- und Perf/W-Verbesserungen rein über die Architektur rausholen (die einzige Architektur am Markt die normalisiert auf den gleichen Prozess einen wirklichen großen Sprung hingelegt hat war zuletzt RDNA2), weil ein FullNode-Shrink nicht nur 11% mehr Perf @ ISO-Power oder 22% weniger Power @ ISO-Takt brachte, und vor allem dabei nicht gleich fast doppelt so teure Wafer wie der Vorgänger hatte.

Und die Margen für N21 und GA102 @ ursprünglichen MSRPs waren eher niedrig im Vergleich zu CPUs, allein die massive Nachfrage hat dann die inoffiziellen Preiserhöhungen erlaubt, die AMD's Grafikabteilung überhaupt mal wieder (vergleichsweise moderate) Gewinne erlaubt haben.

Jetzt bei der neuen Generation ist es halt so, dass NV's Ada GPUs in 4N fast so groß sind wie die Vorgänger in 8N, bei fast doppelt so hohen Waferpreisen und teureren Boards und Lüftern (Inflation + mehr Saft + dickere Kühler).

Bei N31 wird allein der GCD mindestens so viel kosten wie ein N21 in 7nm, dann kommen noch die 6 MCDs dazu, der Interposer und die generell sicherlich Zusatzkosten verursachende Assembly, und dann halt noch das 50% breitere SI, was das Board an sich komplexer und die Speicherkosten um 50% höher macht. Die Ansprüche an die Kühlung werden ebenfalls etwas höher sein (GCD ca. gleiche GPU-Power zur 6950XT auf viel kleinerer Fläche), was auch die Kühlung etwas teurer macht.
Und was gern unterschlagen wird: Die Hersteller müssen ja nicht nur eine Marge über die Herstellungskosten haben, sondern v.a. auch die Abermillionen für R&D (gerade bei AMD stetig gestiegen) und Masken etc. wieder reinholen.

Heißt das automatisch, dass AMD an einer 7900XT(X) nicht mehr verdient als damals an einer 6800XT? Natürlich nicht. Aber so pauschal sagen, dass wir abgezockt werden, kann man mMn auch nicht, und im Vergleich zu 6900XT und 6950XT sind die Preise gemessen an den Entwicklungs- und Herstellungskosten sogar erstaunlich günstig.
Bei NV kann man schon eher von etwas Abzocke sprechen, denn die 4080 ist unterm Strich sicher günstiger herzustellen als eine 7900 XT, und die 4090-GPU kostet in der Herstellung vielleicht 100-150$ mehr als das komplette N31 Package, wenn überhaupt. Also NV zockt uns mMn um wenigstens 400$ je GPU mehr ab als AMD (bezogen auf die MSRPs), und das ist dann wahrscheinlich das 3-4fache an Gewinn-Marge allein für die GPU.

robbitop
2022-11-15, 10:03:41
Trotzdem werden selbst die AAA-Spiele nicht so entwickelt, dass sie auf einer RTX 3090Ti gerade so brauchbar laufen. Die werden global illumination und RT-Schatten drinne haben und das war's. Und wenn man bedenkt, dass man auf Nvidia-eigene APIs zurückgreifen muss um fortschrittlichere RT-Features nutzen zu können weil Direct3D die gar nicht beherrscht und diese noch nachgereicht werden müssen. Dann befindet sich der RT-Teil von Direct3D noch in der Entwicklung. Hat streng genommen also grad mal Alpha-Status. Und wer entwickelt denn gegen API, die Alpha-Status haben? Ergo glaube ich nicht, dass RT-Performance auf RTX 3090Ti-Level für die nächsten 5 Jahre ein Problem sein wird. Von einem GPU-Hersteller bezahlte/gesponserte Spiele mal ausgenommen.
Naja der Performancenachteil zieht sich durch den ganzen Stack. Von oben bis unten. Und überall bist du deutlich langsamer (selbst ohne die Nutzung der neuen Features bei Ada) - das ist schon unschön. Im Prinzip ändert sich wenig (relativ gesehen) ggü RDNA2 in der Hinsicht.

robbitop
2022-11-15, 10:06:43
Bis vor ein paar Jahren mussten AMD und NV aber auch nicht die Hälfte der Perf- und Perf/W-Verbesserungen rein über die Architektur rausholen (die einzige Architektur am Markt die normalisiert auf den gleichen Prozess einen wirklichen großen Sprung hingelegt hat war zuletzt RDNA2), weil ein FullNode-Shrink nicht nur 11% mehr Perf @ ISO-Power oder 22% weniger Power @ ISO-Takt brachte, und vor allem dabei nicht gleich fast doppelt so teure Wafer wie der Vorgänger hatte.

Und die Margen für N21 und GA102 @ ursprünglichen MSRPs waren eher niedrig im Vergleich zu CPUs, allein die massive Nachfrage hat dann die inoffiziellen Preiserhöhungen erlaubt, die AMD's Grafikabteilung überhaupt mal wieder (vergleichsweise moderate) Gewinne erlaubt haben.

Jetzt bei der neuen Generation ist es halt so, dass NV's Ada GPUs in 4N fast so groß sind wie die Vorgänger in 8N, bei fast doppelt so hohen Waferpreisen und teureren Boards und Lüftern (Inflation + mehr Saft + dickere Kühler).

Bei N31 wird allein der GCD mindestens so viel kosten wie ein N21 in 7nm, dann kommen noch die 6 MCDs dazu, der Interposer und die generell sicherlich Zusatzkosten verursachende Assembly, und dann halt noch das 50% breitere SI, was das Board an sich komplexer und die Speicherkosten um 50% höher macht. Die Ansprüche an die Kühlung werden ebenfalls etwas höher sein (GCD ca. gleiche GPU-Power zur 6950XT auf viel kleinerer Fläche), was auch die Kühlung etwas teurer macht.
Und was gern unterschlagen wird: Die Hersteller müssen ja nicht nur eine Marge über die Herstellungskosten haben, sondern v.a. auch die Abermillionen für R&D (gerade bei AMD stetig gestiegen) und Masken etc. wieder reinholen.

Heißt das automatisch, dass AMD an einer 7900XT(X) nicht mehr verdient als damals an einer 6800XT? Natürlich nicht. Aber so pauschal sagen, dass wir abgezockt werden, kann man mMn auch nicht, und im Vergleich zu 6900XT und 6950XT sind die Preise gemessen an den Entwicklungs- und Herstellungskosten sogar erstaunlich günstig.
Bei NV kann man schon eher von etwas Abzocke sprechen, denn die 4080 ist unterm Strich sicher günstiger herzustellen als eine 7900 XT, und die 4090-GPU kostet in der Herstellung vielleicht 100-150$ mehr als das komplette N31 Package, wenn überhaupt. Also NV zockt uns mMn um wenigstens 400$ je GPU mehr ab als AMD (bezogen auf die MSRPs), und das ist dann wahrscheinlich das 3-4fache an Gewinn-Marge allein für die GPU.
Ich gehe davon aus, dass im unteren Stack P/L besser wird (und dort die Margen eben sinken). Margen kann man nur abschmelzen, wenn es starken Wettbewerb gibt. Mal sehen ob Intel jemals erfolgreich wird und als dritter dann so viel Druck erzeugen kann, dass es einen Preiskampf geben muss.
Bis dato sieht es für mich so aus als wenn beide IHVs sehr komfortable Margen haben und diese auch nicht gefährden. Würde ich auch so machen - da hilft nur mehr Wettbewerb und mehr quantitatives Angebot (vs Nachfrage).

Von abzgezockt habe ich nichts geschrieben - aber die Margen sind in dem Bereich sicherlich sehr komfortabel verglichen mit den früheren Zeiten.

DrFreaK666
2022-11-15, 10:16:08
Intel fertigt auch bei TSMC und TSMC diktiert die Preise.
Preiskampf wird es wohl nur in Geringem Maße geben, da man ja schließlich auch Geld verdienen will

Redneck
2022-11-15, 10:20:51
Ich habe es ja auch nicht allgemeingültig ausgedrückt sondern explizit auf RDR2 begrenzt. Das mit der Implementierungsgüte schreibe ich selbst hier jeden 2. Tag - das brauchst du mir nicht zu erklären ;)

Was ich aber so beobachte bei Tests im Forum und auch von Reviewern: DLSS scheint inzwischen deutlich robuster gegen schlechte Implementierung zu sein und es scheint gerade im Performancemode (also weniger Inputresolution) dann sichtbar besser zu sein als FSR 2. Bei Quality nehmen sie sich nicht so viel. Aber je kleiner die Inputresolution ist desto mehr trennen sich beide Verfahren.
korrekt.. sind beide "work in progress" mit dem entsprechendem Vorsprung pro DLSS.
Hoffe, das wir in Bälde mal was zu den verbauten AI Einheiten hören werden zwecks Funktion/Mächtigkeit.

Redneck
2022-11-15, 10:22:46
Intel fertigt auch bei TSMC und TSMC diktiert die Preise.
Preiskampf wird es wohl nur in Geringem Maße geben, da man ja schließlich auch Geld verdienen will
Ist die Frage, inwieweit und wann TSMC von ihren hohen Preisen runter kommt
bzw wieviel Auftragsvolumen noch storniert werden muß, bis da etwas passiert und wie lange es dauert, bis das beim Endkunden ankommt.

HOT
2022-11-15, 10:43:12
Intel fertigt auch bei TSMC und TSMC diktiert die Preise.
Preiskampf wird es wohl nur in Geringem Maße geben, da man ja schließlich auch Geld verdienen will
Das ist gemeinhin überschätzt.

robbitop
2022-11-15, 10:47:03
Intel fertigt auch bei TSMC und TSMC diktiert die Preise.
Preiskampf wird es wohl nur in Geringem Maße geben, da man ja schließlich auch Geld verdienen will
Hast du Ians Cutress Berechnung gesehen, was N31 und AD102 kosten seitens TSMC? Das ist viel weniger als man denkt - trotz großer Preissprünge.

robbitop
2022-11-15, 10:48:53
verbauten AI Einheiten hören werden zwecks Funktion/Mächtigkeit.
Wurde doch im Deepdive erklärt. Da gibt es keine Matrixcores. Die 2,7x sind die kummulierten Effekte aus: Steigerung der Taktrate, Steigerung der FP32 slots und durch neue Befehlssätze leicht beschleunigte effektive Leistung. Das rennt wie bisher über die Vektor FPUs. Völlig unspektakulär.

reaperrr
2022-11-15, 11:09:23
Ich gehe davon aus, dass im unteren Stack P/L besser wird (und dort die Margen eben sinken).
Sehe ich ehrlich gesagt eher nicht, da war das P/L-Verhältnis unterhalb der Top-Modelle zuletzt kaum besser bis deutlich schlechter.
3060Ti für 500€, wenn man ne 6800XT für 650 kriegt, ist ein absoluter Witz.
Die einzige aktuelle Mainstreamkarte der Ampere/RDNA2-Gen mit wirklich gutem P/L ist die 6600, die 6500XT ist fürs Geld viel zu lahm, die 3060 für die (Raster-)Leistung auch zu teuer, 3060Ti und 3070 auch. Die 6650XT und 6700XT gehen diesbezüglich im Vergleich zur NV-Konkurrenz, im Vergleich zur 6800XT aber eigentlich auch alle zu teuer.

N33-Topdog wird mMn nicht unter 399$ MSRP haben, eher 449$, bei nur 1/3 der N31-Specs und gestutzter CU-IPC (dafür aber deutlich mehr Takt).

N32XT(X) sehe ich bei mindestens 699$, evtl. sogar 749$, weil der nicht so weit von der 7900XT weg sein wird (N32 soll nicht die Taktprobleme wie N31 haben).
Salvage wenn wir Glück haben 599$, der ist dann aber wahrsch. auch nicht viel schneller als N21. 649$ wie 6800XT würde ich auch nicht ausschließen.

NV wird in jeder Performance-Klasse ca. 20% RT-Überlegenheits- & Popularitäts-Aufschlag nehmen, Raster-P/L also durch die Bank schlechter als bei RDNA3 durchs ganze LineUp hinweg.

Rechne mal mit 549$ für ne 4060 mit 8GB Speicher, um die 4070-10GB für 699-749$ attraktiver erscheinen zu lassen...

Mal sehen ob Intel jemals erfolgreich wird und als dritter dann so viel Druck erzeugen kann, dass es einen Preiskampf geben muss.
Gibt doch schon längst Gerüchte, dass die quasi das Handtuch bereits geschmissen haben, weil sie aktuell keine Chance sehen, AMD/NV zeitnah einzuholen und was anderes als hunterte Mio. verpulverte R&D pro Jahr zu generieren.


Bis dato sieht es für mich so aus als wenn beide IHVs sehr komfortable Margen haben und diese auch nicht gefährden. Würde ich auch so machen - da hilft nur mehr Wettbewerb und mehr quantitatives Angebot (vs Nachfrage).

Von abzgezockt habe ich nichts geschrieben - aber die Margen sind in dem Bereich sicherlich sehr komfortabel verglichen mit den früheren Zeiten.
Wie gesagt, zumindest bei AMD glaube ich nicht, dass die so komfortabel sind wie du denkst.
Die R&D-Kosten, die anschließend wieder reingeholt werden müssen, haben sich seit GCN-Zeiten vervielfacht, Kosten je mm² Silizium sind allein schon durch Inflation seit 2012 sicher auch deutlich gestiegen, und N22-Karten mit ~330mm² Chip kosten heute so viel wie damals 7900er mit 355mm² Tahiti.
Ich würde einiges drauf verwetten, dass die Marge einer 6750XT deutlich schlechter ist, als die einer 7970 damals.

Bei NV sieht's wahrscheinlich deutlich besser aus, einfach dadurch, dass sie so viel mehr Karten verkaufen (dazu mit Mindshare-Aufpreis), dass sie die Fixkosten für die R&D/Masken viel schneller wieder drin haben.

HOT
2022-11-15, 11:24:40
Wurde doch im Deepdive erklärt. Da gibt es keine Matrixcores. Die 2,7x sind die kummulierten Effekte aus: Steigerung der Taktrate, Steigerung der FP32 slots und durch neue Befehlssätze leicht beschleunigte effektive Leistung. Das rennt wie bisher über die Vektor FPUs. Völlig unspektakulär.
... was meiner Ansicht nach auch die bessere Lösung ist in einer Gaming (!!!) GPU.

dargo
2022-11-15, 11:50:05
Ich finde als Endkunde kann man schon noch Erwartungen haben.

Hehe... ich als Endkunde erwarte, dass der Topdog einer neuen Gen doppelt so schnell wird wie der Topdog der alten Gen bei max. 250W. Leider werden meine Erwartungen nicht erfüllt. ;)


Bedenke, dass die Nextgen 2022-24 aktuell ist. Bereits jetzt kommt ein großer Teil der AAA Spiele mit RT raus. Und wer den Top Dog kauft, erwartet auch dass er sich nicht einschränken muss. IMO galt das Argument noch für RDNA2 aber 2022-24 fährt der Zug langsam ab.

Was ein Quatsch... selbst bei einer 2.200+€ Grafikkarte wie der 4090 musst du dich einschränken. Oder willst du mir erzählen, dass die Käufer von diesen Karten sich mit ~40fps bei 4k zufrieden geben? Für mehr fps musst du entweder RT-Last senken und/oder auf Upscaling zurückgreifen.

Matrix316
2022-11-15, 12:01:36
Hehe... ich als Endkunde erwarte, dass der Topdog einer neuen Gen doppelt so schnell wird wie der Topdog der alten Gen bei max. 250W. Leider werden meine Erwartungen nicht erfüllt. ;)
Doppelt so schnell gab es noch nie, oder? Selbst die 4090 ist nicht unbedingt doppelt so schnell wie die 3090.

Mir reichts, wenn sagen wir eine 7900XTX deutlich schneller als eine 6950 ist. Und die 7900XT deutlich schneller als eine 6900XT. Und eine 7800XT deutlich schneller als eine 6800XT ist.

Wichtig ist vor allem, dass die neuen Karten nicht deutlich mehr kosten sondern die Preise relativ gesehen gleich bleiben, denn nur so macht es Sinn. Wenn der bessere Nachfolger teurer als der Vorgänger ist, dann ist das kein Fortschritt.

dargo
2022-11-15, 12:08:47
Doppelt so schnell gab es noch nie, oder? Selbst die 4090 ist nicht unbedingt doppelt so schnell wie die 3090.

Klar gab es das, du bist wahrscheinlich nur zu jung um das erlebt zu haben.

Edit:
Sehe gerade, dass du seit über 21 Jahren hier registriert bist. Ergo gehörst du wohl doch eher zu den älteren Hasen hier. :tongue:

Exxtreme
2022-11-15, 12:18:38
Naja der Performancenachteil zieht sich durch den ganzen Stack. Von oben bis unten. Und überall bist du deutlich langsamer (selbst ohne die Nutzung der neuen Features bei Ada) - das ist schon unschön. Im Prinzip ändert sich wenig (relativ gesehen) ggü RDNA2 in der Hinsicht.

Ob sich das durch den ganzen Stack zieht das wird sich in Benchmarks zeigen. Und es hängt auch arg vom Spiel ab wie gut die Radeons laufen. Zumal es auch nicht zu erwarten ist, dass die Geforce-Grafikkarten, die ähnlich viel kosten viel schneller sein werden was RT angeht. Sie werden aber mit hoher Wahrscheinlichkeit langsamer sein was RZ-Leistung angeht.

gbm31
2022-11-15, 12:34:45
Gibts schon Anzeichen wie die 7900XTX in VR gehen wird?

Ich lebe mit meiner 6900XT okay aber wenn ich sehe wie bereits eine 3080 in VR meine outperformt lässt mich das wegen Hauptnutzung von SIMs in VR schon ein bisschen überlegen, ob eine preislich gesenkte (nach Release der neuen AMDs muss sich da ja wieder was tun) nicht doch die bessere Wahl wäre...

basix
2022-11-15, 12:37:18
Was ein Quatsch... selbst bei einer 2.200+€ Grafikkarte wie der 4090 musst du dich einschränken. Oder willst du mir erzählen, dass die Käufer von diesen Karten sich mit ~40fps bei 4k zufrieden geben? Für mehr fps musst du entweder RT-Last senken und/oder auf Upscaling zurückgreifen.

Korrekt. Nur lassen sich diese Spiele wohl an einer Hand abzählen und haben alle DLSS/FSR2 integriert. Alles andere läuft >60fps und sehr oft auch >100fps.

Das einzige Spiel was ich besitze und wo ich das Gefühl habe mich "einschränken" zu müssen, ist CP2077. Dort muss man DLSS und Co. für >60fps bei maximierten Settings nutzen (Ultra vs. Psycho ist eh noch eine Streitfrage). DLSS-Q ist zudem besser als das native TAA. Alles andere was ich hier habe läuft typ. mit 4K/5K nativ oder 5K DLSS-Q mit >80fps.

Bei 7900XT(X) wird das meiste ebenfalls so laufen und man sollte RT -1 Stufe runterschalten oder FSR etwas hochschalten (z.B. Q -> P) und man landet hinsichtlich Performance und Bildqualität auch bei RT wohl in sehr ähnlichen Gefilden wie die 4090.

Complicated
2022-11-15, 12:43:56
Also eine "Hand voll" aus einer Hand voll RT-Spiele ;)

Iscaran
2022-11-15, 12:44:57
Was ein Quatsch... selbst bei einer 2.200+€ Grafikkarte wie der 4090 musst du dich einschränken. Oder willst du mir erzählen, dass die Käufer von diesen Karten sich mit ~40fps bei 4k zufrieden geben? Für mehr fps musst du entweder RT-Last senken und/oder auf Upscaling zurückgreifen.

Natürlich nicht! Ich würde mir die Karte kaufen für FullHD, HÖCHSTENS. Natives RT in FullHD @144 Hz...passt gerade so, und dafür reicht auch der olle DP1.4 ;).

basix
2022-11-15, 12:46:46
Also eine "Hand voll" aus einer Hand voll RT-Spiele ;)

Sind ein paar mehr ;)
https://www.pcgameshardware.de/Spiele-Thema-239104/Specials/Raytracing-Games-1371273/

Laut Text im Juli Update 86 Stück mit RT :D
Bis Ende Jahr sind es >100, mit einigen neuen Schwergewichten darunter. 2023 wird es vermutlich nochmal was an Fahrt aufnehmen, insbesodere aufgrund der UE5. Aber die UE5 sollte auch auf RDNA2/3 recht gut performen, da sehe ich keine Probleme.

Exxtreme
2022-11-15, 12:50:24
Also eine "Hand voll" aus einer Hand voll RT-Spiele ;)
Und das in 4K+ Auflösung. Und das sind <5% der Spielerbasis. Sprich, wir reden hier von Szenarien, die wohl eher Promillebereiche der gesamten PC-Spielerbasis ausmachen. Dass AMD die eigenen Produkte für soetwas nicht optimiert, tjoa. :) Aber wie gesagt, ich vermute mal, etliche Leute fallen hier voll auf virales Marketing rein und glauben offenbar, dass dieser Promillebereich so eine Art Standard oder baldiger Standard sei.

dargo
2022-11-15, 12:51:16
Korrekt. Nur lassen sich diese Spiele wohl an einer Hand abzählen und haben alle DLSS/FSR2 integriert. Alles andere läuft >60fps und sehr oft auch >100fps.

Also wird hier künstlich was dramatisiert was eigentlich gar nicht so ein Problem ist? Denn gleiches gilt dann auch für RDNA3.

Ravenhearth
2022-11-15, 12:54:02
Wurde doch im Deepdive erklärt. Da gibt es keine Matrixcores. Die 2,7x sind die kummulierten Effekte aus: Steigerung der Taktrate, Steigerung der FP32 slots und durch neue Befehlssätze leicht beschleunigte effektive Leistung. Das rennt wie bisher über die Vektor FPUs. Völlig unspektakulär.
Das dann als "dedicated AI accelerators" zu vermarkten ist schon etwas daneben.

basix
2022-11-15, 12:54:16
Also wird hier künstlich was dramatisiert was eigentlich gar nicht so ein Problem ist? Denn gleiches gilt dann auch für RDNA3.

Also ich sehe kein Problem, nein.

Nur wenn man kein Upsampling wie DLSS/FSR nutzen will oder im schlimmsten Fall sich nicht hinablassen will, dass man -1 Stufe bei RT zurückdreht (mit meistens sehr geringem Einfluss auf die Optik), dann kann es für 4K/60fps inkl. RT etwas harzig werden. Sonst nicht.

Linmoum
2022-11-15, 12:54:25
Und das in 4K+ Auflösung. Und das sind <5% der Spielerbasis. Sprich, wir reden hier von Szenarien, die wohl eher Promillebereiche der gesamten PC-Spielerbasis ausmachen.
Nur reden wir hier von $1000 für eine GPU. Sowas holt sich keiner, um dann in FHD im CPU-Limit zu zocken...

dargo
2022-11-15, 12:55:57
Nur reden wir hier von $1000 für eine GPU. Sowas holt sich keiner, um dann in FHD im CPU-Limit zu zocken...
Witzig... denn gerade DLSS-P @4k entspricht Full-HD Last + etwas Overhead. :D

Exxtreme
2022-11-15, 12:59:54
Nur reden wir hier von $1000 für eine GPU. Sowas holt sich keiner, um dann in FHD im CPU-Limit zu zocken...

Naja, wenn du DLSS/FSR aktivierst dann spielst du in Full-HD @ 4K+. :freak: Aber ja, die wenigsten holen sich so eine GPU. :) Das wissen auch die bei AMD. Und deshalb war denen unter 1k $ zu bleiben wohl wichtiger als für Promillebereiche der PC-Spielebasis zu optimieren.

robbitop
2022-11-15, 13:01:46
Sehe ich ehrlich gesagt eher nicht, da war das P/L-Verhältnis unterhalb der Top-Modelle zuletzt kaum besser bis deutlich schlechter.
3060Ti für 500€, wenn man ne 6800XT für 650 kriegt, ist ein absoluter Witz.
Die einzige aktuelle Mainstreamkarte der Ampere/RDNA2-Gen mit wirklich gutem P/L ist die 6600, die 6500XT ist fürs Geld viel zu lahm, die 3060 für die (Raster-)Leistung auch zu teuer, 3060Ti und 3070 auch. Die 6650XT und 6700XT gehen diesbezüglich im Vergleich zur NV-Konkurrenz, im Vergleich zur 6800XT aber eigentlich auch alle zu teuer.

N33-Topdog wird mMn nicht unter 399$ MSRP haben, eher 449$, bei nur 1/3 der N31-Specs und gestutzter CU-IPC (dafür aber deutlich mehr Takt).

N32XT(X) sehe ich bei mindestens 699$, evtl. sogar 749$, weil der nicht so weit von der 7900XT weg sein wird (N32 soll nicht die Taktprobleme wie N31 haben).
Salvage wenn wir Glück haben 599$, der ist dann aber wahrsch. auch nicht viel schneller als N21. 649$ wie 6800XT würde ich auch nicht ausschließen.

NV wird in jeder Performance-Klasse ca. 20% RT-Überlegenheits- & Popularitäts-Aufschlag nehmen, Raster-P/L also durch die Bank schlechter als bei RDNA3 durchs ganze LineUp hinweg.

Rechne mal mit 549$ für ne 4060 mit 8GB Speicher, um die 4070-10GB für 699-749$ attraktiver erscheinen zu lassen...
Naja die 6800 war doch ganz gut bepreist (Corona Zeit mal ausgeklammert).


Gibt doch schon längst Gerüchte, dass die quasi das Handtuch bereits geschmissen haben, weil sie aktuell keine Chance sehen, AMD/NV zeitnah einzuholen und was anderes als hunterte Mio. verpulverte R&D pro Jahr zu generieren.
Sind aber auch eben nur Gerüchte. Intel selbst sagt was anderes und rechtlich gesehen sind öffentliche Aussagen im Zusammenhang mit Lügen sehr schwierig.
Ggf. haben sie für die nächsten Generationen auch einfach nur die Topdogs gecanclet weil sie vermuten, nicht mithalten zu können. Aber ggf. braucht man einfach aus dem Kaltstart heraus ein paar Iterationen um mit AMD/NV mithalten zu können, die seit vielen Jahrzehnten in dem Geschäft sind. Und sobald man das auch bei den kleinen SKUs kann, gibt es keinen Grund mehr große SKUs zu canclen.
Ich glaube es wird nicht so heiß gegessen, wie gekocht. ;)


Wie gesagt, zumindest bei AMD glaube ich nicht, dass die so komfortabel sind wie du denkst.
Die R&D-Kosten, die anschließend wieder reingeholt werden müssen, haben sich seit GCN-Zeiten vervielfacht, Kosten je mm² Silizium sind allein schon durch Inflation seit 2012 sicher auch deutlich gestiegen, und N22-Karten mit ~330mm² Chip kosten heute so viel wie damals 7900er mit 355mm² Tahiti.
Ich würde einiges drauf verwetten, dass die Marge einer 6750XT deutlich schlechter ist, als die einer 7970 damals.

Bei NV sieht's wahrscheinlich deutlich besser aus, einfach dadurch, dass sie so viel mehr Karten verkaufen (dazu mit Mindshare-Aufpreis), dass sie die Fixkosten für die R&D/Masken viel schneller wieder drin haben.
Zumindest die Bruttomargen waren noch knapp 50%. Nvidia lag bei 65%. Bei NV ist mehr Schmalz drauf - aber 50% Bruttomarge ist kein schlechtes Geschäft.

Complicated
2022-11-15, 13:02:05
Das dann als "dedicated AI accelerators" zu vermarkten ist schon etwas daneben.
Das ist halt nur die halbe Wahrheit bei "Hybrid":
https://www.phoronix.net/image.php?id=amd-radeon-rx7900&image=amd_7900_15_show


https://www.phoronix.net/image.php?id=amd-radeon-rx7900&image=amd_7900_16_show


https://www.phoronix.net/image.php?id=amd-radeon-rx7900&image=amd_7900_10_show

robbitop
2022-11-15, 13:03:23
... was meiner Ansicht nach auch die bessere Lösung ist in einer Gaming (!!!) GPU.
Kommt drauf an. DLSS ist eine Anwendung, die zeigt, dass es doch sinnvoll sein kann. Ja FSR 2 funktioniert ohne NN aber DLSS zeigt nach wie vor bessere Ergebnisse. Und es wird sicherlich nicht die letzte NN Anwendung sein, die Vorteile bietet. Aber ja IMO sind Matrixcores dank FSR 2 etwas weniger dringend als RT Hardware.

HOT
2022-11-15, 13:04:59
Kommt drauf an. DLSS ist eine Anwendung, die zeigt, dass es doch sinnvoll sein kann. Ja FSR 2 funktioniert ohne NN aber DLSS zeigt nach wie vor bessere Ergebnisse. Und es wird sicherlich nicht die letzte NN Anwendung sein, die Vorteile bietet. Aber ja IMO sind Matrixcores dank FSR 2 etwas weniger dringend als RT Hardware.
für DLSS brauchst du nicht die geballte Tensor-Power, sondern einen Bruchteil. Nein, es ist nicht sinnvoll. Und was bessere Ergebnisse liefert ist von Fall zu Fall unterschiedlich und höchst subjektiv. Man kann sagen, dass DLSS bei derzeitigem Softwarestand im Durchschnitt bessere Ergebnisse zeigt. Ich bin davon überzeugt, dass die Matrixcores von RDNA3 für DLSS reichen würden.

robbitop
2022-11-15, 13:04:59
Was ein Quatsch... selbst bei einer 2.200+€ Grafikkarte wie der 4090 musst du dich einschränken. Oder willst du mir erzählen, dass die Käufer von diesen Karten sich mit ~40fps bei 4k zufrieden geben? Für mehr fps musst du entweder RT-Last senken und/oder auf Upscaling zurückgreifen.
Irgendwo muss man sich immer einschränken. Ich meinte das natürlich relativ gesehen zum Klassenbesten. So deutlich weniger Performance mit RT ist einfach unschön. Ich finde da gibt es nicht viel schön zu reden.

robbitop
2022-11-15, 13:06:47
für DLSS brauchst du nicht die geballte Tensor-Power, sondern einen Bruchteil. Nein, es ist nicht sinnvoll.
Nachweis?
Es gibt ein Indiz, dass zumindest das Gegenteil zeigt: XeSS. Mit 4x reduziertem NN (und damit deutlich schlechteren Ergebnissen) kostet es IRRE viel Rechenleistung verglichen mit FSR 2. Und jetzt rechne Faktor 4 für eine anständige Implementierung. Ob man die Peak Matrixrate von Ada braucht? Keine Ahnung - aber zumindest mit Vektor FPUs ist es wahrscheinlich zu langsam um praktikabel zu sein.

HOT
2022-11-15, 13:07:18
Nachweis: Geht mit dem kleinsten Turing auch. XeSS ist eine proprietäre Implementation, die Vorteile für Intel brigt. Das ist mal kein Nachweis.

robbitop
2022-11-15, 13:07:48
Ob sich das durch den ganzen Stack zieht das wird sich in Benchmarks zeigen. Und es hängt auch arg vom Spiel ab wie gut die Radeons laufen. Zumal es auch nicht zu erwarten ist, dass die Geforce-Grafikkarten, die ähnlich viel kosten viel schneller sein werden was RT angeht. Sie werden aber mit hoher Wahrscheinlichkeit langsamer sein was RZ-Leistung angeht.
Da die WGPs sich nicht ändern stellt sich da überhaupt nicht die Frage ob es eine relative Änderung der Situation durch den Stack gibt.

robbitop
2022-11-15, 13:12:12
Nachweis: Geht mit dem kleinsten Turing auch.
TU116 hat keine Tensorcores und kann auch kein DLSS 2.x. Das ist also unkorrekt.

XeSS ist eine proprietäre Implementation, die Vorteile für Intel brigt. Das ist mal kein Nachweis.
Das ist ein Allgemeinplatz. Und ich habe auch keinen Nachweis geliefert, weil es schlicht keinen gibt aber zumindest ein Indiz (und es als solches auch gelabelt). Das Verfahren funktioniert sehr sehr sehr ähnlich wie DLSS entsprechend ist die Annahme, dass der Bedarf an Matrixleistung für das NN in einer ähnlichen Größenordnung ist. Das ist besser als leere Behauptungen, DLSS koste nicht viel Rechenleistung.

HOT
2022-11-15, 13:13:20
TU116 hat keine Tensorcores und kann auch kein DLSS 2.x. Das ist also unkorrekt.


Das ist ein Allgemeinplatz. Und ich habe auch keinen Nachweis geliefert, weil es schlicht keinen gibt aber zumindest ein Indiz (und es als solches auch gelabelt). Das ist besser als leere Behauptungen, DLSS koste nicht viel Rechenleistung.
Der kleinste Turing ist TU106, das war selbstverständlich gemeint. Es ist absurd darüber zu streiten. DLSS braucht nur einen Bruchteil der Leistung, die die AD10x Tensorcores liefern, Punkt. Die Tensorcores sind eigentlich pure Platzverschwendung auf einer Gaming-GPU. Man bräuchte Tensor-Light, die grad für DLSS reichen. AMD liefert genau das, nur kann eben kein DLSS, weil es eben proprietär ist.

Nakai
2022-11-15, 13:21:16
Ich finde es immer wieder spannend, wie man sich auf RT-Kerne und Tensor- und Matrixkerne versteift. AI-Berechnungen sind extremst simpel und ich hab mir schon einen AI-Accelerator (Fixpoint/Integer Arithmetik) in einem FPGA (über AXI-Interface) als Co-Prozessor für die CPU implementiert (Xilinx MPSOC). Der Vorteil von diesen FFUs für diese Berechnungszwecke ist nicht nur die Beschleunigung, sondern, dass man deutlich weniger Instruktionen benötigt. Matrixmultiplikation und Dot-Products sind eigentlich die normalen Berechnungen in einem NN. Anstatt nun zig Instruktionen zu Decodieren, welche zu einer Matrixmultiplikation führt, hat man nun deutlich weniger davon. Abseits, dass es vieles vereinfacht und beschleunigt, gibt es keinen Grund da drauf aufzusetzen. Die Gründe sind aber enorm.

Deswegen:
Die Aussage, man braucht nun Tensor-Kerne um DLSS auszuführen ist übelst falsch. DLSS ist nur eine Applikation die so konstruiert und trainiert ist, dass das verwendete NN gut auf die zur Verfügung gestellten HW-Ressourcen läuft. Und klar sind die Tensor-Kerne so aufgebaut um mit FixPoint Arithmetik und Quantifizierung umzugehen.

robbitop
2022-11-15, 13:21:38
Der kleinste Turing ist TU106.
Der kleinste Turing ist TU116. Und nur TU116 hat keine Tensorcores.
Wenn du dich auf TU106 beziehst: der hat Tensorcores. Und damit hast du eine unkorrekte Behauptung aufgestellt.
DLSS braucht Tensor cores. Streite das nicht ab und lenke nicht ab.


Es ist absurd darüber zu streiten. DLSS braucht nur einen Bruchteil der Leistung, die die AD10x Tensorcores liefern, Punkt. Die Tensorcores sind eigentlich pure Platzverschwendung auf einer Gaming-GPU.

Sehr gute Argumentationsweise. "das ist so Punkt" - aber keine sinnvollen Indizien und Belege liefern.
Die Tensorleistung skaliert mit der Anzahl der SMs. AD102 hat viele SMs und schafft entsprechend mehr Pixel pro Sekunde (Auflösung @ fps) und braucht linear mehr Tensorleistung um DLSS zu machen. Eine TU106 mit weniger SMs und weniger Tensorleistung schafft als weniger Pixel pro Sekunde und entsprechend ist auch die Last für DLSS geringer.

Das hängt linear zusammen. Die Argumentation passt aus meiner Sicht überhaupt nicht.


Man bräuchte Tensor-Light, die grad für DLSS reichen. AMD liefert genau das, nur kann eben kein DLSS, weil es eben proprietär ist.
Wie gesagt ist völlig unklar, wie viel Tensorleistung benötigt wird pro SM. Wenn man weniger Tensorleistung verbaut, braucht DLSS länger in der Frametime.

Dass es propertär ist, ist äußerst unschön - da sind wir d'accord. Aber die Ergebnisse sind besser. Und ich würde mich überhaupt nicht wundern, wenn AMD mittelfrist auch auf Neuronale Netze umsteigt. Letzteres muss man nicht nur wegen DLSS verteufeln.

HOT
2022-11-15, 13:24:15
Der kleinste turing ist TU117

Ja, weil die Turing Tensor Cores ja total vergleichbar sind mit den Ada Tensorcores und natürlich der TU106 die gleiche Tensorleistung liefert wie der AD102, das weiss doch jeder. Und TU106 hat auch mehr AI-Leistung als N31, na klar. Du verhedderst dich ein wenig.

rumpeLson
2022-11-15, 13:27:08
Nachweis: Geht mit dem kleinsten Turing auch. XeSS ist eine proprietäre Implementation, die Vorteile für Intel brigt. Das ist mal kein Nachweis.
Ich glaube das können wir von außen gar nicht so einschätzen. DLSS selber hat jedenfalls mit steigenden Auflösungen zunehmende Kosten, die auf kleineren Karten auch höher sind als auf größeren.

Ob hier letztlich die Shader oder doch die Tensorcores begrenzen ist schwer zu sagen. Der im Vergleich zu FSR 2 auffällig sinkende Stromverbrauch legt aber eher letzeres nahe.
Nichts desto trotz ändert dies ja nichts daran, dass AMD mit FSR 2 nah genug an DLSS gekommen ist, damit DLSS kein zwingender Kaufgrund mehr ist, sofern FSR 2 überall genutzt werden kann.

dargo
2022-11-15, 13:27:51
Ja FSR 2 funktioniert ohne NN aber DLSS zeigt nach wie vor bessere Ergebnisse.
So kann man das wohl nicht mehr sagen. Erstens ist es subjektiv was einem besser gefällt und zweitens auch ziemlich von der Applikation bzw. der Implementierung abhängig. Letztens hatte ich nämlich noch das hier bei CB zu Uncharted gelesen.

Fazit zu FSR 2 und DLSS 2

Sowohl FSR 2 als auch DLSS 2 bieten in Uncharted: Legacy of Thieves und der Ultra-HD-Auflösung eine bessere Bildqualität als die native Auflösung. Unabhängig von möglichen FPS-Problemen sollte also gleich auf das Upsampling zurückgegriffen werden. Ob DLSS oder FSR, ist in dem Spiel Geschmackssache, beide Upsampling-Versionen zeigen kleinere Unterschiede. Der Redaktion hat das detailreichere Bild in Bewegung mit FSR 2 besser gefallen, die etwas schlechtere Bildstabilität als mit DLSS 2 kann das nicht trüben. Hinzu kommt, dass man mit dem Schärfefilter von AMD bessere Ergebnisse als mit dem Nvidia-Pendant erzielen kann.

https://www.computerbase.de/2022-10/uncharted-legacy-of-thieves-benchmark-test/2/

robbitop
2022-11-15, 13:30:44
Der kleinste turing ist TU117
Ach? Auf einmal ist TU106 nicht mehr der kleinste Turing? :D
Völlig egal. Deine Aussage war DLSS braucht keine Tensor Cores weil der kleinste Turing keine hat und das war Inkorrekt. Entsprechend bricht dein Argument zusammen.


Ja, weil die Turing Tensor Cores ja total vergleichbar sind mit den Ada Tensorcores und natürlich der TU106 die gleiche Tensorleistung liefert wie der AD102, das weiss doch jeder.
Also Skalierung und Proportionalität sind Begriffe, die du nicht zu verstehen scheinst. Ich habe es oben erläutert. Ohne diesen Zusammenhang macht die Diskussion ab dem Punkt keinen Sinn mehr.

Mit dem Performance Tool kannst du dir übrigens die Frametime anschauen. Und wo die Tensorcores aktiv sind und wie viel Frametime das kostet. Mit weniger Tensorcores wird die Frametime, die für DLSS anfällt proportional länger. Der Performancevorteil sinkt dann also.

robbitop
2022-11-15, 13:32:05
So kann man das wohl nicht mehr sagen. Erstens ist es subjektiv was einem besser gefällt und zweitens auch ziemlich von der Applikation bzw. der Implementierung abhängig. Letztens hatte ich nämlich noch das hier bei CB zu Uncharted gelesen.

https://www.computerbase.de/2022-10/uncharted-legacy-of-thieves-benchmark-test/2/
Die Frage ist, was im Performancemode passiert. Je geringer die Inputresolution, desto schwieriger wird es entsprechend temporal stabil und artefaktfrei zu bleiben. Da trennt sich die Spreu vom Weizen - und je niedriger die Inputresolution artefaktnormiert sein kann, desto mehr Nutzen kann man potenziell aus dem Verfahren ziehen (weil höhere Faktoren möglich sind). Zumindest bis dato waren die Ergebnisse: Quality nahezu parität und bei "Performance" zieht DLSS davon.

][immy
2022-11-15, 13:33:25
Nachweis: Geht mit dem kleinsten Turing auch. XeSS ist eine proprietäre Implementation, die Vorteile für Intel brigt. Das ist mal kein Nachweis.
Ich würde eher den "Nachweis" nehmen, das DLSS auch bei hohen Frameraten funktioniert. D.h. hier gibt es bei den Tensor-Cores wohl große freiliegende Potentiale.
Eigentlich sollten die doch auch mal RT unterstützen, aber das hat nvidia ja bis heute nicht implementiert. Vermutung dahinter ist, das sie halt nicht für RT + DLSS ausreichen.

Die Frage ist, was im Performancemode passiert. Je geringer die Inputresolution, desto schwieriger wird es entsprechend temporal stabil und artefaktfrei zu bleiben. Da trennt sich die Spreu vom Weizen - und je niedriger die Inputresolution artefaktnormiert sein kann, desto mehr Nutzen kann man potenziell aus dem Verfahren ziehen (weil höhere Faktoren möglich sind). Zumindest bis dato waren die Ergebnisse: Quality nahezu parität und bei "Performance" zieht DLSS davon.
DLSS sieht eigentlich erst OK aus, wenn die Auflösung >1080p liegt. Vorher ist es doch arg Artefaktbehaftet. Und ja ich kenne die Bespiele wo selbst 512p ganz passabel aussieht, aber in Bewegung ist es dann doch eher was anderes. Es braucht halt immer eine entsprechend hohe Grundauflösung damit das Endresultat einigermaßen OK ist.

HOT
2022-11-15, 13:35:11
Ach? Auf einmal ist TU106 nicht mehr der kleinste Turing? :D
Völlig egal. Deine Aussage war DLSS braucht keine Tensor Cores weil der kleinste Turing keine hat und das war Inkorrekt. Entsprechend bricht dein Argument zusammen.

Der 106er hat Tensor Cores. Vom 116 hab ich nicht geredet, das war jemand anderes ;). Für mich sind 116 und 117 auch nur formal Turings, deshalb hab ich an die auch gar nicht gedacht. Das sind halt die kleinen Voltas.

Also Skalierung und Proportionalität sind Begriffe, die du nicht zu verstehen scheinst. Ich habe es oben erläutert. Ohne diesen Zusammenhang macht die Diskussion ab dem Punkt keinen Sinn mehr.

Mit dem Performance Tool kannst du dir übrigens die Frametime anschauen. Und wo die Tensorcores aktiv sind und wie viel Frametime das kostet. Mit weniger Tensorcores wird die Frametime, die für DLSS anfällt proportional länger.

Ist irrelevant. Dann schau dir doch mal der Verhältnis dabei an zwischen den Generationen, wie viel stärker die geworden sind ;). Was ich schrieb, schrieb ich exakt in dem Wissen, aber man muss es nicht unnötig komplex machen. Was gemeint war, dürfte klar sein, auch wenn du das nicht wahrhaben willst und grad etwas auf dem Kreuzzug bist.

robbitop
2022-11-15, 13:38:21
[immy;13167529']Ich würde eher den "Nachweis" nehmen, das DLSS auch bei hohen Frameraten funktioniert. D.h. hier gibt es bei den Tensor-Cores wohl große freiliegende Potentiale.
Eigentlich sollten die doch auch mal RT unterstützen, aber das hat nvidia ja bis heute nicht implementiert. Vermutung dahinter ist, das sie halt nicht für RT + DLSS ausreichen.


DLSS sieht eigentlich erst OK aus, wenn die Auflösung >1080p liegt. Vorher ist es doch arg Artefaktbehaftet. Und ja ich kenne die Bespiele wo selbst 512p ganz passabel aussieht, aber in Bewegung ist es dann doch eher was anderes. Es braucht halt immer eine entsprechend hohe Grundauflösung damit das Endresultat einigermaßen OK ist.
Ich denke wenn muss man sich die Frametime anschauen. Anteil DLSS und Anteil Rest. Das ist kein Problem weil entsprechende Performancetools verfügbar sind. Soweit ich weiß sind die Frametimes für DLSS relativ fix (pro Auflösung und bei der gleichen GPU). Auflösung und Tensorleistung sind dann entsprechende Einflüsse au die Dauer. Natürlich funktioniert DLSS auch bei hohen Frameraten aber der Impact nimmt relativ zu. Entsprechend ist viel Tensorleistung bei hohen Frameraten (insbesondere bei gleichzeitig hoher Auflösung) potenziell sinnvoll

Man braucht für beide Verfahren auf jeden Fall eine gewisse Outputresolution damit es anständig aussieht.

robbitop
2022-11-15, 13:47:49
Ist irrelevant. Dann schau dir doch mal der Verhältnis dabei an zwischen den Generationen, wie viel stärker die geworden sind ;). Was ich schrieb, schrieb ich exakt in dem Wissen, aber man muss es nicht unnötig komplex machen. Was gemeint war, dürfte klar sein, auch wenn du das nicht wahrhaben willst und grad etwas auf dem Kreuzzug bist.
Du hast angefangen mit "Punkt aus" zu "argumentieren". Da braucht man sich dann nicht wundern, wenn Gegenwind kommt.

Mehr Tensorleistung als bei Turing ist sinnvoll, wenn man die Frametime reduzieren will. Weniger Tensorleistung würde längere Frametime bedeuten.

Die 4090 schafft gleichzeitig hohe Outputresolutions (4K+) und hohe Frameraten (120fps+). Das steigert den Rechenleistungsbedarf für DLSS massiv. Und entsprechend in dem Bereich die Frametimekosten von DLSS zu senken ist nachvollziehbar.

Ich sehe nirgends einen Indiz, dass man viel zu viel Tensorleistung hat.

Tesseract
2022-11-15, 13:50:42
Nichts desto trotz ändert dies ja nichts daran, dass AMD mit FSR 2 nah genug an DLSS gekommen ist, damit DLSS kein zwingender Kaufgrund mehr ist, sofern FSR 2 überall genutzt werden kann.

ich fühle mich gerde 10 jahre in die vergangenheit versetzt wo behauptet wurde es sei "geschmackssache" ob die korrekte texturfilterung von nvidia oder die "schärfere" kaputte, flimmernde texturfilterung der 5000er und 6000er schöner sei.
FSR hat zumindest stand heute ganz klare probleme mit hochfrequentem kontent und kann weder gegenüber DLSS noch gegenüber native "überall genutzt werden". ja, es sieht stellenweise ziemlich gut aus, aber es ist inkonsistent und zwar zu einem grad der nicht nur beim pixel peeping sondern direkt im spielfluss nervt, selbst in Q.

HOT
2022-11-15, 13:54:15
Du hast angefangen mit "Punkt aus" zu "argumentieren". Da braucht man sich dann nicht wundern, wenn Gegenwind kommt.

Mehr Tensorleistung als bei Turing ist sinnvoll, wenn man die Frametime reduzieren will. Weniger Tensorleistung würde längere Frametime bedeuten.

Die 4090 schafft gleichzeitig hohe Outputresolutions (4K+) und hohe Frameraten (120fps+). Das steigert den Rechenleistungsbedarf für DLSS massiv. Und entsprechend in dem Bereich die Frametimekosten von DLSS zu senken ist nachvollziehbar.

Ich sehe nirgends einen Indiz, dass man viel zu viel Tensorleistung hat.

Nette Theorie. Gibts dafür nen Nachweis, dass das irgend ne Relevanz hat? Ich glaub nicht, dass DLSS auf einem Turing sehr viel langsamer läuft im Verhältnis. Gibts da nen Nachweis?

Ich rede hier übrigens nicht für DLSS3/FSR3, das hab ich außen vor, das ist was anderes.

Und noch mal was anderes: Wenn man sieht, wie gut FSR2 implementiert werden kann, ist das NN überhaupt nötig? (nur um mal das ganz große Fass aufzumachen :D).

robbitop
2022-11-15, 13:57:03
Ich selbst kann keinen liefern mangels DLSS2 fähiger GPU. Aber wie gesagt kann man sich die Frametime in jedem Spiel mit dem nvperftool anschauen. Und man sieht da ganz klar (wurde im Forum schon mehrfach gepostet), dass in der Zeit des Frames (fast zum Schluss in der Frametimegraph) nur Tensorcompute passiert. Was passiert wohl mit der Frametime wo nur Tensorcompute passiert, wenn man mehr oder weniger Tensorcomputeleistung hat. Dass Auflösung und Framerate da einen linearen Einfluss haben sollte auch klar sein.

HOT
2022-11-15, 14:00:36
Ich selbst kann keinen liefern mangels DLSS2 fähiger GPU. Aber wie gesagt kann man sich die Frametime in jedem Spiel mit dem nvperftool anschauen. Und man sieht da ganz klar (wurde im Forum schon mehrfach gepostet), dass in der Zeit des Frames (fast zum Schluss in der Frametimegraph) nur Tensorcompute passiert. Was passiert wohl mit der Frametime wo nur Tensorcompute passiert, wenn man mehr oder weniger Tensorcomputeleistung hat.
Wie gesat, hat das irgendne Relevanz? Sieht man das netto in Frametimes? Merkt man da was von? Praxis?

basix
2022-11-15, 14:05:07
Wie gesagt ist völlig unklar, wie viel Tensorleistung benötigt wird pro SM. Wenn man weniger Tensorleistung verbaut, braucht DLSS länger in der Frametime.

Man kann ja einfach Nsight nehmen und nachschauen ;)

Fakt ist, dass ab Ampere die Tensor Cores asynchron und parallel zu den Shadern laufen können (quasi Async Compute via TC) und nur relativ kurz gegen Schluss des Frames aktiv sind (siehe Ampere Foliensätze). Ja, die Frametime wird verlängert, wenn die Tensor Cores langsamer sind. Nur ist das weniger als man denkt und das Post-Processing in voller Auflösung verschleiert das zusätzlich (bei High End GPUs bei 4K ~50/50 Aufteilung der Frametime von DLSS + Post Processing, total ~2ms). Wenn AMD hier mit ihrem "ML Accelerator" Ansatz ankommt glaube ich nicht, dass das so viel langsamer wäre. Auch ohne dedizierte Tensor Cores. FSR 2.0 dauert auf einer 6900XT bei 4K ~1ms und kann via Async Compute versteckt werden. Die Restkosten von FSR2 gehen auf das Konto von Full-Resolution Post Processing. Bei einer 7900XT(X) mit 2.7x Rohperformance und zusätzlichen ML/AI Beschleunigungsbefehlen sollte Async Compute und insbesondere ML/AI nochmals schlagkräftiger werden. Eine 3080 liefert 120 TFLOPs FP16 via Tensor. N31 wird mehr als das via Shader-Cores liefern (entweder FP16 RPM oder Matrix). FSR2/3 parallel via Async laufen lassen / verstecken und man wird effektiv keinen wesentlichen Unterschied zwischen den zwei Lösungen haben.

Für Games sind Tensor Cores overkill. Zumindest solange man nicht ausgedehnt DNN verwendet. DLSS, Denoiser, Neural Radiance Caching, Neural Hash Encoding, ... usw. zeigen schon, dass hohe DNN Performance in Zukunft wichtiger werden kann. Als zwingend notwending erachte ich es aber nicht. Auch hier gilt die 80% Regel (oder abnehmender Grenzertrag).

robbitop
2022-11-15, 14:06:15
Wie gesat, hat das irgendne Relevanz? Sieht man das netto in Frametimes? Merkt man da was von? Praxis?

Es ist zusätzliche Frametime. Du rendest das Bild in der Inputresolution (kostet x ms) und dann kommt der zusätzliche Anteil der Frametime für DLSS dazu. Je kürzer der ist, desto höher ist die Framerate. Je höher die Auflösung, desto höher ist der zusätzliche Frametimeanteil. Je höher die Tensorleistung, desto geringer ist die zusätzliche Frametime.

robbitop
2022-11-15, 14:09:27
Man kann ja einfach Nsight nehmen und nachschauen ;)

Fakt ist, dass ab Ampere die Tensor Cores asynchron und parallel zu den Shadern laufen können (quasi Async Compute via TC) und nur relativ kurz gegen Schluss des Frames aktiv sind (siehe Ampere Foliensätze). Ja, die Frametime wird verlängert, wenn die Tensor Cores langsamer sind. Nur ist das weniger als man denkt und das Post-Processing in voller Auflösung verschleiert das zusätzlich (bei High End GPUs bei 4K ~50/50 Aufteilung der Frametime von DLSS + Post Processing, total ~2ms). Wenn AMD hier mit ihrem "ML Accelerator" Ansatz ankommt glaube ich nicht, dass das so viel langsamer wäre. Auch ohne dedizierte Tensor Cores. FSR 2.0 dauert auf einer 6900XT bei 4K ~1ms und kann via Async Compute versteckt werden. Die Restkosten von FSR2 gehen auf das Konto von Full-Resolution Post Processing. Bei einer 7900XT(X) mit 2.7x Rohperformance und zusätzlichen ML/AI Beschleunigungsbefehlen sollte Async Compute und insbesondere ML/AI nochmals schlagkräftiger werden. Eine 3080 liefert 120 TFLOPs FP16 via Tensor. N31 wird mehr als das via Shader-Cores liefern (entweder FP16 RPM oder Matrix). FSR2/3 parallel via Async laufen lassen / verstecken und man wird effektiv keinen wesentlichen Unterschied zwischen den zwei Lösungen haben.

Für Games sind Tensor Cores overkill. Zumindest solange man nicht ausgedehnt DNN verwendet. DLSS, Denoiser, Neural Radiance Caching, Neural Hash Encoding, ... usw. zeigen schon, dass hohe DNN Performance in Zukunft wichtiger werden kann. Als zwingend notwending erachte ich es aber nicht. Auch hier gilt die 80% Regel (oder abnehmender Grenzertrag).

Nsight - danke.

Der Vorteil an zusätzlicher HW ist, dass es keine Leistung die für das Rendern des inputresolution frames notwendig ist, wegfrisst.

Das gleichzeitige Rechnen seit Ampere stimmt. IIRC war das aber auch limitiert und würde nur sinnvoll möglich sein, wenn man den Frame n-1 verzögert um DLSS parallel zum Frame n zu machen (da DLSS fast zuletzt kommt). Ob man dann einen Frame Verzögerung möchte (Latenz) ist die Frage und ob das auch tatsächlich so funktioniert.

Rein logisch gesehen: warum sollte Nvidia die Tensorcores bei Gaming GPUs unnötig und gleichzeitig deutlich überdimensionieren? Das macht keinen Sinn, da es Transistoren kostet, die man in Leistung oder Kostenersparnis umwandeln könnte.

Complicated
2022-11-15, 14:11:34
Ich finde es immer wieder spannend, wie man sich auf RT-Kerne und Tensor- und Matrixkerne versteift. AI-Berechnungen sind extremst simpel und ich hab mir schon einen AI-Accelerator (Fixpoint/Integer Arithmetik) in einem FPGA (über AXI-Interface) als Co-Prozessor für die CPU implementiert (Xilinx MPSOC). Der Vorteil von diesen FFUs für diese Berechnungszwecke ist nicht nur die Beschleunigung, sondern, dass man deutlich weniger Instruktionen benötigt. Matrixmultiplikation und Dot-Products sind eigentlich die normalen Berechnungen in einem NN. Anstatt nun zig Instruktionen zu Decodieren, welche zu einer Matrixmultiplikation führt, hat man nun deutlich weniger davon. Abseits, dass es vieles vereinfacht und beschleunigt, gibt es keinen Grund da drauf aufzusetzen. Die Gründe sind aber enorm.

Deswegen:
Die Aussage, man braucht nun Tensor-Kerne um DLSS auszuführen ist übelst falsch. DLSS ist nur eine Applikation die so konstruiert und trainiert ist, dass das verwendete NN gut auf die zur Verfügung gestellten HW-Ressourcen läuft. Und klar sind die Tensor-Kerne so aufgebaut um mit FixPoint Arithmetik und Quantifizierung umzugehen.
Absolut richtig und gut auf den Punkt gebracht. :up:

Daher sind auch die ständigen Diskussionen um RT Hardware-Level und Forderungen nach fehlenden Hardware-Einheiten reine Zeitverschwendung.


Ich sehe nirgends einen Indiz, dass man viel zu viel Tensorleistung hat.Dann würde Raytracing die Tensorcores so gut auslasten wie sie auch in Server-Workloads ausgelastet sind - das wäre auf mehreren Ebenen sehr seltsam. :confused:

Zum einen der Bedarf für Raytracing und zum anderen keine Mehrleistung auf Servern - das würde ich schon als mehr als nur ein Indiz sehen.

HOT
2022-11-15, 14:11:38
[...]

Für Games sind Tensor Cores overkill. Zumindest solange man nicht ausgedehnt DNN verwendet. DLSS, Denoiser, Neural Radiance Caching, Neural Hash Encoding, ... usw. zeigen schon, dass hohe DNN Performance in Zukunft wichtiger werden kann. Als zwingend notwending erachte ich es aber nicht. Auch hier gilt die 80% Regel (oder abnehmender Grenzertrag).

Möglich, aber angesichts der Lebenszeit dieser Grafikkarten wärend dieser Konsolengenerations sehr unwahrscheinlich.

Nsight - danke.

Der Vorteil an zusätzlicher HW ist, dass es keine Leistung die für das Rendern des inputresolution frames notwendig ist, wegfrisst.

Das gleichzeitige Rechnen seit Ampere stimmt. IIRC war das aber auch limitiert und würde nur sinnvoll möglich sein, wenn man den Frame n-1 verzögert um DLSS parallel zum Frame n zu machen (da DLSS fast zuletzt kommt). Ob man dann einen Frame Verzögerung möchte (Latenz) ist die Frage und ob das auch tatsächlich so funktioniert.

Rein logisch gesehen: warum sollte Nvidia die Tensorcores bei Gaming GPUs unnötig und gleichzeitig deutlich überdimensionieren? Das macht keinen Sinn, da es Transistoren kostet, die man in Leistung oder Kostenersparnis umwandeln könnte.
NV implementiert das aus 2 Gründen:
1.) sie kommen aus der Nummer nicht mehr raus, die man mit Turing (aus meiner sich eher irrtümich) gestartet hat.
2.) Prosumer und abgeleitete Profikarten profitieren davon u.U. extrem. Eine Radeon ist in einigen Bereichen einfach nicht konkurrenfähig dabei.

Fürs Gaming bleibts eben irrelevant, danke basix für die Erklärungen.

rumpeLson
2022-11-15, 14:12:18
ich fühle mich gerde 10 jahre in die vergangenheit versetzt wo behauptet wurde es sei "geschmackssache" ob die korrekte texturfilterung von nvidia oder die "schärfere" kaputte, flimmernde texturfilterung der 5000er und 6000er schöner sei.
FSR hat zumindest stand heute ganz klare probleme mit hochfrequentem kontent und kann weder gegenüber DLSS noch gegenüber native "überall genutzt werden". ja, es sieht stellenweise ziemlich gut aus, aber es ist inkonsistent und zwar zu einem grad der nicht nur beim pixel peeping sondern direkt im spielfluss nervt, selbst in Q.
Die Bildqualität von FSR 2 und DLSS ist aber tatsächlich subjektiver als der Unterschied zwischen kaputter und korrekter Texturfilterung, da beide Verfahren ihre eigenen Probleme haben. Wäre DLSS fehlerfrei und könnte ein Bild ohne Bildfehler erzeugen, würde ich dir natürlich Recht geben.

Da mich eher Flimmern und Flackern stören und DLSS das temporal stabilere Bild erzeugt, gefällt mir DLSS auch besser. Aber nicht mehr in dem Maße, dass ich meine nächste Kaufentscheidung nur davon abhängig machen würde. DLSS war ansonsten der primäre Grund, aus dem ich von RDNA2 auf Ampere gewechselt bin. Den Wechsel auf RDNA3 könnte ich mir nun, ein rundes Gesamtpaket vorausgesetzt, wieder vorstellen.

robbitop
2022-11-15, 14:20:28
Dann würde Raytracing die Tensorcores so gut auslasten wie sie auch in Server-Workloads ausgelastet sind - das wäre auf mehreren Ebenen sehr seltsam. :confused:

Zum einen der Bedarf für Raytracing und zum anderen keine Mehrleistung auf Servern - das würde ich schon als mehr als nur ein Indiz sehen.
Was hat Raytracing mit den Tensorcores zu tun?

Tesseract
2022-11-15, 14:27:19
Die Bildqualität von FSR 2 und DLSS ist aber tatsächlich subjektiver als der Unterschied zwischen kaputter und korrekter Texturfilterung, da beide Verfahren ihre eigenen Probleme haben. Wäre DLSS fehlerfrei und könnte ein Bild ohne Bildfehler erzeugen, würde ich dir natürlich Recht geben.

die probleme von FSR sind sehr fundamental und wahrscheinlich schwer zu bewältigen ohne die komplexität deutlich zu steigern. die probleme von DLSS hängen großteils mit dem schärfen und seinen parametern zusammen und sind eine aktive baustelle mit absehbarer lösung.

laut dem was ich bisher gesehen habe (vor allem live, nicht nur in screenshots oder langsamen kameraschwenks) hätte ich FSR DLSS bisher in keinem einzigen spiel vorgezogen. ich sehe hier definitiv keinen gleichstand.

robbitop
2022-11-15, 14:27:40
Fürs Gaming bleibts eben irrelevant, danke basix für die Erklärungen.
Ein oberflächlicher und polemischer Schluss, den du daraus ziehst. Selbst für den hypothetischen Fall, dass Nvidia die Tensorcoreleistung überdimensioniert haben könnte.
Wenn FSR gerade in Bordercases DLSS matchen könnte, würde ich zustimmen - aber das ist bisher leider überhaupt nicht so.
Ich bin mal gespannt, was du sagst, wenn AMD mit einem NN Ansatz um die Ecke kommt. (was mittelfristig nicht unwahrscheinlich ist)

why_me
2022-11-15, 14:33:59
Der Vorteil an zusätzlicher HW ist, dass es keine Leistung die für das Rendern des inputresolution frames notwendig ist, wegfrisst.

Das stimmt doch auch nicht ganz. Klar man spart sich Operationen auf den Shadern.
Aber man verwendet dennoch Resourcen, die die Shader blockieren können. Und nicht vergessen, eine GPU hat eine bestimmte TDP, somit kann zusätzliche HW dennoch die Shader ausbremsen. Auch wenn das sicherlich nicht so stark bremst, wie den code direkt auf den Shadern auszuführen.

basix
2022-11-15, 14:35:53
Das gleichzeitige Rechnen seit Ampere stimmt. IIRC war das aber auch limitiert und würde nur sinnvoll möglich sein, wenn man den Frame n-1 verzögert um DLSS parallel zum Frame n zu machen (da DLSS fast zuletzt kommt). Ob man dann einen Frame Verzögerung möchte (Latenz) ist die Frage und ob das auch tatsächlich so funktioniert.
Bereits heute werden Frames in der Pipeline überlappt (wenn man bei Post Processing Compute Bound unterwegs ist, kann man gut das Frontend bereits für das nächste Frame in Beschlag nehmen). Auch ganz ohne Tensor Cores. Genau wegen dem und Frame Pacing haben moderne Engines deutlich höhere Input Latenzen als alte Spiele.


Rein logisch gesehen: warum sollte Nvidia die Tensorcores bei Gaming GPUs unnötig und gleichzeitig deutlich überdimensionieren? Das macht keinen Sinn, da es Transistoren kostet, die man in Leistung oder Kostenersparnis umwandeln könnte.

Quadro ;)

Die paar Prozent Chipfläche amortisieren sich hier wieder.

Ampere hat es noch deutlich stärker als Turing gezeigt: Die grössten Sprünge machte man in Anwendungen und nicht in Spielen. Und Nvidias Fokus ist deutlich stärker auf professionelle Nutzer ausgerichtet als AMD. Ihre Technologie ist allerdings so gut (das muss man auch sagen), dass es trotz dem "Dual-Wielding" von Professionals und Gaming, auch bei Gaming für die Marktführerschaft reicht. Und Nvidia ist ebenfalls stark im SW und Research Bereich unterwegs, womit neue Use Cases für bestehende und aktuell evtl. noch überdimensionierte HW geschaffen werden. DLSS ist ein solches Beispiel. Ist HW da, entwickelt man SW welche davon profitiert.

robbitop
2022-11-15, 14:38:17
Das stimmt doch auch nicht ganz. Klar man spart sich Operationen auf den Shadern.
Aber man verwendet dennoch Resourcen, die die Shader blockieren können. Und nicht vergessen, eine GPU hat eine bestimmte TDP, somit kann zusätzliche HW dennoch die Shader ausbremsen. Auch wenn das sicherlich nicht so stark bremst, wie den code direkt auf den Shadern auszuführen.
Das stimmt. Aber dennoch aufgrund dessen, dass man mit Matrixcores viel mehr Durchsatz pro W und pro Zeit schafft (wenn man Matrizen rechnet) steht man da viel viel effizienter da als würde man das "zu fuß" über die Vektor FPUs rechnen.

robbitop
2022-11-15, 14:41:13
Ampere hat es noch deutlich stärker als Turing gezeigt: Die grössten Sprünge machte man in Anwendungen und nicht in Spielen. Und Nvidias Fokus ist deutlich stärker auf professionelle Nutzer ausgerichtet als AMD. Ihre Technologie ist allerdings so gut (das muss man auch sagen), dass es trotz dem "Dual-Wielding" von Professionals und Gaming, auch bei Gaming für die Marktführerschaft reicht.
OK aber am Ende wie du schon sagst - so viel scheint die "Überdimensionierung" der Tensorcoreleistung für Gaming nicht auszumachen. Es aber grundsätzlich anzuzweifeln, dass Matrixcores für NN Anwendungen, die bei Gaming einen Mehrwert bieten wie DLSS sinnvoll sind ist etwas weit hergeholt. (der Standpunkt von HOT)

Nakai
2022-11-15, 14:43:02
Absolut richtig und gut auf den Punkt gebracht. :up:

Daher sind auch die ständigen Diskussionen um RT Hardware-Level und Forderungen nach fehlenden Hardware-Einheiten reine Zeitverschwendung.

Dann würde Raytracing die Tensorcores so gut auslasten wie sie auch in Server-Workloads ausgelastet sind - das wäre auf mehreren Ebenen sehr seltsam. :confused:

Zum einen der Bedarf für Raytracing und zum anderen keine Mehrleistung auf Servern - das würde ich schon als mehr als nur ein Indiz sehen.

Ich glaube manche stellen sich da irgendwelche Magie vor die in den RT-Kernen und Tensor-Kernen abläuft. Wenn AMD nun einen eher hybriden Ansatz verfolgt, dann ist das so. Dann bläst AMD die SPs auf, dass diese dedizierte Instruktionen ausführen können. Für manche sind das dann wieder keine richtigen RT-Einheiten. Auch eine andere Frage wäre, ob die RT-Kerne und AI-Kerne eigene ALUs und Operanden- und Resultregister haben. Bei AMD ist das ziemlich sicher nicht vollständig so. Das sind dann wieder nur eine Recheneinheit, die nach Außen eine bestimmte Anzahl an Rechenknechte zur Verfügung stellt, aber intern je nach Usecase anders arbeitet.

Irgendwie erinnert mich das an CISC und RISC langsam.

basix
2022-11-15, 14:44:59
OK aber am Ende wie du schon sagst - so viel scheint die "Überdimensionierung" der Tensorcoreleistung für Gaming nicht auszumachen. Es aber grundsätzlich anzuzweifeln, dass Matrixcores für NN Anwendungen, die bei Gaming einen Mehrwert bieten wie DLSS sinnvoll sind ist etwas weit hergeholt. (der Standpunkt von HOT)

Matrix Cores können einen Mehrwert bieten. Das zweifelt glaube ich niemand an. Nur, ob sie für das entsprechende Resultat auch wirklich notwendig sind. Und das ist eine berechtigte Frage. Läuft DLSS ohne Tensor Cores +1ms langsamer wäre das noch kein Beinbruch für die Technologie. Insbesondere, wenn die Rohleistung eh immer weiter steigt und der relative Anteil für das Ausführen des DNN automatisch geringer wird.

Ansonsten bich ich aber bei dir: Beschleuniger sind in den meisten Fällen ützlich, solange sie nicht viel Chipfläche beanspruchen. Tensor Cores und RT-Cores scheinen sich für Nvidia ja zu lohnen.

robbitop
2022-11-15, 14:47:23
Ich glaube manche stellen sich da irgendwelche Magie vor die in den RT-Kernen und Tensor-Kernen abläuft. Wenn AMD nun einen eher hybriden Ansatz verfolgt, dann ist das so. Dann bläst AMD die SPs auf, dass diese dedizierte Instruktionen ausführen können. Für manche sind das dann wieder keine richtigen RT-Einheiten. Auch eine andere Frage wäre, ob die RT-Kerne und AI-Kerne eigene ALUs und Operanden- und Resultregister haben. Bei AMD ist das ziemlich sicher nicht vollständig so. Das sind dann wieder nur eine Recheneinheit, die nach Außen eine bestimmte Anzahl an Rechenknechte zur Verfügung stellt, aber intern je nach Usecase anders arbeitet.

Irgendwie erinnert mich das an CISC und RISC langsam.

Das eine ist FF HW und das andere GP HW. Das ist was ganz anderes als RISC vs CISC. Im spezifischen Einsatzzweck von special purpose/ff hw hast du mit general purpose HW keine Chance (pro Transistor und pro W). Im Gegenzug kann FF HW halt nur die eine Anwendung. Wenn man aber stattdessen mehr GP HW einsetzt um die FF HW zu ersetzen, wird man nicht nicht mithalten können. Das ist eigentlich ein Axiom. Die Diskussion führt für TMUs oder ROPs ja auch kein Mensch.

Zukünftige AMD uArchs werden nicht gerade unwahrscheinlich einen ähnlichen Weg gehen.

basix
2022-11-15, 14:50:24
Das eine ist FF HW und das andere GP HW. Das ist was ganz anderes als RISC vs CISC. Im spezifischen Einsatzzweck von special purpose/ff hw hast du mit general purpose HW keine Chance (pro Transistor und pro W). Im Gegenzug kann FF HW halt nur die eine Anwendung. Wenn man aber stattdessen mehr GP HW einsetzt um die FF HW zu ersetzen, wird man nicht nicht mithalten können. Das ist eigentlich ein Axiom. Die Diskussion führt für TMUs oder ROPs ja auch kein Mensch.

Zukünftige AMD uArchs werden nicht gerade unwahrscheinlich einen ähnlichen Weg gehen.

FF HW hat den Nachteil, dass man sich damit potentiell viel Dark Silicon einhandelt. Deswegen sind GP HW Ansätze immer noch beliebt, da sich die Kosten über mehr Anwendungen amortisieren lassen. FF HW lohnt sich halt nicht für alle Anwendungsfälle. In manchen Fällen is FF HW unschlagbar, in anderen mehr nice to have. Tensor Cores für Gaming gehören für mich momentan in letztere Kategorie. RT-Accelerators in erstere (egal ob AMD oder Nvidia).

robbitop
2022-11-15, 14:50:57
Matrix Cores können einen Mehrwert bieten. Das zweifelt glaube ich niemand an. Nur, ob sie für das entsprechende Resultat auch wirklich notwendig sind. Und das ist eine berechtigte Frage. Läuft DLSS ohne Tensor Cores +1ms langsamer wäre das noch kein Beinbruch für die Technologie. Insbesondere, wenn die Rohleistung eh immer weiter steigt und der relative Anteil für das Ausführen des DNN automatisch geringer wird.

Ansonsten bich ich aber bei dir: Beschleuniger sind in den meisten Fällen ützlich, solange sie nicht viel Chipfläche beanspruchen. Tensor Cores und RT-Cores scheinen sich für Nvidia ja zu lohnen.
Ich halte es für unrealistisch, dass ohne TCs DLSS nur +1 ms langsamer wäre. Erstens ist mit verschachteltem Rechnen nichts mehr weil die FPUs ja für den eigentlichen Frame gebraucht werden und zweitens ist der Matrixdurchsatz mit Tensorcores verglichen mit dem "zu Fuß rechnen" ziemlich langsam ist. IIRC wird FP16 für DLSS verwendet. DLSS kostet aktuell ~1-1,5 ms. Das ist "zu Fuß" sehr wahrscheinlich deutlich langsamer.
XeSS zeigt es ja. Ja XeSS ist nicht DLSS aber es funktioniert ja inhaltlich fast genauso. Und dabei ist die dp4a Variante nicht mal die optisch sinnvolle Version.

dargo
2022-11-15, 14:51:11
Die Frage ist, was im Performancemode passiert.
Warum? Sind Balanced und Quality plötzlich überflüssig nur weil du diese Modis nicht nutzen willst/kannst weil die Graka zu langsam?

robbitop
2022-11-15, 14:54:13
FF HW hat den Nachteil, dass man sich damit potentiell viel Dark Silicon einhandelt. Deswegen sind GP HW Ansätze immer noch beliebt, da sich die Kosten über mehr Anwendungen amortisieren lassen. FF HW lohnt sich halt nicht für alle Anwendungsfälle. In manchen Fällen is FF HW unschlagbar, in anderen mehr nice to have. Tensor Cores für Gaming gehören für mich momentan in letztere Kategorie. RT-Accelerators (egal ob AMD oder Nvidia) in erstere.
Ich würde sagen, dass der Einsatz für TCs relativ gering ist - vor allem wenn man weniger davon verbauen würde. Aber ja das wäre IMO auch kein Muss für mich. Andererseits zeigen NN basierende Verfahren (XeSS mit VMX und DLSS) was temporale Stabilität angeht - insbesondere mit niedriger Inputresolution deutliche Vorteile. Aber ja ausgehend von FSR 2 ist es nur "nett" aber kein "muss".
Es würde mich auch nicht überraschen, wenn DLSS nur der Anfang ist. Man schaue sich an was im Bereich an NN für Innovationsschübe passieren.

Achill
2022-11-15, 14:54:40
ich fühle mich gerde 10 jahre in die vergangenheit versetzt wo behauptet wurde es sei "geschmackssache" ob die korrekte texturfilterung von nvidia oder die "schärfere" kaputte, flimmernde texturfilterung der 5000er und 6000er schöner sei.
FSR hat zumindest stand heute ganz klare probleme mit hochfrequentem kontent und kann weder gegenüber DLSS noch gegenüber native "überall genutzt werden". ja, es sieht stellenweise ziemlich gut aus, aber es ist inkonsistent und zwar zu einem grad der nicht nur beim pixel peeping sondern direkt im spielfluss nervt, selbst in Q.

Um das mal zusammen zu fassen. Deine Aussage ist im Kern ein Vergleich von zwei technischen Lösungen. Will man diese wirklich qualitativ vergleichen können, muss natürlich die gleiche Ausgangslage geschaffen werden sowie eine Referenz bestimmbar sein.

Beim Vergleichsthema Texturfilterung war dies einfach. Texturfilterung ist bekannt und definiert und konnte so als Referenz in SW umgesetzt werden. Wir hatten irgendwann Tools und konnten diese für neue GPUs nutzen um dort die Umsetzung zu bewerten. Der Wichtige Punkt hier, die Referenz ist bekannt.

Beim Tema temp. Rekonstruktion ist dies nun nicht mehr gegeben. Am Anfang von DLSS und DLSS 2 wurde i.d.R. gegen TAA verglichen. TAA ist aber keine Referenz da es unterschiedliche Umsetzungen gibt und damit zwischen Spielen unterscheidet. Darüber hinaus ist das konkrete TAA wie auch DLSS(2) eine BlackBox und es gibt auch keine Spec die es ermöglicht, eine entsprechende Referenz zu bestimmen.

Mit TAA, später DLSS(2) und jetzt auch FSR2 sind wir immer weiter weg gekommen von der messbaren Vergleichbarkeit und immer mehr zu einer "gefühlten" Referenz mit entsprechenden Folgen das eben jetzt jeder recht haben kann, weil wir bei der subjektiven Referenz angekommen sind.

Dies ist m.E. auch der springende Punkt und wird verstärkt um die Problematik, dass wir bei einen Spiel oder Anwendung auch nicht wissen, ob die gleiche Ausgangslage existiert. Wurden von den Entwickler:innen die gleiche Menge an Zeit für die Lösungen investiert bei vergleichbarer Expertise? Bekommen beide Implementierungen das Optimum an Daten oder wird etwas weggelassen? Schließen sich Teile von DLSS und FRS2 aus bzw. sind je nach Umsetzung für eine der Lösungen suboptimal? Gab es die gleiche Qualitätssicherung für nachträgliches Tuning/Fixing?

Es wird schnell Cherry-Picking je nach empfinden oder Präferenz betrieben, es kann versehentlich Problematiken in YT Vids übersehen werden (DF) und wir sind an den Punkt angekommen, dass Zwischenbilder die verglichen zu einen gerenderten Bild sichtbar falsch sind, akzeptiert werden.

Eine Referenz auf den Vergleich zur alten Problematik der Texturfilterung ist für mich dann doch nicht mehr passend oder eben auch subjektiv.

robbitop
2022-11-15, 14:55:52
Warum? Sind Balanced und Quality plötzlich überflüssig nur weil du diese Modis nicht nutzen willst/kannst weil die Graka zu langsam?
Ich betrachte das rein vom Verfahren her. Wie weit kann man artefaktnormiert gehen? Erst ab einem gewissen Punkt trennt sich die Spreu vom Weizen. Und der Nutzwert ist artefaktnormiert mehr Performance wenn man die Inputresolution weiter reduzieren kann. Und Performance kann man nie genug haben.

Nakai
2022-11-15, 14:56:04
Das eine ist FF HW und das andere GP HW. Das ist was ganz anderes als RISC vs CISC. Im spezifischen Einsatzzweck von special purpose/ff hw hast du mit general purpose HW keine Chance (pro Transistor und pro W). Im Gegenzug kann FF HW halt nur die eine Anwendung. Wenn man aber stattdessen mehr GP HW einsetzt um die FF HW zu ersetzen, wird man nicht nicht mithalten können. Das ist eigentlich ein Axiom. Die Diskussion führt für TMUs oder ROPs ja auch kein Mensch.

Zukünftige AMD uArchs werden nicht gerade unwahrscheinlich einen ähnlichen Weg gehen.

CISC ist gescheitert, weil man für jede Instruktion eigene HW verbaut hat. Das war teuer und irgendwann nicht mehr überschaubar. Deswegen generiert der SW-Compiler bei X86 "CISC"-Instruktionen (sind ja nicht soviele CISC bei X86) und der HW-Compiler (Decoder) macht da daraus RISC-Instruktionen. Bei GPUs gibt es das noch nicht, ja. Das macht alles der SW-Compiler.

Wir können die Diskussion auch für TMUs und ROPs führen. ;D

Worauf ich hinaus möchte: Wenn der Weg in Richtung mehr dedizierte Logik für bestimmte UseCases geht, dann wird das IMO nur soweit getrieben, bis die Flexibilität der HW nicht eingeschränkt wird bzw. die Komplexität nicht zu krass wird. Ab diesen Zeitpunkt kann man wieder in die Breite skalieren, wenn möglich.

robbitop
2022-11-15, 14:59:46
x86 ist doch CISC oder? Wo ist es gescheitert? :D (und ja: ich weiß, dass hinter dem Decoder alles anders ist ;))

FF HW vs GP HW ist immer eine Abwägung. Video Decoders und Encoders sind weitere Beispiele.
Je mehr eine Funktion genutzt wird und je weniger sie an Transistoren sie kostet, desto sinnvoller ist es.

basix
2022-11-15, 15:02:46
Ich halte es für unrealistisch, dass ohne TCs DLSS nur +1 ms langsamer wäre. Erstens ist mit verschachteltem Rechnen nichts mehr weil die FPUs ja für den eigentlichen Frame gebraucht werden und zweitens ist der Matrixdurchsatz mit Tensorcores verglichen mit dem "zu Fuß rechnen" ziemlich langsam ist. IIRC wird FP16 für DLSS verwendet. DLSS kostet aktuell ~1-1,5 ms. Das ist "zu Fuß" sehr wahrscheinlich deutlich langsamer.

Kann sein, nur um wie viel? Und wie viel von DLSS ist Tensor und was läuft sonst noch via Shader? In einer GPU liegen typischerweise eh ~50% der FP-ALUs brach (siehe Cernys Präsentation von der PS5). Solange man hier die Bubbles via Async Compute füllen kann, ohne den Rest zu beeinträchtigen, ist diese Rechenleistung faktisch gratis. Bei FSR2 sieht man ja ganz gut, das umso kleiner die GPUs werden, umso überproportionaler kostet es Performance. Async Compute findet weniger Auslastungslücken auf der GPU. Tensor Cores sind mMn vor allem für kleinere GPUs vorteilhaft, bei grossen ist es aufgrund Auslastungslücken weniger wichtig.


XeSS zeigt es ja. Ja XeSS ist nicht DLSS aber es funktioniert ja inhaltlich fast genauso. Und dabei ist die dp4a Variante nicht mal die optisch sinnvolle Version.
mMn schwierig einzuschätzen, da nicht der selbe Algorithmus zum Einsatz kommt. XMX bei Arc hat 4x Durchsatz verglichen mit den Shader-Einheiten. Und da die parallel laufen können, hat man sicher deutlich mehr Kapazität für das Netzwerk. Ist es nötig? Naja, hängt vom Gehirnschmalz ab, welcher im DNN oder ganz allgemein im Algorithmus steckt. Mit Brute Force kann man viel anstellen, wenn man viel Rohpower zur Verfügung hat.

Ich würde sagen, dass der Einsatz für TCs relativ gering ist - vor allem wenn man weniger davon verbauen würde. Aber ja das wäre IMO auch kein Muss für mich. Andererseits zeigen NN basierende Verfahren (XeSS mit VMX und DLSS) was temporale Stabilität angeht - insbesondere mit niedriger Inputresolution deutliche Vorteile. Aber ja ausgehend von FSR 2 ist es nur "nett" aber kein "muss".
Es würde mich auch nicht überraschen, wenn DLSS nur der Anfang ist. Man schaue sich an was im Bereich an NN für Innovationsschübe passieren.
Was man hier auch sagen muss: Nvidia und Intel sind sehr stark und gross bei SW. Und Nvidia hat dazu noch einen Startvorsprung. Ich würde mal die nächsten paar FSR 2.x / 3.x Versionen abwarten. Zwischen 2.0 und nun 2.1/2.2 gab es bereits einige gute Verbesserungen.

dargo
2022-11-15, 15:04:51
Ich betrachte das rein vom Verfahren her. Wie weit kann man artefaktnormiert gehen? Erst ab einem gewissen Punkt trennt sich die Spreu vom Weizen. Und der Nutzwert ist artefaktnormiert mehr Performance wenn man die Inputresolution weiter reduzieren kann. Und Performance kann man nie genug haben.
Deine Gewichtung ist einfach hier nur anders, bei einer 1080TI verwundert mich das auch nicht. User mit schnelleren Grafikkarten sehen das nun mal etwas anders und investieren in mehr BQ, zb. höheres Upscaling, oftmals sogar gepaart mit VSR.

PS: der Performancemode wird prinzipbedingt immer schlechter aussehen als die höheren Modis. Ob das einem reicht ist eine andere Geschichte und vollkommen subjektiv.

TheGood
2022-11-15, 15:07:18
Doppelt so schnell gab es noch nie, oder? Selbst die 4090 ist nicht unbedingt doppelt so schnell wie die 3090.

Mir reichts, wenn sagen wir eine 7900XTX deutlich schneller als eine 6950 ist. Und die 7900XT deutlich schneller als eine 6900XT. Und eine 7800XT deutlich schneller als eine 6800XT ist.

Wichtig ist vor allem, dass die neuen Karten nicht deutlich mehr kosten sondern die Preise relativ gesehen gleich bleiben, denn nur so macht es Sinn. Wenn der bessere Nachfolger teurer als der Vorgänger ist, dann ist das kein Fortschritt.
So ist es nämlich :) Danke für die klaren worte, die hier leider viele vergessen.... Warum eigentlich? Vermutlich weil sies können. Ist auch OK, dann muss man das aber auch nicth mit aller gewalt allen aufs Auge drücken wollen...

robbitop
2022-11-15, 15:07:35
Kann sein, nur um wie viel? Und wie viel von DLSS ist Tensor und was läuft sonst noch via Shader? In einer GPU liegen typischerweise eh ~50% der FP-ALUs brach (siehe Cernys Präsentation von der PS5). Solange man hier die Bubbles via Async Compute füllen kann, ohne den Rest zu beeinträchtigen, ist diese Rechenleistung faktisch gratis. Bei FSR2 sieht man ja ganz gut, das umso kleiner die GPUs werden, umso überproportionaler kostet es Performance. Async Compute findet weniger Auslastungslücken auf der GPU. Tensor Cores sind mMn vor allem für kleinere GPUs vorteilhaft, bei grossen ist es aufgrund Auslastungslücken weniger wichtig.


mMn schwierig einzuschätzen, da nicht der selbe Algorithmus zum Einsatz kommt. XMX bei Arc hat 4x Durchsatz verglichen mit den Shader-Einheiten. Und da die parallel laufen können, hat man sicher deutlich mehr Kapazität für das Netzwerk. Ist es nötig? Naja, hängt vom Gehirnschmalz ab, welcher im DNN oder ganz allgemein im Algorithmus steckt. Mit Brute Force kann man viel anstellen, wenn man viel Rohpower zur Verfügung hat.


Was man hier auch sagen muss: Nvidia und Intel sind sehr stark und gross bei SW. Und Nvidia hat dazu noch einen Startvorsprung. Ich würde mal die nächsten paar FSR 2.x / 3.x Versionen abwarten. Zwischen 2.0 und nun 2.1/2.2 gab es bereits einige gute Verbesserungen.

Die Frage ist ob die Auslastung immer an Bubbles liegt oder halt an Resources die besetzt sind. Register, Scheduler usw. Dann kannst du da mit Async Compute auch nicht viel machen. Es ist sicherlich ein Mix aus Bubbles und anderen Restriktionen.

Um das schätzungsweise zu ermitteln kann man ja schauen, wie viele ms in nsight am DLSS NN gerechnet wird. Den Tensorcoredurchsatz kennen wir auch. Entsprechend kann man das in Rechenbedarf für Vektor FPUs umrechnen.

basix
2022-11-15, 15:08:08
FF HW vs GP HW ist immer eine Abwägung. Video Decoders und Encoders sind weitere Beispiele.
Je mehr eine Funktion genutzt wird und je weniger sie an Transistoren sie kostet, desto sinnvoller ist es.

...und wie hoch der Acceleration Faktor ist (Performance und/oder Energieverbrauch)

HOT
2022-11-15, 15:08:28
x86 ist doch CISC oder? Wo ist es gescheitert? :D (und ja: ich weiß, dass hinter dem Decoder alles anders ist ;))


x86 ist heute RISC mit nem aus Kompatibilitätsgründen erhaltenen uralten Befehlssatz, der stark erweitert wurde und dessen Nachteile heute kaum noch relevant sind.


FF HW vs GP HW ist immer eine Abwägung. Video Decoders und Encoders sind weitere Beispiele.
Je mehr eine Funktion genutzt wird und je weniger sie an Transistoren sie kostet, desto sinnvoller ist es.

FF HW wird einfach nur so lange genutzt werden, bis man das wieder in einer Einheit vereinheitlicht. War immer so bisher.

mboeller
2022-11-15, 15:09:29
Fürs Gaming bleibts eben irrelevant, danke basix für die Erklärungen.

yein ...

"früher mal" gab es die verschiedensten Lösungen für Pixel und Vertex-Shading in Hardware und Software und dabei auch einige proprietäre Lösungen die sich dann nicht durchgesetzt haben.

Inzwischen sind GPUs einfach ein "See" aus flexiblen "CU's" + einige Fixed-Funktion Hardware wie TMUs und ROPs.

Die Frage ist jetzt, ist RT eher was für Fixed-Function oder für einen "See aus CUs". Je nachdem ist der Ansatz von Nvidia oder der von AMD zukunftsfähiger.

Persönlich würde ich hier auf AMD tippen, aber dazu weiß ich VIEL zu wenig über RT Bescheid um auch nur halbwegs sicher zu sein.

robbitop
2022-11-15, 15:10:01
Deine Gewichtung ist einfach hier nur anders, bei einer 1080TI verwundert mich das auch nicht. User mit schnelleren Grafikkarten sehen das nun mal etwas anders und investieren in mehr BQ, zb. höheres Upscaling, oftmals sogar gepaart mit VSR.
IMO spielt es keine Rolle, wie schnell die GPU ist. Performance ist wie Geld auf dem Konto. Davon kann man nie genug haben.
Man kann Details höherstellen (auch RT auf Ultra), man kann mit downsampling die BQ erhöhen usw.
Wenn man mit weniger Inputresolution eine vergleichbare BQ erreichen kann wie beim anderen Verfahren mit mehr Inputresolution, dann kann man das sinnvoll nutzen.

...und wie hoch der Acceleration Faktor ist (Performance und/oder Energieverbrauch)
Offensichtlich. In der Regel ist man da schnell bei einem sehr hohen Faktor.

robbitop
2022-11-15, 15:12:24
x86 ist heute RISC mit nem aus Kompatibilitätsgründen erhaltenen uralten Befehlssatz, der stark erweitert wurde und dessen Nachteile heute kaum noch relevant sind.
:rolleyes: Leseverständnis. Ich habe es im Nachsatz, den du sogar zitiert hast(!!), geschrieben, dass es hinter dem Decoder anders aussieht. Und der Emoji zeigt klar, dass es ein Scherz war.

Lesen, denken, posten.


FF HW wird einfach nur so lange genutzt werden, bis man das wieder in einer Einheit vereinheitlicht. War immer so bisher.
Die auch fixed function ist. Die Großteil der GPU besteht aus Fixed Function HW. TMUs und ROPs sind FF seit den 1990ern und sind es heute auch noch. Aus gutem Grund.

TheGood
2022-11-15, 15:12:35
Irgendwo muss man sich immer einschränken. Ich meinte das natürlich relativ gesehen zum Klassenbesten. So deutlich weniger Performance mit RT ist einfach unschön. Ich finde da gibt es nicht viel schön zu reden.

Am Ende regelt es doch der Preis. WEnn du leos prognosen vergleichst (AMD vs nvidia netgen) und das P/L anschaust kommt genau das dabei raus. Du zahlst 1zu1 mehr und kriegste genausoviel mehr RT Power. Wo liegt hier jetzt der vorteil beim Käufer???
Dagegen ist das P/L im Rasterizing von AMD, NVIDIA haushoch überlegen.
WEnn ich mir jetzt eine sinnvolle Graka kaufe heisst die AMD und nicht NVIDIA...

robbitop
2022-11-15, 15:15:17
Am Ende regelt es doch der Preis. WEnn du leos prognosen vergleichst (AMD vs nvidia netgen) und das P/L anschaust kommt genau das dabei raus. Du zahlst 1zu1 mehr und kriegste genausoviel mehr RT Power. Wo liegt hier jetzt der vorteil beim Käufer???
Dagegen ist das P/L im Rasterizing von AMD, NVIDIA haushoch überlegen.
WEnn ich mir jetzt eine sinnvolle Graka kaufe heisst die AMD und nicht NVIDIA...
Aber ggf. will AMD ja auch mal wieder vorne mitspielen (was gut für uns Endkunden wäre wenn die Kräfteverhältnisse ausgeglichen wären). Einfach nur den Preis anpassen zu müssen ist natürlich eine Möglichkeit ja. Aber ist es auch eine nachhaltig gute Lösung?

Tesseract
2022-11-15, 15:22:23
Beim Tema temp. Rekonstruktion ist dies nun nicht mehr gegeben.

natürlich ist es das. die ground truth sind unendlich hoch aufgelöste frames. das ist das ziel (und bei DLSS näherungsweise die trainingsreferenz) eines intelligenten upscalers. DLSS kommt diesem ziel wesentlich näher. klammert man die künstliche schärfe, die nur indirekt mit der eigentlichen rekonstruktion zu tun hat, mal aus produziert DLSS bilder in richtung unendliche auflösung aber mit einer gewissen allgemeinen unschärfe, bei FSR kommt an vielen stellen deutlich die unterabtastung durch. visuell geht DLSS eher in richtung SGSSAA das durch falsche bits zu unscharf ist, FSR geht eher in richtung SMAA.
DLSS hat natürchlich auch fälle die unterabgetastet wirken aber die sehen mit FSR dann normalerweise deutlich schlimmer aus.

Achill
2022-11-15, 15:22:30
IMO spielt es keine Rolle, wie schnell die GPU ist. Performance ist wie Geld auf dem Konto. Davon kann man nie genug haben.
Man kann Details höherstellen (auch RT auf Ultra), man kann mit downsampling die BQ erhöhen usw.
Wenn man mit weniger Inputresolution eine vergleichbare BQ erreichen kann wie beim anderen Verfahren mit mehr Inputresolution, dann kann man das sinnvoll nutzen.


Zur Reflektion, dies ist alles Subjektiv und für dich ggf. wichtiger als für andere. Teile davon sind dann auch gar nicht mehr mess und vergleichbar. Mit diesen Ansatz wirst du für dich i.d.R. Recht haben. Jemand anderes, dessen Kriterien anders gewichtet sind, kommt automatisch zu einen anderen Schluss.

=> Endlose Diskutieren bzw. es "gewinnt" der Teil, der am lautesten/längsten/meisten Schreit - wie auch oft woanders.

TheGood
2022-11-15, 15:23:25
Aber ggf. will AMD ja auch mal wieder vorne mitspielen (was gut für uns Endkunden wäre wenn die Kräfteverhältnisse ausgeglichen wären). Einfach nur den Preis anpassen zu müssen ist natürlich eine Möglichkeit ja. Aber ist es auch eine nachhaltig gute Lösung?

Das ist ja eine Entscheidung von AMD die müssen das beste draus machen und ich bin froh dass es so kommt, denn ansonsten hätten wir jetzt preise wie bei ADA Lovelace und das will doch am Ende keiner hier haben.
Manchmal hab ich da GEfühl, dass aber genau das das Ziel ist. Mir ist dieser Gedankengang aber schlichtweg nicht nachvollziehbar.

PS: So gesehen muss man sagen hat AMD die Preisgestaltung vielelicht tatsächlich am RT ausgelegt und damit bekommen die maximal Befürworter wie wichtig RT doch ist, am Ende sogar von AMD selbst Recht. Oder sie wollte doch nicht so extrem über die STränge schlagen. Wir werden es nie erfahren. Ausser mit einem korrigierten N31 :) (ich glaube nicht an den BUG)

Nakai
2022-11-15, 15:23:33
x86 ist doch CISC oder? Wo ist es gescheitert? :D (und ja: ich weiß, dass hinter dem Decoder alles anders ist ;))

FF HW vs GP HW ist immer eine Abwägung. Video Decoders und Encoders sind weitere Beispiele.
Je mehr eine Funktion genutzt wird und je weniger sie an Transistoren sie kostet, desto sinnvoller ist es.

Ja, aber die grundlegende Funktion bei RT und AI sind immer noch arithmetische Operationen (MUL, ADD, DIV, SFs). Macht es also Sinn diese komplett abzuschirmen und unbrauchbar für General Purpose Aufgaben zu machen? ;)

Das ist nur eine Design-Philosophie. AMD macht es eher auf General Purpose und NV eher dediziert. Was nun der richtige Weg ist, werden wir sehen. Ich für meinen Teil denke eher es geht in Richtung geteilter Rechenknechte, die nicht nur für das eine XOR das andere brauchbar sein. Gleichzeitig wird AMD aber nicht drumherum kommen, extra Logik hierfür zu verbraten.

robbitop
2022-11-15, 15:28:44
Zur Reflektion, dies ist alles Subjektiv und für dich ggf. wichtiger als für andere. Teile davon sind dann auch gar nicht mehr mess und vergleichbar. Mit diesen Ansatz wirst du für dich i.d.R. Recht haben. Jemand anderes, dessen Kriterien anders gewichtet sind, kommt automatisch zu einen anderen Schluss.

=> Endlose Diskutieren bzw. es "gewinnt" der Teil, der am lautesten/längsten/meisten Schreit - wie auch oft woanders.
Ich finde das sind ganz akademische und objektive Kriterien. Je mehr Samples artefaktnormiert akkumuliert werden können, desto besser das Verfahren. Und je besser das Verfahren, desto mehr kann man es ausfahren. Das kann prinzipbedingt kein Nachteil sein sondern ist ein Vorteil. Ob man diesen nutzt oder nicht, steht auf einem ganz anderen Blatt.

Man kann den Vorteil in einer mobile Plattform nutzen um mehr Energie zu sparen. Man kann den Vorteil bei GPUs nutzen, die für das jeweilige Spiel und gewünschte Setting einen Bottleneck darstellen. Nicht jeder Kunde ist ein Top-Dog Desktopkunde. Ganz im Gegenteil: laut Steam Survey ist der überwiegende Anteil des Marktes in der 60 GPU Class. Also unteres Mainstream wo Leistung nicht im Überschuss vorhanden ist.

robbitop
2022-11-15, 15:33:49
Ja, aber die grundlegende Funktion bei RT und AI sind immer noch arithmetische Operationen (MUL, ADD, DIV, SFs). Macht es also Sinn diese komplett abzuschirmen und unbrauchbar für General Purpose Aufgaben zu machen? ;)

Das gilt ja grundsätzlich für alle FF HW. Bestimmte Instruktionen in fixen konfigurationen können durch entsprechende Blöcke deutlich kleiner und effizienter und oft auch schneller gestaltet werden.
Die Entscheidung pro GP HW ist, wenn es sich nicht lohnt also man im Endeffekt mit dem fixierten Transistor/TDP Budget zu einem besseren Ergebnis kommt.
Je mehr RT eingesetzt wird, desto mehr lohnt sich die HW. Und zwar Transistor und TDP normiert.


Das ist nur eine Design-Philosophie. AMD macht es eher auf General Purpose und NV eher dediziert. Was nun der richtige Weg ist, werden wir sehen. Ich für meinen Teil denke eher es geht in Richtung geteilter Rechenknechte, die nicht nur für das eine XOR das andere brauchbar sein. Gleichzeitig wird AMD aber nicht drumherum kommen, extra Logik hierfür zu verbraten.
Ich glaube ehrlich gesagt, dass AMD überrascht wurde von diesem doch relativ schnellen Paradigmenwechsel und die Zunahme der Bedeutung von RT unterschätzt hat. Wir werden sehen ob das stimmt, wenn/ob zukünftige uArchs bei diesem Weg bleiben oder auch umschwenken und wie erfolgreich man dabei ist (relativ zu den Marktteilnehmern). Aktuell muss man sagen, dass man ganz klar im Nachteil ist vom Endergebnis und entsprechend seine SKU günstiger bepreisen muss.

MSABK
2022-11-15, 15:40:15
Boost von 2,5Ghz ist doch gut. Da sollten die Hersteller locker auf 2,9Ghz kommen mit 3x8 Pin.

Nakai
2022-11-15, 16:11:06
Das gilt ja grundsätzlich für alle FF HW. Bestimmte Instruktionen in fixen konfigurationen können durch entsprechende Blöcke deutlich kleiner und effizienter und oft auch schneller gestaltet werden.
Die Entscheidung pro GP HW ist, wenn es sich nicht lohnt also man im Endeffekt mit dem fixierten Transistor/TDP Budget zu einem besseren Ergebnis kommt.
Je mehr RT eingesetzt wird, desto mehr lohnt sich die HW. Und zwar Transistor und TDP normiert.


Ich glaube ehrlich gesagt, dass AMD überrascht wurde von diesem doch relativ schnellen Paradigmenwechsel und die Zunahme der Bedeutung von RT unterschätzt hat. Wir werden sehen ob das stimmt, wenn/ob zukünftige uArchs bei diesem Weg bleiben oder auch umschwenken und wie erfolgreich man dabei ist (relativ zu den Marktteilnehmern). Aktuell muss man sagen, dass man ganz klar im Nachteil ist vom Endergebnis und entsprechend seine SKU günstiger bepreisen muss.

Ich sehe das einfach nicht so in Schwarz und Weiß. AMD hat 300mm² in 5nm und Nvidia deutlich mehr in "4"nm. Die Performance von AMD wird in den einigen Fällen nahe an NVs 4 nm Produkt rankommen. Gibt es wirklich einen Bug der die Taktraten limitiert, dann würde man in einigen Fällen über NV liegen. Würde AMD nun jegliche RT Funktionalität in FFUs packen, wäre man eventuell ein gutes Stück über den 300mm², aber in manchen Fällen anders limitiert.

Es ist und bleibt eine Designphilosophie, mit Vor- und Nachteilen. Aber beim letzten Punkt stimme ich auch in einem gewissen Maße zu. AMDs Designphilosophie mag da auch ein limitierender Faktor sein. Werden wir sehen, aber bzgl. RT und AI hat AMD das nachsehen.

robbitop
2022-11-15, 16:23:17
Die 4 nm sind Marketing 5 nm. Und der Content der MCDs skaliert kaum mit shrinks. Verbleiben primär die "Verluste" für die IF.
Schaut man sich den Transistorcount an:
N31: 58 Mrd insgesamt
AD103: 45,9 Mrd (gegen diese GPU positioniert man sich also ist es offenbar der Vergleich)

N31 hat 26% mehr Transistoren. Mal schauen wie viel schneller man in Raster und wie viel langsamer man in RT ist bzw was im Gesamtperformancerating dabei herauskommt.

dargo
2022-11-15, 16:27:30
IMO spielt es keine Rolle, wie schnell die GPU ist. Performance ist wie Geld auf dem Konto. Davon kann man nie genug haben.

Sehr komischer Vergleich. :D Was willst du mit dem ganzen Geld auf dem Konto? Ins Grab mitnehmen? :tongue: Wenn du Kinder hast die es erben können verständlich, aber sonst? Wenn du schon ins Thema Geld abdriftest... doch man kann sehr wohl genug Geld auf dem Konto haben um völlig gechillt durchs Leben zu gehen. Ich spreche da aus Erfahrung. ;)


Man kann Details höherstellen (auch RT auf Ultra), man kann mit downsampling die BQ erhöhen usw.
Wenn man mit weniger Inputresolution eine vergleichbare BQ erreichen kann wie beim anderen Verfahren mit mehr Inputresolution, dann kann man das sinnvoll nutzen.

Kann es sein, dass du hier gerade Äpfel mit Orangen vergleichst? Oder wie willst du jetzt BQ @Grafikdetails gegen Pixelcount gewichten? :freak:

robbitop
2022-11-15, 16:31:28
Sehr komischer Vergleich. :D Was willst du mit dem ganzen Geld auf dem Konto? Ins Grab mitnehmen? :tongue: Wenn du Kinder hast die er erben können verständlich, aber sonst? Wenn du schon ins Thema Geld abdriftest... doch man kann sehr wohl genug Geld auf dem Konto haben um völlig gechillt durchs Leben zu gehen. Ich spreche da aus Erfahrung. ;)
Ersetze Geld mit Hubraum oder was auch immer du magst. ;)
Sowas wie "zu viel GPU Performance" habe ich noch nie gesehen. Cranke RT Details hoch genug und selbst eine 4090 ist nativ zu langsam.


Kann es sein, dass du hier gerade Äpfel mit Orangen vergleichst? Oder wie willst du jetzt BQ @Grafikdetails gegen Pixelcount gewichten? :freak:
Eyecandy kann aus verschiedenen Richtungen kommen. Raytracing, Geometriedetails (Nanite haut auch ziemlich rein), aufwändige Shader oder halt eine hohe Abtastrate (sowohl räumlich - um das Bild temporal stabil und gleichzeitig scharf zu halten als auch zeitlich: hohe Bewegtschärfe - 1000 fps sind laut Blurbusters das Ziel für nahezu keine Bewegtunschärfe mehr - auch wenn es ineffizient ist :D aber mehr Framerate und Hz bringen immer was in Bezug auf Bewegschärfe).
Das Spektrum an Eyecandy was man im Tausch gegen Performance bekommt ist groß und vielfältig. Dazu gehören dann Äpfel, Orangen und auch Eisbein und Pizza. ;)

bbott
2022-11-15, 16:43:27
x86 ist doch CISC oder? Wo ist es gescheitert? :D (und ja: ich weiß, dass hinter dem Decoder alles anders ist ;))
Nein, CISC und RISC!
Meist CISC Input aber auch RISC Input möglich, die Einteilung ist schon lange nicht mehr gültig, da übergänge fließend sind.

dargo
2022-11-15, 16:46:56
@robbitop

Ich finde deine Argumenationsebene schon etwas seltsam. Du kommst hier mit "Superlativen" bei Grafik um die Ecke auf der einen Seite die nicht mal ein Topdog der jeweiligen Generation erfüllen kann und gleichzeitig verweigerst du weiterhin viel Geld in eine neue Grafikkarte zu investieren (die Gründe dafür kann ich absolut nachvollziehen). Also das was du erwartest lässt sich nicht mal eben in 500€ backen. :D

robbitop
2022-11-15, 16:47:32
Nein, CISC und RISC!
Meist CISC Input aber auch RISC Input möglich, die Einteilung ist schon lange nicht mehr gültig, da übergänge fließend sind.

Schon wieder einer, der nicht versteht, dass das ein Scherz war. Emojis und die Nennung von Decodern. Wo genau ist das Leseverständnisproblem? ;)

robbitop
2022-11-15, 16:49:19
@robbitop

Ich finde deine Argumenationsebene schon etwas seltsam. Du kommst hier mit "Superlativen" bei Grafik um die Ecke auf der einen Seite die nicht mal ein Topdog der jeweiligen Generation erfüllen kann und gleichzeitig verweigerst du weiterhin viel Geld in eine neue Grafikkarte zu investieren (die Gründe dafür kann ich absolut nachvollziehen). Also das was du erwartest lässt sich nicht mal eben in 500€ backen. :D
Ich bin halt geizig (nicht mangels Einkommen) und investiere mein Geld lieber in Sachwerte (davon habe ich einfach langfristig viel mehr - 8% Nominalzins mit Zinseszins anstatt Geld zu verbrennen ist das Minimum). Und wenn ich konsumiere, muss das P/L stimmen. Einfach aus Prinzip. Egal ob 1T, 10T oder 100T EUR. Was bekomme ich dafür in Relation zu bekannten guten Referenzpunkten? Diese Frage stelle ich immer. Aber es geht ja nicht um mich persönlich. ;)

Complicated
2022-11-15, 16:53:12
Was hat Raytracing mit den Tensorcores zu tun?Sorry für den freudschen Versprecher. Gemeint war DLSS und nicht RT, bezugnehmend auf Deine Diskussion mit Hot.

robbitop
2022-11-15, 16:57:56
Sorry für den freudschen Versprecher. Gemeint war DLSS und nicht RT, bezugnehmend auf Deine Diskussion mit Hot.

Ah ok.
Ich hatte zum DLSS 2.0 Launch ein Interview mit einem der DLSS Entwickler gelesen (ich habe die Quelle leider nicht mehr) und kann mich entsinnen, dass er gesagt hat, dass sie bei der Komplexität des NN auf jeden Fall von der verfügbaren Rechenleistung eingeschränkt waren. Sie hatten noch andere Ideen, die aber alle zu teuer waren und das was man jetzt hat passte zum Budget der Tensor Cores. Das war noch zu Turingzeiten und die Welt hat sich weiter gedreht. Ich würde zumindest nicht annehmen, dass die Tensorcores (je nach Modell, Framerate und Auflösung) Däumchen drehen. Aber ja es gibt sicherlich einige Permutationen an SKUs, Auflösung, Framerate wo es überdimensioniert ist. Die Frage ist, um wie viel. Und wie viele Transistoren man sparen könnte. Bis dato scheint NV damit ganz gut zu fahren.

dargo
2022-11-15, 16:59:30
Ich bin halt geizig (nicht mangels Einkommen) und investiere mein Geld lieber in Sachwerte (davon habe ich einfach langfristig viel mehr). Und wenn ich konsumiere, muss das P/L stimmen. Einfach aus Prinzip. Egal ob 1T, 10T oder 100T EUR. Was bekomme ich dafür in Relation zu bekannten guten Referenzpunkten? Diese Frage stelle ich immer. Aber es geht ja nicht um mich persönlich. ;)
Ist ja auch kein Vorwurf. Ich frage mich manchmal auch schon wofür wieder eine neue, teure Graka kaufen? Ich spiele immer weniger, dass es sich tatsächlich lohnt. Dass ich weniger spiele liegt hauptsächlich aber auch an den langweiligen Spielen die tröpfchenweise kommen. Ich meine schaue dich mal um was so alles in letzter Zeit released wurde. Hier ein Remake, da ein Remake. Gähn... ich habe langsam das Gefühl den DEVs gehen entweder neue Spielideen aus oder große Projekte sind mittlerweile dermaßen teuer, dass hier was refinanziert werden muss. Wenn ich das alles so überschlage komme ich vielleicht mal mit viel Glück auf 2-3 Spiele im Jahr die mich auch wirklich fesseln, der Rest ist eher so ne Art Beiwerk welches nie durchgespielt wird. Das ist schon verdammt wenig.

robbitop
2022-11-15, 17:03:41
Und am Ende zockt man die alten Perlen wieder für die man wenig Leistung brauchen. :D
Mein jetziges Projekt ist einen WinXP Retro PC zu bauen, damit das Spektrum von ~1998-2008 wieder problemloser spielbar wird.

w0mbat
2022-11-15, 17:10:35
Auch mit Win11 läuft noch erstaunlich viel, zocke gerade wieder beide Riddick Spiele.

dargo
2022-11-15, 17:31:13
Und am Ende zockt man die alten Perlen wieder für die man wenig Leistung brauchen. :D
Mein jetziges Projekt ist einen WinXP Retro PC zu bauen, damit das Spektrum von ~1998-2008 wieder problemloser spielbar wird.
Also ich bin jetzt nicht so der Nostalgiker. Was einmal oder mehrmals durchgespielt wurde wird nicht wieder angepackt. Eine schon erlebte Story verliert bei mir an Reiz. Ich krame was älteres eigentlich nur für solche Spielereinen wie FSR-Tests kurz mal raus, das wars dann aber auch schon.

robbitop
2022-11-15, 17:35:47
Tja da ist jeder anders. :)
Ich liebe viele alte Perlen und ~2x pro Jahrzehnt schaue ich gern wieder rein. Raff kennt das ;)