AMD/ATI - RDNA3 (Navi 3X, Radeon RX 7000 Serie, tlw. Chiplets, 5/6 nm, 2022) [Archiv] - Seite 31

davidzo

2022-11-15, 18:11:48

Ah ok.
Ich würde zumindest nicht annehmen, dass die Tensorcores (je nach Modell, Framerate und Auflösung) Däumchen drehen. Aber ja es gibt sicherlich einige Permutationen an SKUs, Auflösung, Framerate wo es überdimensioniert ist. Die Frage ist, um wie viel. Und wie viele Transistoren man sparen könnte. Bis dato scheint NV damit ganz gut zu fahren.

Das ganze ignoriert irgendwie den ganzen Bandbreitenbedarf der Tensorcores.
Das Cachesystem kann auf zwei Varianten konstruiert sein oder eben irgendeinen faulen kompromiss dazwischen:
- Mit Tensor Cores eingeplant. Dadurch verschleudert man Diespace und Cachelatenz und extrabandbreite falls die Tensorcores mal nicht ausgelastet sind, weil man die Caches für volle parallele Zugriffe von FP32 Alus und Tensor Cores ausgelegt hat.
- Ohne Tensor Cores, bzw. Latency und Diesizeoptimiert. Hier leidet die Shaderleistung wenn die Tensorcores voll ausgelastet werden. Im Falle von DLSS merkt man das aber nicht weil die FPS eben trotzdem besser werden.
Sieht man ja schön bei Icelake und Golden Cove, wo die caches ein Vielfaches der Bandbreite derer von Zen3 liefern, aber eben auch miese Latenzen haben. Praktisch verpufft diese Stärke bei normalen Integer workloads oder AVX1/2, erst bei VNNI, TMUL, AMX wird die volle Cachebandbreite ausgespielt.

Ich kann AMDs tradeoff gut verstehen. Mit dem L0, L1, L2 hat RDNA2 zwar meist kleinere Caches als Nvidia, aber auch eine Cache Stufe mehr und fast durchgehend bessere Latenzen als Ampere und Ada. Davon profitieren alle Workloads, auch wenn kein FSR benutzt wird.
Die Matrixleistung über eine neue Ansteuerung der nun dual issue fähigen CUs zu lösen braucht damit also weder ungenutzte oder unausgewogene caches oder Bandbreiten, weil es eben über die ALUs läuft, die also gleichzeitig kein FP32 workload anliegen haben.

Kepler Twittert: 256-bit N31?

Könnte natürlich N32 sein.
Wie abwegig ist aber der Gedanke N31 im Sweetspot für Mobile zu verwenden?
Reichen da 256 Bit an Bandbreite?
Würde das mehr bringen als N32 mit höherem Takt laufen zu lassen?

Hatte das vor ein paar Tagen schonmal spekuliert:
- 256bit + stacked Cache könnten sowohl sparsamer als auch schneller sein (mehr TDP budget für die Alus).
https://www.forum-3dcenter.org/vbulletin/showpost.php?p=13167016&postcount=7335

robbitop

2022-11-15, 18:15:38

Dank FSR 2 ist wie basix schon schreibt eine Matrix Unit auch kein Muss. Ob es für ein DLSS/XeSS Äquivalent ausreichen würde bei ähnlicher Frametime wie DLSS? Schwer zu sagen - ich bin da skeptisch.

basix

2022-11-15, 19:39:50

Hatte das vor ein paar Tagen schonmal spekuliert:
- 256bit + stacked Cache könnten sowohl sparsamer als auch schneller sein (mehr TDP budget für die Alus).
https://www.forum-3dcenter.org/vbulletin/showpost.php?p=13167016&postcount=7335

Schneller? Nö, eher nicht. Sparsamer? Vermutlich. Günstiger, da nur 16GByte VRAM? Wahrscheinlich ;)

Als 7900 non-XT wäre das eine interessante Karte. Nur wird hier N32 je nachdem nicht extrem weit hinten liegen und wäre günstiger in der Herstellung.

Also ich bin jetzt nicht so der Nostalgiker. Was einmal oder mehrmals durchgespielt wurde wird nicht wieder angepackt. Eine schon erlebte Story verliert bei mir an Reiz. Ich krame was älteres eigentlich nur für solche Spielereinen wie FSR-Tests kurz mal raus, das wars dann aber auch schon.
Ja, die Stories verlieren ein wenig den Reiz, da man eh schon alles kennt. Und so viel Zeit wie früher habe ich auch nicht mehr oder besser gesagt will sie für etwas sinnvolleres investieren. Bin eh je mehr so unterwegs, dass eine gute Story und das Erlebnis im Vordergrund steht und nicht alle Sidequests abackern. Ich erkunde die Welt zwar gerne, aber es fühlt sich je länger je mehr als "Arbeit" an. The Witcher 3 war hier speziell, da auch Nebenquests oftmals eine kleine und interessante Geschichte zu erzählen haben.

Zwischendurch mal wieder einen alten Schinken anwerfen und mal ne Stunde oder so anzocken mache ich eigentlich nur bei wirklichen Perlen wie der Gothic Serie. Für die Nostalgie :) Oder wenn man neue HW hat, die Settings bis an den absurden Anschlag treiben ;)

DrFreaK666

2022-11-15, 22:16:55

Wurde das schon erwähnt?
HXPR-RX basiert nur auf RSR (FSR 1)

https://videocardz.com/newz/amd-details-hypr-x-a-one-click-performance-boost-technology

HOT

2022-11-15, 22:17:30

Das könnten 2 neue Karten werden, das würde die Theorie erhärten, dass N32 nicht kaputt ist und später mit dem Refresh erst launcht. Damit kann man N21 außer Betrieb nehmen, N22 und N23 weiter nutzen, N31 als 256Bit Cutdown und darüber die 7900XT(X).
Wenn N31 dann die neue Rev. vorliegt gibts dann ab 2.H 23 einen Refresh der ganzen Serie. Fänd ich jedenfalls cool.

also:
N31 XTX -> 7900XTX 24GB
N31 XT -> 7900XT 20GB
N31 XL -> 7800XT 16GB
N22(S?) XT -> 7700XT 12GB
N23(S?) XT -> 7600XT 8GB
N23(S?) XL -> 7600 8GB

Beim Refresh 2.H 23 dann

N31B XT -> 8900XTX 24GB
N31B XL -> 8900XT 20GB
N32 XT -> 8800XT 16GB
N32 XL -> 8700XT 12GB
N33 XT -> 8600XT 8GB
N33 XL -> 8600 8GB

oder so

Iscaran

2022-11-15, 23:00:58

Wenn N31 dann die neue Rev. vorliegt gibts dann ab 2.H 23 einen Refresh der ganzen Serie. Fänd ich jedenfalls cool.

Vielleicht überspring man auch die 8k Seriennamen und bringt gleich in Reminiszenz eine "9800 Pro" :-)

Neurosphere

2022-11-15, 23:17:45

Slipknot79

2022-11-15, 23:22:24

Ich bin halt geizig (nicht mangels Einkommen) und investiere mein Geld lieber in Sachwerte (davon habe ich einfach langfristig viel mehr - 8% Nominalzins mit Zinseszins anstatt Geld zu verbrennen ist das Minimum). Und wenn ich konsumiere, muss das P/L stimmen. Einfach aus Prinzip. Egal ob 1T, 10T oder 100T EUR. Was bekomme ich dafür in Relation zu bekannten guten Referenzpunkten? Diese Frage stelle ich immer. Aber es geht ja nicht um mich persönlich. ;)

Wenn ich dir eine 4090 schenke: Berechne nun P/L. ;)
Wie schenke ich dir eine 4090? Indem ich gegen dich am Finanzmarkt (wo ich tatsächlich unterwegs bin) 2000EUR verliere.

Die Scheichs in Saudi Arabien fahren nicht dicke Lambos, weil sie hart dafür gearbeitet haben, sondern weil sie ihnen einfach geschenkt wurden. :wink:
Eine bessere P/L kann man wirklich nicht mehr bekommen. (y)

HOT

2022-11-15, 23:36:03

Ich kann mir nicht vorstellen das man auf die 8000er Namen geht für einen Refresh, es sei denn die Chips sind wirklich anders. Vermutlich läuft es eher wie jetzt und es kommen xx50er Karten der 7000er Serie.

Garantiert nicht. Neue Generation, neue Namen. Sollte es überhaupt so kommen.

Berniyh

2022-11-15, 23:37:35

horn 12

2022-11-16, 03:09:13

4080 und 7900XT werden sich wohl nix nehmen und im Rasterizer Mässig zueinander konkurrieren,- mit wohl Ähnlichem Verbrauch oder sehr marginalem Unterschied.

Jedoch bei ca. 300 Euro niedrigerem Preis der 7900XT
und beim RayTracing wird jene wohl gute 40% unter der RTX 4080 zu liegen kommen.

robbitop

2022-11-16, 07:28:54

Wurde das schon erwähnt?
HXPR-RX basiert nur auf RSR (FSR 1)

https://videocardz.com/newz/amd-details-hypr-x-a-one-click-performance-boost-technology
Naja es muss über jedes Spiel überstülpbar sein. Das geht nicht mit temporalem Supersampling wie FSR 2/DLSS/XeSS.
HXPR-RX ist halt eine Sammlung von Maßnahmen um Inputlag und Framerate mit einem Klick zu erhöhen. (das kann man sicher customizen)
Entsprechend werden wahrscheinlich Gamesettings reduziert, Auflösung runter (und hier ist RSR deutlich besser als einfach nur die Auflösung zu verstellen), prerendered frames runter und ggf. noch die Nutzung von dem neuen Anti-Lag.

Das ist nur software - so wie der "optimize button" bei geforce experience.

Wenn ich dir eine 4090 schenke: Berechne nun P/L. ;)
Wie schenke ich dir eine 4090? Indem ich gegen dich am Finanzmarkt (wo ich tatsächlich unterwegs bin) 2000EUR verliere.

Die Scheichs in Saudi Arabien fahren nicht dicke Lambos, weil sie hart dafür gearbeitet haben, sondern weil sie ihnen einfach geschenkt wurden. :wink:
Eine bessere P/L kann man wirklich nicht mehr bekommen. (y)
Ich finde das klingt super. Sehr gutes P/L. Ich schicke dir meine Kontodaten. ;D

Aber ehrlich wenn man das konsequent durchzieht, kannst du 10 Jahre (oder mehr) eher aufhören zu arbeiten und dein Leben genießen (und zwar ohne zu knapsen!) oder auch nicht aber hast ein sehr ansehnliches Vermögen aufgebaut. Aber das geht nur mit absoluter Konsequenz im Mindset. Man kann sich ja auch mal was gönnen, aber wenn man immer auch entsprechende Leistung dafür sehen will, wird man wählerisch. ;)

Die neue Radeon klingt vom P/L viel viel interessanter als 4090/4080. Wäre für mich seit 2006 die erste Radeon. Aber ich muss sagen, dass sie kein DLSS kann, hemmt mich doch sehr. Ist zwar propertär aber die Verbreitung ist halt wesentlich besser (noch - und ich denke für die Spiele in der Vergangenheit - die ich ja noch spielen will - wird das auch größtenteils so bleiben) und die Implementierungen sind oft besser. Das ist richtig unschön von Nvidia da alle anderen auszusperren.

stinki

2022-11-16, 09:13:17

Tangletingle

2022-11-16, 09:28:00

Vielleicht überspring man auch die 8k Seriennamen und bringt gleich in Reminiszenz eine "9800 Pro" :-)
Dann doch lieber ne 9500 die ich flashen kann ;D

@stinki: das würde schon zu Anfang vermutet. Imho deutet darauf auch der sehr geringe Abstand beim takt der beiden clockdomains hin. Ich denke, dass der Abstand ursprünglich deutlich, eben mit gut 3ghz+/2,3ghz, größer ausfallen sollte. Ich bezweifle, dass 2,5/2,3ghz den Aufwand bei der Implementierung lohnen. Ist aber natürlich nur ein uneducated guess.

HOT

2022-11-16, 09:32:25

Könnte es sein, dass dieser "Bug" mit den zwei unterschiedlichen Tankt-Domains zu tun hat?
Vielleicht kann das Front-End nicht schneller als 2.5 GHz tackten (ein schnellerer Shader-Tackt über Front-End Tackt bringt vielleicht kaum zusätzliche Performance) oder
die Shader-Clock kann nicht höher als die Front-End Clock werden da es sonst zu Instabilitäten kommt (ein Buffer Synchronisations-Problem vielleicht).
Die Tester werden das in vier Wochen hoffentlich mal genauer betrachten ob es da Probleme gibt und wie die Karten mit höherem Shader-Clock skalieren.
Da wird eher was in den CUs nicht richtig sein, wenn das der Fall ist. Die 2 Taktdomains ergeben eigentlich nur dann Sinn, wenn man das Frontend vom Takt her begrenzen möchte, also beispielsweise das Frontend bei bis zu 2,5GHz läuft und die Shaderabteilung mit 2,8 - 3GHz oder so. Ansonsten hätte man sich das Ganze einfach sparen können und das Frontend wäre mit dem Takt der Shader gelaufen, das hätte 0 Unterschied in der Performance beim jetzigen Produkt gemacht.

DrFreaK666

2022-11-16, 09:35:43

https://abload.de/img/screenshot_20221116_0fdf6m.jpg (https://abload.de/image.php?img=screenshot_20221116_0fdf6m.jpg)

https://abload.de/img/screenshot_20221116_0idf3i.jpg (https://abload.de/image.php?img=screenshot_20221116_0idf3i.jpg)

https://abload.de/img/screenshot_20221116_02wdgk.jpg (https://abload.de/image.php?img=screenshot_20221116_02wdgk.jpg)

https://abload.de/img/screenshot_20221116_02tdqf.jpg (https://abload.de/image.php?img=screenshot_20221116_02tdqf.jpg)

https://abload.de/img/screenshot_20221116_0qpd0c.jpg (https://abload.de/image.php?img=screenshot_20221116_0qpd0c.jpg)

Quelle: https://youtu.be/uNE4wxqK8Wg

Linmoum

2022-11-16, 09:40:09

Fängt jetzt ernsthaft jeder Youtuber mit solchen albernen Hochrechnungen an?

Edit: ok, es ist MLID. Frage beantwortet.

aceCrasher

2022-11-16, 09:42:32

AMD hat 300mm² in 5nm und Nvidia deutlich mehr in "4"nm.
4N =/= N4

4N = Nvidias Marketing Name für einen angepassten N5
N4 = TSMCs Name für ihre 4nm node

Faustregel ist dass wenn das N hinten steht, ist es ein NV Prozess. Siehe 12FFN.

basix

2022-11-16, 10:33:23

Da wird eher was in den CUs nicht richtig sein, wenn das der Fall ist. Die 2 Taktdomains ergeben eigentlich nur dann Sinn, wenn man das Frontend vom Takt her begrenzen möchte, also beispielsweise das Frontend bei bis zu 2,5GHz läuft und die Shaderabteilung mit 2,8 - 3GHz oder so. Ansonsten hätte man sich das Ganze einfach sparen können und das Frontend wäre mit dem Takt der Shader gelaufen, das hätte 0 Unterschied in der Performance beim jetzigen Produkt gemacht.

Ich glaube du verdrehst da was ;)

AMD hat gesagt, dass sie Frontend limitiert sind. Deswegen läuft das Frontend auf einem höheren Takt. Man sollte immer da ansetzen, wo was limitiert und man IPC gewinnt ;) Und bei den Shader-Cores hat man generell deutlich mehr Energieeinsparpotential, da insgesamt viel fetter hinsichtlich Fläche und Verbrauch als das Frontend. Oder anders rum kann man auch sagen, dass höherer Takt beim Frontend den Verbrauch nicht massiv steigern wird.

Deswegen macht es so wie es AMD macht schon Sinn. Wenn die Shader Cores limitieren würden, dann würde ich die 2 Clock-Domains nicht machen. Weil wie oben beschrieben, ist das Frontend hinsichtlich Energieverbrauch im Verhältnis zu den Shader Cores vermutlich nicht so relevant.

dildo4u

2022-11-16, 11:23:39

Laut dem hat AMD die Preise anhand der RT Performance gewählt.

https://www.3dcenter.org/news/news-des-15-november-2022

Netzteil Empfehlung für Asus Customs Karten.

https://videocardz.com/newz/asus-recommends-850w-power-supplies-for-geforce-rtx-4090-radeon-rx-7900-xtx-systems

BavarianRealist

2022-11-16, 11:52:02

Laut dem hat AMD die Preise anhand der RT Performance gewählt.

https://www.3dcenter.org/news/news-des-15-november-2022

Interessant aus den Tests der 4080FE ist, dass sich diese anscheinend kaum übertakten lässt, obwohl sie wenig Energie aufnimmt, d.h. kaum weiteres Leistungspotenzial mehr herauszuholen wäre. Vermutlich ist der AD103 eher auf Effzienz getrimmt, weil er auch für die Highend-Notebook-GPUs vorgesehen sein dürfte.

Es wird sich zeigen, wieviel OC-Potenzial dagegen tatsächlich noch im Navi31 steckt, denn dieser dürfte kaum bei TDP=350Watt sein Limit haben. Von daher kennen AMD und deren AIBs nun die Potenziale von AD103 bzw. 4080, sodass man sich nun preislich in Ruhe positionieren kann, vermutlich am Ende für 7900XTX-OC womöglich sogar oberhalb von 4080.

basix

2022-11-16, 12:24:20

Die 4080 ist kaum effizienter als die 4090. Aber ja, Ada scheint sehr gut nach unten zu skalieren. Bei Mobile müsste man aber noch die künstliche 0.87V Untergrenze auf z.B. 0.7V setzten, dann sind die Dinger extrem effizient.

//differentRob

2022-11-16, 12:41:22

Dass die 4080er sich nicht mehr OC lässt deutet einfach darauf hin, dass nVidia den Betriebspunkt bereits an der Kotzgrenze betreibt und man als User zuhause das PowerTarget locker um 20% runterschrauben kann ohne dass man was bei der Leistung merkt.

robbitop

2022-11-16, 12:43:30

Das heißt nur, dass mit der Spannung nicht mehr geht. Nicht zwangsweise dass der Betriebspunkt (Spannungs/Frequenzkurve) an der Kotzgrenze ist. ;)

BavarianRealist

2022-11-16, 12:43:45

robbitop

2022-11-16, 12:45:38

Muss man mal schauen. Nvidia hat schon eine krass starke Marke. Gibt mehr als genug Leute, die kaufen nichts anderes als Nvidia. (das gilt ja für viele Marken im Consumerbereich)
Man kann nur hoffen, dass es zu viel war. Wenn das trotz dessen durchgeht, wird es immer weiter rauf gehen mit den Preisen. Man kann es ja machen. :(

dargo

2022-11-16, 12:50:11

Man kann nur hoffen, dass es zu viel war. Wenn das trotz dessen durchgeht, wird es immer weiter rauf gehen mit den Preisen. Man kann es ja machen. :(
Für denjenigen der eh keine Geforce kauft gehen die Nvidia-Preise am Allerwertesten vorbei. ;)

robbitop

2022-11-16, 12:54:40

Nicht direkt. Denn die Wettbewerber werden das auch zu nutzen wissen. Natürlich etwas reduziert - aber am Ende hebt die Flut alle Boote. ;)
Schlecht für den Konsumenten. Man kann die Preiskämpfe aus der Vergangenheit nur vermissen.

dildo4u

2022-11-16, 12:57:37

Ebend AMD orientiert sich an Nvidia RT Performance die nehmen das was sie maximal nehmen können.
Der Plan ist genau wie gegen Intel das sie irgendwann bessere Margen haben als der Gegner.

DrFreaK666

2022-11-16, 12:58:30

Die 7900XTX mag in RT etwas schwächer in RT sein, aber ansonsten lässt sie die 4080 in allen Dimensionen hinter sich:

- höhere Rasterization
- bessere Video-Outputs
- und vor allem 24GB statt nur 16GB

...da bezweifle ich, dass sich eine 4080 besser verkauft, außer sie ist billiger.

Die 4080 ist von Nvidia und AMDs Karten sind Stromschlucker und deren Treiber scheiße...
Das "wissen" zumindest viele, weil war ja schon immer so.

Ich hoffe dass NV mal auf die Schnauze fällt.

OgrEGT

2022-11-16, 12:59:17

Es gibt sicherlich eine Grenze für Graka Preise die wenn sie nachhaltig und dauerhaft überschritten wird Marktanteile kosten wird da sich die Kunden die Produkte nicht mehr leisten können/wollen...
4000 5000 10000?

Ich glaube wir nähern uns langsam dieser Grenze wenn man sieht wie aktuell das Thema die Diskussion bestimmt...

robbitop

2022-11-16, 13:02:26

Man tastet sich dreist und iterativ an die Grenze und testet diese wahrscheinlich regelmäßig neu aus. :D Die Yachten und Ferraris bezahlen sich nicht von allein.

DrFreaK666

2022-11-16, 13:06:16

Jensen muss seine Lederjacken-Collection erweitern :D

dargo

2022-11-16, 13:09:15

Man Nvidia tastet sich dreist und iterativ an die Grenze und testet diese wahrscheinlich regelmäßig neu aus. :D Die Yachten und Ferraris bezahlen sich nicht von allein.
fixed for you

Bisher habe ich keine Preissteigerung bei RDNA3 gesehen. Was dank der Inflation eh schon etwas merkwürdig ist und sogar mehr Speicher diesmal verbaut wird. Eventuell macht sich das Chipletdesign hier doch auf den Endkundenpreis positiv bemerkbar.

Linmoum

2022-11-16, 13:13:16

Exxtreme

2022-11-16, 13:35:39

Ich sehe da eine deutliche Preissteigerung bei der 7900XT im Vergleich zur 6800XT (was erste im Endeffekt ist).

Ja. Wobei man schauen wird was diese Karten am Ende tatsächlich kosten. Kann sein, dass die UVP nicht zu halten ist.

gruntzmaker

2022-11-16, 13:37:43

Man tastet sich dreist und iterativ an die Grenze und testet diese wahrscheinlich regelmäßig neu aus. :D Die Yachten und Ferraris bezahlen sich nicht von allein.

Wer sich daran stört, für den werden die RTX 4000er und RX7000er Karten ja auch den Gebrauchtmarkt entsprechend attraktiver werden lassen.

Zumal die Charge an Mining Karten sicher längst die Hände gewechselt haben ;).

Exxtreme

2022-11-16, 13:38:57

Man tastet sich dreist und iterativ an die Grenze und testet diese wahrscheinlich regelmäßig neu aus. :D Die Yachten und Ferraris bezahlen sich nicht von allein.
Ich glaube, die versuchen die Scalper-Preise zu kassieren. Nur ist die Situation nach dem Mining-Crash jetzt eine andere. :)

basix

2022-11-16, 13:44:12

Ich sehe da eine deutliche Preissteigerung bei der 7900XT im Vergleich zur 6800XT (was erste im Endeffekt ist).

Der Performanceabstand zwischen 7900XT und 7900XTX ist größer als der zwischen 6800XT und 6900XT. AMD hat die Karte halt nur x900XT genannt und nicht x800XT.

Bei 7900XT vs. 6800XT ist der P/L Anstieg wirklich nicht so prickelnd. Evtl. reicht es inkl. Euro-Kurs für einen "neutralen" Anstieg, heisst P/L bleibt ähnlich mit deutlich mehr Performance. Jedoch sicher die bessere Situation als bei der 4080 vs. 3080

Das gilt allerdings alles nur, wenn man UVPs miteinander vergleicht. Marktpreise waren lange deutlich überhöht.

Interessant wird es mMn eh erst mit AD104, AD106, AD107, N32 und N33. Das sind die Karten, wo mehr Leute daran interessiert sein werden. Und sie sind direkte Replacements der Vorgänger-Generation:
- AD104 ~3080 Ti
- AD106 ~3070
- AD107 ~3060 (8GB anstatt 12GB)
- N32 ~6950XT
- N33 ~6750XT (8GB anstatt 12GB)

Mal schauen, wie hier die Preise ausfallen.

Lehdro

2022-11-16, 13:48:26

Ich sehe da eine deutliche Preissteigerung bei der 7900XT im Vergleich zur 6800XT (was erste im Endeffekt ist).

Eben, bei der 6000er war das Topmodell zu teuer im Vergleich mit dem Cutdown und nun ist es genau andersherum: Auch AMD hat eingesehen das man bessere Margen fährt wenn man das ganze Portfolio hochzieht. Nur ist da der Preis bei AMD derzeit noch nach oben begrenzt - 999 $. Also kostet nun der Salvage mehr. Einfache Rechnung wenn NV die Preise eh so ansetzt wie sie es tun - völlig überzogen. AMD nimmt das auch gerne mit, wenn der Markt NV die Absolution dazu schon erteilt hat!

dargo

2022-11-16, 14:36:22

Das gilt allerdings alles nur, wenn man UVPs miteinander vergleicht. Marktpreise waren lange deutlich überhöht.

Richtig... die 6xx$ UVP der 6800XT konnte man sich in die Haare schmieren. Die Straßenpreise der Customs waren bei 1000€ und nicht selten auch drüber. Die UVP war höchstens was fürs Papier, mehr nicht.

Lurtz

2022-11-16, 15:33:00

Die 7900XTX mag in RT etwas schwächer in RT sein, aber ansonsten lässt sie die 4080 in allen Dimensionen hinter sich:

- höhere Rasterization
- bessere Video-Outputs
- und vor allem 24GB statt nur 16GB

...da bezweifle ich, dass sich eine 4080 besser verkauft, außer sie ist billiger.
Die 16 GB sind doch völlig ausreichend diesmal.

Ich denke nVidia wird am Ende wieder damit durchkommen. Man hat zu viel Geld auf Raytracing in Hardware verwettet und wird seine Marktmacht am PC nutzen um Raytracing in die Spiele zu kriegen und zu bewerben. Da sind ein paar Milliönchen und Mitarbeiter für Entwicklungsstudios Peanuts gegen das was die RT-Einheiten in den Chips kosten...

Berniyh

2022-11-16, 15:33:12

statt nur 16GB
Das nennt sich dann wohl spät-graphische Dekadenz, oder wie?

Auf der einen Seite wird über hohe Preise gejammert, auf der anderen Seite spricht man bei 16GB VRAM schon von "nur". :tongue:

BavarianRealist

2022-11-16, 16:04:13

Das nennt sich dann wohl spät-graphische Dekadenz, oder wie?

Auf der einen Seite wird über hohe Preise gejammert, auf der anderen Seite spricht man bei 16GB VRAM schon von "nur". :tongue:

Es braucht nur einige Benchmarks, die empfindlich auf die 16GB reagieren, und schon sieht es besser aus.

Zudem: mehr sieht immer gut aus und 24GB sind sicher "zukunftssicherer"

Beides muss AMD entsprechend bewerben...wer weiß, womöglich verfängt es ;)

gruntzmaker

2022-11-16, 16:54:57

Die 16 GB sind doch völlig ausreichend diesmal.

Ich denke nVidia wird am Ende wieder damit durchkommen. Man hat zu viel Geld auf Raytracing in Hardware verwettet und wird seine Marktmacht am PC nutzen um Raytracing in die Spiele zu kriegen und zu bewerben. Da sind ein paar Milliönchen und Mitarbeiter für Entwicklungsstudios Peanuts gegen das was die RT-Einheiten in den Chips kosten...

Cyberpunk hat etwa 263 Millionen Euro in der Entwicklung gekostet (wobei da nicht das Gepatche nach Release mit dabei war - irrelevant, siehe weiter unten).

Aber in den Geschäftsberichten, die ich von Nvidia finde, sind die Operating Expenses eher als "billion" also im Milliarden zu sehen und da in einem guten dreistelligen Bereich.

Zwischenergebnis wäre also: Ja, Du könntest recht haben.

Imho ist das trotzdem kein Grund für die Entwicklungsstudios jetzt nur das zu machen, was Nvidia will.

Denn dazu muss man das auch mal aus Sicht der Studios sehen. Die würden dann eine Wette gegen die großen Konsolenhersteller eingehen (~ 50 Millionen Hardware Einheiten alleine bei Xbox Series X und Playstation 5) und gleichzeitig gegen die AMD Kunden beim PC Bereich.

Zusätzlich gibt es mit FSR eine Open Source Lösung, die das Ganze noch riskanter werden lässt. Denn die Spielehersteller konkurrieren miteinander. Deswegen bleibt FSR auf Dauer auch bei Nvidia Sponsoren Titeln nicht lange fern.

Und dann ist der imho entscheidende letzte Punkt. Die hohen Preise für 4090 und 4080 machen aus beiden Karten keine Produkte für Hinz und Kunz. Weswegen ich ja schon AMDs 7900 Strategie als gelungen fand. Das stößt eben vom Preis her disruptiv genau da rein, wo es weh tut. Die Rasterleistung ist mglw schneller als bei der 4080 und in Raytracing versucht man auf Ampere Level zu kommen.

Wenn FSR 3 dann mit KI Unterstützung läuft (und etwas anderes ist nicht zu vermuten) wird man damit auf ein Level kommen, dass Nvidia nur mit der Vergraulung eigener Kunden abschütteln kann. Den Ampere Käufern eben.

Und deswegen wird imho Nvidia keine Sponsoren Titel bezahlen, die Ampere / AMD draußen lassen kann. Wäre ökonomisch unsinnig und der Imageschaden kaum mehr gut zu machen.

aufkrawall

2022-11-16, 17:08:54

Ich denke nVidia wird am Ende wieder damit durchkommen. Man hat zu viel Geld auf Raytracing in Hardware verwettet und wird seine Marktmacht am PC nutzen um Raytracing in die Spiele zu kriegen und zu bewerben. Da sind ein paar Milliönchen und Mitarbeiter für Entwicklungsstudios Peanuts gegen das was die RT-Einheiten in den Chips kosten...
AD103 ist ja kaum größer als Navi 31 Compute- + "I/O"-Die, bei vermutlich ähnlicher Leistung in Raster und viel besserer RT-Performance.
AMD wirkt da technologisch leider ziemlich abgeschlagen. Das Overdrive-RT in CP77 dürfte ein Massaker werden (wie sinnvoll man es finden wird, sei dahin gestellt).

2022-11-16, 17:25:39

BavarianRealist

2022-11-16, 17:26:43

AD103 ist ja kaum größer als Navi 31 Compute- + "I/O"-Die, bei vermutlich ähnlicher Leistung in Raster und viel besserer RT-Performance.
AMD wirkt da technologisch leider ziemlich abgeschlagen. Das Overdrive-RT in CP77 dürfte ein Massaker werden (wie sinnvoll man es finden wird, sei dahin gestellt).

AD103 ist 1/3 größer und im teureren NX4, dafür fallen aber die MCDs weg und das MCM-Konstrukt. Und man hat nur 16GB Ram drauf, dafür aber den viel teureren GDDR6X.

Beide werden Ihre Produkte gezielt anders vermarkten: Nvidia in Richtung RT und AMD in Richtung Rasterisation (Anwendungen!) und hier dann vor allem den größeren VRam. Von einem Preiskrieg haben in dem Preissegment beide nichts, Nvidia dürfte es aber mehr Schmerzen machen, ist das Segment für sie wichtiger.

UND: die neue Warnung von Micron heute, dass sie jetzt die Produktion kürzen würden, dürfte letztlich auch den GDDR6-Speicher günstiger machen...wovon zumindest dann AMD und Nvidia profitieren dürften, oder?

Lurtz

2022-11-16, 17:55:35

bbott

2022-11-16, 17:59:44

rumpeLson

2022-11-16, 18:02:39

Die 16 GB sind dieses Mal wieder genau so ausreichend wie die 10 GB der 3080. Die wie Igor schon in seinem Video erwähnt krass zurückfällt. Praktisch hat die 4080 16 GB damit wieder eine Haltbarkeit von genau 1 Generation.
Ganz so schlimm wird sich das vermutlich eher nicht darstellen. Zum Release der 3080 waren die 8GB der 2080 bereits grenzwertig und es gab ausgewählte Szenarien, in denen diese bereits limitierten. Die 3080 hatte zum Release bereits lediglich 2GB bzw. 20% Puffer auf diese Grenze.
Jetzt bei Release der 4080 mit 16GB sind die 10GB der 3080 eine ähnliche Grenze wie vor 2 Jahren die 8GB der 2080. Die 12GB der 3080 Ti limitieren noch nicht. Damit hätte die 4080 6GB bzw. ~38% Puffer. Klar, mehr RAM für eine Karte dieser Leistungsklasse (für diesen Preis..) wäre definitiv schöner, aber so wirklich zum Problem wird das glaube ich nicht.

Edit: Dass man dann aber direkt bei der 4070 Ti (oder wie auch immer der finale Name wird) nur noch 12GB RAM bietet, ist frech und verheißt für die kleineren Karten nichts Gutes.

bbott

2022-11-16, 18:06:08

Die 16 GB sind dieses Mal wieder genau so ausreichend wie die 10 GB der 3080. Die wie Igor schon in seinem Video erwähnt krass zurückfällt. Praktisch hat die 4080 16 GB damit wieder eine Haltbarkeit von genau 1 Generation.

Ist doch gut für NV, dann können Sie die 3080 Ti mit 18/20GB nächstes Jahr verkaufen. :biggrin:

Die RAM Hersteller müssen endlich für NV die 1,5GB Module verfügbar machen, damit NV dann in 1 GB bzw. 0,5 GB Schritten die Grafikkarten anbieten kann.

2022-11-16, 18:45:14

Welches Video ist das?

https://www.youtube.com/watch?v=zwSrdp3xViE&ab_channel=igorsLAB

ChaosTM

2022-11-16, 18:51:06

Die "nur" 16GB der 4080er sind das einzige das mir etwas Sorgen macht. Werde die Karte wieder ~ 4-5 Jahre haben. Sollte aber reichen.
Zu viel Speicher kann man nie haben aber die 90er wollte ich mir nicht antun. 700€ mehr + neues Netzteil.
Wollte eigentlich auf die 7900XTX warten. Impulskauf :D

rumpeLson

2022-11-16, 18:54:42

aufkrawall

2022-11-16, 18:55:32

Die 16 GB sind dieses Mal wieder genau so ausreichend wie die 10 GB der 3080. Die wie Igor schon in seinem Video erwähnt krass zurückfällt. Praktisch hat die 4080 16 GB damit wieder eine Haltbarkeit von genau 1 Generation.
Ist ziemlicher Quatsch. Die 10GB waren bereits zu Launch bzw. kurz danach teilweise zu knapp. Die Situation ist jetzt mit 16GB deutlich anders. Bislang sind auch Spiele mit neuerer UE-Version eher ziemlich übervorsichtig, was die Belegung von VRAM angeht. Fortnite liefe mit HD-Texturen + RT vermutlich auf einer hypothetischen 6GB-Karte. :freak:
Oder siehe auch Plague Tale, braucht trotz der ganzen Photogrammetrie auch kaum VRAM.

bbott

2022-11-16, 18:59:49

Werde die Karte wieder ~ 4-5 Jahre haben.
Solange wird die RT Performance sicher (auch) nicht ausreichen, bei ~ 4-5 Jahre wäre mMn Raster Performance und RAM ausschlaggebender ;)

ChaosTM

2022-11-16, 19:12:34

Mal abwarten wie sich die dicke RDNA3 bei 4k schlägt. Ich tippe auf ~ +10%.
RT ist mir ehrlich gesagt nicht so wichtig. DLSS(3) hingegen schon. Und ja, AMD wird sicher bald was ähnliches nachliefern.
Bei der Effizienz werden sie wohl ca. gleichauf liegen.

Tangletingle

2022-11-16, 20:41:19

Warum gehts hier eigentlich dauernd um die 4080? Geht doch in den review thread.

OgrEGT

2022-11-17, 22:39:43

Wenn ich mal die Werte für die 4080 FE von CB dazu nehme (bei Igors Test zur 4080 hab ich nur CB77 RTon Zahlen gesehen), und auf die Leistung der 6950XT von Igiors Werten normiere, dann passt sich die 4080 genau zwischen 7900XTX und 7900XT...

Man sieht aber schon den Unterschied der N5/4N GPUs im Vergleich zu N7... viel besser bei Perf/W bzw. FP32/W... holen aber weniger Perf aus den theoretischen FP32 TF heraus... Das ist dann wohl der Preis für besseres Perf/W bzw. FP32/W...

https://www.forum-3dcenter.org/vbulletin/attachment.php?attachmentid=81488&stc=1&d=1668720941

Mordekai2009

2022-11-17, 23:09:40

cZw8qg0bN5Q

Bei 1:08

Eine Grafikkarte im Dual-Slot-Bauweise, ist kurz und hat 8 Pin PCIe-Strombuchse (maximal 225 Watt). Maximal 2 Lüfter. Sieht schick aus.

EDIT:
Dazu ein Screenshot ->
https://abload.de/img/amd_teaser_rx7000seri8le65.png

[MK2]Mythos

2022-11-17, 23:24:15

Eine neue Nano? :love2:

basix

2022-11-17, 23:27:02

Oder N32? :D

[MK2]Mythos

2022-11-17, 23:35:08

Und die mittlere Karte hat ja nur 1x8 und 1x6Pin. Das wird doch nicht die 7900XT sein, oder?

iamthebear

2022-11-17, 23:56:51

Wurde das schon erwähnt?
HXPR-RX basiert nur auf RSR (FSR 1)

https://videocardz.com/newz/amd-details-hypr-x-a-one-click-performance-boost-technology

Also so wie ich das verstanden habe ist das einfach nur ein Profil wo dann automatisch RSR, Anti Lag und Boost aktiviert werden.

Anti Lag: Spricht meiner Meinung nach nichts dagegen das Default an zu lassen. Der Input Lag wird besser und die framerate nicht nennenswert schlechter.

RSR: Dies wird erst dadurch aktiv wenn in einem Spiel eine niedrigere Outputauflösung ausgewählt wird als der Monitor unterstützt. Also z.B. man wählt 1440p aus und der Monitor kann 4K: Dann macht das Upscaling die GPU basierend auf dem FSR 1 Algorithmus statt dem Monitor selbst das Upscaling zu überlassen.
Kann in den meisten Fällen eingeschaltet bleiben. Ausnahmen sind nur z.B. Fälle wo der Monitor kein 4K120 darstellen kann. Oder mit sehr schwachen GPUs wonder Performance Overhead bei 4K zu schlimm wird (z.B. 6500 XT).
Wenn man FSR 2.0 nutzt um von 1080p Renderauflösung auf 4K Ausgabeauflösung hochzuskalieren dann wird RSR sowieso nicht genutzt. Dasselbe gilt für Spiele ohne Vollbildmodus.

Radeon Boost ist meiner Meinung nach das einzige zweifelhafte Feature. Erstens will ich auch in der Bewegung scharfe Bilder haben und nicht nur wenn ich passiv in die Ecke starre und zweitens fehlt mir da ein bisschen der Input auf welche Framerate man denn hoch will. Der typische Casual Gamer braucht jetzt nicht unbedingt 160fps. Stabile 60-80fps zu halten wäre da sinnvoller.
Da halte ich es sinnvoller gleich im Spiel selbst eine Zielframerate einzustellen egal ob mit viel Bewegung oder wenig.

basix

2022-11-17, 23:59:01

Mythos;13169617']Und die mittlere Karte hat ja nur 1x8 und 1x6Pin. Das wird doch nicht die 7900XT sein, oder?

Hm, gleiche alle drei? N31, N32 und N33? :)

Der_Korken

2022-11-17, 23:59:11

Die 6+8pin-Karte scheint ein kürzeres PCB zu haben als die 2x8pin-Karte, weil die Stromstecker weiter links angebracht sind. Ich würde so auf Anhieb tippen, dass das die 7800XT ist, die irgendwas um die 250W haben wird. Die Karte mit dem einzelnen 8pin wird dann wohl eine N33-Karte sein.

Neurosphere

2022-11-18, 00:08:41

Warum ist das Design nun anders als bei der Vorstellung? Siehe Lüfter und scheinbar auch Kühlfinnen.

Linmoum

2022-11-18, 00:12:37

Da fehlen auch die roten Finnen. Sieht einfach nach den RDNA2 Referenz aus.

basix

2022-11-18, 00:13:24

jupp, habe ich mir nun auch gedacht

Der_Korken

2022-11-18, 00:16:33

Die RDNA2-Karten hatten an der Vorderseite (also da wo die Stromstecker rausgucken) einen roten Rand und das graue "X" um den mittleren Lüfter war ausgeprägter. Es sind also nicht einfach RDNA2-Referenzkarten.

Neurosphere

2022-11-18, 01:03:15

Welche Karte soll die mit 8 + 6 Pin sein?

Die 7900 XT braucht 8 + 8 Pin bei 300 Watt. Eine 7800 XT oder wie auch immer, falls das die kleineren Varianten sein sollen, wirkt mit 8 + 8 Pin aber massiv overpowert.

Will man nach unten erstmal mit RDNA 2 auffrischen?

DrFreaK666

2022-11-18, 03:42:07

Raff nennt die AI-Kerne Matrix-Kerne. Hat er sich verplappert oder liegt er falsch? (ab ca. 11:55)

Cdk_sF-kWuY

dildo4u

2022-11-18, 06:25:34

Matrix ist eine allgemeine Bezeichnung für solche KI Berechnungen.
Das ist kein AMD Branding.

https://www.newscientist.com/article/2340343-deepmind-ai-finds-new-way-to-multiply-numbers-and-speed-up-computers/

HOT

2022-11-18, 06:31:33

Das sind sicher die 7800xt,7700xt und 7600xt. Mal sehen, wie sie sind.

horn 12

2022-11-18, 06:38:52

Rechne stark hast ins Schwarze getroffen.
Auszumachen an der Schwarz angeschrägten,- ins Rot Trifftende Radeon Schrift.
Dies hat die RDNA 3 Serie Neu!

M4xw0lf

2022-11-18, 06:54:41

Mythos;13169604']Eine neue Nano? :love2:

Bestenfalls eine Micro

dargo

2022-11-18, 07:46:48

Mythos;13169604']Eine neue Nano? :love2:
Nö... eher N31, N32 und N33 Referenz. ;)

Linmoum

2022-11-18, 07:58:12

Das ist definitiv keine N31-Referenz. Die roten Finnen fehlen und die Lüfter sind die alten RDNA2.

robbitop

2022-11-18, 08:30:38

Raff nennt die AI-Kerne Matrix-Kerne. Hat er sich verplappert oder liegt er falsch? (ab ca. 11:55)

https://youtu.be/Cdk_sF-kWuY
Laut dem AMD Deep Dive hat RDNA 3 CU gar keine Matrix Kerne sondern nutzt einfach nur die Vektor FPUs für Matrixoperationen wie bisher. Es gibt jetzt ein paar neue Instruktionen, die ein bisschen mehr Leistung bringen. Aber Matrix Cores hat das Ding nicht.

bestMAN

2022-11-18, 08:55:05

Ich nehm die ganz links - soll meine 6700 XT ersetzen, die der Sohn erben wird.
Sind Zeiträume bekannt, wann es die zu kaufen gibt, oder zumindest nähere Specs?

nordic_pegasus

2022-11-18, 09:07:02

Ich nehm die ganz links - soll meine 6700 XT ersetzen, die der Sohn erben wird.
Sind Zeiträume bekannt, wann es die zu kaufen gibt, oder zumindest nähere Specs?

Willkommen im Forum

AMD hat das gleiche Problem wie Nvidia, nämlich volle Lager mit Chips der aktuellen Grafikkarten-Generation. Darum launchen beide Hersteller zunächst nur die neue Top-Modelle, welche Leistungs- und Preistechnisch oberhalb des bestehenden Line-ups liegen. Alles darunter wird wohl erst angekündigt, wenn die Lager leer(er) sind.

Gleichwohl gibt es genug Spekulationen zu Navi32 (wohl auch Chiplet-Design, 5+6nm) und Navi33 (Monolith, 6nm).

Anfang Januar ist CES in Las Vegas, vielleicht kommt ja hier noch eine Ankündigung abseits der erhofften Ryzen 7000 mit 3D-Cache von AMD.

HOT

2022-11-18, 09:18:29

Nö... eher N31, N32 und N33 Referenz. ;)

Das ist die große Frage. Die Grosse wird N31XL mit 16GB sein. Die 256Bit-Variante war ja schon durchgesickert.

Iscaran

2022-11-18, 11:55:40

Laut dem AMD Deep Dive hat RDNA 3 CU gar keine Matrix Kerne sondern nutzt einfach nur die Vektor FPUs für Matrixoperationen wie bisher. Es gibt jetzt ein paar neue Instruktionen, die ein bisschen mehr Leistung bringen. Aber Matrix Cores hat das Ding nicht.

Ist halt die Frage was nennt man so und warum man das so nennt?

Meist nennt man ja "Core" irgendwas, das in einem viereckigen Block in einem Funktions-Schaubild auftaucht.
Offiziell hat AMD auf den Folien zu RDNA 3 (https://www.planet3dnow.de/cms/wp-content/gallery/rdna3_launch/AMD_RDNA3_24.png) auf jeden Fall "viereckige Blöcke" die es "AI Accelerator" nennt.

Ist ein AI Accelerator nun ein "Core" oder eine "Unit"? Oder eben "..."?

Complicated

2022-11-18, 12:19:06

Es gibt bei AMD Matrix-Kerne Hardware in RDNA3:

https://www.forum-3dcenter.org/vbulletin/attachment.php?attachmentid=81498&d=1668766904

gruntzmaker

2022-11-18, 12:54:57

Es gibt bei AMD Matrix-Kerne Hardware in RDNA3:

https://www.forum-3dcenter.org/vbulletin/attachment.php?attachmentid=81498&d=1668766904

Vielleicht kann man RDNA3 erst nach Einführung von FSR 3.0 beurteilen. Ich denke, das wird eine große Rolle spielen in den nächsten Jahren bei AMD. Möglicherweise auch für RDNA2. Die wäre mit Raytracing Fähigkeiten und Anforderungen in der breiten Masse ja völlig obsolet sonst.

robbitop

2022-11-18, 12:55:22

Wie gesagt - beim deep dive hat AMD gesagt, dass die "HW" nur neue Instruktionen für die Vektor FPUs sind und dass normal über die Vector FPUs die Matritzen rechnet.

Vielleicht kann man RDNA3 erst nach Einführung von FSR 3.0 beurteilen. Ich denke, das wird eine große Rolle spielen in den nächsten Jahren bei AMD. Möglicherweise auch für RDNA2. Die wäre mit Raytracing Fähigkeiten und Anforderungen in der breiten Masse ja völlig obsolet sonst.

Mein Bauchgefühl sagt mir, dass das im besten Fall so gut funktioniert wie DLSS 3 FG. Also im Bestfall pari mit Ada in der Hinsicht. (ich irre mich hier natürlich aber auch gern im Sinne des Wettbewerbs)

gruntzmaker

2022-11-18, 12:58:25

Wie gesagt - beim deep dive hat AMD gesagt, dass die "HW" nur neue Instruktionen für die Vektor FPUs sind und dass normal über die Vector FPUs die Matritzen rechnet.

Das wäre ziemlich enttäuschend. Dann wäre mit breitem "Frame Generation" Einsatz AMD ziemlich abgeschlagen, als Konkurrenz regelrecht ausgeschaltet. Eine KI Fähigkeit ist denke ich in den nächsten Jahren zwingend ein Do or die Feature. Intel wird es ja auch ausbauen.

Complicated

2022-11-18, 13:03:03

Also die Vorstellung hat doch massives FPS-Uplift gezeigt mit FSR 3.0 -wie das umgesetzt wurde ist nur noch nicht bekannt.

robbitop

2022-11-18, 13:12:59

Exakt - auch bei NV wissen wir nicht, wie viel der FG Teil bei den TCs kostet. Da scheint ein Großteil über dedizierte HW zu laufen (optical flow accelerator).

amdfanuwe

2022-11-18, 13:14:15

I
Ist ein AI Accelerator nun ein "Core" oder eine "Unit"? Oder eben "..."?
Ansteuerlogik, die die bisherige angepasste FPU Unit für AI nutzt und damit den GPU Core erweitert.

DrFreaK666

2022-11-18, 13:15:02

wie schonmal von mir erwähnt: vielleicht fährt AMD in Zukunft zweigleisig wie Intel. "Normales" FSR2 für alle Karten, besseres FSR 2 für RDNA3 dank AI-Cores.

Berniyh

2022-11-18, 15:21:12

https://www.phoronix.com/news/AMD-GPUOpen-RRA-Open-Source

This summer AMD announced the Radeon Raytracing Analyzer "RRA" as part of their developer software suite for helping to profile ray-tracing performance/issues on Windows and Linux with both Direct3D 12 and the Vulkan API. Initially the RRA 1.0 release was binary-only but now AMD has made good on their "GPUOpen" approach and made it open-source.

evtl. zeigt das ja ein bisschen auf wohin die Reise gehen könnte bzgl Raytracing bei AMD. ;)

robbitop

2022-11-18, 15:34:14

Ist natürlich immer gut wenn man den Entwicklern tools zur Optimierung an die Hand geben kann. :)

Linmoum

2022-11-18, 15:58:37

Der_Korken

2022-11-18, 16:35:14

Dass sie die offizielle TBP/TDP als Grundlage nehmen wollten, deutet für mich zumindest eher darauf hin, dass die XTX ihre 355W auch ausschöpft. Dachte man bei der 4090 mutmaßlich auch, bis dann die Realität kam.

Und/oder dass man vielleicht selber mit weniger Verbrauch geplant hat, dann aber doch nach oben korrigiert musste, weil man sonst die Leistungsziele (und geplanten Preis) nicht erreicht hätte. 355W sind schon sehr krumm. Den Vergleich mit der 4090 hat man sich dann lieber gespart.

davidzo

2022-11-18, 16:38:11

Es gibt bei AMD Matrix-Kerne Hardware in RDNA3:

Sieht man schon an den 2,7x dass es keine extra Alus sind. Das passt ziemlich genau zu der 2,7x Rohleistung in Tflops die ja auch schon seit nem guten Jahr als Leak herumschwirrt. Dafür braucht es keine extra Einheiten.

2,0x bringt ja alleine schon VODP, also die zweite Alu für "Dual Issue". Die restlichen 0,7x sind wohl durch Takt und Caches.

Dual Issue ist ja für normalem FP32 workload schon etwas eingeschränkt da die Alus zeitgleich eine wave32 bekommen müssen. Matrixoperationen sind ja eher noch ein kleineres subset von dual SIMD. Es wäre also eher merkwürdig gewesen wenn die Matrixleistung ausgerechnet nicht von den verdoppelten Alus pro CU profitieren würde.

Daher ist es leider entweder oder und nicht sowohl als auch wie bei NV. Also entweder FP32 oder Matrix-workloads pro CU oder WGP und nicht gleichzeitig wie bei NV. Wobei ich wie gesagt glaube dass auch Nvidia keine volle Auslastung von TensorCores neben vollem FP32 workload hinbekommt weil dann auch die Caches und Bandbreite limitieren.

Virtual

2022-11-18, 16:40:23

https://www.computerbase.de/2022-11/radeon-rx-7900-xt-x-amd-legt-sich-die-rtx-4080-als-ersten-rdna-3-gegner-zurecht/#update-2022-11-18T15:41

Interessant, AMD hatte augenscheinlich laut einer der unzähligen Footnotes (die scheinbar nicht rausgenommen wurde) sogar einen Vergleich mit der 4090 hinsichtlich Perf/Watt geplant. Kann man jetzt darüber spekulieren, warum sie das letztendlich doch komplett weggelassen haben.

Dass sie die offizielle TBP/TDP als Grundlage nehmen wollten, deutet für mich zumindest eher darauf hin, dass die XTX ihre 355W auch ausschöpft. Dachte man bei der 4090 mutmaßlich auch, bis dann die Realität kam.
Die 4090 schöpft auch ihr Limit aus. Die praktisch gemessene Leistungsaufnahme hängt vom Spiel und weiteren Faktoren ab. Ebenso wird auch die 7900XTX nicht ständig im Limit hängen. Ein Präsentationsfolien-Vergleich wird dieser komplexen Fragestellung, welche Karte ist effizienter, einfach nicht gerecht. AMD macht sich damit nur leicht angreifbar und du würdest bei einem wachsweichen Vergleich bestimmt nachsetzen.

Vielleicht solltest du dich einfach mal entspannen und über deine 4090 freuen. Weshalb du immer Haare in der AMD-Suppe suchen musst, kann ich nicht nachvollziehen.
Offensichtlich war dir beim Kauf der 4090 das NV-Premium egal, dann hast du mit der 4090 nix falsch gemacht. Schneller geht es dieses Jahr nicht!

Complicated

2022-11-18, 16:53:14

2,0x bringt ja alleine schon VODP, also die zweite Alu für "Dual Issue". Die restlichen 0,7x sind wohl durch Takt und Caches.
Da jede der ALUs einen eigenen Matrix Beschleuniger hat, ist diese Interpretation für mich nicht passend. Die Dual-CU hat 4 solche Matrix Beschleuniger insgesamt. Deine Rechnung macht die ja völlig überflüssig.

Nakai

2022-11-18, 17:47:01

Da jede der ALUs einen eigenen Matrix Beschleuniger hat, ist diese Interpretation für mich nicht passend. Die Dual-CU hat 4 solche Matrix Beschleuniger insgesamt. Deine Rechnung macht die ja völlig überflüssig.

Sind das wirklich dedizierte Einheiten? Oder sind das nur Issue-Ports die solche Instruktionen entgegen nehmen?

robbitop

2022-11-18, 18:30:13

Bitte den deep dive lesen. Der Beschleuniger sind nur Instruktionen die etwas mehr pro FLOP für AI herausholen. Rest ist die Verdopplung und Takt. 2x von 2,7 ist die Verdopplung der FPUs pro CU, dann die Takterhöhung plus die Instruktionen plus das mehr am CUs landet man in Summe bei 2,7x.

Complicated

2022-11-18, 18:36:13

Was heisst warum diskutiert wird?
Laut dieser Rechnung hätten ja die neuen Instruktionen gar keine Wirkung:
2,0x bringt ja alleine schon VODP, also die zweite Alu für "Dual Issue". Die restlichen 0,7x sind wohl durch Takt und Caches
Auch in Deiner Rechnung machen die Instruktionen einen Verdächtig kleinen Anteil aus von den 2,7X - die hätte man sich ja dann fast sparen können.

Aus dem Deepdive:
Along with the extra 32-bit floating-point compute, AMD also doubled the matrix (AI) throughput as the AI Matrix Accelerators appear to at least partially share some of the execution resources. New to the AI units is BF16 (brain-float 16-bit) support, as well as INT4 WMMA Dot4 instructions (Wave Matrix Multiply Accumulate), and as with the FP32 throughput, there's an overall 2.7x increase in matrix operation speed.Also zusätzlich zu den doppelten FP32 kommen doppelter Matrix-Durchsatz, was letztendlich bei 2,7x Matrix Berechnungen landet - ohne Takt oder Cache Verbesserungen. Reine Architektur.

robbitop

2022-11-18, 19:21:05

Und im Abschnitt darunter wird erläutert dass es aus der Verdopplung der FPUs, dem Takt, der CU Steigerung und Steigerung pro Takt kommt. Die Instruktionen bringen nicht enorm viel ja.

Complicated

2022-11-18, 19:37:04

Und genau darunter steht man solle ihn auf eben das hin nicht zitieren - Du tust es dennoch ;)
"appears"=scheint. Das ist keine Erläuterung und auch nicht schlüssig nach dem vorher ausgeführten.

robbitop

2022-11-18, 19:49:18

Complicated

2022-11-18, 19:55:27

Er glaubt ja selber nicht, dass es schlüßig ist. Mir auch nicht. Und einfach anzunehmen, dass die Instruktionen nichts bringen ist der einzige Weg um das für schlüssig zu halten - das ist doch eher "sich zurechtbiegen".

robbitop

2022-11-18, 19:56:40

Er sagt nicht dass es nicht schlüssig ist sondern dass es seine Annahme ist.

Wie gesagt ist die 2,7x aus dem Grund der Steigerung der FP Leistung schlüssig.
Wenn man sich die Operationen von NVs TC anschaut ist das MUL und dann ADD. Das können die FPUs bereits. Das FP16 Format ist bereits mit 2x Durchsatz unterstützt. Wo da jetzt außerhalb echter Matritzen anstatt Vektoren ein großer speedup herkommen soll ist für mich nicht klar.

Die Folie mit den „beyond 3 GHz“ fandest du ja auch nicht schlüssig und am Ende war sie doch echt. ;)

Die slide sagt hier sogar „Vectorunit as AI accelerator“
https://hothardware.com/photo-gallery/Article/3259?image=big_vector-unit-matrix.jpg&tag=popup

TheGood

2022-11-18, 20:08:58

Es ist eher wirr was der gute Mann in dem Deep Dive schreibt.
Zuerst schreibt er:
- Along with the extra 32-bit floating-point compute, AMD also doubled the matrix (AI) throughput

Dann schreibt er klar dass der FP32 output und der Matrix output sich beide um den Faktor 2,7 verbessert haben.
- as with the FP32 throughput, there's an overall 2.7x increase in matrix operation speed.

Anschliessend schreibt er dass er vermutet dass diese 2,7x Erhöhung sich so und so zusammenfügen.
That 2.7x appears to come from the overall 17.4% increase in clock-for-clock performance, plus 20% more CUs and double the SIM32 units per CU. (But don't quote me on that, as AMD didn't specifically break down all of the gains.)

Und jetzt können wir raten. AMD selbst und wie auf dem Showbild zu sehen spricht von expliziten AI Beschleuniger. (ka ob es die in RDNA2 gab, aber würde ich mal vermuten, ansonsten schreibt man ja nicht von 2,7x Performance erhöhung.

Am Ende zusammengefasst heisst dass dass der FP32 und die MAtrix operationen jeweils um 2,7x beschleunigt wurden.

In den Folien (Seite 22 und 23) wird ja beschreiben dass der Vector GPR entweder als SIMD oder als Matrix läuft. Beide Varianten wurden um 2,7x beschleunigt. Das ist die Antwort.

Complicated

2022-11-18, 20:09:38

Dann sind wir uns ja einig, dass hier keine Taktsteigerungen und Cache-Verbesserungen enthalten sind beim Faktor 2,7.

https://cdn.wccftech.com/wp-content/uploads/2022/11/AMD-RDNA-3-Navi-31-GPU-Unveil-_10-1456x819.png.webp

Edit: Ich habe die RX-821 von dieser Folie gefunden wo AMD das erläutert
https://ir.amd.com/news-events/press-releases/detail/1099/amd-unveils-worlds-most-advanced-gaming-graphics-cards
RX-821 – Based on AMD internal measurements, November 2022, comparing the Radeon RX 7900 XTX at 2.505GHz boost clock with 96 CUs issuing 2X the Bfloat16 math operations per clocks vs. the RX 6900 XT GPU at 2.25 GHz boost clock and 80 CUs issue 1X the Bfloat16 math operations per clock.*Es ist tatsächlich 255 MHz mehr Takt enthalten in der Rechnung. Und die CUs sind auch schon mitgerechnet.
Ich nehme alles wieder zurück :)
Verglichen wurde allerdings die 6900 XT

robbitop

2022-11-18, 20:11:20

Jep die Vektorunit kann beides „vector unit as AI accelerator“. Und man hat jetzt halt einfach viel mehr Durchsatz als rdna2.

TheGood

2022-11-18, 20:11:35

Sicher kann man alles anzweifeln. Und ja gelesen habe ich es - aber dennoch scheint es mir schlüssig zu sein (Erhöhung der FP Leistung kommt ja fast dahin; und AMD verglich so ziemlich alles nicht pro Takt oder pro CU sondern 7900xtx vs 6950xt; und 2,7x ist ziemlich krumm und viel zu wenig für eine echte Beschleunigung; und es gibt auch kein Zwischending zw Vektor und Matrix) und er war auf dem Event.

Du bist der beste... vor paar Tagen machst mir noch weiss, dass die Beschleuningen von Raytracing via FF HW von 2,0x ne Welt ist und hier ist es auf einmal nichts.
Danke für den Lacher des Tages :D

ABer die Diskussion brauchen wir nicht weiterführen, am Ende machen beide FF HW, halt auf anderem Wege, einmal integriert und einmal separat.

TheGood

2022-11-18, 20:13:49

Dann sind wir uns ja einig, dass hier keine Taktsteigerungen und Cache-Verbesserungen enthalten sind beim Faktor 2,7.

https://cdn.wccftech.com/wp-content/uploads/2022/11/AMD-RDNA-3-Navi-31-GPU-Unveil-_10-1456x819.png.webp

Weiss nicht ob ich dem zustimmen würde... Es ist am Ende doch so, da der Matrix beschleuniger ja im shader core ist, profitiert er automatisch von mehr shader cores und mehr takt.

robbitop

2022-11-18, 20:18:55

Du bist der beste... vor paar Tagen machst mir noch weiss, dass die Beschleuningen von Raytracing via FF HW von 2,0 x ne Welt ist und hier ist es auf einmal nichts.
Danke für den Lacher des Tages :D

ABer die Diskussion brauchen wir nicht weiterführen, am Ende machen beide FF HW, halt auf völlig anderem Wege, einmal integriert und einmal separat.

Jetzt vergleichst du Äpfel mit Birnen. Durchsatz und Gesamtperformance (in rt). Raytracing und AI.

Eine Matrix Unit schafft pro Takt schnell mal knapp eine Größenordnung mehr Durchsatz bei Matritzen ggü den Vektor fpus für wenige Prozent an Mehrtransistoren pro SM. Und nicht nur 2,7x (zumal die sehr wahrscheinlich einfach nur aus der gesteigerten Gesamt FP Leistung kommen, die allem nutzt aber auch locker eine Größenordnung mehr Transistoren kostet). Das heißt aber auch nicht, dass das 2x Gesamtperformance bringt. Und es ist halt rein für AI Anwendungen, was bei Spielen ja bis auf DLSS nich kaum zum Einsatz kommt.

Die FF RT HW hingegen bringt bei RT in Spielen auch richtig Gesamtleistung.

Den FF Ansatz sehe ich bei RDNA3 nur sehr bedingt. Matrix zu Fuß auf den Vektor FPUs und viel langsamer als echte Matrixunits und nicht gleichzeitig nutzbar. BVH Traversal zu Fuß aber mit Optimierungen vs FF Unit. Kein Coherency sorting.

Mal sehen wie sich N31 schlägt vs AD103 pro Transistor. N31 hat immerhin 26% mehr Transistoren und AD103 ist noch leicht teildeaktiviert. Transistornormiert sieht es vorab so aus als wenn ad103 vorn liegt - also war der Weg mit den FF Units nicht der falscheste offenbar.

davidzo

2022-11-18, 20:50:50

Auch in Deiner Rechnung machen die Instruktionen einen Verdächtig kleinen Anteil aus von den 2,7X - die hätte man sich ja dann fast sparen können.

Die neue Wave Matrix Multiply accumulate Instruktion braucht man um überhaupt die zweite 32bit SIMD Alu nutzen zu können. Sonst wäre die performance pro WGP identisch mit Navi21.
Es sind ja auch nicht 4CU per WGP, sondern eben nur 2. Praktisch ist das wohl eine SIMD64 Unit pro CU, statt bisher einer SIMD32, nur ist sie halt sehr flexibel und verhält sich bei nutzung von VOPD wie 2x 32b oder bei WMMA eben wie 2x BF16.

Also zusätzlich zu den doppelten FP32 kommen doppelter Matrix-Durchsatz, was letztendlich bei 2,7x Matrix Berechnungen landet - ohne Takt oder Cache Verbesserungen. Reine Architektur.

Nein, nicht zusätzlich sondern entweder oder.

Zuerst schreibt er:
- Along with the extra 32-bit floating-point compute, AMD also doubled the matrix (AI) throughput

Dann schreibt er klar dass der FP32 output und der Matrix output sich beide um den Faktor 2,7 verbessert haben.
- as with the FP32 throughput, there's an overall 2.7x increase in matrix operation speed.

Kann man so schreiben, kann man auch missinterpretieren. Navi21 konnte das auch nicht gleichzeitig, weil jedem klar war dass BF16 auf den SIMD32 CUs läuft. Genau dasselbe haben wir nun auch wieder. Nur eben 2,7x schneller weil 2,7x mehr SIMD32 Leistung bereitsteht. Das ist also entweder FP32 oder BF16.

Am Ende zusammengefasst heisst dass dass der FP32 und die MAtrix operationen jeweils um 2,7x beschleunigt wurden.

In den Folien (Seite 22 und 23) wird ja beschreiben dass der Vector GPR entweder als SIMD oder als Matrix läuft. Beide Varianten wurden um 2,7x beschleunigt. Das ist die Antwort.
"Jeweils" ist halt irreführend weil das suggeriert dass da verschiedene Einheiten verdoppelt wurden, dem ist aber nicht so. Die Aluleistung wurde verdoppelt und das so dass diese Verdopplung sowohl in FP32 Workloads nutzbar ist als auch in BF16.

Du bist der beste... vor paar Tagen machst mir noch weiss, dass die Beschleuningen von Raytracing via FF HW von 2,0x ne Welt ist und hier ist es auf einmal nichts.

RNDA2 mit doppelt so vielen CUs und demselben Mehrtakt in 5nm hätte auch die 2,7x geschafft. Pro 32bit SIMD bzw pro Tflop hat sich also nichts getan. Vermutlich hätte RDNA2 mit 160CU aber andere scalingprobleme (power, area?), weshalb man sich für diese Lösung entschieden hat.

RT ist da sogar noch schlimmer. 50% mehr Performance pro CU bedeutet effektiv 50% weniger RT performance pro 32bit SIMD32 bzw. pro Tflop.
Im Verhältnis zur Rohleistung ist die RT performance also sogar gesunken im Vergleich zu RDNA2. Mit den traversal flags kann man da vielleicht wieder etwas herausholen, aber von der Auslegung ist RDNA3 noch weniger ein RT -Beschleuniger als RNDA2.

Complicated

2022-11-18, 21:07:53

Mein Edit unter der Folie ist möglicherweise untergegangen:

Edit: Ich habe die RX-821 von dieser Folie gefunden wo AMD das erläutert
https://ir.amd.com/news-events/press-releases/detail/1099/amd-unveils-worlds-most-advanced-gaming-graphics-cards
RX-821 – Based on AMD internal measurements, November 2022, comparing the Radeon RX 7900 XTX at 2.505GHz boost clock with 96 CUs issuing 2X the Bfloat16 math operations per clocks vs. the RX 6900 XT GPU at 2.25 GHz boost clock and 80 CUs issue 1X the Bfloat16 math operations per clock.*
Es ist tatsächlich 255 MHz mehr Takt enthalten in der Rechnung. Und die CUs sind auch schon mitgerechnet.
Ich nehme alles wieder zurück :)
Verglichen wurde allerdings die 6900 XT

robbitop

2022-11-18, 21:27:59

davidzo
Laut AMD Benchmarks ist man immerhin bei gleicher bzw leicht gestiegenerer RT Leistung. Scheint also „auf der Straße“ auf den ersten Blick in der Hinsicht keine Regression zu geben.

davidzo

2022-11-18, 21:54:48

davidzo
Laut AMD Benchmarks ist man immerhin bei gleicher bzw leicht gestiegenerer RT Leistung. Scheint also „auf der Straße“ auf den ersten Blick in der Hinsicht keine Regression zu geben.

Habe ich auch nicht behauptet.
Ich habe festgestellt dass die FP32 Leistung um 2,7x gesteigert wurde. Die Raytracingleistung wurde nicht im selben Maße angehoben. Dadurch hat sich die Balance aus Shaderleistung vs RT mehr in Richtung Shaderpower verschoben und nicht Richtung RT.

Sicher der Vergleich ist schwierig da sich FP32 Tflops leicht messen lassen aber die Rt performance von der jeweiligen Implementierung abhängt. Aber selbst AMD behauptet nicht durch den support von DXR flags mehr als 2,0x heraus zu bekommen, sondern sie sprechen selber von insgesamt +50% pro CU.

gruntzmaker

2022-11-18, 22:19:29

Habe ich auch nicht behauptet.
Ich habe festgestellt dass die FP32 Leistung um 2,7x gesteigert wurde. Die Raytracingleistung wurde nicht im selben Maße angehoben. Dadurch hat sich die Balance aus Shaderleistung vs RT mehr in Richtung Shaderpower verschoben und nicht Richtung RT.

Sicher der Vergleich ist schwierig da sich FP32 Tflops leicht messen lassen aber die Rt performance von der jeweiligen Implementierung abhängt. Aber selbst AMD behauptet nicht durch den support von DXR flags mehr als 2,0x heraus zu bekommen, sondern sie sprechen selber von insgesamt +50% pro CU.

Die RX7900XTX wird imho vielleicht knapp 3090/3090 Ti beim Raytracing schaffen, mehr nicht.

Beim Raster ist man stärker. Da dürfte die RTX 4080 nicht ohne Grund das Ziel sein.

Imho ist die RX 7000er Serie ohnehin über den Preis kommend eine starke Sache. Jedoch eben kein "Halo-Produkt". Langweilig und vernünftig eben.

ChaosTM

2022-11-18, 22:29:22

Die neuen Radeons werden sicher nicht verschenkt. Die XTX wird sich preislich knapp unter der 4080er einordnen.

Langlay

2022-11-18, 22:33:03

Die neuen Radeons werden sicher nicht verschenkt. Die XTX wird sich preislich knapp unter der 4080er einordnen.

Aktuell müsste es für ~1150€ losgehen. (999$ *0,97=969,03€; 969,03€*1,19 = 1153,15€)

DeadMeat

2022-11-18, 22:37:48

Aktuell müsste es für ~1150€ losgehen. (999$ *0,97=969,03€; 969,03€*1,19 = 1153,15€)

Was bis auf einen Euro auch aktuell der Preis auf dem DE AMD Shop ist für die 6900XT mit ihren 999$. Aber wie realistisch es war dort eine zu bekommen wissen wir ja. Davon ausgehend würde ich schätzen das die "kleinen" Customs bei 1300€ herum starten.

-=Popeye=-

2022-11-18, 22:38:14

Wohl eher 1249,-€ wie bei der 6900XT.

ChaosTM

2022-11-18, 22:39:28

Ich dachte, man geht von ca 24% Mehkosten aus ? € vs $ (die Rechnung stammt aus diesem Forum)

1150 wäre natürlich interessanter, und nochmals deutlicher unter der 80er.

DeadMeat

2022-11-18, 22:47:30

Wohl eher 1249,-€ wie bei der 6900XT.

Das ist der aktuelle Preis der 6950 XT welche 1.239 Euro UVP hatte und noch immer für aktuell 1.267,39 € verkauft wird.

Vermutlich auch nicht unrealistisch wäre aber eine unübliche DE Preiserhöhung (ausgehend der letzten Generation).

Davon ausgehend wären die großen Customs klar im 4080 Bereich. Die aktuell ab 1530€ startet und lieferbar ist.

Langlay

2022-11-18, 22:58:56

Das ist der aktuelle Preis der 6950 XT welche 1.239 Euro UVP hatte und noch immer für aktuell 1.267,39 € verkauft wird.

Die 6950XT hat aber auch 1099$ Listenpreis. Das würde nach obiger Rechnung 1268,57€ machen. Also quasi auch der gleiche Preis wie im AMD Shop. Die werden den Umrechnungskurs wohl auch nur täglich aktualisieren, ich hab jetzt gerade den aktuellen genommen.

-=Popeye=-

2022-11-18, 23:03:04

Hmm... wenn man sieht das man aktuell eine 4080 für ~1600,-€ bekommt und eine 4090 mindestens 800,-€ mehr als die 4080 kostet... wäre eine 7900XTX für ~1300,-€ echt ein Schnäppchen.

ChaosTM

2022-11-18, 23:08:12

Meine 4080er kostet 1449 und ich bin mir ziemlich sicher, dass sich das als "Normalpreis" einpendeln wird. Die Nachfrage ist eher durchwachsen.

Eine XTX sollte also unter 1,2k kosten. In Euro - natürlich abhängig von der Leistung, die wir immer noch nicht kennen.

Langlay

2022-11-18, 23:11:53

7900XTX für 1200€ könnte ich schon schwach werden. Aber erstmal Reviews abwarten. Ne Referenz würde mich auch reichen, kommt ja eh ein Wasserkühler drauf.

-=Popeye=-

2022-11-18, 23:22:33

Ja mal abwarten, nV hat Performancetechnisch verdammt stark geliefert, mal sehen was AMD so bringt.

horn 12

2022-11-19, 01:13:05

Ne 7900XTX Kostet auf AMD.com 1190 Euro (Italien mit 22% Mewst)
und somit in Germany zum Launch im AMD Eigenem Shop unter 1150 Euro
Je nachdem wieviel der Euro Zulegt oder erneut eben abnimmt

horn 12

2022-11-19, 08:48:14

https://www.youtube.com/watch?v=ExwqZ_vk2AY

Könnte Interessant werden
Duell 4080 gegen 7900XTX mit Benchmarks

Langsam muss von AMD auch mal was kommen...

PS:
Kann auch Fake sein Heute das Video um 11:30

DrFreaK666

2022-11-19, 08:56:45

rein schauen und 20% glauben

robbitop

2022-11-19, 09:08:21

Habe ich auch nicht behauptet.
Ich habe festgestellt dass die FP32 Leistung um 2,7x gesteigert wurde. Die Raytracingleistung wurde nicht im selben Maße angehoben. Dadurch hat sich die Balance aus Shaderleistung vs RT mehr in Richtung Shaderpower verschoben und nicht Richtung RT.

Sicher der Vergleich ist schwierig da sich FP32 Tflops leicht messen lassen aber die Rt performance von der jeweiligen Implementierung abhängt. Aber selbst AMD behauptet nicht durch den support von DXR flags mehr als 2,0x heraus zu bekommen, sondern sie sprechen selber von insgesamt +50% pro CU.

Wenn du RT Leistung sagst meinst du Box Intersection rate oder? Das ist ja nur ein Teil der RT Pipeline, der nicht notwendigerweise limitieren muss (und es vermutlich auch nicht tut). Den Rest muss rdna3 auf den fpus rechnen. Insofern wurde der restliche Teil der RT Pipeline damit auch schneller. :)

TheGood

2022-11-19, 10:08:31

Wenn du RT Leistung sagst meinst du Box Intersection rate oder? Das ist ja nur ein Teil der RT Pipeline, der nicht notwendigerweise limitieren muss (und es vermutlich auch nicht tut). Den Rest muss rdna3 auf den fpus rechnen. Insofern wurde der restliche Teil der RT Pipeline damit auch schneller. :)

Ich gehe da mal praktsich ran.
RAsterizing wurde um 1,55 beschleunigt
RT wurde um 1,65-1,7 beschleunigt

das sind die overall werte, also würde ich mal sagen, dass die Theorie von Davidzo so nicht haltbar ist.

Da alles in den Shader Cores läuft ist aus meiner Sicht der Vergleich so durchaus machbar, denn RT profitiert jaautomatisch auch von mehr clock und mehr shader cores. DAs ist die gleiche thematik wie bei den Matrix Cores.

Complicated

2022-11-19, 10:40:23

Wenn man 2. Generationen in die Zukunft schaut, was AMD mit dem Chiplet Design vor hat, dann ist dieser Ansatz auch der perspektivisch bessere Ansatz um die Performance zu skalieren.

Ein zweites Chiplet durchbricht eine Barriere an max. möglichen ALUs, die ansonsten nur durch einen Shrink machbar ist. Da die Shrinks bekannterweise immer kleiner und in größeren Abständen erfolgen und kommende Belichtungsverfahren die Chipgrößen schrumpfen lassen gibt es Limits mit monolithischen Chips. Wenn ein Chiplet -Design einmal etabliert ist, dann kann man beginnen nach FFUs zu schauen und diese in eigenen Chiplets nutzen und anbinden, damit die ALUs wieder schlanker werden und somit mehr verbaut werden können.

TheGood

2022-11-19, 10:45:43

Jetzt vergleichst du Äpfel mit Birnen. Durchsatz und Gesamtperformance (in rt). Raytracing und AI.

Eine Matrix Unit schafft pro Takt schnell mal knapp eine Größenordnung mehr Durchsatz bei Matritzen ggü den Vektor fpus für wenige Prozent an Mehrtransistoren pro SM. Und nicht nur 2,7x (zumal die sehr wahrscheinlich einfach nur aus der gesteigerten Gesamt FP Leistung kommen, die allem nutzt aber auch locker eine Größenordnung mehr Transistoren kostet). Das heißt aber auch nicht, dass das 2x Gesamtperformance bringt. Und es ist halt rein für AI Anwendungen, was bei Spielen ja bis auf DLSS nich kaum zum Einsatz kommt.

Die FF RT HW hingegen bringt bei RT in Spielen auch richtig Gesamtleistung.

Den FF Ansatz sehe ich bei RDNA3 nur sehr bedingt. Matrix zu Fuß auf den Vektor FPUs und viel langsamer als echte Matrixunits und nicht gleichzeitig nutzbar. BVH Traversal zu Fuß aber mit Optimierungen vs FF Unit. Kein Coherency sorting.

Mal sehen wie sich N31 schlägt vs AD103 pro Transistor. N31 hat immerhin 26% mehr Transistoren und AD103 ist noch leicht teildeaktiviert. Transistornormiert sieht es vorab so aus als wenn ad103 vorn liegt - also war der Weg mit den FF Units nicht der falscheste offenbar.

Ich sehe hier keinen Vergleich mit Äpfel und Birnen. Ich vergleiche für eine Funktion die performance Verbesserungen. 2,0x ist 2,0x und 2,7x ist 2,7x.

Die einzige Frage die man sich hier stellen muss ist, was ist der tatsächliche Nutzen dieser Beschleunigungsverbesserung. Bei Grakas wären das die FPS.

RDNA hat dedizierte MAtrix Units wie auch dedizierte Ray Accelerators. Diese Einheiten wurden unabhängig von den FP Einheiten beschleunigt im Vergleich zu RDNA2
Diese Einheiten stecken halt mit in den Shader Cores drin und sind nicht separat.
RDNA RT hat offensichtlich weniger Funktionen in hardware für RT als Nvidia.
Von daher, das hab ich vorhin ja schon geschrieben, haben beide Ansätze FF HW. Der eine macht es halt umfangreicher und separate, der andere versucht Dinge zu kombinieren.
Praktisch scheint der Weg von AMD ggf. in eine Sackgasse zu laufen, da sich das Verhältnis des Workloads im ShaderCore nicht verschiebt sondern grundsätzlich mehr wird und wie du sagst eine Parallelverarbeitung so nicht möglich aus (ausser dadurch steigt die Auslastung der FP32 einheiten, welche ja bei reinem rasterizing oft leer laufen, siehe Ampere und auch ADA)

Ich bin wirklich gespannt wie gut oder schlecht die RT PErformance zur 4080 wird. Wenn man sich die aktuellen Benchmarks der PCGH dazu anschaut und im durchschnitt 1,7x dazurechnet würde es nicht so schlecht aussehen. Was stimmt mich optimistisch, die Heavy Workloads von Cyberpunk 2077 und Dying LIght 2, die höchsten Performanceverbesserung bringen. laut PCGH.

Ich sehe noch nicht, dass die 4080, wie RAFF es gepflegt hat zu sagen, die 4080 den Boden mit der 7900XTX in RT aufwischt. Der Abstand wird sich im Durschschnitt, auf den aktuellen PCGH benchmarks gerechnet bei 30%-35% einpendeln (30%-35% ist bei mir kein aufwischen...). Woher kommt das? AMD hat offensichtlich daran gearbeitet in der Performance konsistenter zu sein, als bisher.

Welches Konzept zukunftsträchtiger ist, keine Ahnung. Das wissen wir mit RDNA4 :D
Ich glaube schon auch, dass extra parallel geschalteten RT Einheiten auf Dauer der richtige WEg sind da diese effektiver sind wegen der parallelverarbeitung.

Zu den transistoren, das ist doch wie Schall und Rauch, weil keiner weis wieviel Fülltransistoren drin sind... Aber ja, mit irgendeiner Zahl muss man es ja vergleichen, aber da sind wir näher bei den Äpfel mit Birnen vergleich dran als bei Performanceverbesserungsangaben :)

Iscaran

2022-11-19, 11:20:44

Vor 15 Jahren (https://www.computerbase.de/forum/threads/im-test-vor-15-jahren-gestatten-radeon-hd-3850-die-135-euro-wunderwaffe.2114281/page-3), kostete die 2t-stärkste Karte im Sortiment noch 135 €. Mit 2% Inflation pro Jahr sind wir bei ~185 € 2022, mit 3% Inflation pro Jahr bei 217 €.

Ich hoffe ja wirklich darauf, dass sich die "mid-range" GPU Preise irgendwann nochmal ein bisschen stärker normalisieren, als das was aktuell geboten wird.
Ich meine die 899$ von AMD für die 7900er sind wirklich GUT (im Vergleich mit dem Geizhirsch nVidia) aber eine 7800 für 399$ HÖCHSTENS wäre mal wirklich etwas das den Markt puscht.

Kein Wunder, dass die CPU-Absätze einbrechen, kann sich ja keiner mehr "Gamer"-PCs für >>2k€ leisten...und warum sollte man das auch, für einen Bruchteil des Geldes gibts ne Konsole die das auch leisten kann am heimischen TV angeschlossen.

Eindeutig, dass sich hier "der Markt" von "Marktteilnehmer" wegentwickelt hat.

Ich finde daher AMDs aktuellen Schritt die Preispolitik nicht mehr ganz so extrem mitzugehen richtig und wichtig, ABER leider muss man auch anerkennen dass auch AMD hier eigentlich noch viel Luft nach unten hat.

Wenn die Chips wirklich nur ~200$ "Fertigungskosten" haben, sind Verkaufspreise > 400 $ eigentlich reiner Wucher.

So back to RDNA 3 - ich bin hier eher auf Navi32 gespannt, oder gar N33. Wenn N33 wirklich Performance im Bereich 6800 XT bis 6900 XT hat aber im Segment 200-300€ "lebt" ist das in meinen Augen der größte Fortschritt seit mindestens der HD5k Serie.

DrFreaK666

2022-11-19, 11:30:28

Meines Wissens gab es noch von einigen Herstellern Dual 3850 und 3870. Somit war die 3850 die viertstärkste Karte ;)

Redneck

2022-11-19, 12:17:08

Ich sehe noch nicht, dass die 4080, wie RAFF es gepflegt hat zu sagen, die 4080 den Boden mit der 7900XTX in RT aufwischt. Der Abstand wird sich im Durschschnitt, auf den aktuellen PCGH benchmarks gerechnet bei 30%-35% einpendeln (30%-35% ist bei mir kein aufwischen...). Woher kommt das? AMD hat offensichtlich daran gearbeitet in der Performance konsistenter zu sein, als bisher.

Das habe ich auch gesehen und mir meinen Teil gedacht (gerade wo er kürzlich einen Kommentar in diesem oder einem anderen Thread zu seriösem Journalismus gebracht und gegen den YT Bashing Stil gewettert hat..).
"wird wahrscheinlich Kreise in RT um RDNA3 ziehen"...
jaja.. mit 30 oder selbst 50% mehr Speed zieht man keine Kreise um irgendwas/wen.. da sollte man lieber die Kirche im Dorf lassen und sich stattdessen einmal die erzielten FPS dazu ansehen, denn wenn man nativ ohne FRS/DLSS auf 30-36 statt 24 Fps kommt hilft mir als Kunde auch nicht.. als Kunde einer 2K Karte wäre das -für mich- auch noch unzumutbar.. für e-sports und schnelle,reaktive Spiele ohnehin völlig unbrauchbar.
Die % Angaben helfen mir wenig, wenn das absolute Maß weiterhin nicht ausreicht.

robbitop

2022-11-19, 12:30:19

TheGood
Bei RT ging es um 2x auf der Straße (durch FF HW). Also Performance im Sinne von fps.
Bei den 2,7x (Durchsatz von fp leistung =! Performance) ist das was ganz anderes weil auf der Straße nur 1,5x ankommen. Durchsatz vs Performance. Der Vergleich der angeblich so lustig (wie geistreich…) war, war schief.

Naja -30% RT bei +26% Transistoren (und noch ein bisschen was weil ad103 ja leicht teildeaktiviert ist). Da beide moderne automatisierte HW libs nutzen für das layouting sollte sich das grob vergleichen lassen was Fülltransistoren etc angeht.

RT HW ist bei RDNA3 wie gesagt nur für Box Intersection vorhanden. Nichts für bvh traversal und kein coherancy sorting. Nur Optimierungen damit das bvh traversal was auf den fpus läuft effizienter läuft.

Matrix Operationen laufen auch nur auf Vector FPUs. Siehe slide Vector Units for AI.

————————————

Chiplets werden auf jeden Fall bei der Skalierung in Zukunft helfen. Und man könnte damit auch wenn man wollte höhere Performancetier Produkte launchen da man das recticle limit umgehen kann.
Wer glaubt, dass NV bis dahin schläft, ist wahrscheinlich etwas naiv. Die werden chiplets sicherlich nicht verschlafen - sie aber später einsetzen. Ggf wenn sie der Ansicht sind, dass sie dadurch große Vorteile haben. Däumchen drehend abwarten wird man wahrscheinlich nicht. Ich tippe darauf weil NV was R&D angeht bis dato nie Däumchen gedreht hat.
Mit HBM waren sie auch später dran als AMD - Fijii und Vega waren ja leider trotz dessen nicht so toll. Wo HBM sinnvoll war haben sie es ja dann auch gebracht - im HPC Sektor.

Thomas Gräf

2022-11-19, 13:19:38

Das habe ich auch gesehen und mir meinen Teil gedacht (gerade wo er kürzlich einen Kommentar in diesem oder einem anderen Thread zu seriösem Journalismus gebracht und gegen den YT Bashing Stil gewettert hat..).
"wird wahrscheinlich Kreise in RT um RDNA3 ziehen"...
jaja.. mit 30 oder selbst 50% mehr Speed zieht man keine Kreise um irgendwas/wen.. da sollte man lieber die Kirche im Dorf lassen und sich stattdessen einmal die erzielten FPS dazu ansehen, denn wenn man nativ ohne FRS/DLSS auf 30-36 statt 24 Fps kommt hilft mir als Kunde auch nicht.. als Kunde einer 2K Karte wäre das -für mich- auch noch unzumutbar.. für e-sports und schnelle,reaktive Spiele ohnehin völlig unbrauchbar.
Die % Angaben helfen mir wenig, wenn das absolute Maß weiterhin nicht ausreicht.

Genauso seh ich das auch.
Ob Chiplets GPUs das performance Problem lösen können, auch für VR-Brillen, werden wir frühestens in 2 Jahren sehen. Minimal die 4-fache Performance dieser Gen, sonst lohnt das nicht.

Complicated

2022-11-19, 15:36:56

Welches Konzept zukunftsträchtiger ist, keine Ahnung. Das wissen wir mit RDNA4 :D
Ich glaube schon auch, dass extra parallel geschalteten RT Einheiten auf Dauer der richtige WEg sind da diese effektiver sind wegen der parallelverarbeitung.
Das hängt wohl auch davon ab, welchen Einfluß ein Chiplet-Design hat, bei immer weniger Platzgewinn durch bessere Fertigungsnodes und wieder kleiner werdende max. Chipgrößen durch die nächsten Belichtungstechniken.

Wenn Chiplets deutlich mehr Shader mit integrierten FFus ermöglicht, könnte der Platzbedarf für Matrixcores in ein Skalierungsproblem bei den nächsten Generationen laufen. Wenn man dann entscheiden muss, ob man Shader oder Matrix-FFUs verbaut, könnte es an einer der Fronten eng werden.

OgrEGT

2022-11-19, 17:49:56

Wenn man theoretisch ein weiteres N31 GCD Chiplet hinzufügen würde, dann wird man jedoch auch irgendwann von der Leistungsaufnahme begrenzt, bzw. muss dann bei höherer Leistung dann auch mehr Leistungsaufnahme zulassen.

Wenn von den 355W TBP 240W auf ein 1GCD+6MCDs entfällt und man bei 2GCD+6MCD vlt. bei 400W landet... dann kommt man insg. auch auf mindestens >520W... und dann braucht man auch den 12VHPWR Stecker Krampf...

https://www.forum-3dcenter.org/vbulletin/attachment.php?attachmentid=81511&stc=1&d=1668876347https://www.igorslab.de/amd-radeon-rx-7900xtx-im-virtuellen-zweikampf-mit-der-nvidia-geforce-rtx-4080-taschenrechner-und-fakten/

DrFreaK666

2022-11-19, 20:54:07

OpenVMSwartoll

2022-11-19, 21:26:40

Irgendwie hab ich Deine Begeisterungsfähigkeit etwas vermisst, horn_12. Ein schöner Gegenpol zu einem hohlen Pferd *zwinker*.

Weiß nicht, ob die Rechnung so ist, OgrEGT. Der Betriebspunkt ist ja eine separate Variable.

Nightspider

2022-11-20, 08:58:43

Wenn AMD schon kleine GCDs herstellen lässt, dann hoffe ich das sie wenigstens bei N3 deutlich vor der Konkurrenz ein Produkt auf den Markt bringen.

Mit kleinen Chips kann man trotz schlechterer Yields viel eher am Markt sein und viele Kunden abschöpfen.

Wäre schön wenn RDNA4 mal eher erscheint als erwartet und nicht später, als die Gerüchte besagen.

Zossel

2022-11-20, 10:27:12

HOT

2022-11-20, 10:31:55

Iscaran

2022-11-20, 10:52:43

Warum sollen riesige Dies aus der latest and greatest Fertigungs Node wenig kosten?

Die Chips früher kosteten auch nicht unbedingt weniger bezogen auf den Endpreis. Was sich geändert hat ist die Verteilung der Gewinnmarge und die Steigerung des Abstandes zwischen Produktionskosten und Endkundenpreis.

Das ist kein Spielzeug!
Es ist eine GRAFIKKARTE mit dem PRIMÄREN Einsatzzweck Spiele zu spielen. Per Definition ist das für mich "Spielzeug". Wenn auch teuer.

Ausserdem ist es nur mal eine "historische" Rückblende, ich hab die Zeit noch erlebt als eine HD 3850 ~135 € kostete.

Allerdings hatte ich da erst vor kurzem eine X1950 Pro für 150 € gekauft und die 3850 war nur 56% schneller (https://www.computerbase.de/2007-11/test-ati-radeon-hd-3850-rv670/23/#abschnitt_performancerating_qualitaet), was einen Wechsel unnötig machte.

Dazu kaufte ich dann später (2009 Herbst glaube ich) die HD 4850 mit 512 MB für 219€. Welche übrigens dann +90% schneller war als die HD 3850 (https://www.computerbase.de/2008-06/test-ati-radeon-hd-4850-cf-und-hd-4870/26/#abschnitt_performancerating_qualitaet).

Das rechtfertigte dann wieder den "Generationenwechsel" da die HD 4850 ca 3x so schnell war wie meine damalige X1950 Pro (1.56*1.9 = 2.96)
Von den neueren Features und vor allem PCIe (meine X1950 war noch AGP) ganz abgesehen.

Du siehst also die Preise für "gute Performance" Karten waren bis vor kurzem NIE auch nur annähernd so absurd (wie heute mit 900 € für Karten vergleichbar zum "Status" einer HD 3850 oder HD 4850 oder X1950 Pro).

Und die Herstellungskosten der Chips sind NICHT plötzlich von 100$ auf 1000$ gestiegen!

Die haben sich vielleicht um +50% oder maximal 100% erhöht.

gruntzmaker

2022-11-20, 11:25:43

Chiplets ermöglich viel skalierbarere Produkte. RDNA4 kann viel mehr Leistung abdecken, 1000mm²+ sind kein Problem, auch nicht zu relativ günstigen Kosten, aber auch viel weniger sind kein Problem. Wenn man den Sprung einmal gepackt hat wird das die Zukunft sein. Ich befürchte nur, dass wir Ende 23 einen RDNA3-Refresh sehen werden und erst in 25 dann RDNA4. Ich denke, AMD wird die direkte, unsichere, zeitliche Konfrontation mit NV meiden wollen.

2023 wird es bestimmt erst einmal die 50er Version von RDNA3 geben, sehe ich auch so.

Aber das mit der Konfrontation mit Nvidia sehe ich etwas anders. AMDs großer Vorteil ist doch gerade der immense Erfahrungsfundus beim Chiplet Design. Die werden nicht warten bis Nvidia da nachziehen kann.

Und AMD kann eine ganze Plattform ganzheitlich entwerfen, die alle Vorteile einer besseren Vernetzung zwischen CPU, RAM und GPU vereinen kann. Intel wird das ebenso machen und deswegen bauen sie wohl jetzt auch ihre eigenen GPUs. Nvidia hat demgegenüber nichts entgegen zu setzen und müssten sich anpassen.

Ich meine, das sind natürlich nur theoretische Vorteile, aber Smart Access Memory und Direct Storage sind solche Technologien.

bbott

2022-11-20, 11:58:28

Das ist kein Spielzeug!
Was ist es denn sonst? Es dient primär zum Spielen... ergo ein Spielzeug. Oder sind etwa Spiele Konsolen auch kein Spielzeug?! :freak:

amdfanuwe

2022-11-20, 12:14:57

Und die Herstellungskosten der Chips sind NICHT plötzlich von 100$ auf 1000$ gestiegen!

Die haben sich vielleicht um +50% oder maximal 100% erhöht.
Und die Entwicklung kostet nichts?
Da haben sich die Kosten vervielfacht und die muss der Produzent ja auch wieder einspielen und entsprechend auf die Chippreise umlegen.

robbitop

2022-11-20, 12:44:19

Chiplets ermöglich viel skalierbarere Produkte. RDNA4 kann viel mehr Leistung abdecken, 1000mm²+ sind kein Problem, auch nicht zu relativ günstigen Kosten, aber auch viel weniger sind kein Problem. Wenn man den Sprung einmal gepackt hat wird das die Zukunft sein. Ich befürchte nur, dass wir Ende 23 einen RDNA3-Refresh sehen werden und erst in 25 dann RDNA4. Ich denke, AMD wird die direkte, unsichere, zeitliche Konfrontation mit NV meiden wollen.
IMO ist der entscheidende Schritt, GCDs skalieren zu können. Leider haben sie das mit RDNA3 nicht abgeliefert. Das mit den MCDs ist nett - aber Ian hat ja vorgerechnet, dass das so viel nicht bringt (IIRC waren es 20 USD). Und wegen der IF opfert man auch gute 10% der Fläche. Wenn man GCDs skalieren könnte, könnte man ggf. den gesamten Productstack mit 1x GCD und 1x MCD abdecken und könnte die jeweils einfach nur skalieren und zwar open end (gecapt durch was die Kunden bereit zu zahlen sind und welche max TDP sie bereit sind zu akzeptieren).

Aber das mit der Konfrontation mit Nvidia sehe ich etwas anders. AMDs großer Vorteil ist doch gerade der immense Erfahrungsfundus beim Chiplet Design. Die werden nicht warten bis Nvidia da nachziehen kann.
Naja die vieles für Chiplets kommt von der Fertigungstechnikseite. Kann man bei TSMC also so kaufen. Und wer glaubt, dass NV nicht selbst mit Chiplets experimentiert, ist ein wenig naiv. Zu Chiplets gibt es bei NV schon einige Patente und die werden sowas sicherlich auch bauen. Mockups und Kleinserien. Für sowas braucht es nicht zwangsweise Serienprodukte. Ggf. hat NV für Serienprodukte noch nicht entschieden, dass es sinnvoll ist.

Virtual

2022-11-20, 13:33:26

Und die Entwicklung kostet nichts?
Da haben sich die Kosten vervielfacht und die muss der Produzent ja auch wieder einspielen und entsprechend auf die Chippreise umlegen.
Iscarans Rechnung erscheint mir ohne Berücksichtung der Entwicklungskosten zu optimisch ausgelegt, aber insbesondere die letzte Preiserhöhung von 500$ US-Liste für die 4080 (im Vergleich zur 3080) ist kaum mit erhöhten Produktions-/Entwicklungskosten zu rechtfertigen. Hiermit möchte Lederjacke die Scalperpreise übernehmen, die in Halbleiter-Mangelzeit durchaus nicht selten gezahlt wurden, und natürlich auch den Krypto-Crash abfedern, der augenscheinlich NVidias Umsatz (und Aktienkurs) hat massiv einbrechen lassen. Lederjacke versucht seit Jahre einen Brand zu schaffen, der Apples Marge dauerhaft ermöglichen soll, nicht nur beim top-end Produkt, sondern im gesamten lineup der NV-Grakas. Die Basis dazu ist NVs gefestigter Ruf als einzig wahre Lösung für das Gaming am PC und die Scalper in der Mangelzeit waren sehr nützlich hinsichtlich Gewöhnungseffekt und Schuldfrage.

Im Wesentlichen reagiert AMD auf NV bei Entwicklung/Einführung "eigener" Technologien fürs PC-Gaming, hat bei Weitem nicht NVs Ruf in der Gamer-Gemeinschaft, würde aber dennoch gerne mit gleicher Marge abkassieren. Das klappt sehr wahrscheinlich mit RDNA3 nicht, aber trotzdem ist im Kielwasser NVs die Tendenz zum upselling eindeutig bei der Kombi 7900XT(X) zu sehen, nur eben moderater als es NV angeht. Die Zeit der noch gemäßigten Graka-Preis (< bzw. <<1000 Euro ohne top-end) ist zumindest für die nächsten Jahre, wenn nicht sogar für viele Jahre, vorbei.

Kurzum, wer in 2022/23 nicht absolutes top-end bzw. die zumeinst visuell etwas bessere Feature-Implementierung NVs benötigt, ist bei AMD mit der anscheinend attraktiveren P/L des RDNA3-lineups besser augehoben.

Complicated

2022-11-20, 13:39:25

Das wichtigste für Chiplets ist der Interconnect und das Packaging. Da ist AMD Intel und Nvidia voraus. Und RDNA3 ist ein wichtiger Schritt zu Multi-GCDs. Du musst ja nur einmal annehmen der RDNA3 GCD wird 30% kleiner und dafür verdoppelt. Das sind dann +40% ALUs 10% niedriger getaktet um das Powerbudget einzuhalten. Im Gegensatz zu CPUs skaliert die GPU in der Breite gut genug um die ALUs zur Taktfrequenz auszubalancieren für das Powerbudget, das der nächste Node möglich macht. Denn die Flächenskalierung ist die nächsten paar nodes kleiner als die Powersavings.

reaperrr

2022-11-20, 14:14:34

Wenn die Chips wirklich nur ~200$ "Fertigungskosten" haben, sind Verkaufspreise > 400 $ eigentlich reiner Wucher.
Das ist VIEL zu plakativ gedacht.

Als jemand, der für diverse Firmen Buchhaltung macht kann ich dir sagen, dass du in vielen Branchen locker nen Aufschlagssatz von Faktor 3-5 ggü. den reinen Produktionskosten brauchst, um am Ende überhaupt irgendetwas an Gewinn zu machen.

Niemals unterschätzen, wie gering der Anteil der reinen Produktionskosten an den Gesamtkosten ist.

Dass AMD's Grafiksparte trotz der Konsolendeals (wenig Marge, aber hohe Volumen) und der seit Launch praktisch kaum gesunkenen Preise bei den 6000er Karten (eigentlich nur 6900 und 6950, Rest ist jetzt ca. auf Launch-MSRP) kaum Gewinne in der Sparte macht, sagt eigentlich alles.

Nie unterschätzen, wie viel die für R&D im Vorfeld und dann an Transportkosten, Marketing usw. vor und nach dem Launch verbraten müssen, um ihre Karten überhaupt in den Stückzahlen verkaufen zu können.

OgrEGT

2022-11-20, 14:26:00

PowerColor teases Radeon RX 7900 XTX Red Devil graphics card
https://videocardz.com/newz/powercolor-teases-radeon-rx-7900-xtx-red-devil-graphics-card

>3slots :ugly:

Linmoum

2022-11-20, 14:47:05

Daher ist AMDs "die passen ins Gehäuse ohne das wechseln zu müssen"-Seitenhieb auch albern. Nvidias FE ist auch nicht viel größer, die Trümmer sind alles Customs, die sich auch massivst mehr als irgendwelche Referenzen oder FEs verkaufen werden.

Bei 355W schon für die Referenz war klar, dass die Customs da deutlich was drauflegen. Leise und klein schließt sich halt bei irgendwas Richtung 400W aus. Ist halt so, einen Tod muss man da sterben.

robbitop

2022-11-20, 15:33:47

Sehr schade, dass AMD so spät launcht. Für den Weihnachtsurlaub schon etwas zu spät IMO. Ende November wäre besser gewesen.

Mortalvision

2022-11-20, 16:20:45

PowerColor teases Radeon RX 7900 XTX Red Devil graphics card
https://videocardz.com/newz/powercolor-teases-radeon-rx-7900-xtx-red-devil-graphics-card

>3slots :ugly:

Holy cow! Leider würde dann meine Soundblaster-Karte unter diesem Klotz gradezu erdrückt. Schon allein für die Sammlung der dicksten GPU-Backsteine wäre es nice, das Teil zu haben ;)

DrFreaK666

2022-11-20, 16:34:42

Wird es auch weniger voluminöse Partnerkarten geben?

OgrEGT

2022-11-20, 16:41:14

Das hoffe ich sehr... bin sehr gespannt auf die Karten von Sapphire...

dargo

2022-11-20, 17:25:59

Wird es auch weniger voluminöse Partnerkarten geben?
Natürlich, war doch bei RDNA2 auch der Fall. Einfach mal nach Customs schauen die nicht das PT vs. Referenz erhöhen. Da ist es dann eher der Fall, dass der Ziegelstein kleiner ausfällt. :D

Iscaran

2022-11-20, 18:20:16

Das ist VIEL zu plakativ gedacht.

Das war auch "plakativ" gemeint, denn ohne echte Zahlen zu haben was ein Chip kostet ist die Diskussion darüber ziemlich "plakativ" so oder so.

Ich hab leider keine genaueren Zahlen, ich meine aber jemand hatte mal ein Link gepostet wo die Chip-Herstellungskosten gelistet wurden.

Zu den Entwicklungskosten: Warum sind die Entwicklungskosten für neuere Chips höher als für ältere?

Glaubt ihr etwa die Ingenieure würden jeden Transistor einzeln designen und da die neuen GPUs nun ein vielfaches davon haben wurde da auch mehr "Arbeitszeit" reinversenkt diese zu entwickeln???

Ich wage mal zu behaupten die REINEN Entwicklungskosten von HD3k, HD4k und Co und RDNA1, RDNA2 dürfte sich nicht WESENTLICH unterscheiden (wenn man die Inflationseffekte herausrechnet).

Ich hoffe jemand findet in seinem Linkfundus noch einen Link zu echten "Chipkosten" Zahlen.

Die Entwicklungsbudgets könnte man theoretisch aus den Bilanzen von AMD irgendwie ableiten...aber das ist auch eine Fleissaufgabe die ich gerade nicht bereit bin zeitlich zu leisten ;).

Complicated

2022-11-20, 18:47:21

https://www.researchgate.net/figure/Chip-Design-and-Manufacturing-Cost-under-Different-Process-Nodes-Data-Source-from-IBS_fig1_340843129

https://www.researchgate.net/publication/340843129/figure/fig1/AS:883120060506112@1587563638610/Chip-Design-and-Manufacturing-Cost-under-Different-Process-Nodes-Data-Source-from-IBS.png

28nm->×10->5nm

amdfanuwe

2022-11-20, 18:52:56

Zu den Entwicklungskosten: Warum sind die Entwicklungskosten für neuere Chips höher als für ältere?

Weil da mehr Transistoren drauf sind, mehr Einheiten aufeinander abgestimmt werden müssen, mehr Aufwand für Energieeffizienz getrieben wird, mehr Tsstfälle erstellt und gemeistert werden müssen, die komplexeren Entwicklungswerkzeuge erstellt bzw. angepasst werden müssen etc. etc.

Ist ja nicht so, dass lediglich ein paar mehr CUs nach bestehendem Schema auf den Chip geklatscht werden.

Dazu noch neue Einheiten und Features für RT, AI, SAM die auch nicht mal so eben von einem Entwickler aus dem Ärmel geschüttelt werden.
Die Komplexität steigt halt jedes mal.

Sieht man ja bei Intels versuchen und den China CPUs, dass AMD und Nvidia in einer anderen Liga spielen.

Nightspider

2022-11-20, 19:13:13

Warum sollen riesige Dies aus der latest and greatest Fertigungs Node wenig kosten?

Sie kosten doch wenig. Zumindest im Vergleich zur Grafikkarte in Laden. :biggrin:

Chiplets ermöglich viel skalierbarere Produkte. RDNA4 kann viel mehr Leistung abdecken, 1000mm²+ sind kein Problem, auch nicht zu relativ günstigen Kosten, aber auch viel weniger sind kein Problem. Wenn man den Sprung einmal gepackt hat wird das die Zukunft sein. Ich befürchte nur, dass wir Ende 23 einen RDNA3-Refresh sehen werden und erst in 25 dann RDNA4. Ich denke, AMD wird die direkte, unsichere, zeitliche Konfrontation mit NV meiden wollen.

Wieso sollte RDNA4 mehr als 24 Monate nach RDNA3 kommen?

Die Skalierbarkeit hat AMD ja teilweise schon mit RDNA3. Es ist für Enthusiasten einfach nur schade das sie keinen ~450mm² GCD rausbringen, die nochmal ~40% vor N31 liegt.

Wenn sie so etwas Ende 2023 als Midlife-Kicker herausbringen würden, würde man Nvidia schon alt aussehen lassen, wenigstens für ein Jahr.

Naja die vieles für Chiplets kommt von der Fertigungstechnikseite. Kann man bei TSMC also so kaufen. Und wer glaubt, dass NV nicht selbst mit Chiplets experimentiert, ist ein wenig naiv. Zu Chiplets gibt es bei NV schon einige Patente und die werden sowas sicherlich auch bauen. Mockups und Kleinserien. Für sowas braucht es nicht zwangsweise Serienprodukte. Ggf. hat NV für Serienprodukte noch nicht entschieden, dass es sinnvoll ist.

Kann man eigentlich schon abschätzen wie weit Nvidia hinterherhängt bei Chiplets?

Ich befürchte ja das Nvidia AMD noch überholen könnte bei Chiplets, weil Nvidia die größeren R&D Teams besitzt und mehr im Geld schwimmt um vom R&D bis zum fertigen Produkt alles schneller hinkriegen könnte und sie im schlimmsten Fall (für AMD) die neuesten Stacking Methoden zur gleichen Zeit verwenden dürfen.

So ein Vorsprung kann sich halt auch mal schnell in Luft auflösen, wenn die anderen Firma in Geld schwimmt und viel größere R&D Teams besitzt.

Am Ende könnte AMD nur noch den Vorteil haben das sie mit TSMC gemeinsam am Packaging und Stacking gearbeitet haben und dort bevorzugt behandelt werden, wenn es begrenzte Kapazitäten fürs Stacking gibt. Aber da gibts ja auch nichts an offiziellen Infos.
Da könnte AMDs Größe ein Vorteil sein. Weil AMD weniger Kapazitäten benötigt als Nvidia reichen die Packaging-Anlagen halt viel eher für AMD (und Apple) während es für Nvidia vielleicht zu wenig wäre und NV deshalb nicht so schnell auf fortschrittliche Packaging Methoden setzen kann.

Das ist VIEL zu plakativ gedacht.

Als jemand, der für diverse Firmen Buchhaltung macht kann ich dir sagen, dass du in vielen Branchen locker nen Aufschlagssatz von Faktor 3-5 ggü. den reinen Produktionskosten brauchst, um am Ende überhaupt irgendetwas an Gewinn zu machen.

Niemals unterschätzen, wie gering der Anteil der reinen Produktionskosten an den Gesamtkosten ist.

Dass AMD's Grafiksparte trotz der Konsolendeals (wenig Marge, aber hohe Volumen) und der seit Launch praktisch kaum gesunkenen Preise bei den 6000er Karten (eigentlich nur 6900 und 6950, Rest ist jetzt ca. auf Launch-MSRP) kaum Gewinne in der Sparte macht, sagt eigentlich alles.

Nie unterschätzen, wie viel die für R&D im Vorfeld und dann an Transportkosten, Marketing usw. vor und nach dem Launch verbraten müssen, um ihre Karten überhaupt in den Stückzahlen verkaufen zu können.

Ich würde ja gerne mal wissen wie teuer die Kühler sind für Nvidias und AMDs Topmodelle.

Alleine die Materialkosten sind ja schon nicht mehr ohne.

Complicated

2022-11-20, 19:32:39

Im Juli mal eine Einschätzung aus AMD Sicht:
https://www.tweaktown.com/news/87299/amd-on-nvidia-not-using-gpu-chiplets-we-have-big-lead-there/index.html
Naffziger replied, explaining: "It's hard to speculate. NVIDIA certainly hasn't jumped on the chiplet bandwagon yet. We have a big lead there and we see big opportunities with that. They'll be forced to do so. We'll see when they deploy it. Intel certainly has jumped on that. Ponte Vecchio is the poster child for chiplet extremes.
R&D Ausgaben zu haben bedeutet nicht, dass in die richtige Richtung geforscht wurde. Nvidia muss ja mehr ausgeben bei dem proprietären Silodenken und Alleingängen. Gut möglich, dass Nvdias RT ebenso wie die R&D Ausgaben für GSync und PhysX enden - in der Tonne, da die proprietäre Technologie abgehängt wird von der Zusammenarbeit der Industrie an offen zugänglichen und Hardware-übergreifend funktionierenden Technologien

Nightspider

2022-11-20, 19:33:24

PowerColor teases Radeon RX 7900 XTX Red Devil graphics card
https://videocardz.com/newz/powercolor-teases-radeon-rx-7900-xtx-red-devil-graphics-card

>3slots :ugly:

Sieht schon sexy aus die Karte aber viel besser würde ich es finden, wenn die Hersteller alle mal eine Karte mit Wasserkühler und Garantie auf den Markt bringen würden.

Wir sind doch mittlerweile in Gefilden, wo ein Wasserkühler günstiger sein müsste als diese LuKü-Monster.

R&D Ausgaben zu haben bedeutet nicht, dass in die richtige Richtung geforscht wurde. Nvidia muss ja mehr ausgeben bei dem proprietären Silodenken und Alleingängen. Gut möglich, dass Nvdias RT ebenso wie die R&D Ausgaben für GSync und PhysX enden - in der Tonne, da die proprietäre Technologie abgehängt wird von der Zusammenarbeit der Industrie an offen zugänglichen und Hardware-übergreifend funktionierenden Technologien

Das stimmt schon aber es würde mich echt wundern wenn da nicht wenigstens 1-2 Gruppen in einem dunklen Keller schon seit einigen Jahren auch an Chiplet-Designs forschen. Spätestens seit der Zen2 Zeit.

Ich meine, TSMC forscht ja auch schon ewig an solchen Methoden und kommuniziert diese auch mit den Kunden und macht Vorträge darüber und und und....

Es kann halt nur sein das es für Nvidia heißt, sie müssen warten bis TSMC XYZ-Packaging-Kapazitäten bereitstellen kann.

Und dann wäre die Frage ob Nvidia Stacking zu erst in den HPC Markt bringt, so wie AMD auch. Dort fließt ja das meiste Geld.
(Und MultiGPU ist für HPC auch einfacher, als für eine gleichmäßige Renderausgabe in Spielen)

Complicated

2022-11-20, 19:44:27

Das stimmt schon aber es würde mich echt wundern wenn da nicht wenigstens 1-2 Gruppen in einem dunklen Keller schon seit einigen Jahren auch an Chiplet-Designs forschen. Spätestens seit der Zen2 Zeit.
Das ist auch der Fall:
Now, if you're up to date with this all... I reported back in July 2017 (5 years ago now!) that NVIDIA was rumored to shift over to multiple GPUs on future GeForce graphics cards... more on that here (https://www.tweaktown.com/news/58295/nvidia-shift-multiple-gpus-future-geforce-cards/index.html). It hasn't happened yet, but AMD will have multiple GPU chiplets on its upcoming Navi 31-based graphics cards according to rumors, but NVIDIA will be sitting with a monolithic GPU design for Ada Lovelace.
https://www.tweaktown.com/news/58295/nvidia-shift-multiple-gpus-future-geforce-cards/index.html
Better yet, NVIDIA simulated the performance of 256 SMs based on MCM GPUs, with 64 SMs per GPU. Right now, NVIDIA's flagship Volta GPU rocks 84 SMs with 5376 cores... but compared to 256 SM MCM package, we're looking at a mind blowing 16,384 cores... a 3x increase. Using their own in-house GPU simulator, NVIDIA noticed that the MCM-GPU was 45.5% faster than the monolithic GPU, and when compared to multiple GPUs on the same board (like the Radeon R9 295X2 for example), the MCM-GPU was still 26.8% faster.Die Entwicklungs-Priotität ging dann wohl in eine andere Richtung: AI und Matrixcores - ich schreibe es immer wieder: Der Interconnect ist das wichtigste und da ist AMD Intel und Nvidia voraus.

Iscaran

2022-11-20, 20:24:45

https://www.researchgate.net/publication/340843129/figure/fig1/AS:883120060506112@1587563638610/Chip-Design-and-Manufacturing-Cost-under-Different-Process-Nodes-Data-Source-from-IBS.png

28nm->×10->5nm

Besten Dank! Das ist ja doch erstaunlich mehr als ich dachte.
Hier übrigens noch die Originalquelle, welche sogar open access ist:
Allerdings scheint es mir ist die Preissteigerung im wesentlichen den Kostensteigerungen durch die neuen Fabs und Prozesse wohl geschuldet. Am Ende landet das dann natürlich im Endpreis (zumindest wenn ich den Originalartikel so lese).
https://www.extremetech.com/computing/272096-3nm-process-node
Link korrigiert: https://www.mdpi.com/2079-9292/9/4/670

Ich lese das so, dass es hierbei die "Design Cost" ist die es dauert einen "Chip" für EINEN Node zu entwickeln.

Auf RDNA übertragen, wären das also 3x ~550 Mio = 1.65 Mrd $ (N31/N32/N33)

Soweit ich das verstehe, verkauft AMD so ca 2.5 Mio GPUs pro Quartal, also ca 10 Mio / Jahr
https://www.3dcenter.org/news/die-grafikchip-und-grafikkarten-marktanteile-im-ersten-quartal-2022

=> 1.65 Mrd / 10 Mio = 165 $ / GPU die man als "Gewinn" abschöpfen muss um die Entwicklung reingeholt zu haben.

Was kostet nun das "Manufacturing" selbst? 100-200$?

=> 200$ (für die high-end chips) + 165$ + X $ (weil man Gewinn machen will)...
Also mit irgendwas >500$ wäre man da LOCKER in der Gewinnzone für den "topdog" chip.

Allerdings, ich sehe immer noch nicht warum wir Preise von einem VIELFACHEN für GPUs wie früher sehen (inflationsbereinigt). (Vergleich zur HD 3850 usw.)

Sunrise

2022-11-20, 20:51:58

Es ist wirklich sehr naiv zu glauben, dass NV nicht weiß, welche Schritte sie jeweils gehen müssen, um an der Spitze zu bleiben.

Nightspider

2022-11-20, 21:05:18

Das haben viele von Intel aber auch schon mal gesagt vor ~6 Jahren.

Das heißt ja auch nicht, das sie nicht trotzdem etliche Marktanteile in gewissen Bereichen verlieren können.

aufkrawall

2022-11-20, 21:09:45

Eher wird AMD wissen, was sie nicht gut können, und stattdessen die Nische besetzen, die NV übrig lässt.

Sunrise

2022-11-20, 21:12:59

Das haben viele von Intel aber auch schon mal gesagt vor ~6 Jahren.

Das heißt ja auch nicht, das sie nicht trotzdem etliche Marktanteile in gewissen Bereichen verlieren können.
Bei Intel sind sehr viele Fehlentscheidungen, angefangen von Entlassungen und ständigen CEO-Wechseln, passiert, während Jensen ein Elon Musk der “Hardcore Performance im PC-Desktop” (und danach auch im Datacenter/HPC) geworden ist, der überhaupt diesen Anspruch in der Vergangenheit definiert hat, der wird vor seinem Ableben auch nicht 2 Zentimeter von diesem Führungsanspruch abweichen.

Er ist viel zu fanatisch auf die Spitze aus, und wenn sie mit Datacenter-HW weiterhin so gute Umsätze fahren, kann man im PC-Desktop auch immer in die Vollen gehen, sich teuer bei TSMC einkaufen, dedizierte HW verbauen und dann einfach Brute-Force bis an den Rand der Fertigung gehen.

Wenn sie anhand ihrer schieren Simulationspower merken, dass ihr Weg nicht mehr an die Spitze führt, würden sie definitiv gestern schon wechseln.

Complicated

2022-11-20, 21:40:56

amdfanuwe

2022-11-20, 21:46:11

Ich lese das so, dass es hierbei die "Design Cost" ist die es dauert einen "Chip" für EINEN Node zu entwickeln.

Ja.
Und wenn du erst mal den Top Dog entwickelt hast, kann man die Software und Validation Tools auch für weitere bzw. kleinere Chips nutzen. Die werden dann billiger in der Entwicklung.
Je mehr Chips man verkauft, umso eher lohnt sich das Geschäft.

Bei den kleinen Chips kann man evtl. auch nicht die vollen Kosten entsprechend umlegen, muss man bei den teuren Chips entsprechend mehr umlegen, Mischkalkulation.

Dass die Preise sich vervielfacht haben, Kapitalismus.

Für die nächste 3nm Generation muss man auch erst mal 1Mrd. investieren.
Und wenns floppt, sollte man etwas in der Kasse haben, sonst gehts schnell den Bach runter.

iamthebear

2022-11-20, 21:48:48

Die Probleme von Intel haben hauptsächlich 2 Ursachen:

a) Die Fertigung macht Probleme. Intel hat hier Probleme mit TSMC mitzuhalten. Das ist jetzt nicht unbedingt eine große Schande. AMD hat die eigene Fertigung schon vor Jahren aufgegeben.
Nvidia hat keine eigene Fertigung. Damit können Sie in dieser Hinsicht nie hinter AMD sein, aber eben auch nie vorne. Wenn man auf einem schwächeren Node ist, dann immer aus freien Stücken um Geld zu sparen (siehe Samsung 8nm).

b) Intel hatte Finanzler CEOs, die besonders in der Datacenter Sparte den Rotstift in den Entwicklungsabteilungen angesetzt hat besonders die Abteilungen zum Validieren von Design. Das rächt sich nun, da man viele Bugs erst bei funktionsfähigem Silizium fixen muss siehe Saphire Rapids.
Auch diese Probleme hat Nvidia nicht. Hier ist es so, dass AMD im Datacenter Bereich so gut wie gar nicht vertreten ist.

Das Problem bei Nvidia ist eigentlich nur die eigene Gier. Man sieht den Gamingmarkt sowieso als sterbende Sparte und versucht den noch zu melken solange es geht während man im Datacenter Bereich die große Kohle macht.
Nvidia ist auf den Gamingmarkt nicht mehr wirklich angewiesen und kann hier hoch pokern.

Sunrise

2022-11-20, 22:04:48

Das Problem ist ja nicht gute Ideen zu haben und zu wissen wo die Reise hingeht. Man muss auch jedes Jahr ein Produkt raus bringen das auf dem Weg dorthin am Markt bestehen kann und die nächsten Schritte finanziert.

Da kann die eine oder andere Fehlentscheidung erst 5 Jahre später sichtbar werden.
Ich würde mal behaupten, die Luft für Fehlschläge wird zunehmend dünner, weshalb man sich solange Zeit lässt, bis man ein wirklich ausgereiftes Design mit sehr starker Mehrperformance und möglichen, nachfolgenden Refreshes vorstellen kann, um die enormen R&D- und sonstigen Kosten wieder reinzuholen. Besser noch, man baut das bestehende Design lange Jahre weiter aus (siehe AMDs Zen) und macht es „fetter“.

Bei NV scheint mir der Schwellenwert für ein „Design sign-off“ einfach höher zu liegen, und sie können eben in der Regel durch diese Marktmacht auch immer „am Rande des guten Gewissens“ entwickeln, weil Ihnen die Zahlen Recht geben. Die ganze Geschichte wurde mit Sicherheit schon vor Jahren simuliert und ist kein Zufall (zumindest solange TSMC liefert, und man selbst keinen Bockmist in die Massenfertigung gibt). Das Überraschende war eigentlich die Großkotzigkeit von NV, bei Samsung fertigen zu lassen. Das wird man denke ich kein zweites Mal mehr sehen.

Diese „wir gehen auf Nummer sicher“-Ansätze sind halt nicht das, was eine fanatische, auf den PC-Desktop ausgerichtete Fanbase sehen möchte. Zu Lebzeiten am Maximum leben, zumindest solange es auch in Performance mündet. Die Irrwege sind zwar noch da, aber wenn man bekannte Metriken einfach immer weiter ausreizen kann, kommt der Scheitelpunkt erst, wenn man irgendwo mit irgendwas (in der Simulation) schon an die Wand gefahren ist.

Es ist ja auch kein Zufall, dass AMD immer 50% mehr Effizienz anstrebt, denn das brauchen sie (wenn man mal ehrlich ist) bisher auch, um mit da oben bestehen zu können.

Iscaran

2022-11-20, 22:11:12

Also ich hab mal aus Interesse die Steigerungsrate der Entwicklungskosten aus dem Artikel mal untersucht:

Da sieht man denke ich, dass die Steigerung der Kosten von Node zu Node sich eigentlich "linear" Verhält.

Korrigiert man noch mit 3% Inflation wird der Trend noch deutlich besser.
(Optimum der Korrelation wäre mit 3.5% Inflation bei R^2 0.9910 statt 0.9906)

Zur Inflationskorrektur ging ich einfach vom ersten Node aus und "extrapolierte" mit den Jahresangaben zur Einführung der Nodes (wikichip) die Werte (Spalte G). Den Anstieg an Inflation hab ich dann relativ zum ersten Node in $ umgerechnet und diese Differenz(Spalte H) dann vom tatsächlich gefundenen Wert für die Chipentwicklung abgezogen (als Anteil in $ der der "Inflationskorrektur" entspricht) (Spalte E).

Die Steigerungsraten sind einfach die Prozentualen Anstiege gegenüber dem Vor-Node.

Hätte nie im Leben gedacht das dabei eine Lineare Korrelation der Entwicklungskostensteigerung herauskommt :eek:

iamthebear

2022-11-21, 01:05:23

Die Entwicklungskosten beziehen sich auf die Kosten, die man JETZT hat wenn man einen dementsprechenden Chip entwickelt. Das sind nicht die Kosten, die man z.B. vor 15 Jahren hatte als 65nm noch neu war.
Klar steigen die Entwicklungskosten auch bezogen auf den jeweils neuesten Node aber sicher bei Weitem nicht so stark.

robbitop

2022-11-21, 06:11:00

Es ist wirklich sehr naiv zu glauben, dass NV nicht weiß, welche Schritte sie jeweils gehen müssen, um an der Spitze zu bleiben.

Ja und der Wettbewerb wird das nicht immer zu 100% wissen. Apple kam mit M1 Ultra und damit der ersten mGPU auch aus dem „Nichts“. Das hat niemand kommen sehen. Ein Beispiel dafür, dass sowas auch durchaus ohne breite Kenntnis des Wettbewerbs möglich ist. Wenn man sich anschaut wie aggressiv NV schon immer geforscht hat und das Thema Interconnects und Chiplets seit einem halben Jahrzehnt zumindest in Papern und Konferenzen immer dominierender werden - da anzunehmen dass NV das ignoriert und dort nicht forscht ist naiv. Zumal sie diese Interconnects ja auch für HPC brauchen werden und nicht nur für Gaming Produkte. Ziemlich sicher forscht man daran und setzt es ein wann man es braucht. Ggf sahen sie es noch nicht als sinnvoll an. Man muss kein Massenprodukt angekündigt haben was das nutzt um um daran zu forschen und es entsprechend vorzubereiten. Man kann alles Mögliche auch für das Labor bauen und Kleinstserien aufsetzen.

robbitop

2022-11-21, 06:12:07

Das haben viele von Intel aber auch schon mal gesagt vor ~6 Jahren.

Das heißt ja auch nicht, das sie nicht trotzdem etliche Marktanteile in gewissen Bereichen verlieren können.

Intel hat klar erkennbar geschlafen. 5 Jahre Skylake Cores. Nvidia hat das selbst zu AMDs schwächsten Zeiten nie getan. Der Vergleich hinkt

OgrEGT

2022-11-21, 07:14:22

Sieht schon sexy aus die Karte aber viel besser würde ich es finden, wenn die Hersteller alle mal eine Karte mit Wasserkühler und Garantie auf den Markt bringen würden.

Wir sind doch mittlerweile in Gefilden, wo ein Wasserkühler günstiger sein müsste als diese LuKü-Monster.
(...)

Dafür gibt es bei Powercolor die Liquid Devil... gabs bei RDNA1 und RDNA2...

fondness

2022-11-21, 07:28:16

Intel hat klar erkennbar geschlafen. 5 Jahre Skylake Cores. Nvidia hat das selbst zu AMDs schwächsten Zeiten nie getan. Der Vergleich hinkt

Du tust so, als ob man bei Intel absichtlich die Entwicklung eingestellt hätte.

robbitop

2022-11-21, 07:35:44

Du tust so, als ob man bei Intel absichtlich die Entwicklung eingestellt hätte.
Das war eine Verkettung vieler Dinge. 10 nm hatte Probleme. Der damalige CEO war auch eher auf Gewinnoptimierung aus (da gab es neulich ein Interview mit einem (ex?) Intel Engineer) als auch R&D Fokus und die Kollaboration zwischen vielen Abteilungen sei ziemlich bürokratisiert worden.
Was ähnliches hat man von AMD ja auch gehört bis Jim Keller und andere kamen, die Organisationen wieder zu verschlanken (im Effizienz Sinne).

Wenn man sich das Endergebnis anschaute, war es erst Alderlake (und im Notebook Tigerlake schon vorher), der Intel wieder wettbewerbsfähig machte und bestätigte obiges.
AMD hatte "Glück", dass Intel so dahinsiechte und man die Lücke mit Ryzen (der ja auch erst ein paar Iterationen brauchte um richtig ganz vorn mitspielen zu können) nutzen konnte. Aber so lange die jetzige Führung so bleibt wie sie ist (Execution Fokus), wird es ein gesunder Schlagabtausch bleiben.

Auch die Radeon Sparte ist dank neuer Mittel endlich wieder erwacht seit RDNA. Nur hat NV halt nie geschlafen. Deshalb ist das Aufholen so viel schwieriger. Sie legen immer weiter nach aber noch haben sie es nicht geschafft. NV sollte man nie unterschätzen - und ich bin mir relativ sicher, dass man das bei AMD auch nicht tut.

fondness

2022-11-21, 07:37:07

robbitop

2022-11-21, 07:38:52

fondness

2022-11-21, 07:41:12

Ja aber sie sind halt nicht die einzigen. TSMC hat an der physischen Umsetzung geforscht, um das überhaupt zu ermöglichen und viele andere Chipdesigner forschen da auch dran. Nicht zuletzt wie gesagt Apple (und das hat alle überrascht).

Natürlich forschen da alle dran. Trotzdem war AMD mit Abstand als erster am Markt.

TSMC hatte damit auch erstmal nichts zu tun, die waren dann für das 3d Design wichtig. Das hat sich aber offenbar eh ordentlich verzögert, schon zen2 hatte connectors für 3d Cache.

robbitop

2022-11-21, 08:08:30

[MK2]Mythos

2022-11-21, 08:12:52

Könnt ihr die Chiplet Grundsatzdebatte vllt in Technologie auslagern?
Ich schaue hier rein wenn ich mir Neuigkeiten zu rdna3 erhoffe.

robbitop

2022-11-21, 08:14:33

RDNA3 dreht sich rund um Chiplets. Und ich habe auch Relationen zwischen 7900 XTX und 4080 gepostet. Ich würde sagen, das ist nicht OT.

fondness

2022-11-21, 08:16:14

Eigentlich war Apple als erster am Markt.

Das jetzt willkürlich auf gpus einzuschränken ist natürlich völlig absurd.

AMD hat mit RDNA3 bis auf die Ersparung von 20 USD (laut Ian Cutress Berechnung) nicht wirklich Vorteile.

Alles dreht sich um Kosten, das ist ein gewaltiger Vorteil. Und die anderen Vorteile muss ich dir wohl kaum erklären. Gerade Nvidia die so auf ihre Marge achten wäre sicher nicht unzufrieden über solche Einsparungen.

robbitop

2022-11-21, 08:19:50

Das jetzt willkürlich auf gpus einzuschränken ist natürlich völlig absurd.
Meinst du Ryzen? Das ist überhaupt nicht vergleichbar, weil der Interconnect dort überhaupt nicht herausfordernd ist. Das läuft alles über normales Package. IBM setzt seit gefühlt Jahrhunderten auf sowas bei ihren POWER Chips. Oder die X360 mit dem SoC wo eDRAM+ROPs ausgelagert waren. Oder Intel Westmere. Da war GPU und IMC auf einem separatem Chiplet auf dem Package. Und es gibt da sicherlich noch viele andere Beispiele. Ich dachte es geht um high bandwidth interconnect mit modernen Packaging Methoden und nicht um Package Pille Palle.

Alles dreht sich um Kosten, das ist ein gewaltiger Vorteil. Und die anderen Vorteile muss ich dir wohl kaum erklären.
Ich verstehe die Vorteile. Aber es gibt eben auch Nachteile. AMD musste fast ~10% der Chipfläche für Interconnect opfern laut dem Deepdive und es kostet ein wenig mehr Energie. Jeder wägt bei Kriterien anders ab. IMO gibt es da (noch) keinen offensichtlichen, dominanten Vorteil der alles andere außer Chiplets als die falsche Entscheidung aufzeigt. Aber der Vorteil wird mit zukünftigen Nodes weiter zunehmen und irgendwann ist dann ggf NVs Schwellwert auch erreicht um diese Entscheidung zu treffen.

Zu denken, sie würden es nicht können und sind in der Hinsicht abgeschlagen - ich hoffe, dass sich da keiner drauf verlässt. Man muss damit rechnen, dass sie das können wenn sie wollen um nicht überrascht zu werden.

fondness

2022-11-21, 08:29:26

Meinst du Ryzen? Das ist überhaupt nicht vergleichbar, weil der Interconnect dort überhaupt nicht herausfordernd ist. Das läuft alles über normales Package. IBM setzt seit gefühlt Jahrhunderten auf sowas bei ihren POWER Chips. Oder die X360 mit dem SoC wo eDRAM+ROPs ausgelagert waren. Und es gibt da sicherlich noch viele andere Beispiele. Ich dachte es geht um high bandwidth interconnect mit modernen Packaging Methoden und nicht um Package Pille Palle.

Als ich in die Diskussion einstieg, sprachst du vom "Thema Interconnects und Chiplets". Da ging ich nicht davon aus, dass du das jetzt willkürlich einschränkst. Denn wenn du das so definierst, entspricht jedes HBM Design deiner Definition, und rate mal woher der erste HBM Chip kam ;-)

Ich verstehe die Vorteile. Aber es gibt eben auch Nachteile. AMD musste fast ~10% der Chipfläche für Interconnect opfern laut dem Deepdive und es kostet ein wenig mehr Energie. Jeder wägt bei Kriterien anders ab. IMO gibt es da (noch) keinen offensichtlichen, dominanten Vorteil der alles andere außer Chiplets als die falsche Entscheidung aufzeigt. Aber der Vorteil wird mit zukünftigen Nodes weiter zunehmen und irgendwann ist dann ggf NVs Schwellwert auch erreicht um diese Entscheidung zu treffen.

Nur wegen Chiplets hat man nicht automatisch das schnellste, beste, tollste Design, das ist völlig klar. Das wird auch nie so sein. Ansonsten überwiegen die Vorteile offensichtlich deutlich. Die benötigte chipflache ist in der Kostenersparnis natürlich schon berücksichtigt. So zu tun, als ob man sich bei Nvidia nobel zurück hält, ist etwas seltsam. Nvidia wird auch über kurz oder lang damit ankommen, dann werden es wieder alle toll und notwendig finden ;-)

basix

2022-11-21, 08:33:36

Wenn man sich anschaut wie aggressiv NV schon immer geforscht hat und das Thema Interconnects und Chiplets seit einem halben Jahrzehnt zumindest in Papern und Konferenzen immer dominierender werden - da anzunehmen dass NV das ignoriert und dort nicht forscht ist naiv. Zumal sie diese Interconnects ja auch für HPC brauchen werden und nicht nur für Gaming Produkte. Ziemlich sicher forscht man daran und setzt es ein wann man es braucht. Ggf sahen sie es noch nicht als sinnvoll an. Man muss kein Massenprodukt angekündigt haben was das nutzt um um daran zu forschen und es entsprechend vorzubereiten. Man kann alles Mögliche auch für das Labor bauen und Kleinstserien aufsetzen.

Nvidia hat garantiert Chiplet-Prototypen im Labor. Wenn man ohne Chiplets ans Ziel kommt, ist es aber vor allem eines: Sicherer. Chiplets stellen auch ein Risiko dar. Und anhand des gerade mal 379mm2 grossen AD103 sieht man, dass Nvidia auch mit relativ kleinen Chips noch gut dabei ist und den grössten Chip eh für extrem hohe Preise verkaufen kann. Solange man mit monolithischen Die die Performance und Margen-Ziele erreicht, wird man monolithisch bleiben. mMn wird NV bei N3(E) noch monolithisch bleiben (einfach weil sie es können) und bei N2 wird man auch auf Chiplets umsteigen. Im HPC Bereich wird Nvidia evtl. schon nächste Generation auf Chipletsumsteigen und wäre dann sowas wie der Chiplet Pipe Cleaner für die Desktop GPUs.

Intel soll Gerüchten nach bei Battlemage auch mit Chiplets antanzen. Ist von dem her "der natürliche Gang" der Geschichte.

robbitop

2022-11-21, 08:55:51

Als ich in die Diskussion einstieg, sprachst du vom "Thema Interconnects und Chiplets". Da ging ich nicht davon aus, dass du das jetzt willkürlich einschränkst. Denn wenn du das so definierst, entspricht jedes HBM Design deiner Definition, und rate mal woher der erste HBM Chip kam ;-)
Habe ich doch bereits benannt. Fijii. Und das war ein Rohrkrepierer. Erster zu sein ist nicht zwangsweise hilfreich.

Erster zu sein ist nunmal leider nicht immer etwas, was einem hilft (siehe erster mit HBM und Fijii).

Nur wegen Chiplets hat man nicht automatisch das schnellste, beste, tollste Design, das ist völlig klar. Das wird auch nie so sein. Ansonsten überwiegen die Vorteile offensichtlich deutlich. Die benötigte chipflache ist in der Kostenersparnis natürlich schon berücksichtigt. So zu tun, als ob man sich bei Nvidia nobel zurück hält, ist etwas seltsam. Nvidia wird auch über kurz oder lang damit ankommen, dann werden es wieder alle toll und notwendig finden ;-)

Wieso denn "nobel" zurückhalten? Diese Entscheidung trifft man aufgrund einer Reihe von Kriterien. Und hier geht es auch nicht darum das toll oder nicht toll zu finden. Wir sind hier nicht im Kindergarten bei den Propellerjungs. Chiplets ist eine Technologie mit Vor und Nachteilen. Diese hängen sehr sehr stark vom jeweiligen Node, der Menge an Transistoren und Design ab. Je nach Permutation dieser Variablen (und sicherlich noch anderer) sieht die Entscheidungsmatrix dafür oder dagegen je Produkt anders aus.
Man sieht zB bei N33, dass es da für AMD Kriterien gab (6nm Node) die dann dagegen sprachen. Es ist sehr wahrscheinlich, dass das unterschiedlich eingeschätzt wird. Wenn es notwendig sein wird, ist es sehr wahrscheinlich, dass NV sich dafür auch entscheidet.

robbitop

2022-11-21, 08:59:42

Nvidia hat garantiert Chiplet-Prototypen im Labor. Wenn man ohne Chiplets ans Ziel kommt, ist es aber vor allem eines: Sicherer. Chiplets stellen auch ein Risiko dar. Und anhand des gerade mal 379mm2 grossen AD103 sieht man, dass Nvidia auch mit relativ kleinen Chips noch gut dabei ist und den grössten Chip eh für extrem hohe Preise verkaufen kann. Solange man mit monolithischen Die die Performance und Margen-Ziele erreicht, wird man monolithisch bleiben. mMn wird NV bei N3(E) noch monolithisch bleiben (einfach weil sie es können) und bei N2 wird man auch auf Chiplets umsteigen. Im HPC Bereich wird Nvidia evtl. schon nächste Generation auf Chipletsumsteigen und wäre dann sowas wie der Chiplet Pipe Cleaner für die Desktop GPUs.

Intel soll Gerüchten nach bei Battlemage auch mit Chiplets antanzen. Ist von dem her "der natürliche Gang" der Geschichte.
Wann das genau sein wird, bleibt abzuwarten aber ja so sehe ich es grundsätzlich auch. Man wird es nutzen, wenn es notwendig sein wird.
Dazu kommt, dass manche (nicht alle) Packaging Technologien relativ teuer sind. Die wird man ggf. zuerst bei HPC einsetzen. So wie man HBM mit Interposer seit Volta einsetzt aber bis dato nie in Gaming Produkten. Oder AMD für CDNA 3D Packaging nutzen will aber noch nicht bei RDNA.

Tangletingle

2022-11-21, 09:03:24

Sunrise

2022-11-21, 09:10:46

Eigentlich war Apple als erster am Markt. Erster zu sein ist nunmal leider nicht immer etwas, was einem hilft (siehe erster mit HBM und Fijii). AMD hat mit RDNA3 bis auf die Ersparung von 20 USD (laut Ian Cutress Berechnung) nicht wirklich Vorteile. Ich gehe davon aus, dass auch Nvidia das für jede neue Generation neu abwägt und ggf. einen anderen Schwellwert definitiert. Ggf. ist die Skalierung von Grafikchips für sie auch das Kriterium ab dem es sich lohnt und nicht nur die "disaggregation". Wer weiß - Philosophien sind ja oft etwas unterschiedlich in verschiedenen Firmen.
Exakt..

Sich als Erster in der Klasse zu melden hatte für sich alleine gesehen noch nie irgendeinen nachwirkenden Effekt.

Was wirklich nachwirkt, sind wohl überlegte Aussagen und dann auch Umsetzungen, und jeder große Player kennt die jeweiligen Entwicklungen am Markt, rechnet sich für sich aus, was das definierte Ziel sein soll und baut das anhand der eigenen IP-Entwicklungen und der am Markt vorhandenen Technologien zusammen. Ist man führend, kann man natürlich auch die Industrie schneller in eine Richtung bewegen, die eigenen Entwicklungen zum Vorteil wird.

Oft (nicht immer) macht die Menge an R&D eben aus, wieviel ich überhaupt forschen kann, wenn meine Organisation nicht gerade extrem ineffizient ist. Manche Player erledigen mit einem Bruchteil im Prinzip fast das gleiche.

Bei RDNA3 sieht man einen technologischen Schritt nach vorne, der aber im Endeffekt (ähnlich Fiji) nicht vollends überzeugt. Was AMD bei Fiji aber gelernt hat, das Design gleichzeitig nicht so teuer zu machen, das man es im Prinzip direkt einmotten kann und sofort wieder zurückrudert, und es dann lieber (auf Nummer sicher) iteriert.

Chiplets können sicher stark von Vorteil sein, und sie werden definitiv ab gewissen Metriken/Anforderungen benötigt, die Frage ist aber immer, ob der Konkurrent diese Metriken besser mit den gegebenen Randbedingungen umsetzen kann.

Wenn ich also vor allem maximale Flexibilität möchte (weil ich z.B. in vielen anderen Märkten schon Standbeine habe), kann ich eigentlich auch nicht erwarten, dass man ein Design schlägt, das stark auf Brute-Force in fast allen Metriken aus ist. Schon garnicht, wenn ich das auch einsehe und dann lieber stärker auf die Kosten/Risiken schaue.

Ob RDNA4 erfolgreich wird, bestimmt also nicht nur AMD selbst, man hat aber schonmal ganz gute Karten in der Hand, wenn man etwas agressiver zu Werke gehen würde. Ich sehe nur nicht, wie sie bei gegebener Mentalität wirklich an die Spitze kommen, da fehlt leider noch etwas Nachdruck.

HOT

2022-11-21, 09:15:02

AMD weiss, dass sie keine 1000$+ verkaufen können. Daher gibts auch keinen 400mm²-RDNA3-Chip. Die Strategie ist richtig, man muss nicht ganz oben mitspielen. Wenn man es zu vergleichbaren Kosten dann doch schafft ist es gut, wenn nicht, dann nicht. Und noch was ist richtig: Fokussierung auf Stromeffizienz. Für mich ist eigentlich nur wichtig, dass AMD die RT-Geschichte etwas unterschätzt zu haben scheint. Allerdings muss man hier auch bedenken, dass RDNA3 weniger Rohleistung mitbringt, was in der Sache auch ne Rolle spielen könnte.

robbitop

2022-11-21, 09:22:48

Naja wenn sie GCDs skalieren können, dann können sie relativ R&D neutral einen Productstack von ganz unten bis open End bauen. Mit einem GCD und einem MCD. Und wenn es nur dafür ist, ein paar zehn/hunderttausend Exemplare zu verkaufen und Benchmarks zu gewinnen. Vor allem wenn der Mitbewerber das noch nicht kann und ans Recticle Limit gebunden ist.

Iscaran

2022-11-21, 10:18:33

Die Entwicklungskosten beziehen sich auf die Kosten, die man JETZT hat wenn man einen dementsprechenden Chip entwickelt. Das sind nicht die Kosten, die man z.B. vor 15 Jahren hatte als 65nm noch neu war.

Steht das irgendwo im Artikel? Ich habe das schon so verstanden, dass das die jeweiligen Chipentwicklungskosten sind, basierend auf der Analyse echter releaster Chips?

Wenn es so ist wie du schreibst, dann ist es erst recht mumpitz die hohen Kosten zu betrachten, denn diese "relativieren" sich ja durch eine längere Nutzung des Nodes z.B.

fondness

2022-11-21, 10:54:01

Habe ich doch bereits benannt. Fijii. Und das war ein Rohrkrepierer. Erster zu sein ist nicht zwangsweise hilfreich.

Schön das du es bereits benannt hast, deshalb ist meine Aussage trotzdem nicht falsch. Und das erster zu sein nicht automatisch hilfreich ist habe ich nirgendwo bestritten.

Wieso denn "nobel" zurückhalten? Diese Entscheidung trifft man aufgrund einer Reihe von Kriterien. Und hier geht es auch nicht darum das toll oder nicht toll zu finden. Wir sind hier nicht im Kindergarten bei den Propellerjungs. Chiplets ist eine Technologie mit Vor und Nachteilen. Diese hängen sehr sehr stark vom jeweiligen Node, der Menge an Transistoren und Design ab. Je nach Permutation dieser Variablen (und sicherlich noch anderer) sieht die Entscheidungsmatrix dafür oder dagegen je Produkt anders aus.
Man sieht zB bei N33, dass es da für AMD Kriterien gab (6nm Node) die dann dagegen sprachen. Es ist sehr wahrscheinlich, dass das unterschiedlich eingeschätzt wird. Wenn es notwendig sein wird, ist es sehr wahrscheinlich, dass NV sich dafür auch entscheidet.

Klar kann man sich jetzt wie du hinstellen und so tun als hätte Nvidia alles in der Schublade liegen und müsste es nur ziehen wenn es Sinn macht. Was natürlich automatisch impliziert das es keinen Sinn macht, solange es Nvidia nicht verwendet. Ist halt eine etwas sehr einseitige Sichtweise. Den selben Blödsinn konnte man sich auch über Intel immer anhören, bis es halt irgendwann mal zu offensichtlich wurde das da doch nichts mehr in der Schublade liegt ;-).

Die Vorteile sind evident und überwiegen deutlich, ein monolithischer Navi31 wäre vor allem teurer und und nichts besser.

DrFreaK666

2022-11-21, 10:56:25

RDNA3 dreht sich rund um Chiplets. Und ich habe auch Relationen zwischen 7900 XTX und 4080 gepostet. Ich würde sagen, das ist nicht OT.

Apple und Nvidia ist eigentlich sehr OT

Zossel

2022-11-21, 10:58:02

Ich befürchte ja das Nvidia AMD noch überholen könnte bei Chiplets, weil Nvidia die größeren R&D Teams besitzt und mehr im Geld schwimmt um vom R&D bis zum fertigen Produkt alles schneller hinkriegen könnte und sie im schlimmsten Fall (für AMD) die neuesten Stacking Methoden zur gleichen Zeit verwenden dürfen.

So ein Vorsprung kann sich halt auch mal schnell in Luft auflösen, wenn die anderen Firma in Geld schwimmt und viel größere R&D Teams besitzt.

https://www.heise.de/news/Maskierte-Interrupts-und-mythische-Mann-Monate-Zum-Tode-von-Fred-Brooks-7346587.html

Zossel

2022-11-21, 11:00:14

Allerdings, ich sehe immer noch nicht warum wir Preise von einem VIELFACHEN für GPUs wie früher sehen (inflationsbereinigt). (Vergleich zur HD 3850 usw.)

Der einzelne Transistor wird nicht mehr billiger sondern eher teurer und es werden auch mehr Transistoren.

Slipknot79

2022-11-21, 11:12:42

Da die 4080 bei den Händlern "liegen bleibt", weil wer 1500EUR für eine 4080 hat, der hat auch +2000EUR für eine 4090.
Can man aber auch auf die 7900XTX ummünzen oder? Wer 1300-1400EUR für eine XTX hat, der hat die Kohle auch für eine 4090. ----> XTX "bleibt auch liegen"? (y)

DrFreaK666

2022-11-21, 11:16:09

... Wer 1300-1400EUR für eine XTX hat, der hat die Kohle auch für eine 4090. ----> XTX "bleibt auch liegen"? (y)

Wer 1400€ locker hat, hat auch 2400€ locker?

Slipknot79

2022-11-21, 11:22:47

Ja, warum nicht. (y)
Wer nen Kind durchfüttern muss, der behält lieber 1400EUR wie auch 2400EUR für das Kind?

4080 "liegt" deswegen ja rum.

Gipsel

2022-11-21, 11:41:26

Der Quote jetzt nur mal als Beispiel:
Eine Matrix Unit schafft pro Takt schnell mal knapp eine Größenordnung mehr Durchsatz bei Matritzen ggü den Vektor fpus für wenige Prozent an Mehrtransistoren pro SM.
Das ist normalerweise nicht so viel, zumindest für die etwas größeren Datentypen. NVs Tensorcores bringen (bei dichten Matrizen) z.B. nur Faktor 4 mit FP16 (und auch nur Faktor 4 zu FP32 auf den ALUs), bei FP16 mit FP32 Accumulate sogar nur Faktor 2.

Und angesichts der Diskussion um die "gleichzeitige" Ausführung gibt vermutlich gewisse Mißverständnisse, wie das eigentlich funktioniert.
Zuerst mal: Die Tensorcores (oder die Matrixcores bei AMDs CDNA) erhalten ihre Instruktionen vom gleichen Scheduler, an dem auch die SIMD-/Vektor-ALUs hängen und die Operanden kommen auch aus dem gleichen Registerfile. Insofern nimmt eine Tensor-/Matrixcore-Instruktion immer den "normalen" Vektorinstruktionen Scheduling-Resourcen und Registerfile-Bandbreite weg. Im Prinzip funktioniert das ähnlich wie die SFUs (oder die DP-Einheiten), an die man eine Instruktion absetzt und die Einheiten sind dann erstmal z.B. 4 (oder 16 oder 32) Takte beschäftigt, bevor die eine neue Instruktion bekommen können. In der Zwischenzeit können aber natürlich andere Instruktionen an andere Einheiten abgesetzt werden.

Insgesamt bringen Matrixeinheiten Vorteile, weil man die Registerfile-Bandbreite effizienter nutzt (Wiederbenutzung der Operanden bei der Matrixoperation). Ein Register (für eine komplette Wavefront/Warp) enthält z.B. 32 FP32 Werte. Eine FMA Anweisung D = AxB+C benötigt 512Byte Registerbandbreite für 64 Flops. Für (gepackte) FP16 (unterstützt nV nicht auf den Vektoreinheiten, AMD schon) wären das dann pro Register 64 Werte und dann 128 FP16 Flops bei einem FMA.
Eine Matrix/Tensorcore-Anweisung interpretiert jetzt z.B. die 64 FP16-Werte in einem Register jetzt nicht als Vektor, sondern z.B. als 8x8 Matrix (bzw. Tile einer größeren Matrix). Der Vorteil ist jetzt, daß jeder Operand nicht nur 1x genutzt wird, sondern 8 Mal. eine 8x8 Matrix Multiplikation mit Accumulate erfordert 8x8x8 FMAs und somit 1024 FP16 Flops bei den gleichen Anforderungen an die Registerbandbreite (und die kostet mächtig Strom). Man sieht aber praktisch keinen 8x Vorteil, weil die Tensorcores eben nicht jeden Takt eine neue Instruktion annehmen können (und wenn sie es könnten, wäre keine Scheduler oder Registerfilebandbreite mehr für andere Instruktionen übrig). Die "gleichzeitige" Ausführung relativiert sich also etwas. Und man landet bei FP16 (oder BF16) mit FP16 Accumulate bei Faktor 4 Vorteil (bei FP32 Accumulate nur noch Faktor 2). AMDs Unterstützung von packed FP16 und BF16 auf den vALUs erlaubt Faktor 2. Und ich vermute mal, daß das Kalkül sagt, daß ein Registerfilecache einen Teil der Stromersparnis durch den Reuse von Operanden ebenfalls realisieren kann.

Exxtreme

2022-11-21, 11:50:50

Can man aber auch auf die 7900XTX ummünzen oder? Wer 1300-1400EUR für eine XTX hat, der hat die Kohle auch für eine 4090. ----> XTX "bleibt auch liegen"? (y)

Nein. 1k € Unterschied sind schon eine heftige Hausnummer. Selbst wenn man einen neuen PC kauft. Denn für 1k € bekommt man schon den restlichen PC. :freak: AMD will wohl mit voller Absicht unter der 1k $-Marke bleiben. Nvidia ist da deutlich drüber mit beiden Grafikkarten. Ich wette, die potentiellen RTX 4080-Käufer warten jetzt wie sich die 7900 XTX so schlägt.

Iscaran

2022-11-21, 12:05:03

Der einzelne Transistor wird nicht mehr billiger sondern eher teurer und es werden auch mehr Transistoren.

Nein, das kann man so nicht sagen. Eher das Gegenteil und gerade beim Sprung von 7nm auf 5nm scheint sich am Preis pro Transistor eher ganz schön was getan zu haben (und zwar nach UNTEN!).
Jahr | Node nm | "IC-Development Costs [Mio. $]" | GPU | Mio Trans. | $-cent/Trans
2005 | 65 | 28.5 | 2600 XT | 390 | 7.308
2008 | 40 | 37.7 | HD 5870 | 2154 | 1.750
2011 | 28 | 51.3 | HD 7970 | 4313 | 1.189
2012 | 22 | 70.3 | | |
2014 | 16 | 106.3 | RX 480 | 5700 | 1.865
2017 | 10 | 174.4 | | |
2018 | 7 | 297.8 | RX 5700XT | 10300 | 2.891
2020 | 5 | 542.2 | RX 7900XTX | 58000 | 0.935

Es stimmt dass von 28 bis 7nm der Preis pro Transistor offenbar gestieten ist, aber wenn der Artikel und die Grafik stimmt, ist der Entwicklungskostenpreis pro Transistor dann bei N7 => N5 deutlich gefallen!

Auch von 2005 - 2011 sind die Preise eher dramatisch gefallen pro Transistor...dann stiegen sie eine zeitlang. Allerdings wurden in der Zeit danach auch z.T. MEHRERE Generationen von Chips auf demselben Node gefertigt (habe jetzt immer nur das ERSTE auftauchen eines Chips als Basis genommen für die Berechnung)

robbitop

2022-11-21, 12:22:43

Schön das du es bereits benannt hast, deshalb ist meine Aussage trotzdem nicht falsch.
Habe ich auch nie gesagt. :|

Und das erster zu sein nicht automatisch hilfreich ist habe ich nirgendwo bestritten.
Habe ich auch nicht gesagt.

Klar kann man sich jetzt wie du hinstellen und so tun als hätte Nvidia alles in der Schublade liegen und müsste es nur ziehen wenn es Sinn macht. Was natürlich automatisch impliziert das es keinen Sinn macht, solange es Nvidia nicht verwendet. Ist halt eine etwas sehr einseitige Sichtweise. Den selben Blödsinn konnte man sich auch über Intel immer anhören, bis es halt irgendwann mal zu offensichtlich wurde das da doch nichts mehr in der Schublade liegt ;-).
*seufz*
Ich habe gesagt, dass man damit rechnen muss, dass Nvidia nicht untätig ist und dass sie sehr wahrscheinlich daran arbeiten und sich der Wettbewerb nicht darauf verlassen sollte, dass sie da zurückliegen. Sie haben nur noch kein Massenprodukt veröffentlicht. (hat Apple auch nie und zack: kam M1 Ultra aus dem nichts)
Und dass es generell keinen Sinn macht, so lange NV es nicht verwendet hat auch keiner gesagt. Sondern nur, dass es für NV und ihre Produktpermutation offenbar noch keinen Sinn macht und sie ggf. anders gewichtete Kriterien haben.

Immer dieses schwarz weiß und dieses IHV A vs B. Ich kann es nicht nachvollziehen und finde es wirklich kindisch.

Die Vorteile sind evident und überwiegen deutlich, ein monolithischer Navi31 wäre vor allem teurer und und nichts besser.
Ich finde das ist eine sehr gewagte Aussage dafür, dass sämtliche Details in der Öffentlichkeit nicht bekannt sind. Das wissen wir nicht. Wir wissen nicht, wie viel mehr Energie das kostet und wir wissen, dass sie 20 USD pro N31 sparen. Und soweit ich weiß war in Ians Rechnung die 10% die space die man investieren muss noch nicht drin.
Und selbst wenn muss das noch lange nicht das gleiche für die Permutation an Kritierien für Nvidia stimmen. Und ggf. ist der Vorteil schon da aber noch nicht so ausgeprägt wie er mit zunehmenden Nodes sein wird.

Der Quote jetzt nur mal als Beispiel:

Das ist normalerweise nicht so viel, zumindest für die etwas größeren Datentypen. NVs Tensorcores bringen (bei dichten Matrizen) z.B. nur Faktor 4 mit FP16 (und auch nur Faktor 4 zu FP32 auf den ALUs), bei FP16 mit FP32 Accumulate sogar nur Faktor 2.

Ada hat IIRC eine Verdopplung des Durchsatz der Tensor Cores. FP32 Faktor 8 und FP16 Faktor 4. Und wenn man sparsity nutzt, bekommt man noch mehr auf die Straße.

amdfanuwe

2022-11-21, 12:30:02

Chiplets auf dem Papier in der Schublade oder im Labor zu haben ist etwas anderes als in der Massenproduktion.
Bei ZEN3 hat es ja auch nochmal einen Refresh benötigt für 3D.

Von daher ist jetzt RDNA3 der Testlauf für die neue Technik, die beim nächsten Einsatz weiter optimiert wird. Ich denke AMD hat als Notfallplan noch N31 Monolithisch in der Schublade.

Die Frage ist eher, was plant AMD mit dieser Packaging Technik als nächstes?
Bei den ganzen Packaging Techniken geht es ja nur um
-Bandbreite
-Stromverbrauch
-Kosten

AMD kann jetzt auf 4 Verschiedene Techniken zugreifen
-Interposer ( teuer )
-On Package ( EPYC, Ryzen )
-Stacked Metall on Metall ( 3D )
-FanOut ( RDNA3 )

Dazu Top CPU, GPU, FPGA. Alles wichtige Punkte für einen Semicustom Anbieter.

robbitop

2022-11-21, 12:34:48

Der ganze Kram ist Packaging Technik von TSMC. Den kann jeder ihrer Kunden nutzen. Und wie gesagt: Apple kam auch aus dem Nichts mit einer mGPU (mit TSMC Packaging Technik). Oder NV mit HBM und Silicon Interposer mit Volta ohne das lange vorher anzukündigen. Ein Serienprodukt zu haben bedeutet da nicht viel. Iterationen kann man auch mit Kleinserien und Mockups machen.
Wir wissen nicht, was wer schon alles gemacht hat. Man kann natürlich vieles lange vorher ankündigen - muss man aber nicht.

fondness

2022-11-21, 12:37:36

*seufz*
Ich habe gesagt, dass man damit rechnen muss, dass Nvidia nicht untätig ist und dass sie daran arbeiten.
Und dass es generell keinen Sinn macht, so lange NV es nicht verwendet hat auch keiner gesagt. Sondern nur, dass es für NV und ihre Produktpermutation offenbar noch keinen Sinn macht und sie ggf. anders gewichtete Kriterien haben.

Oder sie sind technisch einfach noch nicht so weit und haben andere Schwerpunkte gesetzt. Aber ich weiß schon, sowas ist natürlich denkunmöglich ;-). Immer dieses schwarz weiß und IHV A vs B, richtig kindisch ;-) (und ja du hast angefangen mit dieser kindischen persönlichen anmache, nicht ich).

Ich finde das ist eine sehr gewagte Aussage dafür, dass sämtliche Details in der Öffentlichkeit nicht bekannt sind. Das wissen wir nicht. Wir wissen nicht, wie viel mehr Energie das kostet und wir wissen, dass sie 20 USD pro N31 sparen. Und soweit ich weiß war in Ians Rechnung die 10% die space die man investieren muss noch nicht drin.
Und selbst wenn muss das noch lange nicht das gleiche für die Permutation an Kritierien für Nvidia stimmen. Und ggf. ist der Vorteil schon da aber noch nicht so ausgeprägt wie er mit zunehmenden Nodes sein wird.

Glaubst du wirklich AMD würde es machen, wenn es keinen Sinn machen würden? Völlig absurde Vorstellung, das bedeutet einen erheblichen technischen und logistischen Mehraufwand. Das würde man mit Sicherheit nicht machen, wenn man sich nicht sehr sicher ist. Diese ganzen Berechnungen von außen sind irgendwelche Schätzungen, niemand außer AMD weiß, was die Parameter wirklich sind.

aceCrasher

2022-11-21, 12:40:16

Glaubst du wirklich AMD würde es machen, wenn es keinen Sinn machen würden? Völlig absurde Vorstellung, das bedeutet einen erheblichen technischen und logistischen Mehraufwand. Das würde man mit Sicherheit nicht machen, wenn man sich nicht sehr sicher ist. Diese ganzen Berechnungen von außen sind irgendwelche Schätzungen, niemand außer AMD weiß, was die Parameter wirklich sind.
Es kann mmn durchaus sein dass AMD es aktuell hauptsächlich macht um Erfahrung zu sammeln.

fondness

2022-11-21, 12:42:42

Es kann mmn durchaus sein dass AMD es aktuell hauptsächlich macht um Erfahrung zu sammeln.

Da haben sie wohl schon genug mit CPUs gesammelt bzw reicht da wohl auch ein Prototyp. Deshalb geht man wohl kaum ein solches Risiko ein.

Sunrise

2022-11-21, 12:43:03

Die Vorteile sind evident und überwiegen deutlich, ein monolithischer Navi31 wäre vor allem teurer und und nichts besser.
Im Endeffekt kann man als Außenstehender nur sagen:

Navi31 sollte eben genau so aussehen, deshalb kann man nicht einfach einen Monolithen daraus machen.

Was man aber IMHO nicht sagen kann:

Navi31 konnte garnicht besser werden. Das ist IMHO falsch. Das impliziert zuviele Vermutungen und Aufwände, die AMD hatte, die man aber auch (mit anderem Ziel >$1000) hätte angehen können. Sie wollten ganz bewusst auf Kosten und hohe Ausbeute gehen, der dritte Faktor (schnellere Verfügbarkeit) ist wohl leider aufgrund der Komplexität des Designs unter den Tisch gefallen.

fondness

2022-11-21, 12:49:43

Im Endeffekt kann man als Außenstehender nur sagen:

Navi31 sollte eben genau so aussehen, deshalb kann man nicht einfach einen Monolithen daraus machen.

Was man aber IMHO nicht sagen kann:

Navi31 konnte garnicht besser werden. Das ist IMHO falsch. Das impliziert zuviele Vermutungen und Aufwände, die AMD hatte, die man aber auch (mit anderem Ziel >$1000) hätte angehen können.

Das stimmt natürlich. Mit anderen Parametern würde es anders aussehen, aber das ist dann reine Spekulation was da raus gekommen wäre. AMD war offensichtlich der Meinung so das maximum raus zu holen.

robbitop

2022-11-21, 12:56:21

Oder sie sind technisch einfach noch nicht so weit und haben andere Schwerpunkte gesetzt. Aber ich weiß schon, sowas ist natürlich denkunmöglich ;-). Immer dieses schwarz weiß und IHV A vs B, richtig kindisch ;-) (und ja du hast angefangen mit dieser kindischen persönlichen anmache, nicht ich).

Auf dich trifft es eben zu - du differenzierst hier erkennbar nicht mehr. Ich habe auch nicht gesagt, dass es "denkunmöglich" (ist das überhaupt ein deutsches Wort?) ist sondern, dass man als Wettbewerber lieber damit rechnen sollte, dass sie es tun. Natürlich ist es möglich, dass sie hinter her hinken. Seit NV30 ist Nvidia praktisch nicht mehr abgerutscht. Also auf den worst case gewappnet sein. Ich gehe davon aus, dass das AMD Führungsteam auch eher Richtung worst case schaut um weiterhin so gut zu executen und nicht überrascht zu werden.

Glaubst du wirklich AMD würde es machen, wenn es keinen Sinn machen würden? Völlig absurde Vorstellung, das bedeutet einen erheblichen technischen und logistischen Mehraufwand. Das würde man mit Sicherheit nicht machen, wenn man sich nicht sehr sicher ist. Diese ganzen Berechnungen von außen sind irgendwelche Schätzungen, niemand außer AMD weiß, was die Parameter wirklich sind.
AMD hat schon mal Dinge gemacht, die nicht optimal waren (HBM bei Fijii und Vega z.B). Und das kann auch jedem Mal passieren. Aus meiner Sicht gibt es bei etwas was viele Permutationen an Kriterien hat nicht den einen Punkt ab dem eine Technologie ganz offen und unumstößlich und generell die einzig richtige Entscheidung ist. Das sind anfänglich Nuancen. :)

Gipsel

2022-11-21, 13:04:14

Nein, das kann man so nicht sagen. Eher das Gegenteil und gerade beim Sprung von 7nm auf 5nm scheint sich am Preis pro Transistor eher ganz schön was getan zu haben (und zwar nach UNTEN!).
Jahr | Node nm | "IC-Development Costs [Mio. $]" | GPU | Mio Trans. | $-cent/Trans
2005 | 65 | 28.5 | 2600 XT | 390 | 7.308
2008 | 40 | 37.7 | HD 5870 | 2154 | 1.750
2011 | 28 | 51.3 | HD 7970 | 4313 | 1.189
2012 | 22 | 70.3 | | |
2014 | 16 | 106.3 | RX 480 | 5700 | 1.865
2017 | 10 | 174.4 | | |
2018 | 7 | 297.8 | RX 5700XT | 10300 | 2.891
2020 | 5 | 542.2 | RX 7900XTX | 58000 | 0.935

Es stimmt dass von 28 bis 7nm der Preis pro Transistor offenbar gestieten ist, aber wenn der Artikel und die Grafik stimmt, ist der Entwicklungskostenpreis pro Transistor dann bei N7 => N5 deutlich gefallen!Du vergleichst da die Entwicklungskosten über unterschiedliche große Chips! Bei den Kosten pro Transistor muß man natürlich die eigentlichen Produktionskosten (Waferpreis, Yield) zugrunde legen. ;)

==========================

Ada hat IIRC eine Verdopplung des Durchsatz der Tensor Cores.Das stimmt für Ada. Da kommt man mit FP16 (und FP16 Accumulates) tatsächlich auf das von mir genannte (ohne größere Änderungen auch das theoretische) Maximum von Faktor 8 im Vergleich zu Vektoreinheiten. Dies erschlägt dann allerdings auch die "Gleichzeitigkeit" der Ausführung, weil dann die Tensorcores dauerhaft die gleiche Registerbandbreite fressen wie normale Vektor-FMAs. Es bleibt dann also quasi nicht mehr viel für andere Instruktionen übrig (Speicheroperationen gibt es ja auch noch).

fondness

2022-11-21, 13:05:03

Auf dich trifft es eben zu

Deine Meinung. So wie ich meine Meinung über Dich habe. Trotzdem würde ich sowas hier niemals teilen, weil das hier ein technisches forum ist wo persönliche anmache nichts verloren hat.

AMD hat schon öfter mal Dinge gemacht, die sinnlos waren (HBM bei Fijii z.B). Und das kann auch jedem Mal passieren. Aus meiner Sicht gibt es bei etwas was viele Permutationen an Kriterien hat nicht den einen Punkt ab dem eine Technologie ganz offen und unumstößlich und generell die einzig richtige Entscheidung ist. Das sind anfänglich Nuancen. :)

Ich finde sowas immer spannend. Wäre RDNA3 eine konkurrenzlos gute architektur, dann würde jetzt jeder sagen wie genial dieser Chiplet Ansatz nicht ist. Weil RDNA3 nicht konkurrenzfähig ist glaubt man jetzt das macht keinen Sinn. Man sollte zwischen technischen Lösungen und der zugrunde liegenden Architektur schon unterscheiden. Der Chiplet Ansatz ermöglicht AMD Kosten einzusparen und somit N31 preislich konkurrenzfähig zu platzieren. Das macht die Architektur nicht besser, aber es ist ein Vorteil. Ganz davon abgesehen, dass sie bei einem Single die vermutlich keinen vollen Chip bringen könnten.

Tangletingle

2022-11-21, 13:10:13

basix

2022-11-21, 13:13:51

RDNA3 ist konkurrenzfähig. Nur halt nicht beim Top Dog. Und das liegt hauptsächlich an der RT-Performance, bei den restlichen Metriken ist AMD ja gut dabei.

Und AMD hat geschnallt, dass man für einen non-Top-Dog schwer >999$ verlangen kann. Nvidias 4080 zeigt das momentan sehr gut auf.

fondness

2022-11-21, 13:14:45

Ja klar, das war nur verkürzt dargestellt ;-). Jedenfalls liegt es nicht an den Chiplets, dass man in raytracing nicht schneller ist.

robbitop

2022-11-21, 13:15:26

Deine Meinung. So wie ich meine Meinung über Dich habe. Trotzdem würde ich sowas hier niemals teilen, weil das hier ein technisches forum ist wo persönliche anmache nichts verloren hat.

Das kann man ganz objektiv in diesem Thread feststellen. Du bewertest Chiplets in dieser Diskussion schwarz/weiß. Entweder machen sie keinen Sinn oder sie machen eindeutig Sinn (nach deiner Darstellung). Null Differenzierung. Und du wirst sofort getriggert. Kann man hier 1:1 nachlesen. Das ist keine Meinung - das ist Fakt. Das ist auch keine persönliche Anmache sondern eine Kritik an deinem Diskussionsstil im Zusammenhang mit dem Thema der Bewertung von Chiplets in diesem Thread. Diese Kritik übte ich mit Zitaten, dazugehörigen Argumenten und Begründung über die letzten Posts aus. Und das ist legitim.

Ich finde sowas immer spannend. Wäre RDNA3 eine konkurrenzlos gute architektur, dann würde jetzt jeder sagen wie genial dieser Chiplet Ansatz nicht ist. Weil RDNA3 nicht konkurrenzfähig ist glaubt man jetzt das macht keinen Sinn. Man sollte zwischen technischen Lösungen und der zugrunde liegenden Architektur schon unterscheiden. Der Chiplet Ansatz ermöglicht AMD Kosten einzusparen und somit N31 preislich konkurrenzfähig zu platzieren. Das macht die Architektur nicht besser, aber es ist ein Vorteil.
Zumindest ich habe kein konkretes RDNA3 Produkt und irgendwelche Benchmarks zu diesem als Rückschluss über Chiplets genommen. (aber die bloße Hinterfragung von Chiplets scheint dich zu triggern, dass du diese unwahre Aussage triffst) Ich habe auch gar nicht N31 oder RDNA3 im Zusammenhang mit Chiplets kritisiert* sondern lediglich zwei Hauptaussagen getroffen:

1. man sollte damit rechnen, dass andere IHVs auch Chiplets in der Mache haben (um nicht überrascht zu werden)
2. es ist nicht klar, ob die Entscheidung Chiplets zu nutzen etwas ist, was bereits universell und eindeutig gilt oder eher an unterschiedlich gewichteten Entscheidungskriterien und es ggf. noch nicht universell eindeutig ist. Ich vermute eher, dass wir uns noch in einer Übergangszeit befinden, wo es nicht universell eindeutig ist.
Es kann natürlich für N31 und AMDs Entscheidungskriterien eindeutig sein - das muss nicht zwangsläufig heißen, dass das auch für alle anderen GPUs und andere ASICs gilt.

*übrigens ganz im Gegenteil erwäge ich persönlich sogar den Kauf einer 7900 XTX; und ein Zen4 ist dank einer Nicht-Upgradesackgasse fest eingeplant; und mein Server läuft seit dieser Woche mit einem 5950X dank günstiger 16C und Wiederbelebung der AM4 Plattform -> seit dieser Woche den 1700 ausgetauscht
mir ist es wirklich egal von welchem IHV ein Produkt ist solange es gut ist und P/L stimmt. Ob Intel, AMD oder Nvidia -> egal. Preis-Leistung. Dennoch kann man kontrovers über alle möglichen Aspekte einer uArch oder dessen physischen Umsetzung diskutieren und kritisieren.

DrFreaK666

2022-11-21, 13:28:12

Ja, warum nicht. (y)
Wer nen Kind durchfüttern muss, der behält lieber 1400EUR wie auch 2400EUR für das Kind?

4080 "liegt" deswegen ja rum.

Das hat mit dem Gehalt zu tun.
Als Single mit 1800 netto gebe ich bestimmt auch keine 2400€ für ne 4090 aus, wenns noch andere Sachen zu zahlen gibt.
Und mit ner Familie spart man vielleicht noch eher auf einen gemeinsamen Urlaub, statt auf ne überteuerte Grafikkarte für Papa

robbitop

2022-11-21, 13:28:42

Ich find's sowieso lustig, dass hier rdna3 als schlechte mArch dargestellt wird. Das Teil ist bei Raster aller Voraussicht nach mind. auf Höhe mit Ada. Was soll also der Blödsinn? Weil AMD raytracing nicht massiv verbessert? Come on!

RDNA3 ist konkurrenzfähig. Nur halt nicht beim Top Dog. Und das liegt hauptsächlich an der RT-Performance, bei den restlichen Metriken ist AMD ja gut dabei.

Und AMD hat geschnallt, dass man für einen non-Top-Dog schwer >999$ verlangen kann. Nvidias 4080 zeigt das momentan sehr gut auf.

Ja klar, das war nur verkürzt dargestellt ;-). Jedenfalls liegt es nicht an den Chiplets, dass man in raytracing nicht schneller ist.

Sagt doch auch niemand. :|
Die 7900 XTX ist für den Preis gemessen an der 4080 mit ihrem Preis das Produkt mit dem ~20% besserem P/L. Wenn man RT/Raster verrechnet, kommt man dann sogar auf Gleichstand. Für 20% weniger Preis bei 50% mehr VRAM.

Das hat mit dem Gehalt zu tun.
Als Single mit 1800 netto gebe ich bestimmt auch keine 2400€ für ne 4090 aus, wenns noch andere Sachen zu zahlen gibt
Oder mit Prinzipien / Umgang mit Geld / Preis-Leistung. ;)

fondness

2022-11-21, 13:33:02

Das kann man ganz objektiv in diesem Thread feststellen. Du bewertest Chiplets in dieser Diskussion schwarz/weiß. Entweder machen sie keinen Sinn oder sie machen eindeutig Sinn. Null Differenzierung. Und du wirst sofort getriggert. Kann man hier 1:1 nachlesen. Das ist keine Meinung - das ist Fakt. Das ist auch keine persönliche Anmache sondern eine Kritik an deinem Diskussionsstil. Mit Zitaten, dazugehörigen Argumenten und Begründung über die letzten Posts. Und das ist legitim.

Du willst diese Kindergartendiskussion auf persönlicher Ebene hier echt immer noch weiterführen? :) Nur soviel, diese Unterstellung ist falsch, ich sage nur AMD hätte es nicht gemacht wenn es keinen Sinn machen würde. Soll ich mich jetzt auch über deiner Person oder deinen Diskussionsstil auslassen oder können wir uns darauf einigen wieder auf sachliche Eben zurück zu kehren? :)

Zumindest ich habe kein konkretes RDNA3 Produkt und irgendwelche Benchmarks zu diesem als Rückschluss über Chiplets genommen. Ich habe auch gar nicht N31 oder RDNA3 kritisiert sondern lediglich zwei Hauptaussagen getroffen:

1. man sollte damit rechnen, dass andere IHVs auch Chiplets in der Mache haben
2. es ist nicht klar, ob die Entscheidung Chiplets zu nutzen etwas ist, was bereits universell und eindeutig gilt oder eher an unterschiedlich gewichteten Entscheidungskriterien und es ggf. noch nicht universell eindeutig ist.
Es kann natürlich für N31 und AMDs Entscheidungskriterien eindeutig sein - das muss nicht zwangsläufig heißen, dass das auch für alle anderen GPUs und andere ASICs gilt.

übrigens ganz im Gegenteil erwäge ich persönlich sogar den Kauf einer 7900 XTX; und ein Zen4 ist dank einer Nicht-Upgradesackgasse fest eingeplant; und mein Server läuft seit dieser Woche mit einem 5950X dank günstiger 16C und Wiederbelebung der AM4 Plattform -> seit dieser Woche den 1700 ausgetauscht
mir ist es wirklich egal von welchem IHV ein Produkt ist solange es gut ist und P/L stimmt. Ob Intel, AMD oder Nvidia -> egal. Preis-Leistung.

Meine Kernaussage war sogar noch viel einfacher, nämlich das sich AMD dadurch einiges an Kosten spart und man es nicht gemacht hätte wenn es keinen Sinn machen würde. :)

Und ist ja lieb das du jetzt hier erwähnst den Kauf einer AMD Produktes zu erwägen. Ich habe im übrigen sogar eine NV-Karten, ganz einfach weil es für die Arbeit Sinn macht. Würde es aber nicht für nötig befinden das hier extra zu erwähnen.

robbitop

2022-11-21, 13:35:49

Du willst diese Kindergartendiskussion auf persönlicher Ebene hier echt immer noch weiterführen? :) Nur soviel, diese Unterstellung ist falsch, ich sage nur AMD hätte es nicht gemacht wenn es keinen Sinn machen würde. Soll ich mich jetzt auch über deiner Person auslassen oder können wir uns darauf einigen wieder auf sachliche Eben zurück zu kehren? :)
LOL ok also komplett die Fakten abstreiten? Ok. Null Selbstreflexion und so einige Unwahrheiten verbreitet - aber gut kann ja hier jeder nachlesen. Was solls.

Meine Kernaussage war sogar noch viel einfacher, nämlich das sich AMD dadurch einiges an Kosten spart und man es nicht gemacht hätte wenn es keinen Sinn machen würde. :)
Was ich nie angezweifelt habe. Es ging aber eben genau um Nvidia und du hast Chiplets als die universal (auch für andere IHVs) richtige Entscheidung tituliert. Und dem kann man ohne Kenntnisse vieler Randbedingungen nicht uneingeschränkt zustimmen.

Und ist ja lieb das du jetzt hier erwähnst den Kauf einer AMD Produktes zu erwägen. Ich habe im übrigen sogar eine NV-Karten, ganz einfach weil es für die Arbeit Sinn macht. Würde es aber nicht für nötig befinden das hier extra zu erwähnen.
Ich erwähne das nur um zu zeigen, dass ich null bias habe.

fondness

2022-11-21, 13:44:44

LOL ok also komplett die Fakten abstreiten? Ok. Null Selbstreflexion und so einige Unwahrheiten verbreitet - aber gut kann ja hier jeder nachlesen. Was solls.

Weißt du was, ich belasse es dabei, auch wenn du es offensichtlich nicht lassen kannst. :)

Was ich nie angezweifelt habe. Es ging aber eben genau um Nvidia und du hast Chiplets als die universal (auch für andere IHVs) richtige Entscheidung tituliert. Und dem kann man ohne Kenntnisse vieler Randbedingungen nicht uneingeschränkt zustimmen.

Meine Meinung darf ich hier aber schon noch vertreten ohne von dir persönlich angemacht zu werden? Ja, ich glaube dass der Chiplet-Ansatz deutliche Vorteile hat, dafür gibt es auch mehr als genug Evidenz die direkt von AMD kommt. Und ich glaube weiters, dass auch NV und Intel in absehbarer Zeit darauf aufspringen werden. Das mag für einzelnen Design und Rahmenbedingungen anders aussehen, aber gerade vs riesigen monolithischen Dies werden Multi-Chip-Ansätze ihre Vorteile haben.

Ich erwähne das nur um zu zeigen, dass ich null bias habe.

Ich erwäge es nicht nur, ich habe sogar eine NV-Karte. Dann bin ich ja praktisch 0.0 bias :D

robbitop

2022-11-21, 13:53:18

Meine Meinung darf ich hier aber schon noch vertreten ohne von dir persönlich angemacht zu werden? Ja, ich glaube dass der Chiplet-Ansatz deutliche Vorteile hat, dafür gibt es auch mehr als genug Evidenz die direkt von AMD kommt. Und ich glaube weiters, dass auch NV und Intel in absehbarer Zeit darauf aufspringen werden.
Persönlich angemacht werden =! Diskussionsstil kritisieren.

Wenn Meinung ist, dass der Fakt dass Chiplets für N31 genutzt wurden als Beleg dafür gilt, dass es die universell richtige Technologie für alle GPUs heute, hier und jetzt ist (und wer es nicht nutzt ist hintendran) ist etwas dünn. Eben weil uns praktisch keine Randbedingungen vorliegen.

Ich erwäge es nicht nur, ich habe sogar eine NV-Karte. Dann bin ich ja praktisch 0.0 bias :D
Das kannst nur du selbst für dich bestätigen/wissen. Unabhängig davon: Ich finde Fanboytum extrem dumm und kann für mich zumindest sagen, dass ich nie einer war (vielleicht 3dfx in den 90ern). Es wird immer zum besten P/L gekauft (für das Leistungsminimum was ich will). Das Konzept "Fan" von einer Firma zu sein, die Geld verdient, ist einfach nur bescheuert.

fondness

2022-11-21, 13:59:37

Persönlich angemacht werden =! Diskussionsstil kritisieren.

Ansichtssache. :)
Hat jedenfalls hier nichts verloren, ich kritisieren schließlich auch nicht deinen Stil. Weil es zumindest mir um eine technische Diskussion geht.

Wenn Meinung ist, dass der Fakt dass Chiplets für N31 genutzt wurden als Beleg dafür gilt, dass es die universell richtige Technologie für alle GPUs heute, hier und jetzt ist (und wer es nicht nutzt ist hintendran) ist etwas dünn. Eben weil uns praktisch keine Randbedingungen vorliegen.

Hajajei, "universell richtige Technologie für alle GPUs heute". Das habe ich so nie gesagt und das weißt du auch. Kann ich also nur als Provokation werten, warum auch immer. Ergibt auch keinen Sinn, selbst AMD verwendet es nicht für alle GPUs.

Iscaran

2022-11-21, 14:03:05

Du vergleichst da die Entwicklungskosten über unterschiedliche große Chips! Bei den Kosten pro Transistor muß man natürlich die eigentlichen Produktionskosten (Waferpreis, Yield) zugrunde legen. ;)

Es wurde aber über die Entwicklungkosten diskutiert und darüber, dass diese ja mit dem Transistorcount steigen.

Für die Auflistung habe ich immer die Top-Dogs Chips genommen von der Generation in welcher der Prozessnode bei AMD auftauchte (sofern mir kein Fehler unterlaufen ist).

Die Aussage, dass die ENTWICKLUNGSkosten - über die wir hier reden von der Anzahl der Transistoren abhängt stammt nicht von mir (sondern von Zossel) ;).

Unabhängig davon aber: muss man nicht zwingend die Produktionskosten nur betrachten. Die Entwicklungskosten/Transistor sind durchaus eine interessante Metrik.
Noch besser wäre es natürlich BEIDES (Entwicklungs- UND Produktionskosten) zu nehmen.

robbitop

2022-11-21, 14:12:09

Ansichtssache. :)
Nein Fakt. Das sind zwei verschiedene Dinge. Thema Differenzierung.

Hajajei, "universell richtige Technologie für alle GPUs heute". Das habe ich so nie gesagt und das weißt du auch. Kann ich also nur als Provokation werten, warum auch immer. Ergibt auch keinen Sinn, selbst AMD verwendet es nicht für alle GPUs.

Zumindest habe ich dich so verstanden, dass Nvidia es auch nutzen würde, wenn sie es denn könnten und es die richtige Technologie im Generellen ist. Hier ein paar Quotes die das implizieren:

Ansonsten überwiegen die Vorteile offensichtlich deutlich. Die benötigte chipflache ist in der Kostenersparnis natürlich schon berücksichtigt. So zu tun, als ob man sich bei Nvidia nobel zurück hält, ist etwas seltsam. Nvidia wird auch über kurz oder lang damit ankommen, dann werden es wieder alle toll und notwendig finden ;-)

Und hier nimmst du N31 als Beweis, dass es auch für NV die richtige Lösung wäre

Klar kann man sich jetzt wie du hinstellen und so tun als hätte Nvidia alles in der Schublade liegen und müsste es nur ziehen wenn es Sinn macht. Was natürlich automatisch impliziert das es keinen Sinn macht, solange es Nvidia nicht verwendet. Ist halt eine etwas sehr einseitige Sichtweise. Den selben Blödsinn konnte man sich auch über Intel immer anhören, bis es halt irgendwann mal zu offensichtlich wurde das da doch nichts mehr in der Schublade liegt ;-).

Die Vorteile sind evident und überwiegen deutlich, ein monolithischer Navi31 wäre vor allem teurer und und nichts besser.

Wenn du Chiplets auf N31 isoliert meinst - dann kam es zumindest deutlich anders herüber. Aber selbst auf N31 isoliert hat Sunrise sehr gute Argumente für die Unbekanntheit gemacht:
Im Endeffekt kann man als Außenstehender nur sagen:

Navi31 sollte eben genau so aussehen, deshalb kann man nicht einfach einen Monolithen daraus machen.

Was man aber IMHO nicht sagen kann:

Navi31 konnte garnicht besser werden. Das ist IMHO falsch. Das impliziert zuviele Vermutungen und Aufwände, die AMD hatte, die man aber auch (mit anderem Ziel >$1000) hätte angehen können. Sie wollten ganz bewusst auf Kosten und hohe Ausbeute gehen, der dritte Faktor (schnellere Verfügbarkeit) ist wohl leider aufgrund der Komplexität des Designs unter den Tisch gefallen.

Am Ende sind weder genug Fakten bekannt um zu wissen, ob es für N31 die ideale Entscheidung war noch ob es grundsätzlich für moderne große GPUs aktuell die richtige Entscheidung ist. Oder ggf. das tun oder nicht tun eher in Nuancen von Vor- und Nachteilen rangiert. Darauf basierend, ist eine Meinung etwas dünn.

Ist N31 ein sehr gutes Produkt? Definitiv ja. Wäre es sehr gut gewesen ohne Chiplets? Völlig unklar.

Troyan

2022-11-21, 14:16:30

Natürlich hat nVidia es in der Schublade liegen - die haben es mit COPA doch letztes Jahr schon beschrieben: https://arxiv.org/abs/2104.02188

Gipsel

2022-11-21, 14:30:49

Um mal wieder auf eine mehr an der Sache orientierte Diskussion zu kommen, interessant finde ich, daß AMD bei RDNA 3 für die Matrixoperationen tatsächlich neue Instruktionen einführt. Es gibt also nicht einfach nur FP16 (bzw. BF16) FMAs und die Matrixoperationen muß man sich daraus selbst zusammenbasteln. Es gibt tatsächliche Matrix-Befehle (z.B. v_wmma_f32_16x16x16_f16), die mit relativ großen Matrizen arbeiten (im Beispiel sind es 16x16 Matrizen*).
Die "dedicated AI accelerators" dürften also im Prinzip die Funktionalität symbolisieren, die einmal gefetchten Register (im Beispiel sind es pro Argument 4 bzw. 8 Vektorregister [was entsprechend viele Zeit bei der Operand Collection verbraucht]) zwischenzuspeichern und dann die Matrixoperation ohne weiteres Zutun des Schedulers quasi wie microcoded per loop auszuführen. Das generiert bei der Umsetzung in RDNA3 erstmal nicht wirklich Mehrdurchsatz (im Vergleich zu Vektor-FMAs), dürfte aber Strom sparen und ist später (RDNA4?) ohne Befehlssatzänderung relativ einfach erweiterbar.

*: Die Notation dürfte der von CDNA entsprechen. Das heißt der Befehl v_wmma_datatype1_MxNxK_datatype2 für die Operation D=AxB+C bedeutet, daß die Komponenten von D und C den Datentyp 1 besitzen (also z.B. FP32), A und B den Datentyp 2 (z.B. FP16) und die Matrizen A, B, C, D diese Dimensionen besitzen: C und D sind MxN, A ist MxK und B mißt KxN. Im obigen Beispiel haben also alle Matrizen 16x16 Elemente (256 Einträge, was für C und D (FP32) jeweils 1kB ist, für A und B jeweils 512Byte, falls es gepackt in den Registern steht [muß wohl nicht unbedingt sein]) und für die Ausführung dieses einen Befehls sind insgesamt 4096 FP16 FMAs nötig (256 davon mit FP32 Accumulate), also 8192 Flops (benötigt vermutlich 64 Takte auf einer dual issue Vektoreinheit, aber nur 1/8 der Registerfetches wie 64 Takte mit FMAs; die grob äquivalente Instruktion bei CDNA2 wäre V_MFMA_F32_16x16x16_F16 [CDNA Matrixcores sind relativ flexibel und können z.B. auch noch Zeilen/Spalten der beteiligten Matrizen swizzlen, die Funktionalität ist dort schlicht größer, mal abgesehen davon, daß die auch viel mehr Größenkombinationen der einzelnen Matrizen unterstützen] deren Durchsatz auch höher ausfällt).

Nakai

2022-11-21, 14:36:03

Um mal wieder auf eine mehr an der Sache orientierte Diskussion zu kommen, interessant ist ja, daß AMD bei RDNA 3 für die Matrixoperationen ja tatsächlich neue Instruktionen einführt. Es gibt also nicht einfach nur FP16 (bzw. BF16) FMAs und die Matrixoperationen muß man sich daraus selbst zusammenbasteln. Es gibt tatsächliche Matrix-Befehle (z.B. v_wmma_f32_16x16x16_f16), die mit relativ großen Matrizen arbeiten (im Beispiel sind es 16x16 Matrizen*).
Die "dedicated AI accelerators" dürften also im Prinzip die Funktionalität symbolisieren, die einmal gefetchten Register (im Beispiel sind es pro Argument 4 bzw. 8 Vektorregister [was entsprechend viele Zeit bei der Operand Collection verbraucht]) zwischenzuspeichern und dann die Matrixoperation ohne weiteres Zutun des Schedulers quasi wie microcoded per loop auszuführen. Das generiert bei der Umsetzung in RDNA3 erstmal nicht wirklich Mehrdurchsatz, dürfte aber Strom sparen und ist später (RDNA4?) ohne Befehlssatzänderung relativ einfach erweiterbar.

*: Die Notation dürfte der von CDNA entsprechen. Das heißt der Befehl v_wmma_datatype1_MxNxK_datatype2 für die Operation D=AxB+C bedeutet, daß die Komponenten von D und C den Datentyp 1 besitzen (also z.B. FP32), A und B den Datentyp 2 (z.B. FP16) und die Matrizen A, B, C, D diese Dimensionen besitzen: C und D sind MxN, A ist MxK und B mißt KxN. Im obigen Beispiel haben also alle Matrizen 16x16 Elemente (256 Einträge, was für C und D (FP32) jeweils 1kB ist, für A und B jeweils 512Byte, falls es gepackt in den Registern steht [muß wohl nicht unbedingt sein]) und für die Ausführung dieses einen Befehls sind insgesamt 4096 FP16 FMAs nötig (256 davon mit FP32 Accumulate), also 8192 Flops (benötigt vermutlich 64 Takte auf einer dual issue Vektoreinheit, aber nur 1/8 der Registerfetches wie 64 Takte mit FMAs).

Naja RDNA3 hat ja VOPD-SPs und daher ist das wohl ein Usecase wo man durch diese doppelten SPs einen Schub bekommt. Aber ja, ich bin immer bei dir. Ich erwarte bei RDNA4 aber eher noch größere SPs mit deutlich mehr Funktionen mit noch mehr FLOPS, vielleicht 4fach VOPD?

robbitop

2022-11-21, 14:52:23

Gipsel

2022-11-21, 15:03:26

Naja RDNA3 hat ja VOPD-SPs und daher ist das wohl ein Usecase wo man durch diese doppelten SPs einen Schub bekommt. Aber ja, ich bin immer bei dir. Ich erwarte bei RDNA4 aber eher noch größere SPs mit deutlich mehr Funktionen mit noch mehr FLOPS, vielleicht 4fach VOPD?Ich würde bald bevorzugen, daß die Scheduler auch zwei Instruktionen von zwei verschiedenen Wave32 per dual issue gleichzeitig auf die beiden Vec32-ALUs (AMD bezeichnet die als dual issue Vektoreinheit :rolleyes:) schieben können. Oder zumindest beliebige (unabhängige) Instruktionen einer Wavefront. Nur für VOPD (zwei Instruktionen einer Wavefront aber ziemlich limitiert, was da geht [nur eine Handvoll Befehle]) und die WMMA-Instruktionen ist der Ertrag der verdoppelten FP32-Einheiten doch sehr überschaubar (AMD sagt ja unter 20% Mehrperformance pro CU bei gleichem Takt bei RDNA3 und da ist ja auch schon +50% Register und verdoppelte L0-Caches dabei). Etwas mehr dürfte es tendentiell wohl bei Wave64 bringen (single cycle Wave64), aber so viel läuft damit offenbar nicht wirklich (Postprocessing wäre wohl ein guter Kandidat).
Allerdings müßte AMD dann (dual issue von 2 vALU-Instruktionen von 2 Wavefronts) wohl per Hardware sicherstellen, Bankkonflikte (der beiden Instruktionen der beiden Wavefronts) beim Registerfile-Zugriff auszuräumen. Dies macht momentan (bei VOPD) offenbar der Compiler, das geht mit RDNA3 also nicht. Dual issue von einer Wavefront (ohne VOPD) sollte aber im Prinzip mit überschaubarem Aufwand gehen.