AMD/ATI - RDNA3 (Navi 3X, Radeon RX 7000 Serie, tlw. Chiplets, 5/6 nm, 2022) [Archiv] - Seite 32

HOT

2022-11-21, 16:46:36

Naja +10% Chipfläche für die zusätzliche Interconnect (die in den 20 USD Ersparnis nicht mit drin sind) und etwas mehr Energieverbrauch für die Interconnects. Aber wahrscheinlich würde es kein Tag/Nacht Unterschied geben aktuell. Aber irgendwann muss man damit ja anfangen, wenn man disaggregieren will und ggf. später mal GCDs skalieren will.
Das ist trotz der zusätzliche Chipfläche extrem viel billiger so. Die Rechnung wird immer aufgehen.
Bei RDNA4 wird man sich sowieso zusätzliche Chipfläche erkaufen müssen. Es wird aufgrund der geringen Chipgrößen aber dennoch billiger sein. Die Interconnects dürfen halt den Vorteil nicht auffressen, aber das wird wohl eher nicht so schnell passieren. Die Brutto-Chipfläche steigt, aber in auch günstigen Fertigungsprozessen und mit kleinerer Die-Größe.

robbitop

2022-11-21, 16:53:13

Naja "extrem" billiger ist die Frage was das heißt. 20 USD sind nicht zu verachten - aber ist das schon "extrem"?
Aber ja, je mehr chiplets (gerade wenn man GCDs skalieren kann) man nutzt, desto größer wird der Kostenvorteil und je neuer der Node (und damit auch teurer) desto größer wird der Kostenvorteil.
Ggf. war es auch total relevant sofern das 5 nm Kontignent (jedoch nicht das 6 nm) ein starker Engpass ist und man damit dann einfach mehr Einheiten bauen (und damit verkaufen) kann.

Und man kann ggf. zukünftig auch R&D Kosten für die Implementierung und Kosten für das Tooling sparen, da man nur noch 1x GCD nötig ist. Und man kann gegenüber Monolithen auch die absolute Performancekrone holen, da man kein Problem mit dem Recticle Limit hat. Wenn man also die Krone in irgendwas holen will -> das ist ein "Enabler".

HOT

2022-11-21, 16:59:08

Wenn man jetzt weiterspinnt, und AMD auch mal ein >1000$-Produkt zutraut, könnte AMD brutto auch in Richtung >1000mm² gehen in verschiedenen Prozessen.

robbitop

2022-11-21, 17:04:35

Ja das würde ihnen definitiv neue Wahrnehmung liefern. Erinnerungen an R300 ...

fondness

2022-11-21, 18:07:43

Nein Fakt. Das sind zwei verschiedene Dinge. Thema Differenzierung.

Du kannst es einfach nicht lassen, schon fast erheiternd :D.

1+1=2. Das ist Fakt. Ob ich deine Kritik an mir und deine Fanboyandeutungen in meiner Richtung als persönliche Anmache interpretiere oder nicht ist schon noch meine freie Entscheidung. :) Aso lerne vielleicht erstmal was Fakten sind und was nicht. Aber offensichtlich geht es dir eh nur darum recht zu haben und eben nicht um die technische Diskussion. Darum ist die Sache für mich an diesem Punkt auch beendet. Ich freue mich auf deine letzte Rechthaberische Replik :D

Zumindest habe ich dich so verstanden, dass Nvidia es auch nutzen würde, wenn sie es denn könnten und es die richtige Technologie im Generellen ist.

Du hättest auch einfach nachfragen können anstatt mir etwas zu unterstellen. Umso mehr wo du mir einen schlechten Diskussionsstil vorwirfst ;)

Am Ende sind weder genug Fakten bekannt um zu wissen, ob es für N31 die ideale Entscheidung war noch ob es grundsätzlich für moderne große GPUs aktuell die richtige Entscheidung ist. Oder ggf. das tun oder nicht tun eher in Nuancen von Vor- und Nachteilen rangiert. Darauf basierend, ist eine Meinung etwas dünn.

Ist N31 ein sehr gutes Produkt? Definitiv ja. Wäre es sehr gut gewesen ohne Chiplets? Völlig unklar.

Wird sind im Jahr 2022, sowas wird vorher aufwändig durch-simuliert. Sich hier also Forum-Noob hinzustellen und so zu tun als könnte AMD nicht beurteilen ob die Chiplets Sinn machen ist schon sehr lieb. :)

robbitop

2022-11-21, 18:17:29

Jetzt geht das wieder los :rolleyes:
Du kannst es nicht beurteilen und auch kein anderer weil sämtliche Randbedingungen unbekannt sind. Ähnliches hatte sunrise auch schon geschrieben.

Den Fakt dass AMD es verbaut sagt gar nichts. Siehe HBM mit Fijii und Vega. Das allein ist kein Beweis. Und darum ging die Diskussion gar nicht nur sondern ob es für NV auch sinnvoll ist und dass sie angeblich zurück hängen.

Es macht keinen Sinn - ich habe Argumente noch und nöcher gebracht und du schreibst du das gleiche. Für mich ist hier end of discussion.

Linmoum

2022-11-21, 18:26:33

Bei Fiji und Vega muss man fairerweise aber auch sagen, dass die dGPUs nur Mittel zum Zweck waren. Da hatte man noch keine Trennung zwischen Desktop und HPC, sondern da hat alles dasselbe abbekommen. Und für HPC ist HBM auch weiterhin bei allen Herstellern erste Wahl. ;)

mczak

2022-11-21, 19:07:54

Troyan

2022-11-21, 19:10:29

Müsste eigentlich nicht HBM attraktiver geworden sein auch für andere Anwendungen, weil man dank der neuen Packaging-Technologien keinen Silizium-Interposer mehr braucht? Aber ist wohl immer noch zu teuer?

Laut nVidia kostet HBM 3x mehr als GDDR6. Die hatten das als Nachteil bei Grace angegeben und wieso man sich für LPDDR5 entschieden hat.

iamthebear

2022-11-21, 20:04:34

HOT

2022-11-21, 20:12:37

Also ich denke, dass die Bandbreite ausreichend ist und der Energiebedarf niedrig genug. Die Kosten dürften auch nicht so das Problem sein.

Das Hauptproblem, das ich sehe ist die zusätzliche Ansteuerungslogik, die auf den MCDs notwendig wird und somit zusätzlichen Platz benötigt. Wenn die 6nm MCDs nun in Summe z.B. 50% größer sind dann stellt sich die Frage, ob sich das ganze Chipletzeugs noch lohnt oder ob es nicht besser gewesen wäre wie Nvidia beim AD103 gleich einen monolithischen 400mm² Die zu bauen vor allem, da man sich den 600mm² High End Die sowieso gespart hat.
Selbst wenn es 50/50 wäre wird sich das immer noch lohnen, da a.) winzig und b.) billigerer Prozess. Davon sind wir aber weeeeiiiit entfernt, von daher stellt sich die Frage nicht. Bei RDNA4 als reine Chiplet-GPU wird man sicherlich aber keine Interconnects über den Träger mehr machen sondern über einen Interposer. Das wäre dann wieder was anderes.

DrFreaK666

2022-11-22, 06:03:02

Wahrscheinlich keine neuen Infos, aber trotzdem ein neues Video

8XBFpjM6EIY

robbitop

2022-11-22, 07:31:04

Selbst wenn es 50/50 wäre wird sich das immer noch lohnen, da a.) winzig und b.) billigerer Prozess. Davon sind wir aber weeeeiiiit entfernt, von daher stellt sich die Frage nicht. Bei RDNA4 als reine Chiplet-GPU wird man sicherlich aber keine Interconnects über den Träger mehr machen sondern über einen Interposer. Das wäre dann wieder was anderes.
Aber keinen Vollflächigen Interposer oder? Sowas wie Intels EMIB (Info-LSI) wäre sicherlich kosteneffizienter.
Ich schätze mal, dass man Info-LSI oder andere Siliziumbasierte Verbindungstechnologien benötigen wird um GCDs zu skalieren.

Naffzinger hat im Interview (siehe oben) mit Gamers Nexus gesagt, dass die Bandbreitenanforderungen zwischen den Shader Engines einfach zu hoch waren. Die Frage ist, ob es sinnvoll ist, Caches dann zurück in die GCDs zu holen (oder lokale Caches noch größer zu machen) um die Interconnect durch mehr Reuse zu entlasten?

Er lässt sich auch nicht in die Karten schauen, dass man das ggf. für RDNA4 vor hat.

Wahrscheinlich keine neuen Infos, aber trotzdem ein neues Video

https://youtu.be/8XBFpjM6EIY
Sehr gutes Interview :up:
Schade, dass sie dann durch die Cleaning Crew rausgeschmissen worden sind und das Interview nur 15 min lang ist. Solche Dinge (Direktinterview mit Chefentwicklern), die man auch noch veröffentlichen darf sind schon richtig gut. Das sollten die IHVs mehr machen. :up:

Ich kann mich noch gut daran erinnern, dass in den 2000ern, das schon etwas eher möglich war. Ich durfte damals ~30 min mit Eric Demers (Chief Architect ATI) und separat davon mit David Kirk (Chief Archtect NVidia) sprechen; aths hat sogar ein paar Tage in Kalifornien im NV Headquarters verbracht.

Iscaran

2022-11-22, 09:32:32

Wahrscheinlich keine neuen Infos, aber trotzdem ein neues Video

Das ist im Gegenteil sogar ein echt gutes Video!

Sam Naffziger spricht einige Punkte sehr direkt und konkret an über die hier z.T. wild spekuliert wurde.

Vor allem den Punkt der Kostenvorteile wenn man unterschiedliche Chipteile in unterschiedlichen Prozessgrößen macht!

Bie Minute 10 rum sagt er z.B. ungefähr das:
"Die sehr komplexen I/O Teile usw. shrinken schon seit langer Zeit nicht mehr wirklich, müssen aber dennoch für einen neuen Prozessnode "redesigned" werden, das kostet sehr viel Entwicklungszeit und Ingenieure (hunderte arbeiten typischerweise an dem sehr komplexen I/O Design). Obwohl es kaum Benefit bringt beim Shrink. Gliedert man das aus, kann man mit einem kleinen Entwicklerteam nur die Shrink relevanten Teile designen".

=> Wer hätte das gedacht, man spart gar nicht mal unbedingt nur durch den sehr guten Yield von kleinen Dies!
Nein man spart sogar DIREKT einen großen Batzen an Chip-Entwicklungskosten.
Denkt mal zurück an die Grafik von vor 2 Seiten:
https://www.researchgate.net/publication/340843129/figure/fig1/AS:883120060506112@1587563638610/Chip-Design-and-Manufacturing-Cost-under-Different-Process-Nodes-Data-Source-from-IBS.png
Wenn man also von den 550 Mio Kosten für einen 100% 5nm Chip sagen wir mal 50% sparen kann weil man "schlecht shrinkbare" Teile davon im bestehenden 7nm designed hat man direkt viele hundert Mio. $ gespart!

ZUSÄTZLICH dazu noch die Einsparung dank der hohen Yields, die er auch sehr gut erklärt.

Auch, denke ich zeigt das Video sehr gut, dass RDNA 3 für AMD im Grunde genommen erstmal der Chiplet-Testballon ist.
=> Die wirklichen Gains kommen dann in 3nm, wenn man Logic von Memory und I/O trennen kann.

RDNA 4 kommt also mit GCDs in 3nm, Memory in 6nm und I/O nochmal getrennt (könnte man sogar 14nm nehmen, dürfte nicht viel schlechter sein als in 7nm)

Allein die Kostenersparnis dadurch im Chipdesign, man munkelt ja von ca 1.5 Mrd $ nur an DESIGN-Kosten für 3nm(!), dürfte hier schon soviel ausmachen wie Entwicklung eines ganzen monolithischen 5nm Nodes.

dargo

2022-11-22, 09:44:36

@Iscaran

Komm doch nicht mit Fakten!

Nvidia kommt bei der nächsten Gen mit einer ~600mm² monolithischen RTX 5090 in 3nm für 3000+€ und alles ist gut. Wen interessieren schon die Kosten? Die grünen Lemminge zahlen jeden Preis, Hauptsache das Ding ist in RT schneller und unterhalb einer RTX 5090 ist eh nichts spielbar. ;)

robbitop

2022-11-22, 09:58:13

Ja der Vorteil wird sicherlich immer weiter wachsen durch disaggregation in Chiplets. Insbesondere wenn GCDs skalierbar werden und Prozesse noch teurer werden. Sehr gutes Video mit Fakten. :)

Complicated

2022-11-22, 10:01:03

Auch, denke ich zeigt das Video sehr gut, dass RDNA 3 für AMD im Grunde genommen erstmal der Chiplet-Testballon ist.
=> Die wirklichen Gains kommen dann in 3nm, wenn man Logic von Memory und I/O trennen kann.

RDNA 4 kommt also mit GCDs in 3nm, Memory in 6nm und I/O nochmal getrennt (könnte man sogar 14nm nehmen, dürfte nicht viel schlechter sein als in 7nm)

Allein die Kostenersparnis dadurch im Chipdesign, man munkelt ja von ca 1.5 Mrd $ nur an DESIGN-Kosten für 3nm(!), dürfte hier schon soviel ausmachen wie Entwicklung eines ganzen monolithischen 5nm Nodes.
Das meine ich ja immer wieder mit dem langfristig angelegten Iterieren der Chiplet-Möglichkeiten. Die Umstellung wirkt dann prinzipiell selbstverstärkend auf den Kostenvorteil gegenüber der Non-Chiplet Konkurrenz je teurer der nächste Node wird. Du kannst immer wieder neu entscheiden ob ein Chiplet-Bereich einen Schrinkvorteil bei Kosten oder Performance hat und den gegen die Kosten abwägen.

HOT

2022-11-22, 10:08:59

Aber keinen Vollflächigen Interposer oder? Sowas wie Intels EMIB (Info-LSI) wäre sicherlich kosteneffizienter.
Ich schätze mal, dass man Info-LSI oder andere Siliziumbasierte Verbindungstechnologien benötigen wird um GCDs zu skalieren.

Naffzinger hat im Interview (siehe oben) mit Gamers Nexus gesagt, dass die Bandbreitenanforderungen zwischen den Shader Engines einfach zu hoch waren. Die Frage ist, ob es sinnvoll ist, Caches dann zurück in die GCDs zu holen (oder lokale Caches noch größer zu machen) um die Interconnect durch mehr Reuse zu entlasten?

Er lässt sich auch nicht in die Karten schauen, dass man das ggf. für RDNA4 vor hat.

[...]

Das muss man sich halt CDNA2 schauen, bei RDNA4 vielleicht schon auf CDNA3. Das wäre dann sogar 3D gestackt IIRC, also die Compute Tiles (in diesem Falle die Shaderprozessoren) auf ein Base-Die gestapelt wird. Kann dann durchaus sein, dass der Cache wieder in das Base-Die zurückwandert. Das Base-Die kann dann ja auch bei gewisser Größe ein günstigerer Prozess sein, also Base-Die sehr groß und N6 und die Compute-Dies dann N3e oder so. Ich denke aber eher, dass man beides machen wird, also ein modernes MCM wie jetzt auch für ein oder 2 Base-Dies zusammen mit den MCDs und auf die Base-Dies dann gesapelt die Comupte-Tiles.

mironicus

2022-11-22, 10:37:34

Interview mit Sam Naffziger, der schon für das Chiplet-Design bei den Zen-CPUs verantwortlich war und nun das gleiche bei den GPUs gemacht hat.

8XBFpjM6EIY

Gipsel

2022-11-22, 10:42:54

Das Hauptproblem, das ich sehe ist die zusätzliche Ansteuerungslogik, die auf den MCDs notwendig wird und somit zusätzlichen Platz benötigt. Wenn die 6nm MCDs nun in Summe z.B. 50% größer sind dann stellt sich die Frage, ob sich das ganze Chipletzeugs noch lohntWo siehst Du hier 50% Extra-Platz?

https://abload.de/img/amdrdna3techday_press4mece.png

Das ist deutlichst weniger (maximal ~15% am unteren Rand).

robbitop

2022-11-22, 11:09:47

Interview mit Sam Naffziger, der schon für das Chiplet-Design bei den Zen-CPUs verantwortlich war und nun das gleiche bei den GPUs gemacht hat.

https://youtu.be/8XBFpjM6EIY

Das wurde doch vor nur wenigen Posts (sogar auf dieser Seite - nur 7 Posts über deinem) schon gepostet. Schön wäre es zumindest ein paar Posts zu lesen eh man was verlinkt.

Wo siehst Du hier 50% Extra-Platz?

https://abload.de/img/amdrdna3techday_press4mece.png

Das ist deutlichst weniger (maximal ~15% am unteren Rand).
Beim GCD kostet es auch nochmal ein Stückchen. (unabhängig von der Aussage von iamthebear).

Kann man da noch Platz sparen? Zum Beispiel wenn man das die Dichte der Verdrahtung (dank InfoLSI) erhöht? Hat das auch Auswirkung auf die Größe der Blöcke der Fabric auf dem eigentlichen Chip?

Complicated

2022-11-22, 11:15:25

Das muss man sich halt CDNA2 schauen, bei RDNA4 vielleicht schon auf CDNA3. Das wäre dann sogar 3D gestackt IIRC, also die Compute Tiles (in diesem Falle die Shaderprozessoren) auf ein Base-Die gestapelt wird.
CDNA3 wird auch in einer APU mit Zen4+HBM verbaut:
https://www.anandtech.com/show/17445/amd-combining-cdna-3-and-zen-4-for-mi300-data-center-apu-in-2023
https://images.anandtech.com/doci/17445/2022-06-09%2013_46_36_575px.jpg

That comparison is particularly apt here as AMD is going to be introducing its Infinity Cache technology into the CDNA 3 architecture. And, like the V-Cache example above, judging from AMD’s artwork it appears that they are going to be stacking the cache with the logic as separate dies, rather than integrating it into a monolithic die like their client GPUs. Because of this stacked nature, the Infinity Cache chiplets for CDNA 3 will go below the processor chiplets, which AMD seemingly putting the very, very power-hungry logic chiplets at the top of the stack in order to effectively cool them.

gbm31

2022-11-22, 12:02:58

Erste Bilder einer Red Devil:

https://twitter.com/PowerColor/status/1594439386266943488

Berniyh

2022-11-22, 12:28:40

RDNA 4 kommt also mit GCDs in 3nm, Memory in 6nm und I/O nochmal getrennt (könnte man sogar 14nm nehmen, dürfte nicht viel schlechter sein als in 7nm)
14nm dürfte da sehr unwahrscheinlich sein.
Bei den CPUs ist man jetzt beim IO Die ja auch auf N6 gegangen, es liegt also nahe, dass man bei den GPUs auch da landet.
Dazu kommt, dass man ja für N33 das Design in N6 schon gemacht hat, da kann man sicher einiges wiederverwenden.

Letztendlich muss sich aber auch erstmal bestätigen, dass die Aufteilung genau so stattfindet. ;)

Complicated

2022-11-22, 12:36:56

Wenn die CDNA3 Bauweise sich bewährt mit den IF-Chiplets unter dem GCD:
Because of this stacked nature, the Infinity Cache chiplets for CDNA 3 will go below the processor chiplets, which AMD seemingly putting the very, very power-hungry logic chiplets at the top of the stack in order to effectively cool them. Damit könnte man den GCD, verglichen mit RDNA3 schon größer machen und über das ganze Package ziehen, wenn der MCD darunter wandert. Das könnte sogar noch einen Step vor Multi-GCD für AMD ein konkurrenzfähiges Produkt ermöglichen.

Hier hat AMD die Möglichkeit die GCD-Größe auf die Yield zu optimieren und zu vergleichen ob 2xkleiner mehr bringt auf der Kostenseite verglichen mit Performance-Peak.

dargo

2022-11-22, 13:14:40

14nm dürfte da sehr unwahrscheinlich sein.
Bei den CPUs ist man jetzt beim IO Die ja auch auf N6 gegangen, es liegt also nahe, dass man bei den GPUs auch da landet.
Dazu kommt, dass man ja für N33 das Design in N6 schon gemacht hat, da kann man sicher einiges wiederverwenden.

Letztendlich muss sich aber auch erstmal bestätigen, dass die Aufteilung genau so stattfindet. ;)
Was mich bei RDNA3 etwas verwundert ist die Tatsache, dass N33 kein Chipletdesign mehr ist. Da man die MCDs eh schon hat wäre das doch ganz praktisch mit 100-120mm² GCD + zwei MCDs. Kosten/Nutzen nicht mehr gewährleistet oder geht AMD erst mit RDNA4 Richtung Chipletdesign für das gesamte Portfolio?

robbitop

2022-11-22, 13:22:07

Ggf war auch das 5 nm Kontingent einfach nicht ausreichend für diese SKU?

Gipsel

2022-11-22, 14:25:46

Beim GCD kostet es auch nochmal ein Stückchen. (unabhängig von der Aussage von iamthebear).Na klar. Es ging aber gerade um die Extrafläche beim MCD.
Kann man da noch Platz sparen? Zum Beispiel wenn man das die Dichte der Verdrahtung (dank InfoLSI) erhöht? Hat das auch Auswirkung auf die Größe der Blöcke der Fabric auf dem eigentlichen Chip?Siliziumbrücken sind deutlich teurer. Und die Dichte der Kontakte ist auch nicht höher als bei Info-R (man spart aber etwas Strom, weil die elektrische Qualität etwas besser ist). Dazu benötigt es dann schon direct/hybrid bonding wie bei den V-Cache-Dies. Und wenn Du das machst, kannst Du die MCDs auch direkt unter dem GCD stacken und die Brücke sparen.
Die benötigte Fläche für das Interface ist im Prinzip ein Kompromiß. Je mehr Leitungen mit niedrigerem Takt nimmt, desto mehr limitiert die maximal mögliche Interconnect- bzw. Kontakt-Dichte und je weniger die benötigte Größe für die Signaltreiber im PHY. Und je kürzer die Verbindungen und je besser deren Qualität (siehe V-Cache), desto kleiner kann man auch werden (und noch mehr Energie sparen).

robbitop

2022-11-22, 14:51:43

Na klar. Es ging aber gerade um die Extrafläche beim MCD.
Deswegen sagte ich ja unabhängig vom Statement von iamthebear. ;)

Siliziumbrücken sind deutlich teurer. Und die Dichte der Kontakte ist auch nicht höher als bei Info-R (man spart aber etwas Strom, weil die elektrische Qualität etwas besser ist). Dazu benötigt es dann schon direct/hybrid bonding wie bei den V-Cache-Dies. Und wenn Du das machst, kannst Du die MCDs auch direkt unter dem GCD stacken und die Brücke sparen.
Die benötigte Fläche für das Interface ist im Prinzip ein Kompromiß. Je mehr Leitungen mit niedrigerem Takt nimmt, desto mehr limitiert die maximal mögliche Interconnect- bzw. Kontakt-Dichte und je weniger die benötigte Größe für die Signaltreiber im PHY. Und je kürzer die Verbindungen und je besser deren Qualität (siehe V-Cache), desto kleiner kann man auch werden (und noch mehr Energie sparen).
Also ist stacking der GCDs auf die MCDs eher der nächste Schritt, oder? (und dann die MCDs auch als Brücke zwischen GCDs nutzen)

Was ich mich frage, wie sie es bei M1 Ultra hinbekommen haben. Dort ist ja ein sehr sehr breites Interface zwischen beiden SoCs und es scheint in Bezug auf Energie pro bit ja auch effizient zu sein.

edit:
https://www.semiconductor-digest.com/apples-m1-ultra-does-use-info_lsi-or-is-it-cowos-l/
Es ist bei M1 Ultra eine kleine silicon bridge zwischen den 2x M1 Max Chips. 18,8x2,88mm. Pitch ist 25 x 35 μm -> potentiell bis zu 57.000 pads - Apple hat aber nur 10.000 angegeben. 2,5 TB/s Bandbreite. Der Autor ist sich unklar ob es CoWoS oder Info LSI ist. Aber anscheinend geht damit deutlich mehr als mit dem was man auf dem Package ohne Silizium machen kann. (einfach aus dem Grund, dass Apple 2x GPUs transparent zur Anwendung damit skalieren kann und Sam Naffzinger gesagt hat mit der bei N31 genutzten Packaging Technologie wäre es nicht gegangen) Bitte korrigieren wenn es da Denkfehler gibt.

edit2:
AMD gibt 5,3 TB/s an Bandbreite an. Selbst wenn das auf 6x MCDs verteilt ist, ist man doch da wie du sagst in der gleichen Größenordnung. Warum soll GCD scaling damit denn dann nicht funktionieren laut Sam? Oder braucht man einfach für eine High End GPU noch etwas mehr als das? (wobei man aber mit vergrößerten lokalen Caches auch wieder entlasten könnte, oder?)

amdfanuwe

2022-11-22, 15:25:04

siehe hier:
81573

3072B/CLK L1 <-> L2
2304B/CLK L2 <-> IF Cache

Complicated

2022-11-22, 15:28:08

Was mich bei RDNA3 etwas verwundert ist die Tatsache, dass N33 kein Chipletdesign mehr ist. Da man die MCDs eh schon hat wäre das doch ganz praktisch mit 100-120mm² GCD + zwei MCDs. Kosten/Nutzen nicht mehr gewährleistet oder geht AMD erst mit RDNA4 Richtung Chipletdesign für das gesamte Portfolio?
AMD sagte in einem Quartals-Call, sie werden das Chiplet-Design für jedes Produkt prüfen und einzeln entscheiden.
Es gibt wohl auch ein PDF nach welchen Kriterie entschieden wird, das hier verlinkt ist - leider nicht öffentlich zugänglich.
https://www.nextplatform.com/2021/06/09/amd-on-why-chiplets-and-why-now/
These lessons were put to use with the second-generation 7nm Epyc processor. There is an incredibly rich discussion about the various tradeoffs and technical challenges as well as cost and performance found here, including factors behind packaging decisions, co-design challenges, optimizations, and cross-product expansion of a similar approach.

“In addition to the technical challenges, implementing such a widespread chiplet approach across so many market segments requires an incredible amount of partnership and trust across technology teams, business units, and our external partners,” the team concludes.

“The product roadmaps across markets must be carefully coordinated and mutually scheduled to ensure that the right silicon is available at the right time for the launch of each product. Unexpected challenges and obstacles can arise, and world-class and highly passionate AMD engineering teams across the globe have risen to each occasion. The success of the AMD chiplet approach is as much a feat of engineering as it is a testament to the power of teams with diverse skills and expertise working together toward a shared set of goals and a common vision.”

Complicated

2022-11-22, 15:34:22

Also ist stacking der GCDs auf die MCDs eher der nächste Schritt, oder? (und dann die MCDs auch als Brücke zwischen GCDs nutzen)

Wie von AMD angekündigt
Because of this stacked nature, the Infinity Cache chiplets for CDNA 3 will go below the processor chiplets, which AMD seemingly putting the very, very power-hungry logic chiplets at the top of the stack in order to effectively cool them.

robbitop

2022-11-22, 15:37:31

Aber im Prinzip müsste das bisherige Verfahren von der Bandbreite (Info-R) doch reichen, um SEs zu disaggregieren. 3072B/clk ist doch schon in der richtigen Größenordnung.

Complicated

2022-11-22, 15:44:13

Die Bandbreite ist glaube ich derzeit nicht die Hürde. Ich glaube aktuell wird am optimieren des Stromverbrauchs der Interconnects gearbeitet, siehe auch splitten des IF auf 2 Ports die man konfigurieren kann. Das Stacking macht hier ebenfalls Powerbudget frei mit den kürzeren Wegen.

https://www.servethehome.com/wp-content/uploads/2022/06/AMD-FAD-2022-2.5D-Elevated-Fan-Out-Bridge.jpg

https://www.anandtech.com/show/17054/amd-announces-instinct-mi200-accelerator-family-cdna2-exacale-servers/2
However, besides EMIB being an Intel technology, it’s not without its own drawbacks, so AMD and its fab partners think they can do one better than that. And that one better thing is Elevated Fanout Bridge 2.5D.

https://images.anandtech.com/doci/17054/AMD%20ACP%20Press%20Deck_23_575px.jpg

So what makes Elevated Fanout Bridge 2.5D different? In short, EFB builds above the substrate, rather than inside it. In this case, the entire chip pair – the GPU and the HBM stack – are placed on top of a mold with a series of copper pillars in it. The copper pillars allow the coarse-pitched contacts on the chips to make contact with the substrate below in a traditional fashion. Meanwhile, below the high-precision, fine-grained microbumps used for HBM, a silicon bridge is instead placed. The end result is that by raising the HBM and GPU, it creates room to put the small silicon bridge without digging into the substrate.

Compared to a traditional interposer, such as what was used on the MI100, the benefits are obvious: even with the added steps of using EFB, it still avoids having to use a massive and complex silicon interposer. Meanwhile, compared to bridge-in-substrate solutions like EMIB, AMD claims that EFB is both cheaper and less complex. Since everything takes place above the substrate, no special substrates are required, and the resulting assembly process is much closer to traditional flip-chip packaging. AMD also believes that EFB will prove a more scalable solution since it’s largely a lithographic process – a point that’s particularly salient right now given the ongoing substrate bottleneck in chip production.

Overall, EFB looks very similar (if not identical) to TSMC’s InFO-L packaging technology, which was announced back in 2020 and uses an above-substrate bridge. Given the close working relationship between AMD and TSMC, it’s not clear how much of EFB is really an AMD innovation versus them employing InFO-L. But regardless, a more cost-effective means of implementing HBM is a very important step forward for AMD’s GPU team.

Gipsel

2022-11-22, 15:44:24

Also ist stacking der GCDs auf die MCDs eher der nächste Schritt, oder? (und dann die MCDs auch als Brücke zwischen GCDs nutzen)Es gibt ein paar Patente von AMD, in denen der Cache als aktive Brücke zwischen mehreren GCDs benutzt wird. Also dran gedacht wird da sicherlich. Wie praktikabel das ist, wird man sehen.
Was ich mich frage, wie sie es bei M1 Ultra hinbekommen haben. Dort ist ja ein sehr sehr breites Interface zwischen beiden SoCs und es scheint in Bezug auf Energie pro bit ja auch effizient zu sein.

edit:
https://www.semiconductor-digest.com/apples-m1-ultra-does-use-info_lsi-or-is-it-cowos-l/
Es ist bei M1 Ultra eine kleine silicon bridge zwischen den 2x M1 Max Chips. 18,8x2,88mm. Pitch ist 25 x 35 μm -> potentiell bis zu 57.000 pads - Apple hat aber nur 10.000 angegeben. 2,5 TB/s Bandbreite. Der Autor ist sich unklar ob es CoWoS oder Info LSI ist. Aber anscheinend geht damit deutlich mehr als mit dem was man auf dem Package ohne Silizium machen kann.Hauptsächlich verbraucht es weniger Strom (was bei hohen Bandbreiten natürlich extrem wichtig wird) als mit Info-R (also ohne Siliziumbrücken). Ansonsten bekommt man halbwegs ähnliche Kontaktpitches (und Anzahl der Verbindungen) hin. Info-LSI und CoWoS-L unterscheiden sich übrigens am Ende in der Beziehung nicht wirklich (die Reihenfolge beim Assembly ist unterschiedlich, bei Info fängt man mit dem Hauptchips an und baut den Interconnect darauf auf, bei CoWoS ist es andersrum, da kommt der Hauptchip praktisch als letztes dazu).
Was AMD für den V-Cache benutzt (3D hybrid/direct bonding), hat aber nochmal deutlich kleinere Pitches (9µm bei Zen3, zukünftig in Richtung <3µm [TSMC hat schon entsprechende Laborversionen gezeigt]) und ermöglicht somit potentiell nochmal Faktor >10 mehr Kontakte [bei 3µm Pitches Faktor 100] und durch die extrem kurzen Verbindungen auch nochmal niedrigeren Energieverbrauch (im Idealfall dann praktisch schon im Bereich von on-Die-Verbindungen bzw. sogar niedriger, wenn die Distanzen gegenüber einem monolithischem Die erheblich verkürzt werden können).
(einfach aus dem Grund, dass Apple 2x GPUs transparent zur Anwendung damit skalieren kann und Sam Naffzinger gesagt hat mit der bei N31 genutzten Packaging Technologie wäre es nicht gegangen) Bitte korrigieren wenn es da Denkfehler gibt.

edit2: AMD gibt 5,3 TB/s an Bandbreite an. Selbst wenn das auf 6x MCDs verteilt ist, ist man doch da wie du sagst in der gleichen Größenordnung. Warum soll GCD scaling damit denn dann nicht funktionieren laut Sam? Oder braucht man einfach für eine High End GPU noch etwas mehr als das? (wobei man aber mit vergrößerten lokalen Caches auch wieder entlasten könnte, oder?)Der Interconnect ist nur eine Hälfte. Die andere Hälfte ist ein darauf ausgelegtes GPU-Design. Aber das wird kommen, daran habe ich keinen Zweifel.

robbitop

2022-11-22, 15:51:26

Ja die Packagingtechnologien scheinen so langsam reif dafür. Dass Siliziumbrücken weniger Strom benötigen und ein entsprechender Enabler sind ergibt nun für mich Sinn - danke für die Erklärung. :) Aber wahrscheinlich nicht ganz günstig.

Was die Kürzung der Wege mit Stacking angeht - das bringt einem ja zum Skalieren von GCDs nichts - denn aus thermischen Gründen sollte man die lieber nicht stacken.

Aber wenn man MCDs in Zukunft auch als SI Bridge mit nutzt, schlägt man natürlich mehrere Fliegen mit einer Klappe. Das macht Sinn. :up:

Welche Aspekte müssten denn an einem für Disaggregation ausgelegten GPU Design anders sein? Im Prinzip sitzt der Command Prozessor ja bereits heute an den jeweiligen Enden der Shaderengines. Mehr lokaler Cache um Bandbreite und Energie zwischen den Shaderenginges/GCDs zu sparen? Mehr Threads in Flight?

Gipsel

2022-11-22, 15:59:17

Welche Aspekte müssten denn an einem für Disaggregation ausgelegten GPU Design anders sein? Im Prinzip sitzt der Command Prozessor ja bereits heute an den jeweiligen Enden der Shaderengines. Mehr lokaler Cache um Bandbreite und Energie zwischen den Shaderenginges/GCDs zu sparen? Mehr Threads in Flight?Elementare Teile des GPU-Frontends sind immer noch zentral und nur einmal auf jeder GPU existent. Dies muß entsprechnd auf einzelne Dies verteilt werden (wie man Teile des Frontends [Rasterizer] als auch das Backend bereits erfolgreich auf die Shaderengines verteilt hat), die dann sinnvoll miteinander kommunizieren und sich synchronisieren. Dies hat Apple beim M1 Ultra offenbar bereits erledigt. AMD und nV noch nicht. Eine denkbare Alternative wäre, dies in ein extra Commandprocessor/Graphics Engine Die auszulagern, an die man eine variable Anzahl von Shaderengine-Dies anflanschen kann. Aber keine Ahnung, ob das sinnvoll wäre (im Vergleich zur Duplizierung wie beim M1 Ultra).

robbitop

2022-11-22, 16:05:29

Nakai

2022-11-22, 16:28:25

Duplizierung scheint der einfachste Weg zu sein, oder? So kann man dann mit dem gleichen GCD von 1...n skalieren und hat halt bei >1 GDC halt ein bisschen tote Fläche pro GCD.
Eine Verteilung und Skalierung wäre natürlich intelligenter - aber ggf. muss man ja nicht alles beim ersten Mal perfekt machen - gemäß Pareto. :)

Eigentlich muss man mehr Fläche für das Frontend in einem GCD einplanen, damit man überhaupt duplizieren kann. Ergo hat man bei Duplizierung und nicht-Duplizierung tote Fläche. Das ist aber auch nur eine Kröte die man schlucken müsste. Bei Skalierung gäbe es andere.

Gipsel

2022-11-22, 16:28:36

Duplizierung scheint der einfachste Weg zu sein, oder? So kann man dann mit dem gleichen GCD von 1...n skalieren und hat halt bei >1 GDC halt ein bisschen tote Fläche pro GCD.
Eine Verteilung und Skalierung wäre natürlich intelligenter - aber ggf. muss man ja nicht alles beim ersten Mal perfekt machen - gemäß Pareto. :)
Wenn Du mehr als zwei GCDs verbinden willst, mußt Du Dich mit der Topologie der Verbindungen auseinandersetzen: Ring, Alles mit Allem oder was auch immer. Oder eben wie AMD das bei CPUs mit den IO-Dies macht. Ein zentrales Die mit jeweils einem Link für jedes GCD und der Interconnect (wie auch immer der dann genau aussieht) ist dann quasi zentralisiert.

Berniyh

2022-11-22, 17:23:18

Zossel

2022-11-22, 18:04:10

Was ich mich frage, wie sie es bei M1 Ultra hinbekommen haben.

Ganz einfach, man züchtet sich Kunden die sich darüber freuen zu viel Geld auszugeben.

Zossel

2022-11-22, 18:07:32

Wenn Du mehr als zwei GCDs verbinden willst, mußt Du Dich mit der Topologie der Verbindungen auseinandersetzen: Ring, Alles mit Allem oder was auch immer. Oder eben wie AMD das bei CPUs mit den IO-Dies macht. Ein zentrales Die mit jeweils einem Link für jedes GCD und der Interconnect (wie auch immer der dann genau aussieht) ist dann quasi zentralisiert.

Bei der Anzahl von möglichen Verbindungen und der möglichen Dichte bei modernen Verbindungsverfahren von Chiplets und der Zahlungsbereitschaft der Kundschaft wird es wohl alles mit jedem werden.

amdfanuwe

2022-11-22, 20:02:07

Welche Einheiten kann man denn Sinnvoll auf einen Chip bringen und in welchem Node?

Mir erscheint der L2 und Command Unit als Zentrales Element über das alles läuft.
IF$ kann man dem Speicherinterface zuordnen, da braucht es nicht viel Kommunikation untereinander.

könnte man auf einzelne Chips auslagern:
-Shader Engine
-L2 + Command
-I/O, Media
-IF$ + SI

Worin unterscheiden dich N31, N32, N33 bzw. N41, N42, N43?
Unterschiedliche Anzahl an SE, SI+IF$, L2

Wie wichtig ist es den Command und Media Unit im bestem Node zu haben? Kommt es da auf Takt oder etwas Energieersparnis an? Ich denke die wesentliche Arbeit passiert in den SE, weshalb die im bestem Node zu fertigen sind.
Den Rest könnte man komplett in N6 oder N5 auf einen Chip bringen.

Also Base Die mit L2, Command, Media, I/O, IF$ und SI.
Darauf nebeneinander mehrere SE Chiplets gestacked?
Gibt dann N41 Base Die mit z.B. 6(5) SE Chiplets, 6 SI, Salvage 5SI
N42 Base Die mit 4(3) SE Chiplets, 4 SI, Salvage 3SI

Dass jetzt MCDs gibt, heißt ja nicht, dass die zukünftig weiter Verwendung finden.

iamthebear

2022-11-22, 20:35:51

Wo siehst Du hier 50% Extra-Platz?

https://abload.de/img/amdrdna3techday_press4mece.png

Das ist deutlichst weniger (maximal ~15% am unteren Rand).

Die 50% waren jetzt mehr als Beispiel gedacht. Wieviel es tatsächlich sind weiß ich nicht.

Ausgemessen habe ich (basierend auf die Die Shots von Locuza):
Memory Interface: 10mm²
IF$: 9,5mm²
Gesamt: 19,5mm²
MCD Gesamt: 37,5mm²
Dazu kommt noch der zusätzliche Platzbedarf auf der GCD Seite

Klar auch wenn man den Chip monolithisch gefertigt hätte gäbe es etwas Ansteuerungslogik aber bei Weitem nicht so viel.

Oder von der der anderen Seite her gerechnet (Angaben in mm²):
|Navi31|Navi21
Die size gesamt|533|520
Speicherinterface|60|46
IF$|57|80
Shader Engines|163|230
Rest|253mm²|164mm²

Jetzt die Frage:
AMD hat beim "Rest" anscheinend 91mm² verbraten.
Ich sage nicht, dass davon alles auf Kosten der Chiplets geht aber sicher ein großer Teil davon. Dazu kommen noch die Flächeneinsparungen, die man durch einen dichteren 5nm IF$ gehabt hätte.

Nakai

2022-11-22, 21:09:40

Single Points die man nicht wirklich skalieren kann sind das Frontend und eigentlich auch das Backend. Dazwischen (GCD) und dahinter (MCD) kann man wieder skalieren. Ergo wird sich eine mögliche Full-Chiplet-Architektur daran orientieren müssen. Der Command Processor kann prinzipiell jeder Shader Engine Arbeit verschaffen und jede Shader Engine muss prinzipiell auf jedem Speicherbereich zugreifen können. Auch muss der Command Processor auf den Speicher zugreifen können um Instruktionen für die Shader Engines zu generieren. Dann ist noch die Frage, wie man den besten Preisleistung und die beste Skalierbarkeit erzeugen kann.

Bei RDNA3 sind die MCDs direkt an dem GCD gestöpselt. Wird die Topologie zu wild müsste man mit einem passiven/aktiven Interposer arbeiten, aber das wird wieder teuer und man hängt am Rectingle Limit. RDNA3 ist nur ein Zwischenschritt und diese Chiplet-Architektur werden wir in Zukunft nicht mehr sehen, wenn AMD die GCD auch skalierbar machen möchte.

Eine mögliche Topologie könnte so aussehen:
1 x IO+Command Die (ICD)
N x Graphics Core Dies (GCD)
M x Memory Cache Dies (MCD)

Der ICD liegt dabei in der Mitte und könnte einen älteren Prozess verwenden.
Die GCDs liegen auf einer Seite und die MCDs auf der anderen Seite.
Pro GCD der unterstützt werden will, braucht es nun ein bestimmtes Interface. Will man eine direkte Anbindung haben und z.B. 3 GCDs unterstützen, muss der ICD 3 Ports bereitstellen. Pro Port gibt lauft dann der Instruktionsstrom und die Speicherzugriffte. Will man nun 4 MCDs unterstützen braucht es wieder vier Ports am ICD. Multimedia Engine, Display Engine und alles andere kann da auch drin Platz haben.

Gipsel

2022-11-22, 21:10:48

Die 50% waren jetzt mehr als Beispiel gedacht. Wieviel es tatsächlich sind weiß ich nicht.

Ausgemessen habe ich (basierend auf die Die Shots von Locuza):
Memory Interface: 10mm²
IF$: 9,5mm²
Gesamt: 19,5mm²
MCD Gesamt: 37,5mm²
Ich hatte nicht umsonst einen Dieshot des MCDs mitgepostet (zur Bequemichkeit kommt der gleich noch mal). Bitte zeige mir, wie Du da auf Deine Zahlen kommst (insbesondere, daß IF$ und Mem-Controller zusammen angeblich gerade mal knapp über die Hälfte der Fläche einnehmen)! Danke.

https://abload.de/img/amdrdna3techday_press4mece.png

iamthebear

2022-11-22, 21:35:43

Gipsel

2022-11-22, 21:51:59

Die Shot von Locuza siehe:
https://pbs.twimg.com/media/Fg-ai8-WQAEK_1H?format=jpg&name=4096x4096

Ich komme hier auf:
Skalierung: 6,383µm/Pixel

2MB IF$: 133*220 Pixel = 1,192mm² => 16MB: 9,536mm²
32Bit Memory Interface: 123x1005 Pixel = 5,036mm²
Grundlage ist quasi das gleiche Bild ("meins" ist nur 1:1 aus der Präsentation und noch ein wenig aufgehellt).
Aber vielleicht schaust Du Dir mal die Vergleiche im Twitterthread von Locuza (wo Du das vermutlich her hast) an! Dann bemerkst Du vermutlich, daß Du nur die reinen SRAM-Arrays und die GDDR6-PHYs ausgemessen hast. Ein Cache und ein Speichercontroller bestehen allerdings aus mehr als das. Sogar in dem von Dir verlinkten Bild sind oben links im MCD die einzelnen 2MB SRAM-Blöcke (ohne Tags und Controller) eingezeichnet, im MCD gleich daneben aber ein größerer Block zusammen als 16MB Infinity-Cache ausgewiesen. ;)
Weitere schöne Bespiele findet man dort (in Locuzas Twitterthread) z.B. bei den zum Vergleich herangezogenen Dieshots von PS5 und XBox-Series X beim L2 und L3 Cache der Zen2-CCXs (oder auch die dortigen Speichercontroller, wo er PHYs [die handhaben nur das reine Erzeugen/Empfangen der elektrischen Signale] und die Controller [die handhaben die komplette zum Speicherinterface gehörende Logik, Pufferung und Ordnung] ebenfalls getrennt markiert hat). Da nehmen die nominellen SRAM-Arrays (Locuza hat das dort ohne Tags eingezeichnet) noch nicht mal die Hälfte der Gesamtfläche ein. :lol:
Und das ist immer so, egal ob auf einem Die oder auf dem MCD (wo IF$ und Speicherinterface mitsamt der Verbindungslogik zwischen den beiden definitiv >80% der Gesamtfläche beanspruchen). ;)

amdfanuwe

2022-11-22, 21:52:44

SI besteht nicht nur aus Leistungstransistoren.
Cache nicht nur aus Speicherzellen.
Zudem kommen noch Testlogik, Spannungs und Temperaturüberwachung sowie Frequenzgeneratoren auf den Chip.
Gehört dazu und wird auch monolithisch nicht weniger.

Das IF zum GCD macht da nur ~4,5mm² aus.

Der_Korken

2022-11-22, 22:19:08

Nakai

2022-11-22, 23:15:47

Die Variante mit dem Command Processor in einem zentralen IO-Die sieht mir am schlüssigsten aus, auch wenn man diesen Logik-Teil auch gerne im "guten" Fertigungsprozess hätte. Die Varianten, wo man zwei (oder mehr) identische GCDs verbindet, haben alle den Nachteil, dass man den Platz für Display/Multimedia-Engine und PCIe-PHYs doppelt drin haben muss, weil man das schlecht trennen kann und ein einzelner GCD für sich auch funktionieren muss. Zudem muss die Verbindung zwischen zwei GCDs mindestens so breit wie das gesamte Speicherinterface sein, da 50% der Speicherzugriffe jedes GCDs in den Speicher des anderen reingeht. Oder aber man muss vor und hinter diesen Interconnect wieder Cashes bauen, um den Traffic zu verkleinern - was aber wieder jede Menge Chipfläche auf dem GCD kostet, um ein Problem zu lösen, dass man ohne den Split gar nicht hätte.

Wenn ich mir Nakais Bild so anschaue, würde ich aber vermuten, dass man den L1 auf den GCDs deutlich aufstocken müsste, weil bereits der Zugriff auf den L2 einen Off-Chip-Hop bedeutet (und auf den L3 entsprechend zwei Hops).

Ist einfach nur eine Idee. Eine riesige Komplexität bei GPUs sind die übelst großen Interconnects und Crossbars zwischen allen Subsystemen. Jeder Logikblock alleine hat zwar meistens nur einen Port am Interconnect, aber dieser Crossbar wächst halt dramatisch mit der Anzahl der Teilnehmern. Im Grunde muss man diesen Crossbar auslagern, wenn man maximale Skalierbarkeit haben möchte. Ein ICD (I/O-Command-Die) ist aber dann für jegliche GPU-Konfiguration spezifisch. Man könnte sich nun noch überlegen den Command Prozessor, die Multimedia Engines, etc. auf einen eigenen Die auszulagern, dann ist der IO-Die wirklich nur dafür da die Parteien zu verdrahten. Eventuell baut man noch einen Cache in den IO-Die. Ein Command Processor muss auch für bestimmte GPU-Konstellationen in die Breite skalieren, damit die SEs gefüttert werden können.

Man muss aber hier auch Feasability im Fokus haben. Wieviele Dies kann man einfach miteinander verdrahten? Gibt es irgendwelche Pfade die besonders kritisch sind? Welche Skalierbarkeit will man erreichen?

Der_Korken

2022-11-22, 23:33:48

Nakai

2022-11-22, 23:48:41

Der ICD muss wie du schon sagst für jede "GPU-Größe" neu aufgelegt werden, weil man mehr Interfaces unterbringen muss. In dem Fall wäre es sogar elegant den CP dort drauf zu haben, weil man ihn dann auch gleich für die entsprechende Anzahl an Shader Engines auslegen kann. Bei einem separaten "Command Processor Die" müsste man womöglich auch mehrere Größen anbieten. Und da die Gewinne durch neue Fertigungsprozesse alleine anscheinend immer geringer ausfallen, ist der Effizienz-Verlust durch die Cross-Chip-Kommunikation am Ende vielleicht größer als den CP einfach im älteren Prozess auf dem ICD zu lassen. Der CP ist ja deutlich kleiner als eine einzelne Shader Engine.

Ja, und man muss den ICD so groß machen, dass er genug Platz bzw. Umfang für alle anderen Chiplets für die GPU bieten. Ergo muss er "wachsen". Ein anderes Problem ist aber, dass ein veralteter Prozess eventuell nicht die Taktraten liefert, die notwendig sind. Der CP taktet bei RDNA3 auch höher als die SEs auf dem GCD.

€: Ahja, der Punkt bzgl den größeren Caches oder aufgebohrten Caches bei SE-Chiplets ist sehr valide. AMD hat in letzter Zeit gezeigt, dass man sehr gerne viele Probleme mit größere, besseren Cache erschlagen möchte.

basix

2022-11-23, 00:56:54

Ist einfach nur eine Idee. Eine riesige Komplexität bei GPUs sind die übelst großen Interconnects und Crossbars zwischen allen Subsystemen. Jeder Logikblock alleine hat zwar meistens nur einen Port am Interconnect, aber dieser Crossbar wächst halt dramatisch mit der Anzahl der Teilnehmern. Im Grunde muss man diesen Crossbar auslagern, wenn man maximale Skalierbarkeit haben möchte. Ein ICD (I/O-Command-Die) ist aber dann für jegliche GPU-Konfiguration spezifisch. Man könnte sich nun noch überlegen den Command Prozessor, die Multimedia Engines, etc. auf einen eigenen Die auszulagern, dann ist der IO-Die wirklich nur dafür da die Parteien zu verdrahten. Eventuell baut man noch einen Cache in den IO-Die. Ein Command Processor muss auch für bestimmte GPU-Konstellationen in die Breite skalieren, damit die SEs gefüttert werden können.

Man muss aber hier auch Feasability im Fokus haben. Wieviele Dies kann man einfach miteinander verdrahten? Gibt es irgendwelche Pfade die besonders kritisch sind? Welche Skalierbarkeit will man erreichen?

Der 2-Level Rasterizer (aus einem der AMD Patente) scheint mir genau das zu sein, was ihr sucht:

Der 1. Level teilt das Bild in Tiles auf (auf "ICD"), welche als Work Packages an die GCDs gesendet werden, wo dann der 2. Level des Rasterizings ausgeführt wird (auf GCDs). Führt das bereits zu möglichst minimerten Datenaustausch zwischen den GCDs?
Einzelnes unified GCD Design, welches skaliert werden kann
Mehrere GCDs = Stärkere GPU
Nur schon ein einzelnes GCD + MCD + "ICD" = Vollwertige GPU
Jedes GCD hat seinen eigenen Command-Subprocessor (CMD'), welcher die on-chip Shader Engines ansteuert
Command Processor wächst in die Breite, wenn mehr Chiplets verwendet werden
Speicherbandbreite skaliert mit Anzahl GCDs mit
MCD = 6nm, ICD = 5nm, GCD = Top Notch Node (z.B. N3E)

Was halt sehr schwierig sein wird, ist die Work Distribution (Load Balancing) zwischen den GCDs und die Data Locality. Im besten Fall arbeitet jedes GCD nur aus seinem eigenen MCD-Slice und Daten von den anderen Slices werden nur selten benötigt. Wenn das aber so leicht möglich wäre, gäbe es schon lange Chiplet-GPUs.

Folgend zwei Varianten mit 3 und 6 GCDs:
- 3x GCDs: 1, 2, 3 --> GCD Varianten
- 6x GCDs: 1, 2, 3, 4, 6 --> GCD Varianten (haben wir nicht mal Gerüchte zu N41-N45 gehört?)

Das schöne am ganzen ist, dass es von RDNA1 -> RDNA2 -> RDNA3 -> RDNA4 eine schöne Evolution wäre (was hinsichtlich Entwicklungsprozess passen könnte):
-> RDNA-Architektur
-> + Infinity-Cache
-> + Aufsplittung in MCD & GCD Chiplets
-> + Aufsplittung des GCDs

Edit:
Ach ja, wenn man N23 3x hintereinander anordnet, kommt man ziemlich genau auf das, was ich mir vorstelle ;)

Nakai

2022-11-23, 02:12:42

Mhh, dann müssen aber die GCDs mit einer anderen Topologie angesteuert werden. Ringbus?

Wenn man die L2 Caches relativ groß macht, dann könnte das klappen. Wir reden da aber von deutlich mehr als Heute. Ahja, der Master Command Prozessor bei einem hypothetischem Chiplet-System auch nur Teilnehmer am Ringbus.

Ringbus kann ich mir aber fast nicht vorstellen.

€: Ich finde das aber von der Platzierung der unterschiedlichen Chiplets dennoch sehr spannend und schlüssig.

mboeller

2022-11-23, 07:01:27

Ergo muss er "wachsen". Ein anderes Problem ist aber, dass ein veralteter Prozess eventuell nicht die Taktraten liefert, die notwendig sind. Der CP taktet bei RDNA3 auch höher als die SEs auf dem GCD.

bietet das nicht auch eine Chance?

Wenn der CP/IO immer gleich groß ist dann kann man den CP auch über die Frequenz skalieren.

zB.:
N31: 2.5GHz, was auch in 6nm noch gehen würde
N32: 1,66GHz (hypothetisch)
N33: 833MHz (hypothetisch)

Damit würden vor allem die kleinen Varianten sehr sparsam werden, zumindest bezgl. CP.

Oder muss der CP immer gleich schnell sein?

robbitop

2022-11-23, 08:00:00

Single Points die man nicht wirklich skalieren kann sind das Frontend und eigentlich auch das Backend.
Naja große Teile des Front Ends lassen sich skalieren. Der Rasterizer. Jede Shader Engine hat einen. Bei Nvidia ist das auch so - auch schon sehr lange. ~10+ Jahre schon.

Backend: ROPs. Sind ebenfalls über die Shaderengines skaliert. Dahinter kommen Memoryinterfaces, die sich auch skalieren lassen.

Es scheint primär der Commandprozessor zu sein, den man anders gestalten müsste (so wie von basix aus einem AMD Patent beschrieben), oder man doppelt einfach, so wie beim M1 Ultra. Und so lange man erstmal nur 1-2 GCDs skaliert, wird es auch deutlich einfacher in Bezug auf die Verbindung.

Displayoutput, video decoding/encoding sind auch Dinge, um die man sich Gedanken machen müsste. Ggf. gibt es ja wirklich irgendwann einen zentralen I/O Die der obiges 1x verbaut.

basix

2022-11-23, 08:26:46

Es scheint primär der Commandprozessor zu sein, den man anders gestalten müsste (so wie von basix aus einem AMD Patent beschrieben), [...]

Die Aufsplittung des Speichersubsystem ab L2-Cache kommt auch noch hinzu. Das wird nicht einfach zu lösen sein:
- Grössere L2-Caches (wie von Nakai schon geschrieben)
- Datenverkehr zwischen den einzelnen GCDs minimieren
- Mit "fragmentierten" MCD + GCD Blöcken leben können und trotzdem einen Unified Memory Pool haben (Infinity Cache + VRAM)

Wie das geht, ist die 1 Mio. Dollar Frage.

Cache-Kohärenz muss man auch noch sicherstellen, oder? Bei Zen hat es ja auf dem IOD irgendwas für das via Infinity Fabric (Cache-Snoop? MESI?). Schön, sind RDNA-GPUs ebenfalls rund um Infinity Fabric aufgebaut ;)

Complicated

2022-11-23, 08:56:48

Die Cache-Kohärenz wird über den IF$ auf den MCDs hergestellt. Dieser L3$ ist unified laut AMD Patent. Es wird ein primärer GCD verwendet zur Kommunikation mit der CPU, der den Cache und die gemeinsame Adressierung für alle weiteren GCDs in deren "lokale" MCDs synchronisiert.
Die MCDs selbst sind diese aktiven Bridge-Chiplets, da kommen dann beim skalieren keine "nodes" dazu, da die Anbindung jedes GCDs direkt mit seinem MCD in den unified L3$ erfolgt. Wo die Daten liegen verwaltet und dispatched der primäre GCD.
https://www.freepatentsonline.com/20210097013.pdf

Auch hier erläutert: https://www.pcgameshardware.de/Grafikkarten-Grafikkarte-97980/News/GPU-Chiplets-Neues-AMD-Patent-aktives-Bridge-Design-integrierter-Cache-1369799/
AMD erklärt in dem Patent, dass jegliche Inter-Chiplet-Kommunikation über das aktive Bridge-Chiplet geleitet würde, das für den Zugriff auf Speicherkanäle auf einzelnen GPU-Chiplets erforderlich wäre. Darüber hinaus würde sich der gesamte Active-Bridge-Cache ähnlich wie ein monolithischer GPU-Cache verhalten, statt auf einzelne Chiplet-Caches zu setzen: Der Speicher wäre als ein einziges Register adressierbar, was dafür sorgen würde, dass aus Sicht der Software-Entwickler keine Chiplet-spezifischen Überlegungen notwendig sind.

Edgecrusher86

2022-11-23, 09:04:40

Custom-Modelle sollen eine bis zwei Woche später erscheinen! Etwas blöd gemacht für potentielle Kunden, die es gerne leiser und kühler hätten - zu einem wohl deutlichen Aufpreis.
Naja, der wird wohl ähnlich ausfallen wie bei Ada. 200-300€ würde ich dann schon für wahrscheinlich halten - sprich, Topmodelle der XTX bis grob 1500€. Aber es wird sich sicherlich lohnen, wenn oftmals die 4090 Kühler verbaut werden.
Wobei es schon sein mag, dass N31 etwas wärmer wird bei nur 300mm² für den Hauptchip - wobei man sagen muss, dass AD103 mit 379mm² auch nicht wirklich wärmer wird als der viel größere AD102.

https://abload.de/img/screenshot2022-11-230xcdfm.jpg

Quelle: VC (https://videocardz.com/newz/custom-radeon-rx-7900-series-rumored-to-launch-1-to-2-weeks-after-amd-reference-design)

DrFreaK666

2022-11-23, 09:11:01

Das sind Gerüchte, wäre aber nicht das erste Mal, das es so kommt

nordic_pegasus

2022-11-23, 09:38:35

der Verkaufsstart am 13.12. ist ja schon reichlich knapp vor Weihnachten, aber wenn die Custom Karten wirklich 1-2 Wochen später kommen, wäre das genau in der Zeit um die Feiertage. Vielleicht sollte man AMD mal einen Kalender schenken.

Ich kann mir nicht vorstellen, dass ein Start Ende November oder zumindest direkt in der ersten Dez.-Woche unmöglich gewesen wäre. Hoffentlich sind zum Ausgleich dann so viele Referenz-Karten verfügbar, dass man auch eine abbekommt zum Start.

Korvaun

2022-11-23, 10:03:13

Fragt sich woran es wirklich liegt... Probleme mit der Hardware? Bauteileknappheit? Chipknappheit?
Oder ist der Treiber einfach noch nicht reif und der aktuelle Termin eher eine Notlösung um noch diese Jahr in den Markt zu kommen (wenn sich die Customs nur ein paar Tage verschieben sind das dann Karten fürs neue Jahr...)?

BlacKi

2022-11-23, 10:07:17

robbitop

2022-11-23, 10:09:25

https://abload.de/img/screenshot2022-11-230xcdfm.jpg

Quelle: VC (https://videocardz.com/newz/custom-radeon-rx-7900-series-rumored-to-launch-1-to-2-weeks-after-amd-reference-design)

7999 RNB (yuan) sind 1.117 USD / 1084 EUR (zur Zeit dieses Postings). Wenn das ohne Steuern ist, ist es über UVP von 999 USD für die 7900 XTX.

BlacKi

2022-11-23, 10:16:20

7999 RNB (yuan) sind 1.117 USD / 1084 EUR (zur Zeit dieses Postings). Wenn das ohne Steuern ist, ist es über UVP von 999 USD für die 7900 XTX.und die customs sollten nochmals drüber liegen. dann ist die viel zu teure 4080 auch nichtmehr weit weg.

DrFreaK666

2022-11-23, 10:19:45

der Verkaufsstart am 13.12. ist ja schon reichlich knapp vor Weihnachten, aber wenn die Custom Karten wirklich 1-2 Wochen später kommen, wäre das genau in der Zeit um die Feiertage. Vielleicht sollte man AMD mal einen Kalender schenken...

Gamer, die keine Familie ernähren müssen, haben nach Weihnachten eher mehr Geld statt weniger.

Tangletingle

2022-11-23, 10:20:29

Warum sollte man für China die Preise ohne Steuer angeben? Das ist dort eigentlich nicht üblich.

robbitop

2022-11-23, 10:25:14

und die customs sollten nochmals drüber liegen. dann ist die viel zu teure 4080 auch nichtmehr weit weg.
Wobei die 4080 FE auch Meilenweit weg von der UVP ist. Nur ein paar customs kommen halbwegs ran - aber noch 50 EUR drüber.

Warum sollte man für China die Preise ohne Steuer angeben? Das ist dort eigentlich nicht üblich.
Wenn die Information bei jemandem aus dem Großhandel oder einem OEM kommt, kann das schon sein. Dort wird ja schon zumeist in Nettopreisen kommuniziert.

Gipsel

2022-11-23, 11:18:39

Der 2-Level Rasterizer (aus einem der AMD Patente) scheint mir genau das zu sein, was ihr sucht:
Der 1. Level teilt das Bild in Tiles auf (auf "ICD"), welche als Work Packages an die GCDs gesendet werden, wo dann der 2. Level des Rasterizings ausgeführt wird (auf GCDs). Führt das bereits zu möglichst minimerten Datenaustausch zwischen den GCDs?So funktioniert heute (eigentlich seit geraumer Zeit) schon die Aufteilung der Pixelshaderlast auf die Shaderengines bei AMD bzw. die GPCs bei nV. Nur durch die Zuordnung von Screentiles zu einem Rasterizer und den ROPs dort kann man ja das korrekte Rendering sicherstellen, wenn man die Arbeit auf mehrere parallele Shaderengines aufteilt. Und die größere Datenlokalität durch die Caches dort nutzt man dann auch noch etwas effizienter. Ein wenig mehr muß da noch kommen.

basix

2022-11-23, 11:26:16

Gipsel

2022-11-23, 12:46:46

Im Patent wird noch was von Coarse Rasterizing im 1. Level und Fine Grained Rasterizing im 2. Level genannt. Nicht nur die Aufteilung in Tiles. Kann dir aber nicht genau sagen, was "Coarse Rasterizing" genau sein sollCoarse ist die Zuteilung zu den Screentiles. Fine ist dann das Rastern auf der Pixel-/Fragmentebene. ;)

Erstbester Google-Hit (ist zwar ein Patent von nV, aber das geht bei AMD auch nicht anders) dazu (https://patents.google.com/patent/US9495781B2/en):
Conventional graphics processing pipelines perform rasterization of primitives in two stages. The first stage is coarse rasterization that identifies one or more pixel tiles in screen space that are covered by a primitive. The second stage is fine rasterization. During fine rasterization, the pixel tiles identified during coarse rasterization are processed to determine which samples are covered by the primitive.

basix

2022-11-23, 14:29:13

Gipsel

2022-11-23, 15:40:33

Dann ist dieses Patent alter Wein in neuen Schläuchen? Einfach "Chiplets" rangeflanscht mit z.B. ausgelagertem Command Processor und abgesetzten Shader Engines?
https://www.freepatentsonline.com/20220207827.pdfIst wohl grob eine Erweiterung mit einem zusätzlichem Level: Große Tiles (Zuweisung zu GCDs?), mittelgroße Tiles (Shaderarrays in einem GCD?) und dann am Ende natürlich die eigentliche Rasterisation auf Pixelebene.

basix

2022-11-23, 18:01:24

Bezogen auf eine heutige monolithische GPU: Die "Mittelgrossen Tiles" wären somit die Tiles, welche der Command Processor an die Shader Engines / Shader Arrays schickt.

Oben drüber also noch eine Stufe, welche nochmals weniger granular ist (grössere Tiles). Da die Tiles gröber und somit von der Anzahl her weniger sind, würde das im Umkehrschluss den Kommunikationsbedarf zwischen Shader Engines und "Master Command Processor" reduzieren? Bei einer monolithische GPU sind relativ fette Busse vorhanden, welche man so evtl. verkleinern könnte:
https://fuse.wikichip.org/wp-content/uploads/2020/02/isscc2020-bus-planning.png
https://fuse.wikichip.org/news/3331/radeon-rx-5700-navi-and-the-rdna-architecture/

Vom L2$ und innerhalb der Shader Engines werden aber nochmals deutlich mehr Daten hin- und hergeschoben (sieht man auch schön in obigem Bild). Und insbesodere hinsichtlich L2$ -> IF$ -> VRAM ist mir nicht ganz klar, wie man bei einem gesplitteten GCD hier den Datenverkehr sinnvoll minimieren kann. Datenlokalität war immer schon ein Thema, mit gesplittetem GCD werden die Anforderungen aber auf ein ganz neues Niveau gehoben. Ausser man macht super-breite Busse zwischen den GCDs, was man jedoch vermeiden will (Chipfläche, Energieverbrauch).

why_me

2022-11-23, 19:19:15

Sollte man das Chiplet thema nicht in einen neuen Thread auslagern? Es ist super interessant, aber hier etwas OT und in spätestens 3 Wochen wird es hier dann komplett untergehen...

OgrEGT

2022-11-23, 19:44:37

Sapphire teases Radeon RX 7900 NITRO series with LED-illuminated cooler
https://videocardz.com/newz/sapphire-teases-radeon-rx-7900-nitro-series-with-led-illuminated-cooler

Eckige Lüfterblades... ob die leise sind? Sie sollten jedenfalls nicht lauter sein als die bisherigen Lüfter, und die sind schön leise :smile:

bbott

2022-11-23, 21:32:06

Eckige Lüfterblades... ob die leise sind? Sie sollten jedenfalls nicht lauter sein als die bisherigen Lüfter, und die sind schön leise :smile:
Sapphire war fast immer die leiseste für ihre Performance.

Digidi

2022-11-23, 23:41:08

Gibt es schon neuigkeiten warum die 7900xtx keine 3 ghz erreichen kann? Irgendwie ist das alles komisch. Auch das Argument mit dem Respin passt irgendwie nicht. Respin macht man ja bei Logikfehler. Hier geht es doch aber um den Takt. Man würde dann ja gar keinen Takt bekommen wenn etwas am Taktgeber etc. defekt ist? Das gibt alles irgendwie keinen Sinn

iamthebear

2022-11-24, 02:13:35

Grundlage ist quasi das gleiche Bild ("meins" ist nur 1:1 aus der Präsentation und noch ein wenig aufgehellt).
Aber vielleicht schaust Du Dir mal die Vergleiche im Twitterthread von Locuza (wo Du das vermutlich her hast) an! Dann bemerkst Du vermutlich, daß Du nur die reinen SRAM-Arrays und die GDDR6-PHYs ausgemessen hast. Ein Cache und ein Speichercontroller bestehen allerdings aus mehr als das. Sogar in dem von Dir verlinkten Bild sind oben links im MCD die einzelnen 2MB SRAM-Blöcke (ohne Tags und Controller) eingezeichnet, im MCD gleich daneben aber ein größerer Block zusammen als 16MB Infinity-Cache ausgewiesen. ;)
Weitere schöne Bespiele findet man dort (in Locuzas Twitterthread) z.B. bei den zum Vergleich herangezogenen Dieshots von PS5 und XBox-Series X beim L2 und L3 Cache der Zen2-CCXs (oder auch die dortigen Speichercontroller, wo er PHYs [die handhaben nur das reine Erzeugen/Empfangen der elektrischen Signale] und die Controller [die handhaben die komplette zum Speicherinterface gehörende Logik, Pufferung und Ordnung] ebenfalls getrennt markiert hat). Da nehmen die nominellen SRAM-Arrays (Locuza hat das dort ohne Tags eingezeichnet) noch nicht mal die Hälfte der Gesamtfläche ein. :lol:
Und das ist immer so, egal ob auf einem Die oder auf dem MCD (wo IF$ und Speicherinterface mitsamt der Verbindungslogik zwischen den beiden definitiv >80% der Gesamtfläche beanspruchen). ;)

Das ist mir schon klar, dass da in den MCDs auch einiges an Zeugs ist, was auch in einem monolithischen Die wäre.
Mein Vergleich war jedoch mit Navi21, wo ich auch lediglich die PHYs und SRAM Zellen ausgemessen habe.
Navi31 hat ein dickeres Speicherinterface, dafür weniger IF$, das gleicht sich in Summe in etwa aus.
Der Gesamtplatz für die Shader Engines wurde massiv verkleinert (hauptsächlich durch den 5nm Shrink).
Jetzt ist die Frage: Warum ist Navi31 dann trotzdem in Summe größer als Navi21? Für irgendetwas muss AMD hier fast 100mm² mehr verwendet hat:
.) Speicherinterface und IF$ ist es ja wie schon erwähnt nicht
.) Shader Engines auch nicht
.) Der IO Teil wird es kaum sein. Da kam ja bis auf DP 2.1 nicht viel dazu.
.) Das ganze Zeugs in der Mitte (Command Frontend, L2 etc.) habe ich jetzt noch nicht ausgemessen aber das sieht optisch auch ziemlich gleich aus.

bestMAN

2022-11-24, 08:24:28

gibt es denn (wage) Infos zu der Serie AMD RX 7700/7800 XT?
Also was Vorstellungstermin und Launch angehen?

Voodoo6000

2022-11-24, 10:47:10

Custom-Modelle sollen eine bis zwei Woche später erscheinen!
Stimmt nicht. Das Angebot könnte aber knapp sein.
ComputerBase hat bei mehreren Boardpartnern nachgefragt und kann das Gerücht, dass es zum 13. Dezember nur Referenzkarten im Handel geben wird, nicht bestätigen. 2 Hersteller haben dagegen explizit den 13. Dezember als den Startzeitpunkt für eigene Custom-Designs der Radeon RX 7900 XT sowie Radeon RX 7900 XTX inklusive Verfügbarkeit im Handel genannt, ein dritter ist sich seiner Sache ziemlich sicher gewesen.

Gipsel

2022-11-24, 10:47:47

Das ist mir schon klar, dass da in den MCDs auch einiges an Zeugs ist, was auch in einem monolithischen Die wäre.
Mein Vergleich war jedoch mit Navi21, wo ich auch lediglich die PHYs und SRAM Zellen ausgemessen habe.Nein, Du hast in den Raum gestellt, daß die 6nm MCDs durch irgendwelche wegen der Aufteilung zusätzlich erforderliche Dingen 50% größer sind. Das stimmt halt nicht (es ist deutlich weniger).
Das Hauptproblem, das ich sehe ist die zusätzliche Ansteuerungslogik, die auf den MCDs notwendig wird und somit zusätzlichen Platz benötigt. Wenn die 6nm MCDs nun in Summe z.B. 50% größer sind [..]
Und auch bei N21 sind die Speichercontroller und der Cache mehr als nur die PHYs und die SRAM-Blöcke (bei N31 aber mit doppelter Bandbreite pro Takt [mehr Overhead für die Verdrahtung ;)], insgesamt hat N31 erheblich höhere interne Bandbreiten). Der Vergleich deren Größe (bei den M31 MCDs) mit der Gesamtgröße des MCDs führt also erstmal nicht weit.

mksn7

2022-11-24, 15:21:07

Eine mögliche Topologie könnte so aussehen:
1 x IO+Command Die (ICD)
N x Graphics Core Dies (GCD)
M x Memory Cache Dies (MCD)

Der ICD liegt dabei in der Mitte und könnte einen älteren Prozess verwenden.
...

Diese Architektur würde auf jeden Fall schonmal das NUMA Problem vermeiden, das man mit zwei symmetrischen Chiplets mit integriertem Speicherinterface hätte.

Vor einem coarse rasterizer müsste die Geometrie erst noch durch die ganzen Geometrie shader stages (GS/HS/DS/VS/MS/TS/??), und die laufen ja auch auf den shader engines. Also erstmal vertices, indices und attributes in die shader engines rein, und dann transformierte vertices und (möglicherweise geänderte indices) und zu interpolierende attribute wieder auf den ICD, rein in den coarse rasterizer, und dann die verteilte Geometrie wieder in die shader engines rein. Hört sich nach viel hin und her an, aber vielleicht sind diese shader stages im Vergleich zum Pixelshader auch gar nicht so relevant.

Für manche draw calls mit wenig shader last, z.B. für depth only, wäre es vielleicht besser die meshes auf shader engines zu verteilen, die transformierte Geometrie dort zu lassen, und nur die exportierten fragments zurück zum ICD zu schreiben.

Gedanklich wollte ich noch eine cache Stufe auf GCD level einziehen um solche Daten auf dem GCD zu lassen und zu verteilen, aber die gibt es bei RDNA mit dem L1 cache ja schon! Dürfte dann aber noch ein bisschen größer sein.

Nakai

2022-11-24, 15:26:28

Diese Architektur würde auf jeden Fall schonmal das NUMA Problem vermeiden, das man mit zwei symmetrischen Chiplets mit integriertem Speicherinterface hätte.

Das war der Hauptpunkt erstmal.

Vor einem coarse rasterizer müsste die Geometrie erst noch durch die ganzen Geometrie shader stages (GS/HS/DS/VS/MS/TS/??), und die laufen ja auch auf den shader engines. Also erstmal vertices, indices und attributes in die shader engines rein, und dann transformierte vertices und (möglicherweise geänderte indices) und zu interpolierende attribute wieder auf den ICD, rein in den coarse rasterizer, und dann die verteilte Geometrie wieder in die shader engines rein. Hört sich nach viel hin und her an, aber vielleicht sind diese shader stages im Vergleich zum Pixelshader auch gar nicht so relevant.

Ja, da hast du wirklich recht. Eventuell braucht dann eine SE eben einen eigenen Sub-Command-Prozessor um diese Transaktionsschleifen zu vermeiden. Das wäre wirklich nur ein bisschen Overhead.

Für manche draw calls mit wenig shader last, z.B. für depth only, wäre es vielleicht besser die meshes auf shader engines zu verteilen, die transformierte Geometrie dort zu lassen, und nur die exportierten fragments zurück zum ICD zu schreiben.

Gedanklich wollte ich noch eine cache Stufe auf GCD level einziehen um solche Daten auf dem GCD zu lassen und zu verteilen, aber die gibt es bei RDNA mit dem L1 cache ja schon! Dürfte dann aber noch ein bisschen größer sein.

Ja, die Caches müssten angepasst werden. Die Cache-Struktur hat man ja seit RDNA eh schon stark adaptiert. AMD brüstet sich auch mit einer überarbeiteten Cache-Struktur bei RDNA3. AMD erschlägt derzeit auch vieles mit Caches, größeren Caches, etc. Definitiv muss da noch weiter gearbeitet werden.

horn 12

2022-11-25, 03:10:54

Wo siehst du selbst bitte die AMD 7900XTX beim Stromverbrauch und mithalten kann die XTX und XT zu welcher Nvidia Karte (Konkurrenz Karte)
Wird die XTX kaum bis maximal 15% langsamer als die 4090-er werden ?
Nicht auf Raytracing bezogen, Rasterizer Leistung bei AKTUELLEN Games.
Dank Dir!

OgrEGT

2022-11-25, 18:34:04

AMD ROCm Software update confirms Navi 32 GPU has 60 Compute Units
https://videocardz.com/newz/amd-rocm-software-update-confirms-navi-32-gpu-has-60-compute-units

OpenVMSwartoll

2022-11-25, 19:01:45

6 Shader Arrays mit 60 CUs? Missverstehe ich was?

Gipsel

2022-11-25, 19:06:54

amdfanuwe

2022-11-25, 21:51:41

N32: 3 Shader Engines mit je zwei Arrays zu je 5 WGPs
N31:
48 WGP, 6SE*8WGP, 6 MCD, 24GB =7900XTX
42 WGP, 6SE*7WGP, 5 MCD, 20GB =7900XT
Passt hier irgendwann noch eine
36 WGP, 6SE*6WGP, 5MCD, 20GB=7900 ?
oder
40 WGP, 5SE*8WGP, 5MCD, 20GB= 7900 ?
oder
35WGP, 5SE*7WGP, 5MCD, 20GB= 7900 ?

N32:
30 WGP, 3SE*10WGP, 4 MCD, 16GB =7800XT ?

Aber Salvage?
Ginge ja nur:
27 WGP, 3SE*9WGP, 4MCD, 16GB = 7800 ?
24 WGP, 3SE*8WGP, 3MCD, 12GB = 7700XT ?
irgenwann noch
21 WGP = 3SE*7WGP, 2(3)MCD, 8(10, 12)GB= 7700 ?
oder
20 WGP = 2SE*10WGP, 2(3)MCD, 8(10, 12)GB= 7700 ?

N33:
16WGP, 2SE*8WGP, 128Bit SI, 8GB = 7600XT ?
14WGP, 2SE*7WGP, 128Bit SI, 8GB = 7600 ?
12WGP, 2SE*6WGP, 96Bit SI, 6GB = 7500XT ?

Dazu noch über den Takt sortiert. Da kann AMD alle 12%- 25% ein SKU in den Markt bringen.

Phoenix:
12 6 WGP, 12CU ??

Für Dragon Range geht das Gerücht um, dass er auch RDNA3 haben soll.
Neues I/O Die, auf Notebook optimiert mit RDNA3 iGPU?
Glaube ich eigentlich weniger, da Dragon Range ja für Gaming Notebooks mit bis zu 16 Kernen und diskreter GPU gedacht ist.
In 6Wochen wissen wir hoffentlich mehr.

Iscaran

2022-11-25, 22:10:48

@amdfanuwe:

N32: Es sind wohl nicht 3x10 sondern eher 6x5 WGP (statt 6x8) wie bei N31

Der Grob-Aufbau bleibt somit ähnlich zu N31 aber mit verkleinerten SEs (5 statt 8 WGP also 10 statt 16 CUs pro SE)

N32 dürfte damit eigentlich irgendwo im Bereich >3090 Ti rauskommen.

N33 wird mit 32 CUs dann wohl im Bereich >=6800 XT stehen.

N32 klingt nach einer sehr interessanten Karte, je nachdem wo die auch preislich liegt.

Aber mit 60/96 CUs bei 0.625*999$ = 624 $.
Wenn AMD hier einen aggressiven Preispunkt setzen will von z.B. 599$ (oder weniger ?!) fände ich das ziemlich attraktiv!

Gipsel

2022-11-25, 22:38:08

@amdfanuwe:

N32: Es sind wohl nicht 3x10 sondern eher 6x5 WGP (statt 6x8) wie bei N31

Der Grob-Aufbau bleibt somit ähnlich zu N31 aber mit verkleinerten SEs (5 statt 8 WGP also 10 statt 16 CUs pro SE
Nein. N31 hat 6 Shaderengines, N32 nur 3. Jede Shaderengine ist nochmal in 2 Shaderarrays unterteilt. Die sind bei N32 etwas größer (5 WGPs) als bei N31 (4 WGPs), also insgesamt gibt es bei N32 10 WGPs pro SE, bei N31 dagegen nur 8 WGPs pro SE.

iamthebear

2022-11-25, 22:46:17

Navi32 hat 3 Shader Engines zu je 10 WGPs. Das wissen wir von Angstronomics schon bereits seit August. Spätestens seit der Navi31 Vorstellung können wir uns denke ich sicher sein, dass alle Daten aus dem Artikel korrekt sind und die 60 CUs bestätigen das nochmals.

Navi 31
gfx1100 (Plum Bonito)
Chiplet - 1x GCD + 6x MCD (0-hi or 1-hi)
48 WGP (96 legacy CUs, 12288 ALUs)
6 Shader Engines / 12 Shader Arrays
Infinity Cache 96MB (0-hi), 192MB (1-hi)
384-bit GDDR6
GCD on TSMC N5, ~308 mm²
MCD on TSMC N6, ~37.5 mm²

Navi32
gfx1101 (Wheat Nas)
Chiplet - 1x GCD + 4x MCD (0-hi)
30 WGP (60 legacy CUs, 7680 ALUs)
3 Shader Engines / 6 Shader Arrays
Infinity Cache 64MB (0-hi)
256-bit GDDR6
GCD on TSMC N5, ~200 mm²
MCD on TSMC N6, ~37.5 mm²

Navi33
gfx1102 (Hotpink Bonefish)
Monolithic
16 WGP (32 legacy CUs, 4096 ALUs)
2 Shader Engines / 4 Shader Arrays
Infinity Cache 32MB
128-bit GDDR6
TSMC N6, ~203 mm²

Berniyh

2022-11-25, 23:37:35

N31:
48 WGP, 6SE*8WGP, 6 MCD, 24GB =7900XTX
42 WGP, 6SE*7WGP, 5 MCD, 20GB =7900XT
Passt hier irgendwann noch eine
36 WGP, 6SE*6WGP, 5MCD, 20GB=7900 ?
oder
40 WGP, 5SE*8WGP, 5MCD, 20GB= 7900 ?
oder
35WGP, 5SE*7WGP, 5MCD, 20GB= 7900 ?
Sie haben doch schon die 7900XT so platziert, dass sie kaum einer kaufen wird, was ja letztendlich vor allem bedeutet, dass es wenig Grund für Salvage gibt, right?
Also warum sollte man (in absehbarer Zeit) noch etwas darunter auf Basis dieses Chips erwarten?

iamthebear

2022-11-26, 00:13:16

Also ich würde mir über 7900 XT vs. 7900 XTX erst ein Urteil bilden wenn die Reviews da sind und die Straßenpreise klar sind:

a) 7900 XT hat am Papier deutlich niedrigere Taktraten. Es ist aber fraglich, ob das Silizium wirklich so viel schlechter ist. Gut möglich, dass die Dinger in der Praxis genauso hoch laufen und nur die geringere WGP Anzahl bleibt.

b) Ich habe die Befürchtung, dass AMD einen auf Nvidia macht und die 999$ nur für das nicht erhältliche Referenzmodell gilt und die AIB Karten alle mit fetten Kühlern noch einmal etwas drauf legen bzw. das zumindest der Plan war.

Wenn die 4080er aber schon wie Blei im Regal liegen und Nvidia bald Preise senken muss, dann kann es aber auch umgekehrt passieren, dass die 7900 XTX um die 999$ im Handel zu haben ist die 7900 XT auf 799$ runter rutscht.

amdfanuwe

2022-11-26, 01:41:02

Also warum sollte man (in absehbarer Zeit) noch etwas darunter auf Basis dieses Chips erwarten?
Ich denke nicht, dass in der 7900XT schon der ganze "Ausschuss" verarbeitet wird.
Ein paar Chips werden da immer noch übrig bleiben, muss man nur sammeln, bis man genügend für eine kleine Auflage hat.
Kommt halt darauf an, wie AMD selektiert.
Die besten der besten wird man sicherlich auch noch für ein Refresh 7950XTX ? zurücklegen, dann legt man die Frequenz fest, die die Chips für die 7900XTX schaffen müssen. Vom Rest wird der größte Teil für die 7900XT verwendet.
Bleibt noch ein kleiner Teil, der irgendwann in eine 7900 wandern kann.

Naja, überlassen wir das den Heerscharen von Mathematikern die optimale Aufteilung der Chips nach Produktgruppen, erwarteten Verkaufsmengen und Preisen der einzelnen SKUs auszutüfteln.
Schließlich gilt es einen maximalen Gewinn zu erwirtschaften.
N32 und N33 wird es noch SKUs für Mobile geben.

Vielleicht erklärt sich auch daraus der relativ hohe Preis der 7900XT.
TSMC wird nach Wafer bezahlt, nehm ich mal an, da muss AMD sehen, dass sie mit den Salvage schon gut verdienen.

robbitop

2022-11-26, 07:58:06

Phoenix sind soweit ich weiß 12 CUs also 6 WGPs. Aber halt die neuen RDNA3 CUs mit doppeltem Durchsatz.

BlacKi

2022-11-26, 14:38:54

die +54% bessere perf/watt wird aber auch nur durch den hohen verbrauch der 6950xt erreicht. gegen eine 6900xt wirds schwer überhaupt die 50% zu erreichen.

ob deshalb die 6950xt kam, um die versprechen von +50% perf./w einzulösen? die meinungen zum release der 6950xt waren ja praktisch alle negativ, die karte wäre unnötig gewesen.

wohl nicht für amd.

Digidi

2022-11-26, 15:15:03

Das ist doch die seit Monaten bekannte Konfiguration. Quasi halbiertes Frontend mit einem WGP mehr pro Shaderarray als bei N31.
N31: 6 Shader Engines mit je zwei Arrays zu je 4 WGPs
N32: 3 Shader Engines mit je zwei Arrays zu je 5 WGPs

Ist seltsam weshalb AMD auf 6 Rasterizer setzt während Nvidia auf 12 Rasterizer geht. Das verstehe ich nicht ganz. Für Micropolygonen wäre Nvidias layout um einiges besser, weil man auch noch mit Micropolygonen die Pipline gut auslasten kann.

robbitop

2022-11-26, 16:42:58

bbott

2022-11-26, 17:05:11

War halt ein Konter zur 3090ti über die man in der Hinsicht das gleiche sagen kann.
Die noch unnötiger war, bzw für NV nützlicher, um die 450W besser aussehen zu lassen.

bbott

2022-11-26, 17:07:45

horn 12

2022-11-26, 17:57:42

https://www.youtube.com/watch?v=WiwzCtHbB3g

Zwar nicht komplett syncron, aber da dürfte die XT wirklich nur um die 10% langsamer sein
bei ca. 280 Watt zu 325 Watt im Schnitt und die XT dürfte in Reichweite der 4080 in den meisten Games sein.
Zwar nur ein Game im Video getestet, aber man diskutierte dies heute eben.

rumpeLson

2022-11-26, 18:11:07

Ist das Video nicht einfach nen Fake?

Da steht doch sogar "This video is for guidance only and does not represent the final result of the product. It is only an estimate based on technical analysis."

ChaosTM

2022-11-26, 18:18:46

Welche Auflösung, welche Einstellungen und warum sind nicht alle Resultate sichtbar ?
Wäre ja nett, wenn AMD wirklich so gut dastehen würde. Konkurrenz und so..

Dass die XT sehr nahe an der XTX dran sein wird sollte wohl stimmen.

horn 12

2022-11-26, 18:22:02

Ja, die XT wird wohl Effizienz König und knapp/ bis 4080 Performance haben
und die XTX wird sich zwischen 4080 und der 4090 setzen und eben deshalb die 40+ mehr an Strom ziehen müssen.

ChaosTM

2022-11-26, 18:28:28

Fps/Watt wird auf jeden Fall spannend.

Gipsel

2022-11-26, 19:50:03

Ist seltsam weshalb AMD auf 6 Rasterizer setzt während Nvidia auf 12 Rasterizer geht. Das verstehe ich nicht ganz. Für Micropolygonen wäre Nvidias layout um einiges besser, weil man auch noch mit Micropolygonen die Pipline gut auslasten kann.Bei Mikropolygonen ist eher wichtig, wie viele man verwerfen kann (weil sie keine Pixel-/Sample position abdecken). Und da steht N31 bei 12 (oder sogar 24) Primitives pro Takt. Die 6 gerasterten sind bei 2-2,5 GHz gut für 12-15 GPixel/s, was bei 4k Auflösung >1500 fps als Limit ergeben würde. Ich bezweifle, daß das oft eine Rolle spielt.

gedi

2022-11-26, 20:01:26

Da von den Boardpartnern keine Taktraten geleakt wurden und seitens AMD nur Vergleiche zur letzten Generation veröffentlicht wurden, schwant mir nix Gutes.

Zudem noch der absurde Preis der 3070ti, welcher sich leicht über einer XTX bewegt?!

Thomas Gräf

2022-11-26, 21:59:58

Berniyh

2022-11-26, 22:26:04

davidzo

2022-11-26, 22:34:28

Ja und EKWB war so flink und bietet für die 2x8 Pol Ref. Karte einen super HighEnd full-cover Wakü Block mit aktiver Backplate an.
Das Teil ist genauso wertig wie die Version für die 4090.
Das war sicherlich ein Schnellschuss, die 3x8 Pol Partner Karten hätten so'n WaKü Block viel nötiger gehabt. Aber wer weiß was dafür an den Partner Platinen geändert wird. Dann passt das superduper gute EKWB Teil nirgends...Volltreffer.

Mal sehen ob AMD die wieder so abregelt bei der max boardpower und clockspeed wie bei Navi21. Wenn da Biostechisch noch was geht und man die Boardpower anheben kann würde ich mir über die 8Pin Anschlüsse keine Gedanken machen. Der Unterschied zu 3x 8Pin ist rein theoretischer Natur, praktisch jedes Hochwertige Netzteil hat Kabel über die locker das doppelte geht bevor die warm werden. War es nicht sogar Corsair die zum Teil den 12V HPWR 600W nur mit 2x8Pin Netzteilseitig anschließen? Worauf es ankommt sind die Limits der Karte, nicht die Anschlüsse!

nordic_pegasus

2022-11-27, 00:20:40

Ja und EKWB war so flink und bietet für die 2x8 Pol Ref. Karte einen super HighEnd full-cover Wakü Block mit aktiver Backplate an.

eine aktive Backplate sehe ich da nicht. Dem Kühler liegt halt direkt eine passende Backplate bei. Mehr auch nicht.

https://www.ekwb.com/shop/water-blocks/vga-blocks/full-cover-for-amd-radeon/radeon-rx-7800-7900-rdna3

Schnellschuss wird sich zeigen, wird zumindest der erste Kühler am Markt sein. Auslieferung hoffentlich noch vor Weihnachten.

Und super High-End ist der Kühler auch nicht, das ist einfach das aktuelle Design von EKWB, welches für alle Kühler verwendet wird. Selbst für Intel Arc... hier wurde gestern ein Kühler für 240€ angekündigt für eine 420€ Karte (Arc 770).

BlacKi

2022-11-27, 01:17:35

Die noch unnötiger war, bzw für NV nützlicher, um die 450W besser aussehen zu lassen.
hat nv perf/watt vergleiche angeführt? wäre mir zumindest entgangen. zumal nv keine versprechen gegeben hatte ggü. ampere.

Digidi

2022-11-27, 01:30:10

Bei Mikropolygonen ist eher wichtig, wie viele man verwerfen kann (weil sie keine Pixel-/Sample position abdecken). Und da steht N31 bei 12 (oder sogar 24) Primitives pro Takt. Die 6 gerasterten sind bei 2-2,5 GHz gut für 12-15 GPixel/s, was bei 4k Auflösung >1500 fps als Limit ergeben würde. Ich bezweifle, daß das oft eine Rolle spielt.

Na ja 1 Pixel von den Micropolygonen muss ja mindestens gerastert werden. Kann man denn schon vorher Mathematisch feststellen ob ein Polygon ein Micropolygons wird oder geht es erst nach dem Rastern? Wie ist das eigentlich. Ob ein Polygon ein Micropolygons wird, hängt ja auch vom Abstand des Polygonen-Objekts zu Kamera ab?

Was mich halt wundert weshalb dann Nanite auf Softwarebasis gibt und warum man nicht versucht genau das in Hardware zu bringen, um es noch schneller zu machen und es vielleicht auch weniger Chipfläche braucht.

Emil_i_Lönneberga

2022-11-27, 01:36:01

2x8 Pin hat beim GPU PPT Limit von Navi 21 in keinster Weise limitiert:

https://www.forum-3dcenter.org/vbulletin/showpost.php?p=12846339&postcount=854

Außer bei den Leuten, die das MPT nicht verwenden wollten.

Thomas Gräf

2022-11-27, 02:15:17

eine aktive Backplate sehe ich da nicht. Dem Kühler liegt halt direkt eine passende Backplate bei. Mehr auch nicht.

https://www.ekwb.com/shop/water-blocks/vga-blocks/full-cover-for-amd-radeon/radeon-rx-7800-7900-rdna3

Schnellschuss wird sich zeigen, wird zumindest der erste Kühler am Markt sein. Auslieferung hoffentlich noch vor Weihnachten.

Und super High-End ist der Kühler auch nicht, das ist einfach das aktuelle Design von EKWB, welches für alle Kühler verwendet wird. Selbst für Intel Arc... hier wurde gestern ein Kühler für 240€ angekündigt für eine 420€ Karte (Arc 770).

Korrigiert. Diese sogenannte L-Verbindung der Backplate und der Preis haben mich...angetriggert. ;)

2022-11-27, 05:24:24

Der_Korken

2022-11-27, 10:36:48

Where did you see the 6950xt mentioned in the RX-816 endnote?
https://cdn.mos.cms.futurecdn.net/P4nTcLFH2Lyc4TfnLUZ48k.jpg

I would still be sceptical about the +54% Perf/W. They compared against the 6900XT (actually, a 6950XT is 7% faster with 11% more power, so only ~4% worse), but used a 300W version of the 7900XTX. Usually a downclocked version is more efficient than the full version, because you can reduce voltage as well. I always hope for the best, but I have the feeling that the 7900XTX will not see +50% Perf/W when comparing against 6900/6950XT, stock vs stock.

BlacKi

2022-11-27, 10:49:10

Where did you see the 6950xt mentioned in the RX-816 endnote?
https://cdn.mos.cms.futurecdn.net/P4nTcLFH2Lyc4TfnLUZ48k.jpg

thats even worse. all performance tests they mentioned was against 6950xt, but the p/w not? i have to check endnotes? dude...

dildo4u

2022-11-27, 11:04:56

Ist doch OK eine 4080 ist 50 bis 60% über 3080, und NV macht ein deutlich größeren Sprung bei der Fertigung.

Achill

2022-11-27, 11:48:17

thats even worse. all performance tests they mentioned was against 6950xt, but the p/w not? i have to check endnotes? dude...

It's not "even worse". RX-816 points out that the 7900XTX was limited to 300W TBP and with that limitation in place it was compared to a 6900XT (~300W TBP). So the performance improvement was compared with the same TBP - so it shows the improvement of efficiency.

TheGood

2022-11-27, 11:51:28

Ist doch OK eine 4080 ist 50 bis 60% über 3080, und NV macht ein deutlich größeren Sprung bei der Fertigung.
So ist es :) Man sieht halt, dass AMD hier noch potential für mehr hat.
Sehe aber auch das problem nicht. Beim letzten Mal hat AMD NVidia in allem geschlagen, aber keine Sau hats interessiert. Jetzt ist es wieder andersrum und die Hölle auf Erden soll unter AMD zusammenbrechen....
Einfach lächerlich....

robbitop

2022-11-27, 12:17:08

BlacKi

2022-11-27, 12:44:18

It's not "even worse". RX-816 points out that the 7900XTX was limited to 300W TBP and with that limitation in place it was compared to a 6900XT (~300W TBP). So the performance improvement was compared with the same TBP - so it shows the improvement of efficiency.ich hab kritisiert, das man den eindruck hatte, das die +54% p/w zwischen der rx 6950xt und stock rx 7000 liegen würde, weil man ja gegen sie nachher bencht. das meinte ich mit worse. das ist maximal irreführend.

interessant ist auch, das man vorhatte gegen die 4090 zu benchen. und hat das abgesagt, aber in den endnotes noch vorhanden.

vermutlich ist die 4090 besser geworden als amd das erwartet hätte:freak:

https://hothardware.com/Image/Resize/?width=1170&height=1170&imageFile=/contentimages/NewsItem/60177/content/big_endnotes-and-attributions.png

Der_Korken

2022-11-27, 13:05:35

So the performance improvement was compared with the same TBP - so it shows the improvement of efficiency.

Das stimmt, aber die Effizienz der 7900XTX wird bei 355W schlechter sein als bei 300W. Daher stehen die 50% beim Vergleich der Endprodukte imho durchaus in Frage. Oder anders gesagt: Man bekommt dann nicht gleichzeitig 50% mehr Effizienz und die auf den Slides gezeigte Mehrleistung.

Complicated

2022-11-27, 13:30:21

Edgecrusher86

2022-11-27, 13:44:25

Normalerweise sollte man ja per UV die volle Leistung mit grob 270-300W abrufen können - das mal am Rande. Es macht ja sowieso viel mehr Spaß selbst Hand anzulegen. :)

Troyan

2022-11-27, 13:46:15

Complicated

2022-11-27, 14:16:26

Nein, wie kommst Du auf die Metrik "schneller" wenn es um die Einschränkung "pro Watt" geht. Das sind völlig unterschiedliche Betrachtungen auf anderen Testszenarien. Bei "schneller" spielt der Verbrauch keine Rolle. Diese Vermischung führt ja zu so absurden Meinungen.

AMD hat ja das Testszenario beschrieben. Wer das dann mit den Betriebspunkten der veröffentlichten SKUs beim Benchmark um die Spitze vergleicht kommt da immer woanders raus, das ist bei allen so.

Prinzenrolle

2022-11-27, 14:26:41

Interessant. Also ist die 7900XT mit 300W 54% schneller als die 6900XT?

Wenn RDNA 3 halt skaliert und nicht irgendwelche Käfer in den Chiplets stören.

BlacKi

2022-11-27, 14:41:34

Interessant. Also ist die 7900XT mit 300W 54% schneller als die 6900XT?und mit 55w mehr, wird die karte wohl schneller sein also 54%, könnten grob 60% sein, vl bisschen mehr, aaaber die +54% p/w sind dann nichtmehr gegeben.

Das ist ja ein Nicht-Argument. Es wird die Perf./Watt der Architektur verglichen. Dass SKUs entlang der Produktlinie auf eben diesem Sweetspot betrieben werden, wäre völlig neu. Vor allem an der Spitze.

hast recht, das ist mittlerweile standard XD aber der aufschrei war bei nv rießig und hier kehrt man das nun unter den tisch.
https://graphicscardhub.com/wp-content/uploads/2020/09/ampere-perf-per-watt-improvement.jpg

Der_Korken

2022-11-27, 14:59:24

Das ist ja ein Nicht-Argument. Es wird die Perf./Watt der Architektur verglichen. Dass SKUs entlang der Produktlinie auf eben diesem Sweetspot betrieben werden, wäre völlig neu. Vor allem an der Spitze.

Der Vergleich sollte dennoch fair sein, d.h. beide Karten sollten in einem ähnlich guten oder ähnlich schlechten Betriebspunkt laufen. Wenn N31 und N21 eine ähnliche Kurve haben bezüglich des absoluten Verbrauchs, dann ist ein Vergleich bei Verbrauch X fair. Falls N31 generell mehr Saft braucht, würde er dagegen bevorteilt. Ich mein, der Extremfall wäre, dass man N31 so lange undervoltet bis man N21-Performance erreicht und die Verbrauchseinsparung dann als Effizienz-Gewinn verkauft. Dadurch erreicht man problemlos >2x Effizienz (siehe die 1.9x auf den Ampere-Slides), aber der Vergleich wäre sinnlos, weil niemand N31 so betreiben würde, weil man für den Aufpreis auf eine 6900er Karte dann keine Mehrleistung bekäme.

Ohne handfeste Informationen wie sich N31 beim Verbrauch verhält, ist das natürlich alles Gestocher im Nebel, ich will nur sagen, dass man solche Hersteller-Aussagen durchaus kritisch betrachten sollte.

Complicated

2022-11-27, 15:15:57

BlacKi

2022-11-27, 15:49:01

Das ist ja schon alleine wegen dem Chiplet-Design kaum vergleichbar. Interconnects brauchen mehr Anteil des Powerbudgets und die GCDs sind dichter gepackt, da dies ja der Sinn der Chiplets ist. Beides führt zu völlig unterschiedlichem Verhalten oberhalb des Sweetspots.und deswegen bencht man dort, wo die neue karte besser glänzen kann? darum gehts hauptsächlich. warum bencht man die karten nicht dort, wo man sie nutzt? hauptsächlicht stock, denn sonst bringt der wert nichts, damit kann man sich den arsch abwischen, siehe nvidias angaben.

Gipsel

2022-11-27, 16:18:51

Na ja 1 Pixel von den Micropolygonen muss ja mindestens gerastert werden. Kann man denn schon vorher Mathematisch feststellen ob ein Polygon ein Micropolygons wird oder geht es erst nach dem Rastern? Wie ist das eigentlich. Ob ein Polygon ein Micropolygons wird, hängt ja auch vom Abstand des Polygonen-Objekts zu Kamera ab?Nein, es muß nicht unbedingt 1 Pixel(quad) pro Dreieck generiert werden. Wenn die Dreiecke im Schnitt deutlich kleiner als 1 Pixel sind (Mikropolygone), ist die Mehrzahl der Dreiecke schlicht nicht sichtbar (der Test ist, ob eine Sampleposition von einem Dreieck bedeckt wird [und das Oberflächenormal des Dreiecks zum Betrachter zeigt]; sind die Dreiecke klein, liegt eben die Mehrzahl zwischen den Samples und solche Dreiecke wirken sich nicht auf das finale Bild aus und können verworfen werden). Deswegen meinte ich ja, daß eher wichtiger ist, wie viele Dreiecke verworfen werden können. Jedes wirklich gerasterte (nicht verworfene) Dreieck trägt mindestens 1 Pixel/Sample zum Bild bei. Da kam dann das >1500fps Limit in 4k-Auflösung durch die Rasterizer her (ohne Overdraw). Deswegen meinte ich, daß 6 gerasterte Polygone (bei 12 bis 24 verworfenen) pro Takt vermutlich selten ein Problem sind.
Was mich halt wundert weshalb dann Nanite auf Softwarebasis gibt und warum man nicht versucht genau das in Hardware zu bringen, um es noch schneller zu machen und es vielleicht auch weniger Chipfläche braucht.Etwas überhaupt nicht auf die Hardware zu werfen ist typischerweise noch effizienter als Gigabytes an Geometriedaten stur durchzunudeln, selbst wenn das relativ schnell ginge. Nanite versucht auch afaik am Ende Polygone mit im Schnitt >1 Pixel zu rendern, was auch die Shadingeffizienz erhöht.

Achill

2022-11-27, 16:26:48

Das stimmt, aber die Effizienz der 7900XTX wird bei 355W schlechter sein als bei 300W. Daher stehen die 50% beim Vergleich der Endprodukte imho durchaus in Frage. Oder anders gesagt: Man bekommt dann nicht gleichzeitig 50% mehr Effizienz und die auf den Slides gezeigte Mehrleistung.

Das stimmt natürlich. Trotzdem ist ist es doch eine gute Information, wie viele Navi31 gegenüber Navi21 bei gleichen Power-Budget zugelegt hat. Will man 355W vergleichen geht das natürlich auch, nur haben wir hier noch keine Zahlen ... der Betriebspunkt von Navi21 bei 355W wird natürlich auch nicht besser.

--

und mit 55w mehr, wird die karte wohl schneller sein also 54%, könnten grob 60% sein, vl bisschen mehr, aaaber die +54% p/w sind dann nichtmehr gegeben.
[..]

Das vermutest du ... wissen in Form von Fakten/Test tun wir es nicht - dazu gibt es dann zum Glück Reviews und Tests.

hast recht, das ist mittlerweile standard XD aber der aufschrei war bei nv rießig und hier kehrt man das nun unter den tisch.
https://graphicscardhub.com/wp-content/uploads/2020/09/ampere-perf-per-watt-improvement.jpg

Der Aufschrei war doch nicht deswegen sondern weil NV da das erste mal richtig an der Preisschraube gedreht hat .. Und bezogen auf das Bild, AMD hat für sich eine Vertikale Line auf der rechten Seite gewählt bei 300W - in diesen Bild würde da sicherlich keine 90% mehr raus kommen.

Damit verknüpfst du BlacKi jetzt etwas negativ wahrgenommenes bei NV mit einer Effizienz Prognose von AMD. Hat AMD uns irgendwas von 90% versprochen? Wie sind diese zwei Fälle miteinander kombinierbar? Was ist schlussendliche deine Aussage?

2022-11-27, 17:50:39

Will man 355W vergleichen geht das natürlich auch, nur haben wir hier noch keine Zahlen ...

Don't we? Let's see...
- 80 to 96 CU increase: 1.2x
- IPC increase: 1.174x (RX-810)
- clock increase: 1.1 (~ 10%)
This gives you 1.55x or +55% to the gaming performance of 6950XT

Complicated

2022-11-27, 18:00:10

und deswegen bencht man dort, wo die neue karte besser glänzen kann? darum gehts hauptsächlich. warum bencht man die karten nicht dort, wo man sie nutzt?
Du bist wohl der einzige der einen Performance-Bench sieht, wo ein Effizienz-Bench gezeigt wird (sehen will?). Bei jeder Metrik zeigt man wo die besten Werte zu sehen sind. Wenn Du die beiden Metriken nicht richtig einordnen kannst, ist nicht nachvollziehbar was Du eigentlich AMD da vorwirfst.
Bench!=Schnellste Leistung
Es werden viele andere Dinge auch gebencht. Das macht ja einen Test aus.

Digidi

2022-11-27, 18:18:40

Etwas überhaupt nicht auf die Hardware zu werfen ist typischerweise noch effizienter als Gigabytes an Geometriedaten stur durchzunudeln, selbst wenn das relativ schnell ginge. Nanite versucht auch afaik am Ende Polygone mit im Schnitt >1 Pixel zu rendern, was auch die Shadingeffizienz erhöht.

Ich hab das schon verstanden. Aber Nanite muss ja etwas machen um ein voll Variables LOD und ein Sehr hohes Culling zu haben. Es muss also ja einen Prozess geben, welcher die Polygonen verwirft. Das passiert ja anscheinend zurzeit über die Universellen shader. Verbraucht also Hardware ressourcen die Ineffizient sind. Wenn man jetzt diesen Vorgang in eine Fixed Function Hardware giest wird die Hardwärefläche meist geringer bei gestiegener Geschwindigkeit.

Gott1337

2022-11-27, 18:41:51

So ist es :) Man sieht halt, dass AMD hier noch potential für mehr hat.
Sehe aber auch das problem nicht. Beim letzten Mal hat AMD NVidia in allem geschlagen, aber keine Sau hats interessiert. Jetzt ist es wieder andersrum und die Hölle auf Erden soll unter AMD zusammenbrechen....
Einfach lächerlich....
also in unserem Universum hat AMD Nvidia in gar nix geschlagen aber gut xD Auch die Effizienztests nicht, siehe Igor...

Aber leb weiter in deiner Fantasiewelt

BlacKi

2022-11-27, 19:07:38

Du bist wohl der einzige der einen Performance-Bench sieht, wo ein Effizienz-Bench gezeigt wird (sehen will?). Bei jeder Metrik zeigt man wo die besten Werte zu sehen sind. Wenn Du die beiden Metriken nicht richtig einordnen kannst, ist nicht nachvollziehbar was Du eigentlich AMD da vorwirfst.
Bench!=Schnellste Leistung
Es werden viele andere Dinge auch gebencht. Das macht ja einen Test aus.blödsinn. die zeigen eine präsentation ohne angaben welche karte und welchen bedingungen. zeigen aber später performance vergleiche. jeder normale kunde, der amd nichts unterstellen würde, würde denken das die p/w angaben mit der 6950xt und der 7900xt(x) gemacht wurden.

natürlich ist das in den endnotes angegeben, aber es bleibt irreführend, wenn man sich die endnotes nicht gitb.

Complicated

2022-11-27, 19:42:12

blödsinn. die zeigen eine präsentation ohne angaben welche karte und welchen bedingungen. zeigen aber später performance vergleiche. Deine Interpretation scheint das einzige, das irgendwie zählt. Das mit "Blödsinn" einzuleiten und dann so eine Behauptung raus zu hauen, zeigt ja wie seriös Du in der Sache hier argumentierst. Dann halt nicht. 2 Verschiedene Aspekte einer Produktpräsentation so in einem "das interpretieren andere" Unfug unterzubringen. Hier sind wir alle informierte - Du redest als Stellvertreter für nicht an der Diskussion Teilnehmende und weist was sie denken. Finde den Fehler und wen interessiert das?

Lurtz

2022-11-27, 21:16:08

Naja es gab letztes Mal keinen DLSS 2 Konkurrenten (der kam erst 1,5 Jahre später) und halt weniger RT Leistung. NVENC war deutlich überlegen und auch Dinge wie RTX Voice gab es nur auf Ampere. Ist halt viel an Software Initiativen, wo NV eine Weile vorn liegt.
Ich frage mich wer sowas wirklich nutzt. Gefühlt deinstallieren mehr Leute Zusatzsoftware wie Geforce Experience als solche Tools zu nutzen.

Und wers einigermaßen professionell nutzen will, hat eh andere Lösungen eingekauft.

Gipsel

2022-11-27, 22:23:17

Aber Nanite muss ja etwas machen um ein voll Variables LOD und ein Sehr hohes Culling zu haben. Es muss also ja einen Prozess geben, welcher die Polygonen verwirft. Das passiert ja anscheinend zurzeit über die Universellen shader. Verbraucht also Hardware ressourcen die Ineffizient sind. Wenn man jetzt diesen Vorgang in eine Fixed Function Hardware giest wird die Hardwärefläche meist geringer bei gestiegener Geschwindigkeit.Nanite macht seine Updates quasi kontinuierlich über viele Frames verteilt und nicht jedes Frame (wie die FF-Hardware es tut). Das macht Nanite effizient.

Digidi

2022-11-28, 00:53:33

Nanite macht seine Updates quasi kontinuierlich über viele Frames verteilt und nicht jedes Frame (wie die FF-Hardware es tut). Das macht Nanite effizient.

Ja aber auch diesen Prozess kann man in Hardware gießen, nicht umsonst heist es hier das es wohl irgendwann Hardware dafür gibt. Gerade für Micropolygons Rasterizing.

https://www.medien.ifi.lmu.de/lehre/ws2122/gp/slides/gp-ws2122-extra-nanite.pdf

Gipsel

2022-11-28, 19:13:53

Ja aber auch diesen Prozess kann man in Hardware gießen,Dann verlierst Du Flexibilität (vielleicht will man das ja auch mal updaten und etwas anders machen) oder z.B. auch die Möglichkeit, im gleichen Aufwasch auch wahlweise GI mitzumachen. Einige Sachen läßt man aus gutem Grund für die General Purpose Hardware (statt fixed function).
Es ist ziemlich gut definiert, welches Ergebnis ein Rasterizer ausspucken muß. Eine Mixtur aus Hardware und Software (wie bei Nanite) ermöglicht es im Prinzip, es auch anders zu machen (und z.B. auch solche Ansätze zu verfolgen (http://graphics.stanford.edu/papers/fragmerging/shade_sig10.pdf) [das Ergebnis sieht optisch passabel aus, ist aber nicht standardgerecht in dem Sinne, daß es leicht andere Ergebisse als ein FF-Rasterizer liefert, dafür aber schonender mit den GPU-Ressourcen umgeht]). Das bleibt vorerst besser in Software. Denn wenn jeder anfängt, seinen eigenen Kram (jeweils inkompatibel zueinander) in Hardware zu gießen, ist damit keinem geholfen. Das kann sich ändern, wenn man (in 5-10 Jahren?) vielleicht sich auf einen gemeinsamen, möglichst optimalen Ansatz geeinigt hat.

aufkrawall

2022-11-28, 19:17:51

Da Nanite bei komplexen Szenen bereits bei gleichzeitig deutlich gesteigertem Detailgrad die Performance sogar erhöhen soll, ist wohl anzunehmen, dass da nicht Unmengen an Performance-Potenzial durch fehlende FF-Beschleunigung brachliegen. Ich wüsste schon, worin bei RDNA3 die Transistoren besser investiert wären...

robbitop

2022-11-28, 19:54:04

Ich frage mich wer sowas wirklich nutzt. Gefühlt deinstallieren mehr Leute Zusatzsoftware wie Geforce Experience als solche Tools zu nutzen.

Und wers einigermaßen professionell nutzen will, hat eh andere Lösungen eingekauft.
Wenn man viel in Teams/Zoom Calls ist (homeoffice), ist das ein Segen. Sicherlich auch fürs Online Gaming. Sämtliche Geräusche außer Stimmen werden nicht übertragen. Also stört es niemanden wenn man nebenbei tippt oder im Hintergrund die Tür knallt oder die Waschmaschine läuft oder der Hund bellt oder man mit der Chipstüte raschelt usw.

Savay

2022-11-28, 20:25:07

aufkrawall

2022-11-28, 20:30:56

Deshalb spricht ja jetzt auch offenbar kein Mensch mehr drüber, da gibts wirklich bessere Beispiele auf der Haben-Seite von NV. Etwa, dass sie APIs bis ans Ende aller Zeiten vorhersagbar supporten und Entwickler sich darauf verlassen können. Consumer-Programme von Nvidia direkt sind imho eher nutzlose Schaufenster-Objekte.

dargo

2022-11-28, 20:39:44

RX 7990XTX mit 3,3/3,6Ghz + V-Cache und 405 TBP incoming? Keine Ahnung was ich davon halten soll.
Xrp5ls5qTMk

Ravenhearth

2022-11-28, 21:33:07

Am besten ignorieren ;D

Thomas Gräf

2022-11-28, 22:16:19

RX 7990XTX mit 3,3/3,6Ghz + V-Cache und 405 TBP incoming? Keine Ahnung was ich davon halten soll.
https://youtu.be/Xrp5ls5qTMk

Die 4090 kriegen sie damit auch nich klein, also was solls?
Die nächste Station für Radeon heißt RDNA4, im refreshen hat sich AMD nie heldenhafter abgsetzt als nV. Der Ryzen X3D war die Ausnahme des jahrhunderts.

OgrEGT

2022-11-28, 22:56:00

Selbst wenn es stimmen würde dann würden viele potentielle Kunden keine 7900XT(X) zu Weihnachten kaufen sondern weiter warten... also denkbar ungünstig dass kurz vor dem Launch der 7900XT(X) so etwas durchsickert... und damit unwahrscheinlich...

Thomas Gräf

2022-11-29, 01:54:11

Aber genau genommen sind diese "refresh rumors" genau das was der 13.12.2022 braucht!
Dann lassen nämlich diese Penner Scalper ihre Pfoten von diesem schrecklichen Produkt. :P

robbitop

2022-11-29, 06:37:38

Wer hat in seiner Homeoffice Möhre denn bitte eine damit kompatible nV Karte?
Zudem hat Discord was ähnliches eingebaut, TS auch, Teams, WebEx und Co. ebenso.
Und in meinen Zockerkisten habe ich schon ewig vergleichbares über die Soundkarte.

Das ist doch weder was besonderes noch was neuartiges.
Ich glaube das was du aufzählst ist entweder kein Noise cancelation oder damit nicht vergleichbar. Bei RTX Voice kannst du eine Fön anmachen und es wird nichts übertragen. Ich habe zumindest noch nirgends etwas vergleichbares gesehen. AMD hat vor ein paar Monaten ein me-too Feature releast was ganz gut (aber nicht genauso gut) funktioniert. Teams und co (das nutze ich täglich) hat sowas definitiv nicht.

Complicated

2022-11-29, 07:01:48

Wer Noise Cancellation benötigt hat das in der Regel in Hardware und das entsprechende Headset.
Wenn Du so etwas noch nicht gesehen hast schau bei Herstellern wie Jabra oder Plantronics. Verglichen mit Nvidias Aufpreis, sind diese Hersteller für die Profi-Headsets richtig günstig.

Für Teams: https://support.microsoft.com/en-us/office/reduce-background-noise-in-teams-meetings-1a9c6819-137d-4b3b-a1c8-4ab20b234c0d
Edit: Ach ja, bei AMD hast Du es ebenfalls im Treiber, ich nutze halt lieber ein Jabra.
https://www.amd.com/en/technologies/amd-noise-suppression
AMD Noise Suppression may not install on systems equipped with Realtek ACP-based ANR.

gedi

2022-11-29, 17:23:36

Die 4090 kriegen sie damit auch nich klein, also was solls?
Die nächste Station für Radeon heißt RDNA4, im refreshen hat sich AMD nie heldenhafter abgsetzt als nV. Der Ryzen X3D war die Ausnahme des jahrhunderts.

Also laut den wenigen Leaks liegt man beim Rastern nahe an einer 4090 dran. Customs werden wohl gleichziehen, bzw. Überholen.
RT+70% klingt für mich nach nach 3090ti Performance, also auch kein kompletter Reinfall für die 2. Generation.
Und was eine CPU-Gen hier als Vergleich im GPU-Bereich zu suchen hat - ...?
Zudem habe ich einen 7900x verbaut und es ist eine erstklassige CPU, welche durch Drosselung Leistung gewinnt, wenn man weiß wie es geht!

Savay

2022-11-29, 18:29:57

Ich glaube das was du aufzählst ist entweder kein Noise cancelation oder damit nicht vergleichbar.

Natürlich ist das Noise Cancelation. :wink:
Ist doch wurscht ob es deiner Meinung nach subjektiv besser oder schlechter ist.
Ändert nichts daran was es ist.

Cisco/WebEX hat es definitiv eingebaut als "WebEX Smart Audio"
Teamspeak auch als "Hintergrundgeräusche entfernen".
Discord nutzt KRISP, was sogar explizit als ML basiert vermarktet ist (https://support.discord.com/hc/de/articles/360040843952).
AMD hat es auch im Treiber als ML Lösung.

Und da reden wir dann nur von SW Lösungen.
Bei jedem Konferenzsystem und professionellen Lösung gehört das eigentlich schon HW-seitig zum Standard.

Was AMD und nV im Treiber fabrizieren, bringt den meisten in einer professionellen Umgebung sowieso nichts, weil nahezu keiner dort wirklich eine RTX Karte oder eine AMD APU im Laptop hat. :tongue:
99,9999% der Leute kannst du gerne mal wecken falls Intel jemals was passendes hat für deren Gen9 bis Gen12 iGPUs. :wink:

gedi

2022-11-29, 20:47:37

Noise canceling, da seid ihr alle komplette DAUs. Ist Hardbased und zwar nicht was ein OS vorgibt! Es ist lediglich der Treiber, welcher passen muss. Und in Cubase outperformed a 7900x jegliche Intel-Platform by 500%%

Savay

2022-11-29, 23:17:37

Wir reden hier nicht von irgendwelchem DAW Kram, der noch nischiger ist als der RTX Dingensbums ist, sondern von RT Signalaufbereitung.
Da nen 7900X draufzuwerfen ist Schmarrn.
Und mit dem OS hat das irgendwie auch nix zu tun.

HOT

2022-11-29, 23:40:22

RX 7990XTX mit 3,3/3,6Ghz + V-Cache und 405 TBP incoming? Keine Ahnung was ich davon halten soll.
https://youtu.be/Xrp5ls5qTMk

Wenn das stimmt, dass N32 die 3GHz schafft, hätte man sich N31 komplett schenken können. Um auf die Leistung der 7900XT zu kommen braucht das Ding nur 2,8GHz. Das könnte schon fast so passen. Für die 7900XTX braucht man 3,5GHz bei 60CUs, nur mal als Rechenexempel. Baut man da noch 24GT/s RAM drauf, reicht sogar die Bandbreite für die 7900XT fast. Entweder ist das alles Quatsch und auch N32 taktet nur auf 2,3GHz, dann passts wieder oder man verschiebt den ganzen kleinen Kram (und respint auch die?) bis zum Refresh und entlässt ne komplett neue Refreshgeneration, dann endlich mit allen Chips, alles andere ergibt keinen Sinn.

Berniyh

2022-11-29, 23:50:50

Same procedure …

CompuJoe

2022-11-30, 00:41:53

Am 8.12. bekommen wir Karten geliefert ^^

Digidi

2022-11-30, 00:56:58

Dann verlierst Du Flexibilität (vielleicht will man das ja auch mal updaten und etwas anders machen) oder z.B. auch die Möglichkeit, im gleichen Aufwasch auch wahlweise GI mitzumachen. Einige Sachen läßt man aus gutem Grund für die General Purpose Hardware (statt fixed function).
Es ist ziemlich gut definiert, welches Ergebnis ein Rasterizer ausspucken muß. Eine Mixtur aus Hardware und Software (wie bei Nanite) ermöglicht es im Prinzip, es auch anders zu machen (und z.B. auch solche Ansätze zu verfolgen (http://graphics.stanford.edu/papers/fragmerging/shade_sig10.pdf) [das Ergebnis sieht optisch passabel aus, ist aber nicht standardgerecht in dem Sinne, daß es leicht andere Ergebisse als ein FF-Rasterizer liefert, dafür aber schonender mit den GPU-Ressourcen umgeht]). Das bleibt vorerst besser in Software. Denn wenn jeder anfängt, seinen eigenen Kram (jeweils inkompatibel zueinander) in Hardware zu gießen, ist damit keinem geholfen. Das kann sich ändern, wenn man (in 5-10 Jahren?) vielleicht sich auf einen gemeinsamen, möglichst optimalen Ansatz geeinigt hat.

Sehe ich etwas anders, wenn man sich Gedanken macht und endlich einen Universellen Rasterizer entwickeln würde für ganz große und Micropolygonene, würde die Hardwarefläche für diese Arbeit sinken, was wiederum Platz Schafft für mehr Schader die andere Dinge tun können. Selbst wenn die Implementierung der FF nicht optimal wäre, würde man immer noch effizienter sein als wenn man über die Universellen shader geht.

Nanite funktioniert super auf Software, warum diesen Ansatz nicht beschleunigen und zum Standart machen? Es wäre vielleicht auch mal gut den alten ff Kram wegzuwerfen um Platz für neues zu schaffen. Universelle Shader gibt es dann immer noch und wenn jemand noch etwas perfomanteres über die Universellen Shader findet welches die FF Hardware aussticht, dann kann man auch auf die paar Universelen Shader verzichten die in FF vorher Gewandelt wurden.

Zossel

2022-11-30, 06:54:49

Bei RTX Voice kannst du eine Fön anmachen und es wird nichts übertragen.

Breitbandstörungen sind wahrscheinlich einfach zu unterdrücken.
Wie gut funktioniert das mit Vogelgezwitscher?

Ansonsten habe ich im Moment so ein arschteures Ding von Jabra, das funktioniert ziemlich gut, das ist erste Headset mit dem ich zufrieden bin.
Und das funktioniert z.b. auch mit Telefonen ootb.

2022-11-30, 08:23:47

Wenn das stimmt, dass N32 die 3GHz schafft, hätte man sich N31 komplett schenken können. Um auf die Leistung der 7900XT zu kommen braucht das Ding nur 2,8GHz.
Yep, it seems @1080p at least, not @4K though due to lack of TMU/ROPs, imho.

robbitop

2022-11-30, 08:27:50

Breitbandstörungen sind wahrscheinlich einfach zu unterdrücken.
Wie gut funktioniert das mit Vogelgezwitscher?

Ansonsten habe ich im Moment so ein arschteures Ding von Jabra, das funktioniert ziemlich gut, das ist erste Headset mit dem ich zufrieden bin.
Und das funktioniert z.b. auch mit Telefonen ootb.
Das funktioniert auch mit dynamischen Dingen extrem gut. Klopfen, Vogelgezwitischer alles komplett weg. Das Radeon Pendant schafft das auch aber da ist bei manchen Geräuschen noch das erste Klopfen zu hören. Ancientgameplays hat beides so getestet und verglichen. Das NN basierte funktioniert wirklich perfekt. Das von AMD wäre mir aber auch gut genug. :)

HOT

2022-11-30, 09:16:21

Yep, it seems @1080p at least, not @4K though due to lack of TMU/ROPs, imho.
No, only Bandwidth. TMUs have higher clockrates too.

amdfanuwe

2022-11-30, 10:03:44

No, only Bandwidth. TMUs have higher clockrates too.
N31: 6 x ROP/TMU, 6SE x 8WGP, 7900XT 2,4 GHz Boost, 2,0 Game CLK
N32: 3 x ROP/TMU, 3SE x 10WGP

Ist auch die Frage, wie N32 die 10WGP/SE auslasten kann. Wo liegt da der sweet Spot?
Bei halber Anzahl an SE müsste sich der Takt ja schon fast verdoppeln.
Denke auch nicht, dass N323GHz Game CLK erreicht, vielleicht Boost, Game eher bei 2,5. Wären dann grad 25% mehr Game Clk.

Dann noch der Produktionstechnische Aspekt. Die Ausbeute an hoch taktenden. voll funktionsfähigen N32 dürfte nicht die beste sein.
Die wird AMD eher in einem unattraktiven Premium Produkt verbauen oder für den Refresh sammeln.
Zumindest steht die TDP einem hohem Takt nicht im Wege.

Edit:
lag falsch mit ROP/TMU
Gipsel: ROPs und TMUs skalieren unterschiedlich mit der GPU-Größe. TMUs sind in den CUs/WGPs. Es gibt immer 4 TMUs pro CU. Die skalieren also immer mit der CU-Anzahl. Die ROPS dagegen skalieren mit der Anzahl der Shaderarrays (16 ROPs pro Shaderarray [2 RBE zu je 8 ROPs]).

HOT

2022-11-30, 10:14:19

Das war ein grober Überschlag, keine wissenschaftliche Berechnung :freak:

2022-11-30, 10:48:43

No, only Bandwidth. TMUs have higher clockrates too.
I'm not sure, if it's enough...
let's say SE @2.8 and RB @3.0, that would give
32*4*3.0 ~= 384 gp/s
60*4*3.0 ~= 720 gt/s
vs. 460gp/s and 810 gt/s for the 7900xt

Iscaran

2022-11-30, 10:48:55

N31: 6 x ROP/TMU, 6SE x 8WGP, 7900XT 2,4 GHz Boost, 2,0 Game CLK
N32: 3 x ROP/TMU, 3SE x 10WGP

Diese starke Redukion in ROP/TMU wundert mich auch ein wenig. Ist N32 dann überhaupt in dem Bereich stark genug aufgestellt um die Shaderleistung auf die Strasse zu bringen?

ODER sehen wir hier vielleicht den wahren Grund warum AMD ZWEI Taktdomains eingeführt hat?

Wenn die ROP/TMUs mit 3 GHz takten und die Shader nur mit 2.3 GHz

Dann entspricht das ja eher eine Konfiguration ~4 ROPs relativ zum großen N31 mit 6 ROP/TMUs @2.3 GHz?

Was dann eher zum Leistungslevel von 60 CUs passen würde.

amdfanuwe

2022-11-30, 11:08:50

Diese starke Redukion in ROP/TMU wundert mich auch ein wenig.
Bei N21 waren es 4 x SE mit entsprechenden ROP/TMU.
Die waren für 4k gut genug.
Mit etwas mehr Takt bei N32 sollten die 3 x SE mit entsprechenden ROP/TMU dann auch für 4k ausreichend sein.

Slipknot79

2022-11-30, 13:18:56

Das funktioniert auch mit dynamischen Dingen extrem gut.

Es funktioniert nicht mit dem Vaporizer eines Freundes. Ich höre die Shice vibrieren (liegt auf dem Tisch, ähnlich Handyvibration auf einem Tisch) obwohl RTX Voice Geräuschunterdrückung on ist. :mad:
Alles andere wird gefiltert, er hat auch versucht direkt beim Mic mit einer Chipspackung Lärm zu machen, da kam nix an. (y)

Gipsel

2022-11-30, 13:40:45

Sehe ich etwas anders, wenn man sich Gedanken macht und endlich einen Universellen Rasterizer entwickeln würde für ganz große und Micropolygonene, würde die Hardwarefläche für diese Arbeit sinken, was wiederum Platz Schafft für mehr Schader die andere Dinge tun können.Tja, man weiß nur noch nicht, was da der optimale Ansatz wäre. ;)
Warum hat noch keiner eine "universelle Shadereinheit" gebaut, die Alles in Hardware macht, was man je von ihr wollen könnte? Ist die Entwicklung dort nicht gerade weg von fixed function mit begrenztem Funktionsumfang zu frei programmierbar gelaufen? ;)
Selbst wenn die Implementierung der FF nicht optimal wäre, würde man immer noch effizienter sein als wenn man über die Universellen shader geht.Und sie schränkt die weitere Entwicklung ein.
Nanite funktioniert super auf Software, warum diesen Ansatz nicht beschleunigen und zum Standart machen?Ja warum wohl, wenn es schon gut funktioniert (und man sich nicht sicher ist, ob ein anderer Ansatz auf längere Sicht nicht vielleicht noch besser ist und vor Allem unterschiedliche Anbieter unterschiedliche Ideen dazu haben)?
Es wäre vielleicht auch mal gut den alten ff Kram wegzuwerfen um Platz für neues zu schaffen. Universelle Shader gibt es dann immer noch und wenn jemand noch etwas perfomanteres über die Universellen Shader findet welches die FF Hardware aussticht, dann kann man auch auf die paar Universelen Shader verzichten die in FF vorher Gewandelt wurden.Also alter FF-Kram raus und neuer FF-Kram rein? Die heutige Rasterhardware funktioniert für das was sie tut sehr gut. Wo sie es nicht tut, sind Ansätze wie die von Nanite ebenfalls performant und vor Allem unter der Kontrolle des Entwicklers. Der kann bestimmen, was für seinen Anwendungsfall für ihn wie der beste Ansatz aussieht. Ein für alle Situationen geeignetes Konzept zu erstellen, auf das sich dann auch Alle einigen (bzw. quasi gezwungen werden, das zu benutzen), ist nicht ganz so einfach und dauert etwas.

Edit:
Geht zwar nicht um Rasterization, aber in dem Zusammenhang vielleicht doch mal ganz interessant, was ein paar Entwickler in einem angrenzenden Thema (FF-RT-Hardware, aber auch mit Anknüpfung zu Nanite) zu sagen haben (https://twitter.com/SebAaltonen/status/1595105432804405249) (ruhig den ganzen Thread lesen, nicht nur den verlinkten Tweet).

Gipsel

2022-11-30, 13:48:37

N31: 6 x ROP/TMU, 6SE x 8WGP, 7900XT 2,4 GHz Boost, 2,0 Game CLK
N32: 3 x ROP/TMU, 3SE x 10WGP
ROPs und TMUs skalieren unterschiedlich mit der GPU-Größe. TMUs sind in den CUs/WGPs. Es gibt immer 4 TMUs pro CU. Die skalieren also immer mit der CU-Anzahl. Die ROPS dagegen skalieren mit der Anzahl der Shaderarrays (16 ROPs pro Shaderarray [2 RBE zu je 8 ROPs]).

N31 hat also:
6 SEs * 2 SAs * 4 WGPs * 2CUs * 4 = 384 TMUs und
6 SEs * 2 SAs * 16 = 192 ROPs

N32 dagegen:
3 SEs * 2 SAs * 5 WGPs * 2 CUs * 4 = 240 TMUs und
3 SEs * 2 SAs * 16 = 96 ROPs

N32 hat also die halbe Anzahl an ROPs, aber 62,5% der TMUs.

amdfanuwe

2022-11-30, 13:57:38

ROPs und TMUs skalieren unterschiedlich mit der GPU-Größe.
Danke für die Klarstellung.

Edit: Spielen die SA eigentlich eine Rolle?
Bei den Salvage Modellen wird immer nur mindestens eine WGP pro SE abgeschaltet.

reaperrr

2022-11-30, 14:00:39

N31: 6 x ROP/TMU, 6SE x 8WGP, 7900XT 2,4 GHz Boost, 2,0 Game CLK
N32: 3 x ROP/TMU, 3SE x 10WGP

Hab ich was verpasst, oder seit wann sind die TMUs aus den WGPs rausgewandert?
N32 sollte 240 TMUs haben, die 7900XT 336. Bei ~33% mehr (WGP-)Takt für N32 wäre der Vorteil der 79XT gerade noch bei ~5% (also genau wie bei der Shader-Leistung).
Und ich wette, dass die 79XT da teilweise durch den CommandProcessor ausgebremst wird, wenn es um Auslastung geht.

Und was ROPs angeht, wissen wir denn, dass die nicht mehr an die L2/IF/SI-Breite gekoppelt sind? Dann müsste N32 nämlich bei 256bit-SI 128 davon haben, während AD103 nur 112 und AD104 80 haben.
Aber selbst 96 @ 2.8-3.0 GHz sollte selten ein Flaschenhals sein.

Edit: OK, Gipsel war schneller.

horn 12

2022-11-30, 20:16:28

NDA Fall

12.12 um 15 Uhr

https://www.youtube.com/watch?v=EbtJhjd3mnw

Digidi

2022-12-01, 01:59:31

Wer könnte mal mit einer 6900xt folgenden Benchmark durführen?

Die Zip hier runterladen und das durchbenchen? Wahrscheinlich geht nur Vulkan unter Windows 11 zumindest bei mir:

https://tellusim.com/mesh-shader-emulation/

aufrühren dann per cmd ins dos Fenster und dann in dem Entpackten Ordner das aufrühren:
main_vk1.exe -fov 60 -subdiv 6 -mode 2 -meshlet 0

Rechts oben im Anwendungsfenster(wo die Polygonen gezeichnet werden) gibt es dann 5 Modie die man mit der Maus auswählen kann. Wäre gut wenn man das mal durchtestet.
Die Polygonen könnt ihr dann im Anwendungsfenter wo dir Polygonen angezeigt werden ablesen (nicht im CMD Fenster, die im CMD sind falsch)
https://tellusim.com/mesh-shader-emulation/
https://tellusim.com/mesh-shader-performance/
https://tellusim.com/mesh-shader/
https://tellusim.com/compute-raster/

Wenn jemand das mit einer 6900xt noch macht wäre auch nice.

Zur info eine 3070:
Mesh Instance Tris: 9.10 B/S
Mesh Prmitive 64x84: 5.5 B/s
Mesh Indexing: 64x84: 5,26 B/s
Mult DrawIndirext 64x84: 9.09 B/s
Mesh Shader: 9.21 B/s
Compute Shader: 14,48 B/s

Werte von basix:
Zitat von basix Beitrag anzeigen
RTX 4090 @ 2.55 GHz // 5800X3D:
Mesh Instance Tris: 16.52 B/S
Mesh Primitive 64x84: 8.78 B/s
Mesh Indexing: 64x84: 9.56 B/s
Mult DrawIndirext 64x84: 14.53 B/s
Mesh Shader: 22.64 B/s (144fps Limit?) // 33.47 B/s (anderes Fenster "aktiv")
Compute Shader: 22.64 B/s (144fps Limit?) // 88.3 B/s (anderes Fenster "aktiv")

Interessant:
Mit Stock 2.72 GHz komme ich auf 10.5 B/s Mesh Primitive (+19.6%) und 10.9 B/s Mesh Indexing (+14%). Hier sieht man evtl. den Effekt der reduzierten Chip-Spannung, wodurch einige andere interne Clocks anscheinend abgesenkt werden. Bei Spielen macht sich das durch leicht geringere Performance bemerkbar. Bei Mesh Shader und Compute Shader skaliert es hingegen perfekt linear mit dem Shader Clock.

Langlay

2022-12-01, 02:49:36

https://abload.de/img/2022-12-0102_46_15-vke3f54.png
https://abload.de/img/2022-12-0102_46_38-ei0peah.png
https://abload.de/img/2022-12-0102_46_55-vkvidep.png
https://abload.de/img/2022-12-0102_47_12-vkhocwk.png
https://abload.de/img/2022-12-0102_47_31-vkvidx9.png

6900XT UV VRAM @ 2150 MHz.

amdfanuwe

2022-12-01, 03:47:57

Kann nur eine 6700XT mit 5600 CPU FHD Win 10 anbieten:
Die Werte für Fenster 1/4tel Screen und MaxWindow
Die Werte wackeln um ~+-0,2

Mesh Instance Tris: 9.0 B/s - 10 B/s
Mesh Prmitive 64x84: 6,4 B/s - 5,8 B/s
Mesh Indexing: 64x84: 6,9 B/s - 6,6 B/s
Mult DrawIndirext 64x84: 3,6 B/s - 3,5 B/s
Mesh Shader: ?? Nicht in Menue
Compute Shader: 22,1 B/s - 20,2 B/s

Digidi

2022-12-01, 09:24:50

Danke für die Benchmakrs. Interesant. Die 6900xt ist so stark wie eine 3090 im alten Frontend. Auch interessant eine 4090 hat sich zur 3090 hier kaum Verbessert im alten frontend obwohl diese 4090 11 GPCs und damit 11 Rasterizer hat. Was limitiert denn da bei der 4090? Cash?

Erst bei Compute Shader geht die 4090 durch die Decke. Bin mal gespannt wie die 7900XT sich da schlägt.

Iscaran

2022-12-01, 09:54:41

@Digidi: Kannst du die Ergebnisse mal sammeln und als Tabelle/Grafik auswerten? (ggf. im Gravitymark Thread?)

Digidi

2022-12-01, 17:21:59

Bitteschön, CS und MS habe ich mal weggellassen, da das neue Piplines sind und die da eh besser sind.

raffa

2022-12-01, 17:31:06

Ist schon irgendwas zu den kleineren Ablegern bekannt?

horn 12

2022-12-01, 19:25:11

https://www.youtube.com/watch?v=9_vqaOStdQA

Was für ein Käse, so kurz vor Release von Navi 31

BlacKi

2022-12-01, 19:46:16

warum verlinkst du käse?

Linmoum

2022-12-01, 19:47:28

Er ist schon seit Tagen auf dem Trieb, irgendwelche Videos zu verlinken, die man nur findet, wenn man gezielt danach sucht. Aus Gründen.

horn 12

2022-12-01, 20:16:03

Ja, stimmt
Kann es nicht mehr abwarten bis das Teil Releast wird...

Thomas Gräf

2022-12-01, 20:49:20

Bist Du nur auf den Release scharf?
Och wenn weiter nichts is... :biggrin:

OgrEGT

2022-12-01, 22:21:56

Sapphire Radeon RX 7900 NITRO series to feature vapor chamber and three 8-pin connectors
https://videocardz.com/newz/sapphire-radeon-rx-7900-nitro-series-to-feature-vapor-chamber-and-three-8-pin-connectors

Iscaran

2022-12-01, 22:54:18

Bitteschön, CS und MS habe ich mal weggellassen, da das neue Piplines sind und die da eh besser sind.
Top! Danke!

Digidi

2022-12-02, 01:08:22

Langlay

2022-12-02, 01:52:12

Vielen Dank langly wie hoch war denn der GPU Takt? Auch 2,15 GHz?

Zwischen 2.45-2.575 GHz. Also der Takt in den Tests war konstant, aber jeweils etwas unterschiedlich in den einzelnen Tests.

Gipsel

2022-12-02, 04:02:47

Bitteschön, CS und MS habe ich mal weggellassen, da das neue Piplines sind und die da eh besser sind.In dem Zusammenhang ist vielleicht interessant, daß AMD explizit erwähnt hat, mit RDNA3 Multi Draw Indirect signifikant zu beschleunigen (wohl mehr als die generelle +50% Breite des Frontends, angeblich kommt ein "Multi Draw Indirect Accelerator (MDIA)" dazu).

OgrEGT

2022-12-02, 21:05:23

Sapphire Radeon RX 7900XTX and 7900XT reference cards show up on Amazon
https://videocardz.com/newz/sapphire-radeon-rx-7900xtx-and-7900xt-reference-cards-show-up-on-amazon

PowerColor announces Radeon RX 7900 XTX and 7900 XT Hellhound GPUs
https://videocardz.com/newz/powercolor-announces-radeon-rx-7900-xtx-and-7900-xt-hellhound-gpus

dargo

2022-12-02, 21:09:01

PowerColor announces Radeon RX 7900 XTX and 7900 XT Hellhound GPUs
https://videocardz.com/newz/powercolor-announces-radeon-rx-7900-xtx-and-7900-xt-hellhound-gpus
Hmm... kein Bullshit-OC beim Powerlimit da "nur" 2x 8-Pin?

OgrEGT

2022-12-02, 21:10:32

Hmm... kein Bullshit-OC beim Powerlimit da "nur" 2x 8-Pin?

Dafür aber nen Riesenkühler drauf... dann sollten die Karten in jedem Fall leise sein...

-=Popeye=-

2022-12-02, 21:25:07

Die 6900XT Karten mit 2x8pin egal ob Ref. oder Custom hatten alle übles Spulenfiepen, da nützt auch der beste Kühler nichts.

Ich persönlich warte auf eine RX79xx XTX ASRock OCF mit 3x8pin, da die 69er Serie quasi garnicht fiept und das beste PCB von allen 69er Karten hatte.

dargo

2022-12-02, 21:30:17

Die 6900XT Karten mit 2x8pin egal ob Ref. oder Custom hatten alle übles Spulenfiepen, da nützt auch der beste Kühler nichts.

Spulenfiepen hat rein gar nichts mit der Anzahl der Stromzufuhr zu tun.

-=Popeye=-

2022-12-02, 21:47:03

Ist mir klar... die 69er mit Ref. Design fiepten trotzdem alle. Deshalb habe ich damals von der Ref. auf ein Custom Design (in meinem Fall auf eine OCF) mit bessere Ein-und Ausgangs Filterung gewechselt.

edit: mal ehrlich... Lüfterrauschen geht ja noch klar aber eine Vogelvoliere im Rechner geht gar nicht.

dargo

2022-12-02, 21:49:06

Ist mir klar... die 69er mit Ref. Design fiepten trotzdem alle.
Mag sein. Lag aber nicht daran, dass die Karten nur zwei 8 Pin Anschlüsse hatten. :)

-=Popeye=-

2022-12-02, 21:54:48

Junge junge...

zu schnell geantwortet oder zu langsam geschrieben. :biggrin:

Fusion_Power

2022-12-02, 23:13:59

Ist schon irgendwas zu den kleineren Ablegern bekannt?
Mich würden vor allem Infos über eine kommende, mobile und integrierte RDNA3 interessieren. Die RDNA2 Radeon 680M in der Ryzen 6000er Mobile Serie war schon ein ordentliches Stück Silizium. Ich erhoffe mir von einem Nachfolger da noch ne Ecke mehr.

DrFreaK666

2022-12-02, 23:15:23

zur CES werden Infos erwartet

horn 12

2022-12-03, 08:01:54

Nix, Absolut Nix, 9 Tage vor NDA Fall und 10 Tage vor Verkaufsstart.
Keine Benchmarkwerte von Custom Herstellern odg. gelangen an die Öffentlichkeit.
Treiber sollten ja bald draussen sein, die Insider sollten langsam die Karten für die Benchmarks doch bekommen!

Entweder Top oder Drop denke ich mal werden die AMD Karten werden.

OpenVMSwartoll

2022-12-03, 09:04:42

Ja, beeindruckend, wie gut die Löcher gestopft wurden. Die Vorfreude wird etwas gedämpft, aber somit auch überzogene Erwartungen.

Die genaue Performancecharakteristik erfährt man eh erst durch die Tester der Wahl.

robbitop

2022-12-03, 10:03:47

OpenVMSwartoll

2022-12-03, 10:15:53

Also anhand der Benchmarks die AMD rausgegeben sogar mit 6950 XT als Referenzpunkt, kann man jedes 4080/4090 review nehmen wo die 6950xt geben hr wurde und bekommt eine ganz gute Idee wo man landen wird.

Ich habe das vor 1,5 Wochen mit Excel gemacht und kam auf 15-20% mehr Leistunf in Rasterizing Benchmarks und 20-25 % weniger in RT Benchmarks.
+/-5% machen am Ende den Kohl nicht fett. Große Überraschungen wird man da IMO nicht mehr erwarten können.

Mehr Rasterizer-Performance als die 4090? Denke, Du spielst auf die 4080 an.

Leos Prognosen sind ja auch nicht uninteressant. Aber die Details der Stärken und Schwächen sind es, die Neugier wecken.

Edit: D zu viel.

robbitop

2022-12-03, 10:21:05

Natürlich die 4080 als Referenzpunkt für die Werte.

horn 12

2022-12-04, 15:00:55

https://www.drako.it/drako_catalog/advanced_search_result.php?keywords=7900+XT&osCsid=0c1ib2inl752hpuoka5m595e24

- TUF 7900XTX: 1374 euro

- TUF 7900XT: 1249,90 euro

Preis war um 13:30 verlinkt.
Nun Nur noch Hinweis für baldige Bestellung

mboeller

2022-12-04, 16:20:27

mal was seltsames von Bondrewd:

https://forum.beyond3d.com/threads/speculation-and-rumors-amd-rdna4.63069/page-2#post-2277273

N31 is skinny because it's designed to run 800MHz faster than it does now.

Das wäre schon ein massives Problem mit N31.

Wenn N32 und N33 das Problem nicht haben schaut es in ein paar Monaten ziemlich schlecht aus für N31-Karten.

N32: 8192 x 3,1GHz / 12288 x 2,3GHz = 0,89

Eine 7900XTX wäre also bei der Rechenleistung nur 12% schneller als eine N32 Karte mit allen aktivierten WGP

GrimReaper85

2022-12-04, 16:24:29

https://videocardz.com/newz/amd-rocm-software-update-confirms-navi-32-gpu-has-60-compute-units

N32 - 7680 CU

Das sind dann +19%.
Sie haben die N32 zu stark abgeholzt, um von Interesse zu sein.

dargo

2022-12-04, 17:12:20

Klar... mit 60CUs anstatt 64CUs ist das Ding nur noch für Office zu gebrauchen. ;D

davidzo

2022-12-04, 17:13:33

Die 4CUs machen den Kohl nun auch nicht fett.

So macht die Produktdegmentierung auch mehr Sinn, denn Navi32 ist immer noch sehr nah dran an Navi31, dabei ist der Stückzahelmäßig wichtigste Bereich ja eher der zwischen performance und mainstream, also zwischen N32 und N33.

Iscaran

2022-12-04, 17:24:00

horn 12

2022-12-04, 17:27:13

Habe die AMD 6800XT mal in den Marktplatz gestellt bei uns in Italien
und eine AMD Referenz zu 1080 bis 1170 Euro ziehe ich den Custom Modellen mit 3-fach Kühler oder gar noch mehr und um die 200 Euro Aufpreis allemal vor.

Referenz soll es im AMD Shop und von den 3 bis 4 Herstellern gleich zu Beginn in den ausgewählten Shop schon geben.
Man munkelt von guten 50.000+ Referenz Karten zu Beginn (Weltweit)

M4xw0lf

2022-12-04, 17:52:13

mal was seltsames von Bondrewd:

https://forum.beyond3d.com/threads/speculation-and-rumors-amd-rdna4.63069/page-2#post-2277273

Das wäre schon ein massives Problem mit N31.

Wenn N32 und N33 das Problem nicht haben schaut es in ein paar Monaten ziemlich schlecht aus für N31-Karten.

N32: 8192 x 3,1GHz / 12288 x 2,3GHz = 0,89

Eine 7900XTX wäre also bei der Rechenleistung nur 12% schneller als eine N32 Karte mit allen aktivierten WGP

Das passt auch wieder zu den mysteriösen Folien mit 'architected for 3+ GHz'. Die Geschichte vom Hardwarebug der die Zieltaktraten verhindert geht auch nicht nachhaltig weg.

Linmoum

2022-12-04, 17:57:22

Ist ja bis zum Launch nicht mehr lange hin. Dann wird man sehen, wo die Reise mit 450W+ beim Takt hingeht und ob man damit die "beworbenen" 3GHz+ schafft, oder nicht doch selbst mit voller Lotte relativ deutlich daran scheitert.

Mit 3GHz+ würde es andererseits auch vielmehr Sinn ergeben, warum man selbst beim Top-Dog nur auf 300mm² für das GCD gegangen ist. Takt ist halt eine effektive (und kostengünstige) Methode für mehr Performance, ohne mehr Einheiten nutzen zu müssen und den Die großer werden zu lassen.

dargo

2022-12-04, 18:17:05

Mit 3GHz+ würde es andererseits auch vielmehr Sinn ergeben, warum man selbst beim Top-Dog nur auf 300mm² für das GCD gegangen ist. Takt ist halt eine effektive (und kostengünstige) Methode für mehr Performance, ohne mehr Einheiten nutzen zu müssen und den Die großer werden zu lassen.
Jo... sehr effektive Methode um die eigenen Effizienzziele zu killen. :lol:

horn 12

2022-12-04, 18:25:59

Mit 3 Ghz+ ist man wohl bei 400 bis 420 Watt
und bereits die XTX taktet bis 2650 / 2675 Mhz.
Customs scheitern wohl bei ~2,9 Ghz, denn mehr scheint denke ich nicht Realistisch.
und man wollte wohl die Effienz bewahren denn die XT bleibt unter 300 Watt und die XTX Ca. 320 bis 330 Watt .
Dann ist man mit der XTX schneller als die 4080 bei gleicher oder sogar Besserer Performance/ Watt.

reaperrr

2022-12-04, 18:46:54

Viel interessanter ist: WENN das stimmt, dann kommt nächstes Jahr ein Respin von N31 mit +800 MHz (oder mehr)
Das sind dann ca. +30% Leistung relativ zur aktuellen N31:eek:

Das ist dann sozusagen auf 4090 Niveau. Was ja keiner für möglich gehalten hatte mit dem N31 (und der Release mit 2.3 GHz bestätigte dann dies Meinung).
Die Leistung skaliert gerade im High-End praktisch nie linear mit den TFLOPs, je höher die Roh-Leistung, desto mehr bremst mal die CPU, mal die Speicherbandbreite, mal das Frontend, mal die Engine des Spiels.

Aber 20-25% könnten mit auf 192MB gestacktem IF$ und/oder etwas mehr Speichertakt auf jeden Fall drin sein, womit man in Raster zumindest sehr nah rankäme (sporadisch vielleicht auch vorn wäre) und auch in RT deutlich besser gegen 4080/4070Ti abschneiden würde.

robbitop

2022-12-04, 18:50:46

Linmoum

2022-12-04, 18:56:19

Jo... sehr effektive Methode um die eigenen Effizienzziele zu killen. :lol:Die hat man mit der 355W 7900XTX schon längst gekillt, dafür braucht es nicht mal mehr Takt.

Dass AMD die +54% bei 300W erzielt hat und damit wirbt, hat seinen Grund. Bei der XTX wird die Effizienz nicht besser, ganz im Gegenteil. ;)

][immy

2022-12-04, 19:03:46

Naja im GPU Limit sollte (vorausgesetzt es ist genug Bandbreite da) mit Takt alles skalieren. Ganz im Gegensatz zur Skalierung mit Einheiten.

Der höhere Zieltakt erklärt dass die CUs mehr Transistoren kosten und es war ja auch merkwürdig dass die uArch slide mit >3 GHz betitelt war und N31 nicht annähernd dort ist. Wenn am Stacking der MCDs was dran sein sollte (was ja alle inkl angstronomics sagen) macht das schon irgendwie Sinn. Wie bitter muss es sein, wenn man das target so deutlich verpasst.
stimmt zwar schon, aber Bandbreite ist schon ein ziemlicher Fallstrick. Davon kann man eigentlich nie wirklich genug haben (nicht in den aktuellen Dimensionen). Besonders wo die TF in den letzten Jahren explodiert sind, aber die Bandbreite im Verhältnis nur einen sehr kleinen Anstieg verzeichnete merkte man schon das die Chips immer irgendwo "ausgebremst" werden. Zum einen natürlich dadurch das sie nicht unbedingt optimal aufgebaut sind (hat man ja besonders bei Vega gemerkt, dass der nicht mehr wirklich gut skalierte trotz gigantischer Bandbreite). Das wir nach wie vor mehr oder minder bei einem 256 Bit Speicherinterface verharren, tut der GDDR Technik nicht wirklich gut, aber externe Leiterbahnen sind halt auch so ein Problem das mit immer kleineren Chips (bzw. kleineren Anschlüssen) kaum mehr zu bewerkstelligen ist bei den Frequenzen die da rüber gehen.

Nakai

2022-12-04, 19:08:12

Das passt auch wieder zu den mysteriösen Folien mit 'architected for 3+ GHz'. Die Geschichte vom Hardwarebug der die Zieltaktraten verhindert geht auch nicht nachhaltig weg.

Irgendeine Variabel in dieser Gleichung passt nicht. Ich denke wirklich, dass beim N31 irgendetwas nicht so richtig funktioniert. N3x sind schon spannende Technologie-Träger: neue Architektur, Chiplet-Design, mixed Prozesse, hohe Taktziele, etc. Wenn es bei einem Punkt knallt, dann kann es schon interessante Konsequenzen nach sich ziehen. Reduzierte Taktfähigkeit oder völlig falsche Erwartungshaltungen beim Verbrauch sind da relativ naheliegend.

Gott1337

2022-12-04, 19:13:34

warum sollte das nicht passen? sie haben doch GENAU die Ziele erreicht die sie immer genannt haben, eure Spekulationen machen einfach keinen Sinn

robbitop

2022-12-04, 19:23:59

Wozu dann stapelbare MCDs und warum dann die >3 GHz slide? Das macht schon Sinn.

BlacKi

2022-12-04, 19:25:21

warum sollte das nicht passen? sie haben doch GENAU die Ziele erreicht die sie immer genannt haben, eure Spekulationen machen einfach keinen Sinnehrlich gesagt, sehe ich das genau anders. amd hat gesagt, das sie effizienter als nv sein will, was nicht geklappt hat und selbst generationsübergreifend schafft man nicht die anvisierten effizienzziele nicht ohne tricks.

Nakai

2022-12-04, 19:26:03

Perf/Watt ist die beschissenste Metrik die man so als Marketing-Zweck aussuchen kann. Für mich sah es eher so aus, als ob N31 es ganz knapp geschafft hat. Im Grunde kann man sich eine bestimmte SKU konfigurieren und dann mit einer alten SKU vergleichen und dann behaupten, man soviel mehr Perf/Watt. Diese Metrik ist praktisch nichtssagend ( und gleichzeitig ist sie sogar sehr wichtig).

BlacKi

2022-12-04, 19:29:51

ich wollte damit sagen, das man wohl deutlich mehr effizienz anvisiert hatte. +70
%. dann hätte man nicht tricksen müssen.

mboeller

2022-12-04, 19:40:10

https://videocardz.com/newz/amd-rocm-software-update-confirms-navi-32-gpu-has-60-compute-units

N32 - 7680 CU

Das sind dann +19%.
Sie haben die N32 zu stark abgeholzt, um von Interesse zu sein.

ah shit... ich hatte nur die alten CU-Werte im Kopf :freak:

Nakai

2022-12-04, 19:50:40

ich wollte damit sagen, das man wohl deutlich mehr effizienz anvisiert hatte. +70
%. dann hätte man nicht tricksen müssen.

Ich habe nicht auf dich direkt antworten wollen, aber auf Gott1337. Leider war ich im Zug und es hat sich verzögert.
Selbst für AMD ist diese Metrik nur ein Orientierungspunkt.

https://www.tomshardware.com/features/gpu-chiplet-era-interview-amd-sam-naffziger

Man rotiert SKUs durch, bis diese Metrik wieder stimmt.

Wenn N32 kein Taktproblem und Wattage-Problem damit bekommt und die Taktraten bei eher 3 Ghz liegen wird, dann muss sich NV massiv warm anziehen. Ein potentieller Refresh von N31 mit 25%+ Performance durch 3D-Cache und Mehrtakt kann (bis auf RT) eine 4090 schon nerven. Im Midrange-Bereich gar nicht zu schweigen.

Mangel76

2022-12-04, 19:51:36

Die hat man mit der 355W 7900XTX schon längst gekillt, dafür braucht es nicht mal mehr Takt.

Dass AMD die +54% bei 300W erzielt hat und damit wirbt, hat seinen Grund. Bei der XTX wird die Effizienz nicht besser, ganz im Gegenteil. ;)

Bei wieviel Watt hätte man denn vergleichen sollen? Bei 335W gegen die 6950? Oder gleich die alte auf 355W hochziehen? Da hätten alle "unfair" geschrien. Oder doch wie NV gleiche Leistung bei halber Wattzahl? Auf 300W ist da doch noch die beste Wahl!

Der_Korken

2022-12-04, 20:10:16

- TUF 7900XTX: 1374 euro

- TUF 7900XT: 1249,90 euro

Pff, soviel zu den 999$ ;D

mal was seltsames von Bondrewd

Naja, das wer derjenige, der schon bei RDNA3-Präsi was von Design-Bug erzählt hat. Insofern nichts neues. 800Mhz klingen aber schon etwas übertrieben, es sei denn er meint den maximalen Takt, den man mit beliebig viel Verbrauch erreichen kann. Der kann natürlich bei einem Fehler im Design irgendwo hard capped sein. Man muss halt bedenken, dass mehr Taktbarkeit nicht zwingend auch mehr Effizienz bedeutet. Das würde nur stimmen, wenn man für die 2,5Ghz schon die Spannung anziehen musste, weil man aufgrund des Fehlers schon diese Taktrate sonst nicht erreicht hätte. Ansonsten ist mit 3,3Ghz eben auch in den 450W-Regionen der 4090 unterwegs ...

Bei wieviel Watt hätte man denn vergleichen sollen? Bei 335W gegen die 6950? Oder gleich die alte auf 355W hochziehen? Da hätten alle "unfair" geschrien. Oder doch wie NV gleiche Leistung bei halber Wattzahl? Auf 300W ist da doch noch die beste Wahl!

6950XT mit 335W und 7900XTX mit 355W - so wie die Produkte im Regal stehen. Alles andere ist nur Schön- bzw. Schlechtrechnerei. Wenn die 355W unnötig hoch sind, ist das doch AMDs eigenes Problem, warum verkauft man die Karte dann in so einer Schluckspecht-Config?

Thunder99

2022-12-04, 20:27:43

Die Euro Preise passen doch. 20% Mehrwertsteuer in Italien :confused:

Wenn es ein Problem mit der Taktbarkeit gibt, werden wir wahrscheinlich zum Refresh ein gutes Performance+ sehen.

OgrEGT

2022-12-04, 20:39:00

Wenn die Preise korrekt sind, dann sind es auch TUF also Custom Karten... Die 899 bzw. 999$ sind die Preise für die Referenzkarten...

Von den Customkarten weiß man zudem noch nicht so genau wieviel PT und wieviel mehr Leistung im Vergleich zu den Referenzkarten die haben...

horn 12

2022-12-04, 20:39:03

22% Mwst.
Dürfte für Deutschland dann ca. 1330 und 1215 Euro sein.

gedi

2022-12-04, 20:47:07

Pff, soviel zu den 999$ ;D

Naja, das wer derjenige, der schon bei RDNA3-Präsi was von Design-Bug erzählt hat. Insofern nichts neues. 800Mhz klingen aber schon etwas übertrieben, es sei denn er meint den maximalen Takt, den man mit beliebig viel Verbrauch erreichen kann. Der kann natürlich bei einem Fehler im Design irgendwo hard capped sein. Man muss halt bedenken, dass mehr Taktbarkeit nicht zwingend auch mehr Effizienz bedeutet. Das würde nur stimmen, wenn man für die 2,5Ghz schon die Spannung anziehen musste, weil man aufgrund des Fehlers schon diese Taktrate sonst nicht erreicht hätte. Ansonsten ist mit 3,3Ghz eben auch in den 450W-Regionen der 4090 unterwegs ...

6950XT mit 335W und 7900XTX mit 355W - so wie die Produkte im Regal stehen. Alles andere ist nur Schön- bzw. Schlechtrechnerei. Wenn die 355W unnötig hoch sind, ist das doch AMDs eigenes Problem, warum verkauft man die Karte dann in so einer Schluckspecht-Config?

Da stehen € keine $ ! Wäre ein legit Aufpreis zur Referenz. Leider machen auf Twitter Preise die Runde in Bezug auf Customs... Freue mich auf den RX7700XT realease!

TheGood

2022-12-04, 21:10:13

MIr erschliesst isch einfach nicht warum der N31 3GHZ+ haben muss. Hat bei den Architekturen von NVidia auch immer der TOP Dog die höchsten Taktzahlen??? Wäre mir nicht bekannt.

Also was soll das dauernde darauf rumgehacke. Welchen Grund kann man haben das explizit, wider besseren Wissens, weiter und weiter zu behaupten?

Das gilt auch für die jungs, mit der mysteriösen behauptung dass da noch mehr an Taktrate geht... Ich sehe das nicht und damit gilt für die 7900: Works as designed... und das wird sie mehr als gut machen.

DrFreaK666

2022-12-04, 21:22:09

Linmoum

2022-12-04, 21:56:28

Ist sie schon mit 335W nicht. Hat aber auch zum Glück niemand behauptet.

Wenngleich es schon schlimmeres gab.

Der_Korken

2022-12-04, 22:02:26

Da stehen € keine $ ! Wäre ein legit Aufpreis zur Referenz. Leider machen auf Twitter Preise die Runde in Bezug auf Customs... Freue mich auf den RX7700XT realease!

Ist mir klar, aber das sind trotzdem 37% Aufpreis auf den Dollarpreis. 15% davon sind Mwst (1€ = 1,05$ mittlerweile), die restlichen 20% Aufschlag von Händlern und Herstellern.

MIr erschliesst isch einfach nicht warum der N31 3GHZ+ haben muss. Hat bei den Architekturen von NVidia auch immer der TOP Dog die höchsten Taktzahlen??? Wäre mir nicht bekannt.

Ähm, dir ist schon klar, dass die kleineren Karten von RDNA3 noch kommen und noch nichts über dessen Taktraten bekannt sind? Ansonst fordert hier niemand eine imaginäre Taktrate X, weil die sich so schön liest, sondern weil AMD auf einer Slide selbst damit wirbt, dass ihr Design für >3Ghz ausgelegt und in Gerüchten ständig Taktraten von 3Ghz und mehr genannt wurden. Es würde außerdem auch gut in AMDs Strategie reinpassen und das ist Flächenreduktion.