AMD/ATI - RDNA3 (Navi 3X, Radeon RX 7000 Serie, tlw. Chiplets, 5/6 nm, 2022) [Archiv] - Seite 7

Savay

2022-04-04, 18:24:31

Wozu hat nV die 3090 Ti gebracht?

BlacKi

2022-04-04, 18:35:52

testboot für next ampere.

mal davon abgesehen, das es eben nur eine karte ist, und für januar geplant war. also 8-9 monate bis next ampere.

Savay

2022-04-04, 18:46:14

Wo ist da jetzt der Unterschied?
Also verzögert sich Lovelace auch, aber ein wenig weniger weil es nur eine Karte ist?

Linmoum

2022-04-04, 19:12:35

wozu kommt denn anfang mitte mai nochmal ein refresh von rdna2. wenn man die produktion weiterlaufen lassen will, braucht man doch keinen neuen namen.

für mich macht der refresh nur sinn, wenn die next gen auf sich warten lassen wird. oder das portfolio monster lücken hat, dann aber bitte als 7000er serie? so wie früher?

dabei hat man noch vor einem jahr gemeint, amds rdna3 kommt vor nv next ampere...
Ja. Wie wir noch wissen, hatte sich Zen3 auch verzögert, weil ja schließlich im Juli 2020 noch 3800XT und Co. gelauncht worden. Oh, wait...

BlacKi

2022-04-04, 19:54:47

Wo ist da jetzt der Unterschied?
Also verzögert sich Lovelace auch, aber ein wenig weniger weil es nur eine Karte ist?nein, die anderen beiden gründe die ich nannte, aber du ignorierst.

Ja. Wie wir noch wissen, hatte sich Zen3 auch verzögert, weil ja schließlich im Juli 2020 noch 3800XT und Co. gelauncht worden. Oh, wait...
das waren auch nur ein paar gebinnte chiplets. da sich die yields verbesserten. trifft das auch auf die neuen karten zu? mal davon abgesehen würde immernoch nov. rauskommen wenn man den abstand zwischen den zen2 xt modellen und dem zen3 bedenkt.

das ist halt nichtmehr mitte des jahres, wie es noch vor einigen monaten hieß.

Savay

2022-04-04, 20:00:12

nein, die anderen beiden gründe die ich nannte, aber du ignorierst.

Ich habe sie nicht ignoriert...die Schlussfolgerungen sind nur mal wieder unlogisch wie sonst was und vollkommen selektiv.

AMD bringt (wahrscheinlich) neue Karten, also verzögert sich RDNA3. :uponder:
nVidia bringt ne neue Karte, also verzögert sich Lovelace nicht. :ucrazy3:

Denniss

2022-04-04, 20:01:38

Die 6x50 sind ja auch nix neues sondern nur besseres Binning mit schnellerem VRAM. Ggf ein paar Watt mehr. Die 7000er kommen erst im Spätherbst/Winter

BlacKi

2022-04-04, 20:04:08

@sav. wieso, igor hats doch bestätigt. und die 8-9 monate zwischen der 3090ti und nextampere halte ich für einen absolut vernünftigen abstand. falls nv überhaupt im september kommt.

Gipsel

2022-04-04, 20:10:30

das waren auch nur ein paar gebinnte chiplets. da sich die yields verbesserten. trifft das auch auf die neuen karten zu?Ja.

Nazar

2022-04-04, 22:37:57

wozu kommt denn anfang mitte mai nochmal ein refresh von rdna2. wenn man die produktion weiterlaufen lassen will, braucht man doch keinen neuen namen.

für mich macht der refresh nur sinn, wenn die next gen auf sich warten lassen wird. oder das portfolio monster lücken hat, dann aber bitte als 7000er serie? so wie früher?

dabei hat man noch vor einem jahr gemeint, amds rdna3 kommt vor nv next ampere...

So etwas nennt man Produktmarketing.
Wieso soll ich einen Refresh unter alten Namen verkaufen, wenn dieser Refresh besser ist als der Vorgänger?
DAS wäre total unlogisch. Die meisten Kunden sind keine Nerds, so wie in manchen Foren, sondern kaufen eben das, was auch als "besser" zu identifizieren ist. Und was soll da besser sein, als sich über einen anderen, neuen Namen zu produzieren?
Wenn dann noch der Markt hungrig ist und der Konkurrent schon vorgelegt hat, ergibt das alles noch mehr Sinn und ist vollkommen logisch, wenn man diese Dollar nicht dem Konkurrenten schenken möchte. Nicht jeder kauft immer das Neuste. Und wenn man bedenkt wie angespannt die Finanzsituation (galoppierende Inflation) derzeit ist, wird es noch sinnvoller !jetzt! sein Geld zu investieren, anstatt auf die neuste Generation zu warten, die dann eventuell für viele "unbezahlbar" geworden ist.
Man kann es drehen und wenden wie man möchte, aber das, was du geschrieben hast, ergibt von allen möglichen Szenarien am wenigsten Sinn.

Linmoum

2022-04-11, 00:19:42

2+1+4
7 die
2GCD
1IO？
4MCD？
What MCD is, is still unknown.🤔
https://twitter.com/greymon55
Bisher waren wir ja bei 2+1 (GCD/MCD). MCDs ggf. doch stacked? Anders könnte ich mir das kaum vorstellen. Das "1" dann vielleicht tatsächlich analog zu Zen als eigenständiges I/O-Die.

mboeller

2022-04-11, 06:56:09

https://twitter.com/greymon55
Bisher waren wir ja bei 2+1 (GCD/MCD). MCDs ggf. doch stacked? Anders könnte ich mir das kaum vorstellen. Das "1" dann vielleicht tatsächlich analog zu Zen als eigenständiges I/O-Die.

4 = 4x V-Cache?

OgrEGT

2022-04-11, 08:29:35

4 = 4x V-Cache?

War anfangs beim 5800X3D nicht auch 2x32Mb Stacked 3D$ spekuliert worden? Hier dann ggf 4x32Mb Stacked und vlt sogar auf dem IOD Stacked?

basix

2022-04-11, 08:36:43

https://twitter.com/greymon55
Bisher waren wir ja bei 2+1 (GCD/MCD). MCDs ggf. doch stacked? Anders könnte ich mir das kaum vorstellen. Das "1" dann vielleicht tatsächlich analog zu Zen als eigenständiges I/O-Die.

2+4 (GCD/MCD) für N31 war das geläufigere Gerücht. Mit 256...512MByte Infinity Cache machen mehrere MCD Die mehr Sinn. N32 dann mit 2+3 (GCD/MCD) und einem kleineren GCD als bei N31. Bei Single-Die MCD wäre ein MCD Re-Use zwischen N31 und N32 unwahrscheinlicher.

Das mit dem "IOD" ist aber neu. Für PCIe, Display und Video würde es mMn aber Sinn machen. Das kann man auch in 6nm lassen.

Vielleicht ist in diesem "Interconnected Controller" aber auch der Command Processor untergebracht (inkl. PCIe etc.)?! Dann hat man einen Single Point of Entry zum Ansprechen der GPU (Controller/IOD = Master) und die GCDs sind jeweils beide Slaves.
Das würde aus Sicht Architektur auch Sinn machen, da von der Hierarchie her einfacher. Bis anhin wurde immer davon ausgegangen, das GCD #1 der Master und GCD #2 der Slave ist. Mit einem Master im "IOD" sollte das einfacher zu lösen sein (Scheduling zwischen den GCDs) und man vermeidet redundante Logik auf den GCDs. Bin mir aber nicht sicher, wie nahe der Command Processor an der Geometry Pipeline, den ACEs und dem L2-Cache hängen muss, damit das performant läuft.

Leonidas

2022-04-11, 08:42:15

Hier steht der Rest der Tweets:
https://www.3dcenter.org/news/news-des-910-april-2022

two 5nm GCD
four 6nm MCD
one interconnected controller
7 Chiplets in total

HOT

2022-04-11, 08:52:56

Sollte N3x nicht einen ML-Chip haben? Das passt doch viel besser zum dem einen.

dildo4u

2022-04-11, 09:00:43

Das macht für Gameing GPUs kein Sinn AMD hat ja extra CDNA für Compute von RDNA abgesplittert.
Nicht vergessen manche Gameing Modelle kommen in 6nm und werden vermutlich relativ groß für AMD Verhältnisse.

robbitop

2022-04-11, 09:01:28

Hier steht der Rest der Tweets:
https://www.3dcenter.org/news/news-des-910-april-2022

two 5nm GCD
four 6nm MCD
one interconnected controller
7 Chiplets in total
Da sagt er aber "maybe". Da schlussfolgere ich daraus, dass es seine eigene Spekulation ist und nicht etwas was er von seinen Quellen hat.

Wenn ich was über Leaker gelernt habe: man muss zwischen dem Trennen, was ihre Quellen sagen und dem was sie spekulieren. Leider trennen die meisten das oft nicht.
Aber eigene Spekulation von denen ist genau so viel (oder wenig) wert, wie die Spekulation eines X-Beliebigen. Die Quellen hingegen sind das was sie ausmacht.

HOT

2022-04-11, 09:12:53

Das macht für Gameing GPUs kein Sinn AMD hat ja extra CDNA für Compute von RDNA abgesplittert.
Nicht vergessen manche Gameing Modelle kommen in 6nm und werden vermutlich relativ groß für AMD Verhältnisse.
Dann machen die Tensor Cores also auch keinen Sinn? Was ist das denn für ne bescheuerte Logik :freak:

dildo4u

2022-04-11, 10:16:40

AMD will doch mit FSR2.0 zeigen das sie kein ML für eine Gaming GPU brauchen, wenn es Vergleichbar mit DLSS ist schleppt Nvidia unnötige Transistoren mit Rum.

basix

2022-04-11, 13:25:37

Ich habe versucht, anhand einiger Gerüchte den Aufbau von RDNA3 (und RDNA4) zu bestimmen.

2x GCD
4x MCD
1x "Command & IO" Die: Sehe ich als sinnvoll an. Das ins GCD auszulagern ginge aber auch.
GCDs werden via EFB (Elevated Fanout Bridge) auf die andere Die gestapelt
MCDs können 3D-SoIC stacked sein (wie Zen V-Cache), müssen es aber nicht.

Ich habe die Floorplans von Navi 10 und Navi 21 angeschaut und von der ISSCC 2020 gab es detaillierte Infos zu Navi 10, wie die internen Datenbusse angelegt sind: https://fuse.wikichip.org/news/3331/radeon-rx-5700-navi-and-the-rdna-architecture/

Data Traffic entsteht hauptsächlich innerhalb der Shader Engines ind noch expliziter innerhalb der Shader Arrays. Zu anderen Shader Arrays ausserhalb der eigenen Shader Engine wird nur via L2$ / Command kommuniziert
Ausserhalb der Shader Engines ist der Traffic auf zwei Punkte konzentriert: 1. 4x L2$ Partitionen und 2. Command Processor / ACEs / Geometry Processor. Hier werden insgesamt aber wohl deutlich weniger Daten hin- und hergeschaufelt wie innerhalb der Shader Arrays. Zumindest deuten das die eingezeichneten Datenbusse von Navi 10 so an.

https://abload.de/thumb/navi10_floorplanb1kgr.png (https://abload.de/image.php?img=navi10_floorplanb1kgr.png) https://abload.de/thumb/navi10_die_shot5tj0i.jpg (https://abload.de/image.php?img=navi10_die_shot5tj0i.jpg) https://abload.de/thumb/isscc2020-bus-planninp0kj1.png (https://abload.de/image.php?img=isscc2020-bus-planninp0kj1.png)

Wieso ich mich an den Datenpfaden orientiert habe:
Schlussendlich sind das die Backbones des Chips. Und sie sind ein gewichtiger Teil bezüglich Energieverbrauch und Chipkomplexität. Und sie bestimmen einen gewichtigen Teil des Chip Floorplans. Die Datenpfade sollten möglichst kurz sein, damit die maximale Performance und Energieeffizienz erreicht werden kann.

Ausgehend davon kann man weiter in Richtung RDNA2 gehen:

Prinzipiell ist N21 einfach N10 mit verdoppelten Shader Engines links und rechts vom Command Processor / L2$.
Unbekannt, ob weiterhin 4x L2$ Partitionen und ob die Shader Engines von einer Seite irgendwie direkt miteinander kommunzieren. Beim letzteren denke ich Nein (Shader Engine -> L2$ only), sonst wäre das nicht mehr gleich wie bei RDNA1.
Vermutung: Die internen Datenbusse werden sehr ähnlich wie bei RDNA1 aussehen. Haupt-Traffic innerhalb der Shader Engines, Datenautobahnen zu allen L2$-Partitionen und zum Command Processor
Anhand der RDNA2 Folien zum N21 Release sollte es so sein, dass die Shader Engines nur via L2$ auf den Infinity Cache zugreifen können. Somit ändert sich mit IF$ an den Datenautobahnen nicht viel, ausser dass es eine zusätzliche Zwischenstufe inkl. zusätzlichen Datenbus gibt, welche von L2$ zum IF$ verläuft

https://abload.de/thumb/n21_floorplan2dokf9.png (https://abload.de/image.php?img=n21_floorplan2dokf9.png) https://abload.de/thumb/navi_21-block-diagramgajq4.jpg (https://abload.de/image.php?img=navi_21-block-diagramgajq4.jpg) https://abload.de/thumb/n21_floorplan1hks1.png (https://abload.de/image.php?img=n21_floorplan1hks1.png) https://abload.de/thumb/rdna2_memory_hierarchp3ki1.png (https://abload.de/image.php?img=rdna2_memory_hierarchp3ki1.png)

Das kann man jetzt für RDNA3 weiterspinnen:

GPU wird in der Mitte halbiert
MCDs liefern den Infinity Cache und die Datenautobahnen zwischen den GCDs und deren L2$
N31 / 32 haben beide eine 2^x Anzahl MCDs: 2x oder 4x. 3x MCDs geht mit dieser Lösung nicht sinnvoll. Deswegen verbleiben die GDDR-PHY auf den GCDs, was die entsprechende Dimensionierung der SI-Breite je GCD einfacher macht.
4x L2$ Partitionen (ehem, wie bei N10 und allenfalls N21 ;))
Anzahl Shader Engines bleibt bei 4x für N31 wie auch N32. Da die WGPs bei RDNA3 doppelt so breit werden, hat man bei N32 weiterhin 10x WGPs pro Shader Engine (wie bei N21). Bei N31 würde ich behaupten, dass man auf 15x WGPs pro Shader Engine hochgeht und nicht auf 6x Shader Engines. Das erleichtert die Topologie hinsichtlich Shader Engines vs. L2-Caches. Man kann aber auch auf 6x Shader Engines gehen, es bleibt hier dann aber trotzdem bei 4x L2$-Partitionen. Mit dann jeweils +1 Teilnehmer bei Cache-Zugriffen in Form einer zusätzlichen Shader Engine.
Optional: Zentraler Command Processor. Wieso das so interessant ist? Naja, aus der Vogelperspektive her sieht die GPU dann grundsätzlich immer noch wie N21 aus ;)
Speicher-PHY sind nahe beim Infinity Cache (siehe N21), Infinity Cache ist nahe am L2$ (siehe N21) und L2$-Partitionen sind nahe an den restlichen Teilnehmern (Command Processor und Shader Engines)

https://abload.de/thumb/n31_n32_conceptflkvx.png (https://abload.de/image.php?img=n31_n32_conceptflkvx.png)

Und wenn man für RDNA4 sogar noch weiter geht:

Prinzipiell selbes Konzept wie bei RDNA3, einfach nochmals stärker gesplitted
Von der Vogelperspektive her sieht es grundsätzlich immer noch wie N21 oder auch N31 aus ;) Wiederum zentraler Command Processor und 4x L2$-Partitionen
Die GCDs werden wiederum in der Hälfte unterteilt. Direkte North-South Kommunikation hier mit zusätzlichen Si-Bridges. East-West Traffic wie gehabt via MCDs // Edit: Die Si-Bridges benötigt man eigentlich nicht. Man kann die Signale über den Command/IOD routen.
Durch 4x GCDs werden neue Salvage-Lösungen denkbar: 1,2,3,4 GCDs. Wo es nötig ist, kommen dann Dummy-Die zum Einsatz.

https://abload.de/thumb/n41_n42_n43_n44_concef4kev.png (https://abload.de/image.php?img=n41_n42_n43_n44_concef4kev.png)

Beim diesem RDNA4 Konzept steigt die Komplexität natürlich an und die Dummy Die sind etwas unschön. Dafür werden die GCDs nochmals kleiner und man kann die selben Chip für ein breites Spektrum an SKUs verwenden (Faktor 5-6x zwischen min/max Anzahl CUs, inkl. Salvage). Man könnte wie bei RDNA3 mit 2x GCDs pro GPU weiterfahren und so die SKUs abstufen (evl. mehr als nur N41, N42). MCDs und Command Processor wären immer noch für alle verwendbar. Ist einfacher vom Aufbau her aber man muss dann dennoch für jede GPU-Klasse separate GCDs designen und bei der Top SKU werden die GCDs nicht kleiner. Im Endeffekt halte ich die 4x GCD Lösung für langfristig attraktiver, auch wenn sie etwas komplexer ist.

Mehr als 4x GCDs wird topologisch schwer umsetzbar, ohne auf sowas wie Intel bei Ponte Vecchio mit einem Base Die zu wechseln. Das ist mMn aber aufwändiger als eine EFB basierte Lösung und bring weitere Nachteile mit sich.

Der Vorteil ist aber, dass man so einfacher auf "fast beliebige" Anzahl GCDs gehen kann. Eine etwas abgewandelte Form von einem Base Tile mit 6x GCDs sieht eigentlich noch recht clean aus und EFB könnte noch reichen (siehe Bild unten). Und vom Prinzip her macht es wenig aus, ob nun 4x oder 6x GCDs zusammengeschaltet werden. Zwei Nachteile entstehen hier aber:

GDDR6 PHY sind weit vom L2$ entfernt. Da die Bandbreite verglichen mit all den anderen internen Datenbussen aber relativ gering ist, könnte man es evtl. trotzdem so machen
2x Die-Wechsel anstatt 1x, wenn man aufs MCD zugreifen will. Diesen Nachteil kann man aber abschwächen: 3D-SoIC fürs MCD-Stacking verwenden

https://abload.de/thumb/n4x_n5x_conceptilk1h.png (https://abload.de/image.php?img=n4x_n5x_conceptilk1h.png)

Nightspider

2022-04-11, 13:46:53

7 Chips klingt irgendwie sehr sehr teuer.

Das alles abzuschleifen und zu stacken wird nicht billig.

basix

2022-04-11, 13:59:32

Wieso abschleifen? Muss man mit EFB nicht. Und die MCDs kann man nebeneinander legen und müssen nicht 3D-Stacked werden.
- MCDs liegen nebeneinander und unter den GCDs
- Dito Command/IOD

HOT

2022-04-11, 14:13:53

7 Chips klingt irgendwie sehr sehr teuer.

Das alles abzuschleifen und zu stacken wird nicht billig.

Das Packaging ist teurer. Die Chips sind ja recht klein, das wird insgesamt zwar mehr Silizium sein, kumiliert vielleicht 900mm², aber die Chips sind a.) nicht alle N5 und b.) vielleicht maximal 250mm² groß. Ein 600mm² ist sicherlich teurer als das gesamte Konstrukt.

davidzo

2022-04-11, 14:53:04

Wieso abschleifen? Muss man mit EFB nicht. Und die MCDs kann man nebeneinander legen und müssen nicht 3D-Stacked werden.
- MCDs liegen nebeneinander und unter den GCDs
- Dito Command/IOD

Jede Art von Interposer wird abgeschliffen, auch die Bridges bei EFB, Emib, 2,5D etc.
Ein 300mm Wafer ist 0,775mm dick, ein Interposer aber nur 30~100µm. Sonst müssten die Coppar Pillars ja 0.7mm hoch sein, bei dem pitch ziemlich unmöglich. Interposer werden für Die bonding last hergestellt (man will ja nur auf known-good interposer teure DIEs aufkleben) und das heißt RDL-first, dann Umdrehen+ carrier Bonding, silicon removing, contact pad opening, micro pad plating. Dann muss der carrier wieder entfernt werden (Debonding) für das eigentliche Die Bonding und overmoulding.
Einige Prozesschritte sind da vor dem Die bonding schon ähnlich zum normalen Flipchip Prozess, dabei ist das erst die Bearbeitung der Bridges und noch kein ganzes Packaging.
Man muss also schon sagen dass EFB einfach ein Vielfaches des Aufwands bedarf wie normales Flipchip Packaging.

basix

2022-04-11, 18:48:04

Das mit den Copper Pillars stimmt natürlich. Gibt es hierzu nicht auch dünnere Wafer?

Klar, EFB ist deutlich aufwändiger als normales Flip Chip. Verglichen mit Interposer, Foveros oder EMIB sollte der Aufwand aber geringer sein. Und was wäre die Alternative? Normales MCM über das Substrat? Das geht mit vielen Die einfach nicht gut (topologisch gesehen).

Aber evtl. folgender Vorschlag (siehe Bild im Anhang):
- Kein IOD/Command Die: Master/Slave GCDs
- MCDs werden seitlich von den GCDs angebracht
- Bei den freiliegenden Seiten der GCDs befinden sich die GDDR-Interfaces
- Verbindungen zwischen GCD und MCD via UCIe übers Package: "Standard Package" soll immerhin 0.5pJ/bit schaffen (https://www.tomshardware.com/news/new-ucie-chiplet-standard-supported-by-intel-amd-and-arm)

Vorteile:
- Keine Interposer, Si-Bridges und EFB benötigt --> So günstig wie es für MCM GPUs nur geht
- Keine Kühlungsnachteile aufgrund 2.5D/3D Stacking
- L2$ & Command Datenpfade müssen nicht übers MCD gerouted werden

Nachteile:
- GDDR Interface vs. MCD ist verglichen zu N21 etwas suboptimal angeordet
- Eine andere 2x GCD Topologie geht nicht sinnvoll. Für die erste Generation Chiplet GPUs aber wohl gangbar. Und evtl. ein Grund, wieso es N31/N32 in der spekulierten Form gibt. RDNA4 ist dann evtl. "more advanced"
- Vermutlich erhöhter Stromverbrauch vs. EFB. Zumindest für die Datenübertragung, bezüglich Power Delivery (Verluste) ist direkt auf dem Package vermutlich besser. 4 TByte/s @ 0.5pJ/bit = 16W.

Im grossen und ganzen sieht das wie N21 aus. Ausser das GDDR-SI verglichen zum Infinity Cache anders angeordnet ist.

OgrEGT

2022-04-11, 19:02:57

Das mit den Copper Pillars stimmt natürlich. Gibt es hierzu nicht auch dünnere Wafer?

Klar, EFB ist deutlich aufwändiger als normales Flip Chip. Verglichen mit Interposer, Foveros oder EMIB sollte der Aufwand aber geringer sein. Und was wäre die Alternative? Normales MCM über das Substrat? Das geht mit vielen Die einfach nicht gut (topologisch gesehen).

Aber evtl. folgender Vorschlag (siehe Bild im Anhang):
- Kein IOD/Command Die: Master/Slave GCDs
- MCDs werden seitlich von den GCDs angebracht
- Bei den freiliegenden Seiten der GCDs befinden sich die GDDR-Interfaces
- Verbindungen zwischen GCD und MCD via UCIe übers Package: "Standard Package" soll immerhin 0.5pJ/bit schaffen (https://www.tomshardware.com/news/new-ucie-chiplet-standard-supported-by-intel-amd-and-arm)

Vorteile:
- Keine Interposer, Si-Bridges und EFB benötigt --> So günstig wie es für MCM GPUs nur geht
- Keine Kühlungsnachteile aufgrund 2.5D/3D Stacking
- L2$ & Command Datenpfade müssen nicht übers MCD gerouted werden

Nachteile:
- GDDR Interface vs. MCD ist verglichen zu N21 etwas suboptimal angeordet
- Eine andere 2x GCD Topologie geht nicht sinnvoll. Für die erste Generation Chiplet GPUs aber wohl gangbar. Und evtl. ein Grund, wieso es N31/N32 in der spekulierten Form gibt. RDNA4 ist dann evtl. "more advanced"
- Vermutlich erhöhter Stromverbrauch vs. EFB. Zumindest für die Datenübertragung, bezüglich Power Delivery (Verluste) ist direkt auf dem Package vermutlich besser. 4 TByte/s @ 0.5pJ/bit = 16W.

Im grossen und ganzen sieht das wie N21 aus. Ausser das GDDR-SI verglichen zum Infinity Cache anders angeordnet ist.

Ich finde das sieht sehr schlüssig aus... man bringt erst die "günstigeren" MCDs auf das Substrat und dann die "teuren" GCDs und den IOD oben darauf so dass alle über die MCDs also IF$ und somit auch alle L2$ miteinander verbunden sind... wenn das funktioniert dann lässt sich das noch weiter slalieren...

Der_Korken

2022-04-11, 19:03:56

Was mich ein wenig stört an den Skizzen ist, dass VRAM-PHYs und LLC quer über alle GCDs verteilt sind. Der Datenfluss läuft ja erstmal innerhalb der GCDs (dort sind die Wege am kürzesten und somit am effizientesten), aber danach gehen die Zugriffe erst in den Cache und danach in den VRAM. Das heißt, man will doch eigentlich Cache und IMC in der Mitte der GPU haben, um die Datenwege zu minimieren. Wenn ich den Cache über alle GCDs verteile, dann müssen ja ohnehin wieder alle GCDs miteinander kommunizieren, sprich ich habe hohe Transfers quer über die GPU verteilt. Bei Zen 2 war ja eine der großen Gewinne, dass IMC+PHYs alle im zentralen IOD sind und die Zugriffe nicht mehr wie bei Zen 1 über andere Core-Dies geschleift werden müssen. Dafür kann man so Kram wie Video und PCIe irgendwo an den Rand verfrachten, denn die verursachen kaum Traffic (in Relation zum Rest natürlich).

unl34shed

2022-04-11, 19:11:47

@basix: Wieso hast du die Annahme, dass das der Memory Controller im GCD sitzen soll? Und in den MCDs dann der IF$?

Logischer wäre doch, IF$ und Memroy Controller im MCD zu haben, da so die "lokalen" Daten im GCD nicht erst wieder extern in den MCD/IF$ geschoben werden müssen, bevor sie dann wieder vom GCD gelesen werden. -> halbe Bandbreite auf dem energetisch teuren Chiplet Interconnect.

Würde auch deutlich mehr Sinn ergeben anhand dem RDNA2 Aufbau. Die GCDs haben dann ihren L2$ um Daten Lokal zu halten.

IOD dann vertikal zwischen beiden GCDs, bzw. bei N32 fehlt einfach eines der GCDs inkl. MCDs. Ggf. als 2.5D Stack und als active EFB, so warm sollte der denke ich nicht werden.

OgrEGT

2022-04-11, 19:12:31

Was mich ein wenig stört an den Skizzen ist, dass VRAM-PHYs und LLC quer über alle GCDs verteilt sind. Der Datenfluss läuft ja erstmal innerhalb der GCDs (dort sind die Wege am kürzesten und somit am effizientesten), aber danach gehen die Zugriffe erst in den Cache und danach in den VRAM. Das heißt, man will doch eigentlich Cache und IMC in der Mitte der GPU haben, um die Datenwege zu minimieren. Wenn ich den Cache über alle GCDs verteile, dann müssen ja ohnehin wieder alle GCDs miteinander kommunizieren, sprich ich habe hohe Transfers quer über die GPU verteilt. Bei Zen 2 war ja eine der großen Gewinne, dass IMC+PHYs alle im zentralen IOD sind und die Zugriffe nicht mehr wie bei Zen 1 über andere Core-Dies geschleift werden müssen. Dafür kann man so Kram wie Video und PCIe irgendwo an den Rand verfrachten, denn die verursachen kaum Traffic (in Relation zum Rest natürlich).

Ich vermute die GCDs haben nur wenig $... gerade soviel wie für die Überlappung und somit Verbindung zu den MCDs notwendig ist... ggf nur 32MB?

Der_Korken

2022-04-11, 19:16:42

Wieso hast du die Annahme, dass das der Memory Controller im GCD sitzen soll? Und in den MCDs dann der IF$?

Logischer wäre doch, IF$ und Memroy Controller im MCD zu haben, da so die "lokalen" Daten im GCD nicht erst wieder extern in den MCD/IF$ geschoben werden müssen, bevor sie dann wieder vom GCD gelesen werden. -> halbe Bandbreite auf dem energetisch teuren Chiplet Interconnect.

Würde auch deutlich mehr Sinn ergeben anhand dem RDNA2 Aufbau. Die GCDs haben dann ihren L2$ um Daten Lokal zu halten.

IOD dann vertikal zwischen beiden GCDs, bzw. bei N32 fehlt einfach eines der GCDs inkl. MCDs. Ggf. als 2.5D Stack und als active EFB, so warm sollte der denke ich nicht werden.

Sorry, ich habe vergessen zu schreiben, dass ich mich auf die Skizzen von basix beziehe. Dort sind die PHYs für den VRAM über die GCDs verteilt, so wie bei der ersten Epyc-Gen (nur halt mit Command Die in der Mitte und gestackten Cache). Das mag bei zwei GCDs noch gangbar sein, aber in dem Bild mit 4 oder 6 GCDs sieht das für mich sehr teuer aus was Datenleitungen angeht.

unl34shed

2022-04-11, 19:17:37

Mein Post hat sich eigentlich auf basix skizzen bezogen, da waren nur welche schneller :)

E: Wenn ich Navi21 zerteilen würde, wäre mein Cut zwischen L2$ und IF$. Eigentlich sogar zwischen IF$ und MC, aber da wird der Die am Ende viel zu klein sein, deswegen inkl. IF$

basix

2022-04-11, 21:20:28

Was mich ein wenig stört an den Skizzen ist, dass VRAM-PHYs und LLC quer über alle GCDs verteilt sind. Der Datenfluss läuft ja erstmal innerhalb der GCDs (dort sind die Wege am kürzesten und somit am effizientesten), aber danach gehen die Zugriffe erst in den Cache und danach in den VRAM. Das heißt, man will doch eigentlich Cache und IMC in der Mitte der GPU haben, um die Datenwege zu minimieren. Wenn ich den Cache über alle GCDs verteile, dann müssen ja ohnehin wieder alle GCDs miteinander kommunizieren, sprich ich habe hohe Transfers quer über die GPU verteilt. Bei Zen 2 war ja eine der großen Gewinne, dass IMC+PHYs alle im zentralen IOD sind und die Zugriffe nicht mehr wie bei Zen 1 über andere Core-Dies geschleift werden müssen. Dafür kann man so Kram wie Video und PCIe irgendwo an den Rand verfrachten, denn die verursachen kaum Traffic (in Relation zum Rest natürlich).
@basix: Wieso hast du die Annahme, dass das der Memory Controller im GCD sitzen soll? Und in den MCDs dann der IF$?

Logischer wäre doch, IF$ und Memroy Controller im MCD zu haben, da so die "lokalen" Daten im GCD nicht erst wieder extern in den MCD/IF$ geschoben werden müssen, bevor sie dann wieder vom GCD gelesen werden. -> halbe Bandbreite auf dem energetisch teuren Chiplet Interconnect.

Ich stimme euch vollkommen zu, dass das Zeugs möglichst nahe beieinander sein sollte. Die Frage ist, wie ordnet man das sinnvoll an? Wie skaliert man es? Aber wie immer wenn man sich (zu) viele Überlegungen macht: Umso einfacher, desto wahrscheinlicher wird es. Folgend die wohl einfachste Lösung: Man schneidet einfach N21 an den richtigen Orten durch und man erhält automatisch was, was N31/N32 entsprechen könnte (siehe Bild unten). Und das wäre unter Umständen noch normales MCM ohne EFB, Interposer usw. sondern allenfalls via UCIe (Standard Package Version).

Was hier Fragen aufwirft:

N32 ebenfalls mit 4x MCDs? Auf 192bit SI salvaged?
Doppelte Infinity Cache & L2$ Bandbreiten verglichen zu N21 sind wohl nicht übertrieben. Macht 4 TByte/s und 8 TByte/s. Bei letzterem muss man schauen, dass man nicht allzuoft auf den L2$ des anderen GCD gehen muss, sonst sind das schnell mal ~50W für den Datentransfer zwischen allen Chiplets nur für die Inerconnects (Annahme 0.5pJ/bit). Das mit dem L2$ ist aber bei allen Chiplet-Aufbauten ein Thema.

E: Wenn ich Navi21 zerteilen würde, wäre mein Cut zwischen L2$ und IF$. Eigentlich sogar zwischen IF$ und MC, aber da wird der Die am Ende viel zu klein sein, deswegen inkl. IF$
Siehe Bild unten :)

Edit:
Prinzipiell kann man das auch mit einem zentralen Command/IOD ausführen. Nachteil ist dann aber, dass die Distanz zwischen den GCDs grösser wird und man einen zusätzlichen Si-Substrat Übergang für die Kommunikation untereinander hat. Beides nachteilig bezüglich Stromverbrauch. Oder man macht es wie HOT im nachfolgenden Post erwähnt via "EMIB" mässigen Die im Substrat (was dann teurer ist). Vom generellen Aufbau wäre es mit einem zentralen Command/IOD ausserdem auch nicht mehr weit, das GCD nochmals zu halbieren und 4x GCDs daraus zu machen (RDNA4?).

Anyways, all die Chiplet Ausführungen gehen in die Richtung, dass man datenmässig auf seinem Chiplet bleiben will und möglichst wenig off-chip gehen muss. Egal ob 2x oder 4x GCDs. Prinzipiell hat man genau das gleiche Ziel aber schon heute mit monolithischen Die: Datenlokalität. Der Penalty, seinen "Quadranten" zu verlassen, ist mit Chiplets einfach deutlich höher.

HOT

2022-04-11, 22:50:16

Damit kommen wir der Wahrheit denke ich ein gutes Stück näher, das Schaubild ist super.
Ich könnt mir vorstellen, dass das 7. Die in den Träger eingelassen wird und alles miteinander verbindet.

Es ergibt keinerlei Sinn, dass die mem-Ctrl. in den 5nm-Dies engebettet werden.

basix

2022-04-11, 23:31:57

Ich könnt mir vorstellen, dass das 7. Die in den Träger eingelassen wird und alles miteinander verbindet.

Kann sein, wäre sowas ähnliches wie EMIB. Macht das Package dann aber wieder teurer.

HOT

2022-04-11, 23:34:15

Na ja, irgendenen Tod muss man ja sterben. Entweder Interposer oder TSMCs EMIB-Alternative, eines von beidem muss es sein. MCM wird nicht funktionieren bei der Masse an Verbindungen.

basix

2022-04-11, 23:45:46

Zumindest hat man keine Kühlungsprobleme (auch wenn sich Matrix-Cores in den MCDs befinden) und Abschleifen der Die fällt für fast alles weg.

So viele Verbindungen zwischen den einzelnen L2$-Blocken sowie Command zu den Shader Engines sind es eigentlich gar nicht, wenn man es mit Intra-Shader-Engine vergleicht. Aber schon bei Navi 10 sind es total 12'288 bit hinsichtlich East-West Traffic. Selbst wenn man das noch etwas entschlackt, würde vermutlich noch 8192bit übrig bleiben. Da würde sich was EMIB mässiges zwischen den GCD vermutlich anbieten, das stimmt.

Aber:
Alle 4x MCD zusammengenommen wären ebenfalls im Bereich 4096-8192bit. Unmöglich wäre eine rein Substrat-Basierte Lösung mMn nicht. Bei den MCD hat man allerdings den Vorteil, dass die Bandwidth-Shoreline deutlich breiter sein kann (bit/s pro mm Chip-Kante), man hat einfach mehr Chip-Kantenlänge Platz fürs Interface.

HOT

2022-04-12, 00:01:53

Jetzt treib ichs mal ganz bunt: was wäre denn wenn das 7. Die kein einfaches Verbidungsdie ist sondern der Commandprozessor oder gleich grosse Tejle des Frontends und nur die Shader selbst N5 sind?

basix

2022-04-12, 00:43:12

Naja, deswegen steht dort auch "Command" in meinen Schaubildern ;)

Nicht nur der Command Processor sondern auch Geometry Engine und ACEs könnten dort hingehören. Viel Chipfläche ist das prinzipiell nicht, wenn man dem N21 Blockdiagramm und Die Shot glauben darf.
Zudem auch die restlichen IO Sachen wie PCIe, Display und Video Engine. Hätte man all dieses IO Zeugs auf den GCDs, wäre das irgendwie gesplitted und/oder je nach dem redundant vorhanden.
Genau aus diese Gründen macht ein zentrales "Steuerungs-Die" ja auch Sinn.

An andere Teile des "Frontends" glaube ich nicht. Die Shader Engines sowie L2$ sollten schon komplett auf den GCDs liegen. Aber eben auch nicht mehr.
- Alles was schlecht skaliert (GDDR + SRAM) auf den MCDs
- Alles was gut skaliert und Performance/Effizienz-Kritisch ist aufs GCD
- Alles was nur 1x pro GPU vorhanden sein muss und nicht allzuviel Chipfläche benötigt aufs Control/IOD

unl34shed

2022-04-12, 01:50:15

IOD als Interconnect will mir noch nicht so recht gefallen. Zum einen müsste es je eine aktive Verbindung pro GCD sein, was den Stromverbraucht hoch treibt (doppelt so viele Phys) zum anderen ist in der Mitte denke ich recht wenig Platz für ein Fan-out der Signale. Prinzipell wäre er an der Seite besser augehoben, nur mit einem GDC verbunden und die GCDs dann direkt verbunden. In wieweit das sinnvoll ist, weiß ich aber nicht.

Ja bei Ryzen sitzt der IOD auch zentral, aber da ist auch deutlich mehr Platz zwischen den Chiplets für das Fan-out

HOT

2022-04-12, 06:50:11

TSVs würden quasi nichts kosten.

basix

2022-04-12, 08:21:19

IOD als Interconnect will mir noch nicht so recht gefallen. Zum einen müsste es je eine aktive Verbindung pro GCD sein, was den Stromverbraucht hoch treibt (doppelt so viele Phys) zum anderen ist in der Mitte denke ich recht wenig Platz für ein Fan-out der Signale. Prinzipell wäre er an der Seite besser augehoben, nur mit einem GDC verbunden und die GCDs dann direkt verbunden. In wieweit das sinnvoll ist, weiß ich aber nicht.

Ja bei Ryzen sitzt der IOD auch zentral, aber da ist auch deutlich mehr Platz zwischen den Chiplets für das Fan-out

Ich vermute, man wird den Traffic zwischen den GCDs geringer machen, als er bei einem monolithischen Die wäre. Macht einfach Sinn. Ergbit zwar eine Asymmetrie, die hat man aber gewisserweise schon bei monolithischen Die zwischen East-West. Bei MCM einfach etwas stärker ausgeprägt.

Beispiel:
1.) GCD L2$ = 4 TByte/s (on-chip, sagen wir mal 0.05pJ/bit); 2x MCD = 2 TByte/s (0.5pJ/bit); GCD to Command = 1-2 TByte/s (ca. 0.15pJ/bit da ~Foveros)
2.) GCD #1 zu GCD #2 nur die Hälfte von obigem: Total ~4 TByte/s bei 0.25pJ/bit

Zusammengerechnet:
- 2x 1.) ergibt (1.6W + 8W + 2.4W) * 2 = 24W
- 2.) ergibt 8W
- Total 32W für den Interconnect zwichen GCDs, MCDs und Command/IO
- Selbst 100% Bandbreite für 2.) wäre noch OK, dann wären es total 40W. Die Frage ist, wie bringt man so viele Pins & Connections auf den Die unter, damit man so hohe Bandbreiten erreichen kan.

Zum Fanout der Signale:
Welche meinst du? PCIe und Display?

unl34shed

2022-04-12, 12:04:03

Ja mit fan-out meine ich PCIe, Display, SPI für das BIOS/Firmware, Board Management wie PMIC Control, etc. Das müsste ja alles vom IOD kommen und für das Routing/PCB Design wäre es besser, wenn er seitlich des MCMs angebracht ist als irgendwo zentral unter den Dies.

Wenn es wirklich nur darum geht mit dem command processor die ACEs mit Daten zu versorgen und Bilder auszugeben, sollten 32 GB/s zwischen IOD und GCD locker reichen, denke ich.

amdfanuwe

2022-04-12, 12:24:32

Mir geht folgendes Bild nicht aus dem Kopf:
4er Stack MCD auf I/O der als Bridge zwischen den GCDs liegt.
79015

Vielleicht reicht aber auch schon eine Verbindung über das Substrat bzw. mit LSI Bridges.
79017

Leonidas

2022-04-13, 04:59:25

Ich habe versucht, anhand einiger Gerüchte den Aufbau von RDNA3 (und RDNA4) zu bestimmen.

basix' Arbeit dringt bis nach Fernost:
https://northwood.blog.fc2.com/blog-entry-11325.html

basix

2022-04-13, 08:18:27

:D

Mal schauen, wie es dann am Schluss effektiv umgesetzt wird. Bislang war es eigentlich immer so, dass wir von etwas überascht wurden, was im Nachhinein dann sehr logisch war (siehe Cache-Erweiterungen von Zens CCD, wo niemand von uns auf die Idee kam, das oben auf den bestehenden Cache zu stapeln)

amdfanuwe

2022-04-13, 14:06:19

Und was hat man bei ZEN 2 gerätselt, wie das mit den Chiplets funktionieren soll.

Lehdro

2022-04-13, 16:35:55

basix' Arbeit dringt bis nach Fernost:
https://northwood.blog.fc2.com/blog-entry-11325.html
Wieviel Tage geben wir dem Zyklus bis von westlichen Webseiten die "neuen Gerüchte" zum Aufbau von RDNA3 bei uns wieder ankommen?

Dann sieht man wieder mal das eben alles ein Kreislauf ist. :freak:

basix

2022-04-15, 14:44:25

Im B3D Forum kam eine interessante MCD Konstruktion auf:
https://forum.beyond3d.com/threads/amd-rdna-3-speculation-rumours-and-discussion.62092/page-57#post-2249280
https://github.com/JawedAshraf/B3D/raw/master/b3da047.png
Das interessante daran ist, dass damit auch Single GCD mit MCD gestacked werden können, ohne dass die MCDs das GCD überlappen.

Prinzipiell geht das dann auch mit 4x GCD anstatt nur 2x GCD :)

Edit:
Noch eine Erweiterung unserer vorhergehenden Gedanken zum Chiplet Ansatz. So wie gezeigt, könnte N31/32 mit Substrat only, InFO_LSI oder EFB an den Start gehen.
Letztere zwei mit Si-Brücken (Vorteil: MCDs müssen nicht abgeschliffen werden). Das würde grundsätzlich dann sehr ähnlich wie MI200 aussehen. Anstatt HBM2e Packages sitzen seitlich von den GCDs dann halt MCDs: https://www.computerbase.de/2021-11/amd-instinct-mi200-multi-chip-gpus-mit-bis-zu-47.8-tflops-128-gb-und-560-w/

Einziger Nachteil dabei ist, dass man immer 4x MCDs verwenden muss. Eine Reduktion auf 3x MCDs würde eine starke Asymmetrie ins Design bringen. Prinzipiell könnte man die 64bit SI je MCD auf 48bit salvagen. GDDR6 besteht eigentlich aus unabhängigen 16bit Kanälen. Das verlangt dann aber, dass 1x GDDR6 Baustein von zwei verschiedenen MCDs aus angesprochen wird. Ob das technisch möglich ist weiss ich nicht.

Neurosphere

2022-04-18, 10:14:57

Yes, navi3 will use 3D stacking.

https://twitter.com/greymon55/status/1515586908747083779

Kann man da am Beispiel vom 5800X3D vermuten das es sich um den Infiniy-Cache handeln wird oder evtl. mehr?

Was ich mich dann auch Frage, bekommt AMD noch mehr Probs mit den Temps als beim Zen3 Derivat? Das dürfte zumindest für hohe Taktraten Problematisch sein.

Oder würde es evtl sogar Sin machen den Inf-Cache in zwei Cache-Hierarchien zu unterteilen und zB. einen Teil gestacked als L4 übers IO zu legen oder komplett in einen eigene Chip auszulagern der dann gestapelt ist und den Inf so aus den MCDs zu nehmen?

fondness

2022-04-18, 10:49:01

Könnte man bei N31 eigentlich dasselbe Cache-die wie bei Zen3 nehmen? :D Für 256 MB viermal stacken, für 192/128MB bei den Salvage-Designs eben nur zwei/dreimal.

robbitop

2022-04-18, 11:40:08

Im neuen RGT Video gab es ein paar interessante Dinge.
Pro WGP nun 256 fps. Und was wo gestackt wird wurde auch erzählt.

unl34shed

2022-04-18, 14:47:05

Und was wo gestackt wird wurde auch erzählt.

Aber es macht irgendwie wenig sinn.
- MCD auf den GCD (thermisch ungünstig)
- MCD hat den GDDR6 Phy inkludiert (Signale müssen nochmal durch den GCD)
-> Es macht mehr Sinn, wenn die MCDs (teilweise?) unter dem GCD sitzen und man sich so die SI Brdige spart.

IOD als Interconnect zwischen den GCDs will mit aber noch nicht so recht gefallen.

amdfanuwe

2022-04-18, 14:58:44

IOD als Interconnect zwischen den GCDs will mit aber noch nicht so recht gefallen.
Warum nicht? Anstatt einer dummen SI-Bridge kann man doch gleich den I/O nehmen.

robbitop

2022-04-18, 15:11:12

Ich habe das Video nur kurz überflogen aber so verstanden:

von unten nach oben: IOD/MCD/GCD

Linmoum

2022-04-18, 15:44:14

Meinst du das aktuelle Video? Ich hab mir den RDNA3-Part davon jetzt mal angeschaut, aber zum Stacking konkret nichts weiter gehört.

Nur, dass es laut seiner Quelle(n) mehr als 10 Chiplets bzw. sogar bis zu 18 Chiplets (inkl. GCDs) sein könnten (16/32 MByte each MCD) und von der Die Size her "considerably smaller" als der V-Cache von Zen. Allerdings von seiner Seite aus noch unter Vorbehalt.

Ansonsten wenig Neues. 75 TFLOPs/150 TFLOPs für N31 (FP32/FP16, also 3x N21) und Target von AMD bzgl. Verbrauch liegt bei 375W (hatte er iirc schon in einem früheren Video mal angesprochen). Customs können natürlich höher gehen.

Neurosphere

2022-04-18, 16:23:26

Habs mir auch grad angesehen und er nimmt halt Greymons Aussage und dichtet was dazu. Keine Ahnung wie gut seine eigenen Quellen disbezüglich sind.

Zum IC sagt er entweder 256 oder 512MB. Wobei beim CCD von Zen 3 64MB auf die 84mm² des Chiplets kommen. Die Frage ist ob es Sinn macht das ganze zu Stacken wenn man nicht vor hat das ganze auch massiv zu vergrößern. Es sollte also locker möglich sein bei einem Die mit ca. 200-300mm² auch 256MB unter zu bekommen. Im maximalausbau sollten 512MB also drin sein, mehr dürfte bei der Hitrate in 4K auch nicht mehr wirklich Sinn machen.

mboeller

2022-04-18, 16:26:41

Nur, dass es laut seiner Quelle(n) mehr als 10 Chiplets bzw. sogar bis zu 18 Chiplets (inkl. GCDs) sein könnten (16/32 MByte each MCD) und von der Die Size her "considerably smaller" als der V-Cache von Zen. Allerdings von seiner Seite aus noch unter Vorbehalt.

das waren angeblich seine alten Infos, die er jetzt aber revidiert hat. Jetzt geht er von 4 großen MCD aus und nicht mehr von 16 kleinen MCD, also analog zu dem was Greymon55 gepostet hat.

ich denke der Kern seiner Aussagen ist, dass MCD und GCD per TSV miteinander gekoppelt sind. Es macht aber keinen Sinn, dass die MCD auf den GCD sind, da die MCD auch jeweils ein 64bit GDDR6 Interface haben soll. Wie sollte man die Daten vom Speicher zum MCD bekommen, wenn die MCD auf den GCD sind?

Linmoum

2022-04-18, 16:35:25

Ja, vergiss was ich geschrieben hatte. Das Video was ich geguckt hatte war noch ein altes. Wurde direkt als erstes auf der Startseite seines Kanals bei mir angezeigt, daher dachte ich auch, es wäre das aktuellste... :freak:

mboeller

2022-04-18, 16:39:31

Zum IC sagt er entweder 256 oder 512MB. Wobei beim CCD von Zen 3 64MB auf die 84mm² des Chiplets kommen. Die Frage ist ob es Sinn macht das ganze zu Stacken wenn man nicht vor hat das ganze auch massiv zu vergrößern. Es sollte also locker möglich sein bei einem Die mit ca. 200-300mm² auch 256MB unter zu bekommen. Im maximalausbau sollten 512MB also drin sein, mehr dürfte bei der Hitrate in 4K auch nicht mehr wirklich Sinn machen.

die 64MB V-Cache sind beim ZEN3 aber nur ca. 35-36mm² groß (ausgemessen, da ich auf die schnelle keine Quelle finden konnte). 128MB auf einem MCD sind also "nur" ca. 70mm² groß. Jedes MCD dürfte dann incl. 64bit GDDR6 Interface etc... geschätzt 100-120mm² sein. 1 64bit GDDR6-Interface ist beim N21 ca. 10mm² wenn ich mich nicht verrechnet habe. Davon dann 4 MCD im Top SKU.

basix

2022-04-18, 16:53:55

Wie sollte man die Daten vom Speicher zum MCD bekommen, wenn die MCD auf den GCD sind?

Ganz einfach: MCD überlappt GCD. Mit Cu Pillars geht das dann direkt zum Substrat.

Finde sowas aber wenig elegant. Was ist der Vorteil davon? Sehe ihn gegenüber anderen Lösungen gerade nicht.

amdfanuwe

2022-04-18, 17:01:55

Ich hab die Nacht etwas über die Chipletgrößen gegrübelt.
Aus dem Die-Shoot zu N22, 335mm², 7nm, 2560 Shader
hier entnommen, 2tes Bild: https://www.reddit.com/r/Amd/comments/r25ew2/rdna2_navi_22_annotation_from_fritzchensfritz_and/
komme ich auf 85mm² für die 2560 Shader.
Inklusive L2, Geometrie, GCP, HWS etc. ca. 140mm².

Für RDNA 3 werden die Shader in einer WGP verdoppelt.
Wären wir bei ~230 mm² für eine GCD in 7nm.
In 5nm soll sich die Dichte verdoppeln, der Platzbedarf also halbieren:

GCD N 32 5nm 2*10 WGP, 5120 Shader ~ 110 - 150 mm²
Für GCD N31 50% mehr, also ~165 - 225 mm²

ZEN 3D Cache Chiplet ist 41mm² mit 64MB.
Ein 128MB Cache Chiplet 6nm dürfte bei 80mm² liegen.
Der I/O bei 130mm².

Nur als Hausnummern um mal eine Größenvorstellung zu bekommen.
AMD hat da noch viel Platz für Dark Silicon und könnte die GCDs größer anlegen um Hotspots zu vermeiden und um dadurch im Takt hochgehen zu können.
Mit 512 MB Cache käme hier der N31 schon auf über 800mm². Das bringt man monolithisch nicht mehr unter.

amdfanuwe

2022-04-18, 17:08:52

die 64MB V-Cache sind beim ZEN3 aber nur ca. 35-36mm² groß
41 mm², Bild 3 im Foliensatz.
https://www.computerbase.de/2022-04/amd-ryzen-7-5800x3d-test/

mboeller

2022-04-18, 19:45:14

41 mm², Bild 3 im Foliensatz.
https://www.computerbase.de/2022-04/amd-ryzen-7-5800x3d-test/

Danke!

Hab auf die schnelle keine Angaben gefunden und einfach den ZEN3 die Shot und da den Cache als Basis genommen.

Linmoum

2022-04-19, 20:08:41

33→31→32
The next generation of new products are basically concentrated in September, very exciting.
I mean the announcement, of course the launch usually comes a week or a month after the announcement, so it doesn't take too long.
Of course, Navi3 started testing two months ago, and At this pace, September makes perfect sense.
https://twitter.com/greymon55

Seit Februar im Testlabor dürfte dann tatsächlich womöglich ein gutes Stück vor Jahresende werden.

iamthebear

2022-04-19, 23:17:02

Ich hab die Nacht etwas über die Chipletgrößen gegrübelt.
Aus dem Die-Shoot zu N22, 335mm², 7nm, 2560 Shader
hier entnommen, 2tes Bild: https://www.reddit.com/r/Amd/comments/r25ew2/rdna2_navi_22_annotation_from_fritzchensfritz_and/
komme ich auf 85mm² für die 2560 Shader.
Inklusive L2, Geometrie, GCP, HWS etc. ca. 140mm².

Für RDNA 3 werden die Shader in einer WGP verdoppelt.
Wären wir bei ~230 mm² für eine GCD in 7nm.

Also ich bin etwas skeptisch, dass man die Größen von RDNA2 1:1 auf RDNA3 übertragen kann. Damit deine Rechnung stimmt müsste AMD bei Navi33 im Vergleich zu Navi21 folgendes erreicht haben, um dieselbe Performance wie die 6900XT zu erreichen:
.) 3GHz statt 2.4GHz Takt (+25%)
.) 100% Skalierung mit den zusätzlichen FP32 Einheiten pro WGP
.) Stark verbesserte RT Performance
.) Das Ganze mit halbierter Speicherbandbreite ohne den Infinity Cache zu vergrößern
.) Nur ca. 75% der Leistungsaufnahme
.) Mit fast derselben Fertigung (N6 vs. N7P bringt glaube ich nur -10% Power ODER 5% Performance mit knapp 20% Desity bei Logic)

Ich wäre schon echt überrascht wenn dies ohne zusätzlichen Transistoreinsatz gehen würde.

In 5nm soll sich die Dichte verdoppeln, der Platzbedarf also halbieren:

Logic shrinked um 1.8x, SRAM und analoge Teile deutlich weniger und das ist eher der Idealfall. Ich würde eher von 1.6x ausgehen.[/quote]

GCD N 32 5nm 2*10 WGP, 5120 Shader ~ 110 - 150 mm²
Für GCD N31 50% mehr, also ~165 - 225 mm²

ZEN 3D Cache Chiplet ist 41mm² mit 64MB.
Ein 128MB Cache Chiplet 6nm dürfte bei 80mm² liegen.
Der I/O bei 130mm².

Das halte für deutlich zu optimistisch.

Navi33 kommt ca. auf 400mm² mit 16WGP und 128MB Cache in N6. Das dürfte sich ca. zusammensetzen aus:
.) 80mm² IC
.) 20mm² Speicherinterface
.) 120mm² IO bzw. nicht skalierender Teil
.) 180mm² mit den 16 WGP skalierender Teil bzw. 11.25mm²/WGP in N6

In N7P mit 20WGP:
20*13.5 = 270 mm² pro Navi32 GCD

In N5(P):
20*8.5 = 170mm² pro Navi32 GCD bzw. 255mm² pro Navi31 GCD.

Navi31 gesamt:
2x255 = 510mm² in N5(P)
2x20 (SI) + 120 (IO) + 4x40 (256MB IC) = 320mm²
Gesamt: 830mm2

Mit 512MB IC wären es um die 1000mm², was ich jedoch mittlerweile für unrealistisch halte. Wenn 192Bit/192MB bei Navi32 funktionieren, dann klappen auch 256Bit/256MB bei Navi31.

Die ganze Rechnung basiert auf der Annahme, dass Navi33 und 31/32 von der Architektur annähernd gleich sind und das bisherige Leaks korrekt sind.

HOT

2022-04-19, 23:22:47

Nicht halbierte Bandbreite, der kann ja auch mit 24GT/s-GDDR6 kommen.

basix

2022-04-20, 01:05:46

512MByte Cache für N31 halte ich schon seit jeher für zu viel. Das Ding würde zu 1/3 der Fläche aus Cache bestehen, auch mit MCDs. 256 MByte bringen bei 4K ~3...4x Bandbreitenmultiplikator. Bei 16-21 GT/s sind das 1.5...2.6 TByte/s effektive Bandbreite. Eine RTX 3070 steht bei 448 GByte/s. N31 wird anhand der Leistungsdaten ca. 4x schneller als eine RTX 3070 sein. 4x 448 = 1.8 TByte/s. Passt doch in etwa. Wieso also nochmals doppelt so viel Cache verbauen?

N33 könnte sogar nur mit 64MByte kommen. Bei 1440p erreich 64MByte in etwa 2...2.4x Bandbreitenmultiplikator. Wiederum mit 16...21 GT/s und wir landen bei 500...800 GByte pro Sekunde. Letzteres entspricht 800 / 448 = 1.78x RTX 3070. Sollte also auch reichen für 6900 XT Performance.

Vermutlich ist es ja 18 GT/s Speicher für alle GPUs. Und nehmen wir den Mittelwert der obigen Bandbreitenmultiplikatoren an:
- N31 = 3.5x * 576 GB/s = 2016 TB/s = 4.5x RTX 3070 --> @4K
- N33 = 2.2 * 288 GB/s = 633 GB/s = 1.41x RTX 3070 --> @1440p

Wenn RDNA3 also ähnlich effizient mit Bandbreite umgehen kann wie Ampere, sehe ich keinen Grund für grössere Caches.

amdfanuwe

2022-04-20, 02:12:42

Logic shrinked um 1.8x, SRAM und analoge Teile deutlich weniger und das ist eher der Idealfall. Ich würde eher von 1.6x ausgehen.

Auf den GCD Chiplets ist fast nur Logic. Geh also von 1,8x aus, dann bist du für N31 und N32 gar nicht so weit weg von meinen Angaben.

-----------

Ich hab auch mal wieder gemalt:
79073
N33 erinnert mich dabei an N23. Statt CUs WGPs, 8 x PCIe 5?, mehr IF-Cache, modernere Fixed Function.

Für N31 und N32 könnte ich mir vorstellen, dass AMD den gleichen I/O Die verwendet. Die GCD s über EFOPs angebunden. Wie beim MI 200 die HBMs.
Der gleiche I/O für N31 und N32 hätte zudem den Vorteil, dass man sich bei der Speicherbestückung nicht einschränkt.
12, 16 MB bzw. 24, 32 MB für beide möglich.

Ich bin mir nicht im klaren über die erforderlichen Bandbreiten zwischen IF-Cache und L2 bzw. zwischen den GCDs und MCDs.

Stacked man die MCDs auf den GCDs hat man erhöhten Verbindungsaufwand zwischen den MCDs. Da müßten die Daten über den I/O.
Zudem wäre die Wärmeabgabe der GCDs behindert. Zudem sind eine Menge TSVs nötig.

Daher favorisiere ich die MCDs gestacked auf dem I/O, ähnlich einem HBM Stack, die komplette Control Logik im I/O. Hätte den Vorteil, dass der IF-Cache nicht geteilt ist und die GCDs keine TSVs benötigen.
Für N32 stacked man nur 2 oder 3 MCDs
https://www.guru3d.com/index.php?ct=articles&action=file&id=15957

Ob AMD da mit Kupfer zu Kupfer Verbindungen wie beim ZEN X3D oder mit µBumps wie bei einem HBM arbeitet, ist eine reine Kosten, Yield, Verbrauchs und Bandbreiten Entscheidung.

Bin mal gespannt, was AMD letztendlich liefert.

Wer sich fragt, warum AMD nicht einfach größere GCDs mit noch mehr Shadern verwendet: Da dürfte die TDP einfach nicht mehr erlauben.
Es muß ja als Gaming GPU noch akzeptabel kühlbar bleiben.

--------

Noch ein Gedanke: wäre es denkbar, dass eine GPU mit einem N31 und einem N32 Chiplet kommt? Wären dann 50 WGPs mit 12800 Shadern.

Edit: Da könnte AMD auch GPUs mit nur einem GCD Chiplet und entsprechend mit 20 WGPs bzw. 30 WGPs bringen.
Salvaged Lösungen dann eher mit 36 WGPs und 54 WGPs.
Da ist AMD mit I/O, 1 - 4 x MCDs, 1 - 2 x N31 oder N32 GCD Chiplets ganz schön flexibel unterwegs.
Lücken dürfte es wohl keine im Portfolio geben.

Berniyh

2022-04-20, 06:49:02

Nicht halbierte Bandbreite, der kann ja auch mit 24GT/s-GDDR6 kommen.
Navi 33 ist der kleinste Chip in der Aufstellung und preislich sicher schon in einem Bereich in dem man hier und da sparen wird. Wie wahrscheinlich ist es, dass man hier den schnellsten verfügbaren Speicher einsetzt?
Würde mir da also nicht allzu große Hoffnungen machen.

HOT

2022-04-20, 09:38:25

Vielleicht wird man keinen 24GT Speicher einsetzen, aber 20GT ganz bestimmt. Das Ding hat ja nur 128Bit, weil man diese Technologie zur Verfügung hat.

AffenJack

2022-04-20, 10:07:02

https://twitter.com/greymon55

Seit Februar im Testlabor dürfte dann tatsächlich womöglich ein gutes Stück vor Jahresende werden.

Joa, N33 sollte da eigentlich in ordentlicher Verfügbarkeit kommen können, vor allem da 6nm.

N31 dann in Q1 23, da TSMC erst in Q3 22 den Stackingprozess für 5Nm fertig hat. Daher Produktionsbeginn Q4 22 und Launch auf der CES 23 würde ich schätzen.

Neurosphere

2022-04-20, 10:15:50

Nochmal zur Größe des Caches, geht man von AMDs Diagramm zur Hitrate aus hat man in 4k eigentlich keine andere Wahl als auf einen großen Cache zu setzen weil der Mehrwert über die Auflösung so stark abnimmt.

Ich würde demnach auch eher in die Richtung denken das NV bei dem relativ kleinen Cache bei Ada nicht die hohen Auflösungen verbessert sondern die Ampere Schwächen bei FHD und QHD ausbügelt. Sofern er nicht noch weitere Vorteile bietet oder anders eingesetzt werden kann.

Davon ausgehend wären 512MB nicht unbedingt zu viel und auch nicht komplett abwegig solange die Hitrate nicht zusätzlich verbessert werden kann.

basix

2022-04-20, 11:21:03

Anhand des Zen V-Caches wären 512MByte sage und schreibe 320mm2 gross. Und da sind wirklich nur Cache, Tag und LRU Arrays drauf. Selbst im absoluten Optimalfall ohne Control Logik, Tag und LRU Arrays und reinen 6T-SRAM-Zellen käme man mit 512 MByte noch auf ~220mm2. Das wäre noch einigermassen realistisch von der Fläche her aber nicht realistisch in der praktischen Umsetzung (die Zusatzstrukturen rund um den Cache braucht es halt). Dazu noch GDDR6 Memory Controller + PHY. Ich bin skeptisch was 512 MByte anbelangt. Wenn AMD die selben MCDs für RDNA4 verwenden will und bei RDNA3 noch ein wenig auf Nummer sicher spielt ok. Aber nicht, weil es bei 4K für N31 wirklich notwendig wäre.

Hier die Präsentation zum V-Cache von der ISSCC 2022:
https://www.slideshare.net/AMD/3d-vcache

mboeller

2022-04-20, 11:30:06

ich habe mal ein wenig mit der alten N21-IF$ Folie rumgespielt. Mit 256MB sollte man bei 4K in etwa 80-85% Wirkungsgrad erreichen. Für das Rastern alleine reichen deshalb wahrscheinlich 256MB aus. Fragt sich nur wie viel RT dann noch schluckt.

Lehdro

2022-04-20, 12:07:31

Fragt sich nur wie viel RT dann noch schluckt.
This.

Den IF$ zu vergrößern kann die RT Performance deutlich boosten, wenn man dann endlich alle schnell benötigten Daten (BVH) größtenteils dort ablegen kann.

AffenJack

2022-04-20, 12:50:11

Anhand des Zen V-Caches wären 512MByte sage und schreibe 320mm2 gross. Und da sind wirklich nur Cache, Tag und LRU Arrays drauf. Selbst im absoluten Optimalfall ohne Control Logik, Tag und LRU Arrays und reinen 6T-SRAM-Zellen käme man mit 512 MByte noch auf ~220mm2. Das wäre noch einigermassen realistisch von der Fläche her aber nicht realistisch in der praktischen Umsetzung (die Zusatzstrukturen rund um den Cache braucht es halt). Dazu noch GDDR6 Memory Controller + PHY. Ich bin skeptisch was 512 MByte anbelangt. Wenn AMD die selben MCDs für RDNA4 verwenden will und bei RDNA3 noch ein wenig auf Nummer sicher spielt ok. Aber nicht, weil es bei 4K für N31 wirklich notwendig wäre.

Hier die Präsentation zum V-Cache von der ISSCC 2022:
https://www.slideshare.net/AMD/3d-vcache

Notwendig kann es eventuell auch aus anderen Gründen sein. Wir reden gerade von 4 Chips mit 64Bit GDDR6 Interface. Was ist die Mindestgröße, die du brauchst, um das Speicherinterface zu beherbergen? Wenn der Cache mit 64Mbit pro MCD so wenig Platz wegnimmt, dass du praktisch Platz verschwenden musst, um das 64Bit GDDR6 Interface noch unterzubringen, dann hat man auch nichts gewonnen. Ob das relevant ist, kann ich nicht einschätzen. Ebenso ob das hochtaktende GDDR6 Interface auf zu kleiner Fläche unter dem GCD nicht zu warm wird. Es gibt da viel mehr Aspekte zu beachten, als nur die reine Größe der MCDs.

Am ende zweifle ich eher an 256 mb, weil ich mir da auch nicht vorstellen kann, dass man dann den Bandbreitennachteil gegenüber AD102 plus 96mb L2 kompensieren kann. Wenn man wirklich so hoch hinaus will, dann geht man auch auf 512mb. Die reine Bandbreite dürfte nur um 25% steigen (20Gbps, mehr glaube ich nicht) und dann muss der Cache mehr als verdoppelt werden, wenn man wirklich 2,5x Geschwindigkeit anpeilt. Wenn es nur 2x werden, dann können 256mb ausreichen.

davidzo

2022-04-20, 13:07:44

This.

Den IF$ zu vergrößern kann die RT Performance deutlich boosten, wenn man dann endlich alle schnell benötigten Daten (BVH) größtenteils dort ablegen kann.

Und wieso reichen dann bei Nvidia die 96kb L1 + globale 6mb L2 für die RT-Cores?
War es nicht eher so dass BVH traversal vor allem gigantische Bandbreite braucht und man den Cache-bedarf durch vorsortieren und Gruppieren wie es nvidia macht drastisch reduzieren kann?

Ich glaube auch nicht an 512mb. Womit man eher rechnen kann ist dass analog zur Verdopplung der Größe auf 256mb und einer Verdreifachung der Alus, auch die Bandbeite des Caches ansteigen muss. Wenn die Alus auch nur annähernd so wie bei Navi21 skalieren sollen, muss man mindestens auf 2048 B/Clk gehen (statt 1024 aktuell).
Das heißt es geht von 2TB/s auf mindestens 4TB/s. Kann gut sein dass man sogar auf 3072B/Clk respektive 6TB/s geht. Das wäre dann ziemlich nah dran an dem spekulierten 6tb/s L2 Cache für AD102.
Die GDDR Bandbreite steigt ja im Bestcase nur um 50% auf 768mb/s bei 24Gt/s GDDR6. Wo soll die Bandbreite also her kommen?
Das macht auch viel mehr Sinn im Kontext von Navi33. Wenn N33 128mb Cache mit einem 128bit SI kombiniert, aber schneller sein soll als navi21, dann muss der Cache schneller sein und damit die effektive Bandbreite stärker anheben.

Wenn man sich die Hitrate von 80%+ anschaut, hat eine Verdopplung der Bandbeite auf 2048B/clock, also ein breiteres Infinity Fabric auch eine größere Wirkung auf die effektiv zur Verfügung stehende Bandbreite als weitere 256mb Cache mit langsamerer Anbindung, welche die Hitrate nur noch geringfügig verbessern können.
Und dass die breitere Ansteuerung weniger Diefläche als die doppelte Menge Cache kostet ist klar. Ein breites Infinity Fabric ist lediglich ein Thema für den Idle Energieverbrauch, bei Highend Desktop chips also vernachlässigbar.

Am ende zweifle ich eher an 256 mb, weil ich mir da auch nicht vorstellen kann, dass man dann den Bandbreitennachteil gegenüber AD102 plus 96mb L2 kompensieren kann. Wenn man wirklich so hoch hinaus will, dann geht man auch auf 512mb. Die reine Bandbreite dürfte nur um 25% steigen (20Gbps, mehr glaube ich nicht) und dann muss der Cache mehr als verdoppelt werden, wenn man wirklich 2,5x Geschwindigkeit anpeilt. Wenn es nur 2x werden, dann können 256mb ausreichen.

Was denn jetzt, die Bandbreite oder die Größe?

Ich sehe da keinen Bandbreitennachteil:

AD102 fullDie: 1152 gb/s (24gt/s 384bit)
AD102 L2$: 96mb LCache @ 6tb/s @ 53% hitrate in 4K (wie Navi22)
= 3,72 TB/s effektive Bandbreite

Navi31 full: 768gb/s (24Gt/s 256bit)
Navi31 IF$: 256mb @ 6tb/s @ 80% Hitrate in 4K
= 4,95 TB/s effektive Bandbreite

Und ja, ich rechne mit 24Gt/s weil die von Samsung schon lange angekündigt und bis dahin sicherlich verfügbar sind. Samsung war da sogar früher dran mit listing und samples als Micron mit ihrem GDDR6X 24gt/s.
Im Endeffekt sieht man an obiger Rechnung aber dass es den Kohl nicht mehr Fett macht ob nun 20, 22 oder 24gt/s wenn man auf 256mb IF$ zurückgreifen kann.

Neurosphere

2022-04-20, 13:18:40

Nach dem was ich so finden konnte lag der Takt des Cache bei knapp zwei Ghz auf der 6800 XT, keine Ahnung ob der durch die Bank bei allen Navi 2x Chips identisch schnell ist. Selbst hier könnte man also ansetzen und die Bandbreite vergrößern.

Andererseits, warum der Sprung von 256 auf 512MB, Zwischenwerte wie 384MB sollten doch generell auch nicht undenkbar sein.

Gratzner

2022-04-20, 13:57:27

Und wieso reichen dann bei Nvidia die 96kb L1 + globale 6mb L2 für die RT-Cores?

Jetzt mal ganz primitiv: Wer sagt denn das? Wer sagt denn, das bei Ampere die RT-Cores nicht unter zu geringer Bandbreite, Latenzen und kleinen Caches in ihrer Performance (stark) zurückgesetzt werden? Das Nvidia bei Lovelace denn L2 stark vergrößert, impliziert Gegenteiliges

War es nicht eher so dass BVH traversal vor allem gigantische Bandbreite braucht und man den Cache-bedarf durch vorsortieren und Gruppieren wie es nvidia macht drastisch reduzieren kann?

Das Vorsortieren und Gruppieren machen allen Raytracingfähigen Grafikkarten-Architekturen (RDNA2, Turing/Ampere, Alchemist). AMD und Nvidia haben hierbei die denkbar schlechteste Lösung: bei deren Architekturen geschieht dies in Software. Intel hat hier, um es mal mit den Worten von IMG auszudrücken, ein "BVH Processing with Coherency sort in Hardware"

aufkrawall

2022-04-20, 14:02:26

Jetzt mal ganz primitiv: Wer sagt denn das? Wer sagt denn, das bei Ampere die RT-Cores nicht unter zu geringer Bandbreite, Latenzen und kleinen Caches in ihrer Performance (stark) zurückgesetzt werden?
Selbst wenn, ist das wegen der hohen Denoiser-Load, die nur gewöhnliche 3D-Last ist, egal.
Ansonsten siehst du in Blender eine 3060 mit OptiX eine 6900 XT mit HIP verdreschen.

davidzo

2022-04-20, 14:15:53

Nach dem was ich so finden konnte lag der Takt des Cache bei knapp zwei Ghz auf der 6800 XT, keine Ahnung ob der durch die Bank bei allen Navi 2x Chips identisch schnell ist. Selbst hier könnte man also ansetzen und die Bandbreite vergrößern.

Ist ein hebel, den man aber imo eher nicht nutzen wird wenn das Infinityfabric nun über mehrere DIEs geht. Die Fertigung ist zwar besser, aber alles was man da an Takt gewinnt wird man bei der Off-die Verbindung wieder verlieren. Und clock skaliert halt nunmal mit Voltage und damit exponentiell mit der Power. Denke eher nicht dass man das eskalieren will.

Andererseits, warum der Sprung von 256 auf 512MB, Zwischenwerte wie 384MB sollten doch generell auch nicht undenkbar sein.
Nicht undenkbar, allerdings gibt es bisher nur Leaks zu 512 oder 256mb. Ist auch AMD typischer. In letzter Zeit gab es aber mehr Hinweise auf 256mb (RGT etc.)

Btw, das hartnäckigste pro 512mb Gerücht ist gremon55s exakte "7950xt" Beschreibung vom 1. April :freak:;D

Jetzt mal ganz primitiv: Wer sagt denn das? Wer sagt denn, das bei Ampere die RT-Cores nicht unter zu geringer Bandbreite, Latenzen und kleinen Caches in ihrer Performance (stark) zurückgesetzt werden? Das Nvidia bei Lovelace denn L2 stark vergrößert, impliziert Gegenteiliges

Papers?
Ich finde eher nur Papers mit Analysen die eher kleine Datasets haben oder mit sehr unoptimierten/unsortierten BVH Daten arbeiten.

- Nvidia hat nicht ohne Not den L1 Cache von Turing massivst um biszu Faktor 2,7x gegenüber Pascal aufgebohrt. Wenn der L1 für die RTcores ein tropfen auf dem heißen Stein wäre, dann hätte man eher den L2 aufgebohrt oder einen l3 eingeführt, denn die sind wesentlich flächen- und Energieeffizienter als der L1.
- Btw, die Verdopplung des L1 bei Ampere vs Turing korreliert merkwürdigerweise mit der von Nvidia beworbenen Verdopplung der Leistung pro RT-Core. Dabei hat man lediglich eine Einheit hinzugefügt die blurred RT beschleunigen soll. Wie führt das denn zu einer generellen Performanceverdopplung?

Das Vorsortieren und Gruppieren machen allen Raytracingfähigen Grafikkarten-Architekturen (RDNA2, Turing/Ampere, Alchemist). AMD und Nvidia haben hierbei die denkbar schlechteste Lösung: bei deren Architekturen geschieht dies in Software. Intel hat hier, um es mal mit den Worten von IMG auszudrücken, ein "BVH Processing with Coherency sort in Hardware"
Intel muss erstmal funktionsfähige Hardware liefern, dann sehen wir weiter :wink:

SW oder HW ist nicht grundsätzlich besser oder schlechter. Siehe Software Scheduling bei Kepler+Maxwell+Pascal vs HW Scheduling bei Fermi und GCN. Ein HW-sortierer ist auch ein Limit welches man nie los wird, bei SW ist das lediglich ein Update entfernt. Es gibt halt keine Bugfixes und Verbesserungen für fixed silicon mehr und die Entwicklungszeit ist auch länger. Bis dahin hat sich der Gebrauch von RT in game engines bisweilen schon verändert.
Siehe RTX zu Turing Zeiten und RTX nach RDNA2 und den Konsolen - die Bottlenecks liegen ganz woanders.

Als kleiner Underdog musst du flexibel auf den markt reagieren. Und der Underdog ist Intel auf jeden Fall, denn Nvidia und AMD geben vor wie Spiele programmiert werden. Da ist Intel ein ganz kleines Licht, von den zwei drei 3rd world studios die von Intel bezahlt werden mal angesehen.

HOT

2022-04-20, 14:16:03

N33 wird aber mMn auf jeden Fall 128MB haben, damit er in WQHD keine Performance verliert, das wär dämlich. Für alle darüber reicht eigentlich 256MB, den werden dann aber mMn auch alle Produkte mit N31/2 haben.
Wie i.Ü. auch das 256Bit Speicherinterface. MMn haben alle N3x-Produkte 16GB.

Gratzner

2022-04-20, 14:35:16

Papers?
Ich finde eher nur Papers mit Analysen die eher kleine Datasets haben oder mit sehr unoptimierten/unsortierten BVH Daten arbeiten.

Also mit anderen Worten, die Caches und die Bandbreite limitiert bei Ampere bei sehr synthetischen Analysen nicht. Bei realen Anwendungen, insbesondere Spielen, ist die Frage weiterhin (komplett) offen.

Wenn für die RTcores ein tropfen auf dem heißen Stein wäre hätte, dann hätte man auch den L2 aufbohren können oder einen l3 einführen denn die sind wesentlich flächen- und Energieeffizienter als der L1.
Rate mal, was bei Lovelace massiv von 6mb auf 92mb aufgebohrt wird. Kleiner Spoiler: der L2-Cache. (natürlich ist es nicht auszuschließen, das der L2 nur für Rasterizer verwendet wird und für Raytracing keine Rolle spielt. Imho sind beide Auslegungen sind an diesem Punkt nur Spekulation)

SW oder HW ist nicht grundsätzlich besser oder schlechter. Siehe Software Scheduling bei Kepler+Maxwell+Pascal vs HW Scheduling bei Fermi und GCN.
Also IMG stellen die "HW-Sortierer" als ziemlich überlegen dar (was für das Scheduling gilt, muss nicht zwangsweise für alle andere Sachverhalte gelten). Übrigens, nur weil die Architektur "Coherency sort" in Hardware unterstützt, muss man nicht auf Softwarelösungen verzichten. Ggf. ist am Ende eine Mischung aus SW und HW am Effizientesten.

Desweiteren, IMG beschreiben in ihrem "raytracing primer paper" nicht, das ein "HW-Sortierer" einen großen Cache bräuchte oder davon profitiert.

davidzo

2022-04-20, 14:49:40

Also mit anderen Worten, die Caches und die Bandbreite limitiert bei Ampere bei sehr synthetischen Analysen nicht. Bei realen Anwendungen, insbesondere Spielen, ist die Frage weiterhin (komplett) offen.

Das ist richtig, aber im Kontext falsch.
Die Rede war davon ob es mehr nützt einen 256MB IF$ mit verdoppelter Bandbreite zu haben als einen langsameren 512mb IF$.
Und dazu habe ich behauptet dass ein langsamerer 512mb IF$ für BVH traversal vermutlich weniger bringt als ein kleinerer, schneller IF$. Siehe Nvidia, die BVH fast nur im L1 machen.
Es war nie die Rede davon dass es bei Ampere keine Cache Limits gibt die BVH limitieren. Die Rede war davon dass ein 512mb IF$ nicht der ultimative BVH Beschleuniger ist, sondern in diesen Größenordnungen die Bandbreite wichtiger ist. Da ist überhaupt keine Wertung zu Amperes Cachegrößen enthalten.
Ich verstehe auch nicht wieso du hier den RDNA3 Thread mit verdrehten Aussagen über RDNA2+3 und Besserwisserei zu Ampere und Lovelace vollspammen willst.

Rate mal, was bei Lovelace massiv von 6mb auf 92mb aufgebohrt wird. Kleiner Spoiler: der L2-Cache.

Das hat aber wenig mit BVH zutun sondern in erster Linie damit dass AD102 kein 512bit bekommt, welches der Chip bräuchte anhand des SM counts.

Also IMG stellen die Hardwaresortierer als ziemlich überlegen dar (was für das Scheduling gilt, muss nicht zwangsweise für alle andere Sachverhalte gelten).
Weil IMG so stolz auf die überlegene Technik ist hat man die IP natürlich auch in der aktuellen Series-A verwendet? :freak:

Und deswegen hat man die RT-Entwicklung auch erstmal für Jahre schlafen lassen und die meisten Top RT-Entwickler zu Intel, AMD und Nvidia abgewandern lassen?

Starkes Beispiel! ;D

basix

2022-04-20, 14:49:45

Ich sehe da keinen Bandbreitennachteil:

AD102 fullDie: 1152 gb/s (24gt/s 384bit)
AD102 L2$: 96mb LCache @ 6tb/s @ 53% hitrate in 4K (wie Navi22)
= 3,72 TB/s effektive Bandbreite

Navi31 full: 768gb/s (24Gt/s 256bit)
Navi31 IF$: 256mb @ 6tb/s @ 80% Hitrate in 4K
= 4,95 TB/s effektive Bandbreite
Exakt. AD102 und N31 werden ähnliche effektive Speicherbandbreiten bei gleicher Auflösung haben. Umso höher die Auflösung, desto stärker wird AD102 werden. Aber solange es für 4K genug ist? In nativ 8K werden die wenigsten rendern, vor allem in Zeiten von DLSS, XeSS , FSR und TSR. Lovelace hat einfach das 1.5x breitere Interface, N31 hat mehr Cache. In der Theorie hat N31 bei gleich schnellem GDDR-Speicher ~1.09x effektive Bandbreite (sqrt(256/96)/1.5). Hitrate des Infinity Cache scheint aber nicht exakt der Theorie zu folgen und deswegen sind es eher >1.09x Bandbreitenvorteil. Wenn ich schätzen müsste und Nvidias L2$ gleich wie AMDs Infinity Cache verhält bezüglich Bandwidth Amplification: AD102 mit 24Gbps hat die gleiche Bandbreite wie AMD mit 18...21 Gbps.

N33 wird aber mMn auf jeden Fall 128MB haben, damit er in WQHD keine Performance verliert, das wär dämlich. Für alle darüber reicht eigentlich 256MB, den werden dann aber mMn auch alle Produkte mit N31/2 haben.

Wenn 256MByte für 4K und N31 Performance reichen, dann reichen auch 64 MByte für 1440p und N33 Performance:
- 256bit -> 128bit = 2x
- 256MByte @ 4K -> 64MByte @ 1440p = 1.4...1.5x Hitrate
- 2*1.5 = 3x --> ~N31 vs. N33 Performance --> Passt

AffenJack

2022-04-20, 15:26:52

Was denn jetzt, die Bandbreite oder die Größe?

Ich sehe da keinen Bandbreitennachteil:

AD102 fullDie: 1152 gb/s (24gt/s 384bit)
AD102 L2$: 96mb LCache @ 6tb/s @ 53% hitrate in 4K (wie Navi22)
= 3,72 TB/s effektive Bandbreite

Navi31 full: 768gb/s (24Gt/s 256bit)
Navi31 IF$: 256mb @ 6tb/s @ 80% Hitrate in 4K
= 4,95 TB/s effektive Bandbreite

Und ja, ich rechne mit 24Gt/s weil die von Samsung schon lange angekündigt und bis dahin sicherlich verfügbar sind. Samsung war da sogar früher dran mit listing und samples als Micron mit ihrem GDDR6X 24gt/s.
Im Endeffekt sieht man an obiger Rechnung aber dass es den Kohl nicht mehr Fett macht ob nun 20, 22 oder 24gt/s wenn man auf 256mb IF$ zurückgreifen kann.

AMD nutzt schon länger eher langsamere Interfaces. Ich gehe nicht von aus, dass man auf 24Gbps geht. Vor allem nicht wegen dem Stacking. Am Ende fackelt das MCD den ganzen Chip ab, denn irgendwie muss man das auch kühlen. Nicht ohne Grund stackt man beim Ryzen ja auch Cache auf Cache und nicht Cores und ist beim OC vorsichtig. Daher erwarte ich auch hier eine vorsichtige Lösung.

Mit der Geschwindigkeitserhöhung hast du Recht, man kann schließlich auch nur solche Bandbreiten erreichen, die der IF Cache auch schafft. Man wird die Geschwindigkeit des Caches zumindest verdoppeln müssen. Wenn man gerade bei ~2Tb/s ist, sollte ne Verdopplung plus Mehrtakt (2ghz->2,5ghz) ja schon für 5 Tb/s sorgen.

Wenn 256MByte für 4K und N31 Performance reichen, dann reichen auch 64 MByte für 1440p und N33 Performance:
- 256bit -> 128bit = 2x
- 256MByte @ 4K -> 64MByte @ 1440p = 1.4...1.5x Hitrate
- 2*1.5 = 3x --> ~N31 vs. N33 Performance --> Passt

Deine Rechnung ist falsch. Wenn man das so, wie davidzo in der Art berechnet, dann landest du eher bei Faktor 4 an Bandbreite für Faktor 2,5 an Performance laut Gerüchten. Hitrate von ~50% bei 64mb vs 75% bei 256mb.
Da hätte N33 viel zu wenig Bandbreite. Für N21 wird das mit 64mb bestimmt nicht reichen.

Gratzner

2022-04-20, 15:32:18

Das ist richtig, aber im Kontext falsch.
Die Rede war davon ob es mehr nützt einen 256MB IF$ mit verdoppelter Bandbreite zu haben als einen langsameren 512mb IF$.
Also ich habe aus deinem Ampere-Vergleich herausgelesen, das du implizieren wolltest, kleine Caches (6mb l2 für RT und Rasterizer) seien vollkommen ausreichend und mehr Cache sei nur für Speicherbandbreite sparen nützlich.

Das AMD gleich auf 512mb gehen soll, hört sich imho nach übermotivierten Spekulanten aus dem Internet an, welche vom infinity Cache und/oder V-Cache total beeindruckt waren und nun übertreiben müssen.

Und deswegen hat man die RT-Entwicklung auch erstmal für Jahre schlafen lassen und die meisten Top RT-Entwickler zu Intel, AMD und Nvidia abgewandern lassen?
Starkes Beispiel! ;D
Ich sehe nicht den Punkt, warum solches "Schlechtgerede" deine Argumente hilfreich sein soll.
Die haben die RT-Entwicklung schlafen lassen, weil sich damals viel zu wenige dafür interessiert haben. Einer ihrer erste Raytracing Accelerator wurden schon 2013 (!) ausgeliefert [extremtech.com (https://www.extremetech.com/extreme/161074-the-future-of-ray-tracing-reviewed-caustics-r2500-accelerator-finally-moves-us-towards-real-time-ray-tracing)].
Das gute Entwickler kommen und gehen, ist nichts neues. Ist bei AMD, Apple und co. auch nicht anders. Davon ab, viele Paper von IMG sind viele Jahre alt, stammen wahrscheinlich aus einer Zeit, bevor die 'guten' Entwickler gegangen sind.

Also nächste mal einfach inhaltlich falsches Schlechtreden von Firmen sein lassen

basix

2022-04-20, 21:04:29

Deine Rechnung ist falsch. Wenn man das so, wie davidzo in der Art berechnet, dann landest du eher bei Faktor 4 an Bandbreite für Faktor 2,5 an Performance laut Gerüchten. Hitrate von ~50% bei 64mb vs 75% bei 256mb.
Da hätte N33 viel zu wenig Bandbreite.

Du hast die verschiedenen Render-Auflösungen für N33 und N31 gesehen, oder doch nicht? ;)

Für N21 wird das mit 64mb bestimmt nicht reichen.
N21 und N22 sind überdimensioniert was Bandbreite angeht. Oder denkst du, dass es in Form der 6900XT und ~1.5x RTX 3070 Performance wirklich ~2.7x Bandbreite braucht (448 vs. ~1200 GB/s)? In kleineren Auflösungen als 4K ist es noch extremer. RDNA2 IF$ war halt der erste seiner Art.

Sieh dir besser N23 an. In 1440p ist eine 6900 XT ca. 2x so schnell wie eine 6600XT. Die 6900XT hat hier aber insgesamt 4x mehr Bandbreite
- 256bit vs. 128bit = 2x
- 2x durch den 4x grösseren Infinity Cache --> sqrt(4) = 2x BW Amplification

Ergo: N21 und N22 haben überdimensionierte Infinity Caches. Für 4K würde 1/2 der Cache Grösse theoretisch reichen ("nie reichen 64 MByte für N21" ;)) und somit ~70% der verfügbaren Bandbreite. Bei N21/22 ging man halt auf Nummer sicher. Und setzt man für N33 1440p als Target und nicht 4K, dann braucht es ebenfalls weniger Cache.

N33 ist mMn auch nicht für 4K gedacht sondern für max. 1440p. Für 4K hat man N32 und N31 ;) Deswegen reduzieren sich die Bandbreite/IF$-Anforderungen an N33 zusätzlich. N21 zielte noch auf 4K.

Theoretisch würde N21 mit 32MB Infinity Cache in 1440p keine Performance verlieren (siehe obigen N21/N23 Vergleich). Jetzt verdoppelt man bei N33 den Cache auf 64 MByte (sqrt(2)=1.41x Amplification), steigert GDDR6 auf 18-21 Gbps (1.12...1.31x) und RDNA3 könnte per se noch etwas besser mit Bandbreite umgehen: Voila, 6900XT Performance mit 128bit und 64MByte IF$. Halt nur in 1440p und darunter. Passt auch zu den Gerüchten, dass N33 bei 4K verglichen zu N21 dann etwas abfällt.

iamthebear

2022-04-21, 00:44:06

256 MByte bringen bei 4K ~3...4x Bandbreitenmultiplikator. Bei 16-21 GT/s sind das 1.5...2.6 TByte/s effektive Bandbreite. Eine RTX 3070 steht bei 448 GByte/s. N31 wird anhand der Leistungsdaten ca. 4x schneller als eine RTX 3070 sein. 4x 448 = 1.8 TByte/s. Passt doch in etwa. Wieso also nochmals doppelt so viel Cache verbauen?

Ist die Frage inwieweit der Bandbreitenbedarf von Ampere mit dem von RDNA3 vergleichbar ist. GCN war z.B. früher viel bandbreitenhungriger als Pascal was dem RAM angeht. Auch glaube da sind die Vergleiche mit RDNA 2 oder anderen RDNA 3 Karten sinnvoller. Ich habe noch einmal etwas über das Thema nachgedacht und 256MB kommen mir nun doch etwas knapp vor:
Navi33 hat gleichen IC bei halbem Speicherinterface. Das wird sicher eine Challenge. Ich gehe davon aus, dass das unter 1080p und 1440p wunderbar funktionieren wird aber unter 4K kann ich mir schon einen gewissen Einbruch vorstellen. Der Anspruch ist im 500$ Bereich einfach etwas niedriger als beim Topmodell.
Navi31 ist ca. 3x von Navi33 (zumindest was die Rohleistung angeht) bei doppeltem Speicherinterface also bleiben 1.5x. Das würde die Vergrößerung von 128MB auf 256MB in etwa auffangen. Allerdings ist das keine 1440p Karte. Hier ist die Zielrichtung schon 5K/8K oder 4K Native + RT oder 4K Native bei zukünftigen Titeln, die wohl noch etwas mehr Ansprüche haben werden.
Was wir auch nicht vergessen dürfen: AMDs Grafik ist mittlerweile 2 Jahre alt und basiert auf den Spielen, die damals im Benchmarkmix waren. Es macht hier vermutlich auch einen Unterschied, ob nun GTA 5 oder Witcher 3 laufen oder UE5 mit Nanite.

N33 könnte sogar nur mit 64MByte kommen. Bei 1440p erreich 64MByte in etwa 2...2.4x Bandbreitenmultiplikator. Wiederum mit 16...21 GT/s und wir landen bei 500...800 GByte pro Sekunde. Letzteres entspricht 800 / 448 = 1.78x RTX 3070.

Wenn RDNA3 also ähnlich effizient mit Bandbreite umgehen kann wie Ampere, sehe ich keinen Grund für grössere Caches.

Das ist die Frage, ob dies AMD schafft. Der grauenhafte Bandbreitenbedarf war jahrelang ihr Problem (siehe Vega) und ich bin mir nicht sicher, ob dies restlos gelöst ist.

Daher favorisiere ich die MCDs gestacked auf dem I/O, ähnlich einem HBM Stack, die komplette Control Logik im I/O. Hätte den Vorteil, dass der IF-Cache nicht geteilt ist und die GCDs keine TSVs benötigen.
Für N32 stacked man nur 2 oder 3 MCDs

Das hört sich plausibel an. Ich vermute, dass es ähnlich ist wie die Patente von AMD: IO Die fungiert als Bridge zwischen den 2 GCDs und MCDs sind übereinander statt nebeneinander.

Wer sich fragt, warum AMD nicht einfach größere GCDs mit noch mehr Shadern verwendet: Da dürfte die TDP einfach nicht mehr erlauben.
Es muß ja als Gaming GPU noch akzeptabel kühlbar bleiben.

Ich glaube das ist eher einmal eine finanzielle Frage. Bei Navi31 um die 800-1000mm² Gesamtfläche schwirren ja schon Preise um die 2000€ herum. Ich weiß nicht, ob der Gaming Markt um die 3K+ aufwärts wirklich noch so groß ist, dass es sich lohnt einen eigenen Die zu entwickeln.

Noch ein Gedanke: wäre es denkbar, dass eine GPU mit einem N31 und einem N32 Chiplet kommt? Wären dann 50 WGPs mit 12800 Shadern.

Edit: Da könnte AMD auch GPUs mit nur einem GCD Chiplet und entsprechend mit 20 WGPs bzw. 30 WGPs bringen.

Grundsätzlich möglich wahrscheinlich ja, wenn auch komplizierter beim Packaging.
Ab es sinnvoll ist, das ist wieder eine andere Frage. Ich vermute man word die 50WGP Modelle eher mit teildeaktivierten Navi31 GCDs lösen. Entweder ist ein GCD halb deaktiviert oder beide GCDs zu 25%.

Lücken dürfte es wohl keine im Portfolio geben.

Zwischen Navi31 und Navi32 eher nicht, zwischen Navi32 und Navi33 sieht es jedoch schon anders aus. Das ist 2.5x was den Die angeht. Navi32 mit 20% deaktiviert wären 8K FP32, Navi33 hat 4K FP32. Aber wie will man den Bereich dazwischen abdecken?

Navi 33 ist der kleinste Chip in der Aufstellung und preislich sicher schon in einem Bereich in dem man hier und da sparen wird. Wie wahrscheinlich ist es, dass man hier den schnellsten verfügbaren Speicher einsetzt?
Würde mir da also nicht allzu große Hoffnungen machen.

Ganz egal, ob der Speicher nun ein paar Prozent höher oder niedriger taktet: Es wird definitiv weniger Bandbreite da sein als bei Navi21 und selbst dieser hatte schon leichte Einbrüche bei 4K.

Joa, N33 sollte da eigentlich in ordentlicher Verfügbarkeit kommen können, vor allem da 6nm.

N31 dann in Q1 23, da TSMC erst in Q3 22 den Stackingprozess für 5Nm fertig hat. Daher Produktionsbeginn Q4 22 und Launch auf der CES 23 würde ich schätzen.

Bei den Preisen, die Navi31 haben wird denke ich, dass da nicht viel vorproduziert werden muss. Deswegen vermutlich auch die Reihenfolge:
Navi33 (Masse ohne Stacking) => Navi 31 (Paperlaunch) => Navi32 (Masse)

Nochmal zur Größe des Caches, geht man von AMDs Diagramm zur Hitrate aus hat man in 4k eigentlich keine andere Wahl als auf einen großen Cache zu setzen weil der Mehrwert über die Auflösung so stark abnimmt.

Ich würde demnach auch eher in die Richtung denken das NV bei dem relativ kleinen Cache bei Ada nicht die hohen Auflösungen verbessert sondern die Ampere Schwächen bei FHD und QHD ausbügelt. Sofern er nicht noch weitere Vorteile bietet oder anders eingesetzt werden kann.

Dass Ampere bei niedrigeren Auflösungen weiter hinten ist hat 2 Gründe:
.) Die 4K Schwäche von RDNA2 weil die IC Hitrates einbrechen. Dadurch sieht Ampere besser aus.
.) Der höhere Driver Overhead in DX12 (und manchen DX11) Spielen bei Nvidia. Dadurch bremst die CPU mehr, was man unter 1080p einfach stärker merkt.

Beide Effekte werden sich dirch mehr Cache kaum verändern.

Der Grund für den zusätzlichen Cache ist, dass mehr als 384 Bit SI nur sehr schwierig möglich sind und GDDR7 noch nicht verfügbar ist (der Memory Controller kann es ja angeblich schon). Also geht es nur mit Caches.

Die Frage ist: Warum löst es Nvidia durch viel L2 statt L3 wie AMD. Dies bedeutet entweder, dass dieser wie bei A100 extrem viel Platz verschlingt oder Nvidia diesen kompakter gestaltet allerdings die L2 Bandbreite dann auch stark zurückgeht.

Davon ausgehend wären 512MB nicht unbedingt zu viel und auch nicht komplett abwegig solange die Hitrate nicht zusätzlich verbessert werden kann.

Das ist halt in erster Linie eine Kostenfrage. Nur wen interessieren die Kosten beim Topmodell um 2K.

Vielleicht liegt die Wahrheit auch in der Mitte und nur ein Teil des Navi31 Lineup kommt mit 512MB Cache.

Womit man eher rechnen kann ist dass analog zur Verdopplung der Größe auf 256mb und einer Verdreifachung der Alus, auch die Bandbeite des Caches ansteigen muss. Wenn die Alus auch nur annähernd so wie bei Navi21 skalieren sollen, muss man mindestens auf 2048 B/Clk gehen (statt 1024 aktuell).
Das heißt es geht von 2TB/s auf mindestens 4TB/s. Kann gut sein dass man sogar auf 3072B/Clk respektive 6TB/s geht. Das wäre dann ziemlich nah dran an dem spekulierten 6tb/s L2 Cache für AD102.

Ich würde auch davon ausgehen, dass die 2TB/s für Navi31 nicht mehr ausreichen werden.
Was die 6TB/s von AD102 angeht: Ich denke da ist noch viel Spekulation was den L2 von AD102 angeht und im Moment werde ich da ehrlich gesagt nicht so richtig schlau daraus was Nvidia da macht.

Das macht auch viel mehr Sinn im Kontext von Navi33. Wenn N33 128mb Cache mit einem 128bit SI kombiniert, aber schneller sein soll als navi21, dann muss der Cache schneller sein und damit die effektive Bandbreite stärker anheben.

Den Zusammenhang verstehe ich nicht ganz. Ein kleineres SI muss man durch schnelleren RAM oder mehr Cache kompensieren oder meinetwegen durch mehr FP32 und mit dem Einbruch unter 4K+ leben aber den Cache zu beschleunigen löst das Problem nicht. Wenn der Kofferraum zu klein ist bringt es auch nichts wenn sich der Deckel schneller schließt.

Wenn man sich die Hitrate von 80%+ anschaut, hat eine Verdopplung der Bandbeite auf 2048B/clock, also ein breiteres Infinity Fabric auch eine größere Wirkung auf die effektiv zur Verfügung stehende Bandbreite als weitere 256mb Cache mit langsamerer Anbindung, welche die Hitrate nur noch geringfügig verbessern können.

Ich glaube du hast da einen Denkfehler.
Angenommen du hast 500GB/s Speicherbandbreite, 50% Hitrate und 2TB/s L3 Bandbreite:
50% der Daten kommen aus dem RAM mit 500GB/s, 50% kommen aus dem L3 mit 500GB/s. Gesamt: 1TB/s

Mit 75% Hitrate:
25% der Daten kommen aus dem RAM mit 500GB/s, 75% aus dem L3 mit 1500GB/s, gesamt 2TB/s.

Mit 90% Hitrate:
10% der Daten kommen aus dem RAM mit 222GB/s, 90% der Daten kommen aus dem L3 mit 2TB/s. Gesamt 2222GB/s.

Die Bandbreite des L3 wird erst zum Thema wenn diese der limitierende Faktor ist.

AD102 fullDie: 1152 gb/s (24gt/s 384bit)
AD102 L2$: 96mb LCache @ 6tb/s @ 53% hitrate in 4K (wie Navi22)
= 3,72 TB/s effektive Bandbreite

Navi31 full: 768gb/s (24Gt/s 256bit)
Navi31 IF$: 256mb @ 6tb/s @ 80% Hitrate in 4K
= 4,95 TB/s effektive Bandbreite

Die Rechnung musst du mir mal näher erklären :D

Andererseits, warum der Sprung von 256 auf 512MB, Zwischenwerte wie 384MB sollten doch generell auch nicht undenkbar sein.

Das kommt darauf an wo das Speicherinterface sitzt. Wenn dieses sich am IO Die befindet wären 384MB mit 1 Lage mehr durchaus denkbar solange die unterschiedlichen Höhen ausgeglichen werden.

Sitzt das Speicherinterface auch im MCD so bedeuten 384MB statt 512MB, dass das Speicherinterface entweder auch auf 192Bit beschnitten ist.

Jetzt mal ganz primitiv: Wer sagt denn das? Wer sagt denn, das bei Ampere die RT-Cores nicht unter zu geringer Bandbreite, Latenzen und kleinen Caches in ihrer Performance (stark) zurückgesetzt werden? Das Nvidia bei Lovelace denn L2 stark vergrößert, impliziert Gegenteiliges

Wenn dem so wäre, dann müsste man z.B. zwischen der 3080 10GB und der 12GB Variante einen starken Unterschied bei RT sehen. Dies ist jedoch nicht der Fall solange wie nicht wie z.B. in Far Cry 6 der VRAM zu klein wird aber das ist ja ein seperates Problem.[/QUOTE]

Intel muss erstmal funktionsfähige Hardware liefern, dann sehen wir weiter :wink:

Ich denke das beschreibt die Lage eigentlich perfekt ;D
Ich denke auch, dass Intel im Moment ganz andere Sorgen hat außer RT z.B. wie man mit Navi33 mithalten will (beide ca. 400mm² in N6)

N33 wird aber mMn auf jeden Fall 128MB haben, damit er in WQHD keine Performance verliert, das wär dämlich. Für alle darüber reicht eigentlich 256MB, den werden dann aber mMn auch alle Produkte mit N31/2 haben.
Wie i.Ü. auch das 256Bit Speicherinterface. MMn haben alle N3x-Produkte 16GB.

Navi32 wird laut Leaks nur 12GB bzw. 192Bit SI haben. Die Frage ist nur ob mit 192MB, 256MB oder 384MB Cache.

Exakt. AD102 und N31 werden ähnliche effektive Speicherbandbreiten bei gleicher Auflösung haben. Umso höher die Auflösung, desto stärker wird AD102 werden.

Die Frage ist ob AD102 überhaupt von der Rohleistung auf dem Niveau von Navi31 ist.

Im Worst case ist AD102 nur GA102 mit 1.7x Shader + einem flächenineffizienten L2 während Navi31 3x Navi21 ist. Im Best case ist AD102 vorne. Das lässt sich Stand jetzt nicht wirklich sagen.

Deine Rechnung ist falsch. Wenn man das so, wie davidzo in der Art berechnet, dann landest du eher bei Faktor 4 an Bandbreite für Faktor 2,5 an Performance laut Gerüchten. Hitrate von ~50% bei 64mb vs 75% bei 256mb.
Da hätte N33 viel zu wenig Bandbreite. Für N21 wird das mit 64mb bestimmt nicht reichen.

Nope die von davidzo stimmt nicht siehe Beispiele von mir oben. 50% Hitrate bedeutet die Hälfte der Daten muss vom RAM kommen. Da ist es vollkommen egal wie schnell der Cache ist, da dieser nicht der limitierende Faktor ist.

N21 und N22 sind überdimensioniert was Bandbreite angeht. Oder denkst du, dass es in Form der 6900XT und ~1.5x RTX 3070 Performance wirklich ~2.7x Bandbreite braucht (448 vs. ~1200 GB/s)? In kleineren Auflösungen als 4K ist es noch extremer. RDNA2 IF$ war halt der erste seiner Art.

Die Vergleiche mit der 3070 sind halt nicht unbedingt sinnvoll.

Die 5700 XT hatte 448GBs.
Die 6900 XT hat ca. 2.4x Shaderpower aber nur 14% mehr Speicherbandbreite. Da ist es nur logisch, dass AMD versucht die 2x mit mindestens 50% Hitrate auszugleichen. Und dass das Topmodell natürlich an der 4K Performance gemessen wird sollte auch klar sein. Ist ja auch schnell genug dafür die Karte.

Sieh dir besser N23 an. In 1440p ist eine 6900 XT ca. 2x so schnell wie eine 6600XT. Die 6900XT hat hier aber insgesamt 4x mehr Bandbreite
- 256bit vs. 128bit = 2x
- 2x durch den 4x grösseren Infinity Cache --> sqrt(4) = 2x BW Amplification

Das macht auch Sinn, denn die 6900 XT wird auf Grund ihrer Performance auch bei der Auflösung eine Stufe höher betrieben d.h. 4K statt 1440p. Unter 4K sieht die 6600 XT auch gar nicht mehr gut aus.

N33 ist mMn auch nicht für 4K gedacht sondern für max. 1440p. Für 4K hat man N32 und N31 ;) Deswegen reduzieren sich die Bandbreite/IF$-Anforderungen an N33 zusätzlich. N21 zielte noch auf 4K.

Grundsätzlich ist die Strategie ja sinnvoll. Aber wenn Nvidia einen Konkurrenten in dem Preissegment hat, der 4K schafft, dann wird auch Navi33 an seiner 4K Fähigkeit gemessen.

Theoretisch würde N21 mit 32MB Infinity Cache in 1440p keine Performance verlieren (siehe obigen N21/N23 Vergleich). Jetzt verdoppelt man bei N33 den Cache auf 64 MByte (sqrt(2)=1.41x Amplification), steigert GDDR6 auf 18-21 Gbps (1.12...1.31x) und RDNA3 könnte per se noch etwas besser mit Bandbreite umgehen: Voila, 6900XT Performance mit 128bit und 64MByte IF$. Halt nur in 1440p und darunter. Passt auch zu den Gerüchten, dass N33 bei 4K verglichen zu N21 dann etwas abfällt.

Am Besten sieht man den Performanceverlust der 6600 XT beim Vergelich mit der Radeon VII siehe: https://www.techpowerup.com/review/msi-radeon-rx-6600-xt-gaming-x/28.html
1080p: 11% vorne
1440p: 5% vorne
4K: 9% hinten

Das waren jetzt aber noch nicht einmal sehr anspruchsvolle Spiele.
Slebst unter 4K war die durchschnittliche Framerate bei 52 fps. In der Praxis ist ein Großteil der getesteten Spiele unter 4K durchaus spielbar. Muss ja nicht jede Einstellung auf Ultra stehen.

HOT

2022-04-21, 08:20:41

Welcher Leak? N33 ist geleakt, aber für N31 und 32 gibts keinerlei belastbare Infors zu einem gesalvageten Speicherinterface, nur Mutmaßungen.

Und es ergibt einfach keinen Sinn, denn dafür müsste man ein GCD halb deaktivieren und ein MCD durch einen Dummy ersetzen, das wird so keiner machen, erst recht nicht angesichts N32. Nein, die Dinger werden immer mit 4 MCDs verpackt werden und daher werden alle N31 und N32 aus meiner Sicht vollen Cache und Speicher haben. Es werden auch immer beide GCDs gleichmäßig gesalvaged werden um nicht unnötig Leistung liegen zu lassen. Die MCD an sich fallen kostentechnisch eh kaum ins Gewicht, da extra einen Dummy einzusetzen würde ebenfalls sinnlos Leistung kosten.

amdfanuwe

2022-04-21, 12:43:06

Ich glaube das ist eher einmal eine finanzielle Frage. Bei Navi31 um die 800-1000mm² Gesamtfläche schwirren ja schon Preise um die 2000€ herum. Ich weiß nicht, ob der Gaming Markt um die 3K+ aufwärts wirklich noch so groß ist, dass es sich lohnt einen eigenen Die zu entwickeln.

Die Chips selbst sind bei der Größe gar nicht so teuer. Rechne mit ~$200 für alle 7 Chips des N31. Selbst mit $700 würde AMD bei der N31 noch Gewinn erzielen. Aber warum billig verkaufen, wenn es der Markt hergibt?
Im Serverbereich werden CPUs und GPUs auch wesentlich teurer verkauft, liegt aber nicht am verbautem Silizium.

Zwischen Navi31 und Navi32 eher nicht, zwischen Navi32 und Navi33 sieht es jedoch schon anders aus. Das ist 2.5x was den Die angeht. Navi32 mit 20% deaktiviert wären 8K FP32, Navi33 hat 4K FP32. Aber wie will man den Bereich dazwischen abdecken?

Schrieb ich doch: Nur ein N31 GCD, dann hat man 30WGPs.
In der Regel wird bei den Salvaged Chip eine WGP pro SE deaktiviert.
AMD kann damit folgendes bauen:

14 WGP N33 Salvaged
16 WGP N33
18 WGP 1xN32 GCD Salvaged
20 WGP 1XN32 GCD
27 WGP 1XN31 GCD Salvaged
30 WGP 1xN31 GCD
36 WGP 2XN32 GCD Salvaged
40 WGP 2XN32 GCD
54 WGP 2XN31 GCD Salvaged
60 WGP 2xN31 GCD

Bei den Varianten mit 1X N32/N33 GCD könnte AMD gut die schlechten Chips verbauen, das Heißt die Salvaged Chips und die, die den vollen Takt nicht erreichen.
Vielleicht sieht das Portfolio dann so aus:

7700 14 WGP N33 Salvaged
7700XT 16 WGP N33

7800 27 WGP 1XN31 GCD Salvaged
7800XT 30 WGP 1xN31 GCD

7900 36 WGP 2XN32 GCD Salvaged
7900XT 40 WGP 2XN32 GCD
7950XT 60 WGP 2xN31 GCD

Neurosphere

2022-04-21, 13:05:10

Kann es sein das du da in deiner Liste und bei der 7950 XT für 60 WGP N31 meinst? N33 macht keinen Sinn.

amdfanuwe

2022-04-21, 13:07:27

Kann es sein das du da in deiner Liste und bei der 7950 XT für 60 WGP N31 meinst? N33 macht keinen Sinn.
Klar, Danke, habs korrigiert.

iamthebear

2022-04-21, 20:39:02

Welcher Leak? N33 ist geleakt, aber für N31 und 32 gibts keinerlei belastbare Infors zu einem gesalvageten Speicherinterface, nur Mutmaßungen.

Ich finde jetzt den Link nicht mehr aber die 192 Bit wurden schon vor längerer Zeit von Gremon55 gepostet.
Auch MLID hat sein Lineup mit 192 Bit/12GB gepostet aber ich weiß jetzt nicht mehr in welchem Video und was davon selbst spekuliert wurde. Ingesamt würde ich das jedoch schon als relativ fix ansehen.

Und es ergibt einfach keinen Sinn, denn dafür müsste man ein GCD halb deaktivieren und ein MCD durch einen Dummy ersetzen, das wird so keiner machen, erst recht nicht angesichts N32. Nein, die Dinger werden immer mit 4 MCDs verpackt werden und daher werden alle N31 und N32 aus meiner Sicht vollen Cache und Speicher haben. Es werden auch immer beide GCDs gleichmäßig gesalvaged werden um nicht unnötig Leistung liegen zu lassen. Die MCD an sich fallen kostentechnisch eh kaum ins Gewicht, da extra einen Dummy einzusetzen würde ebenfalls sinnlos Leistung kosten.

Wieso sollte das Speicherinterface auf den GCDs sein? das macht doch keinen Sinn. Dieses wird entweder auf dem IO Die oder den MCDs sein aber ich tendiere eher dazu, dass es am IO Die sitzt und AMD immer 256Bit verbaut aber bei Navi32 einen Teil deaktiviert. Es geht hier weniger um das SI an sich sondern darum, dass AMD bei Navi32 keine 16GB VRAM verbauen will. Das fällt ihnen aktuell gerade furchtbar auf den Kopf bei den aktuellen Speicherpreisen.

Die Chips selbst sind bei der Größe gar nicht so teuer. Rechne mit ~$200 für alle 7 Chips des N31. Selbst mit $700 würde AMD bei der N31 noch Gewinn erzielen. Aber warum billig verkaufen, wenn es der Markt hergibt?
Im Serverbereich werden CPUs und GPUs auch wesentlich teurer verkauft, liegt aber nicht am verbautem Silizium.

200$ für die Chips, 300$ für die 32GB VRAM sind wir bei 500$ Materialkosten. Wenn wir mit 25% Fixkosten und 25% Gewinn kalkulieren (Durchschnittswerte der letzte Bilanz, war aber 2019 auch nicht viel anders) sind wir bei 1000$ Verkaufpreis an die AIBs. Die haben auch wieder ihre Materialkosten wie PCB, Kühler usw., die Fertigungskosten und wollen am Schluss auch mitbetwas Gewinn aussteigen (vielleicht um die 5-10%). Dann kommt noch der Handel, Zoll, Umsatzsteuer etc. drauf. Dann liegen wir im Bereich von 1500-2000 Euro. Die 2000 Euro sind auch in etwa das, was als Gerüchte schon durchgesickert ist. Falls es ein 16GB Modell gibt kann ich mir jedoch vorstellen, dass der unterste Navi31 schon um die 1200 zu haben ist. Navi32 könnte dann von 700 bis 1000 gehen und Navi33 um die 400-500.

Schrieb ich doch: Nur ein N31 GCD, dann hat man 30WGPs.
In der Regel wird bei den Salvaged Chip eine WGP pro SE deaktiviert.
AMD kann damit folgendes bauen:

Ach so meinst du das. Ich dacht du meinst 1 Navi31 + 1 Navi32.
Ich muss zugeben, dass gar keine so blöde Idee ist nun wo der IO Die ja extra ist.
Bei Navi32 macht es eher wenig Sinn, denn 1 Navi32 GCD + MCDs + IO Die dürfte in Summe sicher teurer sein als der monolithische Navi33 aber bei Navi31 macht das durchaus Sinn. Schließlich muss sich AMD für diese sowieso andere Verwendungsmöglichkeiten suchen weil so viele 2K GPUs werden die kaum verkaufen.

iamthebear

2022-04-21, 22:37:31

Gerade erst das Red Gaming Tech vor 4 Tagen nachgeholt und falls die Infos stimmen erübrigen sich ja viele Fragen:
https://youtu.be/nIuSOQAX9to

.) MCDs sind auf die GCDs gestacked, nicht auf den IO Die
.) Das Speicherinterface sitzt nicht im IO Die sondern in den MCDs.
.) Navi31 IC entweder 256MB oder 512MB wobei 512MB mehr Wahrscheinlich sind
.) Navi31 wird 16GB VRAM haben, nur die Pro Varianten (z.B. W6000) werden 32GB haben. Es gibt die Chance für 32GB in einem einzelnen Topmodell allerdings ist die unwahrscheinlich
.) Salvage Navi31 mit 24WGP/GCD und entweder 192MB oder 384MB. Da das Speicherinterface auf den MCDs sitzt bedeutet dies höchstwahrscheinlich auch 192Bit SI mit 12GB RAM bzw. damit sind 256Bit/16GB für Navi32 auch vom Tisch. Wer günstige 16GB haben will muss wohl zu Nvidia gehen.
.) Kostenpunkt hohe 1XXX$ bis niedrige 2XXX$ allerdings noch mit einigen Fragezeichen.

Redneck

2022-04-22, 11:39:48

Gerade erst das Red Gaming Tech vor 4 Tagen nachgeholt und falls die Infos stimmen erübrigen sich ja viele Fragen:
https://youtu.be/nIuSOQAX9to

.) MCDs sind auf die GCDs gestacked, nicht auf den IO Die
.) Das Speicherinterface sitzt nicht im IO Die sondern in den MCDs.
.) Navi21 IC entweder 256MB oder 512MB wobei 512MB mehr Wahrscheinlich sind
.) Navi21 wird 16GB VRAM haben, nur die Pro Varianten (z.B. W6000) werden 32GB haben. Es gibt die Chance für 32GB in einem einzelnen Topmodell allerdings ist die unwahrscheinlich
.) Salvage Navi21 mit 24WGP/GCD und entweder 192MB oder 384MB. Da das Speicherinterface auf den MCDs sitzt bedeutet dies höchstwahrscheinlich auch 192Bit SI mit 12GB RAM bzw. damit sind 256Bit/16GB für Navi32 auch vom Tisch. Wer günstige 16GB haben will muss wohl zu Nvidia gehen.
.) Kostenpunkt hohe 1XXX$ bis niedrige 2XXX$ allerdings noch mit einigen Fragezeichen.

ersetz m al N21 durch N31.
Falls die Preise stimmen.. gute Nacht. Da spiele ich nicht mit

Meridian12

2022-04-22, 12:21:58

Ach,ich freue mich auf die ersten Tests.

Mal schauen was am Ende wirklich rauskommt bei der 7x und NVIDIA 4x.

vinacis_vivids

2022-04-22, 13:40:20

Kleine Zusammenfassung bisher:

AMD Radeon RX 7700 XT
Navi33XT
5120SP
2,6-2,8Ghz GPU-CLK
28,6 Tflop/s fp32
57,3 Tflop/s fp16

Speichersystem
8GB GDDR6
2250Mhz 18Gbps
288.0 GB/s (regulär)
128bit SI

Cachesystem:
256MB IF$
8-Mem-Channel
FLCK ~ 2200Mhz
~ 2252,8 GB/s (effektiv)

TSMC 6nm
TDP: 200W
Die-Size: ~350mm²

Das Ding ist schneller als die 3090Ti und verbraucht nicht mal die Hälfte :biggrin:

WedgeAntilles

2022-04-22, 13:56:08

Moment, irgendwas stimmt da doch nicht?

Hier im Forum wurde doch immer - und zu Recht - darauf hingewiesen, dass die 3070 mit 8GB zu wenig Ram hat.
Und die 3080 mit 10GB ebenfalls zu wenig.

Jetzt, 2 Jahre später, soll AMD also eine Karte rausbringen, die SCHNELLER als die 3080 ist, aber WENIGER Ram hat?
Also nur 8GB?
Wo doch die 10GB bei der langsameren 3080 viel zu wenig waren?

Du meinst 16GB Ram, oder?

DrFreaK666

2022-04-22, 14:31:32

Laut Gerüchten sind es tatsächlich nur 8GB. Bleibt zu hoffen dass die Gerüchte falsch sind oder dass AMD auch eine Karte mit 16GB anbieten wird

unl34shed

2022-04-22, 14:40:29

Wenn da am ende eine 4xx€ Karte für 1080p bei rum kommt sind die 8GB zu verkraften, wenn sie sich alternativ mit 16GB im oberen 500€ Bereich bewegt. Beide Varianten wären natürlich besser.

Soll N33 nicht übrigens laut RGT die 7600 werden?

vinacis_vivids

2022-04-22, 15:04:47

16GB, >3090ti Leistungen und ne deutlich bessere Fertigung TSMC 6nm für 500€ wird es nicht geben.

NV verkauft gerade ne schlechte Fertigung für 2200€.

HOT

2022-04-22, 15:12:20

8GB sind purer Unsinn mMn. Ich bleib auch dabei, alle N3x sind mMn 16GB.

N33 128MB IF$ 128Bit 8 2GB GDDR6 Chips
N32 192 und 256MB IF$ 128Bit oder 256Bit (2 oder 4 MCDs, kann beides sein) 8 2GB GDDR6 Chips
N31 384 und 512MB IF$ 256Bit (4 MCDs) 8 2GB GDDR6 Chips

Als Refresh könnte man dann 4GB-Chips verbauen.

WedgeAntilles

2022-04-22, 15:43:49

16GB, >3090ti Leistungen und ne deutlich bessere Fertigung TSMC 6nm für 500€ wird es nicht geben.

NV verkauft gerade ne schlechte Fertigung für 2200€.

Ah, so fängst du also schon mal an das schönzureden.

Noch mal: Bei der 3070 für 500 Euro wurde generell gesagt: Ein absoluter Speicherkrüppel, die Karte ist nicht gut.

Wenn du jetzt anfängst eine schnellere Karte als die 3070 mit 8GB schönzureden nur weil sie diesesmal von AMD kommt ist das ein Witz²

Ich denke aber nicht, dass wir in diesem Bereich eine 8GB Karte von AMD sehen werden - eben weil AMD bei der aktuellen Generation das Doppelte hatte. (Höchstens als Alternative zur 16GB Variante.)
Da bei schnelleren Karten plötzlich nur die Hälfte anzubieten wäre lächerlich.
Nein, wird nicht kommen, egal was irgendwelche Leaker sagen - die sagen viel, wenn der Tag lang ist.

Von daher dürfte die Diskussion rein theoretischer Natur sein.

amdfanuwe

2022-04-22, 15:49:02

Kleine Zusammenfassung bisher:

AMD Radeon RX 7700 XT
Navi33XT
5120SP

Cachesystem:
256MB IF$

Sollen nur 4096 SP werden.
256MB IF$ sind zuviel für N33.

Wenn da am ende eine 4xx€ Karte für 1080p bei rum kommt sind die 8GB zu verkraften, wenn sie sich alternativ mit 16GB im oberen 500€ Bereich bewegt. Beide Varianten wären natürlich besser.

Soll N33 nicht übrigens laut RGT die 7600 werden?
N33 ersetzt erstmal die 6800 und 6900, rechne also eher mit 1000€.
RGT weiß auch nicht mehr als wir.

16GB, >3090ti Leistungen und ne deutlich bessere Fertigung TSMC 6nm für 500€ wird es nicht geben.

NV verkauft gerade ne schlechte Fertigung für 2200€.
Fertigungskosten haben nichts mit Verkaufspreis zu tun, solange der Hersteller noch daran verdient.

amdfanuwe

2022-04-22, 15:51:23

egal was irgendwelche Leaker sagen - die sagen viel, wenn der Tag lang ist.

1+

Dampf

2022-04-22, 16:32:15

Ich hätte gerne mal wieder eine Einsteiger-Karte mit 6 GB.

4 GB für die 6500XT sind schon arg wenig. Eine gute 7500XT mit voller PCie Bandbreite und 6 GB VRAM wäre ideal.

AffenJack

2022-04-22, 16:53:07

N33 ersetzt erstmal die 6800 und 6900, rechne also eher mit 1000€.
RGT weiß auch nicht mehr als wir.

Die 6900 ist nur das Prestigeprodukt gerade, 6800 und 6800XT sind da preislich deutlich eher der Maßstab. 500$ für etwas mehr Leistung als die 6800XT für 650$ dürfte es eher werden. Vielleicht sogar weniger. Am Ende ist N33 ein N22 Ersatz. N32 der N21 Ersatz und N31 ist in einer neuen Klasse. Zu 500$ und weniger passen dann auch 8 GB halbwegs. Immerhin reduziert man nur von 12 auf 8 Gb.

Davon abgesehen habe ich immernoch große Zweifel, dass man an die 6900XT rankommt mit N33. Klar mit 4096 Shadern bei 2,5ghz hat man die nötigen TFlops. Aber mit 128 Bit gegen 256 Bit von N21, schwierig.

Kann man bei AMD den Ram untertakten? N21 mit 12GBps wäre mal interessant in Benches, weil das erstmal 128Bit mit 24Gbps und 128mb IF Cache entsprechen würde, also einer möglichen N33 Konfiguration. Klar kommt da noch ne neue Architektur dazu, aber es wäre immerhin ein Anhaltspunkt. Das wäre doch mal ein Test für PCGH :biggrin:

unl34shed

2022-04-22, 17:20:29

N33 ersetzt erstmal die 6800 und 6900, rechne also eher mit 1000€.

Nach der Logik müssten Grafikkarten wohl aktuell Millionen Kosten, weil sind mittlerweile locker 1000x Schneller als die ersten 3D Beschleuniger für 1000Mark. Sorry, aber die relative Performance zum Vorgänger ist für die Preisfindung zweitrangig, vor allem, wenn es nur der Midrange Chip ist!

Chipmangel und generelle Inflation wegen dem verrückten Russen ist klar. ABER die 6800, 6800XT und 6900 sind alles Navi21 Karten, und deren MSRP begann bei 580$ für die 6800 und das für einen 520mm² Chip in 7nm und 16GB GDDR6. N33 soll ca. 2/3 der Größe haben und gerade mit nur 8GB sind <500$ locker drin. Realistisch kannst du eine Karte mit dem Chip mMn. mit maximal 600$ bepreisen, dann müssen es aber 16GB sein.

Noch mal, das wird das 7600 oder 7700 Modell, deren Vorgänger 6700 XT eine MSRP von 499$ hat, die 6600XT 399$.

Redneck

2022-04-22, 17:32:56

8GB sind purer Unsinn mMn. Ich bleib auch dabei, alle N3x sind mMn 16GB.

N33 128MB IF$ 128Bit 8 2GB GDDR6 Chips
N32 192 und 256MB IF$ 128Bit oder 256Bit (2 oder 4 MCDs, kann beides sein) 8 2GB GDDR6 Chips
N31 384 und 512MB IF$ 256Bit (4 MCDs) 8 2GB GDDR6 Chips

Als Refresh könnte man dann 4GB-Chips verbauen.
Mit 8GB kann man das totale Entwerten der Vorgängergeneration aber etwas abmildern.

vinacis_vivids

2022-04-22, 17:54:40

Der SI-cut ist extrem wichtig, weil SI zuviel Platz und Energie verbraucht und zu wenig leistet.

Bei N33 halte ich 128bit SI für sehr sehr realistisch. Warum?

Auf der begrenzten Fläche ~350mm² lässt sich SI und Mem-Controller einsparen und dafür mehr IF$ und Shader einbauen. IF$ und Shader-Logik kann man sehr gut shrinken von 7nm auf 6nm.

Die Shader kann AMD dicker machen und locker höher Takten auf 2,8-3,0Ghz
Gut die 256MB IF$ könnten zu optimistisch sein bei N33, wobei man mit 256MB IF$ dann auch N21 überholt in 4K,5K,6K.
Größere IF$ muss AMD dann 3D stapeln. Der Aufbau von IF$ ist zwar teuer, aber dafür sind die Zugriffe schneller und billiger als auf dem langsamen VRAM.

256MB IF$ also nur bei 3D stapeln für N33.

Bei 128bit SI / 256MB IF$ sind 8GB zu verschmerzen, weil die meisten Zugriffe eh auf dem IF$ gehen und der VRAM als langsamer buffer verwendet wird.

N33: 128bit SI / 256MB IF$ / 8GB / 4096-5120SP / 2,8 Ghz / 200W

N32: 192bit SI / 384MB IF$ / 12GB / 8192-10240SP / 2,7 Ghz / 300W

N31: 256bit SI / 512MB IF$/ 16GB / 12288-15360SP / 2,5 Ghz / 450W

Bei N31 kann es sein, dass es eine Prestige-Version dann mit 32GB geben wird.

iamthebear

2022-04-22, 18:24:34

ersetz m al N21 durch N31.

Ja sorry ist korrigiert.

Falls die Preise stimmen.. gute Nacht. Da spiele ich nicht mit

Dass es die 3x Performance nicht um 650$ wie die 6800 XT geben wird war relativ klar und dass das gesamte Lineup um 1 Stufe nach oben rutschen wird habe ich jetzt schon aus mehreren Quellen gehört.
Ich hatte nur gehofft, dass es zumindest einen kleineren Navi31 mit 16GB geben wird, der noch halbwegs bezahlbar bleibt aber dem ist scheinbar nicht so.

Kleine Zusammenfassung bisher:

AMD Radeon RX 7700 XT
Navi33XT
5120SP
2,6-2,8Ghz GPU-CLK
28,6 Tflop/s fp32
57,3 Tflop/s fp16

Die überwiegende Mehrheit der Quellen ist sich mittlerweile einig, dass Navi33 nur 16 WGP mit 4096 FP32 haben wird.

Takt ist 2.8-3GHz für Navi33.
2.6-2.8GHz ist für Navi31. Dieser ist etwas niedriger getaktet.

Dass es sich bei Navi33 um die 7700 XT handeln will ist bisher noch unklar. Das weiß wohl nicht mal AMD. Das darf sich das Marketing 1 Monat vor Launch aussuchen wie sie das Teil nennen aber ich würde eher zu 7600 XT tendieren sonst gehen oben die Namen aus falls zwischen Navi32 und 33 doch noch was kommt.

Cachesystem:
256MB IF$
8-Mem-Channel
FLCK ~ 2200Mhz
~ 2252,8 GB/s (effektiv)

128MB Infinity Cache
Was die Bandbreite angeht: Keine Ahnung. Könnte grob hinkommen.

TSMC 6nm
TDP: 200W
Die-Size: ~350mm²

Die size laut MLID definitiv 360-460mm², vermutlich jedoch zwischen 360 und 410mm². Ich würde also eher mit 400mm² rechnen.

Das Ding ist schneller als die 3090Ti und verbraucht nicht mal die Hälfte :biggrin:

Das ist deutlich zu optimistisch. Laut MLID ist Navi33 auf 6900 XT Niveau in 1440p, auf 1080p etwas schneller aber in 4K (was meiner Meinung nach die Referenz in der Klasse ist) sogar etwas langsamer.
Ich würde also sagen bestenfalls 3080 Ti Niveau wenn man DLSS, RT und andere Features wie Reflex ignoriert.
Zusätzlich werden die 8GB auch öfters mal zum Problem werden.

Moment, irgendwas stimmt da doch nicht?

Hier im Forum wurde doch immer - und zu Recht - darauf hingewiesen, dass die 3070 mit 8GB zu wenig Ram hat.
Und die 3080 mit 10GB ebenfalls zu wenig.

Jetzt, 2 Jahre später, soll AMD also eine Karte rausbringen, die SCHNELLER als die 3080 ist, aber WENIGER Ram hat?
Also nur 8GB?
Wo doch die 10GB bei der langsameren 3080 viel zu wenig waren?

Du meinst 16GB Ram, oder?

Die VRAM Preise haben sich seit Ampere/RDNA 2 Launch verdoppelt während die Kosten/Transistor deutlich gefallen sind. Das ist eine 400-500$ Karte. Wenn AMD da 16GB rein stopft gibt es das Ding nicht unter 800$.

WedgeAntilles

2022-04-22, 20:24:12

Die VRAM Preise haben sich seit Ampere/RDNA 2 Launch verdoppelt während die Kosten/Transistor deutlich gefallen sind. Das ist eine 400-500$ Karte. Wenn AMD da 16GB rein stopft gibt es das Ding nicht unter 800$.
Nach dieser Mathematik kosten also 8GB Ram 300-400 Euro.
D.h. die eigentliche Karte (ohne den Ram) kostet irgendwas zwischen 50 und 100 Euro.
Gewagte These.

Davon abgesehen war die 3070 auch beim Launch eine 500 Euro Karte - und da galt gemäß dem Forum hier die Karte als "Müll" und "unbrauchbar"
Wenn die 3070 "Müll" war wegen nur 8GB Ram ist auch eine AMD Karte "Müll".

Wieso bei AMD jetzt eine 500 Euro Karte plötzlich anders bewertet werden soll erschließt sich wohl nur einer ganz speziellen Art von Mensch.

Aber meinetwegen ist ab jetzt halt eine 8GB Karte völlig ok.
Gilt das ab heute auch für die 3070 oder gilt das erst ab dem Tag, an dem man die 8GB AMD Karte kaufen kann?

iamthebear

2022-04-22, 21:10:14

Nach dieser Mathematik kosten also 8GB Ram 300-400 Euro.

1GB GDDR6 kostet aktuell um die 10$ also bei 8GB 80$
Ein Navi33 Die kostet bei ca. 400mm² auch um die 80$
Also gesamt 160$ im Einkauf.
Als Verkaufspreis kannst du ca. das doppelte davon ansetzen. Vom Aufschlag werden Fixkosten bezahlt und der geplante Gewinn von ca. 20-30% vom Umsatz.
Also sind wir bei 320$ als Basis. Da drauf kommen die Kosten der Boardpartner für PCB, Kühler, deren Personalkosten, technisches Equipment, Marketing, Garantierückstellungen, danach Transport, Zoll, alle Händler in der Kette, Umsatzsteuer usw. wodurch die Karte dann um die 480 Euro bei uns im Handel steht wobei die meisten Kosten prozentual auf den Warenwert aufgeschlagen werden.

Also alles in allem ca. Faktor 3 von AMD Einkaufpreis zu Handel Verkaufspreis.

Mit 16GB:
160$ für den VRAM
80$ für den Chip
240$ Einkaufspreis * 3 = 720 Euro Verkaufspreis

OK die 800 Euro waren etwas übertrieben aber man sieht gut wo es hin geht.

Davon abgesehen war die 3070 auch beim Launch eine 500 Euro Karte - und da galt gemäß dem Forum hier die Karte als "Müll" und "unbrauchbar"
Wenn die 3070 "Müll" war wegen nur 8GB Ram ist auch eine AMD Karte "Müll".

Wieso bei AMD jetzt eine 500 Euro Karte plötzlich anders bewertet werden soll erschließt sich wohl nur einer ganz speziellen Art von Mensch.

Aber meinetwegen ist ab jetzt halt eine 8GB Karte völlig ok.
Gilt das ab heute auch für die 3070 oder gilt das erst ab dem Tag, an dem man die 8GB AMD Karte kaufen kann?

Völlig OK sind 8GB in dieser Performanceklasse natürlich nicht und falls Nvidia etwas mit ähnlicher Performance in derselben Preisklasse anbietet sollte man natürlich zu 12GB+ greifen.

Natürlich ist mehr VRAM immer nett wenn man ihn gratis dazu bekommt. Wenn dieser aber nicht mehr gratis ist sieht es oft gleich ganz anders aus.

Am Beispiel deiner "Müllkarte" 3070:
Wenn ich mir das CB Review ansehe und die 3070 mit der 2080 Ti vergleiche, dann ist der Verlust durch die 8GB in den meisten Spielen selbst in 4K nicht einmal messbar. Da muss man schon extra Texturen Modpakete runterladen oder RT in 4K auf Ultra hochdrehen, um da künstlich ein Problem zu konstruieren, dass man auf einmal nur mehr 10fps statt 15fps hat.

Was macht wohl mehr Sinn:
.) Navi33 mit 6900 XT Performance, wo man gelegentlich mal bei manchen Spielen 10% Performanceeinbruch hat.
.) Oder eine Karte mit 6700 XT Performance mit 12GB VRAM ohne Einbrüche, dafür aber generell 40% langsamer die in der Produktion auch nicht billiger ist.
.) Oder man packt 16GB drauf und verkauft sie um 700-800 Euro. Dann ist sie 40% langsamer als ein Salvage Navi32 um die 10-12GB wiederrum um denselben Preis und die 500 Euro Käufer gehen erst wieder leer aus.

amdfanuwe

2022-04-22, 23:14:58

1GB GDDR6 kostet aktuell um die 10$ also bei 8GB 80$
Ein Navi33 Die kostet bei ca. 400mm² auch um die 80$
Also gesamt 160$ im Einkauf.
Als Verkaufspreis kannst du ca. das doppelte davon ansetzen.
Nö.
GDDR6 ist ein durchlaufender Posten, da wird nicht nochmals 100% aufgeschlagen.
Das würden sich die RAM Produzenten nicht gefallen lassen.
100% Gewinnmarge draufsetzen ist auch eher was für den Serverbereich, geh mal von 50% aus.
Dann sind wir bei $200 für das Paket inklusive Gewinn für AMD.

Wenn im Handel mehr erzielt werden kann, freuen sich natürlich alle Beteiligten.
Der UVP ist der Preis, den man glaubt am Markt erzielen zu können.
Verkauft sich das Produkt schlecht, geht der Verkaufspreis auch schnell runter bzw. hoch bei entsprechender Nachfrage. Das erleben wir ja gerade.

Selbst für 400€ würde eine N33 Karte noch Gewinn erzielen, am meisten wahrscheinlich dann für den Finanzminister.

Rampage 2

2022-04-23, 00:19:19

Und ja, ich rechne mit 24Gt/s weil die von Samsung schon lange angekündigt und bis dahin sicherlich verfügbar sind. Samsung war da sogar früher dran mit listing und samples als Micron mit ihrem GDDR6X 24gt/s.

Ich hatte schon im LL-Thread die Frage gestellt (wurde nicht beantwortet) und dieselbe Frage stelle ich nochmal hier:

Weiß man schon Genaueres über GDDR7? Das soll ja NOCH höhere Transferraten (>24 Gbps) als GDDR6/X ermöglichen und u.A. Samsung aktuell an dessen Entwicklung beteiligt sein. Wäre ja gerade für AMD-GPUs mit nur 256Bit Interface von besonderer Bedeutung:)

R2

HarryHirsch

2022-04-23, 00:27:18

Wurde der denn inzwischen schon spezifiziert?

AffenJack

2022-04-23, 06:10:47

100% Gewinnmarge draufsetzen ist auch eher was für den Serverbereich, geh mal von 50% aus.

Nö, 100% ist viel eher das was AMD und Nvidia etwa generell nehmen dürften bei GPUs. 50% gibts höchstens im Low-End bzw bei den Konsolendeals. Beim Server ist man eher im 400% Bereich.

AMDs Gross Margin im kompletten Unternehmensdurchschnitt ist bei 50% und das inklusive der Konsolen mit wenig Marge. Daher im Durchschnitt nimmt AMD 100% Marge obendrauf und higher end GPUs dürften in den Bereich fallen.

HOT

2022-04-23, 07:41:05

Mit 8GB kann man das totale Entwerten der Vorgängergeneration aber etwas abmildern.

Mit 8GB brauchst das Teil gar nicht erst bringen. Ausserdem hat N22S ja auch schon 12.

Redneck

2022-04-23, 11:02:30

Mit 8GB brauchst das Teil gar nicht erst bringen. Ausserdem hat N22S ja auch schon 12.

Stimmt.. 12 wäre auch ein Weg.
Aber es kann in niemandes Interesse sein, wenn 6800\6900 auf einmal keine Abnehmer mehr findet, weil die neue Einstiegsklasse das alte High End obsolet macht. Nicht wenige müssen ihre alte Graka vor Eewerb ihrer neuen erst einmal veräußern.

vinacis_vivids

2022-04-23, 12:22:22

Ich denke die Speicherbestückung wird bei 8GB - 12GB - 16GB belassen. Ebenfalls das SI von 128bit / 192bit / 256bit. Lediglich der Top-Dog N31 XTX wird mit 32GB kommen.
Der Fokus bleibt bei
1. der Ausdehnung des IF$ = "Cache is King",
2. MCD - Infinity-fabric - Kontrollogik
3. Ausbau der CUs für RT - Verdopplung.
4. Etwas mehr Takt auf 2.8-3.0Ghz

bbott

2022-04-23, 13:06:02

Seit wann ist ATI/AMD so geizig mit RAM und NV hat diese Gen einiges an prügel des wegen einstecken müssen. Ich offen das 16/24/32 GB die neuen größen werden, zu mindestens optional. 8GB wären ein schlechter Witz.

HOT

2022-04-23, 13:32:50

Stimmt.. 12 wäre auch ein Weg.
Aber es kann in niemandes Interesse sein, wenn 6800\6900 auf einmal keine Abnehmer mehr findet, weil die neue Einstiegsklasse das alte High End obsolet macht. Nicht wenige müssen ihre alte Graka vor Eewerb ihrer neuen erst einmal veräußern.
Wen interessiert das? Das ist für AMD schlichtweg kein Argument. N33 wird sowieso die Märkte der 6800/900 übernehmen, der ist für AMD doch viel viel billiger als N21. Wozu brauchst du dann "Welpenschutz" für N21? Das ist nun wirklich total sinnlos. Wenn man 7nm weiterhin nutzen möchste belässt man einfach N22 und 23 auf dem Markt, bis man alles auf N6 umgestellt hat. Aber deswegen N21 weiterzubetreiben ergibt in gar keiner Welt einen Sinn.

Ich denke, man wird die Bestückung einfach etwas herabstufen:

N24 bleibt 6400/500 und fertig
N23S -> 8GB RX7500, ersetzt RX6600
N22S -> 12GB RX7600, ersetzt RX6700
N33 -> 16GB RX7700, ersetzt darüber

Was darüber ist ist schwer zu sagen, aber 16GB sind auf jeden Fall aus meiner Sicht - kein 12 und auch kein 8GB.
8GB für N33 ist so hirnverbrannt - NV wird sowohl den 103er als auch den 104er ebenfalls mit 16GB bestücken.

ChaosTM

2022-04-23, 13:53:54

12/16(24)/(24)32 würde gefühlt Sinn machen, je nachdem wie das mit den Anbindungen zusammenpasst.
8 für die ganz kleinen Einsteigerkarten geht auch noch.

HOT

2022-04-23, 15:29:07

24 und 32GB find ich bei Consumerkarten herzlich sinnlos für diese Generation. 32 kann man dann ja für die RadeonPro und evtl. für eine Fury machen.

vinacis_vivids

2022-04-23, 15:39:58

Nur mit 8GB/128bit SI kann AMD N33 preiswert verkaufen, hohe Stückahlen produzieren und Geld verdienen. Mit 16GB wird es für viele zu teuer sein. Zu hohe Preise sind für ein mittleres Modell schlecht, da verdient man nix.

N33 8GB wird auch eher alle Mittelklasse Modelle der Konkurrenz GA104 (3060Ti, 3070, 3070Ti) 8GB einkassieren und die Leute aus dem grünen Lager zum Wechseln bewegen.

Launchpreis für N33 8GB = 499-549 USD

Linmoum

2022-04-23, 15:43:47

Zu hohe Preise sind für ein mittleres Modell schlecht

Mittelklasse

499-549 USD
Ähhm... ja.

vinacis_vivids

2022-04-23, 15:51:19

Das ist Preisklasse wie die Mittelklasse 3070/3070Ti mit 499-599 USD.
Vielleicht gibs auch ein Salvage N33 mit 3840SP, den man für 399 USD auf dem Markt wirft.

ChaosTM

2022-04-23, 15:51:33

24 und 32GB find ich bei Consumerkarten herzlich sinnlos für diese Generation. 32 kann man dann ja für die RadeonPro und evtl. für eine Fury machen.

Ich schaffe es sogar mit einem 9 Jahre alten Spiel die 16GB (3080M) "spielbar" zu sprengen. GTA5 @2400p 8x AA alles auf MAX + ein textur mod. (17GB Verbrauch)

Extremfall, ist mir schon klar, aber beim Speicher sparen sollte man nie, bzw sollte man dem User die Wahl lassen. 8GB reicht im absoluten Einsteigerbereich noch viele Jahre, weiter "oben" kann es bald knapp werden.

amdfanuwe

2022-04-23, 16:04:55

Das ist Preisklasse wie die Mittelklasse 3070/3070Ti mit 499-599 USD.
Vielleicht gibs auch ein Salvage N33 mit 3840SP, den man für 399 USD auf dem Markt wirft.
Wenn N33 an die 6900XT rankommt und dann noch besseres RT bietet, wird man die auch in dem Preisbereich ansiedeln.
Billiger kann man immer noch werden.

vinacis_vivids

2022-04-23, 16:06:08

Du meinst N33 16GB für 999 USD?

amdfanuwe

2022-04-23, 16:10:12

Du meinst N33 16GB für 999 USD?
Wäre angebracht. Die 8GB Karte, die dann nur bei wenigen Games bei den Texturen einbüßt, dann 100-150€ billiger.

Edit: erstmal muß AMD feststellen, was die Karte wirklich Leistet, dann können sie den Preis anhand der aktuellen Marktbedingungen festlegen.
Komm auch darauf an, wieviele 6800/6900 noch im Markt sind, die wollen ja auch ohne große Verluste abverkauft werden.

BlacKi

2022-04-23, 16:48:02

zumindest sind alle anderen lösungen genauso beschissen. man könnte die 6950xt auf 500-600 $ bringen und dementsprechend auch die n33 karten. aber es werden keine realen straßenpreise sein und amd wird das geld den shops und scalpern überlassen. kann man machen, ist aber nicht optimal.

oder man lässt die 6950xt auf 999$ und setzt die n33 karten in die midrange preisklasse, dann wird amd nur noch an den n33 karten eine rießige marge verlieren.

das wahrscheinlichste und sinnvollste ist der 999$ pricetag für die zeit, bis das lineup komplett ist und der markt wieder normal ist.

unl34shed

2022-04-23, 16:56:20

N24 bleibt 6400/500 und fertig
N23S -> 8GB RX7500, ersetzt RX6600
N22S -> 12GB RX7600, ersetzt RX6700
N33 -> 16GB RX7700, ersetzt darüber

Du glaubst wirklich, dass Navi 2x noch so stark vertreten sein wird? Ich nicht.
N23 und 24 sind von der Performance zu nah beieinander (10-15%), da wird meiner Meinung nach wenn überhaupt nur einer von beiden überleben und die 7500 stellen.

Oben drüber kommen ja noch N32 und N31 inkl. deren Salvage Karten.

Ich schaffe es sogar mit einem 9 Jahre alten Spiel die 16GB (3080M) "spielbar" zu sprengen. GTA5 @2400p 8x AA alles auf MAX + ein textur mod. (17GB Verbrauch)

Belegter Speicher != benötigter Speicher. Deine 3080M hat 448GB/s and Bandbreite, damit kann sie den vollen Speicher maximal bei 28fps nutzen, bei 60fps nur noch 7.5GB, 120fps 3.75GB usw. und das Ganze bei 100% Auslastung des Buses.

Ein 128b Interface mit 20/22/24 GT/s könnte die vollen 16GB gerademal bei 20/22/24fps nutzen.

Edit: erstmal muß AMD feststellen, was die Karte wirklich Leistet, dann können sie den Preis anhand der aktuellen Marktbedingungen festlegen.
Komm auch darauf an, wieviele 6800/6900 noch im Markt sind, die wollen ja auch ohne große Verluste abverkauft werden.

Wäre wie gesagt neu, das so zu machen, vor allem mit der möglichen Performance von N32 und N31. Was sollen die dann Kosten?
Hier mal die letzten Nvidia Generationen und oh wunder abseits des Premiumaufschlags für die 80Ti und jetzt 3090 hat sich nicht viel getan, die 3060 wurde sogar günstiger obwohl sie schneller ist und den doppelten Speicher hatte :eek:
https://i.redd.it/av9gx1b4b6471.png

970 -> 3070 müsste die 3x Performance sein warum spiegelt das der Preis nicht wieder? :confused:

Bzgl. Lagerbeständen und mit Verlust verkaufen: AMD macht mit der 6800 bei 580$ noch Gewinn, also warum nochmal 1k$?

amdfanuwe

2022-04-23, 17:11:07

also warum nochmal 1k$?
Damit sich die Leute nicht verarscht vorkommen, wenn die Karte mit $600 MSRP in den Markt geht und dann nur noch für $1000 zu haben ist.

Wenn die Karte mit MSRP $1000 in den Markt geht und später der Preis auf $600 sinkt, denken alle an ein Schnäppchen und freuen sich.

ChaosTM

2022-04-23, 17:21:19

Belegter Speicher != benötigter Speicher. Deine 3080M hat 448GB/s and Bandbreite, damit kann sie den vollen Speicher maximal bei 28fps nutzen, bei 60fps nur noch 7.5GB, 120fps 3.75GB usw. und das Ganze bei 100% Auslastung des Buses.

Von Rockstar angezeigter VRAM-Verbrauch im Menü.

Natürlich machen die Settings keinerlei Sinn. Es sollte nur veranschaulichen, dass man beim Speicher nie sparen sollte.
16 hört sich nach viel an, ist es aber nicht. 8 sollte man wirklich nur mehr bei den absoluten Einsteigerkarten einsetzten.
16+ erlauben auch bessere Texturen. Fortschritt ist immer zu begrüßen und sollte nicht durch Speichermangel behindert werden.

unl34shed

2022-04-23, 17:24:32

Damit sich die Leute nicht verarscht vorkommen, wenn die Karte mit $600 MSRP in den Markt geht und dann nur noch für $1000 zu haben ist.

Wenn die Karte mit MSRP $1000 in den Markt geht und später der Preis auf $600 sinkt, denken alle an ein Schnäppchen und freuen sich.

Und jeder der die MSRP der Vorgänger Graka kennt kommt sich nicht verarscht vor? Das sollen nicht die 6800/6900XT! sein, sondern 6700XT, die bei 479$ lag wenn nicht sogar 6600XT für 399$!

Da wird es sehr sicher Pressemeldungen geben ala "AMD scalpt selber, Mittelklasse für 1k$ statt bisher 499$"? Ganz ehrlich, ich befürchte die scheiße bliebe viel länger an AMD haften, als erhöhte Straßenpreise ob durch Chipmangel, Scalper, Miner, einem verrückten Russen oder der üblichen geringen Verfügbarkeit zu Beginn jeder neuen Gen.

Außerdem müsste Nvida dann auch die Preise verdoppeln, Kartell anyone?

unl34shed

2022-04-23, 17:56:56

Von Rockstar angezeigter VRAM-Verbrauch im Menü.

Natürlich machen die Settings keinerlei Sinn. Es sollte nur veranschaulichen, dass man beim Speicher nie sparen sollte.
16 hört sich nach viel an, ist es aber nicht. 8 sollte man wirklich nur mehr bei den absoluten Einsteigerkarten einsetzten.
16+ erlauben auch bessere Texturen. Fortschritt ist immer zu begrüßen und sollte nicht durch Speichermangel behindert werden.

Ich geb dir ja recht, wenn es zwei identische Karten gibt und eine mehr Speicher hat für einen minimalen Aufpreis werde ich die auch jederzeit vorziehen, aber die zusätzlichen 8GB werden AMD 60+$ im Einkauf kosten, bis das Produkt beim Kunden ist, haben sich die Mehrkosten dann verdoppelt (Wertschöpfungskette).

Eine 8GB N33 macht von Lineup nach den aktuellen Infos, halt leider mehr sinn, darüber Salvage N32 mit 12GB und darüber alles mit 16GB.

E:
Auch sind Festplatten nicht mehr so lahm wie noch vor ein paar Jahren, Grakas können direkt vom Speicher lesen etc., so dass man in Zukunft deutlich mehr nachladen können wird.

vinacis_vivids

2022-04-23, 18:59:14

Wäre angebracht. Die 8GB Karte, die dann nur bei wenigen Games bei den Texturen einbüßt, dann 100-150€ billiger.

Edit: erstmal muß AMD feststellen, was die Karte wirklich Leistet, dann können sie den Preis anhand der aktuellen Marktbedingungen festlegen.
Komm auch darauf an, wieviele 6800/6900 noch im Markt sind, die wollen ja auch ohne große Verluste abverkauft werden.

Bei 999 USD muss N33 16GB aber richtig richtig liefern. Das heißt sicher 256MB IF$, 3.0Ghz, 4096/5120SP, 128bit SI, besseres RT bei 200-250W.

30-40% schneller als 6950XT bzw. 3090Ti sollte da schon rauskommen. Das heißt die CUs müssen deutlich größer werden und der Cache-CLK auch.
Das wäre natürlich geil, aber etwas zu optimistisch: Der IF-CLK müsste von 1,9Ghz auf 3Ghz steigen. Das bedeutet dann auch ein 500-550mm² Chip statt 350-400mm²

Alles in allen sehr unwahrscheinlich, dass ein N33 16GB für 999 USD in den Markt kommt. Glaube nicht, dass das die interne Ausrichtung ist für ne Single-GPU soviel zu investieren.

DrFreaK666

2022-04-23, 20:35:35

Seit wann ist ATI/AMD so geizig mit RAM und NV hat diese Gen einiges an prügel des wegen einstecken müssen. Ich offen das 16/24/32 GB die neuen größen werden, zu mindestens optional. 8GB wären ein schlechter Witz.

Eine 7500XT mit 8GB wäre ausreichend

Redneck

2022-04-23, 20:42:50

Wen interessiert das? Das ist für AMD schlichtweg kein Argument. N33 wird sowieso die Märkte der 6800/900 übernehmen, der ist für AMD doch viel viel billiger als N21. Wozu brauchst du dann "Welpenschutz" für N21? Das ist nun wirklich total sinnlos. Wenn man 7nm weiterhin nutzen möchste belässt man einfach N22 und 23 auf dem Markt, bis man alles auf N6 umgestellt hat. Aber deswegen N21 weiterzubetreiben ergibt in gar keiner Welt einen Sinn.

Ich denke, man wird die Bestückung einfach etwas herabstufen:

N24 bleibt 6400/500 und fertig
N23S -> 8GB RX7500, ersetzt RX6600
N22S -> 12GB RX7600, ersetzt RX6700
N33 -> 16GB RX7700, ersetzt darüber

Was darüber ist ist schwer zu sagen, aber 16GB sind auf jeden Fall aus meiner Sicht - kein 12 und auch kein 8GB.
8GB für N33 ist so hirnverbrannt - NV wird sowohl den 103er als auch den 104er ebenfalls mit 16GB bestücken.

Mit Marketing hast du nichts am Hut, oder? Wie betreibt man Kundenbindung?
Kann dir eins sagen : in dem man zufriedene Kunden hat, die sich nicht verarscht vorkommen. Wenn man dauerhaft high End zu High End Preisen verticken möchte, darf man diese Klientel nicht vor den Kopf stossen, in dem mann das eigene Produkt entwertet. Es wird immer leute geben, denen das egal sein wird, aber die Masse schaut bei seinen Investitionen schon nach best bang for buck und das man später noch was dafür bekommt.

maximus_hertus

2022-04-23, 20:43:51

Nur mal angenommen, N33 kommt als 7600 auf den Markt und man bleibt, wie bei der 6600, bei 8GB, wäre das zwar keine tolle Sache, aber auch keine Katastrophe.

Und bevor ich da AMD oder nV den "Kopf abreise", warte ich erstmal die Reviews ab. Sowohl Performance, als auch die finale Architektur.

Und der Hype-Train ist bei manchen mal wieder kurz vorm Entgleisen. 30% vor der 6900XT? Warum nicht 50%?

Ich denke wir werden im Juni endlich mehr (offizielle) Infos bekommen und dann eher sehen, wohin die Reise geht.

BlacKi

2022-04-23, 20:52:57

wenigstens nimmt die diskussion etwas fahrt auf, die habe ich schon vor einigen tagen woanders angesprochen.

Meridian12

2022-04-23, 20:53:01

Hier machen einige aber einen gewaltigen Denkfehler.

Wenn Navi 33 so schnell ist wie eine 6900XT. Glaubt ihr dann wirklich,die Karte kostet 1000 Euro UVP?

Navi 32 kostet 1500 Euro und Navi 31 2000 Euro +??

Ich würde gerne mal Verkaufszahlen sehen, aber denke Karten über 1000 Euro machen nichtmal 1 % der Käufe aus.

Das Geld wird im unteren Bereich verdient.

50 500 Euro Karten bringen AMD viel,viel mehr Gewinn als 2 2000 Euro Karten.

Klar Lieferbar müssen sie alle sein. Und natürlich darf die 500 Euro Karte auch nicht 500+ Euro in der Herstellung kosten :D

Aber ich würde mich nicht wundern, wenn zB NVIDIA 20 mal mehr 3070 verkauft hat als 3080,380ti und 390 zusammen.

DrFreaK666

2022-04-23, 21:36:49

UVP der 5700XT waren 369€, die der etwas schnelleren 6600XT 380€.
Ich bezweifle dass eine 7700XT 1000€ kosten wird, wenn die UVP der 6700XT 480€ beträgt.

BlacKi

2022-04-23, 21:53:36

ja, richtig, aber was bedeutet das für den refresh der nächsten monat kommt. denkt doch mal weiter. und die konsequenzen, falls die uvp normal niedrig, oder an die marktsituation passend gewählt wird.

so oder so, amd ist gearscht. entweder unmut bei den gamern durch viel zu hohe uvp oder sie werden gescalpt. es gibt keine andere alternative.

wir wissen wie die letzten uvp preise ausgefallen sind aka 6500xt. die 100$ karte kostet 199$.

iamthebear

2022-04-23, 21:55:47

8GB sind purer Unsinn mMn. Ich bleib auch dabei, alle N3x sind mMn 16GB.

N33 128MB IF$ 128Bit 8 2GB GDDR6 Chips
N32 192 und 256MB IF$ 128Bit oder 256Bit (2 oder 4 MCDs, kann beides sein) 8 2GB GDDR6 Chips
N31 384 und 512MB IF$ 256Bit (4 MCDs) 8 2GB GDDR6 Chips

Als Refresh könnte man dann 4GB-Chips verbauen.

Und welchen Sinn macht es wenn das 500$ Einsteigermodell denselben VRAM hat wie das 2K Premiummodell mit der 3 fachen Performance mit dem viel höhere Details verwendet werden?

Ah, so fängst du also schon mal an das schönzureden.

Noch mal: Bei der 3070 für 500 Euro wurde generell gesagt: Ein absoluter Speicherkrüppel, die Karte ist nicht gut.

Weil damals der VRAM um 3-4$/GB zu haben war. Einmal abgesehen: Es war damals schon Schwachsinn aber viele lassen sich halt von den VRAM Anzeigen in die Irre führen.

Ich denke aber nicht, dass wir in diesem Bereich eine 8GB Karte von AMD sehen werden - eben weil AMD bei der aktuellen Generation das Doppelte hatte. (Höchstens als Alternative zur 16GB Variante.)
Da bei schnelleren Karten plötzlich nur die Hälfte anzubieten wäre lächerlich.
Nein, wird nicht kommen, egal was irgendwelche Leaker sagen - die sagen viel, wenn der Tag lang ist.

AMD investiert genau gleich viel in den VRAM wie noch zu RDNA 2 Launch nur bekommt man eben nur mehr die halbe Kapazität um dasselbe Geld.

N33 ersetzt erstmal die 6800 und 6900, rechne also eher mit 1000€.

Der Preis wird in der Regel nicht durch die Performance des Produktes bestimmt sondern durch deren Fertigungskosten zumindest wenn es beide Hersteller gleich betrifft.
N33 hat um die 400mm². Das ist ca. 75% von Navi21 also ist auch ein Preis von ca. 75% der 6800 XT (650$) naheliegend.
Die Kosten pro Wafer sind seither sicher auch eher gefallen als gestiegen weil 6nm/7nm ist mittlerweile schon ein alter Node.

RGT weiß auch nicht mehr als wir.

Normalerweise faselt er nur viel daher um Views zu generieren auch ohne Content da gebe ich dir Recht aber diesmal hat er wirklich eigene Quellen.

Abgesehen davon: Die 400-500$ kommen jetzt schon aus mindestens 3 verschiedenen Quellen und klingen auch plausibel.

Ich hätte gerne mal wieder eine Einsteiger-Karte mit 6 GB.

Die 128Bit bzw. 8GB um 400-500$ sind der Full Die. Da wird es ziemlich sicher auch Cut Down Varianten geben.

4 GB für die 6500XT sind schon arg wenig. Eine gute 7500XT mit voller PCie Bandbreite und 6 GB VRAM wäre ideal.

Die neuen Karten dürften ziemlichnsicher alle PCIe 5.0 haben. Mit einem neuen Board ist PCIe 5.0 x8 so schnell wie 4.0 x16.

Davon abgesehen habe ich immernoch große Zweifel, dass man an die 6900XT rankommt mit N33. Klar mit 4096 Shadern bei 2,5ghz hat man die nötigen TFlops. Aber mit 128 Bit gegen 256 Bit von N21, schwierig.

Da habe ich auch meine Zweifel aber wir wissen wenig von RDNA3.

Kann man bei AMD den Ram untertakten? N21 mit 12GBps wäre mal interessant in Benches, weil das erstmal 128Bit mit 24Gbps und 128mb IF Cache entsprechen würde, also einer möglichen N33 Konfiguration. Klar kommt da noch ne neue Architektur dazu, aber es wäre immerhin ein Anhaltspunkt. Das wäre doch mal ein Test für PCGH :biggrin:

Das kann man nicht sagen. Erstens ist das eine ganz andere Architektur und zweitens ist das ja auch eine Frage von Timings, Anzahl Speicherkanälen usw.

N33: 128bit SI / 256MB IF$ / 8GB / 4096-5120SP / 2,8 Ghz / 200W

N32: 192bit SI / 384MB IF$ / 12GB / 8192-10240SP / 2,7 Ghz / 300W

N31: 256bit SI / 512MB IF$/ 16GB / 12288-15360SP / 2,5 Ghz / 450W

Nach meinen Infos:
N33: 128MB Cache, 4096 ist der Full Die, reale SKUs weniger, 2.8-3GHz
N32: Könnte so stimmen
N31: Full Die sind 15K/2.6-2.8GHz/375-450W (möglicherweise 375W Referenz, 450W AIBs)
Salvage N31: 12K, 192Bit, 12GB, 384MB also im Prinzip e8n etwas größerer Navi32.

Bei N31 kann es sein, dass es eine Prestige-Version dann mit 32GB geben wird.

Ist gut möglich, ich denke das weiß AMD selbst noch nicht. Die Professional Karten werden 32GB haben als sollte des Platinendesigns dafür geben.

Nö.
GDDR6 ist ein durchlaufender Posten, da wird nicht nochmals 100% aufgeschlagen.
Das würden sich die RAM Produzenten nicht gefallen lassen.
100% Gewinnmarge draufsetzen ist auch eher was für den Serverbereich, geh mal von 50% aus.
Dann sind wir bei $200 für das Paket inklusive Gewinn für AMD.

Die Aufschläge sind ein Durchschnittwert für alle AMD Produkte anhand deren Bilanzdaten.

Bei Nvidia ist der Gewinn nicht 25% sondern ca. 40% vom Umsatz also denke ich, dass die 25% definitiv nicht zu hoch sind.

Und nein es gibt keine Durchlaufposten, auch nicht die Komponenten, die die AIBs selbst einkaufen.
AMD/Nvidia legen UVP Kategorien im Handel fest (z.B. 300$/500$/700$) für die jeweiligen Käuferschichten. Davon werden alle Kosten abgezogen (Handel, AIB Gewinnmargen, Fertigungskosten. Teile die AIBs kaufen, Teile die man selbst kauft usw.) und am Schluss muss bei dem geplanten Marktanteil der von der Finanzplanung vorgegebene Gewinn übrig bleiben. Ist das nicht möglich müssen Komponenten gespart werden.
Es macht keinen Sinn den RAM als Durchlaufposten zu deklarieren, die Chips jedoch nicht. Beides sind Zukaufteile, die von externen Firmen gefertigt werden.
Und die RAM Hersteller geht das überhaupt nichts an was AMD für seine Produkte verlangt. Das lässt sich sowieso nicht bestimmen, da es Chips und RAM sowieso nur als Set zu kaufen gibt und nicht einzeln. Bei Nvidia gibt es überhaupt nur ganze BOM Kits.

Selbst für 400€ würde eine N33 Karte noch Gewinn erzielen, am meisten wahrscheinlich dann für den Finanzminister.[/QUOTE]

Ja die 25% für AMD sollten drin sein. Die Frage ist jedoch, ob sich die AIBs dazu überreden lassen wieder zurück zu ihrem Hungerlohn zurück zu gehen wenn sie sehen, dass sowohl AMD/Nvidia als auch TSMC deutlich mehr bekommen.
Meine Meinung: Wenn die AIBs am Ende auch mit 10% aussteigen, dann finde ich das auch mehr als fair. Nur bitte keine 100% Aufschlag mit Direktverkauf an Miner.

Weiß man schon Genaueres über GDDR7? Das soll ja NOCH höhere Transferraten (>24 Gbps) als GDDR6/X ermöglichen und u.A. Samsung aktuell an dessen Entwicklung beteiligt sein. Wäre ja gerade für AMD-GPUs mit nur 256Bit Interface von besonderer Bedeutung:)

Der AD102 Memory Controller soll laut MLID in der Lage sein bereits mit GDDR7 umzugehen. Allerdings wird der Launch weiterhin mit GDDR6X passieren. Aber möglicherweise wird es einen Refresh bei Nvidia geben.

Was AMD angeht: Ich denke da hat das Ganze aktuell eher geringere Priorität. Denke einmal eher mit RDNA4.

Mit 8GB brauchst das Teil gar nicht erst bringen. Ausserdem hat N22S ja auch schon 12.

Also ich verstehe dein Problem nicht
Navi23 (6600 XT) hatte 8GB => Navi33 (7600 XT) hat 8GB
Navi22 (6700 XT) hatte 12GB => Navi32 (7700 XT) hat 12GB

Stimmt.. 12 wäre auch ein Weg.
Aber es kann in niemandes Interesse sein, wenn 6800\6900 auf einmal keine Abnehmer mehr findet, weil die neue Einstiegsklasse das alte High End obsolet macht. Nicht wenige müssen ihre alte Graka vor Eewerb ihrer neuen erst einmal veräußern.

Also ehrlich gesagt glaube ich, dass das die Minderheit ist, die sich jede Generation eine neue Karte holt. Der Großteil holt sich eine neue Karte und 5 Jahre später bekommt sie die kleine Schwester.
Dass man die Mondpreise der aktuellen Generation nicht mehr auch nur annähernd zurück bekommt sollte hoffentlich jedem klar gewesen sein. Dafür konnte man seine alte 1060 um 400 Euro verdrehen und noch mal 1000 Euro mit Mining hilen wenn man schlau war.

Seit wann ist ATI/AMD so geizig mit RAM

.) Seit der RAM das Doppelte kostet (zeitweise sogar das 3fache und mehr)
.) Seit sie Nvidia überhopt haben und ihre Karten nicht mehr über den VRAM verkaufen müssen (gibt viele Käufer die nur die größten Zahlen kaufen)
.) Seit sie gemerkt haben, dass alle nur "ich will mehr VRAM" schreien aber ihnen keiner mehr für ihre 16GB 6800 XT bezahlt als Nvidia für ihre 10GB 3080. Und die 12GB 6700XT müssen sie sogar günstiger hergeben als die 8GB 3070 Ti, da die 3070 Ti im 4K Rating bei CB den längeren Balken hat.
Auch die 12GB 3060 muss billiger verkauft werden wie die 8GB 3060 Ti => Weil es einfach den Großteil der Leute nicht kümmert wieviel RAM verbaut ist solange die Performance stimmt.

N24 bleibt 6400/500 und fertig
N23S -> 8GB RX7500, ersetzt RX6600
N22S -> 12GB RX7600, ersetzt RX6700
N33 -> 16GB RX7700, ersetzt darüber

Wenn wir von den UVP Preisen ausgehen:
Navi24 ist neu (6nm) und word bleiben
Navi23 ist eine Lücke und ist fraglich
Navi22 wird durch Navi33 ersetzt (ca. 300-500$)
Navi21 wird durch Navi32 ersetzt (ca. 600-1000$)
Navi31 ist eine Erweiterung des Lineups nach oben: ca. 1200-2000$

Preisangaben jeweils vom kleinsten bis zum größten SKU.

8GB für N33 ist so hirnverbrannt - NV wird sowohl den 103er als auch den 104er ebenfalls mit 16GB bestücken.

AD103 mit 16GB aber dieser liegt im Lineup auch deutlich über Navi33. Das dürfte die 4080 um die 700-900$ werden.
AD104 bekommt 12GB. Das könnte der Navi33 Konkurrent sein allerd8ngs nur wenn Nvidia wirklich alles komplett verbockt hat. Ansoonsten liegt AD104 immer noch deutlich darüber.
AD106 bekommt 8GB und dürfte wohl etwas unter Navi33 liegen.

Ich schaffe es sogar mit einem 9 Jahre alten Spiel die 16GB (3080M) "spielbar" zu sprengen. GTA5 @2400p 8x AA alles auf MAX + ein textur mod. (17GB Verbrauch)

Dann nimmt man halt keine Modpakete => Problem gelöst.[/QUOTE]

Von Rockstar angezeigter VRAM-Verbrauch im Menü.

Und genau das ist das Problem. Nur weil der VRAM voll ist heißt das nicht, dass das Spiel abschmiert. Wenn das Speichermanagement einigermaßen sinnvoll funktioniert bedeutet dies nur, dass dann schön langsam das Spiel beginnt länger nicht mehr genutzte Texturen zu entladen und wenn das auch nichts mehr bringt bedeutet dies, dass das Spiel langsam anfängt Daten über PCIe in den RAM auszulagern.

8 sollte man wirklich nur mehr bei den absoluten Einsteigerkarten einsetzten.

Wenn du willst, dass die absoluten Einsteigerkarten bei 400€ beginnen gerne. Den Plan haben AMD und Nvidia auch nur leider scheint ihnen aktuell Intel hier etwas rein zu pfuschen.
Wenn man eine 200€ Karte will: Sorry aber da sind nur 4GB drin und um 400€ sind nur 8GB drin. Wer der Meinung ist, dass er mehr braucht muss auch mehr Geld locker machen.

HOT

2022-04-23, 21:58:03

N33 999$ :freak:. Ihr habt doch nen Schaden...

Leute, realistisch ist

N33 -> 450-550$ das wird ein upper Mainstreamprodukt
N32 -> 650-850$
N31 -> 1000-1500$ AMD kann sich das nicht leisten über diese Preise zu gehen, selbst wenn er der schnellste sein sollte. Aber dieser Preisbereich kauft nunmal Geforce.

8GB ist völlig, also wirklich völlig unbrauchbar in den Preisbereichen und den Produktplazierungen. Wenn die Dinger kommen sind die ersten echten Next-Gen-Titel draußen!

Und Gerüchte zu N23S und N22S gibts schon länger und sind offenbar N6-Versionen der bisherigen Chips. Die sind halt in N6 recht günstig und bleiben einfach am Markt. Es ist doch schon lange klar, dass die RDNA3-Generation nur aus den 3 kolportierten Chips besteht. Das Lineup ist also schon seit mehr als einem Jahr relativ klar

N24 (N6)
N23S (N6)
N22S (N6)
N33 (N6)
N32/1 (N6/5)

Und die Preise bleiben doch nicht so wie sie jetzt sind :freak:. Wenn die Dinger Ende des Jahres oder Anfang nächsten Jahres erscheinen ist der Mininghype schlichtweg Geschichte, die Chipkrise geht ebenfalls dem Ende entgegen und wir haben 3 Player am Markt in China sogar 5. Das wird ne astreine Konkurrenzsituation, also extrem gut für den Kunden. Sowohl NV als auch AMD werden doch jetzt keine 8GB-Varianten mehr bringen, wo die 8GB ja jetzt schon zu knapp sind bei der 3060Ti und 3070(TI) und auch die 10GB bei der 3080 als zu knapp gilt. Was für ne Traumtänzerei. Es sind 2GB-Chips jetzt standardmäßig am Markt, die Produkte werden dementsprechend ausgestattet. AMD kann doch keine 8GB-Karte auf den Markt schmeissen, wenn die 4060 Ti und 4070 (Ti) absehbar 12 oder 16GB wird. Wie stellt ihr euch das vor? Die Zeit der 8GB ist mit dieser Generation vorbei und rutscht in den Einsteigerbereich ab, also N24 und N23S.

Man muss doch nicht das Rad neu erfinden, wenn es schon Gerüchte und Infos dazu gibt.

ChaosTM

2022-04-23, 22:04:08

Wenn sie die Performance von NV bei RTRT erreichen oder überbieten und was qualitativ vergleichbares zu DLSS bringen können, wird auch der Preis NV Dimensionen annehmen.

@iamthebear - war nur ein Versuch, ob ich die 16gb voll kriege

HOT

2022-04-24, 10:11:14

Nein wird er nicht, das dauert, die Markengeilheit der Kundschaft zu überwinden. AMD kann keinen Chip über 1500$ anbieten, selbst das ist schon zu viel.

[MK2]Mythos

2022-04-24, 11:11:23

Die UVP sind ja eine Sache. Eine andere Sache sind die Marktpreise, wie wir mittlerweile seit fast 2 Jahren sehen.
Die Situation ab Ende 2022 ist aber eine andere.

- Hohe Inflation
- Gestiegene Rohstoffkosten
- Enorm gestiegene Nachfrage nach Halbleitern
- Der aktuelle Kryptomininghype ebbt langsam ab

Und andererseits saßen die Leute die letzten zwei Jahre auf ihrer Kohle die sie wegen Corona nicht ausgeben konnten. Aber jetzt werden Investitionen verschoben und das Geschäftsklima ist schlecht, das könnte dazu führen dass so enorm teure Karten nicht mehr gekauft werden.
Es gibt also Gründe für und gegen teurere Grafikkarten. Ich gehe davon aus dass die UVP zur Vorgängergeneration leicht angehoben wird, die Marktpreise aber deutlich näher dran liegen werden.

Redneck

2022-04-24, 15:31:13

Wenn sie die Performance von NV bei RTRT erreichen oder überbieten und was qualitativ vergleichbares zu DLSS bringen können, wird auch der Preis NV Dimensionen annehmen.

@iamthebear - war nur ein Versuch, ob ich die 16gb voll kriege

So isses. Wer den längsten Balken hat, darf auch am meisten Milch schlabbern.
NV hat dir letzten Jahre die besseren Produkte gehabt.. Das ist aber kein Naturgesetz und kann sich ändern.
So wie Team rot sich marketshare im CPU bereich zurück holt, so kann es auch im gpu bereich geschehen

Sunrise

2022-04-24, 16:00:15

Stand eigentlich alles bereits in dem von AffenJack vor einigen Seiten verlinkten Artikel im Ada-Thread.

NV auf 4N erlaubt NV theoretisch identische Preise wie bisher. Daraus schlussfolgernd kann AMD nur dann mehr verlangen, wenn hier irgendwas brachial besser ist, ansonsten verdient NV wieder sehr sehr gut damit. Laut Jensen haben sie beträchtliche Kapazitäten gebucht.

Ansonsten regelt das der Markt (Angebot/Nachfrage) und ob AMD genug Vorteile bei ihrem Konstrukt sieht, dass man aggressiver sein kann, was ich nicht glaube. NV hat damit schon recht klar gemacht, wieviel schneller AMD sein muss, damit man wechselt.

Der weitere Faktor ist Verfügbarkeit. Es bringt nichts, bessere Preise zu haben, aber nicht liefern zu können (Marktanteile), demnach würde ich mal eher höhere, denn niedrigere Preise als aktuell erwarten. Auch ammortisieren sich die Kosten nicht (ROI), wenn man nichts verkaufen kann. Die Erhöhung, wenn sie kommt, darf nicht übertrieben sein (10-15% beim High-End bzw. Enthusiast ist kein Thema).

bbott

2022-04-24, 18:43:06

Eine 7500XT mit 8GB wäre ausreichend

Für 400-500 € eine Schulnote 4 - vier - "ausreichend", im High-End und 600W nie den 1.000-2500 € Karten, bei 16GB- 24 GB was einer 2-3 entspricht. Man sind die Ansprüche der Kunden gefallen. :freak:

Damit die 600W der GK gekühlt werden können, kommen dann noch 1200W für die Klimaanlage dazu... ;D

DrFreaK666

2022-04-24, 19:46:54

Für 400-500 € eine Schulnote 4 - vier - "ausreichend", im High-End und 600W nie den 1.000-2500 € Karten, bei 16GB- 24 GB was einer 2-3 entspricht. Man sind die Ansprüche der Kunden gefallen. :freak:

Damit die 600W der GK gekühlt werden können, kommen dann noch 1200W für die Klimaanlage dazu... ;D

:rolleyes:

Hast du schonmal was vom Duden gehört?
Ausreichend: "den Erfordernissen entsprechend, genügend"

Bei einer 500er-Karte (damit meine ich nicht den Preis) sind 8GB 2022 genügend

basix

2022-04-25, 09:59:43

Mir ist gerade was in den Sinn gekommen:
N33 kommt ja noch in N6, was effizienztechnisch nur geringfügige Vorteile gegenüber N7P bieten soll. Nehmen wir einfachheitshalber 0% Verbesserung an. Jetzt soll N33 die Performance einer 6900XT in 1080p...1440p erreichen. Nehme ich nun N10 -> N22 -> N33, würde ausgehend von N10 die Energieffizienz bei "selbem" Prozess um sagenhafte +100% steigen. Und dies bei gleichzeitig in etwa +40...50% Takt. Zusätzlich steigt die Performance / Fläche ebenfalls um ~1.3...1.4x, obwohl ein grosser Infinity Cache, DX12 Ultimate & Raytracing Beschleunigung dazukamen. Wer weiss, vielleicht noch mit Matrix Acceleration. Alles nur durch Architektur- und Design-Verbesserungen. Meiner Meinung nach ein sehr starkes Stück Engineering.

Chip|Prozess|Die Size|# CU|Game Takt|Infinity Cache|SI|Leistungsaufnahme|Notiz
N10|N7P|251mm2|40|~1.8 GHz|n.a.|256bit|~210W
N22|N7P|335mm2|40|~2.53 GHz|96 MByte|192bit|~215W
N33|N6|~400mm2|64|~2.5...2.7 GHz|128 MByte|128bit|200...230W|Aktueller Stand Gerüchteküche

BlacKi

2022-04-25, 10:42:30

naja, ausgehend vom 7nm performance prozess auf 18% höhere densitiy bei 6nm mit EUV. zusammen mit der beinahe verdoppelung der fläche und halbierung des SI, kann man nicht von Alles nur durch Architektur- und Design-Verbesserungen. reden.

mboeller

2022-04-25, 11:02:53

die Tabelle zeigt sehr schön wie schwierig es ist sogar die Performance der vergleichsweise konventionellen N33 GPU einzuschätzen

min. +60% TFlops (64/40 CU)
nur 66% der Bandbreite (128/192 bit), selbst bei 24Gbit/s Speicher max. Gleichstand

IF$ 96MB -> 128MB bringt laut der AMD Folie bei 1440p gerade mal 7-8%, bei FHD noch weniger.

Da fehlt anscheinend sehr viel Bandbreite um die gestiegene Anzahl der CU zu füttern.

und dann soll N33 schneller als eine 6900XT sein... hmm

basix

2022-04-25, 11:09:30

naja, ausgehend vom 7nm performance prozess auf 18% höhere densitiy bei 6nm mit EUV. zusammen mit der beinahe verdoppelung der fläche und halbierung des SI, kann man nicht von ... reden.

1.18x ist ideal, und gilt nur für Logik. Analog und SRAM faktisch Null. Wenn es real 1.1x für den gesamten Chip werden, kann man wohl schon stolz sein. N6 soll vor allem eines sein: Günstiger als N7. Und schlussendlich ändert sich an der Grundaussage nicht viel: Bei RDNA3 ist viel HW dazugekommen (DX12U, RT, IF$, Matrix?) und dennoch steigt Perf/Area um ein gutes Stück. Auch wenn man sich das prozessnormiert anschauen würde, ohne Density Steigerung durch N6. Du kannst dir auch 256bit dazudenken (sind ca. +30...35mm2 für +128bit), die Flächeneffizienz steigt trotzdem. Von mir aus kannst du auch noch den Umweg über N21 machen: 2x N10 Fläche bei 2x Performance. 520 / 400mm2 = 1.3x. N6, 128bit SI usw. alles einbezogen und (zurück)normiert und die Flächeneffizienz wird immer noch höher sein. Das zurücknormieren "fehlender" Chipteile ist aber nicht zielführend, da dies genau eine Eigenschaft der verbesserten Architektur ist. Wenn man das gleiche mit weniger erreicht, ist das ja ein Fortschritt. Einzig N6 vs. N7P kann man sich anschauen, der Betrag der Verbesserung wird aber wie gesagt max. bei 1.1x leigen
Halbiertes SI gehört mMn zu Design und Architektur ;) Und klar, das kann man nicht unabhängig vom Infinity Cache sehen. Effektiv ist es aber egal wenn das SI schmaler wird, schlussendlich ist Perf/Area und Perf/Watt entscheidend und da sieht es für RDNA3 im Vergleich einiges besser aus, speziell bei Perf/Watt.
Verdoppelung der Fläche: 400 vs. 250 sind 1.6x. "Beinahe Verdoppelung" trifft es also nicht ganz ;) Die Energieffizienz nimmt zudem oftmals mit grösserer Fläche / mehr Recheneinheiten ab. Flächeneffizienz (Perf/Area) ist ebenfalls relativ zu sehen. Und wie gesagt, Energieffizienz wir durch N6 nur sehr gering steigen. Verstehe dein Problem hier nicht. Es war nie die Rede von der absoluten Performance.

Edit:
die Tabelle zeigt sehr schön wie schwierig es ist sogar die Performance der vergleichsweise konventionellen N33 GPU einzuschätzen

min. +60% TFlops (64/40 CU)
nur 66% der Bandbreite (128/192 bit), selbst bei 24Gbit/s Speicher max. Gleichstand

IF$ 96MB -> 128MB bringt laut der AMD Folie bei 1440p gerade mal 7-8%, bei FHD noch weniger.

Da fehlt anscheinend sehr viel Bandbreite um die gestiegene Anzahl der CU zu füttern.

und dann soll N33 schneller als eine 6900XT sein... hmm

Ich kann mich hier nur wiederholen: N21 und N22 sind von der Bandbreite her überdimensioniert. Nehmt doch lieber N23 als Referenz. Auch in 1440p ist kein extremer Rückgang der Performance einer 6600XT verglichen mit einer 6700XT zu beobachten. Auch verglichen mit einer 5700XT bleibt zwischen 1080p und 1440p faktisch gleichauf mit N23. Ich sehe da noch nicht, dass die Bandbreite arg limitiert.

Nimmt man nun veroppelte 6600XT Performance und 4x IF$ zur Hand, gleicht sich das bezüglich Performance / Bandbreite perfekt aus. IF$ skaliert eher noch was >sqrt(IF$-Grösse Faktor) und bei N33 soll >16Gbps Speicher verwendet werden. Dann sieht es noch besser aus.

HOT

2022-04-25, 11:34:31

naja, ausgehend vom 7nm performance prozess auf 18% höhere densitiy bei 6nm mit EUV. zusammen mit der beinahe verdoppelung der fläche und halbierung des SI, kann man nicht von reden.
Klar kann man das, denn diese Dinge sind ja mit eingepreist.

Hab bezüglich Bandbreite mal ein bisschen herumgerechnet und bin auf überraschendes gekommen. Vorweg muss ich aber noch eine Unklarheit ansprechen: Nehmen wir mal an, dass die MCDs tatsächlich einen 64Bit RAM-Controller beinhaltet (seit RDNA2 sind das doch 64Bit Controller und nicht mehr 32Bit Controller IIRC oder?), dann sind die kolportierten Daten insbesondere was N32 angeht, eh Unsinn, denn dann müsste ein MCD ja 128MB IF$ und einen 64Bit RAM-Controller enthalten.
Nehmen wir mal an, das basiert alles auf Stacking und die RDNA3 bekommen eine eigene Packagefertigungsstrasse, ich halte das für ziemlich wahrscheinlich. Dann würde ich auf dem Träger für N31 mittig das Command-Die mit PCIe und Videoprozessor nebst Ausgängen, dann direkt angrenzend Links und rechts die MCDs nebeneinander plazieren. Darüber kann man dann die GCDs stapeln, das wären dann 2 Produkte, eines mit N31 mit 4 MCDs und eines mit dem kleineren N32 mit nur 2 MCDs.
Speichercontroller wären damit schlichtweg nicht deaktivierbar, da ja jedes GCD die gesamte Bandbreite benötigt, da ja dann jedes GCD entweder 64Bit oder 128Bit Quasi-Numa (oder pseudo-UMA, da gleicher Adressraum) angebunden wäre. Den Cache kann man hingegen sicherlich zu 1/4 deaktivieren, wenn man das möchte. Mit der Konstruktion ergäben sich folgende Daten:

N31, 2GCDs auf 4MCDs, jedes GCD hat 128b RAM-Anbindung und 256MB Cache (192MB salvage) und das GCD ist direkt per TSVs mit dem Commandprozessor und MCD+Cache verbunden.
N32, 2GCDs auf 2MCDs, jedes GCD hat 64b RAM-Anbindung mit 128MB Cache (kein salvage der MCDs)

Als Produkte würde ich dann

7900XTX -> 256b 24Gbps GDDR6, also 768GB/s mit 512MB IF$
7900XT -> 256b 20Gbps GDDR6, also 640GB/s mit 384MB IF$
7800XT -> 128b 27Gbps (exklusiv mit SKHynix), also 432GB/s mit 256MB IF$
7800 -> 128b 24Gbps also 384GB/s mit 256MB IF$
7700XT -> 128b 20Gbps also 320GB/s mit 128MB IF$

annehmen. Ist nur ne Theorie, aber 256Bit + nur 256MB IF$ passt in der MCD-Logik nicht zusammen.

Edit: Mir ist noch ne 2. Möglichkeit eingefallen: Jedes MCD hat in Wirklichkeit 2 64Bit Controller

Damit wäre auch

7900XTX -> 24GB 384b 24Gbps GDDR6, also 1152GB/s mit 512MB IF$
7900XT -> 24GB 384b 20Gbps GDDR6, also 960GB/s mit 384MB IF$
7800XT -> 16GB 256b 24Gbps GDDR6, also 768GB/s mit 256MB IF$
7800 -> 16GB 256b 20Gbps GDDR6, also 640GB/s mit 192MB IF$
7700XT -> 16GB 128b 24Gbps GDDR6, also 384GB/s mit 128MB IF$

Damit hab ich weniger Bauchschmerzen. Das passt ja von den Bandbreiten her auch viel viel besser zur Chipleistung. Das hätte den riesigen Vorteil, dass man RadeonPro mit erheblich mehr RAM ausstatten könnte, bis 512Bit RAM-Interface, womit 64GB GDDR6 möglich wäre.

Wie die 3090Ti dient mMn die neue 50er-Serie nur dazu, die neuen PCBs zu üben (Backdrill?). Die neuen PCBs für N22 und 23 lassen sich dann auch für N23S und N22S weiterverwenden.

basix

2022-04-25, 13:01:33

GDDR6 Controller sind 32bit breit. Das ist auch die Anbindung eines einzelnen GDDR6 Packages. GDDR6 besteht allerdings aus 2x16bit Kanälen, welche unabhängig voneinander operieren können. Je nach Verschaltung und Organisation der MCDs, könnte man aus 4x64bit auch 4x48bit machen. Dabei würden zwei separate MCDs auf ein einzelnes GDDR6-Package geschaltet. Ob das technisch möglich ist, da bin ich aber überfragt.

N32 käme dann immer noch mit 4x MCDs daher. 192bit bei reduzierten GDDR6 Speeds wäre immer noch genug. Vielleicht sehen wir ja auch sowas hier wie im Anhang angefügt. Problem dabei ist, dass die GCDs von N32 nicht roationssymmetrisch verschaltet werden können. Dafür könnte man mit 3x MCDs leben. Naja, AMD wird sicher eine Lösung für das Problem haben ;)

Edit:
Evtl. ist alles ganz anders und die MCDs bestehen aus 32bit Slices. Dann sieht es nochmals anders aus ;)

davidzo

2022-04-25, 13:40:16

Damit hab ich weniger Bauchschmerzen. Das passt ja von den Bandbreiten her auch viel viel besser zur Chipleistung. Das hätte den riesigen Vorteil, dass man RadeonPro mit erheblich mehr RAM ausstatten könnte, bis 512Bit RAM-Interface, womit 64GB GDDR6 möglich wäre.

Das macht vielleicht in deinen Augen sinn, für mich ist das völlig weltfremd. Das widerspricht in vielen Punkten den bisherigen Leaks und ist auch physikalisch nicht plausibel.

512bit GDDR6 Interfaces sind reines Wunschdenken, das geben aktuelle PCBs einfach nicht her, auch mit teurem backside Drilling oder buried vias erreicht nvidia nur 384bit unter vielen Schmerzen.
Mit GDDR5 ging das noch, da dort nicht 2 channels pro Die verwendet wurden. GDDR6 braucht mehr Pins und kürzere Leitungen, damit fällt 512bit flach.
Und wozu auch 512bit wenn man schnellen Cache hat dessen ganzer Sinn es ist den Bandbreitenbedarf zu reduzieren?
Nicht zu vergessen ist HBM mittlerweile die etablierte Technik die teure 512bit Systeme im Profi-Markt verdrängt hat, bei niedrigerem Energieverbrauch trotz größerer Bandbreite. Wenn ich also mehr VRAM brauche als der cache hergibt und das bei Hoher Bandbreite, dann ist HBM der Weg, nicht 512bit GDDR.

Natürlich könnte man argumentieren dass Apple auch 512bit Interfaces baut, mit dem Trick dass man die über das package routet und nicht das PCB. Aber das ist auch nur 'alter' LPDDR4X. Dabei hat die Handyindustrie in 2022 großflächig schon auf LPDDR5 umgestellt und LPDDR4X ist quasi legacy.
Es muss schon einen Grund gegeben haben wieso Apple über ein Jahr später es noch nicht geschafft hat etwas ähnliches mit LPDDR5/X oder GDDR6 auf die Beine zu stellen.

Weiß jemand was zum SRAM Scaling unter N6? Wie wäre es denn wenn der Cache im MCD sitzt?

Weil das SRAM Scaling von N5 ist nicht besonders gut. 1.35x vs N7P ist weit ab vom Logik scaling von 1,8x.
N6 soll ja schon 1,18x Scaling gegenüber N7P haben, wenn der SRAM da schon ähnlich mitskaliert wäre das nicht weit weg von N5. Zudem spart man sich die Entwicklungszeit, da N24 und Rembrandts L3 auf denselben N6 cache Libraries basiert.

Kostentechnisch / Diesize würde es sich also lohnen den L3 / IF$ auf die MCDs zu legen. Vor allem wenn man bedenkt dass man sowieso eine Art Crossbar / Ringbus zwischen den MCDs braucht um die einzelnen DRAM Channels zu bündeln.

Ich kann mir einfach schwer vorstellen dass man die MCDs außen im Package unterbringt und dann die Crossbar quer durch die GCDs routet. Es geht hier immerhin um einen Interconnect von 4-6TB/s an Bandbreite, also Faktor 6-10 im Vergleich zu Epyc, auf einem kleineren package noch dazu. Da wird man versuchen nicht an zu vielen Stellen zu verbinden und die Leitungslänge im teuren N5 DIE möglichst klein halten.

thermisch macht es auch eher Sinn die Dies mit der höchsten power density, also die GCDs eher weiter außen zu positionieren. Die GCDs sind ja quasi Endpunke wenn die Crossbar für DRAM und Cache zugriff zwischen den MCDs erfolgt und PCIe und analoger Kram an den Command DIE angeschlossen sind.

basix

2022-04-25, 14:04:31

Wenn da noch irgendwelcher nennenswerter Datenverkehr zwischen den GCDs herrscht, will man die GCDs so nah wie möglich beieinander haben.

Und was ist das Problem, die MCDs aussen an den GCDs zu haben? Ist heute bei den monolithischen Die ja auch so angeordnet. Der Datenverkehr wird sowieso so optimiert, dass man möglichst selten quer übers ganze Die gehen muss, auch heute schon. Man wird versuchen, dass der Haupt-Traffic möglichst innerhalb des jeweiligen "Quadranten" abläuft. Somit also MCD -> L2$ -> Shader Engine. Die hier genannte einzelne Shader Engine soll möglichst selten Daten von den anderen L2$-Slices oder MCDs anfordern müssen. Das könnte man irgendwie Datenlokalität auf globaler Chip-Ebene nennen. Möglichst kurze Kommunikationswege sind das A und O für hohe Energieffizienz.

Und nimmt man UCIe im Standard Package (Substrat) mit 0.5pJ/bit als Basis sind es selbst bei hohen 6 TB/s ~25W für den Interconnect. Und für was müssen es überhaupt 6 TB/s sein? Wahrscheinlich würden 3 TB/s für die Performance von N31 ausreichen (3 TB/s = 3x RTX 3090 Ti, welche nicht gerade Bandwidth starved ist). Und geht man auf EFB/InFO_LSI geht es auf 0.25 pJ/bit runter. Entspräche bei 3 TB/s also gerademal 6W.

Edit:
Traffic kurz veranschaulicht. Dick = Mehr Datenverkehr.

Meridian12

2022-04-25, 14:20:39

Wenn sie die Performance von NV bei RTRT erreichen oder überbieten und was qualitativ vergleichbares zu DLSS bringen können, wird auch der Preis NV Dimensionen annehmen.

@iamthebear - war nur ein Versuch, ob ich die 16gb voll kriege

Das kanns ein,muss aber nicht. Lieber 10 Karten für 1500 Euro verkaufen als 1 für 2000.

Je teurer die Karte ist, um so massiv geringer sind die Stückzahlen,die man verkauft.

Ihr lasst euch immer von solchen Nerd Forum wie hier, Computerbase usw täuschen.

Hier haben wahrscheinlich 50% der Leute eine Grafikkarte 3070+ im Rechner.

Nimmt man das IOFF, Spiegel.de, Focus.de Heimwerker Forum.de dazu, sind wir wahrscheinlich direkt bei 10% oder weniger mit Speed 3070+.

Wenn AMD nur noch 1000 Euro+ Karten verkaufen wollten,dann würden sie nicht MEHR Geld verdienen,weil die Karten soviel teurer sind für die Leute, nein,die würden massivste EInnahmenbussen haben,weil sie nur noch 10% der Stückzahlen von früher hätten.

basix

2022-04-25, 14:26:44

N33 wird mMn im Bereich ~400-500$ landen, irgendwas im Bereich wie es bei N22 in Form der 6700 XT war. Vor allem bei nur 8 GByte. Darunter hat es noch genug Platz für N22-24 und überhalb kommen ebenfalls noch 2x Chips mit bis zu 3x Performance. Mit 3x Performance wird N31 ausgehend von 400-500$ dann 1500-2000$ kosten. Wird N33 höher angesetzt, müsste man N31/32 auch höher ansetzen. Das wird mMn nicht passieren. Wenn ihr N33 bei 1000$ ansetzt, wird das sicher kein Verkaufsschlager. MSRP Anpassung von 1000$ auf 500$ nach N31 Release wird auch nicht passieren. Schlechte Publicity und sich verarscht fühlende Erstkäufer.

-6nm ist (relativ) günstig
-8 GByte sind günstig
-200W und 128bit SI bedeuten relativ kosteneffektive PCBs, Elektronik und Kühler

Zudem benötigt AMD Marktanteile und Mindshare. Mit einer überteuerten N33 Karte wird sich das nicht verbessern.

HOT

2022-04-25, 14:30:00

Die hat keine 8GB, so ein Blödsinn, und ich denke, viele Daten wurden da einfach zusammengeschätzt (Speichermengen, Cache Größen). Da stimmt garantiert die Hälfte der Details mal nicht.

basix

2022-04-25, 14:32:29

Naja, ich hätte schon gerne, dass die nur 8 GByte hat. Dafür aber neuartige Speicherkompressions-Methoden oder HBCC, womit sich 8 GByte wie 12+ GByte verhalten. Und das ohne Aussetzer der Technik, einwandfreie Funktion. Wäre das nicht attraktiver? ;) Für AMD wie auch uns als Kunden wäre das ein Weg für kostengünstige Grafikkarten.

Zudem:
Selbst den 520mm N21 inkl. 16GB gab es für 579$ in Form der 6800. Ist alles eine Frage der Zielmarge.

Edit:
Zu HBCC wäre noch zu sagen, dass man mit PCIe 5.0 x8 (32 GByte/s) den VRAM 4x pro Sekunde komplett neu einlesen könnte. Wenn man annimmt, dass bei 12 vs. 8 GByte noch 1/3 des Speicher-Pools davon betroffen sind, sind wir bei 12x pro Sekunde (Achtung: Milchmädchen). Und dann die Frage, wie viel davon effektiv ausgetauscht wird. Wenn man sich PCIe-Scaling Benchmarks von TPU anschaut, wo selbst PCIe 2.0 x16 gerademal 5% Performance auf einer 3080 kostet (https://www.techpowerup.com/review/nvidia-geforce-rtx-3080-pci-express-scaling/26.html), dann ist der Traffic via PCIe relativ klein (~400MB/s als Abschätzung). PCIe 2.0 x16 entspricht PCIe 4.0 x4 oder PCIe 5.0 x2. Da wäre also noch viel Platz, um zusätzliche Daten zwischen GPU und Host via HBCC hin und her zu schaufeln.

HOT

2022-04-25, 15:00:59

Nope, 16GB sind durch nichts zu ersetzen. Ich versteh die ganzen Leute nicht, die wenig Speicher für effizient halten :freak:, find ich total dämlich die Einstellung. Die 16GB haben 0,0 Nachteile. Geht halt den Herstellern auf die Marge aber das ist doch richtig so.

Übrigens ist klar, dass N33 der Top-End-Mobilchip werden wird und das ist der Hauptgrund, warum der so designt worden ist, mit 8x PCIe und 128Bit. Im Desktop kann man halt einfach sehr schnellen Speicher verbauen.

basix

2022-04-25, 15:05:56

Nope, 16GB sind durch nichts zu ersetzen.

:freak:

Wenn ich durch Kompression 2x so viel Daten in der selben Speichermenge unterbringen kann, dann ist das sogar mehr Wert als die doppelte Speichermenge: Günstiger, energieeffizienter. Dazu kommt eine zusätzliche Amplification der Bandbreite mit obendrauf. Zwischen GPU und VRAM und im Falle von RDNA2+ auch noch innerhalb des Infinity Caches. Das einzige was ich dazu haben muss: Entsprechende Kompressionsalgorithmen und dass sie effizient in HW arbeiten. Nach dem IF$ sind es dann halt TB/s, welche man on-the-fly komprimieren/dekomprimieren muss.

Oder wie man es im Neudeutsch auspricht:
Work smarter, not harder ;)

Ich versteh die ganzen Leute nicht, die wenig Speicher für effizient halten :freak:, find ich total dämlich die Einstellung.
Wenn man auf dem Schirm das selbe Resultat mit halbem Ressourcen-Einsatz erhält, hältst du das für dämlich? Gut, dann gehen wir auf 32GByte, 512bit und 1kW GPUs und sparen uns den Einsatzu von Hirnschmalz. Effizienz und Kosten sind ja egal...Brute Force FTW

Die 16GB haben 0,0 Nachteile.
Dein Geldbeutel lässt grüssen.

HOT

2022-04-25, 15:12:10

Das ist dämlich, weil absehbar ist, dass die 16GB in dieser Konsolengeneration perfekt sind mittelfristig und ich Kompression für reine Traumtänzerei halte. Was da zu holen ist, wird auch schon geholt worden sein, der Ertrag wird immer weniger. Mehr als 16GB sind Luxus, das ist klar. Aber weniger als 12 sind halt mittelfristig in der Tat einfach zu wenig.

Und das ist nicht mein Geldbeutel, das ist auch wieder vieel zu kurz gedacht. Wir kommen in eine Konkurrenzsituation hinein, in der die Hersteller in einer harten Konkurrenz zueinander stehen werden. Also geht der Mehrspeicher zulasten der Hersteller, nicht des Konsumenten. Und die Preise werden sich auch bei den Speicherherstellern anpassen. Das ist halt wie immer, die Speichermenge wird nachgefragt, ist anfangs teurer, aber irgendwann standard und wieder billig.

Speichersparsamkeit ist aus Softwaresicht effizient, aber defintiv nicht aus Hardwaresicht. Da brauchst du die optimale Menge, das ist effizient. Und der Bedarf führt zu Fortschritt.

basix

2022-04-25, 15:16:42

Es geht hier ums Prinzip und nicht ob solche Kompressions-Algorithmen machbar sind. Mehr mit weniger ist immer im Vorteil. Langfristig sowieso.

Kommt nichts von dem, was ich gesagt habe (Kompression, HBCC), ja dann sind 8 GByte eindeutig zu wenig. Da gibt es nichts zu diskutieren. Wenn ich AMD und Nvidia wäre, würde ich angesichts dem schon dem seit Jahren absehbarem Trend bezüglich Speicher-Scaling/Preise, stark in diese Richtung forschen. Sampler Feedback Streaming von DX12 ist ja bereits eine erste Technologie, die genau in diese Kerbe schlägt. Nicht via Kompression sondern intelligentem Streaming.

Und das ist nicht mein Geldbeutel, das ist auch wieder vieel zu kurz gedacht. Wir kommen in eine Konkurrenzsituation hinein, in der die Hersteller in einer harten Konkurrenz zueinander stehen werden. Also geht der Mehrspeicher zulasten der Hersteller, nicht des Konsumenten. Und die Preise werden sich auch bei den Speicherherstellern anpassen. Das ist halt wie immer, die Speichermenge wird nachgefragt, ist anfangs teurer, aber irgendwann standard und wieder billig.
Glaubst du wirklich, dass AMD, Intel und Nvidia uns Kunden mit Speicher beschenken? Die haben Bänder für Zielmarge und fertig. Die Preise werden anhand der Herstellungskosten dann entsprechend nach oben skaliert. Nicht umgekehrt.

HOT

2022-04-25, 15:25:44

Nein, mehr mit mehr ist im Vorteil, willkommen in der harten Realität.
Und Software ist ja bekannt dafür immer wahnsinnig perfekt mit Ressourcen umzugehen. Alter, mach mal die Augen auf :freak:

AMD und NV beschenken nicht den Kunden sondern kalkulieren ein Produkt. Natürlich wird der Speicher nicht 1:1 aufgeschlagen, sondern der Wert des Produktes erhöht sich etwas, da es ja weniger in Limits läuft. Ganz im Gegenteil, 8GB müsstest du verschleudern, weil es sonst keiner kauft, zurecht. Man muss das doch mal aus der Perspektive des gesamten Produktes sehen, nicht nur die Details.

basix

2022-04-25, 15:47:15

Ich glaube, wir haben da einfach verschiedene Ansichten :D

Wenn du natürlich alles mit Worst Case anschaust, unoptimiert, nicht funktionierend und was weiss ich, ja dann kann Brute Force im Vorteil sein. Das ist aber ein bisschen Schwarzmalerei und FUD, bevor man das finale Produkt überhaupt kennt. Wenn man mit einer intelligenten Technik, und ich rede hier explizit von HW, Ressourcen spart und gegenüber Brute Force keine Nachteile habe, wieso sollte ich das nicht anwenden?

Infinity Cache ist ja ein exzellentes Beispiel dafür. AMD hätte wie Nvidia auf 384bit und G6X gehen können. AMD ging hier aber den langfristig smarteren Ansatz. Fortschritt durch Reduktion. Und siehe da, Nvidia zieht mit Lovelace nach und bringt ebenfalls grosse Caches.

Weiteres Beispiel wäre DCC, welches schon lange angewandt wird. Ich als Anwender habe keine Nachteile davon. Nur Vorteile (eine sparsamere und potentiell günstigere Karte).

Die Zeiten von Brute Force sind schon lange vorbei (ups, sry Intel). Intelligente Methoden sind meistens deutlich durchschlagskräftiger und langfristig auch deutlich ökonomischer. Ich arbeite selbst in der Produktentwicklung und da wird ausserhalb des Luxus-Sektors nur das verbaut, was man muss. Wenn du ein Brute Force Design hast, kostet dich das Produkt mehr in der Herstellung und du wirst Probleme mit deiner Marge bekommen, wenn die Konkurrenz ähnliches zu günstigeren Kosten anbieten kann. Stell dir vor, AMD oder Nvidia könnten mit 4 GByte das selbe anstellen wie der Konkurrent mit 16 GByte. Das wäre ein riesiger Konkurrenzvorteil, insbesondere in der harten Realität. Entweder erhöht sich deine Marge oder du kannst den Konkurrenten preislich unterbieten, ohne deine Zielmarge zu gefährden. In beiden Fällen nutzt das dem Unternehmen.

Und den Punkt mit 8GB = Verschleudern lasse ich so nicht gelten. Da ist das Marketing gefragt (dass ich das mal sage ;D), die smarte technische Lösung entsprechend richtig zu verkaufen. Und hier rede ich nicht von von blabla-Marketing sondern fundierte Darstellung und Vergleiche, dass mit der neuen technischen Lösung mit 8GByte keine Nachteile entstehen.

Wenn du aber bei 8 GByte vs. 16 GByte @ Brute Force bleiben willst: Naja, 16GByte sind bezüglich Performance und Langlebigkeit immer im Vorteil. Bei vielen anderen Faktoren nicht.

HOT

2022-04-25, 15:55:36

In der Praxis gibt es die effizienten Beispiele, aber das ist doch aus Sicht der Grafikhardware nicht effizient, die Hälfte der "unoptimierten" Software auszuschließen. Das ist keine Ansicht. Ich will ein Produkt, was in allen Lebenslagen i.O. ist, alles andere ist doch nicht effizient. Guck dir doch die PCGH-Berichte über den Speichermangel bei 8GB an, das ist zu wenig. Und es gibt keine Möglichkeit Speicher zu sparen. Kompression spart doch auch kaum Speicher, der Sinn davon ist doch die Bandbreite zu sparen. Demnächst kommen die ersten echten Next-Gen-Titel auch auf den PC-Markt. Denkst du ernsthaft, dass die in WQHD voll mit 8GB funktionieren werden? Nein, natürlich nicht. Da kannst froh sein, wenn die 10GB der 3080 noch reichen. Neue Spiele brauchen doch nicht weniger Speicher, ich weiss nicht, wie man auf so eine irre Annahme kommt. Mehr Ressourcen werden natürlich mit besserer Grafik vollgebombt.

maximus_hertus

2022-04-25, 15:56:15

Zudem:
Selbst den 520mm N21 inkl. 16GB gab es für 579$ in Form der 6800. Ist alles eine Frage der Zielmarge.

Das ist aber Vergangeheit. Seitdem gibt es eine größere Inflation plus die Grafikkartenkrise 2021.

Tendenziell wird es daher, bei gleicher MArge, höhere Preise geben müssen. Klar, man könnte auf Marge verzichten, aber wird das einer der beiden machen?

N33, 8GB, max 230W => 449 USD UVP zum Launch
6750 XT => läuft aus
6650 XT, 8 GB => ab Herbst dann 330-350 USD
6600 (ohne XT), 8GB => rundet für 250 USD ab

Oberhalb vom Navi 33 gibt es für die Weihnachtsaison noch die 6950 XT mit 16 GB.

Evtl., je nachdem, was nV macht, könnte es auch 2 Navi 33er KArten geben:

8GB, 200W, 449 USD
16GB, 230W, 549-599 USD

Aber noch ist zu viel Theorie drin. Wie schon mal geschrieben, sollte es noch 6-10 Wochen dauern, bis es noch bessere Infos geben wird und man eher abschäten kann, wie genau das Portfolio im Herbst aussehen wird.

basix

2022-04-25, 15:56:47

In der Praxis gibt es die effizienten Beispiele, aber das ist doch aus Sicht der Grafikhardware nicht effizient, die Hälfte der "unoptimierten" Software auszuschließen. Das ist keine Ansicht. Ich will ein Produkt, was in allen Lebenslagen i.O. ist, alles andere ist doch nicht effizient.

Was, wenn die "unoptimierte" Software gar nicht bemerkt, dass da weniger Ressourcen vorhanden sind? In allen Lebenslagen.

|MatMan|

2022-04-25, 16:24:42

Woher soll denn plötzlich so eine krasse Speicherverdopplungskompression kommen? Dafür gibt es doch Null Anzeichen, also braucht man darüber auch nicht diskutieren. Es wäre toll, aber ist leider nicht so einfach. Texturen sind doch eh schon komprimiert.

Leonidas

2022-04-25, 16:25:33

Zudem benötigt AMD Marktanteile und Mindshare. Mit einer überteuerten N33 Karte wird sich das nicht verbessern.

Sehe ich ganz genauso. Zudem das Argument der Release-Abfolge:
Kommen N31/32 erst in 2023, braucht AMD in 2022 irgendwas, was die Stimmung hochhält. Ein P/L-Kracher wäre da richtig - und läßt eventuell auch den einen oder anderen Enthusiasten, für den N33 zu klein ist, auf N31/32 warten.

Allerdings habe ich weiterhin Bedenken bei der Speichermenge. NV könnte sich eine 8GB-Karte leisten. Kann es AMD?

HOT

2022-04-25, 16:26:26

|MatMan|
Jo, das ist auch mein Hauptkritikpunkt. basix hat sich da einfach verrannt finde ich. 8GB ist Ende 2022 ne echt blöde Idee.

Leonidas
Du gehst immer noch von diesen Spekulationen aus. Aber ich denke, dass das wirklich nur das ist. Die Leaker können ja wirklich nur das wissen, was AMD auch hatte und das war GCD (dessen Daten halte ich für sicher) und ne unbekannte Anzahl von MCD, deren Daten eben nicht bekannt sind. Das ist das Problem. Die Leaker haben sich irgendwas ausgedacht und komplette Lineups zusammengesponnen aber es hat schlichtweg keine Grundlage.

Dampf

2022-04-25, 16:35:04

Selbst die UE5 Matrix Demo welche alles was geht raushaut und ein Blick in die Zukunft darstellt, teilt nur rund 7GB VRAM in 4K zu.

Der Trend geht ganz klar Richtung effizientere Streaming-Techniken anstatt mehr Speicher.

HOT

2022-04-25, 16:42:58

Techdemo vs. reales Spiel. Wir werden sehen, was echte UE5-Titel dann so brauchen. Ich würd sagen, du wirst da noch sehr überrascht werden.

Thunder99

2022-04-25, 16:43:25

Selbst die UE5 Matrix Demo welche alles was geht raushaut und ein Blick in die Zukunft darstellt, teilt nur rund 7GB VRAM in 4K zu.

Der Trend geht ganz klar Richtung effizientere Streaming-Techniken anstatt mehr Speicher.

Eher das Gegenteil wenn es um echte Spiele geht. Konsolen haben ja auch mehr Speicher welches gefüllt werden will. Zeichen 8 und 16 wird es sich einpendeln, mit Ausreißer nach oben wie unten.

Zossel

2022-04-25, 16:50:35

Eher das Gegenteil wenn es um echte Spiele geht. Konsolen haben ja auch mehr Speicher welches gefüllt werden will. Zeichen 8 und 16 wird es sich einpendeln, mit Ausreißer nach oben wie unten.

AMD hatte den VRAM doch schon virtualisiert, hat sich das Thema dadurch nicht schon längst entspannt?

BTW: Was sind echte Spiele?

Leonidas

2022-04-25, 16:57:25

Die Leaker haben sich irgendwas ausgedacht und komplette Lineups zusammengesponnen aber es hat schlichtweg keine Grundlage.

Ich lehne diese These nicht grundsätzlich ab. Nur geb ich dem ganzen nur eine (grob) 30%ige Chance. Und so lange dies ist, muß ich mich wohl oder übel mit den genannten Daten zu N33 beschäftigen.

davidzo

2022-04-25, 16:57:39

Und für was müssen es überhaupt 6 TB/s sein? Wahrscheinlich würden 3 TB/s für die Performance von N31 ausreichen (3 TB/s = 3x RTX 3090 Ti, welche nicht gerade Bandwidth starved ist).

Es geht um den IF$. Der hat bei Navi21 2,25tb/s. Für die dreifache Leistung muss man eine Verdreifachung anlegen, zumal das GDDR Interface sich kaum verändert und die Abhängigkeit vom IF$ also steigt.
Entweder der L3 ist nicht mehr unified, dass heißt 2x128 oder 2x256mb mit möglichen Duplikaten im Cache, oder wir brauchen einen Ringbus mit entsprechender Bandbreite. Und wir gehen alle von unified L3 aus, alles andere wäre eher eine Dualchipkarte und eine große Dieflächenverschwendung noch dazu.

Das Fabric zwischen den WGPs sitzt irgendwo zwischen L2 und L3. Bei Navi10 saß es zum Beispiel direkt zwischen L2 und MC.
Es hängt davon ab ob RDNA3 einen unified L2 mit daran angeschlossenen L3 Slices hat, oder getrennte L2s und einen unified L3 der direkt über das fabric verbunden ist.

Wenn die Crossbar oder Ringbus am L2 liegt, dann brauchst du doppelt soviele Pins wie wenn sie am L3 liegt, bzw. zwischen L3 und IMC liegt. Bei Navi21 sind das rund 4,5TB/s beim L2 und nur 2.25 beim L3. Ich halte daher private L2s und unified L3 mit crossbar/ringbus in den MCDs für einfacher umsetzbar und parallele bussysteme mit L2 und L3 crossbar / ringbus für sehr unwahrscheinlich bei einem MCM/Stacked chip wo man fabric limited ist. Off-Die Fabric kostet halt Pins, Power, packagingyield und Die-Fläche für die Vias. Bisher waren Off-Die Fabric Bandbeiten über 2tb/s eher aus dem Reich der Märchen, der 5800x3d hat auch nur ein paar hundert gb/s und ich erwarte eine ähnliche Density für stacked GPU Cache, was bei einem 300mm2 GCD auf 2-4Tbs hinausläuft.

Zossel

2022-04-25, 16:58:42

512bit GDDR6 Interfaces sind reines Wunschdenken, das geben aktuelle PCBs einfach nicht her, auch mit teurem backside Drilling oder buried vias erreicht nvidia nur 384bit unter vielen Schmerzen.

IMHO geht es bei diesen spezial Vias lediglich um eine bessere Kontrolle der Impedanz.

Ansonsten wird das mit GDDRx sowieso langsam albern, bald ist das teurer als HBM.

Zossel

2022-04-25, 17:02:04

Die 16GB haben 0,0 Nachteile. Geht halt den Herstellern auf die Marge aber das ist doch richtig so.

Höhere Kosten sind 0,0 Nachteile?

Dampf

2022-04-25, 17:08:00

Eher das Gegenteil wenn es um echte Spiele geht. Konsolen haben ja auch mehr Speicher welches gefüllt werden will. Zeichen 8 und 16 wird es sich einpendeln, mit Ausreißer nach oben wie unten.

Konsolen haben in den meisten Fällen auch 8 GB als Videospeicher zur Verfügung. Oft sogar weniger.

Warum? Weils shared memory ist. Die CPU will auch was vom Kuchen abhaben, der übrigens nur 13,5 GB groß ist (auf der Series X für Spiele)

Spiele brauchen aber mehr als 3,5 GB für den DRAM, besonders wenn wir richtige Next Gen Spiele betreten, wo dann auch viel mehr mit der CPU gemacht wird (Stichwort Interaktivität und Physik)

Es wird also immer enger für den Videospeicher auf den Konsolen. Der 10 GB GPU-optimierter Speicher der XSX ist nur ein Idealszenario, das gegeben ist, wenn Spiele kaum DRAM benötigen.

Sogar heute kannst du das in fast jedem Spiel sehen. Die Textureinstellungen auf den Konsolen sind in den meisten Fällen Äquivalent zu PC's mittleren bis hohen Einstellungen (z.B. bei Watch Dogs Legion und Control). Wenn sie 12 GB+ als Videospeicher zur Verfügung hätten, dann würde jedes Spiel mit den höchstmöglichen Texturen laufen.

basix

2022-04-25, 17:32:28

|MatMan|
Jo, das ist auch mein Hauptkritikpunkt. basix hat sich da einfach verrannt finde ich. 8GB ist Ende 2022 ne echt blöde Idee.

Nicht falsch verstehen: Falls keine Gegenmassnahmen getroffen werden (Kompression, HBCC, ...) stimme ich dir absolut zu. 8GB wären auch mMn zu wenig. Aber das weiss auch AMD, die sind nicht auf den Kopf gefallen. Also hat AMD folgende Möglichkeiten:
- 8GB und günstiger Preis. Kunden werden die Karte nicht lieben, gekauft wird sie aber trotzdem (siehe RTX 3070)
- 8 / 16 GB Versionen. Kunde hat die Wahl
- Technische Gegenmassnahmen (effizientere Speichernutzung). Kunde bekommt einige der Vorteile beider Welten.

Langfristig gedacht gewinnt immer letzteres. Auch wenn AMD nur für sich schaut.

Der Druck bezüglich effizienterem Umgang mit Daten (Speichermenge und/oder Bandbreite) nimmt deutlich zu. GDDR5 war lange sehr günstig. GDDR6 kam nie in die Nähe davon und HBM erst recht nicht. Und so wie es momentan aussieht, ist es nicht unwahrscheinlich, dass das die nächsten 5 Jahre so bleiben wird. Und AMD hätte mit HBCC etwas im Technologie-Katalog, was bei korrekter Umsetzung einige Symptome lindern könnte. PCGH hat gar nicht so lange her Far Cry 6 mit Vega 56 getestet: https://www.pcgameshardware.de/Far-Cry-6-Spiel-72873/Specials/Far-Cry-6-Technical-Review-Benchmarks-1380782/

vinacis_vivids

2022-04-25, 18:21:09

N33 XTX: 256MB IF$, 128bit, 16GB, 5120SP, 3,0Ghz - 999 & 1099 USD
-> Full Chip, Full Cache, voller Speicher, hoher Takt, vmtl. 300-350W
Mit N33 XTX muss AMD richtig liefern, vor allem auch gegen die Konkurrenz bzw. interne Konkurrenz. Intern an den CU's muss eine Verdopplung der RT-Cores kommen. Die Leistung muss mind. 30-40% besser sein als N21 XTX. Hitrate muss in höheren Auflösungen besser werden. Weit über der Grenze der Effizienz.
Eine Reduktion auf 4096SP ist für mich schwer vorstellbar um N21 XTX zu übertreffen.

N33 XT: 256MB IF$, 128bit, 16GB, 4608SP, 2,8Ghz - 749 & 799 USD
Salvage N33 XT mit weniger Rechenleistung und weniger Takt. Ansonsten voller Speicher 16GB, dicker Cache um auch richtig was fürs Geld zu bieten. Raster ist auf N21 XTX Niveau ++, Ray-Tracing deutlich besser. Das Ding wird ein sehr guter Cash-Cow.

N33 XL: 192MB IF$, 128bit, 8GB, 3840SP, 2,6Ghz - 549 & 599 USD
N33 XL, Resteverwertung für preisbewusste Käufer. Hier gehts darum die teildefekten Chips möglichst günstig unters Volk zu bringen. Konkurrenz für 3070Ti/3070/3060

Wenn AMD mit einer Die-Size ähnlich wie N21 eine gute Preisrange abdecken kann, dann wäre das eine Lösung. Der Cache muss natürlich 3D gestapelt werden um die 256MB zu erreichen.

Speicherbestückung:
Selbst Nvidia hat bei der 8GB/10GB Speicherbestückung viel auf die Fresse bekommen. Das kann sich AMD gar nicht mehr leisten (siehe 4GB Fury/X). Einmal 16GB veröffentlicht seit Radeon VII, Navi21 wirds kaum Rückschritte geben.

Die 12GB bei N22 verkaufen sich übrigens sehr sehr gut und die 16GB bei N21 ebenfalls. An ein Rückschritt wie Fury(X) 4GB nach der R9 390 8GB glaube ich nicht mehr.

davidzo

2022-04-25, 20:03:29

Das mit höher als 6900XTH Leistung ist doch auch nur ein Gerücht.

Ich halte Navi33 eher für eine Art Polaris Chip. Gibt da viele Parallelen. Polaris wurde auch vorab als Effizienzwunder gehyped und definitiv schneller als Hawai erwartet bzw, sogar als pascal counter eingeschätzt. Sicher, das Leistungsziel von Polaris war Tonga und Hawai zu ersetzen mit einem mainstreamchip, kleinerem SI und billigerem PCB. Aber damit war nicht die brandneue 390x gemeint, sondern eher die Brot und butter Modelle zu Zeiten der Zielsetzung, als R9 290 4gb und R9 285 2gb.
Und die hat Polaris auch locker überrundet. Allerdings war 14nm LPP bei Samsung eben nicht der überlegene Highendprozess wie es die Fangemeinde erwartet hat und die Architektur eben immer noch GCN in großen Zügen.

Ich rechne damit dass Nav33 auf Navi21 Niveau liegt, aber eben nicht die 6900XTH damit gemeint ist, sondern die die 6800 und 6800xt.
N6 ist auch eher kein higend sondern ein kosteneffizienter Node. Zudem soll Navi33 gerüchtehalber den Fokus auf Effizienz legen, also sehr wahrscheinlich das neue Mobile Topmodell.

HOT

2022-04-25, 21:20:31

Der wird schon 6900XT-Leistung abliefern, aber nicht in UHD. Dafür fehlt dann die Bandbreite.

Höhere Kosten sind 0,0 Nachteile?

Das kommt davon, wenn man den Rest nicht liest ;).

basix

2022-04-25, 21:23:19

Das mit höher als 6900XTH Leistung ist doch auch nur ein Gerücht.
...
Ich rechne damit dass Nav33 auf Navi21 Niveau liegt, aber eben nicht die 6900XTH damit gemeint ist, sondern die die 6800 und 6800xt.

Eine 6800 XT sollte schon zu knacken sein, wenn Speicher/Bandbreite nicht limitieren und die IPC in etwa ähnlich ausfällt:
- 64 CU @ 2.5 GHz = 20.5 TFLOPs
- 72 CU @ 2.2 GHz = 20.3 TFLOPs

Durch die geringere Anzahl CU hat N33 theoretisch noch einen Scaling-Vorteil (=höhere IPC). Aber die IPC ist schwierig abzschätzen, wenn die WGPs nun neu 4 CU schwer sind. AMD hat aber seit RDNA einen stärkeren Fokus auf IPC, da das die Energieffizienz fördert.

Eine XTXH zu erreichen ist zudem auch nicht komplett unmöglich. Dazu würden ~2.8 GHz Takt und +10% IPC/FLOP in etwa reichen. Evtl. sehen wir N33 Customs auf Niveau XTXH und das Referenzmodell irgendwo im Bereich 6800-6900XT. Wäre immer noch ein sehr gutes Performance-Niveau.
Und wie HOT sagt, kommt es unter Umständen auch auf die Auflösung an. 1080p und 1440p stehen die Chancen gut, bei 4K ist es noch etwas in der Schwebe.

vinacis_vivids

2022-04-26, 00:16:10

Fazit: "6900XT 8GB" Karte für 499 USD :tongue:

Rampage 2

2022-04-26, 00:33:36

Fazit: "6900XT 8GB" Karte für 499 USD :tongue:

Jeder Preis über 400$/€ für eine Karte mit nur 8GB Speicher ist zuviel!

Abgesehen davon: WER bitte schön will sich eine Karte kaufen, die so schnell oder noch schneller wie eine 6900XT ist, aber nur halb so viel Grafikspeicher besitzt:freak: - da sind Probleme doch jetzt schon vorprogrammiert; in manchen Spielen vielleicht sogar bereits in 1080p!

R2

reaperrr

2022-04-26, 21:02:46

Jeder Preis über 400$/€ für eine Karte mit nur 8GB Speicher ist zuviel!

Abgesehen davon: WER bitte schön will sich eine Karte kaufen, die so schnell oder noch schneller wie eine 6900XT ist, aber nur halb so viel Grafikspeicher besitzt:freak: - da sind Probleme doch jetzt schon vorprogrammiert; in manchen Spielen vielleicht sogar bereits in 1080p!

R2
Es geht AMD mMn hier auch nur darum, die 1080p-Karte mit dem besten P/L-Verhältnis zu bringen.
Für die vereinzelten Titel, wo 8GB für 1080p nicht ganz reichen, sind dann FSR 1/2, XeSS etc. gedacht, damit kann man intern in 720p rendern und trotzdem ca. 1080p-Qualität erreichen.
N33XT kriegt vielleicht irgendwann noch einen 16GB-Refresh, wenn die Speicherpreise und -verfügbarkeit das zulassen.

bbott

2022-04-26, 21:43:42

Woher soll denn plötzlich so eine krasse Speicherverdopplungskompression kommen? Dafür gibt es doch Null Anzeichen, also braucht man darüber auch nicht diskutieren. Es wäre toll, aber ist leider nicht so einfach. Texturen sind doch eh schon komprimiert.
Danke, wenigstens einer der realistisch ist. [Sarkasmus] Und weil eine Kompression bei 16GB nicht funktioniert, ist 8GB besser ��

Linmoum

2022-04-26, 21:47:30

Welche Anzeichen gab es denn damals für den IF$? Der wurde doch auch erst 1-2 Monate vor dem Launch erstmals überhaupt von RGT erwähnt. Und gefühlt jeder hielt es für unglaubwürdig.

Nur weil etwas nicht in der Gerüchteküche auftaucht, muss es nicht per se unvorstellbar sein. ;)

Zossel

2022-04-26, 22:09:25

Danke, wenigstens einer der realistisch ist. [Sarkasmus] Und weil eine Kompression bei 16GB nicht funktioniert, ist 8GB besser ��

Warum huldigt man ineffiziente Speicherverwaltung? Die PS5 zeigt doch das es wesentlich besser geht.

bbott

2022-04-26, 22:35:42

Warum huldigt man ineffiziente Speicherverwaltung? Die PS5 zeigt doch das es wesentlich besser geht.

Warum bedeutet 16GB ineffizents?! 8GB hätte schon meine RX470 und mit den richtigen Texturen auch sichtbar nutzbar. Es gab es schon Games welche bei 8Gb ihre Probleme hatten. Das 8GB reichen ist eine Gewinn Maximierung seitens NV mit Fanboy Unterstützung, wie 6GB auch bei der 1060ti/2060 usw. reichen bis die Karte veraltet ist, wer jede Gen neu kauft ist das vllt. Ok. Wer aber die Karte länger nutzen möchte war mit mehr immer besser beraten. Wie viel mal ist NV schlechter gealtert als ATI/AMD.

8GB ist ein NO-GO! Streaming und Kompression helfen da nicht wirklich, sie lindern nur. Außerdem gibt es schon genügen Test die zeigen, dass gerade durch Streaming die Bildqualität Dynamisch reduzieren werden kann. Erst auf RT und Bildqualität übersteigerten Wert legen und dann durch Streaming die Bildqualität reduzieren weil der RAM ausgeht. :freak:

8GB Karten enden so wie die GTX2060 6GB und Fury und andere Speicherkrüppel. Das nennt sich geplante obzelenz, welche sogar ganz transparent für den informierten Kunden sind.

Und selbst wenn was spricht dagegen Modelle mit 8GB und 16GB anzubieten, wie es früher öfter Standard war?!
Warum lässt man nicht den Kunden diese Entscheidung? Warum muss ich stattdessen mich zwischen ~10 Boardpartner mit ein paar Mhz unterschieden entscheiden...

basix

2022-04-26, 23:49:41

Warum bedeutet 16GB ineffizents?!
Wenn man etwas hat aber niemals braucht, sind das nutzlos verschleuderte Ressourcen. Ich hatte mal 64 GByte RAM im System. Nutzen? Null.

8GB ist ein NO-GO! Streaming und Kompression helfen da nicht wirklich, sie lindern nur. Außerdem gibt es schon genügen Test die zeigen, dass gerade durch Streaming die Bildqualität Dynamisch reduzieren werden kann. Erst auf RT und Bildqualität übersteigerten Wert legen und dann durch Streaming die Bildqualität reduzieren weil der RAM ausgeht. :freak:

Hört doch bitte auf, fixe Speichergrössen als einzige Messgrösse zu identifizieren. Ein entsprechender Vergleich wären die [GHz] bei CPUs. Takt ist egal, es kommt darauf an was hinten rauskommt. Genauso ist es bei den [GByte], [TFLOPs] und allen anderen Rohleistungsdaten

[Achtung Gedankenspiel]
Wenn sich 8 GByte bei RDNA3 aufgrund Kompression, Virtual Memory Paging oder was auch immer in allen Situationen für die nächsten 10 Jahre gleich wie 16 GByte von RDNA2 verhalten (FPS, Bildqualität, Frametimes, Texturqualität, ...) ist das dann ein unbrauchbarer Krüppel?
[\end]

Ich sage nicht, dass sowas kommt. Aber ich erhoffe es mir. Es wäre für AMD und auch uns von Vorteil. Weil ansonsten kommen wirklich 8GB Krüppel, um den günstigen Verkaufspreis zu treffen, oder die Karten werden noch teurer. Deswegen sollten wir Stand heute hoffen, dass sowas kommt.

Und selbst wenn was spricht dagegen Modelle mit 8GB und 16GB anzubieten, wie es früher öfter Standard war?!
Warum lässt man nicht den Kunden diese Entscheidung? Warum muss ich stattdessen mich zwischen ~10 Boardpartner mit ein paar Mhz unterschieden entscheiden...

Kann man immer. Das bedeutet aber Clamshell Modus und doppelseitige VRAM Bestückung. 32Gbit GDDR6 gibt es noch nicht. Wird halt einfach relativ teuer.

Wenn es bei GPUs zwei Konfigurationen gibt, ist die kleinere davon in den meisten Fällen nicht ratsam und die grössere in der Tendenz zu teuer. Beides nicht optimal.

Ich würde auch einen gesunden Mittelweg begrüssen: 24 Gbit GDDR6 Module. Ergäbe 12 GByte pro Karte. Da N33 mittelfristig eher eine 1440p denn 4K Karte ist, wäre das die momentan passendendste Speichermenge.

iamthebear

2022-04-26, 23:59:47

N31, 2GCDs auf 4MCDs, jedes GCD hat 128b RAM-Anbindung und 256MB Cache (192MB salvage) und das GCD ist direkt per TSVs mit dem Commandprozessor und MCD+Cache verbunden.
N32, 2GCDs auf 2MCDs, jedes GCD hat 64b RAM-Anbindung mit 128MB Cache (kein salvage der MCDs)

Das macht keinen Sinn. Wieso sollte Navi31 2x Speicherinterface bekommen UND 2x Infinity Cache aber nur 1.5x Shader?
Navi21 vs. 22 hatte 1.33x Speicherinterface und 1.33x Cache bei 2x Shader.

Einmal abgesehen davon wird AMD kaum nur für die paar Navi31 Karten ein eigenes MCD auflegen.

Ich verstehe nicht was gegen 4 MCDs (256 Bit 512MB) bei Navi31 und 3 MCDs (192 Bit 384MB) bei Navi32 spricht. Das passt ideal von der Bandbreite und es können dieselben MCDs drauf gestacked werden. Die MCDs sitzen ja sowieso nicht irgendwo an den Ecken sondern GCD übergreifend. Entweder sind die MCDs die Bridges oder die MCDs sind auf den IO Die gestacked und die Bridge/controllogik ist im IO Die. Alles andere würde nicht viel Sinn ergeben.[/QUOTE]

Je nach Verschaltung und Organisation der MCDs, könnte man aus 4x64bit auch 4x48bit machen. Dabei würden zwei separate MCDs auf ein einzelnes GDDR6-Package geschaltet. Ob das technisch möglich ist, da bin ich aber überfragt.

Dann hat man aber 2 verschiedene MCDs. Teildefekte MCDs wird es nicht viele geben bei der kleinen Größe. Die werden wohl als Ganzes entsorgt oder gesammelt bis man irgendetwas sinnvolles damit machen kann.[/QUOTE]

Weiß jemand was zum SRAM Scaling unter N6? Wie wäre es denn wenn der Cache im MCD sitzt?

Da MCD für "multi cache die" steht gehe ich einmal davon aus, dass dort der Cache zu finden ist :D
Dass das Speicherinterface gleich mit drauf gepackt wird macht auch Sinn.

Was SRAM unter N6 angeht habe ich bisher keine Daten gefunden. Ich vermute, dass es entweder keine Steigerung gegenüber N7 gibt oder dass diese sich in etwa so verhält wie N7 vs. N5 also z.B. 18% Logic Density und ca. 8% SRAM.

Allerdings sagt der Fertigungsprozess nicht unbedingt viel darüber aus wie dicht der Cache ist. Der VCache beim 5800x3D ist z.B. ca. doppelt so dicht wie der L3 darunter trotz selber Fertigung. Der L2 von Gaming Ampere braucht ca. 12x so viel Platz wie der Infinity Cache in RDNA 2.

Ihr lasst euch immer von solchen Nerd Forum wie hier, Computerbase usw täuschen.

Hier haben wahrscheinlich 50% der Leute eine Grafikkarte 3070+ im Rechner.

Nimmt man das IOFF, Spiegel.de, Focus.de Heimwerker Forum.de dazu, sind wir wahrscheinlich direkt bei 10% oder weniger mit Speed 3070+.

Da braucht man nicht vermuten. Mindfactory veröffentlicht ziemlich detaillierte Statistiken was gekauft wird. Zumindest für den deutschen Gamingmarkt wird das schon relativ repräsentativ sein. Letzte Woche war die meistverkaufte GPU die 3080 mit 470 Stück. 3060 wurden gerade mal 280 verkauft. Die 3050/3060 Ti sind nicht einmal in den Top 5:
https://www.reddit.com/r/AMD_Stock/comments/ua8r7w/week_17_2022_mindfactoryde_total_gaming_gpu_sales/

Ich schätze der Otto Normal Käufer holt sich mittlerweile eine Konsole speziell diese Generation oder bleibt bei seiner 1060/70.

Die hat keine 8GB, so ein Blödsinn, und ich denke, viele Daten wurden da einfach zusammengeschätzt (Speichermengen, Cache Größen). Da stimmt garantiert die Hälfte der Details mal nicht.

Wir haben mittlerweile 3 oder 4 Leaker, die alle unabhängig voneinander einen Preis um die 400-500$ genannt haben. Da sollte es relativ klar sein, dass es nicht mehr RAM geben wird.

Selbst den 520mm N21 inkl. 16GB gab es für 579$ in Form der 6800. Ist alles eine Frage der Zielmarge.

Ich muss dich korrigieren: AMD hatte irgendwann einmal einen Preis von 579$ angekündigt zu einer Zeit als VRAM noch spottbillig war.
Wieviele 6800 wurden wohl seit Launch um 579$ verkauft?

Edit:
Zu HBCC wäre noch zu sagen, dass man mit PCIe 5.0 x8 (32 GByte/s) den VRAM 4x pro Sekunde komplett neu einlesen könnte. Wenn man annimmt, dass bei 12 vs. 8 GByte noch 1/3 des Speicher-Pools davon betroffen sind, sind wir bei 12x pro Sekunde (Achtung: Milchmädchen). Und dann die Frage, wie viel davon effektiv ausgetauscht wird. Wenn man sich PCIe-Scaling Benchmarks von TPU anschaut, wo selbst PCIe 2.0 x16 gerademal 5% Performance auf einer 3080 kostet (https://www.techpowerup.com/review/nvidia-geforce-rtx-3080-pci-express-scaling/26.html), dann ist der Traffic via PCIe relativ klein (~400MB/s als Abschätzung). PCIe 2.0 x16 entspricht PCIe 4.0 x4 oder PCIe 5.0 x2. Da wäre also noch viel Platz, um zusätzliche Daten zwischen GPU und Host via HBCC hin und her zu schaufeln.[/QUOTE]

Die 16GB haben 0,0 Nachteile. Geht halt den Herstellern auf die Marge aber das ist doch richtig so.

Du glaubst doch nicht ernsthaft, dass irgendein börsennotiertes Unternehmen ohne Grund auf seine Marge verzichtet. Ein CEO der das macht würde nicht lange im Amt bleiben...

Mehr VRAM bedeutet entweder, dass der Chip sehr sehr viel kleiner werden wird (16GB sind sowieso utopisch) oder dass die Karte dementsprechend um min 200-300$ teurer wird. Nur im 700-800$ Preisbereich gibt es ja sowieso schon kleine Navi32 Karten und was bietet man dann im 500$ Bereich an?

Ganz im Gegenteil, 8GB müsstest du verschleudern, weil es sonst keiner kauft, zurecht. Man muss das doch mal aus der Perspektive des gesamten Produktes sehen, nicht nur die Details.

Niemand interessiert sich dafür wieviel VRAM die Karte hat solange die Frameraten passen.

Allerdings habe ich weiterhin Bedenken bei der Speichermenge. NV könnte sich eine 8GB-Karte leisten. Kann es AMD?

Was soll bei AMD anders sein als bei Nvidia? Wenn das Ding im September launched mit +40% über einer 3070 Ti für weniger Geld werden alle Schlange stehen.

Ich mache mir eher Sorgen, dass ein sauteurer Salvage Navi31 nur 12GB bekommen wird.

Zossel

2022-04-27, 06:19:18

Warum bedeutet 16GB ineffizents?

Eine bestimmte Menge RAM ist per se weder effizent noch ineffizient. Die Verwaltung dessen ist effizient oder ineffizient.

Warum sträubst du dich gegen Innovation in diesem Bereich? Spielst du auch keine Spiele > DX11?

Zossel

2022-04-27, 06:59:57

Der VCache beim 5800x3D ist z.B. ca. doppelt so dicht wie der L3 darunter trotz selber Fertigung. Der L2 von Gaming Ampere braucht ca. 12x so viel Platz wie der Infinity Cache in RDNA 2.

Das Die mit dem VCache ist ein reines Array aus Flip-Flops und Verdrahtung, die Verwaltung davon steckt in dem anderen Die.

HOT

2022-04-27, 08:36:41

[...]

Niemand interessiert sich dafür wieviel VRAM die Karte hat solange die Frameraten passen.

[...]

;D:uattack4::uexplode::ucrazy3:
Der war echt gut :D

SRAM N6 = SRAM N7 übrigens. Zu dem restlichen Kohl den du da von dir gegeben hast, schreib ich mal nix :D.

@basix
extra für dich:
https://www.pcgameshardware.de/Geforce-RTX-3070-Grafikkarte-276747/Tests/8-GB-vs-16-GB-Benchmarks-1360672/

Soviel zum perfekten Speicher - und das ist uralt. Das ist einfach Unsinn. Effizienz bedeutet du hast in keiner Lebenslage Mangel, nicht du hängst manchmal über der Grenze. 16GB sind für diese Konsolengeneration perfekt und damit die effizienteste Ausstattung. Hinzu kommt noch, dass es mit 16Gb-Chips bei 256Bit Interface perfekt passt. Dass N33 jetzt 128b hat bedeutet doch nicht, dass man hier an Speicher sparen kann, nein das kann man nicht. Das Ding soll auch 23 noch nutzbar sein. Und du kannst doch keinen Chip mit offensichtlichem Speichermange gegen ein NV-Produkt mit 12GB stellen, das ist einfach nur dumm und das wird nicht passieren.

6GB -> zu wenig
8GB -> teilweise zu wenig, teilweise grenzwertig
12GB -> Perfekt für die erste Zeit dieser Konsolengeneration
16GB -> Perfekt für den gesamten Konsolenzyklus
24GB -> Perfekt, wenn man oft stark moddet und Detaillevel und extreme Texturen verwendet - oder man viel Minecraft RTX spielt :D.

Platos

2022-04-27, 09:54:23

Gerade die Laien schauen noch am meisten auf den Speicher.

ABer so oder so: schlechte Aussage. die meisten schauen auf den Speicher oder zumindest die, die ein bisschen weiter als 1 Jahr in die Zukunft schauen können bzw. die, die die Karte länger als eine Generation besitzen wollen.

basix

2022-04-27, 10:12:16

@basix
extra für dich:
https://www.pcgameshardware.de/Geforce-RTX-3070-Grafikkarte-276747/Tests/8-GB-vs-16-GB-Benchmarks-1360672/

Soviel zum perfekten Speicher - und das ist uralt. Das ist einfach Unsinn. Effizienz bedeutet du hast in keiner Lebenslage Mangel, nicht du hängst manchmal über der Grenze. 16GB sind für diese Konsolengeneration perfekt und damit die effizienteste Ausstattung. Hinzu kommt noch, dass es mit 16Gb-Chips bei 256Bit Interface perfekt passt. Dass N33 jetzt 128b hat bedeutet doch nicht, dass man hier an Speicher sparen kann, nein das kann man nicht. Das Ding soll auch 23 noch nutzbar sein. Und du kannst doch keinen Chip mit offensichtlichem Speichermange gegen ein NV-Produkt mit 12GB stellen, das ist einfach nur dumm und das wird nicht passieren.

6GB -> zu wenig
8GB -> teilweise zu wenig, teilweise grenzwertig
12GB -> Perfekt für die erste Zeit dieser Konsolengeneration
16GB -> Perfekt für den gesamten Konsolenzyklus
24GB -> Perfekt, wenn man oft stark moddet und Detaillevel und extreme Texturen verwendet - oder man viel Minecraft RTX spielt :D.

Wer redet von perfektem Speicher? Nur dass die Speichermenge effizienter genutzt wird ;)

Die Auflistung der Speichermenge stimmt so, da widerspreche ich nicht. Aber nur, wenn sich das Speichermanagement nicht verbessert.

Das ist ja das, was ich anspreche: Intelligentere Mechanismen und Technologien direkt in die GPU gegossen. Die GPU meldet sich mit virtuell grösserem Speicherpool und dem Spiel und Spieler kann es dann egal sein. Es läuft und keine Nachteile wie Nachladeruckler oder Texturmatsch. Dann könnte deine Speichermengen-Auflistung komplett anders aussehen. Mann könnte das auch als "effektiv verfügbaren Speicher" betiteln. Gleich wie Infinity Cache zu "effektiver Bandbreite" führt. Von aussen sieht das physisch "nur" wie 512 GB/s aus. Für die Abnehmer in Form der Shader Engines sind es aber >1TB/s. Genau das selbe wäre für die Speichermenge sinnvoll. Dann sehen physisch 8GB für das Spiel wie 16GByte aus. Wieso sollte sowas nicht sinnvoll sein? Natürlich wird das nicht einfach hingezaubert, aber wenn man Kosten senken oder einen Konkurrenzvorteil erlangen will, wäre sowas sehr wertvoll,

Gerade die Laien schauen noch am meisten auf den Speicher.

ABer so oder so: schlechte Aussage. die meisten schauen auf den Speicher oder zumindest die, die ein bisschen weiter als 1 Jahr in die Zukunft schauen können bzw. die, die die Karte länger als eine Generation besitzen wollen.
Klar schauen Kunden auf den Speicher. Bei CPUs hat man früher aber auch nur auf die GHz geschaut. Wenn man Speicher effizienter nutzt, muss man das dem Kunden halt erklären und aufzeigen. Dazu noch ein leicht zu merkender und fancy Markename wie z.B. "Infinity Memory", ein paar schöne Powerpoint Folien und los gehts. Reviews und Tests tun dann langfristig ihr übriges.

Heute verkaufen sich z.B. CPUs auch eher über den Markennamen, zumindest bei den Laien die ich kenne. Da ist ein i7 das Nonplusultra, egal was drin steckt. Mit etwas wie "Infinity Memory" und einmassieren der Message in die Köpfe der Kunden erreicht man mehr. Ist das selbe wie bei RTX oder G-Sync. RTX ist das Synonym für Raytracing, obwohl RTX nur ein Markenname von Nvidia ist.

Und zudem: Die 3070 ging auch mit 8GB weg wie warme Semmeln...

Neurosphere

2022-04-27, 10:13:22

Die große Frage dabei ist doch erstmal was AMD aus dem N33 macht.

Wird's erstmal was größeres als Ersatz für N21, was dann mit mehr RAM kommt und höherem Preis, weil N31 noch länger auf sich warten lässt? Oder doch von Anfang an Midrange als 7700/7600, wo für FHD und QHD auch 8GB RAM irgendwo noch funktionieren, was dann auch entsprechend günstig angeboten wird.

Beides ist mit dem N33 Chip möglich und wird davon abhängen wann die N3x Chips jeweils auf den Markt kommen.

basix

2022-04-27, 10:18:59

Ist das Speichermanagement bei RDNA3 nicht verbessert, sehe ich 8GB auch bei 1080p/1440p mittelfristig als kritisch. Für viele Spiele ist 8GB noch ausreichend, es gibt aber immer mehr wo es knapp wird, insbesondere mit Raytracing.

Edit:
Noch ein Zusatzpunkt zu Speicherkompression und Die Stacking:
Liegen die Daten höher komprimiert im Infinity Cache vor erhält man zwei Vorteile:
- Infinity Cache wird effektiv grösser --> Kosten oder maximal erreichbare Performance verbessert
- Energieffizienz steigt, da komprimierte Daten von MCD -> GCD übertragen werden (geringere Datenmenge) --> Energieeffizienz verbessert

Anhand dem Beispiel sieht man gut, das verbesserte Kompression einen multiplikativen Faktor bei mehreren Bereichen hätte: Speichermenge, IF$-Menge, Bandbreite, Energieffizienz
Langfristig sind selbst +10% Kompressionsfaktor schon ein Vorteil. Und sobald es in Richtung 30% oder mehr geht, wäre der Gewinn enorm. Insbesondere bei Chiplet basierten Designs.

Platos

2022-04-27, 10:24:39

Klar schauen Kunden auf den Speicher. Bei CPUs hat man früher aber auch nur auf die GHz geschaut. Wenn man Speicher effizienter nutzt, muss man das dem Kunden halt erklären und aufzeigen. Dazu noch ein leicht zu merkender und fancy Markename wie z.B. "Infinity Memory", ein paar schöne Powerpoint Folien und los gehts. Reviews und Tests tun dann langfristig ihr übriges.

Heute verkaufen sich z.B. CPUs auch eher über den Markennamen, zumindest bei den Laien die ich kenne. Da ist ein i7 das Nonplusultra, egal was drin steckt. Mit etwas wie "Infinity Memory" und einmassieren der Message in die Köpfe der Kunden erreicht man mehr. Ist das selbe wie bei RTX oder G-Sync. RTX ist das Synonym für Raytracing, obwohl RTX nur ein Markenname von Nvidia ist.

Und zudem: Die 3070 ging auch mit 8GB weg wie warme Semmeln...

Ich frage mich, wie man das mit dem i7 hingekriegt hat.

Ja, habe ich gerade im anderen Thrad geschrieben, bei dem ich einem geholfen habe ein Laptop auszusuchen. Gefühlt 1000-Mal hat er i7 gesagt. Dabei ist i5 und i7 (immer) noch nicht zwingend ein grosser Unterschied. Bei den Laptop-CPUs mit ~15W (sind ja keine 15W mehr) ist der Unterschied immer noch nur 200-400Mhz :D Bei den grösseren Laptop-CPUs dann immerhin auch mal mehr Kerne etc, aber trotzdem.

Und ja, die 3070 ging weg, aber warum? Waren das eher Miner oder eher Gamer oder so Zweigleisigfahrende ? Und ich meinte eher Fertig-PCs bzw. Fertig Laptops. Da sind die "wahren" Laien anzufinden :D

Neurosphere

2022-04-27, 10:26:07

16GB sind aber im Preisbereich von 400-500€ nicht drin, es sei denn er ist lahm und dadurch günstig. Über 500€ wäre für eine 7600 oder 7700 zumindest nach UVP nicht drin.

Was AMD machen könnte, wäre eine N33 mit 16GB als 6800 XT Ersatz unter den 6950 und über der 6750. Später wenn die anderen Karten kommen gibt's dann ein Rebranding und es geht mit 8GB weiter nach unten ins Portfolio.

Platos

2022-04-27, 10:33:26

Es ist halt einfach aus einer psychologischen Perspektive immer wieder lächerlich (eig. ja auch aus technischer), wenn "unten" die Perfomance gleich ist wie bei einem früheren Modell, der Speicher aber viel kleiner.

8GB gabs schon 2016 bei der RX 480. AMD stagniert da einfach extremst bei manchen Grafikkarten. Und wenn sie jetzt wieder 8GB anbieten, dann muss wohl zwingend der Chip bzw. das Drumherum extrem teuer sein, wenn/falls nvidia bei einer 4060 12GB anbieten kann. Falls AMD wirklich wenig Speicher anbietet während dem sogar nvidia durchgehend die Speichermenge erhöht, dann hat AMD eig. schon verloren. Ausser AMD bietet wieder mal Spotpreise an.

vinacis_vivids

2022-04-27, 10:43:13

Guckt mal die Kompressionstechnik der PS5 ggü. der XBOBX an:

https://www.techspot.com/news/89769-playstation-5-compression-tech-can-drastically-reduce-game.html

Für Control Ultimate Edition braucht Microsoft 42,5 GB und Sony dagegen nur 25 GB.
Das ist beides Zen2 + RDNA2 Technik, also praktisch die gleiche Hardware.

70% Mehr Platz für das gleiche Spiel.

Oder Subnautinca:
https://www.computerbase.de/2021-05/datenkompression-ssd-technik-der-ps5-macht-subnautica-60-prozent-kleiner/

Sony PS5 -> 5GB und bei der PS4 -> 14GB

Was N33 angeht. Bei 128bit SI muss der Cache größer als 128MB werden um signifikant die 6900XT zu überbieten. Für 16GB VRAM würde ich 256MB IF$ begrüßen, das ist dann auch 999 USD wert.

unl34shed

2022-04-27, 10:47:57

Prinzipiell wäre doch auch eine Kombination aus clamshell und normaler Bestückung mit 2GB Modulen möglich um an 128bit 10, 12 oder 14GB anzuschließen. Ich gehe aber nicht davon aus, dass man das machen wird.

E: wobei sich hier auch die Frage stellt ob das überhaupt viel günstiger als 16GB wäre.

BlacKi

2022-04-27, 10:51:41

Es ist halt einfach aus einer psychologischen Perspektive immer wieder lächerlich (eig. ja auch aus technischer), wenn "unten" die Perfomance gleich ist wie bei einem früheren Modell, der Speicher aber viel kleiner.

8GB gabs schon 2016 bei der RX 480. AMD stagniert da einfach extremst bei manchen Grafikkarten. Und wenn sie jetzt wieder 8GB anbieten, dann muss wohl zwingend der Chip bzw. das Drumherum extrem teuer sein, wenn/falls nvidia bei einer 4060 12GB anbieten kann. Falls AMD wirklich wenig Speicher anbietet während dem sogar nvidia durchgehend die Speichermenge erhöht, dann hat AMD eig. schon verloren. Ausser AMD bietet wieder mal Spotpreise an.wenn die 4070 schon mit 12gb kommt, dann sieht das für die 4060 wohl so aus, das sie wieder auf 8gb zurückkehrt. was sehr traurig ist.

basix

2022-04-27, 11:00:37

Prinzipiell wäre doch auch eine Kombination aus clamshell und normaler Bestückung mit 2GB Modulen möglich um an 128bit 10, 12 oder 14GB anzuschließen. Ich gehe aber nicht davon aus, dass man das machen wird.

Das ist schon bei einem geschlossenen System wie der Xbox hässlich. Kann mir nicht vorstellen, dass das im PC-Bereich eine sinnvolle Sache ist.

BlacKi

2022-04-27, 11:21:21

Das ist schon bei einem geschlossenen System wie der Xbox hässlich. Kann mir nicht vorstellen, dass das im PC-Bereich eine sinnvolle Sache ist.

wenn man es richtig machen würde, würde es gehen. aber das ist das problem daran. und langzeitsupport könnte teuer werden.

Platos

2022-04-27, 11:28:06

Guckt mal die Kompressionstechnik der PS5 ggü. der XBOBX an:

https://www.techspot.com/news/89769-playstation-5-compression-tech-can-drastically-reduce-game.html

Für Control Ultimate Edition braucht Microsoft 42,5 GB und Sony dagegen nur 25 GB.
Das ist beides Zen2 + RDNA2 Technik, also praktisch die gleiche Hardware.

70% Mehr Platz für das gleiche Spiel.

Oder Subnautinca:
https://www.computerbase.de/2021-05/datenkompression-ssd-technik-der-ps5-macht-subnautica-60-prozent-kleiner/

Sony PS5 -> 5GB und bei der PS4 -> 14GB

Was N33 angeht. Bei 128bit SI muss der Cache größer als 128MB werden um signifikant die 6900XT zu überbieten. Für 16GB VRAM würde ich 256MB IF$ begrüßen, das ist dann auch 999 USD wert.

Ne, nicht praktisch die gleiche Hardware. Sony nutzt zahlreiche Spezialhardware, wie z.B extra Einheiten nur für's Dekomprimieren. Microsoft hat da leider nie so genau Auskunft gegeben meines Wissens nach. Wird wohl aber massiv schlechter sein, wenn Sony es sich leisten kann, die Spiele so viel weiter zu dekomprimieren. CPU und GPU ist vlt. auf gleicher Basis, aber bei Konsolen gehts ja nicht nur darum.

Kurz gesagt: Liegt nicht an AMDs Zen/RDNA, liegt an der Spezialhardware.

mboeller

2022-04-27, 12:52:34

damit ihr hier nicht nur um des Kaisers Bart streiten müsst:

https://twitter.com/greymon55/status/1519198751369310208

n31 tape-out Q3 2021
n33 tape-out Q4 2021
n32 tape-out Q1 2022

basix

2022-04-27, 13:11:54

Ne, nicht praktisch die gleiche Hardware. Sony nutzt zahlreiche Spezialhardware, wie z.B extra Einheiten nur für's Dekomprimieren. Microsoft hat da leider nie so genau Auskunft gegeben meines Wissens nach. Wird wohl aber massiv schlechter sein, wenn Sony es sich leisten kann, die Spiele so viel weiter zu dekomprimieren. CPU und GPU ist vlt. auf gleicher Basis, aber bei Konsolen gehts ja nicht nur darum.

Kurz gesagt: Liegt nicht an AMDs Zen/RDNA, liegt an der Spezialhardware.

Microsoft nutzt LZ und/oder BCPack und Sony Kraken. Sind einfach verschiedene Algorithmen. XBox kann soweit ich weiss auch in HW beschleunigen (Velocity Architecture). Kraken scheint aber besser zu sein: https://www.tomshardware.com/news/ps5-60percent-smaller-game-sizes-kraken-compression

Ausserdem ist das eine ganz andere Form von Kompression, nämlich Festplatte -> RAM. Da kann man deutlich höhere Kompressionsfaktoren fahren, als wenn es mit deutlich höherer Bandbreite als auch deutlich niedriger Latenz gehen muss (was im Falle VRAM/IF$ so wäre)

Edit zu Velocity Architecture:
https://news.xbox.com/en-us/2020/07/14/a-closer-look-at-xbox-velocity-architecture/
Hardware Accelerated Decompression:
Game packages and assets are compressed to minimize download times and the amount of storage required for each individual game. With hardware accelerated support for both the industry standard LZ decompressor as well as a brand new, proprietary algorithm specifically designed for texture data named BCPack, Xbox Series X provides the best of both worlds for developers to achieve massive savings with no loss in quality or performance. As texture data comprises a significant portion of the total overall size of a game, having a purpose built algorithm optimized for texture data in addition to the general purpose LZ decompressor, both can be used in parallel to reduce the overall size of a game package. Assuming a 2:1 compression ratio, Xbox Series X delivers an effective 4.8 GB/s in I/O performance to the title, approximately 100x the I/O performance in current generation consoles. To deliver similar levels of decompression performance in software would require more than 4 Zen 2 CPU cores.

Neurosphere

2022-04-27, 13:14:05

damit ihr hier nicht nur um des Kaisers Bart streiten müsst:

https://twitter.com/greymon55/status/1519198751369310208

Was ich dabei nicht verstehe, warum bringt AMD N31 dann so spät?

mboeller

2022-04-27, 13:20:17

Guckt mal die Kompressionstechnik der PS5 ggü. der XBOBX an:

bei den Konsolen liegen die Daten komprimiert auf der SSD, bei der PS5 halt mit Kraken komprimiert.

die Dekomprimierung ist bei Kraken in Hardware bei der PS5 auch sehr schnell, die Komprimierung aber weniger.

Bei einer GPU-Komprimierung muss aber Dekomprimierung und Komprimierung sehr schnell sein um zu funktionieren (Bandbreite!).

Außerdem liegen die meisten Daten (Texturen) bereits komprimiert im Speicher. Die einzigen Sachen die de-/komprimiert werden können sind damit die Polygon-Daten und die verschiedenen Buffer

Ich denke deshalb nicht, dass man Konsole und GPU vergleichen kann.

Für Framebuffer gibt es Komprimierungen, u.a.:
https://www.anandtech.com/show/16155/imagination-announces-bseries-gpu-ip-scaling-up-with-multigpu/3

Kraken:
http://www.radgametools.com/oodlekraken.htm

Linmoum

2022-04-27, 13:23:35

Was ich dabei nicht verstehe, warum bringt AMD N31 dann so spät?Wann bringen sie das denn? ;)

mboeller

2022-04-27, 13:25:49

Was ich dabei nicht verstehe, warum bringt AMD N31 dann so spät?

IMHO das ist die erste richtige Multi-GPU. Da ist vom Herstellprozess praktisch alles neu und wahrscheinlich teilweise auch von den Treibern. Da sind 1 Jahr zw. Tape-out und Verkauf eher wenig Zeit.

vinacis_vivids

2022-04-27, 13:36:07

Ne, nicht praktisch die gleiche Hardware. Sony nutzt zahlreiche Spezialhardware, wie z.B extra Einheiten nur für's Dekomprimieren. Microsoft hat da leider nie so genau Auskunft gegeben meines Wissens nach. Wird wohl aber massiv schlechter sein, wenn Sony es sich leisten kann, die Spiele so viel weiter zu dekomprimieren. CPU und GPU ist vlt. auf gleicher Basis, aber bei Konsolen gehts ja nicht nur darum.

Kurz gesagt: Liegt nicht an AMDs Zen/RDNA, liegt an der Spezialhardware.

Nein Sony hat keine Extra-Hardware. PS5 und XBOX X - Das ist alles Zen2 + RDNA2 APU nur mit unterschiedlicher Die-Size, CU und Takt.
Die XBOX X ist hardwaretechnisch sogar stärker, geht aber verschwenderischer mit Ressourcen um.

Das Geheimnis liegt u.a. in "Oodle Kraken" lossless Data Compression, die bei Sony PS5 in Anwedung kommt.
http://www.radgametools.com/oodlewhatsnew.htm

Da ist nix mit "Spezialhardware" - die ISA für RDNA2 und Zen2+ ist überall gleich. Oodle Kraken läuft sowohl auf X86 als auch ARM.

Wie auch immer. Die 16GB VRAM für RDNA3 N33 würde ich schon begrüßen, und das wird vllt. auch einige N22 12GB und N21 16GB Besitzer zum Aufrüsten bewegen. Die 8GB-Version von N33 erregt nicht mal ein müdes Gähnen bei N21 16GB Besitzer.

Beide Versionen, 8GB und 16GB N33 6nm haben ihre Daseinsberechtigung. An AMD`s Stelle würde ich beide Versionen zum Verkauf anbieten und die 16GB mit den besten Chips ausstatten und die schlechteren Salvage halt mit 8GB verkaufen.

mboeller

2022-04-27, 13:44:11

Nein Sony hat keine Extra-Hardware. PS5 und XBOX X - Das ist alles Zen2 + RDNA2 APU nur mit unterschiedlicher Die-Size, CU und Takt.

Schnarch... könntest du wenigstens 1x nachschauen bevor du Schmarrn schreibst

PS5 Presentation vom Cerny:
https://www.hardwareluxx.de/images/cdn01/FBDA577231FB4783A39FE53F974455E1/img/4728FFED00E24D8EB47B845D9D3E1AFC/Sony-Playstation5-Technical-00001_4728FFED00E24D8EB47B845D9D3E1AFC.jpg

Kraken ist im SoC in Hardware drin!

basix

2022-04-27, 13:46:23

Genau, die neuen Konsolen (XBXsX, XBXsS, PS5) besitzen spezielle und dedizierte HW-Blöcke für Dekompression für Daten von der SSD.

Du kannst das schon via CPU machen, dann allerdings mit 80-100 CPU Cores ;) Das ist ja gerade der Witz des ganzen: CPU via dedizierter Acceleration entlasten.

vinacis_vivids

2022-04-27, 14:13:07

@mboeller @Platos

Ja, Danke. Nehme ich zurück was meine falschen Behauptungen angeht bezüglich der dezidierten Hardware De-Kompression. PS5 hat Kraken in der Hardware drin und ist somit besser als XBOX-X was Daten-Dekompression angeht.

basix

2022-04-27, 14:19:20

PS5 hat Kraken in der Hardware drin und ist somit besser als XBOX-X was Daten-Dekompression angeht.

Auch die XBox hat dedizierte Decompression HW. Einfach nicht Kraken sondern andere Formate (LZ, BCPack).

Aber wir schweifen langsam vom Thema ab ;)

davidzo

2022-04-27, 15:13:31

Das sind doch alles Storage Kompressionsmethoden die null Auswirkungen auf die VRAM Auslastung haben. Im Gegenteil, unkomprimierte Texturen lassen sich viel einfacher direkt streamen (=geringerer VRAM Bedarf) als wenn ich die erstmal aus dem super-duper Storage-Kompressionsalgorithmus entpacken muss (Ram bedarf?).

vinacis_vivids

2022-04-27, 15:23:23

Chips an Cheese hat einen sehr kurzen Artikel "GPU Memory Latency"
https://chipsandcheese.com/2021/04/16/measuring-gpu-memory-latency/

Darin ist RDNA2 (6800XT) bereits extrem gut.
Nur 114ns bis 32MB Datengröße. Von 32 bis 256MB steigt die Latenz auf ~250ns - 264ns.
Bei 128MB sieht man einen "Knick", was auch die Größe des IF$ entspricht.

https://abload.de/img/ampere_rdna2_mem7ekng.png#

RDNA3 müsste auch bei größeren random Daten wie 256-512MB eine niedrigere Latenz haben um in höheren Auflösungen wie nativen-8K Assets signifikant schneller zu sein.

https://abload.de/img/ampere_rdna2_memdna372bjo5.png

Die 8K Assets sehen deutlich besser aus als 4K Assets.
Hoffe RDNA3 bringt da einen signifikanten Sprung nach vorne.

AffenJack

2022-04-27, 16:04:29

Was ich dabei nicht verstehe, warum bringt AMD N31 dann so spät?

Viel mehr zu Validieren mit dem Stacking und TSMCs Stacking Prozess der verwendet werden dürfte wird erst irgendwann in Q3 fertig. N33 kann dagegen wahrscheinlich schon in Q2 in Produktion gehen.

Dovregubben

2022-04-27, 16:04:41

Im Gegenteil, unkomprimierte Texturen lassen sich viel einfacher direkt streamen (=geringerer VRAM Bedarf) als wenn ich die erstmal aus dem super-duper Storage-Kompressionsalgorithmus entpacken muss (Ram bedarf?).
Unkomprimierte Texturen haben also weniger RAM und VRAM Bedarf? Ich glaub du hast da einen Denkfehler. Du musst auch nicht das ganze File entpacken, um an einzelne Daten zu kommen.

Zossel

2022-04-27, 16:19:04

Auch die XBox hat dedizierte Decompression HW. Einfach nicht Kraken sondern andere Formate (LZ, BCPack).

Aber wir schweifen langsam vom Thema ab ;)

Effiziente Kompression bei der PS5 ist eigentlich nur das Sahnehäubchen, der eigentliche Trick ist das transparente Paging von der Platte. Womit das VRAM virtuell so groß wie die Platte ist -> BINGO.

Zossel

2022-04-27, 16:20:16

Unkomprimierte Texturen haben also weniger RAM und VRAM Bedarf? Ich glaub du hast da einen Denkfehler. Du musst auch nicht das ganze File entpacken, um an einzelne Daten zu kommen.

Das hängt von der konkreten Implementierung ab.

davidzo

2022-04-27, 16:20:45

Unkomprimierte Texturen haben also weniger RAM und VRAM Bedarf? Ich glaub du hast da einen Denkfehler. Du musst auch nicht das ganze File entpacken, um an einzelne Daten zu kommen.

Nein, genau den gleichen, aber bei PCs biszu doppelt (einmal im System RAM plus einmal im VRAM, wenn auch nicht gänzlich gleichzeitig, je nachdem wie gut das memory management der engine ist).

Eine GPU nutzt Texturkompression, das ist aber nicht dasselbe wie die Game Data bzw. storage Kompression der PS5 SSD. Die Storage Engine sitzt im i/o Komplex und nicht in der GPU, folglich verarbeitet die GPU also nicht direkt die komprimierten Daten und spart so auch keinen VRAM. Dafür müssten die Daten direkt im BPTC Format auf der SSD liegen.

Bei einer APU mit unfied addressing mag das Bandbreitenmäßig etwas bringen wenn die Storage Engine direkt in den Ram dekomprimiert, und der dann als vram umgemappt wird, aber VRAM Kapazität spart es nicht. Im Ram/VRAM der PS5 liegen ja die bereits dekomprimierten Daten. Die Kraken Engine liegt ja nicht in der GPU, sondern direkt zwischen RAM und SSD Controller.
Das ganze ist nur eine Methode um Flashspeicher zu sparen sowie CPU-cycles und damit Energieverbrauch und hat praktisch keine Auswirkungen auf den VRAM verbrauch.

Bei einer PC-GPU müssen die Daten zuerst in den Ram kopiert und dort dekomprimiert werden bevor sie an die GPU gestreamt werden können. Hier verbraucht das also zusätzlich zum VRAM auch noch realen Ram und macht direct Streaming von Texturdaten eher komplizierter. Ohne die Hardwareengine der PS5 und ihren eigenen SRAM wäre direct streaming von komprimiert abgelegten Texturen von der ssd wohl unmöglich, bzw. würde massiv CPUcycles und RAM kosten.

Für PCIe GPUs, also ohne APU spart das komprimierte Ablegen auf Platte sowieso keinen VRAM, dafür müsste die compression-engine schon in der GPU sitzen, also eine neuartige Texturkompression eingeführt werden und dafür gibt es bislang keine Anzeichen.

Für das beste Textur-Streaming-Erlebnis wäre es optimal wenn die Texturdaten bereits in jeder Auflösung für jede Qualitäts und LOD-stufe unkomprimiert bzw. BPTC komprimiert auf der SSD liegen. Das hat offensichtlich aber den größten Storage footprint, das ziemliche Gegenteil von Sonys Bemühungen bei der PS5 storage engine.

Zossel

2022-04-27, 17:38:04

Bei einer PC-GPU müssen die Daten zuerst in den Ram kopiert und dort dekomprimiert werden bevor sie an die GPU gestreamt werden können. Hier verbraucht das also zusätzlich zum VRAM auch noch realen Ram und macht direct Streaming von Texturdaten eher komplizierter.

Warum sollte kein DMA in Speicherbereiche möglich sein die von PCIs-Devices in den Adressraum eingeblendet werden?

davidzo

2022-04-27, 17:41:59

Warum sollte kein DMA in Speicherbereiche möglich sein die von PCIs-Devices in den Adressraum eingeblendet werden?
Eben genau das ist nur möglich wenn die Daten unkomprimiert vorliegen. Hier ging es aber um kraken/zlib komprimierte Game Data hinter einem Flashscontroller. Die kann eine PC-GPU ohne Zwischenschritt nicht so einfach streamen. Die Kompression ist also eher ein hindernis und verbraucht im worstcase zusätzlichen System Ram. VRAM spart sie ohnehin nicht, da selbst bei der PS5 mit hardwareengine die Daten im Ram/VRAM bereits auf dem Weg dekomprimiert wurden.

Streaming von der SSD / direct storage hat nichts mit der Kraken/ZLib Komprimierung auf der SSD zutun. Das spart vielleicht Bandbreite und Speicher beim Flash controller, aber nicht im VRAM und auf dem PCIe-bus der GPU.

Neurosphere

2022-04-27, 17:43:18

Wann bringen sie das denn? ;)

Auch wieder wahr;)

IMHO das ist die erste richtige Multi-GPU. Da ist vom Herstellprozess praktisch alles neu und wahrscheinlich teilweise auch von den Treibern. Da sind 1 Jahr zw. Tape-out und Verkauf eher wenig Zeit.

Stimmt, Treiber hatte ich nicht auf dem Schirm.

Viel mehr zu Validieren mit dem Stacking und TSMCs Stacking Prozess der verwendet werden dürfte wird erst irgendwann in Q3 fertig. N33 kann dagegen wahrscheinlich schon in Q2 in Produktion gehen.

Ja, der 5800X3D hat sich ja nun auch recht lange Zeit gelassen von der Vorstellung bis zum realen Produkt. Wobei ich mir generell auch vorstellen kann das der geplante Rahmen für N31 eher Konservativ gewählt ist und genügend Puffer im Projektplan vorhanden ist gerade um bei den Themen durch Fehler oder Herrausforderungen nicht sofort in Verzug zu geraten. Die Aktionäre wollen ja nicht enttäuscht werden:biggrin:

Zossel

2022-04-27, 17:52:53

Eben genau das ist nur möglich wenn die Daten unkomprimiert vorliegen.

Und warum sollte ein PCI-Device Daten die per DMA in gemappte Bereiche geschrieben nicht auf beliebige Art und Weise interpretieren?

basix

2022-04-27, 18:10:33

Effiziente Kompression bei der PS5 ist eigentlich nur das Sahnehäubchen, der eigentliche Trick ist das transparente Paging von der Platte. Womit das VRAM virtuell so groß wie die Platte ist -> BINGO.

Prinzipiell HBCC mit der Festplatte anstatt mit dem System-RAM (Vega)?

Bei einer PC-GPU müssen die Daten zuerst in den Ram kopiert und dort dekomprimiert werden bevor sie an die GPU gestreamt werden können. Hier verbraucht das also zusätzlich zum VRAM auch noch realen Ram und macht direct Streaming von Texturdaten eher komplizierter.

Die Texturen liegen auch im VRAM noch komprimiert vor in Form GPU-unterstützten Formaten wie BC1-7 und anderen. Was, wenn AMD die Kompression in ein "GPU-native" Format anpasst, welche allenfalls noch besser komprimiert?

Hier auf Folie 11 sind verschiedene Ansätze der Textur-Kompression anschaulich dargestellt (Foliensatz ist von 2017, Paper von 2016 (http://gamma.cs.unc.edu/GST/gst.pdf)):
https://gpuopen.com/wp-content/uploads/2017/04/Capsaicin-Cream-GDC2017-StephanieHurlburt.pdf

Was, wenn AMD diese "Supercompressed Texture" aus dem Paper in HW realisiert? RDNA3 Planungsphase könnte vor ~5 Jahren angefangen haben, was die obige Präsentation angeht (sogar auf einem AMD Event). Kompressor/Dekompressor nach dem VRAM oder noch besser nach dem Infinity Cache? Dadurch wird enorm Bandbreite und VRAM gespart.

Auszug aus dem Paper Abstract:
We present a new method (GST) for maintaining a compressed format across all bandwidth-limited channels that decodes directly into a compressed texture on the GPU. Compared to prior techniques, our approach has the lowest CPU-GPU bandwidth requirements while maintaining compressed textures in GPU memory.
Bandwidth limited könnte man hier auch VRAM -> Infinity Cache dazunehmen und voilà, geringerer VRAM Bedarf. Man würde hier die komprimierte Textur vom VRAM laden und in den IF$ transcodiert, in ein GPU-unterstütztes Format (z.B. BC7). Und der Präsentation sprechen sie auch explizit von HW Implementationen von Vendors.

Besser wäre das transcodieren nach dem Infinity Cache oder sogar erst in den WGPs, das ist dann aber eine Performance Frage (Rechenleistung & Latenz fürs Transcodieren). Falls bereits BC7 und Konsorten auf der Disk vorliegen, könnte man es in ein besser komprimiertes Format umwandeln (entweder von CPU oder GPU). Besser aber gleich stärker komprimierte Basisdateien wie jpeg oder .basis nehmen.

Zum .basis Format:
https://metalbyexample.com/basis-universal/
Although Basis is a commercial product, targeted predominantly at game developers, Binomial has contributed their Basis Universal reference encoder and transcoder to the Khronos Group in support of the glTF model format, under the Apache License 2.0.
https://www.khronos.org/blog/google-and-binomial-contribute-basis-universal-texture-format-to-khronos-gltf-3d-transmission-open-standard

--> Der Weg für eine HW Implementation wäre also mehr oder minder frei? Oder verstehe ich da die Apache License nicht richtig?

Edit:
Hab mal bisschen gegoogelt und bei Unreal, Unity etc. sind die Texture Memory Pools typ. >50% des gesamten Speicherbedarfs. Zum Teil auch 80%+
Kann man die Texturgrössen drastisch reduzieren (im oben verlinkten Paper sind es 2-6x zwischen GPU-compatible compression und JPEG/PNG/.basis), könnte man damit also effektiv sehr, sehr viel VRAM gewinnen.

Platos

2022-04-27, 18:22:14

Effiziente Kompression bei der PS5 ist eigentlich nur das Sahnehäubchen, der eigentliche Trick ist das transparente Paging von der Platte. Womit das VRAM virtuell so groß wie die Platte ist -> BINGO.

So gross wie die SSD? Das glaube ich kaum. Dann müssten die Spiele ja ganz anders aussehen. Gibts dazu mehr Infos zum nachlesen?

vinacis_vivids

2022-04-27, 20:35:20

Was, wenn AMD diese "Supercompressed Texture" aus dem Paper in HW realisiert? RDNA3 Planungsphase könnte vor ~5 Jahren angefangen haben, was die obige Präsentation angeht (sogar auf einem AMD Event). Kompressor/Dekompressor nach dem VRAM oder noch besser nach dem Infinity Cache? Dadurch wird enorm Bandbreite und VRAM gespart.

Ja, im RDNA White-Paper steht es drin.

"In previous architectures, AMD introduced delta color compression to reduce bandwidth and
save power. The RDNA architecture includes enhanced compression algorithms that will save
additional bandwidth. Additionally, the texture mapping units can write compressed color
data to the L2 cache and other portions of the memory hierarchy, whereas in earlier
architectures, compressed data could only be written back to memory. "

DCC wurde weiterentwickelt und die TMU können hardwaretechnisch direkt in den Cache, bei RDNA1 in den L2 Cache und bei RDNA2 in den IF$ reinschreiben. Eines der Gründe wieso RX6700XT deutlich schneller ist als RX5700XT bei weniger realer Bandbreite.

basix

2022-04-27, 20:38:47

Ich habe mir das GST-Paper mal zu Gemüte geführt:
- Decompression kann via SIMD laufen --> Nicht mal zwingend Acceleration HW benötigt, performancetechnisch wäre FF-HW aber vermutlich vorteilhaft
- Compression ist mir nicht ganz klar, ob das zur Runtime ausgehend von anderen Formaten wie DXT1 realisierbar ist. Solch eine Compression wäre die Voraussetzung, dass das rückwärtskompatibel mit allen Spielen funktioniert. Compression am besten via Fixed Function HW in der GPU, gleich nachdem Textur via PCIe geladen wird

@vinacis:
DCC ist was völlig anderes...

Zossel

2022-04-27, 22:27:40

So gross wie die SSD? Das glaube ich kaum. Dann müssten die Spiele ja ganz anders aussehen. Gibts dazu mehr Infos zum nachlesen?

Leider nur als Video: https://www.youtube.com/watch?v=ph8LyNIT9sg

Page Faults können GPUs schon seit Jahren generieren. Das ist die wesentlich Komponente um Speicher transparent virtualisieren zu können.
Und umso schlechter die Software umso mehr kann man overcommiten.

iamthebear

2022-04-28, 23:48:49

Das sind halt alles Konsolenlösungen für Konsolenprobleme. Ich warte nur darauf, bis die ersten Konsolen reihenweise mit totgeschriebenen SSDs das Zeitliche segnen.

Auf dem PC stellen sich so Fragen wie das Auslagern von VRAM auf die SSD gar nicht. Es würde vollkommen reichen, wenn das Memory Management bei VRAM Knappheit in der Lage ist Texturen in den RAM auszulagern. Mit 32GB RAM sollte hier ja mehr als genug Platz vorhanden sein um alle gelegentlich verwendeten Texturen zu cashen. Falls dies in Zukunft einmal knapp werden sollte kann man sich ja noch einmal etwas mehr holen. Das sollte sich auch relativ einfach skalieren lassen damit alte Gurkenrechner mit 16GB auch noch mit etwas niedriger auflösenden Texturen spielen können.

aufkrawall

2022-04-28, 23:51:55

Ich warte nur darauf, bis die ersten Konsolen reihenweise mit totgeschriebenen SSDs das Zeitliche segnen.

Weshalb sollte das der Fall sein? Dann warte mal schön. :freak:

Platos

2022-04-29, 00:38:40

Das sind halt alles Konsolenlösungen für Konsolenprobleme. Ich warte nur darauf, bis die ersten Konsolen reihenweise mit totgeschriebenen SSDs das Zeitliche segnen.

Auf dem PC stellen sich so Fragen wie das Auslagern von VRAM auf die SSD gar nicht. Es würde vollkommen reichen, wenn das Memory Management bei VRAM Knappheit in der Lage ist Texturen in den RAM auszulagern. Mit 32GB RAM sollte hier ja mehr als genug Platz vorhanden sein um alle gelegentlich verwendeten Texturen zu cashen. Falls dies in Zukunft einmal knapp werden sollte kann man sich ja noch einmal etwas mehr holen. Das sollte sich auch relativ einfach skalieren lassen damit alte Gurkenrechner mit 16GB auch noch mit etwas niedriger auflösenden Texturen spielen können.

...oder man verwendet einfach die technologisch viel klügere Variante und nutzt die Geschwindigkeit einer (7GB/s) SSD mal richtig aus, anstatt wie üblich am PC einfach alles plump mit "immer mehr" zu erschlagen.

Die Konsolen sind da einfach ein riesen Sprung vorne, was technologischen Fortschritt anbelangt. Es ist eig. völlig hirnverbrannt, so viele Daten im Grafikspeicher lagern zu müssen, die gar nicht "sofort" gebraucht werden. Mit schnellen SSDs kann man so benötigten Grafikspeicher extrem gut sparen. Und das ist nunmal x-Fach billiger, wie RAM. Würde das am PC endlich mal Standart werden, wären die ganzen Diskussionen über 8GB oder 16GB Grafikspeicher vermutlich auch schnell gegessen.

Ins RAM auslagern ist hald auch einfach wieder so eine PC-klassische ineffizienz pur. Dann liegen einfach Daten woanders ungebraucht rum...

Reihenweise wegsterben wird auch nix. Da kannst du lange warten. Wird ja kaum was geschrieben.

Leider nur als Video: https://www.youtube.com/watch?v=ph8LyNIT9sg

Page Faults können GPUs schon seit Jahren generieren. Das ist die wesentlich Komponente um Speicher transparent virtualisieren zu können.
Und umso schlechter die Software umso mehr kann man overcommiten.

Thx, werds mir ansehen.

TheAntitheist

2022-04-29, 03:22:26

Weshalb sollte das der Fall sein? Dann warte mal schön. :freak:
jo will mal sehen wie jede Zelle mehrere Tausend male beschrieben wird ;D