AMD/ATI - RDNA4 (Navi 4X, Radeon RX 9000 Serie, 4nm, 2025) [Archiv] - Seite 12

BlacKi

2024-08-22, 18:27:43

ich hab das falsch formuliert, sry. aber trading blows ist ein schlagabtausch, und damit kann man sagen, das man grob 4080 avg performance erwartet, so wie in meinem vorletzten satz. und das sehe ich nicht.

Könnte realistisch sein wenn man denkt, dass da was ähnliches mit der PS5 Pro kommt.

die ps5 pro holt die rechenpower aus mehr rechenleistung durch 66% mehr computeunits. das wird dann auf 35-45% kastriert, weil auch hier die bandbreite fehlt.

da aber n48 das nicht über deutlich mehr CU verfügt, muss das über die architektur und takt passieren. takt sind gerade mal 10-20% mehr drin und 6% mehr recheneinheiten. obendrauf halt die reinen architekturverbesserungen, die kaum zweistellig sein werden. aber das wird alles eingebremst durch die fehlende bandbreite.

am ende werden es dann wie schon von den meisten erwartet 4070ti performance, also zwischen 7900gre und 7900xt in raster.

horn 12

2024-08-22, 18:37:56

Äh... ne 4080 ist klar schneller als ne 7900XT und in RT ist selbst ne 4070TiS schneller als ne XTX, also so ganz Sinn ergibt das nicht, was du da schreibst :freak:
Wenn die 8800XT auf Augenhöhe mit der 4080 ist, ist sie auch klar schneller als ne 7900XT und sehr nah - bzw. in RT eher vor - einer XTX.

In Raster nichts, in RT nahezu Nvidia-Performance, bei immerhin weniger Verbrauch vgl. mit deiner XTX.

Dir ist aber schon klar, dass die Streichung der 7900-Nachfolger schon lange bekannt und dies halt der 7800XT-Nachfolger ist, und du damit eh nicht wirklich die Zielgruppe bist?

Man muss es mMn eher so sehen:

Dass AMD trotz nur minimalem Prozessvorteil (der "4N" für Ada ist im Grunde N5P mit leichten Anpassungen für NV, N48 dürfte in N4P gefertigt werden) bald einen Chip hat, der in Raster ne höhere und RT ne ähnliche Performance je mm² und je Watt hat wie AD103, AMD architekturell also gegenüber dem RDNA3-Fiasko stark aufgeholt hat.

Klar, im Grunde anderthalb Jahre zu spät, und ne große GPU mit mind. 95 CUs ~40-50% oberhalb der 8800XT wäre für Leute, die entsprechend bereit sind Geld auszugeben natürlich schön gewesen, aber es lässt zumindest ne Rest-Hoffnung, dass sie mit RDNA5 wieder endgültig konkurrenzfähig werden.

Ja, dies gibt Hoffnung auf RDNA 5
Nun gut, alle welche 7900XT oder gar darunter, 7800XT - GRE wechseln nicht unbedingt für vielleicht max. 20%+ an Rasterizing,- und ob man dann bei RT auf 4070 TI Level ist,- dahingestellt.
Aber 5700XT und darüber ist die Versuchung dann schon groß
Wird aber den Preis der Karten 7900XT/XTX drüber und auch darunter 7800XT
stark drücken,- dies allemal!

dargo

2024-08-22, 19:07:00

ich hab das falsch formuliert, sry. aber trading blows ist ein schlagabtausch, und damit kann man sagen, das man grob 4080 avg performance erwartet, so wie in meinem vorletzten satz. und das sehe ich nicht.

Kannst du mir auch die nächsten Lottozahlen sagen? Schon erstaunlich was du so alles siehst. Wird jetzt die nächsten 10 Seiten darüber geschwurbelt ob es grob ne 4080 oder 4070TI S sein wird? Nimm letzteres oder noch besser 4070TI non S, dann kannst du besser schlafen.

da aber n48 das nicht über deutlich mehr CU verfügt, muss das über die architektur und takt passieren. takt sind gerade mal 10-20% mehr drin und 6% mehr recheneinheiten.
Wo saugst du dir das alles wieder her? Aus deiner Glaskugel? Der letzte Leak spricht von 2,9-3,2Ghz. Wenn wir die Mitte nehmen sind das knapp 28% mehr Takt auf die RX 7800XT. Und bevor du gleich um die Ecke kommst mit mimimi 2,9-3,2Ghz bei N48 sind utopisch. N33 taktet bereits mit >2,7Ghz. Wäre RDNA3 nicht so durstig wären hier auch locker 3ghz in 6nm drin gewesen. Wir hätten diese >2,7Ghz auch bei N31 gesehen. Nur wollte AMD das Ding nicht mit 450-500W releasen, mit allen Nachteilen die damit zusammen hängen. Der aktuelle Referenzkühler wäre damit schon alleine überfordert.

Der_Korken

2024-08-22, 19:18:45

Von den Specs her war es schon immer möglich, dass N48 in die Nähe der 4080 kommt. Der spekulierte Takt und die 7% mehr CUs sind schon 35% mehr Rohleistung im Vergleich zur 7800XT. Die 4080 ist in Raster gut 50% schneller. Wenn man bedenkt, dass RDNA3 bisher kaum Nutzen aus seinen Dual-Issue-SIMDs gezogen hat, wäre die 4080 durchaus einholbar.

Was aber überhaupt nicht ins Bild gepasst hat, waren die kleinen Chipgrößen von 230mm². Man kann nicht den ganzen IF-Cache und IMC plötzlich im Haupt-Die drin haben, plus noch RT-Hardware, plus noch Architekturverbesserungen, plus noch Takt und das super dicht gepackt und bei akzeptablen Verbrauch. Lass das Ding 300mm² groß sein, dann könnte es passen.

reaperrr

2024-08-22, 19:30:56

takt sind gerade mal 10-20% mehr drin
Die 7800XT taktet unter Last kaum auf 2.4 GHz, N48XT soll 2.9-3.2 erreichen.
Also mindestens 20% sind's in dem Fall schon allein durch den Takt.

und 6% mehr recheneinheiten.
CUs sind nicht alles.
64 deutet stark auf 4 statt 3 SEs hin, das bedeutet
- jede SE muss nur 8/16 statt 10/20 WGPs/CUs füttern
- 33% mehr Primitive-Durchsatz je Takt
- der globale L1 (in der SE) wird von nur 8 WGP geteilt, also effektiv etwas mehr L1 je WGP/CU
- wahrscheinlich 33% mehr ROPs (sind spätestens seit RDNA3 an die SE statt den L2 gekoppelt, N32 hatte 96, N48 dann vmtl. 128)

Frontend-Breite und ROP-Zahl haben durchaus Einfluss auf die Leistung je Takt, also könnten trotz "nur" 6,67% mehr CUs selbst ohne große uArch-Verbesserungen durchaus 10% oder mehr an pro-Takt-Leistung oben drauf kommen.

obendrauf halt die reinen architekturverbesserungen, die kaum zweistellig sein werden.
Allein sicher nicht, da stimme ich zu, aber im Zusammenspiel mit dem breiteren Front- und Backend könnte da pro Takt schon ne 2-stellige Steigerung rauskommen.

aber das wird alles eingebremst durch die fehlende bandbreite.
Die reine Speicherbandbreite ist bei 20 Gbps nicht viel niedriger als bei der 4080, und wenn wir schon auf Grundlage der MLID-Specs spekulieren wollen: Er sagt, der IF-Cache ist verbessert (schneller) und 50% größer als bei N32 (96 statt 64 MB), womit er auch größer als der L2 von AD103 wäre.

Größerer Cache = höhere Hitrate, was insbesondere in 1080p und 1440p, zu geringerem Grad aber auch in 4K ggü. 64 MB durchaus nen Unterschied machen wird.

Wenn AMD sich dann nicht nur bei RT, sondern vielleicht auch bei DCC/effektiver Bandbreitennutzung an Ada annähert, ist die Bandbreite für die Rohleistung auch ausreichend.

robbitop

2024-08-22, 19:40:09

Zumindest in Bezug auf VOPD könnten sie ja mehr rausholen. Da gibt es sicherlich allein dadurch 10+% Steigerungspotenzial.

Ich frage mich so wie der Korken auch wie das alles in 230 mm2 passen soll. 96 MiB LLC und Matrixeinheiten und noch mehr RT HW und weitere Weiterentwicklungen. Entweder stimmt die Chipgröße nicht oder irgendwas anderes wurde eingespart.

dargo

2024-08-22, 19:58:37

Ich frage mich so wie der Korken auch wie das alles in 230 mm2 passen soll.
Denke an das einfachste... man streut an bestimmten Stellen Falschinformationen.

Käsetoast

2024-08-22, 20:22:15

Mag ich kaum glauben, dass da für den recht kleinen Chip 4080 bzw. 4070 Ti Leistung bei rumkommen soll. Verstehe dann überhaupt nicht warum man dann keinen monolithischen Chip in groß gebracht hat für's High End. Klar das ist natürlich Arbeit, aber am Ende des Tages ist es halt "nur" die gleiche Architektur auf eine größere Fläche lithographiert. Wenn das was jetzt kommt sich nämlich sehr gut mit dem oberen Ende der 4000er Reihe duellieren kann, dann wäre ein größerer Chip doch locker in den Gefilden einer 4090 und ggf. sogar darüber gelandet.

Da hätte AMD doch mal auf den Putz hauen können, indem sie hier eine Karte bringen die dann eben keine 1500 Euro kostet. Wäre das wirklich so unrealistisch, das Konzept von wegen zwei "kleine" Chips zusammenzubinden zu verwerfen und eine monolithische Variante zu erzeugen? Gerade wenn man bei einer so guten Performance von dem was der Leak behauptet ausgeht. Mit mehr Preis/Leistung in den Gefilden einer 4090 hätten doch sicherlich die Kassen geklingelt.

Aus den Gründen klingt der Leak für mich daher unglaubwürdig. Ich erwarte da weiterhin eher Rasterizing Performance irgendwo zwischen 7900 GRE und XT bei deutlicher Steigerung vom Raytracing.

robbitop

2024-08-22, 20:26:27

Denke an das einfachste... man streut an bestimmten Stellen Falschinformationen.

Und das wäre die Chipgröße. :)

dargo

2024-08-22, 20:48:54

Und das wäre die Chipgröße. :)
Wäre naheliegend um die Konkurrenz zu verwirren. Geht die Konkurrenz nur von 230mm² aus fühlt man sich sicher.

BlacKi

2024-08-22, 20:54:24

Die reine Speicherbandbreite ist bei 20 Gbps nicht viel niedriger als bei der 4080, und wenn wir schon auf Grundlage der MLID-Specs spekulieren wollen: Er sagt, der IF-Cache ist verbessert (schneller) und 50% größer als bei N32 (96 statt 64 MB), womit er auch größer als der L2 von AD103 wäre.

Größerer Cache = höhere Hitrate, was insbesondere in 1080p und 1440p, zu geringerem Grad aber auch in 4K ggü. 64 MB durchaus nen Unterschied machen wird.

du kannst ja keine ableitungen vom gegenspieler machen. das es optimierungen beim cache in der bandbreite gibt, schön und gut, hat man aber bei rdna3 schon gesehen und war begrenzt hilfreich. das der if cache größer wird ist ja nur eine bloße vermutung von MLID, wohl nichtmal die, er behauptet es, um die 4080 performance zu verkaufen, die ich ihm nicht abkaufe, da er die vorzeichen zu simpel gesetzt hat. es gab schon davor spekulationen das es erneut nur 64mb werden, das halte ich für wahrscheinlicher. daher passt die performance und die größe halt nicht ins bild.

die größen sind bereits aus mehreren quellen geleakt worden, cache auch, cu auch, was hier nicht passt ist die cache größe durch MLID. und mit jener fällt auch die performance.

ich glaub nicht an 96mb if cache und daher nicht an die 4080 performance.

w0mbat

2024-08-22, 20:54:39

Oder die process node. Vielleicht kommt N48 in N3E mit 2:1 FinFlex und ist wirklich nur 230mm2 ;)

robbitop

2024-08-22, 20:59:51

Das würde aber nicht gerade für value sprechen. N3E ist teuer und Kapazität ist rar. Nicht mal Nvidia scheint es deshalb für Blackwell zu nutzen. 4nm passt da viel besser in den Kontext.

Mit 96 MiB LLC wäre 256 bit mit 20gt/s für das ausgesuchte Performanceziel auch wieder realistischer.

BlacKi

2024-08-22, 21:18:52

Oder die process node. Vielleicht kommt N48 in N3E mit 2:1 FinFlex und ist wirklich nur 230mm2 ;)macht den cache auch nicht kleiner, und die bestehen fast nur noch aus cache. die 96mb cache von der 4090 sind fast so groß wie der ganze spekulierte rdna4 chip.

in einem 400mm² chip wären die 96mb vl möglich nicht in 230mm². ein 400mm² chip von amd würde dann aber auch mehr saufen als die 7800xt und wäre auch teurer als diese.

die margen die amd sich da verspricht passen dann auch nicht mehr.

man wird in zukunft die chips an bandbreite mangeln lassen, alles andere ist nicht wirtschaftlich. denn recheneinheiten skalieren noch gut mit dem fertigungsprozess, cache und speicherinterface kaum noch. daher machen 96mb cache wirtschaftlich keinen sinn.

dargo

2024-08-22, 21:21:16

du kannst ja keine ableitungen vom gegenspieler machen. das es optimierungen beim cache in der bandbreite gibt, schön und gut, hat man aber bei rdna3 schon gesehen und war begrenzt hilfreich.
Wat? :freak:

RX 7800XT = 64MB L3
RX 6800XT = 128MB L3

Wenig Begrenzt hilfreich. :facepalm:

BlacKi

2024-08-22, 21:23:32

Wat? :freak:

RX 7800XT = 64MB L3
RX 6800XT = 128MB L3

Wenig hilfreich. :facepalm:5nm vs 7nm, ausserdem gleicht die 7800xt das mit schnellerem speicher aus. daher nicht 1zu1 vergleichbar. sollte offensichtlich sein. desweiteren skaliert speicher abnehmend mit größe.

fondness

2024-08-22, 21:25:25

Mich erinnert das ein bisschen an RV770. Damals war auch die chipgröße von 256mm2 bekannt und deshalb hat jeder das Gerücht von 800 SPs als fake abgestempelt. Man ging von 320 oder maximal 480 SPs aus und als es das Ding dann mit NVs bigchip aufnahm war die Überraschung groß. Heißt das, dass es wieder so kommt? Natürlich nicht, aber möglich ist vieles.

robbitop

2024-08-22, 21:28:01

macht den cache auch nicht kleiner, und die bestehen fast nur noch aus cache. die 96mb cache von der 4090 sind fast so groß wie der ganze spekulierte rdna4 chip.

in einem 400mm² chip wären die 96mb vl möglich nicht in 230mm². ein 400mm² chip von amd würde dann aber auch mehr saufen als die 7800xt und wäre auch teurer als diese.

96 MiB SRAM sind iirc < 80 mm2.

dargo

2024-08-22, 21:29:02

5nm vs 7nm, ausserdem gleicht die 7800xt das mit schnellerem speicher aus. daher nicht 1zu1 vergleichbar. sollte offensichtlich sein.
Mach dich doch nicht lächerlich.

RX 7700XT = 48MB L3 + 432GB am GDDR6
RX 6800 = 128MB L3 + 512GB am GDDR6

Edit:
Und wenn dir das immer noch nicht passt weil du der Meinung bist RX 6800 hat viel zu viel L3 und Speicherbandbreite im Verhältnis zur Rohleistung abbekommen dann nimm die RX 7600XT und die RX 6700XT.

RX 7600XT = 32 CUs, 32MB L3 und 384GB/s @GDDR6
RX 6700XT = 40 CUS, 96MB L3 und 384GB/s @GDDR6

Performanceunterschied sind hier bloß 10% zu Gunsten RX 6700XT bei 25% mehr CUs. Dafür hat die RX 7600XT 7% mehr Takt.

BlacKi

2024-08-22, 21:38:56

96 MiB SRAM sind iirc < 80 mm2.dann adde noch das SI hinzu, dann biste bei über der hälfte.

Mach dich doch nicht lächerlich.

RX 7700XT = 48MB L3 + 432GB am GDDR6
RX 6800 = 128MB L3 + 512GB am GDDR6

Edit:
Und wenn dir das immer noch nicht passt weil du der Meinung bist RX 6800 hat viel zu viel L3 und Speicherbandbreite im Verhältnis zur Rohleistung abbekommen dann nimm die RX 7600XT und die RX 6700XT.

RX 7600XT = 32 CUs, 32MB L3 und 384GB/s @GDDR6
RX 6700XT = 40 CUS, 96MB L3 und 384GB/s @GDDR6

Performanceunterschied sind hier bloß 10% zu Gunsten RX 6700XT bei 25% mehr CUs. Dafür hat die RX 7600XT 7% mehr Takt.du versuchst mit einer karte die massiv zuviel kombinierte speicherbandbreite hat, fast soviel wie eine 6900xt, 48mb cache von einer 7700xt zu rechtfertigen... geh woanders trollen.

dargo

2024-08-22, 21:48:57

robbitop

2024-08-22, 21:59:52

dann adde noch das SI hinzu, dann biste bei über der hälfte.

Ich glaube auch nicht daran dass all das in die 230 mm2 passt. Entweder stimmen die specs nicht oder das Ding ist größer.

robbitop

2024-08-22, 22:05:32

War ja sowas von klar. Welche Ausrede fällt dir zum zweiten Beispiel? Wen willst du eigentlich hier verarschen?

Edit:
Oder zu diesem Beispiel, welche Ausrede hast du hier?

RX 7600XT = 32 CUs, 32MB L3 und 384GB/s @GDDR6
RX 6700 non XT = 36 CUs, 80MB L3 und 320GB/s @GDDR6

Zu behaupten der L3 bei RDNA3 wäre begrenzt hilfreich ist kompletter Bullshit!
Wobei man sagen muss dass das Spektrum an effektiver Bandbreite (inkl. dem Cacheeinfluss) bei RDNA2 und 3 riesig ist. Da gibt es mit der 7900GRE das eine Extrem. N22 hatte relativ zu N21 und N23 auch ungewöhnlich viel Cache.

Um sinnvoll zwischen uArchs Bandbreiteneffizienz vergleichen zu können müsste man schauen, dass man eine Konfiguration wählt die jeweils bandbreitenlimitiert ist und dann bestimmen wie viel performance man pro effektiver Bandbreite herausholen kann.

dargo

2024-08-22, 22:38:43

Ihr denkt da viel zu kompliziert. Der Übergang von zu viel effektive Bandbreite über "ausgewogen" bis zu "zu wenig" effektive Bandbreite ist fließend. Da gibt es keinen harten Cut. Und dann muss man als Designentwickler abwägen... erhöhe ich den L3 um Faktor X für Kosten Y damit ich am Ende noch die letzten 5% Performance mitnehme oder lasse ich es lieber sein und nehme weniger weil Kosten/Nutzen sich nicht lohnt? Bei der Speicherbandbreite ist es genauso und war nie anders in Bezug auf Entscheidungen bei der Kombination aus dem SI + Speicherdurchsatz.

btw.
Die 7900GRE nehme ich bei solchen Sachen sehr ungern in die Betrachtung. Für mich ist das der absolute Abfall was Chipgüte angeht. Wobei ich mich ernsthaft frage warum bei N31 so viel Abfall über 1 Jahr nach Release angefallen ist? Oder AMD hat den Abfall von Anfang an gesammelt. Alles etwas seltsam bei RDNA3.

Nakai

2024-08-22, 23:27:34

Es gibt ja nicht nur L3 Cache. RDNA3 hat das gesamte Cache-Setup massiv optimiert. Das wurde auch beim Launch öfter erwähnt. Selbst wenn der L3-Cache "nur" 64MB wäre, wissen wir nicht viel im Bezug auf die gesamte Cache-Struktur. RT hat auch andere Bandbreitenanforderungen und falls man dort ein Stück weiter besser sein will, muss man da intern schon was umkrempeln.

horn 12

2024-08-23, 00:40:45

So schlecht wie viele preisgeben ist bei Weitem RDNA 3 nicht,
Braucht zwar mehr Strom, ist aber gleichauf mit 4080 /Super und bei RT immer noch auf Vorgänger Karte 3090(TI)
Meine Karte für 240 Hz Ultra HD Alienware 3225QF wird erst eine RDNA 5 Karte werden.

Altehardware

2024-08-23, 01:19:05

gehen wir mal ins detail und warum rdna4 nicht die rtx4080 raster und rtx4070ti dxr perf erreichen kann
Die Formel für tf ist seit jeher alu mal Takt mal 2
Dabei hat amd ein kniff eingeführt damit warte Zyklen (auf ram und cache) ausgenutzt werden können
Das sind quasi 2 Operationen per clock per cu + 17% von den folgende Operation was am ende 2,34 sind man kann dazu ipc sagen
Rdna4 könnte es sein das die cache Latenzen kürzer sind aber der cache die Größe größer ist. (mehr alu Deaktiv je Se)
Das ermöglich amd mehr daten für die zweite Operation zu haben was die Auslastung verbessert auf 25% darüber ist es nicht möglich zu kommen da die zeit fehlt.
Das bringt rdna4 maximal auf 2,5 ipc
Dann wie groß der cache werden kann ist durch die Gpu Arch limitiert
Rdna ist eine 32bit arch womit auch nur per cu 32bit fp und 32bit int berechnen können
daher braucht amd massive Parallelisierung in der Renderengine somit idealerweise ein breites front und backend.
Back ist rop front ist das SI
Da haben wir 32rop per Renderengine
Es sind 4 =128rop
back sind je renderengine 64bit =256bit
Der inf cache vergrößert das front end
Die perf misst sich im vergleich zu anderen gpu das wäre dann fps / fp malbandbreite durch fp durch Bandbreite. Sofern die spiele diese auch nutzen da gibt es je nach Jahr deutliche Differenzen.
grob reicht aber die tf Angabe völlig

In rdna4 n48 sind das maximal 100fps/ bspw rtx4070 46sm 2,7ghz =21,8tf 504gb/s*4096*2,34*3,0*622=162
Am ende 60% schneller als ne rtx4070
Das bringt die rx8700xtx maximal auf level der rtx4070 super oder rx7900gre
sofern die Bandbreite nicht mitmacht bei der rtx4070
In dxr dürfte das pari werden mit der rtx4070 bei der perf. der rx7900gre

Das bedeutete sofern amd nicht wirklich n4x node genommen hat was dann 3,7ghz bedeutet
Das rx8700xtx maximal 499$ kosten wird und der salvage rx8700xt 48cu 449$ es kann sein das ein kleinerer chip 40cu auch kommt als entry bei 399$

Somit sind
rx8700xtx 64cu 16gb 28tf 622gb/s 499$ norm +35% vs rx7800xt (419$)
rx8700xt 48cu 16gb 21,5tf 622gb/s 449$ norm +11% vs rx7700xt (379$)
rx8600xt 40cu 12gb 17,9tf 466gb/s 399$ norm +38% vs rx7600xt (299$)

Amd hat nicht die Se Struktur geändert es sind immer noch 10wgp =20cu wovon 4cu per se abgeschaltet sind.

Die Se werden erst mit rdna5 erweitert auf 24cu per se also 20cu per Se nutzbar darum gibt es bei rdna5 je gcd 4 Se 2gcd= 8 se insgesamt
8*24= 192cu nutzbar 160cu
Warum ausgerechnet immer 4 cu nicht nutzbar sind liegt am cache bzw dem dual issue Ansatz

Das wäre die Seriöseste Prognose für rdna4 und kommend rdna5
Eine Erweiterung auf 25% würde zwangsweise min 2cu erfordern die Deaktiviert sind also dann nutzbar bei rdna4 nur 52cu
Da dies ausgeschlossen ist dürfte es so laufen
Es kommt jetzt stark darauf an was die ps5 pro kosten wird den diese wird in etwa gleich perf wie die rx8700xt und die preise der n48 chips bestimmen
ich gehe von grob 449$ bis 549$ aus aufgrund der Rezession dürfte es eher die Mitte sein 499$ mit einer preis Reduktion der ps5 auf 379$

basix

2024-08-23, 09:06:29

96MByte IF$ macht keinen Sinn. Vor allem nicht wenn man einen günstigen Chip machen will. Eine 4080 hätte aufgrund der 22.4Gbps gerade mal +10% Bandbreite bei gleichen 64MByte LLC. Wieso sollte man nicht ähnlich schnell wie eine 4080 werden können? Vielleicht wird es nicht ganz reichen aber who cares? Wenn knapp 4080 Raster und ~4070 TiS Raytracing Performance erreicht werden, dann sind 95% der Gamer glücklich, die noch nicht mit entsprechenden Ada Karten eingedeckt sind. Vor allem, wenn die Preise stimmen.

Mag ich kaum glauben, dass da für den recht kleinen Chip 4080 bzw. 4070 Ti Leistung bei rumkommen soll. Verstehe dann überhaupt nicht warum man dann keinen monolithischen Chip in groß gebracht hat für's High End. Klar das ist natürlich Arbeit, aber am Ende des Tages ist es halt "nur" die gleiche Architektur auf eine größere Fläche lithographiert. Wenn das was jetzt kommt sich nämlich sehr gut mit dem oberen Ende der 4000er Reihe duellieren kann, dann wäre ein größerer Chip doch locker in den Gefilden einer 4090 und ggf. sogar darüber gelandet.

Da hätte AMD doch mal auf den Putz hauen können, indem sie hier eine Karte bringen die dann eben keine 1500 Euro kostet.

Ich vermute hier folgendes:
- Man spart sich Arbeit, R&D Ressourcen werden frei
- Da der Chip kleiner ist, ist die Time to Market schneller
- Zudem kann dadurch RDNA5 früher am Markt sein, da mehr R&D Ressourcen verfügbar sind
- Portfolio Gestaltung (siehe Erklärung unten)

Es macht eben auch aus der Portfolio-Gestaltung her Sinn. Es gibt Gerüchte über RDNA5 Release Ende 2025. Das wäre viel zu früh, wenn man ein "volles" RDNA4 Portfolio bringen würde. Könnte aber klappen, wenn man RDNA4 im Umfang reduziert (keine Chiplets, nur wenige und relativ kleine Chips) und die R&D Ressourcen für RDNA5 bündelt. Und was ist jetzt mit dem Porfolio? RDNA5 soll mit 96CU pro Chiplet-Slice daherkommen (vermutlich 128bit GDDR7, 64MByte IF-Cache auf dem Base Die und 2-3 GPU-Chiplets oben drauf, siehe entsprechende Patente und Gerüchte). RDNA4 ist bei 64 CU fertig. Das ist doch ideal: RDNA4 wird nach RDNA5 Release den untersten Teil des Portfolios bilden. Kleine monolithische Die in einem verglichen mit N3E/P günstigen N4P Prozess sowie kein 3D-Stacking. Ideal für die günstigen Mainstream und Lowend GPUs. D.h. obwohl RDNA5 eventuell schon sehr bald nach RDNA4 Release erscheinen könnte, wären die RDNA4-Chips immer noch ein Bestandteil des Portfolios.

N44 -> 32 CU
N48 -> 64 CU
N54 -> 96 CU
N53 -> 192 CU
N52 -> 288 CU
N51 -> 384 CU

Würde man hier einen noch grösseren RDNA4 Chip als N48 bringen, würde der bei RDNA5 Release gleich wieder obsolet werden. Die R&D Ressourcen hätte man also zu einem guten Teil verschwendet. Mit kleinen RDNA4 Chips vermeidet man das. Und kann gleichzeitig RDNA5 R&D beschleunigen.

96 MiB SRAM sind iirc < 80 mm2.
Ist viel, viel kleiner ;)

Ich habe anhand der Zen 5 "Die Shots" von ihrer Präsentation die L3-Cache Grösse abgeleitet (also die Fotos, wo man die Chip Strukturen sieht). Ich kam auf 17-18mm2 für 32MByte. Bei Zen 5 konnte AMD die Cache-Density gut steigern. Und das bei afaik 512kB Blöcken, wohingegen IF$ bei den GPUs afaik in 2MByte Blöcken daherkommt. Damit kann man den Cache noch dichter packen. Ich würde mal auf ~15mm2 für 32MByte tippen. Und da ich nur 64MByte erwarte, wäre man bei 30-35mm2 für den IF$. Dann 60mm2 für das SI und 30mm2 für PCIe, Video, Display etc. und man landet bei ~120mm2 für all diese Strukturen. Eine RDNA3 SE ist ~25-28mm2 gross. Das 4x und den Command Processor + L2$ und man landet bei evtl. ~240mm2 für alles. Jetzt bringt RDNA4 nochmals neue Features, dafür N4P mit höherer Density. Ich glaube 230-250mm2 für N48 sind nicht völlig abwegig. Ebenso wenig wie die Performance Gerüchte (allein schon BVH8 anstatt BVH4 sollte die Kosten für BVH-Traversal halbieren können).

horn 12

2024-08-23, 09:12:07

RDNA 5 - Release würde ich auf Ende Oktober/ Anfang November 2025 tippen
also ein Jahr nach den RDNA 4 Mainstream Karten.
Manpower wird freigeschaufelt und dies kommt RDNA 5 um ein Vielfaches zugute!

basix

2024-08-23, 09:16:13

Ende 2025 ist immer noch sehr optimistisch, auch wenn ich darauf hoffe ;)

H1/2026 wäre die realistischere Erwartungshaltung.

robbitop

2024-08-23, 09:16:54

@basix
Wow - so klein ist das? Das wären dann ja nur 45 mm2 für 96 MiB.

Zu nur 64 MiB:
Naja dann müsste aber noch ein Sprung an Bandbreiteneffizienz kommen. Die 7900GRE ist das ziemliche Extrem bei RDNA3 was Bandbreite zu Rechenleistung angeht. 64 MiB L3 und 18 GT/s RAM.
Die 4080 liegt je nach (Raster!) Benchmarkparcours 30-40% vorn:
https://www.computerbase.de/2023-08/radeon-rx-7900-gre-test/2/#abschnitt_benchmarks_mit_und_ohne_raytracing_in_3840__2160
https://www.pcgameshardware.de/Radeon-RX-7900-GRE-Grafikkarte-279821/Tests/Kaufen-Benchmark-7900-GRE-vs-7800-XT-vs-4070-Super-1441373/2/

Mit +10% Speicherbandbreite bei einer vermutlich schon bandbreiten limitieren Konfiguration nochmal weiter 20-30% herauszuholen wird schwierig IMO. Klar kann es natürlich sein, dass es da in der uArch noch Fortschritte gibt. Aber wann kam das letzte mal ein großer Sprund bei AMD was Bandbreiteneffizienz angeht? Der LLC hat es so aussehen lassen. Leider maskiert er das im Vergleich zu RDNA1 und macht Vergleiche mit unterschiedlichen Cachegrößen schwierig.
Unmöglich ist nichts. Aber ich finde man kann hier skeptisch sein.

Und wenn es um Preis geht: wie du selbst sagst weitere 32 MiB sind ja "nur" 15 mm² und wir reden hier über N4P was nicht mehr leading edge ist. Das sind nur ein paar USD mehr für den Chip wenn überhaupt.

Will damit nicht sagen, dass es so sein muss. Sondern nur aufzeigen, dass irgendwas nicht passt. Chipgröße, Performance und Bandbreite. Das passt alles noch nicht so richtig zusammen - es sei denn da ist irgendein fetter Knoten bei AMD's Radeon Group geplatzt. Was sein kann - aber die letzten 2 Jahre lassen auf sowas nicht unbedingt schließen. :D

edit:
Mal grob überschlagen. Die 7900GRE (weil auch 256 bit und 64 MiB L3) als Basis genommen (laut CB taktet die in Spielen im Durchschnitt mit 2150 MHz) und die 64 CUs mit 2900-3200 MHz als Vergleich genommen. Dann kommt N48 auf 8-19% mehr Rohleistung im Chip (also je nach Takt). Takt skaliert besser als CUs also kann es schon etwas mehr sein als die 8-19%. Aber die 4080 in Raster zu erreichen muss es defintiv Fortschritte in der uArch geben und in der Bandbreitennutzung.

OgrEGT

2024-08-23, 09:17:23

Ich kann mir 384CUs in N3E innerhalb eines sagen wir üblichen Power Budgets vom 300-400W nur schwer vorstellen...
Wenn wir vom hypothetischen N48 mit 96CUs in N4P mit ca. 250W ausgehen (210-280W laut MLID) und ca. 25% Power Reduction N5 vs N3E von mir aus 30% zu N3P (https://www.anandtech.com/show/18833/tsmc-details-3nm-evolution-n3e-on-schedule-n3p-n3x-deliver-five-percent-gains) dann landen wir mit 384 CUs bei 700-750W :uexplode:

robbitop

2024-08-23, 09:20:51

Ende 2025 ist immer noch sehr optimistisch, auch wenn ich darauf hoffe ;)

H1/2026 wäre die realistischere Erwartungshaltung.
Ich denke alles <24 Monate release cycles ist immernoch optimistisch. IMO eher H2 2026.

basix

2024-08-23, 09:35:59

Mal grob überschlagen. Die 7900GRE (weil auch 256 bit und 64 MiB L3) als Basis genommen (laut CB taktet die in Spielen im Durchschnitt mit 2150 MHz) und die 64 CUs mit 2900-3200 MHz als Vergleich genommen. Dann kommt N48 auf 8-19% mehr Rohleistung im Chip (also je nach Takt). Takt skaliert besser als CUs also kann es schon etwas mehr sein als die 8-19%. Aber die 4080 in Raster zu erreichen muss es defintiv Fortschritte in der uArch geben und in der Bandbreitennutzung.

Es gibt Gerüchte zu +13% IPC in Raster und +25% in RT. Beides würde zu ~4080 Raster und 4070 TiS RT Performance passen (wenn man z.B. den CB Performance Index nimmt). Aber es kann jetzt halt auch sein, dass aus diesen Gerüchten diese Performance-Prognosen zusammengebastelt wurde ;)

robbitop

2024-08-23, 09:40:45

Wenn man mehr aus den doppelten FPUs herausholt (bzw die wave32 Restriktionen löst) und den CU so verbreitert wie Nvidia das von Volta zu Ampere gemacht hat wäre da noch mehr drin. Die Ampere SMs wurden nie so gut vom Durchsatz wie die Pascals weil weniger scheduler ports aber es waren seitens der FPUs schon unrestriktive 128 operationen pro Takt möglich. Bei VODP in RDNA3 geht das ohne restriktionen ja nur mit wave64 was nicht so effizient ist wie wave32.
Will sagen da ist wenn man noch etwas Transistoren investiert mehr möglich.
Aber nur wenn man compute limitiert ist.

Ich bin bei rohleistungsnormierter Performance bei GPUs immer skeptisch weil es das lange nicht mehr gegeben hat (bei AMD mit RDNA1 und bei Nvidia mit Volta -> danach gab es dann wieder Regressionen).

amdfanuwe

2024-08-23, 11:45:28

Verstehe dann überhaupt nicht warum man dann keinen monolithischen Chip in groß gebracht hat für's High End.
AMD bekommt da nicht genügend Stückzahlen und genügend Marge zusammen, dass sich das lohnt.

Käsetoast

2024-08-23, 22:43:46

AMD bekommt da nicht genügend Stückzahlen und genügend Marge zusammen, dass sich das lohnt.
Nun - geht so. Wenn man beim RDNA5 vom 160 Cu Monster munkelt scheint man dem Enthusiast Preissegment ja nicht abgeneigt. Trotzdem gehe ich da mit dir, dass es momentan nicht viel Interesse für eine 1500 € AMD Karte geben dürfte. Den 500-999 € Markt aber komplett aufzugeben wirkt irgendwo schon merkwürdig und hat es außer bei RDNA1 ja auch nicht wirklich gegeben.

Selbst wenn das Verwerfen der Mehrchiplösung Zeit gekostet hat - was hindert die gleiche Technik nur auf mehr Fläche skaliert dann 4-6 Monate später noch zu bringen. Zumindest unter der Prämisse, dass RDNA4 an sich die gesteckten Ziele erfüllt. Bei nem Rohrkrepierer macht es in der Tat wenig Sinn da viel Arbeit reinzustecken, nur wirkt es nun eben genau so.

Aber gut - ist AMDs Entscheidung und vielleicht hilft es ja wirklich bei RDNA5. Schädigt aus meiner Sicht aber auch der Marke wenn das Portfolio einer neuen Serie nur Stückwerk mit Löchern im gewohnten Angebot ist. Wenn KI Chips das Geld an anderer Stelle wieder reinholen ist's aus Unternehmenssicht natürlich auch fein. Ich hätte trotzdem gesagt, dass ein echter 7900er Nachfolger selbst mit Verspätung für's Image nicht ganz verkehrt wäre sofern die Architektur taugt.

aceCrasher

2024-08-23, 22:52:13

Den 500-999 € Markt aber komplett aufzugeben wirkt irgendwo schon merkwürdig und hat es außer bei RDNA1 ja auch nicht wirklich gegeben.
RX 480??

reaperrr

2024-08-23, 23:07:27

Selbst wenn das Verwerfen der Mehrchiplösung Zeit gekostet hat - was hindert die gleiche Technik nur auf mehr Fläche skaliert dann 4-6 Monate später noch zu bringen.
Äh, Junge... einen Chip von Grund auf zu designen, zum Tape-Out zu bringen und zu testen und validieren dauert JAHRE :freak:
Die 11 Monate von Raptor Lake waren schon unfassbar schnell, und das ist Intel, und es war im Grunde nur ein ADL, bei dem man den L2 je Kern vergrößert, weitere 8 E-Kerne nebst L3 an den Ringbus geklatscht und offensichtlich die Test-/Validierungsphase für die Topmodelle zu sehr gerusht hat.

Weißt du warum N22 nur 40 CUs, aber fette 96MB IF-Cache hatte?

Nicht weil die Kombi Sinn gemacht hätte; mit 48MB IF$ wäre der Chip deutlich kleiner (und billiger herzustellen) und kaum langsamer gewesen, mit 48 CUs merklich schneller und besserer in Sachen Perf/mm².

Nein, der Hauptgrund dürfte gewesen sein, dass man bei N22 für möglichst wenig Designaufwand möglichst viele Designblöcke von N21 recycelt hat. Also 2 der 4 SE auf einer Seite des Frontends und 1/4 des IF$/SIs wegschneiden, damit man keine eigenen Blöcke für diesen Chip designen musste.
Man hat also einen Overkill-IF$ und höhere Produktionskosten in Kauf genommen, um nicht (noch) mehr Zeit und Ingenieure für das Design einsetzen zu müssen.
Trotzdem lagen zwischen N21 und N22 fast ein halbes Jahr, obwohl N22 definitiv nicht erst nach Fertigstellung von N21 angefangen wurde.
Und nein, einfach Teile von N23 übernehmen wäre auch nicht so schnell und einfach gewesen, weil der zu dem Zeitpunkt wahrscheinlich noch gar nicht so weit war.
Die Hauptdesigns von RDNA2 waren N21 und N23, N22 und N24 wurden dann bezogen auf SE-Design und IF$ vom jeweiligen größeren Chip abgeleitet.

Wenn AMD Mitte 2023, als die Chiplet-RDNA4 gecancelt wurden, erst mit einem monolithischen großen N4x angefangen hätte, wäre der vielleicht Mitte 2025 marktreif gewesen. Wenn er denn im A0-Stepping bugfrei gewesen wäre.

HOT

2024-08-23, 23:55:44

Ich denke alles <24 Monate release cycles ist immernoch optimistisch. IMO eher H2 2026.
Kann man so annehmen, aber ich gebe zu bedenken, dass die letzte halbe Generation RDNA1 war und RDNA2 nur etwas mehr als ein Jahr später kam.
Der einzige Unterschied jetzt ist, dass auch RDNA5 eine halbe Generation ist, die oberhalb von RDNA4 ansetzen wird, das war bei RDNA2 anders.

basix

2024-08-24, 08:45:43

Stimmt, hatte gar nicht mehr daran gedacht, dass RDNA2 so bald nach RDNA1 erschienen ist. Aber dort gab es evtl. auch noch einen Sondereffekt aufgrund der Konsolen.

Aber gut - ist AMDs Entscheidung und vielleicht hilft es ja wirklich bei RDNA5. Schädigt aus meiner Sicht aber auch der Marke wenn das Portfolio einer neuen Serie nur Stückwerk mit Löchern im gewohnten Angebot ist. Wenn KI Chips das Geld an anderer Stelle wieder reinholen ist's aus Unternehmenssicht natürlich auch fein. Ich hätte trotzdem gesagt, dass ein echter 7900er Nachfolger selbst mit Verspätung für's Image nicht ganz verkehrt wäre sofern die Architektur taugt.

Ich denke eine P/L-starke GPU-Generation ohne wesentliche Nachteile (z.B. bei Raytracing) und anständingen VRAM-Ausstattungen würden Radeon als Marke eh gut tun. Egal ob da ein Top End Chip kommt oder nicht.

Und ich sehe auch keine Löcher im Portfolio. Stimmen ~4080 Performance für die schnellste SKU und rollt das für N44 und N48 inkl. Salvage Optionen aus, dann ersetzt man das komplette RDNA3 Portfolio und bietet gleichzeitig mehr RT-Performance und bessere Energieffizienz. Was wegfällt ist ein Top End Chip mit 24GB, aber damit hat man nur in ganz wenigen Grenzfällen wie 8K einen Vorteil. Das wird nicht wirklich weh tun.

Wenn AMD jetzt noch FSR auf DLSS 3.7 Niveau hebt (Qualität vom Upsampling sowie Ray Reconstruction als Feature), dann wird man für viele Gamer wieder eine sehr gute Option sein, egal was Blackwell bringen mag. Es ist ja nicht so, dass Lovelace schlechte GPUs wären, aber sie sind "etwas" teuer und haben zum Teil nicht zufriedenstellende VRAM-Mengen. Beides könnte RDNA4 lösen und gleichzeitig noch etwas weniger Strom verbrauchen / effizienter sein. Blackwell wird sehr wahrscheinlich nochmals schneller und effizienter als RDNA4 sein, aber vermutlich auch relativ teuer und je nach dem wieder etwas knausrig bei der VRAM-Ausstattung, was man so hört (GDDR7 gibt es nur mit 16Gbit, Blackwell Speicherinterfaces sollen gleich breit wie bei Lovelace sein).

Ich bin bei rohleistungsnormierter Performance bei GPUs immer skeptisch weil es das lange nicht mehr gegeben hat (bei AMD mit RDNA1 und bei Nvidia mit Volta -> danach gab es dann wieder Regressionen).

Naja, Turing und RDNA1/2 zeigen einfach auf, was man als "IPC" oder Performance/Flop erreichen könnte. Das heisst es gibt Spielraum nach oben. Da sind nochmals +10/20% IPC keine Luftschlösser, wenn man bei RDNA3 aus doppelt FP32 irgendwas um +10% IPC rausgeholt hat. Lustigerweise ist hier Ampere und Lovelace eine einigermassen gute Referenz, weil die aus doppelt FP32 ~35% Mehrleistung rausgeholt haben in Spielen. RDNA4 könnte sich hier ähnlich verhalten.

Ich kann mir 384CUs in N3E innerhalb eines sagen wir üblichen Power Budgets vom 300-400W nur schwer vorstellen...
Wenn wir vom hypothetischen N48 mit 96CUs in N4P mit ca. 250W ausgehen (210-280W laut MLID) und ca. 25% Power Reduction N5 vs N3E von mir aus 30% zu N3P (https://www.anandtech.com/show/18833/tsmc-details-3nm-evolution-n3e-on-schedule-n3p-n3x-deliver-five-percent-gains) dann landen wir mit 384 CUs bei 700-750W :uexplode:
Ich vermute die 384CU SKU (welche dann auch 512bit SI hätte) würde bei 450-500W landen. Taktraten etwas runter, neue Architektur und die effizientesten Chiplets gebinnt. Passt schon. Gerade das Binning kann bei Chiplets nochmals gut was an Effizienzgewinn bringen.
Es wird eh nur eine Karte mit diesem Ausbau geben. Zum nächsten Chip mit 288 CU wäre man eh max. +33% schneller. Jetzt sind es mit reduzierten Taktraten evtl. noch +20%. Hat aber den "Top End" Bonus und mehr VRAM.

aufkrawall

2024-08-24, 09:05:00

Wenn AMD jetzt noch FSR auf DLSS 3.7 Niveau hebt (Qualität vom Upsampling sowie Ray Reconstruction als Feature)
RR sieht zumindest mit Lumen so unfassbar gut aus. Da wird AMD leider in zehn Jahren noch nicht sein, wenn man die Entwicklung der letzten Jahre als Basis hochrechnet.

basix

2024-08-24, 09:09:03

Man darf ja darauf hoffen ;)

AMD hat zumindest eine Vorlage oder Vorstellung, was RR sein und liefern kann. Und sie werden sicher vermehrt auf ML/AI setzen bei FSR und laut letzten Gerüchten bringt RDNA4 auch Matrix-Accelerators mit. Ansonsten hilft WMMA wie bei RDNA3 auch schon was. Mit einem verbesserten FSR sowie RR hätte man gleich zwei ziemlich gute Zugpferde und Einsatzgebiete für die zusätzliche HW.

Vielleicht gibt es ein wenig Hilfe aus der Zusammenarbeit mit Sony und der PS5 Pro. Dann könnte sowas doch etwas schneller kommen als man sonst erwarten würde.
Und auch ein paar Executives haben durchscheinen lassen, dass man 2024 mehr mit AI machen wird bei Radeon. RDNA4, Matrix Cores, FSR, RR wären da die naheliegensten Kandidaten und würde zusammen zusätzlich noch positive Synergien bilden (für FSR wie auch RDNA4). Und wenn man noch mehr Träumen darf: FG mit Extrapolation anstatt Interpolation, womit der Latenz-Zuwachs entfällt :)

aufkrawall

2024-08-24, 09:27:45

Meine Erwartungshaltung als Radeon-Geschädigter wäre, dass sie ggf. die Rauschunterdrückung mit ML-Kram aktualisieren, damit die nicht mehr wie ein Dosentelefon klingt. Mehr nicht. :freak:
Geb ich aber auch nur eine Wahrscheinlichkeit von ~20%, wobei das auch noch wahnwitzig optimistisch sein dürfte...

The_Invisible

2024-08-24, 09:59:35

basix

2024-08-24, 10:14:54

AI läuft auch auf einer normalen GPU. Halt einfach langsamer als auf einer GPU mit Matrix-Acceleration. Wird sicher einen Fallback-Pfad für ältere GPUs geben.

dildo4u

2024-08-24, 11:11:15

Mir kommt eher vor als hätte AMD "Angst" das sie mit einem ai-only fsr4 jemanden vergraulen könnten weil's nicht mehr auf jede Hardware läuft. Das sie es können zeigen ja mi300 Serie.
Aber vielleicht auch Unsinn, wer Durchblicke schon AMDs Marketing/produktstrategie...
Strategie scheint mehr Power weniger Upsampling nötig wenn sie wirklich die 4080 erreichen kann man sich es sparen zumindest für 1440p.

Nvidia hat die Leute ja schon drauf Trainiert eine 600€ GPU ist für 1440p.(4070 S z.b)

aufkrawall

2024-08-24, 11:26:13

Kannst den Kampf gegen RR nicht mit mehr Auflösung für Gammel-FSR gewinnen, wenn RR wie in The First Descendant aussieht. Das dreht bei 1080p -> 4k Welten-Kreise um jedes 4k nativ TAA. Und das sage ich als notorischer DLSS-Meckerer.

dildo4u

2024-08-24, 11:45:46

Nutzt Fortnite RR oder noch nicht?

aufkrawall

2024-08-24, 11:53:01

robbitop

2024-08-24, 11:55:03

Naja, Turing und RDNA1/2 zeigen einfach auf, was man als "IPC" oder Performance/Flop erreichen könnte. Das heisst es gibt Spielraum nach oben. Da sind nochmals +10/20% IPC keine Luftschlösser, wenn man bei RDNA3 aus doppelt FP32 irgendwas um +10% IPC rausgeholt hat. Lustigerweise ist hier Ampere und Lovelace eine einigermassen gute Referenz, weil die aus doppelt FP32 ~35% Mehrleistung rausgeholt haben in Spielen. RDNA4 könnte sich hier ähnlich verhalten.

Stimmt ich meinte Turing - nicht Volta. :)
RDNA2 hatte ggü RDNA1 bereits regressions - wahrscheinlich um höhere Taktraten zu erreichen.

Ich denke auch dass mehr IPC aus obigen Grund möglich ist. Das ist aber schon seit 5 Jahren so und es wird trotzdem nicht genutzt. Offenbar weil es günstiger in Bezug auf Chipfläche war die SMs/CUs dicker zu machen als sie effizienter (rohleistungsnormierte performance) zu machen.
Warum sollte sich das jetzt plötzlich ändern?

Aber ja mehr ginge. Brauchst wahrscheinlich mehr Kontrolllogik und mehr schedulerports und register. Aber ob das den meisten return pro Transistor gibt? In den letzten 5 Jahren war es andersherum weil das offenbar der transistoreffizienteste Weg war die Leistung zu steigern. Aber klar: Paradigmen können sich auch ändern.
Aber es gibt genug Gründe skeptisch zu sein, dass AMD diesen Weg gegangen ist.
Klar wo mehr rum kommt ist wenn FF HW für zB RT verbaut wird (was wenn man darin schnell sein will sicher auch der transistorgünstigste Weg ist). Aber uns gings ja erstmal um rasterperformance (bei normierter Rohleistung)

robbitop

2024-08-24, 12:04:51

und laut letzten Gerüchten bringt RDNA4 auch Matrix-Accelerators mit.

Wobei man da vorsichtig sein muss. Matrix HW heißt nicht immer extra Matrix Cores. Letztes Mal hieß es dann auch und dann war es nur ein Instruction set und der Kram musste auf den Vektor FPUs gerechnet werden.

Mir kommt eher vor als hätte AMD "Angst" das sie mit einem ai-only fsr4 jemanden vergraulen könnten weil's nicht mehr auf jede Hardware läuft. Das sie es können zeigen ja mi300 Serie.
Aber dort auch nur mit der HW. Und naja Matrix FPUs zu verbauen ist trivial. Google und QCom machen das seit einem Jahrzehnt. Es ist die Software wo das know how drin steckt. Und da hat AMD noch nicht viel bewiesen was AI Upsampling angeht.

Lurtz

2024-08-24, 18:58:48

Fortnite nutzt nur uraltes Standard-DLSS mit DLL-Version 2.2.6...
Kann man zum Glück mit Tricks updaten. Aber RR in The First Descendant dreht auch Kreise um das neuste Preset E bei Denoising von Schatten, Reflexionen, der temporalen Stabilität von Nanite-Vegetation. Und das bei weniger Unschärfe und Smearing.
Sprich auch bei nicht Raytracing-Content :uponder: Könnte man das dabei verwendete Preset dann nicht auch von Spielen nur mit Raytracing lösen?

Oder fällt das mit UE5 alles unter (Software)-Raytracing?

aufkrawall

2024-08-24, 19:14:59

Das Spiel nutzt optional HWRT-Lumen für Reflexionen und vermutlich GI. Man kann im Inspector DXR abschalten, und trotzdem funktioniert RR weiterhin. Geht also auch mit SWRT. Aber muss offenbar trotzdem gesondert implementiert werden, also nicht einfach nur als ein neues Preset generell nutzbar.
Mit RR scheint es auch den Bloom-Bug nicht zu geben.

Neurosphere

2024-08-26, 08:19:53

Erste Geekbench Einträge:

https://x.com/BenchLeaks/status/1827937117328007293

Müsste N48 sein. Keine Ahnung wie gut oder schlecht die Werte im Vergleich sind.

HOT

2024-08-26, 08:36:59

Zwischen RX6400 und RX6500XT, das ist N44 salvage, sowas würde man als RX7300 releasen.

dildo4u

2024-08-26, 08:38:41

Passt alles nicht 28 CU mit Leistung auf Integriertem GPU Level.

880m schafft 30k mit 12CU

https://browser.geekbench.com/v6/compute/2490459

HOT

2024-08-26, 08:42:56

De Angabe mit den 28CUs kann man eh nicht ernst nehmen.
Übrigens können so solche Fehlinterpretationen entstehen, dass N44 32CUs hätte... ich tippe mal auf 12 CUs, wie die 6400. Bis zum finalen Treiber kommen da sicherlich noch ein paar Punkte hinzu.

basix

2024-08-26, 08:43:32

gfx1201 ist N48

16 GByte VRAM passen auch besser zu einer 256bit Karte

OgrEGT

2024-08-26, 08:44:01

28 CUs 2100MHz... keine Ahnung ob das richtig ausgelesen wurde...

basix

2024-08-26, 08:53:55

Der tiefe Score wird vermutlich dadurch herrühren, dass bei Face Detection keine Punkte ausgewertet wurden. Nimmt man die images/sec ist man schneller als eine 7800XT. Wenn das wirklich bei 2.1 GHz war, dann sieht es mit ~3 GHz ziemlich gut aus. Nur der Particle Physics Test scheint verglichen mit der 7800XT aus der Reihe zu tanzen.

Siehe im Anhang die Vergleiche zu einer 7800XT und RTX 4080.

28 CUs 2100MHz... keine Ahnung ob das richtig ausgelesen wurde...
Könnten evtl. 28 WGP / 56 CU sein. Bei einer 7800XT wird auch 30 Compute Units angegeben, was aber die Anzahl WGP ist. "Compute Units" ist bei Geekbench eine allgemeine Bezeichnung für SM, Xe Cores usw. und nicht das selbe wie eine "AMD CU".

HOT

2024-08-26, 08:58:05

Das ergibt Sinn 28 WGP aka 56CUs.

BlacKi

2024-08-26, 10:29:19

Nimmt man die images/sec ist man schneller als eine 7800XT. Wenn das wirklich bei 2.1 GHz war, dann sieht es mit ~3 GHz ziemlich gut aus.
ich denke, das geekbench hier die niedrigere shader clock aus ließt.

damit hat die rdna4 karte hier 5% weniger takt. und MLID sagt bis zu 3,2 ghz max clock, dann fehlen dem rdna4 ergebnis hier 26% takt und 12,5% recheneinheiten.

d.h. der karte fehlen 29,25% an der final spekulierten leistung. nicht auf die 7800xt sondern auf das rdna4 ergebnis.

damit wird die karte 25-30% schneller alseine 7800xt, da kommt man +- bei der 7900xt performance raus. zumindest in raster performance.

aufkrawall

2024-08-26, 10:58:27

Klingt gut, wenn der Stromverbrauch passt. Müsste (?) ja weiterhin GDDR6 non-X sein, also relativ günstig zu produzierende 256 Bit-Karte? Damit könnte man die 4070 Ti unter Druck setzen (falls noch jemand Radeon kauft :biggrin: ).

basix

2024-08-26, 11:39:06

Ja, soll normaler GDDR6 sein (18-20 Gbps).

dargo

2024-08-26, 11:39:56

GDDR6X ist doch eh exklusiv für Nvidia meine ich.

basix

2024-08-26, 11:42:48

Ja, aber es ist eben auch kein GDDR7 ;)

HOT

2024-08-26, 11:42:51

Gibt auch chinesische Hersteller die GDDR6X verwenden. Das kann jeder bei Micron einkaufen ;).

Für AMD kommt das auf die Lizenz an, wenn die bei Synopsis (oder wem anderes) einen GDDR6-Controller lizenziert haben, dann wird er auch nur das können. War einfach am billigsten schätz ich.

basix

2024-08-26, 11:49:34

Joa Lizenzen sind ein gutes Stichwort. Allerdings hat AMD bei RDNA3 eine Lizenz für N7/6 und nicht N4/5. Und man wird vermutlich primär pro Chip Lizenzkosten abdrücken müssen (neben einem einmaligen NRE Betrag). Da könnte man schon auf was anderes umschwenken.

Können wir aber wohl ausschliessen. GDDR6 wird es sein.

dildo4u

2024-08-26, 11:54:31

NV hat GDDR7 für sich alleine bis RDNA5?
Schätze dann gibt es wieder keine ordentliche Mobile Modelle von AMD da zu Strom hungrig?

Micron GDDR7 has greater than 50%
improvement in power efficiency over
GDDR6 along with new sleep modes to
reduce standby power up to 70%

https://www.micron.com/content/dam/micron/global/public/products/product-flyer/gddr7-product-brief.pdf

HOT

2024-08-26, 11:57:35

AMD hat Mobile schlichtweg aufgegeben, das sieht man ja an Strix Halo. Dann lieber weniger Fixkosten pro Produkt.

Sie brauchen eben einen Einsteigerchip mit Videoprozessor und einen monolithischen Ersatzchip für N32/31, den man bis runter auf $300 verkaufen kann in 3-4 Jahren - kurz einen neuen Polaris.

basix

2024-08-26, 12:03:10

Anhand der momentanen Gerüchtelage ist RDNA4 ein gutes Stück effizienter als Ada Lovelace (Raster ~1.2...1.3x, RT ~1.1x). Es wird nicht für Blackwell reichen aber es wäre dennoch ein sehr schöner Fortschritt gegenüber RDNA3.

Ich glaube wichtiger ist, dass die Sleep / Power Down Modes richtig gut funktionieren sowie Verbrauch bei Video-Playback, nicht so wie bei den Desktop RDNA3 Karten. Das macht bei Mobile mehr aus.

HOT

2024-08-26, 12:12:05

Wie bei N31/N32 dürfte es auf Anfrage Mobile-Varianten geben, aber das wird kein großflächiges Lineup für Mobile.
Ein Notebookhersteller braucht die Dinger auch gar nicht, wenn er ein effizientes Notebook mit moderat guter Grafikleistung anbieten will, kann er ja Halo verbauen.

basix

2024-08-26, 12:40:16

dargo

2024-08-26, 12:58:23

Ja, aber es ist eben auch kein GDDR7 ;)
Zum Glück, würde die Karte nur wieder unnötig verteuern. :)

NV hat GDDR7 für sich alleine bis RDNA5?
Schätze dann gibt es wieder keine ordentliche Mobile Modelle von AMD da zu Strom hungrig?

Lol... weil der Speicher alleine so viel verbraucht bezogen auf die gesamte Performance-GPU. :ulol:

basix

2024-08-26, 13:02:00

Jepp, ist einfach nicht nötig für ~4070 TiS Performance. Und lieber etwas mehr Speicher zum gleichen Kartenpreis anstatt GDDR7 (z.B. N44 mit 16GB analog zur 7600XT 16GB anstatt nur 8GB).

dildo4u

2024-08-26, 13:08:07

Zum Glück, würde die Karte nur wieder unnötig verteuern. :)

Lol... weil der Speicher alleine so viel verbraucht bezogen auf die gesamte Performance-GPU. :ulol:
Ich habe extra die Daten verlinkt 70% Power Reduktion in Standby natürlich wirkt sich das aus für ein Mobile Modell.

dargo

2024-08-26, 13:10:47

Wow... also anstatt 1W sind es dann 0,3W? ;D Wie lange musst du diesen Laptop dann nutzen damit sich der Aufpreis amortisiert? 50-100Jahre? :freak: Du fällst aber auch wirklich auf jeden Marketingstunt rein mit schönen Prozentspielereien. Ich finde zwar Fortschritt auch bei der Effizienz gut, man sollte aber auch die Kirche im Dorf lassen. ;)

btw.
Wobei das Beispiel von mir mit 1W auch Unsinn ist. Auf die Rechnung von diesem einen Watt geht nur ein winziger Bruchteil vom Vram alleine drauf.

BlacKi

2024-08-26, 13:17:18

Lol... weil der Speicher alleine so viel verbraucht bezogen auf die gesamte Performance-GPU. :ulol:es geht da nicht um den speicher selbst, sondern das speicherinterface das man reduzieren kann. wenn man statt 256bit mit gddr6(x)ein 192bit SI mit gddr7 verbauen kann, spart das strom.

dildo4u

2024-08-26, 13:20:04

Genau und natürlich zählt jedes Milliwatt wenn man gegen ARM Modelle antritt.

dargo

2024-08-26, 13:23:07

es geht da nicht um den speicher selbst, sondern das speicherinterface das man reduzieren kann. wenn man statt 256bit mit gddr6(x)ein 192bit SI mit gddr7 verbauen kann, spart das strom.
Dann verarscht Micron die Meute noch mehr als gedacht sofern das stimmt. In der schönen Folie spricht Micron von +60% Bandbreite beim gleichen SI und beim Stromverrbauch reduziert wieder Micron das SI um besser bei GDDR7 rauszukommen? :freak: ;D Wobei ich nicht davon ausgehe, dass Micron das so verkauft, eher denkst du dir da gerade was aus.

Genau und natürlich zählt jedes Milliwatt wenn man gegen ARM Modelle antritt.
In erster Linie zählt beim Kunden der Endpreis vom Gerät und nicht das letzte Wattchen.

BlacKi

2024-08-26, 13:39:25

keine ahnung was micron für folien macht, meine aussagen bezogen sich nicht auf micron. wenn ich aber in einem laptop 192bit mit gddr7 statt 256bit mit gddr6 verbauen kann, spart das am ende trotzdem strom und die user benefiten davon.

dargo

2024-08-26, 13:54:40

keine ahnung was micron für folien macht..
Dann lese was dildo verlinkt hat.

wenn ich aber in einem laptop 192bit mit gddr7 statt 256bit mit gddr6 verbauen kann, spart das am ende trotzdem strom und die user benefiten davon.
Das war gar nicht das Thema. Und wenn GPU X ineffizienter ist als GPU Y hast du von deiner Ersparnis mit kleinerem SI überhaupt nichts.

basix

2024-08-26, 14:21:41

Ich glaube mit einer dGPU sind in Standard-Tasks die iGPU + dGPU Shutoff entscheidend und sinnvoll. Wenn bei Office und Browsing primär die iGPU aktiv ist, ist alles OK.

BlacKi

2024-08-26, 14:32:38

Dann lese was dildo verlinkt hat.

Das war gar nicht das Thema. Und wenn GPU X ineffizienter ist als GPU Y hast du von deiner Ersparnis mit kleinerem SI überhaupt nichts.was meinst du? da steht power efficiency 50%, in deren berechnungen werden beide systeme zwar mit 384 bit, aberr mit 60% mehr bandbreite. die steigerungen der effizienz im micron beispiel kommen nicht von der stromersparnis, sondern durch die steigerung der performance.

so nutzt man die performance steigerung für eine reduzierung des verbrauchs.

reaperrr

2024-08-26, 14:39:07

wenn ich aber in einem laptop 192bit mit gddr7 statt 256bit mit gddr6 verbauen kann, spart das am ende trotzdem strom und die user benefiten davon.
192bit heißt erstmal bis auf weiteres 12GB VRAM statt 16GB (24GB in Clamshell wird so schnell keiner machen, und die G7-24Gbit-Chips sind noch nicht marktreif).

Unabhängig davon ist NV's Markenvorteil gerade im Notebook-Bereich inzwischen so groß, dass AMD GDDR7 auch nicht helfen würde, mehr GPUs zu verkaufen.

Solange der Chip insgesamt effizient ist, sind 16GB G6@20Gbps für Spieler besser als 12GB G7@28-32Gbps.
GDDR7 wird anfangs noch wesentlich höhere Latenzen je Takt haben, d.h. der effektive Vorteil wird längst nicht der reinen Bandbreite entsprechen, und Fälle wo 12GB zu wenig sind werden kommen bzw. wird's vereinzelt schon geben.

HOT

2024-08-26, 15:54:15

Ich nehme an, N44 und N48 werden Drop-In Replacements für bestehende N33 & N32 Designs. Das würde am meisten Sinn machen. Selbst für eine 7900M könnte das gelten (256bit SI), wobei hier das Package dann schon viel zu gross wäre verglichen mit einem kleinen N48 Chip.

Was ich von N44 halte hab ich oft genug gesagt und N48 dürfte erheblich kleiner sein als N32, von daher würde ich da auch neue Packages erwarten.

Übrigens dürften Lizenzen auf für die 4070 entscheidend gewesen sein, daher gibt es mMn einen AD104 251 (mit GDDR6-Mem-Ctrl-Lizenz) und einen 250 (mit GDDR6X Lizenz). Die Chips sind ja physisch eh die gleichen.

OgrEGT

2024-08-26, 18:53:43

Wenn lt. Geekbench von N48 schon 28WGPs aktiv waren dann passt das doch eher zu den bisher prognostizierten 32WGPs... wenn es nur 28CUs also 14WGPs sein sollten passt das ja nicht zu 16GB VRAM... Außerdem wie klein sollte dann N44 sein? Ne das macht keinen Sinn für den Bereich 16-32CUs 2 Chpis aufzulegen wenn man da noch bald APUs hat...

Edit
https://www.computerbase.de/2024-08/navi-48-mit-rdna-4-erste-gpu-fuer-radeon-rx-8000-im-geekbench-gesichtet/
Laut CB scheint es auch noch möglich zu sein dass N48=N44x2 Multichip... wenn es das wirklich ist und funktioniert warte ich auf N412 oder N416 :ulol:

Altehardware

2024-08-27, 06:47:06

Ein mcm wird das auf keinen fall
Geekbench ist sehr schlecht wenn die gpu keinen Treiber haben und mit basic treiber laufen
daher ist die hardware Erkennung quasi nicht vorhanden der Takt im idle darum die geringe perf.
Wenn ein leak den 3dmark wäre wäre das Aussagekräftiger den der braucht ein Treiber um zu laufen.
auch ein unique engine benchmark wäre deutlich aussagekräftiger.
Das amd sich eventuell für Januar entschieden hat ist tragisch aber verschmerzbar
Nvidia wird also wieder vorlegen und somit die preise diktieren was amd ziel ist.
damit ist die stagnation im GPU Markt bis 2025 gesichert das gute di ps5 pro wird definitiv im nov kommen der preis wird zur gamescom asia geben (17.10.24) ich gehe fasst davon aus das man den 449$ preispunkt nimmt
Und die Konsole deutlich schneller wird als alle denken. mein tipp wäre 22tf bei 60cu und 2,3-2,6ghz
Das wird die dgpu preise drücken den Sony Konkurrenz ist nicht die andere Konsole sondern der PC
Den dies wird dann Rt Massentauglich machen spätestens q4 2025 und jedes neue game hat dann dxr auf PT level mit der ue5

Darum ist jetzt genau die Zeit wo man seine gpu wechseln Sollte im Jahr 2025 und min zur rtx4070 eher rtx4070ti super perf um ruhe zu haben bis zur ps6 (2027)

Das blöde ist nur das diese Sku mir zu viel Strom saugt dies wird aber mit rtx60 auf n3 node gefixt. 50sm 190w akä rtx6060 (+-30tf)
leider die letzte ihrer Art
das wieso nun xbox next die hat in etwa diese perf
Danach folgt die ps6 und wird die Konsole nochmal verdoppelte perf haben etwa rtx4090 level (63tf).
Da dies aber von amd apu lineup herkommt wird es keine entry dgpu mehr geben (bis 500€)
nvidia wird entweder eigene komplett pc mit intel geben als entry pc oder ganz raus gehen aus dem entry geschafft dann fangen dgpu ab 600€ an als 70 class und diese wird ebenfalls 2030 auch nicht mehr geben mit der rtx80 gen
Der Weg mit intel komplett Pc zu entwickeln dürfte eher gehen
Das kann abgewendet werden wenn nvidia als entry min rtx4090 perf anbieten wird ab rtx7060 das muss aber deutlich effizienter sein als amd apu und das wird schwierig
Den das setzt sf3 node voraus mit Verzicht auf den Takt und mehr alu man sitzt also maximal bei 2,4ghz fest. Mit dann 128sm a 256alu /sku ab 80sm (80tf bei 150w)

Das wäre die rtx7060 und definitiv meine gpu ab 2028 nur ist das Angesicht amd nicht Präsenz mit cpu bis 600€ hedt keine option und intel ist unklar ob core ultra 4xx konkurrieren wird.

Das Oc potenzial ist aber gewaltig da mit sf3 die spannung auf nur noch 0,8v liegt und die gpu mit spannung linear taktet bis 3,2ghz bei maxed 1,03v bei 220w bei 104tf
Das wird sich nvidia definitiv nicht entgehen lassen womit entry sich für nvidia nicht lohnt.

samm

2024-08-27, 06:48:31

Laut CB scheint es auch noch möglich zu sein dass N48=N44x2 Multichip... wenn es das wirklich ist und funktioniert warte ich auf N412 oder N416 :ulol:Konkret schreiben die einfach nur ein wiedergekäutes Gerücht in ihren "Artikel" ohne nähere QuellenangabeIm Frühjahr hieß es, Navi 48 könnte als Multi-Chip-Modul bestehend aus zwei Navi 44 daher kommen.

fondness

2024-08-27, 10:50:33

Gibt mal wieder so ein lustiges Post von Kepler_L2:

256 20
256 18
192 19

Config von N48 also wenn er recht hat:

256bit / 20 Gbps
256bit / 18 Gbps
192bit / 19 Gbps

aufkrawall

2024-08-27, 10:52:33

Oh yes, neue 12GB-Karten. Nach Intel nun auch endlich AMD, ist das geil. Fehlt nur noch Nvidia...

BlacKi

2024-08-27, 11:03:14

hat reaperer zumindest im laptop schon vorherprophezeit. was willste machen, 32gb an 256bit. was? das ist unnötige zukunftssicherheit, das ist geschäftsschädigend.

OgrEGT

2024-08-27, 11:10:24

Wenn dann N48... N44 soll ja nur 128bit haben...

OgrEGT

2024-08-27, 11:12:41

12GB Karten von mir aus... wenn der Preis dazu stimmt warum nicht? Man ist dann eben in der Auflösung mehrheitlich je nach Spiel auf 1080-1440p begrenzt...

dargo

2024-08-27, 11:53:15

Oh yes, neue 12GB-Karten. Nach Intel nun auch endlich AMD, ist das geil. Fehlt nur noch Nvidia...
Was wäre denn an einem Salvage vom Salvage bei N48 mit 12GB falsch bei ca. 349-399$ wenn wir davon ausgehen, dass der Fullchip für 599$ kommt? Ein bissel Produktsegmentierung darf es schon sein. ;) Auf jeden Fall finde ich es schon mal gut, dass es drei Versionen von N48 geben soll sofern die Salamischeibe stimmt. Ansonsten wäre der Abstand vom Salvage N48 zu Full N44 wieder zu groß, auch preislich.

aufkrawall

2024-08-27, 12:12:00

reaperrr

2024-08-27, 12:17:23

Was wäre denn an einem Salvage vom Salvage bei N48 mit 12GB falsch bei ca. 349-399$ wenn wir davon ausgehen, dass der Fullchip für 599$ kommt?
Eben, zumal wir die CU-Zahl des 12GB-Modells nicht kennen. Mit z.B. 48 CUs wäre die Leistung vermutlich nicht gravierend über einer 7700XT, und dafür wären 16GB etwas Overkill.
Wobei ich zum Launch nicht gleich mit so günstigen Preisen rechnen würde, auch nicht für 12GB.

Mich würde nicht überraschen, wenn das N48-LineUp am Ende ca. so aussieht:

579-599$ - 8800 XT - 64 CU, 16GB@20Gbps -> ca. 4070TiS-4080-Leistung
499-529$ - 8800 - 56 CU (1 WGP je SE deaktiviert), 16GB@18Gbps -> ca. 4070S-Leistung
429-449$ - 8700 XT - 48 CU (1 SE deaktiviert), 12GB@19Gbps -> ca. 4070-Leistung (dank hoher Taktraten)

Wobei gerüchteweise die Yield-Rate so gut sein soll, dass evtl. eh erstmal nur das Top-Modell kommt und Salvage erst später, da dafür erst Chips gesammelt werden müssen, um nicht so viele 88XT-taugliche Chips für niedrigere SKUs teil-deaktivieren zu müssen.

BlacKi

2024-08-27, 13:18:54

also ne 450$ karte wird bei uns 475€ kosten wenn der dollar so bleibt. und am anfang bestimmt über 500€. und das im frühling 25? mit 12gb? ich meine, selbst wenn das zum release schon schwierig wird, die karte bietet null zukunftstauglichkeit, nichtmal für 2 jahre. dasselbe wie die rx 7700xt, nur schlimmer.

bei einer 300€ karte ok. aber fast 500? und nv wirds nicht anders machen...

amdfanuwe

2024-08-27, 13:22:45

Wobei gerüchteweise die Yield-Rate so gut sein soll, dass evtl. eh erstmal nur das Top-Modell kommt und Salvage erst später, da dafür erst Chips gesammelt werden müssen, um nicht so viele 88XT-taugliche Chips für niedrigere SKUs teil-deaktivieren zu müssen.
Das hängt doch allein vom gewähltem Takt ab. Z.B.: Die produzierten Chips funktionieren in einem Taktbereich von 2200MHz bis 2500MHz.
Spezifiziere ich die GPU mit 2200MHz, kann ich alle Chips nutzen. Spezifiziere ich das Top Modell mit min 2400MHz, bleiben noch viele Chips übrig die dann in den salvage Varianten verbaut werden. Zum Teil sind es auch nur einzelne CUs oder eine SE, die nur 2200MHz schaffen. Durch abschalten dieser erhält man dann einen Chip, den man als salvage mit höheren Takt verkaufen kann.
Da werden nicht erst Chips mit echten Defekten gesammelt.
Neben dem Takt spielt auch der Verbrauch der Chips eine Rolle.
Also alles eine Sache der Spezifikation der SKUs und Selektion der Chips.

dargo

2024-08-27, 13:24:45

Wär etwa deshalb bitter, weil die RT-Performance angeblich deutlich steigen soll, und da mit 12GB Radeons und rBAR es schon seit Jahren mitunter knapp wird (z.B. Spiderman). Das ist alles völlig zum Kotzen...
Ach.. du übertreibst. Das wird ein Segment wo es völlig in Ordnung geht und mit RT wird man eh Upscaling nutzen dürfen/müssen bei 1440p.

robbitop

2024-08-27, 13:26:22

IIRC gab es doch 12 gbit Chips seit neuerem. Das könnte dann 18 GB für 192 bit Karten und 24 GB für 256 bit Karten ermöglichen.

aufkrawall

2024-08-27, 13:26:47

So viel spart das auch nicht.
Die "Rettung" wird wohl eher wieder UE5 sein...

BlacKi

2024-08-27, 13:28:23

Das hängt doch allein vom gewähltem Takt ab. Z.B.: Die produzierten Chips funktionieren in einem Taktbereich von 2200MHz bis 2500MHz.
Spezifiziere ich die GPU mit 2200MHz, kann ich alle Chips nutzen. Spezifiziere ich das Top Modell mit min 2400MHz, bleiben noch viele Chips übrig die dann in den salvage Varianten verbaut werden. Zum Teil sind es auch nur einzelne CUs oder eine SE, die nur 2200MHz schaffen. Durch abschalten dieser erhält man dann einen Chip, den man als salvage mit höheren Takt verkaufen kann.
Da werden nicht erst Chips mit echten Defekten gesammelt.
Neben dem Takt spielt auch der Verbrauch der Chips eine Rolle.
Also alles eine Sache der Spezifikation der SKUs und Selektion der Chips.wenn man sehr viel gute chips hat, was ja das gerücht aussagt, dann wird man die zum top model machen. alles andere wäre margenverlust. das hat man auch bei der 7800xt vs 7700xt gesehen, die 7800xt verfügbarkeit war besser und die karte hatte ein deutlich besseres performance/€ verhältnis. wenn das gerücht stimmt, wird sich das wiederholen.

basix

2024-08-27, 13:28:50

Config von N48 also wenn er recht hat:

256bit / 20 Gbps
256bit / 18 Gbps
192bit / 19 Gbps

Wären wohl 64 / 56 / 48 CU Varianten des Chips, vermute ich mal. Und 16 / 16 / 12 GByte. Sowas in der Art hatte ich erwartet hinsichtlich Salvage.

Die 192bit Variante wird aber vermutlich nicht sehr attraktiv bepreist sein und in Richtung Upselling Strategie zur 56 CU Variante tendieren. So viele Chips mit defektem SI oder defekter Shader Engine wird es vermutlich nicht geben. Aber AMD bringt damit diese Chips auch noch los, jedoch wären eher geringe verkaufte Stückzahlen das, was AMD beim 48 CU Modell anstreben würde.

Edit:
Bei N44 wird es dann nochmals interessant. Gibt es dort evtl. auch 16 / 12 GByte Optionen? 8GByte ist mittlerweile schon ein ziemlicher Hemmschuh geworden. Beispielhaft gedacht:
- 32 CU, 128bit, 16 GByte, 18Gbps, 120W
- 28 CU, 96bit, 12 GByte, 20Gbps, 100W
- 24 CU, 128bit, 8GByte, 16 Gbps, 70W (ohne PCIe Power-Connector?)

Die 7600XT hat bereits 16GByte. Weswegen eine 8600XT als Nachfolger sich mit 16GByte gut machen würde. Und die 8600 mit 12GByte. Wäre für Gamer die mMn beste Umsetzung des RDNA4 Portfolios.

dildo4u

2024-08-27, 13:29:46

Die 4070 muss doch schon überall das RT runter drehen das wird auch die Karte treffen.
Ich gehe davon aus das alle High-End NV Plugins den selben Krüppel Effekte haben wie jetzt.(Star Wars das neuste Beispiel)

1440p 50fps mit DLSS + Framegen!

https://youtu.be/ataDxV4sO5Q?si=16OMG40V031Ltaoi&t=534

dargo

2024-08-27, 13:40:58

wenn man sehr viel gute chips hat, was ja das gerücht aussagt, dann wird man die zum top model machen. alles andere wäre margenverlust. das hat man auch bei der 7800xt vs 7700xt gesehen, die 7800xt verfügbarkeit war besser und die karte hatte ein deutlich besseres performance/€ verhältnis. wenn das gerücht stimmt, wird sich das wiederholen.
Ganz schlechter Vergleich da RDNA4 monolithisch wird. Da darfst du eher mit den Preisen von RX 6800XT und RX 6900XT von damals vergleichen. Den preislichen Abstand meine ich. ;)

BlacKi

2024-08-27, 13:44:49

Ganz schlechter Vergleich da RDNA4 monolithisch wird. Da darfst du eher mit den Preisen von RX 6800XT und RX 6900XT von damals vergleichen. Den preislichen Abstand meine ich. ;)wie kommts? kann dir da nicht folgen.

basix

2024-08-27, 13:46:10

Wär etwa deshalb bitter, weil die RT-Performance angeblich deutlich steigen soll, und da mit 12GB Radeons und rBAR es schon seit Jahren mitunter knapp wird (z.B. Spiderman). Das ist alles völlig zum Kotzen...
Würde das nur als halb so schlimm ansehen, wenn die 56 CU / 16 GByte Variante preislich attraktiv ist. Die 12 GByte Variante ist dann evtl. mehr ein OEM Ding oder für Leute, die die zusätzlichen 50 Euro leider Gottes einfach nicht aufbringen können.

dargo

2024-08-27, 13:47:27

wie kommts? kann dir da nicht folgen.
RX 6800XT = 649$ UVP
RX 6900XT = 999$ UVP

Der Fullchip war ganze 54% teurer und dennoch verzichtete AMD auf die Marge bei N21 indem sie nicht nur erstmal die RX 6900XT brachten.

Und bevor gleich wieder falsche Schlüsse gezogen werden... nein, wir werden keine 54% beim Preis bei N48 mit 56 CUs vs 64 CUs sehen. Im oberen Preissegment wie damals bei N21 hat man einfach mehr Spielraum dafür.

basix

2024-08-27, 14:00:02

Die 6800XT war zu guten Teilen wegen der RTX 3080 so bepreist. N21 mit nur 6900XT ohne 6800XT wäre da im Vergleich in den Regalen liegen geblieben.

Ich tippe bei den N48 Preisen auf 500-550$ bei der 64 CU Variante und 50$ Reduktion bei der 56 CU Variante. Wie du sagst, man hat den Spielraum bei der Marge gar nicht. Meine (optimistische) Speku:
- 64 CU, 16 GByte, 499$ (...549$)
- 56 CU, 16 GByte, 449$ (...499$)
- 48 CU, 12 GByte, 399$ (...429$)

Damit hätte man "doppeltes" Upselling von der 48 CU Variante aus gesehen.

Edit:
Und optimistische N44 SKUs:
- 32 CU, 16 GByte, 299$ (...329$)
- 28 CU, 12 GByte, 249$ (...279$)
- 24 CU, 8 GByte, 199$ (...229$)

BlacKi

2024-08-27, 14:05:19

meine eigentliche frage war, was das monolitische damit zu tun hat, bzw. das chiplet design?

natürlich waren die 6800 (XT) schlechter verfügbar und ausserdem schien man früher mehr ausschuss/teildefekte gehabt zu haben als nun in 4nm. daher will man möglichst viele topmodels verkaufen.

dargo

2024-08-27, 14:18:33

Ich tippe bei den N48 Preisen auf 500-550$ bei der 64 CU Variante und 50$ Reduktion bei der 56 CU Variante. Wie du sagst, man hat den Spielraum bei der Marge gar nicht. Meine (optimistische) Speku:
- 64 CU, 16 GByte, 499$ (...549$)
- 56 CU, 16 GByte, 449$ (...499$)
- 48 CU, 12 GByte, 399$ (...429$)

Nur 50$ Unterschied bei den beiden oben? Nee... das wäre etwas unsinnig. Setze beim Fullchip 599$ an, dann passt es schon eher.

basix

2024-08-27, 14:20:48

Das nennt sich Upselling und hat Methode ;)

fondness

2024-08-28, 16:13:26

Es geht weiter mit dem News von Kepler_L2:

64
64
48

Also 64MB $IF für die 256bit Modelle von N48 und 48MB für das 192 bit Modell.

AffenJack

2024-08-28, 16:50:28

Es geht weiter mit dem News von Kepler_L2:

Also 64MB $IF für die 256bit Modelle von N48 und 48MB für das 192 bit Modell.

War ja zu erwarten. Kann AMD überhaupt den IF-Cache unabhängig vom Interface verkleinern?

reaperrr

2024-08-28, 17:27:11

War ja zu erwarten. Kann AMD überhaupt den IF-Cache unabhängig vom Interface verkleinern?
Wenn überhaupt, dann vermutlich nur ähnlich grob wie NV ihren L2 bei Ada.
Aber bisher haben sie davon noch nie Gebrauch gemacht und auch hier sieht es nicht danach aus.

Wahrscheinlich wandern alle Chips, wo ein IF$-Block defekt ist, einfach in die 192bit SKU.
Die Yield-Rate soll eh so gut sein, dass AMD erwägen, erstmal nur das Top-Modell zu launchen. Da braucht es dann halt auch so oder so keine Extra-SKU neben der 192bit-Variante, um etwa noch 256-bit-Karten mit nur 48MB IF$ zu verkaufen (wenn's denn technisch überhaupt ginge).

Leonidas

2024-08-28, 18:21:54

All The Watts!! bestätigt die Angaben und fügt welche zu den AMD-iGPUs hinzu. Sieht für mich generell so aus, als hätte AMD da jetzt seinen Partnern was konkretes gesagt, wenn nun derart die Leaks purzeln.
https://x.com/All_The_Watts/status/1828795701712875562
https://x.com/All_The_Watts/status/1828818286202773757

BlacKi

2024-08-28, 19:40:37

Es geht weiter mit dem News von Kepler_L2:

Also 64MB $IF für die 256bit Modelle von N48 und 48MB für das 192 bit Modell.
ich bin schockiert. war mir klar, das MLID da nur schwachsinnszahlen aufgeführt hat um klicks zu generieren. damit sollte klar sein, das die 4080 avg performance weit weg ist.

mboeller

2024-08-28, 19:42:46

https://x.com/All_The_Watts/status/1828818286202773757

KrakenPoint looks funny!

3x Z5
5x Z5c

wtf...

reaperrr

2024-08-28, 20:22:25

ich bin schockiert. war mir klar, das MLID da nur schwachsinnszahlen aufgeführt hat um klicks zu generieren. damit sollte klar sein, das die 4080 avg performance weit weg ist.
Was den IF$ angeht, er hatte <= geschrieben, nicht dass der im Vollausbau 96 MB sein würde, und in weißer Farbe, was bei ihm heißt er ist sich nicht sicher (oder will Quellen schützen)... etwas irreführend war es trotzdem, bin ich auch drauf reingefallen.

Wobei ich nicht wüsste, wie das Klicks generieren soll, man muss das Video ja erstmal sehen, um die Specs zu sehen, und sonst fällt mir nichts falsches ein?

Und was 4080 angeht:

Wenn Nvidia 64MB L2 und 22.4 Gbps VRAM für 4080-Perf reichen, sehe ich grundsätzlich erstmal nicht, warum man da mit 4LB L2 + 64MB IF$ und 20Gbps nicht wenigstens sehr nah rankommen könnte.
Sind immerhin 4MB mehr L2+ Cache insgesamt.

Bei RDNA3 war AMD's Bandbreiteneffizienz noch schlechter als bei Ada, richtig, aber RDNA4 scheint ja schon einige größere Verbesserungen zu haben, warum nicht auch an der Bandbreitennutzung.

KrakenPoint looks funny!

3x Z5
5x Z5c

wtf...
Jep... vor allem, wenn das immer noch 2 CCX sein sollten...
Wenn es wie bei Phoenix2 ein monolithischer CCX ist, wär's nicht so schlimm.

dargo

2024-08-28, 20:28:12

N48 angeblich 270mm² groß oder klein, je nachdem wie man es sieht. Und angeblich Release noch 2024, AMD soll hier bewusst falsche Informationen gestreut haben mit 2025.
https://youtu.be/2TmC_i7bK5Y?si=u-qwgqi1EE8btvG0&t=174

Die 275W finde ich aber wieder etwas meh, sofern es stimmt.

BlacKi

2024-08-28, 20:35:35

Wenn Nvidia 64MB L2 und 22.4 Gbps VRAM für 4080-Perf reichen, sehe ich grundsätzlich erstmal nicht, warum man da mit 4LB L2 + 64MB IF$ und 20Gbps nicht wenigstens sehr nah rankommen könnte.
Sind immerhin 4MB mehr L2+ Cache insgesamt.

weil nv sparsamer effizienter mit der speicherbandbreite umgeht kannst du das nicht auf amd einfach so übertragen.ich meine, die hat sich mit den 64mb gegen die 96mb der xtx gestemmt. amd hat jede generation immer mehr bandbreite gebraucht um sich mit nv zu messen. rdna2 hatte dafür den großen 128mb cache gebraucht um sich mit der 384bit nv karte zu messen ohne deren großen cache. erst mit ada kam nv mit dem cache als bandbreitenersatz und jetzt schiebt die 4080 mit 64mb cache/256bit SI gegen die 96mb amd karte mit 384bit SI.;D

wo soll die performance herkommen? ich denke die combinierte bandbreite wird hier auch die performance vorgeben. ich sehe die karte zwischen 4070ti und 4070ti super, oder GRE bis 7900xt in raster.

KrakenPoint looks funny!

3x Z5
5x Z5c

wtf...128bit und 7500MT/s und was bedeuten die 06? CU? oder WGP?

dargo

2024-08-28, 20:37:37

ich bin schockiert. war mir klar, das MLID da nur schwachsinnszahlen aufgeführt hat um klicks zu generieren. damit sollte klar sein, das die 4080 avg performance weit weg ist.
Ich bin eher schockiert, das du Performance X an der Größe vom Cache bei AMD fest machst als wenn das die größte Gewichtung hätte. :ulol:

weil nv sparsamer effizienter mit der speicherbandbreite umgeht kannst du das nicht auf amd einfach so übertragen.ich meine, die hat sich mit den 64mb gegen die 96mb der xtx gestemmt.
Dieser Satz sagt schon alles. Junge, Junge... :facepalm:

rdna2 hatte dafür den großen 128mb cache gebraucht um sich mit der 384bit nv karte zu messen ohne deren großen cache.
Und der nächste Brüller gleich hinterher. Dass N21 nur ein 256Bit SI hatte, also 512GB/s Bandbreite @GDDR6 ist an dir offenbar komplett vorbei gegangen. :rolleyes:

BlacKi

2024-08-28, 20:41:33

Ich bin eher schockiert, das du Performance X an der Größe vom Cache bei AMD fest machst als wenn das die größte Gewichtung hätte. :ulol:

jap, größe des caches und speicherbandbreite sagen grob die performance vorraus.

dargo

2024-08-28, 20:46:51

Hast du dir vor kurzem für teures Geld eine RTX 4080 geholt und flattert jetzt die Hose oder was ist mit dir los? Hört sich so an als wenn für dich die Welt zusammenbricht wenn N48 die RTX 4080 ca. erreicht.

reaperrr

2024-08-28, 21:31:50

weil nv sparsamer effizienter mit der speicherbandbreite umgeht kannst du das nicht auf amd einfach so übertragen.
jap, größe des caches und speicherbandbreite sagen grob die performance vorraus.
Auch AMD verbessert Dinge wie Culling, DCC, Cache-Hirarchie etc. jede Gen :rolleyes:

Die 7800XT schafft ca. 6800XT-Leistung mit 64MB Cache, trotz weniger Rohleistung.
Die 7700XT schafft ~6800-Leistung und über 6750XT-Leistung mit 48MB Cache.

Die 79XTX hatte mehr Bandbreite, als es für die Rohleistung gebraucht hätte.
Zumindest bis einschl. 1440p hätte man die XTX-Leistung wahrscheinlich auch mit der Cache-/Speicherausstattung der XT schaffen können.
Außerdem hat der IF$ bei RDNA3 durch die MCDs ne höhere Latenz, als er bei einem monolithischen Design haben wird.
Gleiches gilt übrigens wahrscheinlich auch für den VRAM.
Bei N48 ist der IF$ jetzt auch in N4P statt N6, wird also höher takten können.

Von RDNA3 auf RDNA4 zu schließen ist bestenfalls gewagt.

N48 angeblich 270mm² groß oder klein, je nachdem wie man es sieht.
Trotz 4 MB L2, 64MB IF$ und 256bit SI ca. AD104-Größe in nahezu identischem Prozess ist eher klein.

Das sind gute 100 mm² weniger als AD103.

Die 275W finde ich aber wieder etwas meh, sofern es stimmt.
Top-Dog wird halt deutlich überm Sweet-Spot laufen um die letzten 5-10% rauszukitzeln, und in Sachen Verbrauch/mm² ist das vergleichbar zum AD104-TopDog (4070Ti-12GB).

OgrEGT

2024-08-28, 21:36:31

Was ist das denn nach Strix Halo mit der USA Flagge? 04Cores? 02 WGPs? 64bit 6400MT/s?

dargo

2024-08-28, 21:41:32

Trotz 4 MB L2, 64MB IF$ und 256bit SI ca. AD104-Größe in nahezu identischem Prozess ist eher klein.

Das sind gute 100 mm² weniger als AD103.

Dass das klein ist ist mir schon klar. Ich hatte das in Relation zu den früheren Gerüchten mit 230mm² gestellt. ;)

Top-Dog wird halt deutlich überm Sweet-Spot laufen um die letzten 5-10% rauszukitzeln, und in Sachen Verbrauch/mm² ist das vergleichbar zum AD104-TopDog (4070Ti-12GB).
Ich sags mal so... ich hatte eher auf max. 250W gehofft. Aber solange N48 nicht wieder so zugenagelt ist wie RDNA3, weiter oben in der V/F-Kurve arbeitet wie RDNA2 und im besten Fall noch MPT-Support bekommt sollen mir die 275W auch recht sein. Ich stutze mir den Chip eh zurecht in sinnvollere Powerbudgets. :)

HOT

2024-08-28, 21:49:17

Was ist das denn nach Strix Halo mit der USA Flagge? 04Cores? 02 WGPs? 64bit 6400MT/s?

Sind 4 c Kerne, dürfte Sonoma Valley sein, gefertigt in SF4X Quasi-Nachfolger von Mendocino.

OgrEGT

2024-08-28, 21:53:17

Sind 4 c Kerne, dürfte Sonoma Valley sein, gefertigt in SF4X Quasi-Nachfolger von Mendocino.
Dank Dir :)

BlacKi

2024-08-28, 22:06:52

Auch AMD verbessert Dinge wie Culling, DCC, Cache-Hirarchie etc. jede Gen :rolleyes:

Die 7800XT schafft ca. 6800XT-Leistung mit 64MB Cache, trotz weniger Rohleistung.
Die 7700XT schafft ~6800-Leistung und über 6750XT-Leistung mit 48MB Cache.

Die 79XTX hatte mehr Bandbreite, als es für die Rohleistung gebraucht hätte.
Zumindest bis einschl. 1440p hätte man die XTX-Leistung wahrscheinlich auch mit der Cache-/Speicherausstattung der XT schaffen können.
Außerdem hat der IF$ bei RDNA3 durch die MCDs ne höhere Latenz, als er bei einem monolithischen Design haben wird.
Gleiches gilt übrigens wahrscheinlich auch für den VRAM.
Bei N48 ist der IF$ jetzt auch in N4P statt N6, wird also höher takten können.

Von RDNA3 auf RDNA4 zu schließen ist bestenfalls gewagt.

hab ich nicht, ich habe bereits verbesserungen eingeplant, deshalb nenne ich nicht GRE performance sondern zwischen GRE und 7900xt. ich denke die GRE hat schon viel zu wenig kombinierte bandbreite, die optimierungen und die bekannten 20gbps speicherangaben entlasten hier das limit, dennoch glaube ich nicht daran, das man besonders oft an der 7900xt vorbei kommt um avg darüber zu liegen.

würde ich keine optimierungen annehmen, was dumm ist, dann würde n48 knapp schneller als eine GRE werden. das nehme ich aber nicht an, sondern eher richtung 7900xt.

reaperrr

2024-08-29, 05:06:26

hab ich nicht, ich habe bereits verbesserungen eingeplant, deshalb nenne ich nicht GRE performance sondern zwischen GRE und 7900xt. ich denke die GRE hat schon viel zu wenig kombinierte bandbreite, die optimierungen und die bekannten 20gbps speicherangaben entlasten hier das limit, dennoch glaube ich nicht daran, das man besonders oft an der 7900xt vorbei kommt um avg darüber zu liegen.

würde ich keine optimierungen annehmen, was dumm ist, dann würde n48 knapp schneller als eine GRE werden. das nehme ich aber nicht an, sondern eher richtung 7900xt.
Bandbreiten-Limits sind ja keine harten "von 100 auf 0" Limits.
Ab einem gewissen Punkt bringt mehr GPU-Takt oder Roh-Leistung je Takt dann halt immer weniger, aber nicht "nichts".

Die GRE wird N48 auf jeden Fall weit hinter sich lassen.

Dass es in manchen Spielen nur ca. für 4070TiS/7900XT-Leistung reicht, kann natürlich sein, soviel schneller als die beiden ist die 4080 in Raster ja eh nicht.

Wenn wir ~10% mehr IPC je CU annehmen und ~20% mehr Takt unter Last als ne Referenz-7900XT, würde N48 ziemlich genau auf 79XT rauskommen.

Aber es könnten halt auch über 10% mehr IPC je CU oder über 20% mehr Takt unter Last sein.

dargo

2024-08-29, 06:09:47

mboeller

2024-08-29, 06:49:45

128bit und 7500MT/s und was bedeuten die 06? CU? oder WGP?

da bei Strix Halo /20/ steht, also 20WGP könnten es auch bei Kraken 6WGP sein, also 12CU.

GerryB

2024-08-29, 07:19:31

Die 275W finde ich aber wieder etwas meh, sofern es stimmt.

Lange nicht mehr OCed?

may be, 10% mehr Takt als bei der 7800xt geht über den besseren Process, aber
20% mehr Takt ist dann nur mit nichtlinearem Mehrverbrauch zu schaffen.
(interessant werden dann die Temps@275W bei so kleinen Chips)

noch interessanter wirds bei 8700xt vs. 7700xt weil die 7700xt schon ganz schön Brechstange ist
eff. Clocks in Games siehe Anhang

Am Interessantesten wird vllt. das Verhältnis von Frontendtakt zu Shadertakt.
Braucht RDNA4 auch den absurd hohen Frontendtakt, um die Shader auszulasten oder gibts durch die neue Cachearchitektur
ne Verbesserung?

btw.
Das hat schon seinen Grund, warum ne GRE die bessere Wahl ggü. ner 7800xt ist.
mehr Shader@lower Volts = effektiver

dargo

2024-08-29, 07:26:26

Lange nicht mehr OCed?

Machen schon die IHVs.

(interessant werden dann die Temps@275W bei so kleinen Chips)

Was soll daran interessant sein? Sofern die 270mm² stimmen ist der Die größer als der GCD von N32 und viel fehlt da nicht mehr zum GCD vom N31. Die Wärmeabgabe der MCDs bei RDNA3 ist im Vergleich zum GCD eher marginal.

btw.
Das hat schon seinen Grund, warum ne GRE die bessere Wahl ggü. ner 7800xt ist.
mehr Shader@lower Volts = effektiver
Sehe ich komplett anders. Lasse die 7800XT mit den gleichen Frequenzen wie die 7900GRE laufen dann siehst du wie ineffizient die 7900GRE ist. Die Perf/W bei N32 wird nur durch den höheren Boost vs. 7900GRE stärker ins Negative gezogen.

mboeller

2024-08-29, 07:34:53

mal meine 0,2 cent

für mich machen immer noch 240mm2 für N48 am meisten Sinn, wenn die 130mm2 für N44 stimmen.

N48 = 2x N44.

Zieht man von den Die-Flächen jeweils 20mm2 für I/O, Video etc... ab bleiben 110 bzw. 220 mm2 übrig also genau 2x zw. N44 und N48.

Apropos IF$. Wenn man von N21 ausgeht und dann die 5nm/7nm Skalierung einrechnet (ja die gibt es, siehe wikichip) komme ich für 64MB auf nur 24-25mm2

GerryB

2024-08-29, 07:39:12

Bei N48 kannste evtl. mit ca. 100mm² für den L3 rechnen, so das die 275W zum Großteil auf 170mm² anfallen.
(ohne jetzt bei RDNA3+4 extra den Anteil vom Vram rauszurechnen, ... may be 25W)

gehe mal davon aus, das bei N48 ca. 1/3 weniger Fläche für den L3 gebraucht wird ggü. 7800xt
(jetzt wo die 64MB bestätigt sind)

dargo

2024-08-29, 07:51:36

Bei N48 kannste evtl. mit ca. 100mm² für den L3 rechnen...
Wat? :freak: mboeller rechnet mit ca. 25mm² und du mit ca. 100mm²? :crazy:

GerryB

2024-08-29, 07:54:43

dargo

2024-08-29, 08:13:18

bei der 7800xt sinds 4x 36,6mm²= 146,4mm² als MCD@6nm
wie man da mit 25mm² auskommen will@4nm !?

Ähm... das ist aber nicht nur der Infinity Cache. ;)

mboeller

2024-08-29, 08:18:08

robbitop

2024-08-29, 08:20:06

Jep... vor allem, wenn das immer noch 2 CCX sein sollten...
Wenn es wie bei Phoenix2 ein monolithischer CCX ist, wär's nicht so schlimm.
Meinst du dass es irgendeinen sinnvollen Grund gibt bei 8C in summe (auch wenn es 3+5 ist) mehrere CCX zu verbauen? Ich würde auf eines tippen. Hätte wahrscheinlich (fast?) nur Vorteile.

N48 angeblich 270mm² groß oder klein, je nachdem wie man es sieht. Und angeblich Release noch 2024, AMD soll hier bewusst falsche Informationen gestreut haben mit 2025.
https://youtu.be/2TmC_i7bK5Y?si=u-qwgqi1EE8btvG0&t=174

Die 275W finde ich aber wieder etwas meh, sofern es stimmt.
Die 4080 Super hat immerhin 320 W und die 4070 ti Supoer 285 W. Das passt doch grob.

----------------

Die 270 mm² erscheinen, wenn es grob AD103 Leistung erreichen soll schon sportlich. AD103 ist 379 mm² groß. Selbst wenn man annimmt dass "Nvidia 4N" nicht TSMCs N4 Familie ist sondern N5 (so wie w0mbat es von Insidern erfahren haben will) dann würden wir auf eine Reduktion von ~20% kommen. (die 20% kommen von Zen 5 vs Zen 4 wo alle überrascht waren wie viel N4P vs N5(P?) an Dichte gebracht hat. Ggf. auch irgendwelche nochmal besser optimierten Libraries - aber die 20% sind ggf ja auch für N48 möglich). Dann wäre ein hypothetischer AD103 mit N4P 303 mm² groß.
Klar ist bei Ada auch viel Fixed Function Kram verbaut, der ggf nicht notwendigerweise bei RDNA4 verbaut ist (RT Level 3.5 HW, Matrix Units etc) aber das wäre schon sportlich. IMO ein Indikator dass man wahrscheinlich eher mit 4070 ti/ti super Performance rechnen könnte.

basix

2024-08-29, 08:29:33

bei der 7800xt sinds 4x 36,6mm²= 146,4mm² als MCD@6nm
wie man da mit 25mm² auskommen will@4nm !?

Das wäre echt ne Überraschung ala 3dCache.
(vlt. soll das 4x 25 sein, ... k.A. was sich der Kollege denkt)

Wie hier schon dargelegt, der L3-Cache von Zen 5 ist sehr kompakt:
https://www.forum-3dcenter.org/vbulletin/showthread.php?p=13601723#post13601723

Und mit grösseren Cache-Blöcken wird es noch kompakter, weil man weniger Zugriffslogik braucht. Deswegen hatte ich ~30mm2 für 64 MByte abgeschätzt.

Ich habe anhand der Zen 5 "Die Shots" von ihrer Präsentation die L3-Cache Grösse abgeleitet (also die Fotos, wo man die Chip Strukturen sieht). Ich kam auf 17-18mm2 für 32MByte. Bei Zen 5 konnte AMD die Cache-Density gut steigern. Und das bei afaik 512kB Blöcken, wohingegen IF$ bei den GPUs afaik in 2MByte Blöcken daherkommt. Damit kann man den Cache noch dichter packen. Ich würde mal auf ~15mm2 für 32MByte tippen. Und da ich nur 64MByte erwarte, wäre man bei 30-35mm2 für den IF$. Dann 60mm2 für das SI und 30mm2 für PCIe, Video, Display etc. und man landet bei ~120mm2 für all diese Strukturen. Eine RDNA3 SE ist ~25-28mm2 gross. Das 4x und den Command Processor + L2$ und man landet bei evtl. ~240mm2 für alles. Jetzt bringt RDNA4 nochmals neue Features, dafür N4P mit höherer Density. Ich glaube 230-250mm2 für N48 sind nicht völlig abwegig. Ebenso wenig wie die Performance Gerüchte (allein schon BVH8 anstatt BVH4 sollte die Kosten für BVH-Traversal halbieren können).

Mache ich die selbe Rechnung für N48 & N44:
- Die Blockgrössen sind von RDNA3 GPUs abgeleitet
- Eine RDNA4 SE wird etwas grösser sein (Transistor-Anzahl), dafür ist es N4P mit höherer Density
- Infinity-Cache Grösse von Zen 5

N48 = 240mm2
- 64 MByte = 30mm2
- 256bit SI + Mem. Controller = 60mm2
- PCIe, Video, Display = 30mm2
- Command + L2 = 10mm2
- 4x SE = 110mm2 (27.5mm2 pro SE)

N44 = 132mm2
- 32 MByte = 15mm2
- 128bit SI + Mem. Controller = 30mm2
- PCIe, Video, Display = 25mm2 (nur PCIe x8, evtl. weniger Display Anschlüsse)
- Command + L2 = 7mm2 (halbierter L2$)
- 2x SE = 55mm2 (27.5mm2 pro SE)

robbitop

2024-08-29, 08:30:13

weil nv sparsamer effizienter mit der speicherbandbreite umgeht kannst du das nicht auf amd einfach so übertragen.ich meine, die hat sich mit den 64mb gegen die 96mb der xtx gestemmt. amd hat jede generation immer mehr bandbreite gebraucht um sich mit nv zu messen. rdna2 hatte dafür den großen 128mb cache gebraucht um sich mit der 384bit nv karte zu messen ohne deren großen cache. erst mit ada kam nv mit dem cache als bandbreitenersatz und jetzt schiebt die 4080 mit 64mb cache/256bit SI gegen die 96mb amd karte mit 384bit SI.;D

wo soll die performance herkommen? ich denke die combinierte bandbreite wird hier auch die performance vorgeben. ich sehe die karte zwischen 4070ti und 4070ti super, oder GRE bis 7900xt in raster.

Ich bin da auch erstmal etwas skeptisch. Denn große Bandbreiteneffihzienzsprünge hat es bei Radeon schon länger nicht mehr gegeben und hier würde schon ein nicht unwesentlicher Sprung nötig sein. Aber: sein kann es trotzdem. Nvidia zeigt es ja. Und die Bandbreiteneffizienz hat Nvidia schon relativ lange - also ggf machbar (?) aber nicht garantiert. ^^

Auch AMD verbessert Dinge wie Culling, DCC, Cache-Hirarchie etc. jede Gen :rolleyes:

Die 7800XT schafft ca. 6800XT-Leistung mit 64MB Cache, trotz weniger Rohleistung.
Die 7700XT schafft ~6800-Leistung und über 6750XT-Leistung mit 48MB Cache.
Ja wobei einzelne SKUs nicht wirklich aussagekräftig über die Bandbreiteneffizienz sind IMO. Man schaue sich das Spektrum bei RDNA2 und 3 an was Bandbreite pro TFLOP angeht. Das ist ziemlich breit.
Meiner Meinung nach müsste man um das vergleichen zu können die Bandbreite zum VRAM gleich setzen, den Cache gleich und dann die Rohleistung skalieren und eine Kurve an Performance über Coretakt skalierung bauen. Ansonsten vergleicht man mit den SKUs eventuell Äpfel mit Birnen. :)
Das hat leider IIRC noch nie jemand Generationsübergreifend getestet.

Trotz 4 MB L2, 64MB IF$ und 256bit SI ca. AD104-Größe in nahezu identischem Prozess ist eher klein.

Das sind gute 100 mm² weniger als AD103.

Siehe oben laut w0mbat ("high yield" bei Youtube) ist Nvidias 4N in Wahrheit TSMC N5. Er hat da mit Insidern gesprochen und ist sicher dass es so ist. Und bei Zen 5 vs 4 gab es 20% mehr Tr/mm² (natürlich auch über besseres Packen / libraries aber warum soll man das nicht auch bei N48 schaffen oder bei einem hyotetischem AD103 auf N4P?)

Bin aber gespannt ob N48 wirklich in Samsungs S4FX gebaut wird (was ja einige glauben - ich noch nicht) oder N4P. S4FX kann natürlich ganz andere Packdichten haben.

Aber die 270 mm2 (so sie denn stimmen) haben IMO gewisse Implikationen in Bezug auf: Performance und/oder Features. Also AD103 Performance UND Matrix Cores UND RT Level 3-4...wird sehr sportlich. Ggf kann man 1-2 von 3 erhoffen oder eine Teilerreichung in all diesen Metriken.

Also wenn man mal N32 hochskaliert 2400 @ 3000 MHz und die 6% für die 4 zusätzlichen CUs draufschlägt - dann kommt man auf grob 1/3 mehr Performance als die 7800XT. Auch in Raster. Da liegt man dann bei der 4070 ti super. Ich bin da ehrlich sehr skeptisch ob es (selbst im raster) für die 4080 / super reicht. Aber auch das wäre trotzdem eine sehr gute Karte IMO.

dargo

2024-08-29, 08:34:40

Die 4080 Super hat immerhin 320 W und die 4070 ti Supoer 285 W. Das passt doch grob.

Ihr zieht da immer Vergleiche zu Nvidia, Nvidia juckt mich nicht. Ich schaue einfach ob es in mein persönliches Powerbudget passt. :) Und da fände ich den Bereich 225-250W angenehmer. Aber... von 275W mit Handoptimierung auf ~225W runter zu kommen sollte jetzt kein Hexenwerk sein. Ich hoffe nur, dass wieder MPT-Support für RDNA4 kommt. Ich werde sowieso bis Anfang 2025 warten wenn vernünftige Custom-Kühlungen kommen. Hoffe auch, dass Powercolor den Kühler der Hellhound übernimmt. Das Ding will ich unbedingt haben, hatte mich schon bei N31 mit 312W (PT -10%) extrem überzeugt. :)

robbitop

2024-08-29, 08:38:39

Ihr zieht da immer Vergleiche zu Nvidia, Nvidia juckt mich nicht. Ich schaue einfach ob es in mein persönliches Powerbudget passt. :) Und da fände ich den Bereich 225-250W angenehmer.
Naja AMD muss aber auf Nvidia schauen weil es ihr Wettbewerber ist. Du bist ja einer der Poweruser mit ordentlich was im Kopf. Du kannst die Karte undervolten und die TDP runtersetzen - wahrscheinlich ohne Performance zu verlieren. :)

basix

2024-08-29, 08:39:16

Gab doch mal das Gerücht von ~3.1 GHz bei 220W, nicht?

Wenn ich AMD wäre und insbesondere auch OEMs überzeugen möchte, ist einfache Kühlbarkeit ein grosser Bonus. Die Board-Partner können ja dan hier noch etwas raufgehen bei ihren OC-Modellen. Die sehen das vermutlich auch gerne, da sie sich etwas mehr vom "Referenzdesign" abheben können.

Und hinsichtlich Konkurrenzlage vs. TDP:
Lovelace wird vermutlich bei zwei Punkten geschlagen, nämlich Energieeffizienz sowie vor allem Preispunkt. AMD muss hier nicht an die Kotzgrenze gehen.
Gegen Blackwell sieht es dann eh nochmals anders aus und wird vermutlich über die Strassenpreise reagieren. Passt schon.

dildo4u

2024-08-29, 08:41:20

dargo

2024-08-29, 08:42:26

Naja AMD muss aber auf Nvidia schauen weil es ihr Wettbewerber ist.
Ist mir schon klar, ich muss es aber nicht tun. ;)

basix

2024-08-29, 08:45:37

Soll es nicht 3 Karten geben dann könnte man 300,250 und 200 Watt machen.
Für 600,500 und 400€.
Kommt halt drauf an ob sie bis dahin alle 7800XT Loswerden die wird sich mit der 400€ Version überschneiden.

300W bei einem ~230....270mm2 Chip sind mMn zu viel. Das lässt sich nicht gut kühlen. 1W/mm2 ist so die Hausnummer, wo es noch einigermassen klappt. Klar, es gibt ausserhalb des Chips auch noch Bestandteile mit Energieverbrauch aber als Hausnummer ist max. 1W/mm2 über die Karten-TDP gerechnet ein guter Richtwert.

robbitop

2024-08-29, 08:50:24

bei der 7800xt sinds 4x 36,6mm²= 146,4mm² als MCD@6nm
wie man da mit 25mm² auskommen will@4nm !?

Das wäre echt ne Überraschung ala 3dCache.
(vlt. soll das 4x 25 sein, ... k.A. was sich der Kollege denkt)
Sinnvoller ist es sich die L3 Cache Blocks von Zen anzuschauen. Der ganze MCD ist kein sinnvoller Vergleich.

Basix hatte sich mal die Mühe gemacht - hier das Posting:

Ist viel, viel kleiner ;)

Ich habe anhand der Zen 5 "Die Shots" von ihrer Präsentation die L3-Cache Grösse abgeleitet (also die Fotos, wo man die Chip Strukturen sieht). Ich kam auf 17-18mm2 für 32MByte. Bei Zen 5 konnte AMD die Cache-Density gut steigern. Und das bei afaik 512kB Blöcken, wohingegen IF$ bei den GPUs afaik in 2MByte Blöcken daherkommt. Damit kann man den Cache noch dichter packen. Ich würde mal auf ~15mm2 für 32MByte tippen. Und da ich nur 64MByte erwarte, wäre man bei 30-35mm2 für den IF$. Dann 60mm2 für das SI und 30mm2 für PCIe, Video, Display etc. und man landet bei ~120mm2 für all diese Strukturen. Eine RDNA3 SE ist ~25-28mm2 gross. Das 4x und den Command Processor + L2$ und man landet bei evtl. ~240mm2 für alles. Jetzt bringt RDNA4 nochmals neue Features, dafür N4P mit höherer Density. Ich glaube 230-250mm2 für N48 sind nicht völlig abwegig. Ebenso wenig wie die Performance Gerüchte (allein schon BVH8 anstatt BVH4 sollte die Kosten für BVH-Traversal halbieren können).

Ist mir schon klar, ich muss es aber nicht tun. ;)
Ne aber du kannst es ja selbst einstellen. :) Das Preset was AMD oder OEM der Karte wählt kann dir doch praktisch egal sein.

HOT

2024-08-29, 09:02:34

Sowhl die Caches als auch die mem-Ctrl sind mMn ziemlich geschrumpft worden ggü. den 6nm-Pendants. Das beim Cache noch was ging hat ja Zen5 eindrucksvoll gezeigt. Die Mem-Ctrl werden ein neueres Modell für GDDR6 sein, man muss sich mal deren Ausmaße von Tahiti zu Hawaii anschauen. Es gibt eben auch Vorteile, wenn man zum Ende einer Generation zugreift. MMn zählt für AMD genau das, was bei Zen5 und bei RDNA3 auch gezählt hat: Packdichte.

Mehr als 7900XT-Perrformance würde ich dennoch nicht vermuten, lasst die Erwartungen im Zaum, das erspart die Enttäuschung. Wenn das Ding ne 4070Ti Super schlägt ist das ein großer Achtungserfolg in meinen Augen, das wäre aber der absolute best case. Am meisten würde mich aber ne AI-Erweiterung für FSR interessieren, aber auch da möchte ich die Erwartungen dämpfen, wie haben in der Vergangenheit immer gesehen, dass das nicht zum Launch bereit steht sowas. Sowohl Ray-Reconstruction als auch FSR AI wird sicherlich erst nächstes Jahr verfügbar sein irgendwann.

dildo4u

2024-08-29, 09:06:46

300W bei einem ~230....270mm2 Chip sind mMn zu viel. Das lässt sich nicht gut kühlen. 1W/mm2 ist so die Hausnummer, wo es noch einigermassen klappt. Klar, es gibt ausserhalb des Chips auch noch Bestandteile mit Energieverbrauch aber als Hausnummer ist max. 1W/mm2 über die Karten-TDP gerechnet ein guter Richtwert.
Ich bezweifel das das Ding kleiner ist als 300mm² ist deutlich mehr Cache als 7800XT das Speicher Interface muss wieder Integriert werden etc.

Die Größe wird schon 5 Jahre in der XBox verkauft die Marge wäre da.

robbitop

2024-08-29, 09:18:11

N48 hat wohl 64 MiB IF$ genau wie N32.
Ansonsten ist N32 ggf auch kein idealer Ausgangspunkt:

(1) die Anbindung der Chiplets kostet signifikant Fläche
(2) die CUs bei N31 und N32 sind ziemlich fett im Vergleich zu N33 und brachten so gut wie keinen Vorteil. Als Ausgangsbasis für den Transistorbedarf ist ein N33 CU wahrscheinlich besser
(3) N4P vs N5 sollte nochmal gute 20% Flächenreduktion bringen. Zumindest brachte es die in Zen 5 vs 4.

Ich denke aber auch dass die 270 mm² eng werden und man nicht gleichzeitig 4080 Leistung + HW RT auf Level3.5+ + Matrix Cores bekommen wird. Entweder 1-2 von 3 der Kriterien oder eine Teilerreichung.

dargo

2024-08-29, 09:22:19

Ne aber du kannst es ja selbst einstellen. :) Das Preset was AMD oder OEM der Karte wählt kann dir doch praktisch egal sein.
Jein... RDNA3 war diesbezüglich wegen dem Maulkorb von AMD wirklich schlecht geeignet. Hoffentlich wird das bei RDNA4 nicht wiederholt. Meine Ziele bei CPUs und GPUs sind immer weniger Verbrauch bei gleicher Performance @Referenz.

fondness

2024-08-29, 09:23:39

Meinst du dass es irgendeinen sinnvollen Grund gibt bei 8C in summe (auch wenn es 3+5 ist) mehrere CCX zu verbauen? Ich würde auf eines tippen. Hätte wahrscheinlich (fast?) nur Vorteile.

Ähm LL? Aber ich würde auch auf eines tippen.

Die 270 mm² erscheinen, wenn es grob AD103 Leistung erreichen soll schon sportlich. AD103 ist 379 mm² groß. Selbst wenn man annimmt dass "Nvidia 4N" nicht TSMCs N4 Familie ist sondern N5 (so wie w0mbat es von Insidern erfahren haben will) dann würden wir auf eine Reduktion von ~20% kommen. (die 20% kommen von Zen 5 vs Zen 4 wo alle überrascht waren wie viel N4P vs N5(P?) an Dichte gebracht hat. Ggf. auch irgendwelche nochmal besser optimierten Libraries - aber die 20% sind ggf ja auch für N48 möglich). Dann wäre ein hypothetischer AD103 mit N4P 303 mm² groß.

Es sind laut TSMC 6% bessere Packdichte N4P vs. N5. Der Rest sind AMD spezifische Verbesserungen die man mit Sicherheit nicht auf Nvidia übertragen kann.

robbitop

2024-08-29, 09:23:49

Jein... RDNA3 war diesbezüglich wegen dem Maulkorb von AMD wirklich schlecht geeignet. Hoffentlich wird das bei RDNA4 nicht wiederholt.
Das war mir gar nicht bekannt. Kannst du das bitte ausführen was du mit Maulkorb meinst? Ging kein undervolting oder Reduktion der TDP oder beides?

dildo4u

2024-08-29, 09:24:06

Moores Law nennt 96MB was Sinn macht wenn man kein schnelleren Ram verbaut.(GDDR6 statt 7)

https://youtu.be/XLX0FmeFVh8?si=0Ds3i_MQh4SFkYFu&t=280

robbitop

2024-08-29, 09:26:44

Ähm LL? Aber ich würde auch auf eines tippen.

LL meint Lunar Lake? Meinst du damit, dass man besser in Low Power dastehen würde weil man bspw einen Low Power CCX hat und den High Power CCX dann nicht hochfährt?
Kann schon sein. Aber dafür musst du den L3 Cache wieder doppelt verbauen (bzw kannst weniger L3 pro Core effektiv nutzen vom gesamt verbauten L3).

Die Frage ist, wie effizient oder ineffizient das einfache Ausknipsen der Cores pro CCX ist vs separates CCX und ob sich das lohnt?

Es sind laut TSMC 6% bessere Packdichte N4P vs. N5. Der Rest sind AMD spezifische Verbesserungen die man mit Sicherheit nicht auf Nvidia übertragen kann.
Ja das stimmt - aber AMD hat gezeigt, dass das geht. Nicht unwahrscheinlich, dass das auch Nvidia hinbekäme. Ist natürlich (wie alles im Spekulationsforum ;)) Spekulation.

Moores Law nennt 96MB was Sinn macht wenn man kein schnelleren Ram verbaut.(GDDR6 statt 7)

https://youtu.be/XLX0FmeFVh8?si=0Ds3i_MQh4SFkYFu&t=280
Liest du auch Posts die vor deinem kamen? Das wurde doch in den letzten 2 Seiten besprochen. MLID hat </=96 MB geschrieben und es weiß markiert, weil er da conflicting information hatte. Außerdem haben Kepler und Allthewatts auch nochmal jeweils 64 MB gehintet. Und außerdem sind (zumindest bis dato) die L3 Blöcke mit dem SI verbunden. 256 bit SI wäre dann also sowas wie 32, 64 oder 128 MiB.

dargo

2024-08-29, 09:32:11

Das war mir gar nicht bekannt. Kannst du das bitte ausführen was du mit Maulkorb meinst? Ging kein undervolting oder Reduktion der TDP oder beides?

Maulkorb bei RDNA3 heißt... kein MPT-Support um den Verbrauch auch vom SoC zu senken und um eine harte Mauer bei der Spannung für die GPU zu setzen. Außerdem nur -10% beim PT im Treiber. Zusätzlich kein Feintuning der Lüfter möglich (bsw. min. Drehzahl für Idle senken, hilft oft bei missglückten Entscheidungen der Customlösungen beim Kühler, manche Boardpartner lassen die Lüfter in Idle mit viel zu hohen Drehzahlen laufen und Zero-Fan mag ich nicht) weil eben kein MPT-Support.

dildo4u

2024-08-29, 09:34:33

Ich frag mich nur wo dann die Bandbreite für 30% mehr Leistung herkommt.
600GB/Sec ist Serie X Level.

robbitop

2024-08-29, 09:35:24

Maulkorb bei RDNA3 heißt... kein MPT-Support um den Verbrauch auch vom SoC zu senken und um eine harte Mauer bei der Spannung für die GPU zu setzen. Außerdem nur -10% beim PT im Treiber. Zusätzlich kein Feintuning der Lüfter möglich (bsw. min. Drehzahl für Idle senken, hilft oft bei missglückten Entscheidungen der Customlösungen beim Kühler, manche Boardpartner lassen die Lüfter in Idle mit viel zu hohen Drehzahlen laufen und Zero-Fan mag ich nicht) weil eben kein MPT-Support.
Oha das ist ja nicht so toll. Das geht ja selbst auf Geforce Karten besser. Ok dann kann ich gut verstehen, dass man auf gut gewählte Presets vom OEM achtet. Gab es irgendwelche Möglichkeiten mit Mod BIOSen? (worauf ich persönlich allerdings keine Lust hätte ^^)

dargo

2024-08-29, 09:37:24

Keine Ahnung, an Biosen fummle ich nicht. Die Idee bis RDNA2 mit SPPT (Soft Power Play Table) fand ich ideal gelöst.

fondness

2024-08-29, 09:40:06

LL meint Lunar Lake? Meinst du damit, dass man besser in Low Power dastehen würde weil man bspw einen Low Power CCX hat und den High Power CCX dann nicht hochfährt?
Kann schon sein. Aber dafür musst du den L3 Cache wieder doppelt verbauen (bzw kannst weniger L3 pro Core effektiv nutzen vom gesamt verbauten L3).

Die Frage ist, wie effizient oder ineffizient das einfache Ausknipsen der Cores pro CCX ist vs separates CCX und ob sich das lohnt?

Es kostet sicher Performance. Es bringt vielleicht etwas Perf/Watt.

Ja das stimmt - aber AMD hat gezeigt, dass das geht. Nicht unwahrscheinlich, dass das auch Nvidia hinbekäme. Ist natürlich (wie alles im Spekulationsforum ;)) Spekulation.

Es ist nicht vergleichbar, man weiß gar nicht wo Nvidia bei der Packdichte vom Cache aktuell steht. Außerdem kann man die prozentualen Zen5 Verbesserungen natürlich nicht 1 zu 1 auf GPUs umrechnen. Gestiegen ist die Cache-Packdichte - eine CPU besteht aber auch zu großen Teilen aus Cache.

robbitop

2024-08-29, 09:44:51

Ich frag mich nur wo dann die Bandbreite für 30% mehr Leistung herkommt.
600GB/Sec ist Serie X Level.
Ja ich bin da auch skeptisch. Andererseits ist N32 nicht notwendigerweise bandbreitenlimitiert.
Wenn wir uns die 7900GRE als SKU anschauen, die noch gut funktioniert aber am äußersten Rand von TFLOPs/GB/s liegt und mit der 7800 XT vergleicht kommt folgendes dabei heraus.

Die 7900GRE hat 30% mehr TFLOPS pro GB/s wenn man die durchschnittliche Taktrate (laut CB review) annimmt. Das wäre 7900GRE mit 2151 MHz vs 7800XT mit 2386 MHz annimmt.
Bei maximalen Taktraten öffnet sich der Faktor sogar stärker auf 45% mehr TFLOPs/GB/s. (2530 MHz die GRE vs 2510 MHz mit der 7800XT).

Also kann man mit der Bandbreite der 7800XT 30-45% mehr Rohleistung sinnvoll füttern. Das würde dann auch zu der Rohleistungssteigerung von ~1/3 ggü der 7800XT reichen (grob 3 GHz vs 2,4 GHz und 64 statt 60 CUs). Siehe unten Screenshot im Anhang von der Tabellenkalkulation ^^

dargo

2024-08-29, 09:50:55

Ich frag mich nur wo dann die Bandbreite für 30% mehr Leistung herkommt.
600GB/Sec ist Serie X Level.
:freak:

Was ist das denn wieder für ein Vergleich? Die Series X hat keinen Infinity Cache. Konsolenchips sind praktisch nie 1:1 auf Desktop übertragbar, das sind custom Lösungen.

dildo4u

2024-08-29, 09:50:58

Dann scheint mir 4080 Performance zu hoch gegriffen 7900XT scheint zu passen.

robbitop

2024-08-29, 09:52:26

Es kostet sicher Performance. Es bringt vielleicht etwas Perf/Watt.
Wahrscheinlich ja. Aber wäre trotzdem interessant zu wissen, ob es bei AMD nicht mit einem CCX deutlich besser aussieht als bei Intel mit einem Ringbus. Ich vermute, dass das bei AMD deutlich besser aussieht.
Warum ich das vermute: unter 8 Cores hat AMD auch mobile Chips bis dato nie in 2x CCX aufgedröselt - und dabei hatten sie mit Phoenix 2 ja bereits die Chance mit einem kleinen Chip. Wenn es richtig viel gebracht hätte - warum haben sie das noch nicht gemacht? (klar jetzt könnte man sagen, irgendwann wird etwas Neues immer zum ersten Mal gemacht)

Ich würde sagen beide Punkte haben ihre jeweilige Daseinsberechtigung und es wird interessant zu sehen in welche Richtung das Pendel schwingt. Also wie gesagt für mich ist der Punkt absolut nachvollziehbar ja.

Es ist nicht vergleichbar, man weiß gar nicht wo Nvidia bei der Packdichte vom Cache aktuell steht. Außerdem kann man die prozentualen Zen5 Verbesserungen natürlich nicht 1 zu 1 auf GPUs umrechnen. Gestiegen ist die Cache-Packdichte - eine CPU besteht aber auch zu großen Teilen aus Cache.
Wir werden es mit Blackwell sehen. Der geht laut w0mbat von N5 auf N4P. Da werden wir die Transistordichtensteigerung sehen.

Dann scheint mir 4080 Performance zu hoch gegriffen 7900XT scheint zu passen.
Ich vermute dass es irgendwo dazwischen sein wird. Je nach Spiel. Aber ich bin anhand der Chipfläche da auch skeptisch. Aber schön wäre es ja. Aber ich würde auch eher auf ganz grob 4070 ti super Performance Level tippen in Raster und RT wird man sehen müssen was da kommt. Angeblich ja ordentlich was. Andererseits hieß es das im Vorfeld zu RDNA3 ja auch schon. ^^ Mal schauen.
Kann sein, muss aber nicht.
Ich spekuliere, dass Nvidia ähnliche Dichtensteigerung sehen wird. Die Dichten von GPUs von AMD und Nvidia (sofern sie vergleichbar waren - also nicht wie N31 und N32) waren eigentlich bis dato immer ziemlich ähnlich bei gleichen Prozessen.
Mal sehen wer am Ende Recht behalten wird. Ich würde schon annehmen, dass bei einem neueren Prozess auch Nvidia (die ja besonders auf jeden mm² Silizium achten weil der ja für viel Geld im AI Bereich verkauft werden könnte) möglichst viel mehr Dichte holen wollen wird. Und wenn man eines weiß: die sollte man nicht unterschätzen. ;)

Aber wie gesagt: muss man sehen was dabei raus kommt. Kann ja gern jeder seine Meinung dazu haben. Alles kann - nichts muss. ;)
Spekulation halt ^^

BlacKi

2024-08-29, 09:54:18

Ich frag mich nur wo dann die Bandbreite für 30% mehr Leistung herkommt.
600GB/Sec ist Serie X Level.gibts auch nicht. hier wird nur mittels magie versucht up to 4080 performance herbeizureden. ich hab mir die letzten seiten schon die finger wundgeschrieben, was aber nichts brachte. die 96mb wurden hier ja direkt von einigen praktisch von MLID übernommen.

realistischer sind up to 7900xt performance zum etwas günstigeren preis(laut uvp) und bessere RT performance. vl bringt man noch einen besseren AI upscaler und das wars, das muss für 2 jahre reichen.

Der_Korken

2024-08-29, 09:59:08

Und außerdem sind (zumindest bis dato) die L3 Blöcke mit dem SI verbunden. 256 bit SI wäre dann also sowas wie 32, 64 oder 128 MiB.

Da die Caches sicher nicht 1-way sind, wäre es problemlos möglich auch 96 MB an 256bit zu hängen, indem man den Cache 6-way, 12-way oder 24-way macht (statt 8-way, 16-way, etc.). Aber ja, 96 MB sind aktuell aus anderen Gründen eher unwahrscheinlich.

robbitop

2024-08-29, 10:00:30

gibts auch nicht. hier wird nur mittels magie versucht up to 4080 performance herbeizureden. ich hab mir die letzten seiten schon die finger wundgeschrieben, was aber nichts brachte. die 96mb wurden hier ja direkt von einigen praktisch von MLID übernommen.

realistischer sind up to 7900xt performance zum etwas günstigeren preis(laut uvp) und bessere RT performance. vl bringt man noch einen besseren AI upscaler und das wars, das muss für 2 jahre reichen.
Naja ein wenig Adam Riese Mathe hab ich ja schon geliefert. Aber ob's für 4080 Leistung reicht? Ich würde auf 4070 ti super Niveau tippen. Das wäre aber ohne signifikante uArch Verbesserungen für Bandbreite und IPC. Andererseits gab es in beiden Metriken auch schon lange keine großen Sprünge mehr - das letzte mal bei RDNA1. Mal schauen. Das Spektrum ist sicherlich irgendwo zwischen 7900XT und 4080 in Raster. Wo in dem Spektrum ist noch im Fog of War. ^^ Ich würde aber auch erstmal auf den unteren Bereich des Spektrums tippen weil ich an große Sprünge in den beiden Metriken nicht sonderlich stark glaube. Das muss aber nichts heißen - kann ja trotzdem sein. Aber am Ende ist Erwartungsmanagement alles. Wenn es besser ist als gedacht: -> geil. Wenn es schlechter ist als gedacht (hohe Erwartungen) -> ungeil

Hier das Posting zur Bandbreite pro Rohleistung:

Die 7900GRE hat 30% mehr TFLOPS pro Watt wenn man die durchschnittliche Taktrate (laut CB review) annimmt. Das wäre 7900GRE mit 2151 MHz vs 7800XT mit 2386 MHz annimmt.
Bei maximalen Taktraten öffnet sich der Faktor sogar stärker auf 45% mehr TFLOPs/GB/s. (2530 MHz die GRE vs 2510 MHz mit der 7800XT).

Also kann man mit der Bandbreite der 7800XT 30-45% mehr Rohleistung sinnvoll füttern. Das würde dann auch zu der Rohleistungssteigerung von ~1/3 ggü der 7800XT reichen (grob 3 GHz vs 2,4 GHz und 64 statt 60 CUs). Siehe unten Screenshot im Anhang von der Tabellenkalkulation ^^

----------------------------------

Da die Caches sicher nicht 1-way sind, wäre es problemlos möglich auch 96 MB an 256bit zu hängen, indem man den Cache 6-way, 12-way oder 24-way macht (statt 8-way, 16-way, etc.). Aber ja, 96 MB sind aktuell aus anderen Gründen eher unwahrscheinlich.
Gehen tut alles. Um es etwas zu klarifizieren was ich meine: ich meine Präzedenz. Bisher war die Aufteilung der Blöcke nunmal so. Wenn AMD das ändern wollte ist das nicht unmöglich. Aber mit Präzedenz fährt man meistens ganz gut.
Ganz grob wenn man sich die die size und die CU Anzahl anschaut passt auch das Muster hier noch ziemlich gut.

dargo

2024-08-29, 10:04:26

OgrEGT

2024-08-29, 10:05:46

Oha das ist ja nicht so toll. Das geht ja selbst auf Geforce Karten besser. Ok dann kann ich gut verstehen, dass man auf gut gewählte Presets vom OEM achtet. Gab es irgendwelche Möglichkeiten mit Mod BIOSen? (worauf ich persönlich allerdings keine Lust hätte ^^)
Es gibt auch keine Möglichkeit das BIOS wie üblich nur per Software zu flashen... Man muss Zugriff auf den EEPROM Chip mittels Hardware herstellen und dann das EEPROM flashen... sehr aufwendig...
Zudem haben nur wenige Karten Dual BIOSe... wenn dann was schief läuft wars das ggf...

BlacKi

2024-08-29, 10:10:38

Bandbreiten-Limits sind ja keine harten "von 100 auf 0" Limits.
Ab einem gewissen Punkt bringt mehr GPU-Takt oder Roh-Leistung je Takt dann halt immer weniger, aber nicht "nichts".

Die GRE wird N48 auf jeden Fall weit hinter sich lassen.

Dass es in manchen Spielen nur ca. für 4070TiS/7900XT-Leistung reicht, kann natürlich sein, soviel schneller als die beiden ist die 4080 in Raster ja eh nicht.

Wenn wir ~10% mehr IPC je CU annehmen und ~20% mehr Takt unter Last als ne Referenz-7900XT, würde N48 ziemlich genau auf 79XT rauskommen.

Aber es könnten halt auch über 10% mehr IPC je CU oder über 20% mehr Takt unter Last sein.ist mir schon klar, aber man versucht den chips eine passende bandbreite zur verfügung zu stellen. die gre kann man dafür nicht hernehmen.
und die 7900xtx hätte eine passende speicherbanbreite, wenn sie ihre rechenleistung nicht künstlich durch die power eingestutzt würde. sie verliert massiv rechenleistung, weil sie keine 500-600w ziehen darf.

auch die GRE kann noch performance durch mehr rechenleistung herausholen, aber es wird sehr schnell sehr ineffizient und die performance per takt skaliert nicht gut, weil zu wenig bandbreite vorhanden ist. das kostet massiv IPC, wenn bandbreite nicht mitskaliert.

robbitop

2024-08-29, 10:13:04

die gre kann man dafür nicht hernehmen
Warum nicht? Sie ist nicht auffällig in der Leistungsentfaltung der Bandbreite. Sicher am oberen Limit aber nicht völlig durch die Bandbreite ausgebremst (sie fährt niedrige Taktraten für die 80 CUs - das ist aber schon eingerechnet).
Das kann man durchaus als Referenzpunkt für den oberen Bereich was pro GB/s und TFlops möglich ist schon ansetzen.

edit:
mhh nochmal bei CB geschaut und die GRE liegt nur 8% vor der 7800XT - bei 22% mehr Rohleistung. Wobei durch die CU Skalierung ein Teil der größeren Rohleistung nicht linear sondern erfahrungsgemäß mit 0,7 skaliert. Also müssten grob 15% mehr Leistung rauskommen müssten. Davon kommt aber nur die Hälfte in den Performanceratings an. Ich denke die 7900GRE ist schon ein Stück weit durch die Bandbreite limitiert. Also nicht mit 100% - weil es ja kein hartes Bandbreitenlimit gibt. Aber die Bandbreite kann dennoch ihre Performance schon etwas ausbremsen. Insofern hast du ggf doch nicht unrecht, dass das kein guter Referenzpunkt sein könnte.

dildo4u

2024-08-29, 10:17:01

BlacKi

2024-08-29, 10:21:06

Ja ich bin da auch skeptisch. Andererseits ist N32 nicht notwendigerweise bandbreitenlimitiert.
Wenn wir uns die 7900GRE als SKU anschauen, die noch gut funktioniert aber am äußersten Rand von TFLOPs/GB/s liegt und mit der 7800 XT vergleicht kommt folgendes dabei heraus.

Die 7900GRE hat 30% mehr TFLOPS pro Watt wenn man die durchschnittliche Taktrate (laut CB review) annimmt. Das wäre 7900GRE mit 2151 MHz vs 7800XT mit 2386 MHz annimmt.
Bei maximalen Taktraten öffnet sich der Faktor sogar stärker auf 45% mehr TFLOPs/GB/s. (2530 MHz die GRE vs 2510 MHz mit der 7800XT).

Also kann man mit der Bandbreite der 7800XT 30-45% mehr Rohleistung sinnvoll füttern. Das würde dann auch zu der Rohleistungssteigerung von ~1/3 ggü der 7800XT reichen (grob 3 GHz vs 2,4 GHz und 64 statt 60 CUs). Siehe unten Screenshot im Anhang von der Tabellenkalkulation ^^

du sagst, 30% mehr TF um +8-9% performance zu erreichen, ok, der speichertakt der 7800xt ist höher als bei der gre, also sagen wir 10% mehr performance.

wieviel mehr an rechenleistung brauchst du dann um die 4080 zu erreichen? man beachte, das skaliert nicht linear.

konservativ von einer 7800xt aus gerechnet würde ich sagen, man brauch 120-150% mehr TF um eine 4080 zu erreichen. und 50-80% um eine 7900xt zu erreichen.

letzteres vl, aber ersteres wird man nicht machen.
€dit: da kommt man schon auf den gedanken, das mehr cache effizienz bringen und silizium sparen würde. und warum bekommt n48 nicht mehr cache? weil man nicht vorhat die rechenleistung zu verdoppeln oder verdreifachen...

frage an die runde: wieviel TF schätzt man wird die n48 karte max haben?

dargo

2024-08-29, 11:01:24

frage an die runde: wieviel TF schätzt man wird die n48 karte max haben?
Was bringen dir diese theoretischen TFLOP-Werte überhaupt ohne zu wissen wie effizient diese genutzt werden können? Kannst gleich würfeln.

robbitop

2024-08-29, 11:41:14

frage an die runde: wieviel TF schätzt man wird die n48 karte max haben?
Das Spektrum ist 47-52 TFLOPs (2900 - 3200 MHz sagte MLID).
Aber ggf. ist die Ausnutzung der TFLOPs mit den neuen CUs besser. Die Verdopplung pro CU mit VOPD war ja doch etwas spärlich in der Spieleleistung sichtbar aufgrund einiger Limitierungen. Ggf. wird das ja etwas verbessert.

Die 7900XT hat 52 TF (mit durchschnittlichen Takt von 2566 MHz laut CB) und die 7900XTX hat 62...63 FT mit nahezu identischem Takt laut CB.

BlacKi

2024-08-29, 11:49:44

konservativ wäre da eine einschätzung wohl knapp über der GRE. vl schafft man es ja mit optimierungen sich in richtung 7900xt zu bewegen, aber schlagen? nicht in raster.

robbitop

2024-08-29, 11:54:26

Ich denke das ist zu pessimistisch. AMD wird die GPU schon nicht so auslegen, dass sie oot ins Bandbreitenlimit läuft. Die 7900GRE ist da eher eine Ausnahme, weil es eine beschnittene N31 ist, die auf Teufel komm raus Kosteneinsparungen realisieren musste aus dem was N31 hergibt.
Aber ansonsten habe ich noch keine SKU gesehen die regulär am Bandbreitenlimit hängt.
Wenn es 47-52 TF werden (also 64 CUs und 2,9-3,2 GHz) wird die Karte sicherlich auch mindestens so nach RDNA3 äquivalenter Performance agieren. Alles andere wäre irgendwie sinnlos.
Aber das braucht offenbar Bandbreiteneffizienzverbesserungen.

fondness

2024-08-29, 11:54:48

Das N48 wohl ziemlich exakt der PS5 PRO GPU entspricht ist eh schon jemanden aufgefallen oder? Man hat also offensichtlich N41/42/43 gestrichen (3D-Chiplet-Architekturen), N44 behalten (war schon bisher Single-Die) und als Ersatz die PS5 PRO GPU recycelt (N48).

robbitop

2024-08-29, 11:59:03

fondness

2024-08-29, 12:02:23

Du meinst den GFX IP Block im SoC? Das wäre aber merkwürdig. Wahrscheinlich kein IF$, RDNA3.5 vs RDNA4 und IIRC auch ein wenig weniger CUs im Vollausbau (PS5Pro waren IIRC 60 CUs im Vollausbau und N48 64) - und wahrscheinlich auch anderer Aufbau was SEs (Konsolen haben ja häufig weniger SEs normiert auf die CU Anzahl) usw angeht.

- PS5 PRO hat sicher 64CUs, 60 sind aktiv aufgrund bessere Yields.
- Kein IF kann ich mir nicht vorstellen, die können ja nicht die Bandbreite gleich lassen aber die CUs fast verdoppeln.
- Klar kann man kleinere Verbesserungen da noch einbauen, aber trotzdem kann man sehr viel recyceln vs. einem völlig neuem Design. Gerade wenns schnell gehen muss. Die CPU-Cores sind schnell entfernt. Und ansonsten muss man erstmal sehen ob und wie viel dann wirklich anders ist, die PS5 PRO hat sicher mehr als RDNA3.5, immerhin wirbt Sony mit stark gestiegener RT-Performance.

Ph0b0ss

2024-08-29, 12:02:31

Warum nicht? Sie ist nicht auffällig in der Leistungsentfaltung der Bandbreite. Sicher am oberen Limit aber nicht völlig durch die Bandbreite ausgebremst (sie fährt niedrige Taktraten für die 80 CUs - das ist aber schon eingerechnet).
Das kann man durchaus als Referenzpunkt für den oberen Bereich was pro GB/s und TFlops möglich ist schon ansetzen.

edit:
mhh nochmal bei CB geschaut und die GRE liegt nur 8% vor der 7800XT - bei 22% mehr Rohleistung. Wobei durch die CU Skalierung ein Teil der größeren Rohleistung nicht linear sondern erfahrungsgemäß mit 0,7 skaliert. Also müssten grob 15% mehr Leistung rauskommen müssten. Davon kommt aber nur die Hälfte in den Performanceratings an. Ich denke die 7900GRE ist schon ein Stück weit durch die Bandbreite limitiert. Also nicht mit 100% - weil es ja kein hartes Bandbreitenlimit gibt. Aber die Bandbreite kann dennoch ihre Performance schon etwas ausbremsen. Insofern hast du ggf doch nicht unrecht, dass das kein guter Referenzpunkt sein könnte.

Laut der Tabelle bei Computerbase hat die 7800 XT 2,1TB/s Bandbreite im Infitity Cache. Die 7900 GRE dagegen nur 1,7TB/s.

1700 GB/s Cache und 576GB/s Vram ergibt bei 60% Hitrate: ~955GB/s.
2100 GB/s Cache und 624GB/s Vram ergibt bei 60% Hitrate: ~1080GB/s.

Für die 8800 XT mal angenommen der Cache läuft mit den vollen 3Ghz:

3000 GB/s Cache und 640GB/s Vram ergibt bei 60% Hitrate: ~1212GB/s.

Also immerhin ~12% mehr Gesamtbandbreite als die 7800 XT und ~27% mehr als die 7900 GRE. Vielleicht gibt es auch wieder, wie bei RDNA3 vs. RDNA2, weitere Hitrate-Verbesserungen im Infinity-Cache und Latenzverbesserungen, da direkt im die?

https://www.computerbase.de/2023-09/amd-radeon-rx-7700-xt-rx-7800-xt-test/

robbitop

2024-08-29, 12:14:23

- PS5 PRO hat sicher 64CUs, 60 sind aktiv aufgrund bessere Yields.
- Kein IF kann ich mir nicht vorstellen, die können ja nicht die Bandbreite gleich lassen aber die CUs fast verdoppeln.
- Klar kann man kleinere Verbesserungen da noch einbauen, aber trotzdem kann man sehr viel recyceln vs. einem völlig neuem Design. Gerade wenns schnell gehen muss. Die CPU-Cores sind schnell entfernt. Und ansonsten muss man erstmal sehen wie viel dann wirklich anders ist.
Hm waren es nicht 60 im Vollausbau und dann 56 oder 58 real?
Ich will nicht sagen, dass das nicht sein kann oder so. Aber, dass ich da aufgrund o.g. Gründe zumindest skeptisch bin. Recycling kann man bestimmt einiges - aber das macht man ja sicherlich grundsätzlich. Zwischen mehreren SKUs aber auch generationsübergreifend. Aber das ist ja kein "so ziemlich der PS5PRO GPU entsprechend", oder?

Ich würde sagen wir wissen noch zu wenig über die PS5PRO GPU und N48 um es weder sinnvoll bestätigen oder verneinen zu können. Wäre aber halt ungewöhnlich weil Konsolen GPUs eigentlich immer doch ziemlich anders waren als Desktop GPUs.

Was man aber gehört hat, ist dass die TFLOP Rate massiv durch die Decke ging und im Verhältnis dazu nur ein Bruchteil an Mehrleistung auf die Straße kommt in Raster. Das spricht IMO gegen die These, dass das N48 ist.

robbitop

2024-08-29, 12:16:28

Laut der Tabelle bei Computerbase hat die 7800 XT 2,1TB/s Bandbreite im Infitity Cache. Die 7900 GRE dagegen nur 1,7TB/s.

1700 GB/s Cache und 576GB/s Vram ergibt bei 60% Hitrate: ~955GB/s.
2100 GB/s Cache und 624GB/s Vram ergibt bei 60% Hitrate: ~1080GB/s.

Für die 8800 XT mal angenommen der Cache läuft mit den vollen 3Ghz:

3000 GB/s Cache und 640GB/s Vram ergibt bei 60% Hitrate: ~1212GB/s.

Also immerhin ~12% mehr Gesamtbandbreite als die 7800 XT und ~27% mehr als die 7900 GRE. Vielleicht gibt es auch wieder, wie bei RDNA3 vs. RDNA2, weitere Hitrate-Verbesserungen im Infinity-Cache und Latenzverbesserungen, da direkt im die?

https://www.computerbase.de/2023-09/amd-radeon-rx-7700-xt-rx-7800-xt-test/

Ich bin bei diesen statischen Betrachtungen der Cachebandbreite immer etwas skeptisch. Ob die Bandbreite des IF wirklich mal limitiert, so dass ein höherer Takt wirklich Vorteile bringt? Ich bin skeptisch, dass man das so rechnen kann. Ist aber natürlich eine Möglichkeit und mehr haben wir nicht.

fondness

2024-08-29, 12:19:49

Hm waren es nicht 60 im Vollausbau und dann 56 oder 58 real?

Nope, 64 im Vollausbau und 60 real. Das 4 CUs deaktiviert sind spricht auch für den selben internen Aufbau wie bei N48.

Ich will nicht sagen, dass das nicht sein kann oder so. Aber, dass ich da aufgrund o.g. Gründe zumindest skeptisch bin. Recycling kann man bestimmt einiges - aber das macht man ja sicherlich grundsätzlich. Zwischen mehreren SKUs aber auch generationsübergreifend. Aber das ist ja kein "so ziemlich der PS5PRO GPU entsprechend", oder?

Ich würde sagen wir wissen noch zu wenig über die PS5PRO GPU und N48 um es weder sinnvoll bestätigen oder verneinen zu können. Wäre aber halt ungewöhnlich weil Konsolen GPUs eigentlich immer doch ziemlich anders waren als Desktop GPUs.

Was man aber gehört hat, ist dass die TFLOP Rate massiv durch die Decke ging und im Verhältnis dazu nur ein Bruchteil an Mehrleistung auf die Straße kommt in Raster. Das spricht IMO gegen die These, dass das N48 ist.

Klar Details wird man sehen. Würde mich aber nicht wundern, wenn da mehr gleich ist als man glaubt. ;)

BlacKi

2024-08-29, 12:22:43

Hm waren es nicht 60 im Vollausbau und dann 56 oder 58 real?
und angeblich bekommt die ps5 pro doch nur rdna3,5. also eine kopie halte ich nicht für wahscheinlich.
und wofür eigentlich der vergleich zur pro? die ist doch deutlich langsamer.

fondness

2024-08-29, 12:23:36

und angeblich bekommt die ps5 pro doch nur rdna3,5. also eine kopie halte ich nicht für wahscheinlich.
und wofür eigentlich der vergleich zur pro? die ist doch deutlich langsamer.

Sony wirbt man stark gestiegener RT-Performance, das liefert RDNA3.5 offenkundig nicht. ;)

Aber wir werden sehen, ist natürlich nur eine Speku.

robbitop

2024-08-29, 12:28:12

Sony wirbt man stark gestiegener RT-Performance, das liefert RDNA3.5 offenkundig nicht. ;)

Darüber hatte ich mich auch schon gewundert. Gerade wo Sony recht offensiv war in der Bewerbung der IP in der Vergangenheit (zB PS5 GPU als RDNA2 vermarktet wo aber doch einige RDNA2 Features fehlten...eher sowas wie RDNA2 lite oder RDNA1.5) - warum dieses Mal so konservativ vor allem wenn da ein fetter RT IP Block drin ist?
Da wurde dann vermutet, dass das alles custom HW von Sony (oder für Sony) ist. Naja mal schauen. Vom Releasezeitpunkt würde RDNA4 ja eigentlich passen.

DrFreaK666

2024-08-29, 12:31:00

Sony wirbt man stark gestiegener RT-Performance, das liefert RDNA3.5 offenkundig nicht...
Sony wirbt? Die PS5 Pro ist bisher nur ein Gerücht

robbitop

2024-08-29, 12:32:52

Sony wirbt? Die PS5 Pro ist bisher nur ein Gerücht
Wobei es Entwicklerdoku gibt, die zB in den Händen von DF gelandet ist. Die PS5Pro ist schon mehr als ein Gerücht.

BlacKi

2024-08-29, 12:33:17

konsolen sind sehr konsevativ was neuerungen angeht. alles muss laufen wie zuvor, starke änderungen haben dort keinen platz. rdna4 hat in der aktuellen gen konsolen keinen platz. so mein eindruck, so meine speku.

robbitop

2024-08-29, 12:36:06

Neue IP Iterationen gab es doch in der PS4PRO und XBox One X auch. Da wurde damals GCN4 statt GCN1 verbaut. RDNA4 ist auch nur nur eine Evolution von seinen Vorgängern. IMO hat das Argument wenig Gewicht. Solange der Kram läuft und das kann man ganz offensichtlich evaluieren und solange die alten Spiele laufen ist alles ok.
Und da Konsolen mittlerweile auch schon mit einigen Abstraktionslayern laufen ist es gar nicht mehr so schwierig, dass die alten Spiele auch laufen. Insbesondere aber wenn man beim HW Design das berücksichtigt.

HOT

2024-08-29, 12:47:58

Für die Konsolen ist es gut, wenn RDNA4 nicht so weit von RDNA2 entfernt ist. Klar ist das eher Evolution. AMD wird bei RDNA5 keinen Stein auf dem anderen lassen, vielleicht auch ein Grund für das Canceln von N41. Ich rechne damit, dass RDNA5 genauso eine Runderneuerung, die den folgenden Generationen als Basis dienen wird (inclusive der PS6), wie man das mit Zen5 gemacht hat.

Ich könnt mir auch vorstellen, dass AMD das bei Grafik jetzt immer so macht, der Tock alle 2 Jahre für High-End und ein Tick für das low End. Damit hat man jährlich neue GPUs für die Bilanz und nutzt Top-Nodge-Prozesse für High-End und günstige für low-End und APUs.

Dino-Fossil

2024-08-29, 13:05:13

Was man aber gehört hat, ist dass die TFLOP Rate massiv durch die Decke ging und im Verhältnis dazu nur ein Bruchteil an Mehrleistung auf die Straße kommt in Raster. Das spricht IMO gegen die These, dass das N48 ist.

Vielleicht hab ich was überlesen, aber wäre das nicht genau, was wir erwarten können? Mit RDNA3 hat AMD dual-issue eingeführt, was doch diesen Effekt hat.
Und ausgehend von der PS5 wird die PS5Pro sicherlich massiv mehr RT können, alleine schon weil 36CU -> 60CU (oder wie viele auch immer aktiv sind).
Klar, das kommt primär aus der größeren GPU, aber kümmert das den Endkunden?
Jedenfalls würde das mMn alles zutreffen, ob die PS5Pro nun RDNA3, 3.5, 3.75 oder 4 nutzt.

Der_Korken

2024-08-29, 13:06:59

Ich bin bei diesen statischen Betrachtungen der Cachebandbreite immer etwas skeptisch. Ob die Bandbreite des IF wirklich mal limitiert, so dass ein höherer Takt wirklich Vorteile bringt? Ich bin skeptisch, dass man das so rechnen kann. Ist aber natürlich eine Möglichkeit und mehr haben wir nicht.

Imho kann man das so nicht rechnen. Wenn der Cache eine Hitrate von 60% hat, dann kommen aus dem Cache 1,5x so viele Daten wie aus dem VRAM. Unter der Annahme, dass die Hitrate stabil ist, wäre der Cache mit der 1,5-fachen Bandbreite des VRAMs saturiert und weiterer Cache-Durchsatz würde zu keiner Erhöhung der effektiven Bandbreite führen. Praktisch kann die Hitrate schwanken mit kurzen Bursts, wo mal kurzfristig 90% aus dem Cache kommen. Da würde der höhere Cache-Takt durchschlagen, aber eben nicht so wie Ph0b0ss das vorgerechnet hat.

robbitop

2024-08-29, 13:09:23

Imho kann man das so nicht rechnen. Wenn der Cache eine Hitrate von 60% hat, dann kommen aus dem Cache 1,5x so viele Daten wie aus dem VRAM. Unter der Annahme, dass die Hitrate stabil ist, wäre der Cache mit der 1,5-fachen Bandbreite des VRAMs saturiert und weiterer Cache-Durchsatz würde zu keiner Erhöhung der effektiven Bandbreite führen. Praktisch kann die Hitrate schwanken mit kurzen Bursts, wo mal kurzfristig 90% aus dem Cache kommen. Da würde der höhere Cache-Takt durchschlagen, aber eben nicht so wie Ph0b0ss das vorgerechnet hat.
Würde ich intuitiv auch so sehen und mir da nicht so viel Steigerungen von höherer Cachetaktrate erhoffen. Aber es fehlen uns die Daten um das auch zu belegen.

Vielleicht hab ich was überlesen, aber wäre das nicht genau, was wir erwarten können? Mit RDNA3 hat AMD dual-issue eingeführt, was doch diesen Effekt hat.
Und ausgehend von der PS5 wird die PS5Pro sicherlich massiv mehr RT können, alleine schon weil 36CU -> 60CU (oder wie viele auch immer aktiv sind).
Klar, das kommt primär aus der größeren GPU, aber kümmert das den Endkunden?
Jedenfalls würde das mMn alles zutreffen, ob die PS5Pro nun RDNA3, 3.5, 3.75 oder 4 nutzt.
Naja es sind deutlich mehr CUs (die RDNA3 Verdopplung da gar nicht mal eingerechnet). Allein daher müsste eine orderntliche Steigerung kommen. Gesagt wurde irgendwas von 1,4...1,5x Rasterperformance (IIRC). Das war wirklich auffällig. Das war eine Weile lang der Stand der Gerüchte.

Dino-Fossil

2024-08-29, 13:36:35

Eventuell einfach aufgrund des TDP Limits, das Sony gesetzt hat. Ein größerer Chip kann effizienter betrieben werden und bietet bei gleicher TDP mehr Performance, so dass man dem den Vorzug ggü. einem kleineren Chip mit höherem Takt gegeben hat?

BlacKi

2024-08-29, 13:43:55

Würde ich intuitiv auch so sehen und mir da nicht so viel Steigerungen von höherer Cachetaktrate erhoffen.
die cachebandbreite ist ja nur ein teil der ganzen gleichung. nicht nur ein teil in der kombinierten speicherbandbreite. richtig, die kombinierte bandbreite ist um 96% gestiegen, aber hat das zu 96% mehr leistung geführt?

https://pics.computerbase.de/1/0/5/5/8/9-2991513a3a73eca5/17-1080.3e1c95fd.png

die kombinierte bandbreite skaliert nicht 1 zu 1 und auch nicht linear.

Schnitzl

2024-08-29, 13:44:20

Laut der Tabelle bei Computerbase hat die 7800 XT 2,1TB/s Bandbreite im Infitity Cache. Die 7900 GRE dagegen nur 1,7TB/s.

1700 GB/s Cache und 576GB/s Vram ergibt bei 60% Hitrate: ~955GB/s.
2100 GB/s Cache und 624GB/s Vram ergibt bei 60% Hitrate: ~1080GB/s.

Für die 8800 XT mal angenommen der Cache läuft mit den vollen 3Ghz:

3000 GB/s Cache und 640GB/s Vram ergibt bei 60% Hitrate: ~1212GB/s.

Also immerhin ~12% mehr Gesamtbandbreite als die 7800 XT und ~27% mehr als die 7900 GRE. Vielleicht gibt es auch wieder, wie bei RDNA3 vs. RDNA2, weitere Hitrate-Verbesserungen im Infinity-Cache und Latenzverbesserungen, da direkt im die?

https://www.computerbase.de/2023-09/amd-radeon-rx-7700-xt-rx-7800-xt-test/
hi
ich dachte auch mal vielleicht bringt die höhere Bandbreite der 7800XT ja was, aber nicht wirklich.

kurzer Test im Heaven Benchmark zeigte, dass die GRE trotzdem massiv schneller war (obwohl der Bench speicherlastig sein soll (?))

das mal als kurzer Einwurf aus der Praxis :)

grob nachzulesen hier (https://www.forum-3dcenter.org/vbulletin/showthread.php?p=13510387#post13510387)

Ph0b0ss

2024-08-29, 13:46:28

Würde ich intuitiv auch so sehen und mir da nicht so viel Steigerungen von höherer Cachetaktrate erhoffen. Aber es fehlen uns die Daten um das auch zu belegen.

Rein rechnerisch würde eine Verbesserung der Hitrate ordentlich durchschlagen:

8800 XT:
3000 GB/s Cache und 640GB/s Vram ergibt bei 60% Hitrate: ~1212GB/s.
3000 GB/s Cache und 640GB/s Vram ergibt bei 65% Hitrate: ~1310GB/s.
3000 GB/s Cache und 640GB/s Vram ergibt bei 70% Hitrate: ~1424GB/s.
3000 GB/s Cache und 640GB/s Vram ergibt bei 75% Hitrate: ~1560GB/s.

7900 GRE:
1700 GB/s Cache und 576GB/s Vram ergibt bei 60% Hitrate: ~955GB/s.

7800XT:
2100 GB/s Cache und 624GB/s Vram ergibt bei 60% Hitrate: ~1080GB/s.

Bei einer leichten Verbesserung um ~10% in der Hitrate wäre man schon bei +32% gegenüber 7800XT und +49% gegenüber der 7900 GRE.

Edit:
RTX 4080:
3000 GB/s Cache und 717GB/s Vram ergibt bei 60% Hitrate: ~1319GB/s.

RTX 4090:
5000 GB/s Cache und 1008GB/s Vram ergibt bei 60% Hitrate: ~1934GB/s.

HOT

2024-08-29, 13:51:06

Ph0b0ss

2024-08-29, 13:56:32

Nehmen wir mal an, das Ding hätte soviel Buimms wie ne 7900XTX, dann würde bis QHD noch alles tutti laufen mit der Speicherbandbreite, aber bei UHD wirds dann halt schnell sehr eng und der Chip hätte 10-15% weniger Leistung bei der Auflösung.

Bei 4K wird die Hitrate etwas runtergehen gegenüber QHD. Aber das betrifft die 7900XTX ja auch ähnlich:

https://s20.directupload.net/images/240829/temp/hvkaumf6.jpg (https://www.directupload.eu/file/d/8661/hvkaumf6_jpg.htm)

mboeller

2024-08-29, 14:04:08

Sony wirbt man stark gestiegener RT-Performance, das liefert RDNA3.5 offenkundig nicht. ;)

doch gegenüber RDNA1.5 (PS5) steigen die Flops stark an, zumindest theoretisch.

Altehardware

2024-08-29, 14:26:27

AffenJack

2024-08-29, 14:29:54

basix

2024-08-29, 14:49:38

Es gibt immer einen Bereich und keinen spezifischen Punkt, wo neue HW von der Performance her landen könnte. Deswegen ist es ein Speku Forum.

Es kann von +20% bis +50% ausgehend von einer 7800XT fast alles sein. Je nach Begründungslage (technisch, Historie, Konkurrenten, Leaks/Spekus).

Und hier irgendwelche idealen(! -> gibt es sowas ausser es ist 100%?) Hitrates ausgehend von einer beispielhaften Kurve von RDNA2 auf RDNA4 zu extrapolieren ist wohl auch nur eine mögliche Variante des finalen Ergebnisses, wobei AMD hier ja immer weiter verbessert (verbessertes IF-Caching hatten sie ja bereits bei RDNA3 erwähnt). Ausserdem ist die Berechnung der effektiven Bandbreite noch falsch, Altehardware ;) 48% hitrate resultiert in X / (1 - 0.48) = 1.92x effektiver Bandbreite. Bei 256bit wären das also effektiv 492bit, wenn man so will

Und es sagen alle hier: 4080 ist Best Case. Und Best meint hier genau das: Besser geht es vermutlich nicht. Vielleicht ist das auch nur in 1080p Raster erreichbar. Who knows. Aber 100% ausgeschlossen ist es eben auch nicht. Doch gleichzeitig würde auch niemand sagen, dass man eine 4080 bei 4K + RT schlagen wird. Ist mMn unrealistisch ;)

In dem Sinne, ich wünsche allen weiterhin "Happy Speculatius" ;)

dargo

2024-08-29, 14:57:21

Nehmen wir mal an, das Ding hätte soviel Buimms wie ne 7900XTX, dann würde bis QHD noch alles tutti laufen mit der Speicherbandbreite, aber bei UHD wirds dann halt schnell sehr eng und der Chip hätte 10-15% weniger Leistung bei der Auflösung.
Nicht wirklich dank Upscaling. ;) Im nativen 4k wird kaum jemand so eine Karte bei neuen Games verwenden.

Ph0b0ss

2024-08-29, 15:05:49

Der inf cache erhöht das nachladen am Si somit ist die hitrate die nur bis 48% reicht am Si anzusetzen sprich aus 256bit wird 378bit im idealfall
Wäre da nicht der gpu clock und dessen Latenz.
Womit die 48% auf die gpu clock angewendet werden müssen addiert beim 256bit mit dem vram Takt also nix mit 800 900gb/s
Daher hat ja die rx7900gre den Bandbreiten Problematik effektiv nur 609gb vs rx7800xt effektiv 672gb/s.
mehr als 48% hitrate sind nicht möglich und das ist der idealzustand bei kleinen Auflösungen.

Bei 48% Hitrate kommt man auf folgendes:

7800XT:
2100 GB/s Cache und 624GB/s Vram ergibt bei 48% Hitrate: ~942GB/s.

Mehr als 48% Hitrate, gerade bei kleinen Auflösungen waren ja schon bei RDNA2 möglich. Wurde bei RDNA3 verbessert und höchstwahrscheinlich bei RDNA4 nochmals verbessert.

Ph0b0ss

2024-08-29, 15:10:23

Nicht wirklich dank Upscaling. ;) Im nativen 4k wird kaum jemand so eine Karte bei neuen Games verwenden.

Ganz genau! Es wird höchstens QHD oder weniger berechnet und dann hochskaliert. Eine Hitrate von um die 70% wäre wohl möglich mit den 64MB.

robbitop

2024-08-29, 15:21:32

Warum nicht? Sie ist nicht auffällig in der Leistungsentfaltung der Bandbreite. Sicher am oberen Limit aber nicht völlig durch die Bandbreite ausgebremst (sie fährt niedrige Taktraten für die 80 CUs - das ist aber schon eingerechnet).
Das kann man durchaus als Referenzpunkt für den oberen Bereich was pro GB/s und TFlops möglich ist schon ansetzen.

edit:
mhh nochmal bei CB geschaut und die GRE liegt nur 8% vor der 7800XT - bei 22% mehr Rohleistung. Wobei durch die CU Skalierung ein Teil der größeren Rohleistung nicht linear sondern erfahrungsgemäß mit 0,7 skaliert. Also müssten grob 15% mehr Leistung rauskommen müssten. Davon kommt aber nur die Hälfte in den Performanceratings an. Ich denke die 7900GRE ist schon ein Stück weit durch die Bandbreite limitiert. Also nicht mit 100% - weil es ja kein hartes Bandbreitenlimit gibt. Aber die Bandbreite kann dennoch ihre Performance schon etwas ausbremsen. Insofern hast du ggf doch nicht unrecht, dass das kein guter Referenzpunkt sein könnte.

Also wenn man sich anschaut wie die 7900GRE vs die 7800XT performt sieht man keine signifikante Änderung mit kleinerer Auflösung (1080p und 1440p vs 4K).
Aber andererseits müsste die Hitrate des 64 MiB Caches ja besser werden bei kleinerer Auflösung und somit das Bandbreitenbottleneck. Aber die 7900GRE sieht dennoch nicht besser aus.
Ggf. ist es doch kein Bandbreitenbottleneck.
Man müsste einfach mal die 7800XT und 7900GRE skalieren. Also Speichertaktrate fixieren und schauen wie sie sich mit over und underclocking verhalten in Bezug auf Skalierung auf die FPS.
Blöderweise wird bei den Reviews immer nur maximum OC getestet und dann wird der Speicher gleich mit getaktet.

GerryB

2024-08-29, 15:52:12

je nach Game muss man erstmal die FP32 auslasten, bevor Bandbreite überhaupt ne Rolle spielt
DAS geht bei der 7800xt noch relativ easy, wenn auch nicht immer besser als bei der 6800xt.
(remember, ... in Pandora lief die 6800xt noch ziemlich gut)

öfters sieht man jetzt, das die 3080 besser performt als die 4070 (und auch ggü. der 6800xt)
... könnte sein, das manche Studios die Presets anhand der 3080 festlegen
In Outlaws scheint dann die 7800xt auch relativ gut dabei zu sein, ... besser als die 6800xt.
(1440p = ideal und 2160p passt auch noch, ... ne GRE hat dann in 2160p schon Vorteile)

Interessant ist dann auch wie sich die Games mit gleicher Engine zueinander verhalten.
Star Wars Outlaws scheint die 7900XTX überhaupt nicht gut auszulasten. (ggü. Pandora)
in 1440p noch deutlicher zu sehen als in 2160p, das der Abstand zur 7800xt kleiner geworden ist
Das könnte dann vllt. ein Game sein, wo N48 nahe an die 7900xt rankommt.
(28 bzw. 34% könnte man durchaus aufholen, ... 47% bis zur TiS wären dann schon schwieriger= unwahrscheinlich)

Ph0b0ss

2024-08-29, 16:03:52

Also wenn man sich anschaut wie die 7900GRE vs die 7800XT performt sieht man keine signifikante Änderung mit kleinerer Auflösung (1080p und 1440p vs 4K).
Aber andererseits müsste die Hitrate des 64 MiB Caches ja besser werden bei kleinerer Auflösung und somit das Bandbreitenbottleneck. Aber die 7900GRE sieht dennoch nicht besser aus.
Ggf. ist es doch kein Bandbreitenbottleneck.
Man müsste einfach mal die 7800XT und 7900GRE skalieren. Also Speichertaktrate fixieren und schauen wie sie sich mit over und underclocking verhalten in Bezug auf Skalierung auf die FPS.
Blöderweise wird bei den Reviews immer nur maximum OC getestet und dann wird der Speicher gleich mit getaktet.

60% Hitrate vs. 80% Hitrate. Quasi 3840p vs 1920p:

7900 GRE:
1700 GB/s Cache und 576GB/s Vram ergibt bei 60% Hitrate: ~955GB/s.
1700 GB/s Cache und 576GB/s Vram ergibt bei 80% Hitrate: ~1223GB/s.

7800XT:
2100 GB/s Cache und 624GB/s Vram ergibt bei 60% Hitrate: ~1080GB/s.
2100 GB/s Cache und 624GB/s Vram ergibt bei 80% Hitrate: ~1426GB/s.

Die 7900 GRE gewinnt 28% Bandbreite, die 7800XT gewinnt 32% Bandbreite.

Ist schon merkwürdig, dass die 7900 GRE in niedrigen Auflösungen das mehr an Bandbreite nicht in größeren Abstand zu der 7800XT umsetzen kann.

robbitop

2024-08-29, 16:31:59

je nach Game muss man erstmal die FP32 auslasten, bevor Bandbreite überhaupt ne Rolle spielt

Was hat der FP32 Durchsatz mit der Bandbreitenanforderung zu tun? Der Großteil der Bandbreite bei 3D Rendering fällt auf den Color, Z- und G-Buffer an. Und natürlich Daten wie Meshes und Texturen.

60% Hitrate vs. 80% Hitrate. Quasi 3840p vs 1920p:

7900 GRE:
1700 GB/s Cache und 576GB/s Vram ergibt bei 60% Hitrate: ~955GB/s.
1700 GB/s Cache und 576GB/s Vram ergibt bei 80% Hitrate: ~1223GB/s.

7800XT:
2100 GB/s Cache und 624GB/s Vram ergibt bei 60% Hitrate: ~1080GB/s.
2100 GB/s Cache und 624GB/s Vram ergibt bei 80% Hitrate: ~1426GB/s.

Die 7900 GRE gewinnt 28% Bandbreite, die 7800XT gewinnt 32% Bandbreite.

Ist schon merkwürdig, dass die 7900 GRE in niedrigen Auflösungen das mehr an Bandbreite nicht in größeren Abstand zu der 7800XT umsetzen kann.

Selbst wenn die Hitrate bei beiden hochgeht, so nimmt aber auch der Bandbreitenbedarf ab. Entsprechend sollte in niedrigen Auflösungen der Bandbreitenflaschenhals also kleiner werden (oder gar verschwinden). Dabei ist es dann egal ob die Vergleichs GPU noch mehr davon hat.

Altehardware

2024-08-29, 16:55:25

Nur das diese Ansicht falsch ist
Amd sagte mal das man etwa 48% hitrate beim inf cache erreichen würde und mehr als 96mb keinen Zugewinn mehr gibt
Nun gpu sind linear im gegensatz zu cpu woe aus der reihe berechnet werden kann demzufolge ist der L3 ein victim cacheder daten nahe dem kern behält und daten vorlädt
Das aber geht mit dem sram takt = gpu clock
Das Si wird dadurch nicht breiter daher ist die formel so
Gpu clock mal busbreuite mal 0,48 geteilt durch 8 damit man auf byte kommt.
Das wird mit dem Si addiert das mit dem vram Takt gbps durch acht geteilt
also bsp 256bit*18gbps/8bit=576gb/s +256*2,4ghz/8*0,48=612gb/s
Das was amd auf der webseite angibt ist technisch nicht möglich da amd vom L0 und L1 cache Kopiergeschwindigkeit ausgeht die aber nie so weit zurückreicht zum inf cache das geht maximal zum L2
Der L2 ist je SE vorhanden (20cu/16cu aktiv)
rdna4 hat noch keine Struktur Änderungen bekommen es bleiben 20cu per SE
Das was geändert wird ist die Größe der L0 und L1 cache auf 64kb und 256kb die sind je wgp =2cu
Eine Se hat 10wgp
Diese Änderung verbessert das dual issue auf maximal 34% = 2,68 fp32 Operationen per clock
Dazu die verdoppelten TMU und die gpu hat vs nvidia in dxr bis auf 17% Rückstand aufgeholt und perf. mit 64cu so schnell wie mit n31 84cu Vs nvidia blackwell sehr wahrscheinlich nochmal Rückstand erhöht auf -35%
Bedeutet amd 64cu sind 46sm bei nvidia blackwell (gb205 50sm sku ist etwas schneller)

Der inf cache wird kaum helfen aber die Bandbreite limitiert erst ab einen frame Größe von 6gb (18gb vram belegt)
Da dies mit den 16gb sku nicht möglich sind egalisiert sich das und die knapp 686gb/s reichen völlig

es gibt nur sehr wenige Spiele die überhaupt mehr als 4gb für ein frame benötigen drei frames liegen bei amd im vram vor bei nvidia schwankt das zwischen 2,5 bis 3 je nach Komprimierung des Entwicklers.
Darauf kommen etwa 5% an anderen dingen die geladen werden. msaa und co vom Treiber.
Moderne engines komprimieren die daten im Vorfeld um Datenstaus und somit Ruckler zu vermeiden.
Das ist das shader kompilieren.

Ph0b0ss

2024-08-29, 17:00:48

Selbst wenn die Hitrate bei beiden hochgeht, so nimmt aber auch der Bandbreitenbedarf ab. Entsprechend sollte in niedrigen Auflösungen der Bandbreitenflaschenhals also kleiner werden (oder gar verschwinden). Dabei ist es dann egal ob die Vergleichs GPU noch mehr davon hat.

Ja so war es gemeint. Beide gewinnen etwa die gleiche Bandbreite. Die 7800 XT sollte aber weniger profitieren, da 19% weniger Rechenleistung als die 7900 GRE. Bleibt eigentlich nur noch die Auslastung als Erklärung übrig, die bei der 7900 GRE zu niedriegeren Auflösungen hin stärker fällt als bei der 7800 XT?

GerryB

2024-08-29, 17:06:47

Was hat der FP32 Durchsatz mit der Bandbreitenanforderung zu tun?

mach doch spassenhalber mal ne Liste von Games wo die Bandbreite ne Rolle spielt
vs.
ne Liste wo FP32-Auslastung ne Rolle spielt

anhand 7800xt vs 6800xt

Dann wirste ja sehen, Was eher limitiert.(meist ist es die schlecht optimierte Software für FP32)

robbitop

2024-08-29, 17:12:52

Ja so war es gemeint. Beide gewinnen etwa die gleiche Bandbreite. Die 7800 XT sollte aber weniger profitieren, da 19% weniger Rechenleistung als die 7900 GRE. Bleibt eigentlich nur noch die Auslastung als Erklärung übrig, die bei der 7900 GRE zu niedriegeren Auflösungen hin stärker fällt als bei der 7800 XT?

Ja das denke ich auch. Aber wie so oft gibt es manchmal mehrere gleichzeitige Bottlenecks. Nur weil es ein Auslastungsproblem gibt, heisst es nicht, dass es nicht auch gleichzeitig (zumindest in hohen Aufllsungen) auch ein Bandbreitenproblem gibt. ^^

mach doch spassenhalber mal ne Liste von Games wo die Bandbreite ne Rolle spielt
vs.
ne Liste wo FP32-Auslastung ne Rolle spielt

anhand 7800xt vs 6800xt

Dann wirste ja sehen, Was eher limitiert.(meist ist es die schlecht optimierte Software für FP32)
Und woran erkenne ich welche Spiele eine hohe FP32 Auslastung haben? Könnte man ggf. mit einem Performancetool pro Frametime sich anschauen. Wüsste aber nicht wo man die herbekommen sollte.
Und woran erkenne ich den Bandbreitenbottleneck? Dazu müsste es pro Spiel eine Kurve über verschiedene Chiptaktraten bei konstantem Speichertakt pro Karte geben. Wüsste nicht wo man die herbekommen sollte.

Solange die beiden Fragen nicht mit Daten versorgt werden, weiß ich nicht, wie man zu dem Schluss kommen kann. :)

Ansonsten ist RDNA3 und RDNA2 pro TFLOP nicht vergleichbar. RDNA3 hat zwar theorertisch pro CU und pro Takt doppelte FP32 Leistung über VOPD aber da gibt es mächtig viele Flaschenhälse:
- mit wave32 gehen Verdopplungen unter vielen Konstellationen nicht.
- mit wave64 zwar schon aber aufgrund schlechterer Granulariät sinkt die Auslastung
- es gibt nicht doppelt so viel Scheduler und Register Ressourcen

Insofern kann man die RDNA3 und 2 TFLOPs nicht miteinander vergleichen.

GerryB

2024-08-29, 17:52:21

Solange die beiden Fragen nicht mit Daten versorgt werden, weiß ich nicht, wie man zu dem Schluss kommen kann.

man braucht nur schauen, welche Games auf der 7800xt besser laufen als auf der 6800xt, um zu sehen,
ob FP32 gut ausgelastet wird (x)
und
wg. der Bandbreite würde ich einfach schauen wie es in UWQHD vs WQHD ausschaut, ob sich dann relativ was bewegt(xx)

Man muss es ja nicht komplizierter machen als nötig.
(x) bei CB einfach die Spieleauswahl "bearbeiten" nutzen
(xx) UWQHD bekommt man bei PCGH, ... dort vllt. in die Reviews schauen, wo Raff die 16GB-Grakas vs 8GB getestet hat

Ob man jetzt nen Cachemiss als auffällige minFps findet, hängt sicher davon ab, wie die minFps in dem jeweiligen Review
gemessen werden. 2% ... 1% oder 0,2 ... 0,1% etc.

robbitop

2024-08-29, 17:55:19

Das kann aber auch mit RDNA3 spezifischen Optimierungen zu tun haben. AMD steckt wahrscheinlich schon länger alles an Treiberarbeit in RDNA3 Optimierungen für neuere Spiele. Entsprechend nicht verwunderlich, dass dann auch der Abstand steigt. Ich halte das nicht für aussagekräftig. Außerdem wüsste ich nicht warum FP32 Auslastung den Bandbreitenbedarf steigern sollte. Da sollte die Cachehiterate extrem hoch sein.

GerryB

2024-08-29, 18:14:22

Es hat Keiner behauptet, das Beides 1:1 zusammenhängen muss.
lediglich
Wird man in der Praxis eher Probleme mit Games haben, wo FP32 nicht gut ausgelastet ist.
(Wer dann denkt, das wäre IMMER fehlende Bandbreite, ... täuscht sich)

Oben hatte ich das merkwürdige Verhalten der 7900XTX in Outlaws benannt.
die XTX performt viel schlechter als normal ggü. der 7800xt

robbitop

2024-08-29, 18:17:04

Das habe ich ja auch schon bereits geschrieben dass es nicht nur ein Bandbreitenproblem sein kann sondern unabhängig und ggf zusätzlich ein Auslastungsproblem.
Schmale Designs sind da bspw pro TFLOP wesentlich besser als breite. Auch ein Grund warum zB die 4090 nicht um den gleichen Faktor schneller ist als die 4080 wie der Faktor der Rohleistung.

Altehardware

2024-08-29, 18:34:16

am belegtem Vram geteilt durch drei und das durch die nominale bandbreite das ergiben die fps sidn dies über den fp32ergebnsisen reicht die bandbrite locker. bsp
Spiel belegt etwa 9gb vram 3 gb effektiv im bandbreite die gpu hat 16gb mit grob 308gb/s
daher müssten es grob 102fps sein
oft ist es so das dies nicht erreicht wird
Die meisten Spiele haben zwischen 8-11gb vram Belegung oder 3gb knapp 3,75gb pro frame
amd lädt definitiv 3 frames bzw kopiert diese im vram was eher zutrifft nvidia komprimiert die daten daher schwankt das etwas das maximal sind 1,5 frames daher ist die vram Auslastung oft zwischen 4-6gb =1,33gb-2,0gb

Das drei frames für ne gpu erforderlich sind ist normal ein frame vorladen eins berechnet eins kopiert
Das ist aber stark spielabhängig daher gehe ich immer von nvidia vram Belegung aus und amd Belegung aus
die Differenz kann bis zu 20% betragen oft ist es eher 10%
Wie man das Feststellt nun ram Belegung vom spiel die diese daten werden im vram gespiegelt
meine rtx3060 mit 360gb/s kommt faktisch nie ans limit eher limitieren die fp32 cores
Den fall das mehr vram genutzt wird aber die fp32 cores nicht ausgelastet sind ist selten im Grunde reichen hier locker 320gb/s aus leider kann ich bei meiner gpu nicht unter 336gb/s gehen was das finden dieser Limitierung schwierig macht
Dagegen wäre ein oc der rtx4060ti vram deutlich besser von 288gb/s auf 320gb/s (20gbps) bringt min +20%
Das spiel mit den höchsten vram Belegung war mal watch dog legion auf 4k mit 10,3gb =3,4gb
aber die fp32 cores schafften nur 32fps wo die Bandbreite bei 105fps wäre.
in ratchet and clank ra kommt bei 1080p ungefähr bei 10gb aus möglich wären 109fps real auf dem schirm habe ich 45fps
Das ist die Norm erst bei neuen spielen über 1440p werden die 8gb vram knapp obwohl die Treiber schon bei 7gb auslagern
Da Nützen einen die 448gb/s auch nix. zumal diese sku von Anfang an das nicht brauchten.
In amd falle ist das alles etwas mehr bandbreite notwendig als nvidia ist aber stark spielabhängig.

Ph0b0ss

2024-08-29, 19:48:10

Nur das diese Ansicht falsch ist
Amd sagte mal das man etwa 48% hitrate beim inf cache erreichen würde und mehr als 96mb keinen Zugewinn mehr gibt
Nun gpu sind linear im gegensatz zu cpu woe aus der reihe berechnet werden kann demzufolge ist der L3 ein victim cacheder daten nahe dem kern behält und daten vorlädt
Das aber geht mit dem sram takt = gpu clock
Das Si wird dadurch nicht breiter daher ist die formel so
Gpu clock mal busbreuite mal 0,48 geteilt durch 8 damit man auf byte kommt.
Das wird mit dem Si addiert das mit dem vram Takt gbps durch acht geteilt
also bsp 256bit*18gbps/8bit=576gb/s +256*2,4ghz/8*0,48=612gb/s
Das was amd auf der webseite angibt ist technisch nicht möglich da amd vom L0 und L1 cache Kopiergeschwindigkeit ausgeht die aber nie so weit zurückreicht zum inf cache das geht maximal zum L2
Der L2 ist je SE vorhanden (20cu/16cu aktiv)
rdna4 hat noch keine Struktur Änderungen bekommen es bleiben 20cu per SE
Das was geändert wird ist die Größe der L0 und L1 cache auf 64kb und 256kb die sind je wgp =2cu
Eine Se hat 10wgp
Diese Änderung verbessert das dual issue auf maximal 34% = 2,68 fp32 Operationen per clock
Dazu die verdoppelten TMU und die gpu hat vs nvidia in dxr bis auf 17% Rückstand aufgeholt und perf. mit 64cu so schnell wie mit n31 84cu Vs nvidia blackwell sehr wahrscheinlich nochmal Rückstand erhöht auf -35%
Bedeutet amd 64cu sind 46sm bei nvidia blackwell (gb205 50sm sku ist etwas schneller)

Der Infinity Cache ist nicht mit 256 bit/CLK angebunden, sondern beim vollen RDNA3 Chip mit 2304 byte!/CLK (18.432 bit/CLK). Das ganze läuft auf 2,3Ghz, ergibt dann 5300 GB/s. L2 und L1 sind (logischerweise) noch breiter angebunden. Bei der 7900 GRE und der 7800 XT werden nur 4 statt 6 MCD verwendet, daher 1536 byte/CLK.

siehe:
https://s20.directupload.net/images/240829/temp/v2rwp88h.webp (https://www.directupload.eu/file/d/8661/v2rwp88h_webp.htm)

mksn7

2024-08-30, 11:39:52

am belegtem Vram geteilt durch drei und das durch die nominale bandbreite das ergiben die fps sidn dies über den fp32ergebnsisen reicht die bandbrite locker.

Du benutzt das VRAM Volumen / 3 (warum 3?) als maximales Datenvolumen pro frame? Das nimmt aber auch an dass alle caches optimal funktionieren und dass es auschließlich compulsory cache misses gibt. In der Praxis werden die gleichen Daten sicherlich auch öfter als einmal gelesen/geschrieben.

reaperrr

2024-08-30, 12:35:38

rdna4 hat noch keine Struktur Änderungen bekommen es bleiben 20cu per SE
Nur N32 hat 20 CU je SE, sowohl N31 als auch N33 haben 16 CU je SE.

N48 und N44 haben beide 16 CU je SE, es gibt absolut Null Hinweise auf was anderes, außer in deiner Fantasie...

Die "Strukturänderung" von der du redest ist auch technisch überhaupt kein Problem, weil bei AMD die CU/WGP in Reihen angeordnet sind und du gegenüber dem N32-Aufbau nur die äußersten weglassen musst.

BlacKi

2024-08-30, 12:48:32

Der Infinity Cache ist nicht mit 256 bit/CLK angebunden, sondern beim vollen RDNA3 Chip mit 2304 byte!/CLK (18.432 bit/CLK). Das ganze läuft auf 2,3Ghz, ergibt dann 5300 GB/s. L2 und L1 sind (logischerweise) noch breiter angebunden. Bei der 7900 GRE und der 7800 XT werden nur 4 statt 6 MCD verwendet, daher 1536 byte/CLK.

siehe:
https://s20.directupload.net/images/240829/temp/v2rwp88h.webp

tolles bild, mir stellt sich nur die frage. ist bei der cache rate von so undso viel % eigentlich die hitrate der L1 und L2 caches dort mitdrin? werden die auch bei der kombinierten bandbreite berücksichtigt(ich denke mal nicht?)? und wie hoch ist anteil der L1+L2 caches an der hitrate?

Ph0b0ss

2024-08-30, 13:05:43

tolles bild, mir stellt sich nur die frage. ist bei der cache rate von so undso viel % eigentlich die hitrate der L1 und L2 caches dort mitdrin? werden die auch bei der kombinierten bandbreite berücksichtigt(ich denke mal nicht?)? und wie hoch ist anteil der L1+L2 caches an der hitrate?

Also zumindest wenn der Infinity Cache weniger als 32MB genutzt wird steigt die Bandbreite durch L1+L2 schon an:

https://s20.directupload.net/images/240830/temp/fiv9plus.png (https://www.directupload.eu/file/d/8662/fiv9plus_png.htm)

von hier:
https://chipsandcheese.com/2023/01/07/microbenchmarking-amds-rdna-3-graphics-architecture/

basix

2024-08-30, 13:43:55

Wenn man eine höhere L0/L1/L2 Hitrate hat, sinkt natürlich der Bandbreitenbedarf, den man via Infinity Cache und VRAM decken muss.

Man kann IF$ und VRAM aber wohl schon isoliert betrachten, indem man einen fixen Bandbreitenbedarf nach dem L2$ annimmt. Sagen wir mal ich will 1 TByte/s eingangs des L2$ haben und jetzt kann man anhand IF$-Grösse, Render-Auflösung und Prefetching / Caching / Retiring Algorithmen die IF$-Hitrate ermitteln.

Die (totale) Hitrate aller Caches muss man hintereinander reihen. Sozusagen als kummulative Hitrate. Beispiel:
- L0 Hitrate = 70% --> 30% müssen via L1/L2/IF$ & VRAM gedeckt werden
- L1 Hitrate = 40% --> 30% * 0.4 = 12% --> 70+12% = 82% werden vom L0 & L1 gedeckt --> 18% bleiben noch übrig
- L2 Hitrate = 60% --> 18% * 0.6 = 10.8% --> 70+12+10.8 = 92.8% werden von L0...L2 gedeckt --> 7.2% bleiben noch übrig
- ... usw.

Mit besserem Caching bei tieferen Cache-Leveln kann man also auf Backend-Seite die Last reduzieren. Das kann mehr Kapazität, bessere Algorithmen oder bessere Kompression sein. Sich hier insgesamt auf nur IF$-Grösse und VRAM-Bandbreite zu versteifen ist also nicht das ganze Bild, wenn man Performance-Prognosen aus der verfügbaren Bandbreite ableiten will.

Das Bild von Ph0bOss zeigt ja sehr schön, dass die L0-Bandbreite einer 7900XTX >30TB/s beträgt. Um die nutzen zu können, darf die "übrigbleibende Hitrate" (= Cache Miss) zum VRAM hin nur ca. 3% betragen (960 GByte/s bei einer 7900XTX vs. 30TByte/s beim L0), der Rest muss via Caches gestemmt werden. Und das allermeiste mit einem so tiefen Cache-Level wie möglich (Latenz & Energieeffizienz).

DrFreaK666

2024-08-30, 14:02:46

AMD RDNA4 Radeon GPUs rumored to mirror RDNA1 in product positioning
https://videocardz.com/newz/amd-rdna4-radeon-gpus-rumored-to-mirror-rdna1-in-product-positioning

Die größte Version könnte nur 8700XT heißen. Mal schauen was das über die Performance aussagt und wie NV darauf reagiert

dargo

2024-08-30, 14:09:40

210W incoming? :naughty: Wäre zu schön um wahr zu sein. :tongue:

basix

2024-08-30, 15:06:41

Hat wohl einen psychologischen Effekt: Ich empfinde eine gleich schnelle 8700XT als irgendwie besser und effizienter als eine 8800XT :D

Ich denke aber, dass AMD das auch aus Konkurrenzgründen zu Blackwell so macht. Eine 8700XT >5070 sieht besser aus als 8800XT <5080. Ebenso hinsichtlich 16GB <-> 12 GB anstatt 16GB <-> 16GB.

Der_Korken

2024-08-30, 15:25:23

dargo

2024-08-30, 16:39:21

Hat wohl einen psychologischen Effekt: Ich empfinde eine gleich schnelle 8700XT als irgendwie besser und effizienter als eine 8800XT :D

Hehe... das war auch mein Gedanke. :D

Ich denke aber, dass AMD das auch aus Konkurrenzgründen zu Blackwell so macht. Eine 8700XT >5070 sieht besser aus als 8800XT <5080. Ebenso hinsichtlich 16GB <-> 12 GB anstatt 16GB <-> 16GB.
Das glaube ich eher weniger. Jetzt heißt es auch 7900XTX/XT <4090. Und ganz ehrlich... woher soll AMD wissen wie schnell die 5070 wird? Das ist doch auch nur sehr grobes raten.

reaperrr

2024-08-30, 16:44:44

Dass RDNA4 kein Highend bedienen wird, ist schon lange bekannt und somit nichts neues. Das Namensschema nur bis 700 hochzuzählen ergibt für mich Sinn, da dies einfach der abgedeckte Marktbereich ist relativ zur Lebensdauer des Produkts. Im Grunde hätte man auch die 7800XT bereits als 7700XT vermarkten können statt darüber dann 3 900er SKUs zu haben mit einer Performancespanne von 50%. Aber gut, die Namensschemata bei AMD-GPUs sind seit je her Kraut und Rüben.
Fairerweise muss man sagen, ursprünglich war die GRE wohl nur für China gedacht und hätte die 7800XT quasi ne GRE mit nur 70 aktiven CU (aber vermutlich im Gegenzug etwas mehr Takt) sein sollen, während N32XT dann nur 7800 oder eben 7700XT geheißen hätte und die 7700XT nur 7700.

Aber ja, so wie's letztlich gelaufen ist, ist die Namensgebung bei RDNA3 ziemlich Kraut und Rüben. Da haben es die enttäuschenden Taktraten wohl auch dem Marketing etwas schwer gemacht.
RDNA2 war in der Hinsicht noch wesentlich schlüssiger.

Wobei NV kein Deut besser ist. Der 3060-Nachfolger hat nur 128bit/8GB und heißt 4060Ti, der 3060Ti-Nachfolger heißt 4070 (und ist deutlich teurer), 3050-Nachfolger heißt 4060, und ich erinnere nur dezent an den in diesem Fall vollauf gerechtfertigten und zum Glück erfolgreichen Shitstorm bei der "4080 12GB".

GerryB

2024-08-30, 19:08:27

Die größte Version könnte nur 8700XT heißen. Mal schauen was das über die Performance aussagt und ...

Eher interessant, was Das über den Preis aussagt.
derzeit
die 7800xt bei 475€, ... damit wäre 499...529€ bereits kurz nach Launch möglich!?
... und die 4070GDDR6nonX immer noch zu teuer

Wenn man das Standard-PL nur so hoch zieht, um die 7800xt oder GRE zu matchen, wäre das sicherlich sinnvoll,
leiser und kühler, ... preiswerte Modelle mit Duallü. ala Challenger ausreichend.
Vermutlich werden Taichi etc. aber weiterhin mit Dualbios kommen, so das auch OCer ihren Spass haben@300W+.
(nicht selbstverständlich in der Preisklasse)

Schnitzl

2024-08-31, 07:47:48

Das glaube ich eher weniger. Jetzt heißt es auch 7900XTX/XT <4090. Und ganz ehrlich... woher soll AMD wissen wie schnell die 5070 wird? Das ist doch auch nur sehr grobes raten.
ich denke die können das schon recht gut abschätzen wo Blackwell performancemäßig rauskommt. Vermutlich weiss nVidia noch besser wo RNDA4 liegt ;)

dargo

2024-08-31, 07:55:01

ich denke die können das schon recht gut abschätzen wo Blackwell performancemäßig rauskommt. Vermutlich weiss nVidia noch besser wo RNDA4 liegt ;)
Sorry, aber das ist Unsinn. AMD war sogar völlig überrascht, dass Nvidia so einen fetten (Die Size) AD102 brachte.

Schnitzl

2024-08-31, 08:36:42

kannst mich da ein wenig aufklären bitte?
diese Überraschung ist irgendwie an mir vorbeigegangen...
gerne auch per PM

dildo4u

2024-08-31, 08:40:35

Scheint ziemlich offensichtlich AMD dachte NV maxt mit der 4080 mit einer 4090 Version mit mehr Vram die kaum schneller ist ala 3090.

dargo

2024-08-31, 09:14:21

kannst mich da ein wenig aufklären bitte?
diese Überraschung ist irgendwie an mir vorbeigegangen...
gerne auch per PM
Da gibt es nicht viel aufzuklären. AMD hatte nicht damit gerechnet, dass Nvidia Ende 2022 einen Chip mit >600mm² im teuren Fertigungsprozess bringt. Der Abstand zwischen AD102 (609mm²) und AD103 (379mm²) ist riesig.

Altehardware

2024-08-31, 09:25:13

600m² wurden erwartet was am ende auch kam mit 609mm²
Blackwell gb202 dürfte zwischen 750-820mm² werden und ja mein ernst
Daher gehe ich nicht davon aus das der chip am desktop kommen wird maximal wird hier der gb203 mit seinen knapp 380-410mm² werden
Da der chip auf tsmc n4x basiert und nvidia die ganze Effizienz umsetzen wird statt auf Takt. wird das extrem effizient
+- 470w tbp fürn vollen gb202 (160sm) +45% den ich als titan erwarte
und etwa 240w für +35% den ich als erste rtx50 gpu mit rtx5080 erwarte
Im Januar dann den gb205 leider auf samsung node 72sm chip mit etwa 50sm aktiv als rtx5070 +10% bei 180w
Und dazu den gb206 36sm mit +50% bei 130w als rtx5060

Amd wird im nov die rx8x00xt veröffentlichen die grob zwischen rx6900xt und rx79000xt liegt.
dazwischen sind gut 3tf-8,2tf +10% bis +33% zur rx6900xt das ist stillstand
daher ist die Annahme als rx8700xt durchaus realistisch wo dies maximal +37% zur rx7700xt entspräche bei gleichem preis von 449$

Wie das amd vermarkten wird ist offen sicher ist nur das rdna4 ein Abfall vom Sony chip ist
Unklar ist nur ob amd die Erlaubnis hat die cache Änderungen am desktop zu bringen wenn nicht wird es düster da man auf Takt gehen muss und bei samsung node klar eine Taktnachteil hat maximal 2,9ghz
Und maximal die Leistung der rdna3 n32 ohne Takt Limit bekommt von +18% bis +45%
Das würde als rx8800xtx kommen ab 549$

Als jemand der Dringend ne neue gpu braucht bis zur ps6 und nicht bereit ist über 170w tbp zu gehen ist das ärgerlich amd hat da nix
Nvidia nur meh oder nenn tick zu viel tbp 200w aktuell und kommend rtx5070 ideal

Nur wird das nvidia ab 550$ bringen was mir zuwider ist womit nur die rtx5060 für 18tf etwas langsamer als die ps5 pro 23tf für 399$ als einzigen option bliebe oder gebr ne rtx4070 super

Anhand der Tendenz das die devs immer die Konsole primär Zielperf. ausgelegte spiele wird muss es min 50sm oder amd 64cu sein

Da ist dass Problem
Was dem design angeht muss nvidia bei der sm Struktur was ändern ansonsten bewegt sich in dxr nix.

reaperrr

2024-08-31, 16:31:04

sicher ist nur das rdna4 ein Abfall vom Sony chip ist
Sorry, aber was für ein Quatsch :freak:

Falls du wortwörtlichen Abfall aka Salvage meinst, der PS5Pro-Chip ist von der Architektur nur einen Hybrid zwischen RDNA3.5 und RDNA4, während N4x vollwertiges RDNA4 ist.
PS5Pro hat nur 2 ShaderEngines und nicht 4 wie N48, und der PS5Pro-SoC wäre außerdem viel zu groß, weil auch noch CPU-Kerne und anderes für ne GPU unnützes Zeug drin sind. Und IF$ ist bei der PS5Pro auch fraglich, gibt da bisher keine Hinweise drauf, erst recht nicht 64MB.

Dafür hat N4P eine viel zu gute Ausbeute, als dass das auch nur im Entferntesten Sinn machen würde.

Bezogen auf Architektur, in RDNA4 sind vielleicht einige RT-Verbesserungen enthalten, an denen Sony in Hinblick auf die Pro mitgewirkt hat, ansonsten ist daran aber nichts "Abfall", N48 wäre auch so gekommen wenn Sony die PS5Pro gestrichen oder nie gebaut hätte.