Archiv verlassen und diese Seite im Standarddesign anzeigen : AMD/ATI - RDNA4 (Navi 4X, Radeon RX 9000 Serie, 4nm, 2025)
mczak
2024-02-10, 16:42:06
JDie 24Gbps-Chips von Samsung haben auch 32Gbit Kapazität, da käme man auch ohne Clamshell auf 16 GB.
Nein die 24gbps gddr6 Chips sind stinknormale 16gb Bausteine (allenfalls benötigen die etwas mehr Spannung, wäre jedenfalls nicht unüblich): https://semiconductor.samsung.com/dram/gddr/gddr6/ - da steht zwar noch "Sample" und nicht "Mass Production" das dürfte aber kein Problem sein. Aber klar, die kosten sicher was extra, möglich dass die zu teuer sind. Aber wenigstens die 20gbps Chips sollten möglich sein (7600/7600XT benutzen ja noch 18gbps).
Es gibt keine 32gb gddr6 Chips, und ich vermute mal wird es auch nie geben, selbst gddr7 startet ja bloss mit 16gb Chips. Die Ausnahme sind die Samsung gddr6w Chips, aber das sind ja quasi 2 Chips in einem Gehäuse (also nicht bloss doppelte Kapazität sondern auch doppelte Bandbreite).
Clamshell-Konfigurationen sind bei den Graka-Herstellern derart unbeliebt dass ich fast wetten würde dass es N44 Produkte auch mit bloss 8GB geben wird.
AffenJack
2024-02-10, 18:24:23
Hätte eher gedacht RDNA4 kommt deutlich vor Blackwell, wobei NV normalerweise zuerst eh mit highend kommt. Wird spannend wenn die releases zusammenfallen.
Es ist wie jedes mal beim AMD Release, Leaker versuchen Hype zu generieren mit AMD Produkten die in H1 6 Monate vor Nv kommen. Am Ende kommen die Produkte wenig überraschend relativ zeitlgleich. Aber trotzdem hat man hier im Forum immer wieder die gleiche Diskussion, weil einige Leute meinen die Produkte kommen so früh.
iamthebear
2024-02-10, 20:03:46
300-350mm² bei knapp 7900 XTX Performance überrascht nicht wirklich. Das ist in etwa die Performance/Transistor von Navi33.
Die Chipletstrategie bei Navi31/2 ist total in die Hose gegangen. Die Shader Engines war laut Die Shots schön kompakt und dann hat man Unmengen an Fläche verbraten nur um die MCDs anzubinden.
Trotzdem stinkt das Ganze doch etwas:
Anhand der Daten von Die Size, RAM, geschätzter Verlustleistung etc. würde ich ca. 30% niedrigere Produktionskosten im Vergleich zu Navi31 schätzen.
Die Performance soll nicht viel niedriger sein
AMD soll das Ding schon viel früher launchen können
Also warum zur Hölle tun sie das nicht?
Und wenn das Ding nur 256Bit SI hat wieso bringt man keinen größeren monolithischen Die ähnlich von Navi21 und macht der 4090 Konkurrenz. Klar man kann keine 1600$ verlangen aber um 1000-1200$ gehen die auch weg wie die warmen Semmeln.
Irgendwie habe ich das Gefühl, dass da noch einige Infos fehlen oder schlichtweg falsch sind (ich erinnere damals an Navi33=Navi21)
Der_Korken
2024-02-10, 20:44:57
Die Die-Sizes sind deutlich größer als das, was man vorher so zwischen den Zeilen gelesen hat. Ich hatte eher mit 250mm² für N48 gerechnet und hatte selbst da noch die Befürchtung, dass das so hoch gegriffen sei und wir polarismäßig einen absolute Low-cost-Chip sehen würden, der gerade so mit der Midrange von Nvidia mithalten kann. Wenn der Chip tatsächlich nur 64 CUs haben soll, dann sind hier aber ordentlich Transistoren reingeflossen. N33 kommt in N6 auf 200mm², d.h. ein doppelter N33 (64 CUs, 256bit SI, 16x PCIe) käme ungefähr bei 400mm² raus. Wenn N48 in N4 nur moderat kleiner sein soll, würde ich von massiv besserer RT-HW ausgehen.
Die Performance zwischen 7900XT und XTX ist ebenfalls höher als erwartet, aber für 300-350mm² auch nicht mehr überraschend. 64 CUs bei 3,15Ghz (habe mal die Mitte aus 3 und 3,3Ghz genommen) wären etwa 37% mehr Flops/s als die 7800XT (60 CUs, 2,45Ghz) bzw. 4% weniger als die 7900XT (84 CUs, 2,5Ghz). Da ein schmalerer Chip leichter ausgelastet wird, wäre zumindest 7900XT in Raster nicht überraschend. Wenn es Richtung XTX geht, müsste auch die IPC gestiegen sein oder die 3,15Ghz waren zu tief gegriffen. Die Gerüchte um einen N31 Refresh wären mit den Zahlen mausetot, da selbst eine gepimpte 7900XTX in RT nicht immer einen N48 würde schlagen können.
Die 256bit SI klingen fast schon etwas wenig mit nur 20Gbps. Aber vielleicht ist die Bandbreite wie bei der 4070Ti ein absoluter Non-Faktor (die 4070TiS profitiert von 256bit quasi null) oder es gibt mehr als 64MB IF$. Die 128bit von N44 kommen mir zu niedrig vor. Nicht nur, dass man damit zu 16GB-Clamshell gezwungen wäre, man hätte gegenüber der eh schon bandbreitenbeschnittenen 7700XT nochmal 1/3 weniger Bandbreite und weniger Cache. Ich hätte hier 192bit erwartet, da 12GB gut in die Leistungsklasse passen würden und man bei zu viel Bandbreite immer noch den Cache verkleinern könnte, um Die-Space zu sparen.
Eine Frage: In weit sind die Spekus realistisch? Das eine Grafikkarte in etwa gleich performt wie ne PS5pro? Hmm...
Der_Korken
2024-02-10, 22:27:01
Eine Frage: In weit sind die Spekus realistisch? Das eine Grafikkarte in etwa gleich performt wie ne PS5pro? Hmm...
Woher kommt diese Info? Da könnte man auch die Gegenfrage stellen wie realistisch es ist, dass eine Konsolen-GPU so schnell sein soll wie eine GPU, die einzeln (ohne Rest-PC) schon >800€ kostet.
mczak
2024-02-10, 22:27:08
Die 128bit von N44 kommen mir zu niedrig vor. Nicht nur, dass man damit zu 16GB-Clamshell gezwungen wäre, man hätte gegenüber der eh schon bandbreitenbeschnittenen 7700XT nochmal 1/3 weniger Bandbreite und weniger Cache.
Bei der Verwendung von 24gbps gddr6 würde das schon passen (die 7700XT verwendet 18gbps Chips), da wäre man schon bei ~90% der Bandbreite, das ist nah genug. Theoretisch könnte man natürlich auch den Cache verdoppeln, 32MB sind wohl so ~20mm² (?), wohl etwas viel Fläche.
Ich hätte hier 192bit erwartet, da 12GB gut in die Leistungsklasse passen würden und man bei zu viel Bandbreite immer noch den Cache verkleinern könnte, um Die-Space zu sparen.
Ja das wäre durchaus eine einfache Lösung.
Aber warten wir mal ab, vielleicht stimmen die N44 Daten ja auch hinten und vorne nicht :wink:.
Das Problem mit den "unpassenden" Speichergrössen wird ja mit gddr7 noch viel schlimmer, solange es keine grösseren Chips gibt. Keine Ahnung wie das die GPU-Hersteller lösen - die offensichtlichen Lösungen sind entweder Clamshell-Modus oder man macht eben die SIs wieder breiter und spart beim Cache.
Altehardware
2024-02-10, 22:34:13
Es wurde klar das n44 sowie n48 spätestens q1 2025 kommen soll das h#ngt aber vpon einer sache ab
Den Abverkauf der n31 n32 und n33 sku
bereit wäre man schon jetzt also in q2 bis q3 zu launchen
Es wird gddr6 20gbps werden das steht sicher kein gddr7 das war auch schon vorher klar da man diesmal direklt auf kostensparend gesetzt hat
Der n4p node kostet amd nur 11000$ per wafer ein n3 node würde 20000$ kosten aber kaum Vorteile haben da man mcm setzen müsste ich sehe mcm erst wieder beim großen node sprung n2x kommen da man da endlich nach 10 Jahren wieder das SI schrumpfen kann. und somit mehr cu verpacken kann die Anbindung der mcd wird auch kleiner aber das war bei n31 n32 eher das kleinere problem (etwa 10% chipfläche)
Das größere problem bei n31 und n32 ist die arch an Sich diese ist leider im sram zu ambitioniert geschrinkt worden so das die daten nicht mehr kohärent waren.
Darum Taktet die rdna3 gpu so gering man hat das in den apu gefixt und siehe da 2,9ghz bei nur 45-60w bei 12cu mit rdna3,5 ist man bei locker 3,3ghz bei 16cu bei 45w-60w
aufgrund dieser Ergebnisse sehe ich rdna4 bei grob 3,7-3,9ghz Takt mit 32cu grob wie mLid sagt bei einer rx7700xt
Das wird als 28cu mit perf etwas über der rx7600xt die frage nach der Berechtigung der rx7600xt klar das man den chip erst spät veröffentlichen wird.
Diesen erwarte ich sogar nach n48 der zuerst kommt q4 2024 ich denke das amd die gpu zur gamescom ankündigen wird. Aber das hängt von Sony ab den der chip ist in der ps5 pro wenn sony also zum summer games fest was ankündigt was wahrscheinlich ist wird die rx8800xt grob q4 2024 kommen.
perf zwischen der rx7900xt und rx7900xtx bei min 3,7ghz und maximal 3,9ghz Takt 64cu ab 650$
Aber ich glaube nicht daran das nvidia dieses Jahr noch was bringt es macht schlicht kein Sinn.
Maximal sehe ich ne rtx4060ti super um die rtx4070 daran zu hindern unter 500$ zu fallen.
Das ist aber optional müssen tun sie es nicht
ein ad104 mit nur gddr6 18gbps würde nvidia ab 390$ umsetzbar sein bei nur 180w tbp
Wie das ding dann heißt ist unklar was ich sicher weis das man blackwell auf Effizienz gehen wird da amd nix haben wird bis q1 2026.
Womit ich mitn gb207 als rtx5060 rechne grob perf der rtx3070ti bei 3,2ghz 100w mit 12gb gddr7 24gbit 36gbps an 64bit +- 370$
Dieser chip wird nvidia nur 35$ kosten vram ist relativ teuer aber sollte um die 15$ per 24gbit sein davon 4 +bom schätze ich auf grob 35$ und das isn trippleslot kühler dabei pcb sollte billig sein. Mehr als 5$ erwarte ich nicht
also die 370$ Endkunden preis ist nvidia ihre 120% Marge intakt
Zum Irrglauben das man clampshell braucht wenn chips in 16 oder 8 bit angebunden sind das ist falsch clampshell wird benötigt wenn das pcb zu klein ist oder von design her nur 4 plätze hat ein pcb kann man auch mit 12 plätzen planen wie die gpu daran angebunden sind ist völlig offen.
bsp den ad106 mit 16gb da sind 4 plätze frei daher ging das nicht anders als das man beidseitig bestücken muss.
Wenn die neue gen sofort an pcb hat das genügend plätze auf der Platine frei sind ist die chipanbindung pro 24gbit chip von 8 - 32bit möglich
Dasselbe ist auch am pc beim ddr5 so die bitanbindung ist nicht gekoppelt an der chipbitgröße
Ansonsten wären an 64bit keine 24gbit module möglich bisher waren es immer 64bit per channel auf 16gbit Kapazität
ich erwarte ein pcb design für gb207 und gb206 mit 6 Plätzen und 64 bis 96bit von der gpu
pcb maximal 5$ tdp 100-180w
Der kühler kann von 20$ bis 35$ gehen letztere ist überdimensioniert ich sehe nen dual slot als maximum an der benötigt wird.
Ob nvidia den preis durchhalten kann ist offen da amd rdna4 mit dem n44 etwas mehr strom benötigt etwa 150w bei gleicher Leistung aber ab 330$ mit 16gb kommen wird. Das wann ist unklar ich gehe von q4 2024 aus
Derzeit ist die rx7600xt die beste P/L amd gpu mit 16gb und derzeit die gpu die man kauft unter 400€ selbst für dxr.
nvidia hat da nix und wie es scheint kümmert es nvidia auch nicht da man immer noch den altbestand abverkauft haben will.
Anstatt das man endlich ampere mit kräftigen Rabatten endlich aus den Läden bekommt.
Den blackwell ist auch bereit wird aber verschoben wegen des Stocks an gpu in lagern.
Was könnte die Medien da machen auf yt social und Magazinen klare kante zeigen das 8gb sku sinnfrei sind den vergleich machen zwischen drei gen und endlich vom Irrglauben abweichen von featuresets ein Vorteil wären.
Insbesondere dlss FG sowie fsr sind Hilfsmittel die man meiden muss.
Daher sollte diese nie in Test drin sein
ich weis in etwa was auf mich zukommt derzeit ist ada eher meh designt und rdna3 kompletter flop was Effizienz und perf angeht quasi ist amd auf ampere level in der Effizienz und diese gen war einer der schlechtesten gen von nvidia
Hätte ich nicht schon ne rtx3060 würde meine erste Wahl eine rx7600xt sein.
Es ist unklar was zu mir kommen wird zwischen rx8600xt 32cu oder rtx5060 32sm
am ende kommt es auf die dxr perf ohne upscaler an und wenn das nicht reicht die vram Größe da sind 16gb vs 12gb wo ich klar sage die 16gb nützen mehr
Daher ist ein gb206 mit 48sm Sinnvoller mit dann 15gb 80bit Anbindung 5 chips an 16bit
Das dürfte ne rtx5060ti werden mit dann 27tf um die 490€ das dürfte knapp für pathtracing reichen
Was hat amd da ne rx8700xt mit 56cu grob 32tf mit 16gb ab 549$
gut möglich das amd nen 48cu als rx8700 (28tf) bringt um dann den 450$ Bereich zu besetzen
Womit n48 drei sku haben könnte
aber das hängt davon ab wie gut die Takt Probleme mit rdna4 gefixt wurde die Anzeichen sagen klar 3,9ghz maximal min 3,7ghz das macht im Schluss nur 1-2tf aus
was ich wichtiger empfinde ist die Effizienz
Da wird amd nvidia ada gen erreichen mit 150w auf 16-18tf
Was nvidia erreichen wird ist sensationell mit 18tf auf 100w der haken ist pcie5 x4 wenn es blöd läuft aber pcie4 x8 ist wahrscheinlicher
Die Lösung wäre eine rtx4060ti super mit ad104 mit pciex4 x16 und etwa die gleiche Leistung mit 12gb und dieselbe Effizienz wie am rdna4 sku am ende entscheidet der preis.
Mir wäre lieber 15gb 16gb oder 18gb bei meiner nächsten Sku die ich kaufe. Und das unter 180w tbp
Das wird es bei amd sicher geben bei nvida tippe ich nur ab der rtx5060ti mit 15gb und rtx5070 mit 18gb bei knapp 150-200w
Sollten man warten auf rdna4?
Klares nein
Derzeit beste P/L amd rx7600xt sofern man nicht schon ne rx5700xt rx6650xt rtx3060 rtx2060 rtx2060 super oder gtx1080 /ti hat
Was tun die warten müssen sofern die gpu nicht schon 8 Jahre alt ist amd rx8600xt grob 18tf bei 150-170w ab 330$ 16gb
rtx5060 12gb bei 100w tbp grob 18tf 370$
rtx5060ti 15gb bei 180w tbp grob 27tf 450$
Klarer Sieg für nvidia bei mir amd kann das nur mit dem preis auf 250$ oder ne sku mit 190w tbp bei 40cu beheben
Daran zweifle ich da es sich für amd nicht lohnt aus dem n48 4 chips zu machen maximal sehe ich 3 64cu 56cu und 48cu als letzte option spät in 2025 gut möglich das man in Taktbereiche reduziert also von 3,2ghz bis 3,9ghz staffelt.
Dafür müsste amd aber die vcore sperren sowie wie nvidia die Eingangsspannung regulieren.
Ausschließen würde ich das nicht.
Wir werden sehen derzeit ist warten für alle angesagt.
Wir haben q1 2024 und es gibt immer noch nicht die ideale 400€ gpu die für 2027 hin reichen wird.
typischer Konsolen gen Übergang den Fehler wie 2013 mache ich nicht nochmal 2gb vram wo 4gb hätte sein müssen. also heute 12gb ungünstig eher sind 16gb sicher aber die perf. muss min bei der rtx4070 sein. +-20tf
Die rtx5060ti mit den 15gb wäre die Lösung abseits einer reduzierte Takt bei ner rx8700 mit 56cu 3,3ghz das wäre möglich bsp als dragon edition
So viel sku Möglichkeiten und alles hängt vom preis ab. ne rtx4070 mit gddr6 Speicher auf 2,6ghz limitiert (1,06v 180w tbp) würde mein problem sofort lösen.
Aber den gefallen wird nvidia mir nicht machen amd hat mit der rx7600xt den Weg für ne rx7700 mit 48cu versperrt. Die wird es nicht mehr geben.
Was klar sagt das amd die Fertigung der chips eingestellt hat.
DrFreaK666
2024-02-10, 23:59:58
Woher kommt diese Info? Da könnte man auch die Gegenfrage stellen wie realistisch es ist, dass eine Konsolen-GPU so schnell sein soll wie eine GPU, die einzeln (ohne Rest-PC) schon >800€ kostet.
Leaks sprachen davon, dass die PS5 in Augenhöhe mit einer 7800XT liegen soll.
RDNA4 soll auch laut Leaks <600$ kosten
Der_Korken
2024-02-11, 00:40:14
Leaks sprachen davon, dass die PS5 in Augenhöhe mit einer 7800XT liegen soll.
RDNA4 soll auch laut Leaks <600$ kosten
7800XT-Niveau ist aber ein gutes Stück entfernt von "zwischen 7900XT und XTX". Damit wäre N48 deutlich schneller. Und die niedrigeren Preise glaube ich erst, wenn ich sie sehe :tongue:.
reaperrr
2024-02-11, 10:25:27
AMD soll das Ding schon viel früher launchen können
Also warum zur Hölle tun sie das nicht?
Wurde das von MLID in dem Video gesagt?
Ich habe zuvor hier die Vermutung geäußert, weil die beiden Chips ja schon im August Tape-Out hatten, aber das heißt nicht zwangsläufig, dass ich recht habe ;)
Und wenn das Ding nur 256Bit SI hat wieso bringt man keinen größeren monolithischen Die ähnlich von Navi21 und macht der 4090 Konkurrenz.
Weil die Chiplet-HighEnd-N4x zu einem Zeitpunkt gecancelt wurden, als es viel zu spät war, um noch "mal eben schnell" einen zusätzlichen größeren monolithischen Chip zu designen oder N48 signifikant aufzubohren.
Eine neue Rev. oder zumindest ein Respin könnte die Verzögerung erklären.
basix
2024-02-11, 13:11:26
7800XT-Niveau ist aber ein gutes Stück entfernt von "zwischen 7900XT und XTX". Damit wäre N48 deutlich schneller. Und die niedrigeren Preise glaube ich erst, wenn ich sie sehe :tongue:.
Da muss man aber auch bedenken, dass der PS5 Pro Chip ein Salvage wäre und niedriger takten würde. Du kannst hier eine PS5 mit einer 6700 XT vergleichen, da liegen ca. +25% Rohleistung dazwischen.
reaperrr
2024-02-11, 13:37:30
Wenn der Chip tatsächlich nur 64 CUs haben soll, dann sind hier aber ordentlich Transistoren reingeflossen. N33 kommt in N6 auf 200mm², d.h. ein doppelter N33 (64 CUs, 256bit SI, 16x PCIe) käme ungefähr bei 400mm² raus. Wenn N48 in N4 nur moderat kleiner sein soll, würde ich von massiv besserer RT-HW ausgehen.
Naja, so viel mehr Packdichte bringt N4 gegenüber N6 nun auch wieder nicht.
30% kleiner als ein hypothetischer N33x2 in N6, bei größeren Registern und anderen Hardware-Upgrades kommt schon einigermaßen hin.
Ich würde hier generell eher vom N32-GCD hochrechnen, der ja schon mit nur 60 CU, 3 SE, 96 ROPs und ohne SIs oder IF$ ~200mm² ist, und da wird N48 neben 4 CUs mehr halt auch eine zusätzliche ShaderEngine und 32 ROPs mehr haben.
Dann vielleicht noch Caches und/oder Register weiter aufgebohrt, SI on-die, und 64 MB on-die IF$, allein letzterer dürfte schon rund 50-60mm² draufpacken.
350mm² wäre ein relativ fetter Anstieg, 300-330mm² für die Specs aber völlig im Rahmen.
Ich würde hier auch eher so denken: Nahezu AD103-Leistung in einer Fläche mittig zwischen AD103 und AD104 in nahezu gleichem Prozess und <=280W wäre ein ziemlicher Erfolg, dann hätten AMD prozessnormiert wieder zu Nvidia aufgeschlossen, auch wenn sie damit im Grunde 2 Jahre zu spät dran sind.
Dann noch RT-Leistung (relativ zur Rohleistung) wenigstens auf Ampere-Nivau, und es sähe schon wesentlich freundlicher aus als mit RDNA3, selbst wenn Blackwell gut wird.
7800XT-Niveau ist aber ein gutes Stück entfernt von "zwischen 7900XT und XTX". Damit wäre N48 deutlich schneller.
Ich hatte keine Lust mir das MLID-Video reinzuziehen, wird dort gesagt, die PS5Pro wäre auf dem Niveau von N48?
Das bezweifle ich stark, PS5Pro wird nur RDNA3.5 + verbesserte Geometrieeinheiten und hat nur 2 ShaderEngines mit je 28-30 aktiven CUs, dazu sind Konsolen eingeengter, was maximale TDP für den GPU-Teil angeht.
Das schließt nicht aus, dass gut optimierte Titel auf der PS5Pro effektiv genauso gut wie auf N48 laufen werden, das liegt dann aber mehr an besserer Optimierung + weniger OS/Treiber-Overhead, besseren ShaderCompilern usw., nicht an der Hardware.
Nakai
2024-02-11, 15:47:10
Warum dies,
Ist der einzig logische Weg, Chiplets sind Zukunft.
Das bei RDNA3 alles nicht komplett harmoniert ist eine andere Story.
Chiplets bei GPUs machen imo nur Sinn, wenn man die GCDs skalieren kann. Das haben wir aber bisher noch nicht gesehen und N4C wurde gecancelt. Es ist simpel, man macht kein Geld mehr mit Gaming und Chiplets verwendet man wohl eher bei Usecases wo eine Skalierung Sinn macht und deutlich einfacher ist (HPC). Und die Bonding-Kapazitaten sind dort auch besser aufgehoben. Das heißt nicht, dass wir Chiplets im Gaming nicht sehen werden.
Altehardware
2024-02-12, 06:40:45
Das wird sich ändern wenn tsmc auf stapelbare chips setzen wird was mit a15 passieren wird.
Da kommt aber erst nach 2030 in gpu an
patente weisen darauf hin das man chips Aufeinandersetzen wird dies ist aber nur von amd was nvidia plant ist völlig offen nach n2x ist erstmal Schluss mit Skalierung der sm und der Takt kann auch past n2x nicht mehr steigern.
Womit das maximum bei grob 36864 alu ist mit ne si das nur noch 25% der chipfläche frisst
man muss min planar auf mehrere chiplets die alu aufteilen um dann mehr zu skalieren.
Der a15 node könnte die alu verdoppeln aber dies wird den Takt senken auf dann nur noch 2,6ghz statt 3,2ghz
amd hat den weg gewählt planar die alu in gcd aufzuteilen um dann in die breite zu gehen
Den schritt wollte man mit rdna4 machen aber es stellte sich heraus das die Kapazitäten in hpc besser aufgehoben sind womit diese abgebrochen wurden und rdna5 stattdessen in n3 node das umzusetzen.
Bisher bekannt sind 60cu als gcd davon 3 mit dann 6mcd auf den gcd auf nen aktiven interposer
Der Vorteil dieses design der aktive interposer transportiert nicht die Daten die Latenz kritisch sind, das geht von den gdc direkt in die mcd um dann am rand der gcd das SI zum board wo der vram ist.
Dadurch verschwindet der enorme energieaufwand um die daten zu transportieren.
Sprich der Takt geht definitiv Richtung 4,5ghz dann kommt hinzu das der cache Takt synchron läuft.
Also wird 180*64*2,34*4,5/1000 =121,3tf maximal erreicht (nvidia wird definitiv nur knapp mit dabei sein mit 108tf)
Daher nehme ich an das amd mit rdna5 nur 2 chips bauen wird
n51 n52 einmal 3 gcd und einmal 2 gcd
Es wird noch ne monolithischen chip geben mit 60cu auf n3 node als apu
kein low end mehr
Dafür wird man am6 aber komplett neu ansetzen und von dual channel weg gehen kann sogar sein das man ddr6 mit 128bit per ramplatz anbinden wird. oder auf den apu hbm verbaut ist
je nachdem was billiger ist.
Spannend wird was aus Win 12 und Ai Anforderungen wird und wo die npu sein muss
Amd hat das in apu drin das wird nach 8000g in jeder apu drin sein. Quasi ab zen 5
Ob das auch in rdna4 drin ist ziemlich wahrscheinlich was ein Anzeichen sein kann das ms nur vorgibt das eine npu vorhanden sein muss für win 12. Ob cpu oder gpu spielt keine rolle.
Was macht nvidia? da ist nix bekannt. Intel ebenso nicht kann sein das der hype um ai bald platzt. Nvidia spricht über software wohl angemerkt. maßgeblich um ihr cuda api zu retten.
Wir werden sehen
Badesalz
2024-02-13, 18:57:13
Der Hype wird nicht "platzen" :rolleyes: Es wird nur sinken und sich irgendwann einpendeln.
ashantus
2024-02-15, 02:39:04
zu altehardware
"wahrscheinlich ist wird die rx8800xt grob q4 2024 kommen.
perf zwischen der rx7900xt und rx7900xtx bei min 3,7ghz und maximal 3,9ghz Takt 64cu ab 650$"
Bei Techpowerup gibt es den Kalender für 2024.
Darin wird bei AMD Radeon 8000 erwähnt, daß man sich auf Navi 48 und Navi 44 konzentriert für das Mainstream- und Performancesegment. Die 8800XT solle wohl auf die Rasterizer-Leistung einer 7900XT kommen.
D.h. Navi 48 wird wohl 256 bit mit 16 GB Ram, denn 12 GB Ram@ 192bit machen kaum Sinn. Eine Rasterizerperformance der 8800 gleich zur 7900XT heißt auch, daß der eigentliche Vorteil von RDNA 4 erstens eine bessere RT Leistung ggü. der 7900XT ist, zweitens ein niedrigerer Stromverbrauch.
Zum Preis werden 400 Dollar erwartet. Diese Preisfindung erklärst sich für mich durch die kleinere DIE-Fläche, sowie durch die kommende Marktsituation.
Was den GPU Markt angeht, ist zu beachten daß Intel zeitgleich Battlemage bringen wird. Somit werden Radeon 8800 und Battlemage im direkten Konkurrenzkampf erscheinen, mit Auswirkung auf die Preise.
Nvidia ist bei Markteinführungen immer Top-Down gegangen, das teuerste Modell zuerst. Also kommt vor Weihnachten höchstens erstmal 5090. Diese steht also nicht in Konkurrenz zum Segment von AMD und Intel.
Techpowerup:
[https://www.techpowerup.com/review/future-hardware-releases/#rdna4
Navi 43 planned # Generation codename "GFX1200" # also "GFX1201" # Sources"]AMD RDNA 4 / Radeon RX 8000 Series [updated] Release Date: 2024 Uses Navi 4x GPU family Focus on gaming performance, without going overboard with AI # Improvements to draw calls # Possibly no plans for high-end GPUs, only x700 and below # Product stack tops out at $400, but with performance similar to RX 7900 XTX # Only Navi 44 and Navi 43 planned # Generation codename "GFX1200" # also "GFX1201" # Sources[/URL]
AMD RDNA 4 / Radeon RX 8000 Series [updated]
Release Date: 2024
Uses Navi 4x GPU family
Focus on gaming performance, without going overboard with AI #
Improvements to draw calls #
Possibly no plans for high-end GPUs, only x700 and below #
Product stack tops out at $400, but with performance similar to RX 7900 XTX #
Only Navi 44 and Navi 43 planned #
Generation codename "GFX1200" #
also "GFX1201" #
Sources
Edit 1: defekten Link korrigiert
Edit 2: Bei TPU spricht man von Navi 43 und 44, bei MLID spricht man von Navi 48 und 44. Also in der Diskussion beachten, daß die Gerüchteküche manchmal Navi 43 und Navi 48 miteinander vermischen.
amdfanuwe
2024-02-15, 07:23:15
zu ashantus
Techpowerup klebt auch nur Gerüchte zusammen und hat anscheinen noch nicht aktualisiert.
Letzter Stand ist das MLiD Gerücht (https://www.notebookcheck.net/RDNA-4-Navi-48-and-Navi-44-GPUs-leak-with-details-of-performance-memory-spec-and-more.802603.0.html):
N48 zwischen 7900XT und 7900XTX Raster 256 Bit SI 300-350mm²
N44 zwischen 7600XT und 7800XT Raster 128 Bit SI <210mm²
Meine Spekulation dazu:
N48 80CU in einer 4SE x 10WGP Konfiguration ( N32 ist 3SE x 10WGP)
Sinnvolle salvage chips: 4x9x2= 72CU, 4x8x2=64CU, 3x10x2=60CU, 3x9x2=54CU
80CU 8800XT 16GB >7900XT Performance
72CU 8700XT 16GB
60CU 8700 12(16)GB >7800XT Performance
N44 40CU als halber N48 entsprechend 2SE x 10WGP
Sinnvolle salvage chips: 2x9x2=36CU, 2x8x2=32CU
40CU 8600XT 16GB ~7700XT Performance
36CU 8600 8(16)GB
32CU 8500 8GB ~7600XT Performance
Beim Preis kommt es darauf an, wie die Leistung ausfällt und der Lagerbestand an den dann alten 7000er aussieht.
Man wird sich entsprechend der Leistung einsortieren. Schnäppchen würde ich da nicht erwarten. Wenn die Leistung > 7900XT (aktuell ab 760€) ausfällt wird auch der Preis darüber liegen. Man will ja nicht den Abverkauf der "Altware" torpedieren.
dargo
2024-02-15, 07:38:29
80CUs für N48 fände ich zwar toll. Aber mit 80CUs müsste man eher bei der 7900XTX rauskommen als bei der 7900XT. Schließlich wird RDNA4 sicherlich eine etwas bessere IPC vs. RDNA3 haben und die Taktraren sollten eigentlich auch eher bei >3GHz liegen.
Beim Preis kommt es darauf an, wie die Leistung ausfällt und der Lagerbestand an den dann alten 7000er aussieht.
Man wird sich entsprechend der Leistung einsortieren. Schnäppchen würde ich da nicht erwarten. Wenn die Leistung > 7900XT (aktuell ab 760€) ausfällt wird auch der Preis darüber liegen. Man will ja nicht den Abverkauf der "Altware" torpedieren.
Unsinn... Ende 2024 wird eine 7900XT keine 760€ kosten, zumal es jetzt schon begrenzte Angebote davon für 699€ gab.
reaperrr
2024-02-15, 07:38:52
Zum Preis werden 400 Dollar erwartet. Diese Preisfindung erklärst sich für mich durch die kleinere DIE-Fläche, sowie durch die kommende Marktsituation.
Was den GPU Markt angeht, ist zu beachten daß Intel zeitgleich Battlemage bringen wird. Somit werden Radeon 8800 und Battlemage im direkten Konkurrenzkampf erscheinen, mit Auswirkung auf die Preise.
Ich frag mich, was die bei TPU genommen haben.
256bit SI, 16GB und lt. Moore's Law Is Dead über 300mm² in N4P (also mindestens größer als AD104) wird es im Vollausbau nicht unter 499$ wie bei der 7800 XT geben, eher mehr.
Battlemage wird mMn noch nicht gut genug, um RDNA4 ernsthaft unter Druck zu setzen, zumal auch Intel es sich finanziell nicht mehr leisten kann, GPUs mit Verlust zu verkaufen.
Und laut MLID sind die Produktionskosten schon bei der 7700XT so hoch, dass selbst eine dauerhafte Preissenkung auf 400 bzw. 399$ AMD finanziell ziemlich wehtun würde, und 420-430 der niedrigste Preis ist, zu dem sich die 7700XT halbwegs lohnt.
Dann wird das bei N48 (N43 scheint's nicht mehr zu geben) nicht anders sein, vom Silizium her dürften >300mm² in N4P teurer sein als die 200mm² N5 + 3x37mm² N6 der 77XT und mindestens so teuer wie N32 mit 4 MCDs/256bit.
399$ dürften zum Launch eher was für die 8600 XT sein.
Meine Spekulation dazu:
N48 80CU in einer 4SE x 10WGP Konfiguration ( N32 ist 3SE x 10WGP)
Ich bin und bleibe der Ansicht, dass 64 CUs (4x8WGP) wahrscheinlicher ist.
N48 soll nur zwischen 79XT und 79XTX landen, aber Taktraten von über 3 GHz (unter Spielelast) schaffen.
Mit 80 CUs @ 3.0+ GHz in Spielen und uArch-Verbesserungen würde N48 auch die XTX schlagen, wenn die Bandbreite nicht zu sehr limitiert, GPUs skalieren mit Takt besser als mit CUs.
Außerdem wären 80 CUs @3+ Ghz mit nur 20Gbps GDDR6 @ 256bit SI aber garantiert häufig ziemlich hart im Bandbreitenlimit, dann hätte man relativ viel Fläche für CUs vergeudet, die man gar nicht vernünftig füttern kann.
64 CUs + ~25% mehr Takt als 7800XT + uArch-Verbesserungen passt wesentlich besser zu den Prognosen, und mMn auch zu den Flächenangaben.
dargo
2024-02-15, 07:51:41
Für mich klingen 60+CUs auch wesentlich realistischer als 80CUs. Die Taktziele bei RDNA3 wurden weit verfehlt wegen dem enormen Durst (man war hier gezwungen deutlich im Powerlimit zu bremsen). Das wird man sicherlich bei RDNA4 in den Griff bekommen haben. Ich erwarte durchaus ca. 3,2-3,3Ghz bei mittleren bis mittelhohen Heizlast in Games bei N48.
OgrEGT
2024-02-15, 08:01:56
Wenn doch N44 und/oder N48 architekturbedingt ggf Multichip fähig sind hoffe ich dennoch auf Dualchip Konstruktionen wenngleich auch in geringer Stückzahl zu gesalzenen Preisen... wenn die Architektur so gut für die Monolithen wird also bzgl. IPC und Takt und RT warum sollte man um des Halo Effekts willen nicht ein Highend Produkt realisieren? Titan Klasse?
dargo
2024-02-15, 08:16:37
Weil Kapazitäten eng sind und man diese besser in lukrativere Segmente außerhalb des Gamings investiert. Was ist daran so schwer zu verstehen? Im Gamingsegment kannst du nicht einfach mal eben 10k für eine Grafikkarte verlangen.
vinacis_vivids
2024-02-15, 08:25:36
Ich wäre auch nur ein der mGPU Karte interessiert, also an der "2 X N48" Version mit 120CUs @ 3,0 - 3,3Ghz mit Verbesserung in Matrix-WMMA.
Kann mir aber nicht vorstellen wieso 60CUs bei N48 plötzlich 300-350mm² Fläche schlucken sollen, während N32 bei 60CUs nur ~200mm² braucht. 100-150mm² mehr Fläche bzw. Transistoren für Takt, Matrix-WMMA, fp16 und fp8 ?
Der "More Law is Dead" ist technisch und fachlich einfach nicht auf der Höhe.
amdfanuwe
2024-02-15, 08:38:51
Ich bin und bleibe der Ansicht, dass 64 CUs (4x8WGP) wahrscheinlicher ist.
Bei der Trefferquote meiner Spekulationen ist es sehr wahrscheinlich, dass du Recht hast :redface:
Habe wohl zu sehr an die 40CU Chiplets bei MI300 gedacht.
Denke auch, dass 4 SEs wahrscheinlicher sind also 64 oder 80 CUs.
dargo
2024-02-15, 10:02:37
Kann mir aber nicht vorstellen wieso 60CUs bei N48 plötzlich 300-350mm² Fläche schlucken sollen, während N32 bei 60CUs nur ~200mm² braucht. 100-150mm² mehr Fläche bzw. Transistoren für Takt, Matrix-WMMA, fp16 und fp8 ?
Dann strenge mal deinen Kopf an. Das was in den 4 MCDs bei N32 gelandet ist muss bei RDNA4 wieder in das monolithische Design rein.
Schnitzl
2024-02-15, 12:01:54
das ist mir schon wieder alles zu positiv. wenn bei RDNA3 ein Designproblem existiert, kann AMD das evtl. erst mit RDNA5 bereinigen. Lasse mich natürlich gerne positiv überraschen.
Ich denke das "TOP-Modell" wird als 8800XT rauskommen mit Performance +/- 7900XT
mehr nicht
Vielleicht sind sie auch so bescheuert das 8900XT zu nennen - ich traue denen inzwischen alles zu ... :freak:
dargo
2024-02-15, 12:05:53
das ist mir schon wieder alles zu positiv. wenn bei RDNA3 ein Designproblem existiert, kann AMD das evtl. erst mit RDNA5 bereinigen.
Begründung warum RDNA4 genauso durstig sein sollte wie RDNA3 und erst RDNA5 nicht mehr? Eigentlich sollte man aus Fehlern beim letzten Design lernen und alles mögliche unternehmen damit sich dieser Fehler beim nächsten Design nicht wiederholt.
Dino-Fossil
2024-02-15, 12:12:11
Ich würde mich auch nicht zu sehr hypen lassen.
Am Ende kommt NVIDIA wieder 4 Monate früher und der große RDNA4-Chip kommt nur knapp über die 7800Xt , bei leichten RT und perf/Watt Verbesserungen.
Dann lieber positiv überraschen lassen.
Schnitzl
2024-02-15, 12:15:46
Begründung warum RDNA4 genauso durstig sein sollte wie RDNA3 und erst RDNA5 nicht mehr? Eigentlich sollte man aus Fehlern beim letzten Design lernen und alles mögliche unternehmen damit sich dieser Fehler beim nächsten Design nicht wiederholt.
ich habe Zweifel dass das innerhalb der Zeit möglich ist. Wenn ein tiefer Fehler im Design auftritt muss man unter Umständen alles komplett umbauen und das kostet massiv Zeit.
1. Wenn es "relativ einfach" zu fixen gewesen wäre (mit Respin oder ähnlichem) wäre der Fix bereits bei der 7800XT gekommen imho
2. die Einstellung des Halo-Projekts / Spitzenmodells - sicher ist der Hauptgrund vermutlich die Marge - aber dennoch weiss auch Lisa dass ein leistungsstarkes Topmodell verkaufsfördernd ist für alles "darunter"
dargo
2024-02-15, 12:22:12
1. Wenn es "relativ einfach" zu fixen gewesen wäre (mit Respin oder ähnlichem) wäre der Fix bereits bei der 7800XT gekommen imho
Da halte ich dagegen... nicht unbedingt, dafür kam N32 zu früh in den Handel.
Schnitzl
2024-02-15, 21:34:36
Da halte ich dagegen... nicht unbedingt, dafür kam N32 zu früh in den Handel.
naja N31 kam schon verzögert im Dez. 2022
N32 kam dann im Sept. 2023
Für mich ist das quasi ein Jahr Zeit, da man sicher deutlich früher als Dez 22 bei AMD wusste dass N31 nicht die Erwartungen erfüllt.
OgrEGT
2024-02-15, 21:42:06
Weil Kapazitäten eng sind und man diese besser in lukrativere Segmente außerhalb des Gamings investiert. Was ist daran so schwer zu verstehen? Im Gamingsegment kannst du nicht einfach mal eben 10k für eine Grafikkarte verlangen.
Daran ist gar nichts schwer zu verstehen. Nicht umsonst habe ich Titan Klasse gesagt... wie gesagt wenn die Architektur so gut wird wie gehofft und Multichip möglich ist warum sollte man das nicht machen?
10k Eur muss es nicht sein... 2-3k würde schon reichen um die Nachfrage und somit Stückzahl klein zu halten und aber den Halo Effekt mitzunehmen der den Umsatz in den High Volume Segmenten steigern könnte...
reaperrr
2024-02-16, 00:43:27
N32 kam dann im Sept. 2023
Weil AMD noch so hohe N21+22 Restbestände hatte.
Produziert und auf Halde gelegt wurden die N32-Karten schon ab März 2023, Tape-Out dürfte schon Mitte bzw. erste Jahreshälfte 2022 gewesen sein.
ich habe Zweifel dass das innerhalb der Zeit möglich ist. Wenn ein tiefer Fehler im Design auftritt muss man unter Umständen alles komplett umbauen und das kostet massiv Zeit.
1. Wenn es "relativ einfach" zu fixen gewesen wäre (mit Respin oder ähnlichem) wäre der Fix bereits bei der 7800XT gekommen imho
Wenn ein einfacher Respin bei RDNA3 gereicht hätte, hätten sie es gefixt, sehe ich auch so.
Es kann aber auch ein relativ moderates Architekturproblem gewesen sein, welches in RDNA3 zu so einem späten Zeitpunkt zu fixen zwar zu teuer gewesen wäre (erste GCD-Gen inkl. Masken usw. wären wertlos gewesen, dazu weitere Monate Verzögerung), für einen Fix in RNDA4 aber sehr wohl rechtzeitig entdeckt wurde.
Möglich auch, dass RDNA4 - zumindest die Mainstream-Monolithen - von vornherein anders genug war, dass man weniger ändern musste, als man an RDNA3 hätte ändern müssen. Der Fehler oder zumindest ein Teil des Problems könnte z.B. in der MCD-Kommunikation (die N44+48 logischerweise nicht betrifft) gelegen haben, oder in Taktbarkeit/Verbrauch der MCDs/des FanOuts o.ä.
Von dem Nicht-Fix für N32 auf RDNA4 zu schließen halte ich jedenfalls für etwas weit hergeholt, so nah sind die zeitlich nun auch wieder nicht. Wenn RDNA4 erst in Q4 kommt, sind das fast 2 Jahre nach N31, das ist eigentlich schon ne Menge Zeit. Die RDNA3-Takt-Probleme wird AMD spätestens Sommer 2022 gekannt haben, N44+48 hatten erst im Sommer 2023 Tape-Out.
2. die Einstellung des Halo-Projekts / Spitzenmodells - sicher ist der Hauptgrund vermutlich die Marge - aber dennoch weiss auch Lisa dass ein leistungsstarkes Topmodell verkaufsfördernd ist für alles "darunter"
RDNA4 sollte im HighEnd beim Chiplet-Ansatz den nächsten Schritt machen, aber genau dabei gab es wohl Probleme, für die sich noch keine klare Lösung abzeichnete.
Und da Halo aus Marketing-Gründen immer zuerst kommen soll, hätte ein weiteres Rumwerkeln an den Chiplet-RDNA4 die Mainstream-N4x indirekt um Monate verschoben, obwohl zumindest die keine Probleme machten.
Und dass es mit RDNA4 gegen Blackwell eher schwer geworden wäre, war wohl auch absehbar.
Dass man dadurch mehr Packaging-Kapazität für MI300/400 freimacht war sicher ein weiterer Grund, aber nicht der Einzige.
Marge werden auch die beiden Mainstream-N4x nicht wahnsinnig viel haben, wenn es allein danach ginge würde AMD Gaming-Karten wohl ganz einstellen.
vinacis_vivids
2024-02-20, 16:39:36
Zwei N48-GCD mit insgesamt 128CU sind gegen Blackwell durchaus möglich. Dürfte sogar billiger zu produzieren sein als einen riesigen Monolith, der fünfstellig kostet.
Die 64CU GCD in N4P dürfte klein genug sein um hohe Ausbeute zu erzielen.
64CU RDNA4 passen sicherlich auf 210-230mm^2 Siliziumfläche.
Die letzten Karten waren ja für Apple auf RDNA2-Basis: W6800X Duo.
Das Ding kostet aber über 5K Euro und ist für den gemeinen Gamer zu teuer.
BlacKi
2024-02-20, 19:22:14
N33 kommt in N6 auf 200mm², d.h. ein doppelter N33 (64 CUs, 256bit SI, 16x PCIe) käme ungefähr bei 400mm² raus. Wenn N48 in N4 nur moderat kleiner sein soll, würde ich von massiv besserer RT-HW ausgehen. laut tsmc ist n4p 1,6x dichter packbar als n6 was die logic angeht. das wären dann nur noch 250mm² für die logic. SI und Cache skalieren aber wenig bis kaum noch. deshalb kannst du locker nochmal bis zu 100mm² draufrechnen.
ich glaube generell schlägt wieder die zeit irgenwann für HBM im gaming, da dessen SI doch deutlich kleiner ist. irgendwann hat man nur noch 20% logic, der rest ist nur noch cache und SI^^
TSMC's N3 features an SRAM bitcell size of 0.0199µm^², which is only ~5% smaller compared to N5's 0.021 µm^²SRAM bitcell. It gets worse with the revamped N3E as it comes with a 0.021 µm^² SRAM bitcell (which roughly translates to 31.8 Mib/mm^²), which means no scaling compared to N5 at all. https://www.tomshardware.com/news/no-sram-scaling-implies-on-more-expensive-cpus-and-gpus
AffenJack
2024-02-20, 19:29:21
ich glaube generell schlägt wieder die zeit irgenwann für HBM im gaming, da dessen SI doch deutlich kleiner ist. irgendwann hat man nur noch 20% logic, der rest ist nur noch cache und SI^^
Es ist ja nicht nur die Diegröße, ebenso der Verbrauch. GDDR7 ist 20% effizienter als GDDR6, aber 50% schneller. Langsam wandert das gesamte TDP Budget in die Bandbreitenversorgung durch den RAM. Mit etwas Glück werden durch den AI Boom solche HBM Kapazitäten geschaffen, dass später damit auch Consumer möglich ist.
Edit:
Raja Koduri
@RajaXg
The answer is no. Unfortunately the $/byte on HBM has increased and all indications are that HBM4 would cost even more per-byte! HBM pricing is following inverse Moore's law!!
https://twitter.com/i/web/status/1760516439730212995
Ok, vergessen wir alle Gedanken, dass HBM jemals in Consumer wandert. Das hat sich erledigt.
Leonidas
2024-03-01, 07:40:06
RDNA4 Specs & Performance Update seitens RGT:
https://www.3dcenter.org/news/news-des-29-februar-2024
- ist nun nahe dem, was MLID sagt
- große Differenz: Chipflächen lt. MLID deuten auf 5nm hin, Chipflächen lt. RGT deuten auf 3nm hin
3nm ist illusorisch dafür, der ist eh N4P. Alles andere ist Quatsch. Auch die 5nm für Battlemage ist quatsch. Diese Chips sind alle in der N4P-Generation entstanden und dieser Prozess wird mMn auch dafür genutzt werden (vielleicht gibts noch Optionen auf 4LPP Samsung, das will ich nicht ausschließen, auch für BW oder BM).
Ich bin ja auch der Anicht, dass selbst Blackwell GB2xx N4P ist (selbst wenn NV das wieder 3N nennen wird, das kennen wir ja schon), da NV N3 komplett für KI- und Datacenter-Kram belegen wird und NV ist ja nicht der einzige N3-Kunde, die werden jeden einzelnen Wafer für B100 brauchen, der dann massiv Marge machen wird und nicht für blöde zu billige consumer-Grafik verschwendet wird.
reaperrr
2024-03-01, 09:02:46
RDNA4 Specs & Performance Update seitens RGT:
https://www.3dcenter.org/news/news-des-29-februar-2024
- ist nun nahe dem, was MLID sagt
- große Differenz: Chipflächen lt. MLID deuten auf 5nm hin, Chipflächen lt. RGT deuten auf 3nm hin
Vielleicht war auch einfach der Flächenaufwand für die IF-Interfaces für die MCD-Anbindung bei N32 fast so groß wie ein natives SI, wobei dann immer noch fraglich wäre, wie man zusätzlich auch noch 64MB IF$ in <=30mm² unterbringen soll.
Also ja, in N4P wären die Flächenangaben von MLID realistischer, "größer als AD104 aber kleiner als AD103" passt besser zu den kolportierten Performance- und Verbrauchsangaben.
265W bei nur ~230mm² stell ich mir außerdem schwer zu kühlen vor (bei N32 wird ja ein Teil des Verbrauchs von den MCDs kommen, und nicht alles vom GCD).
reaperrr
2024-03-01, 09:12:39
Ich bin ja auch der Anicht, dass selbst Blackwell GB2xx N4P ist (selbst wenn NV das wieder 3N nennen wird, das kennen wir ja schon), da NV N3 komplett für KI- und Datacenter-Kram belegen wird und NV ist ja nicht der einzige N3-Kunde, die werden jeden einzelnen Wafer für B100 brauchen, der dann massiv Marge machen wird und nicht für blöde zu billige consumer-Grafik verschwendet wird.
Puh, 33% mehr SM (im Vollausbau) und gerüchteweise 2x ALUs/DualIssue je SM in einem kaum dichteren Prozess?
Gut, AD102 ist ~600mm², und bis ca. 800mm² wäre wohl noch Luft... nur die große Perf/W-Verbesserung sehe ich dann nicht, erst recht nicht die von MLID kolportierten 50-70% (außer mit 500-550W PT).
Ich denke, die sind N3E, zumindest GB202 und 203. NV wird bei den großen Blackwells eher die Menge künstlich limitieren, um Nachfrage und Marge hoch zu halten und die restliche Kapazität für die HPC/AI-Chips nutzen zu können.
GB205 abwärts sind entweder N4P, oder kommen später und in relativ mickrigen Stückzahlen.
DrFreaK666
2024-03-01, 09:28:47
Puh, 33% mehr SM (im Vollausbau) und gerüchteweise 2x ALUs/DualIssue je SM in einem kaum dichteren Prozess?
Gut, AD102 ist ~600mm², und bis ca. 800mm² wäre wohl noch Luft... nur die große Perf/W-Verbesserung sehe ich dann nicht, erst recht nicht die von MLID kolportierten 50-70% (außer mit 500-550W PT).
Ich denke, die sind N3E, zumindest GB202 und 203. NV wird bei den großen Blackwells eher die Menge künstlich limitieren, um Nachfrage und Marge hoch zu halten und die restliche Kapazität für die HPC/AI-Chips nutzen zu können.
GB205 abwärts sind entweder N4P, oder kommen später und in relativ mickrigen Stückzahlen.
Falscher Thread
BlacKi
2024-03-01, 09:29:48
eher einen angepassten n4p. nv nutzt nur noch an nv angepasste fertigungen.
Zossel
2024-03-01, 10:41:15
eher einen angepassten n4p. nv nutzt nur noch an nv angepasste fertigungen.
Sind diese "angepassten" Prozesse nicht im wesentlichen nur Marketing-blabla?
reaperrr
2024-03-01, 10:50:02
Falscher Thread
Ich wollte es eigentlich in den vorherigen Post editieren, dann wäre immerhin die Hälfte des Posts zum Thread-Thema gewesen, bloß ist mir das erst wieder eingefallen, als ich schon auf Antworten geklickt hatte.
Wobei, mal ganz ehrlich: In einem Speku-Thread jetzt ganz auf spekulative Details zur Konkurrenz zu Vergleichszwecken verzichten zu müssen, finde ich etwas übertrieben.
Aber wenn ein Moderator das verschieben kann/will, meinen Segen hat er...
BlacKi
2024-03-01, 11:08:33
Sind diese "angepassten" Prozesse nicht im wesentlichen nur Marketing-blabla?spielt das eine rolle? es wird so oder so nicht n4p sein.
Zossel
2024-03-01, 12:00:56
Dem ist nichts hinzufügen:Das ist schon länger so, aber jetzt ist es amtlich: Nehmt Displayport. Lasst HDMI einen langsamen, schmerzhaften Tod sterben. https://blog.fefe.de/?ts=9b1f698a
https://arstechnica.com/gadgets/2024/02/hdmi-forum-to-amd-no-you-cant-make-an-open-source-hdmi-2-1-driver/
Wahrscheinlich ist das Zeug broken by Design, sonst bräuchte es kein "security by obscurity":
Phoronix and some commenters have suggested potential interference from media firms concerned about digital video ripping. That would seem like a barn door closed years after the horse's departure, but it also exists as one explanation, lacking other detail.
Puh, 33% mehr SM (im Vollausbau) und gerüchteweise 2x ALUs/DualIssue je SM in einem kaum dichteren Prozess?
Gut, AD102 ist ~600mm², und bis ca. 800mm² wäre wohl noch Luft... nur die große Perf/W-Verbesserung sehe ich dann nicht, erst recht nicht die von MLID kolportierten 50-70% (außer mit 500-550W PT).
Ich denke, die sind N3E, zumindest GB202 und 203. NV wird bei den großen Blackwells eher die Menge künstlich limitieren, um Nachfrage und Marge hoch zu halten und die restliche Kapazität für die HPC/AI-Chips nutzen zu können.
GB205 abwärts sind entweder N4P, oder kommen später und in relativ mickrigen Stückzahlen.
Wie bei Turing, dann wirds halt 750mm². N3E ist die Geldkackmaschine für NV, ich halte das für total illusorisch, dass man da auch nur einen Krümel den Consumern zukommen lässt, da ist keinerlei Mildtätigkeit zu erwarten. Wenn die ihr gesamtes N3-Kontingent in KI-Chips loswerden, wird man auch alles darin produzieren. Vielleicht macht man einen Zwischenschritt am oberen Ende mit Rubin, der wäre dann N3.
Bei AMD ist es übrigens das gleiche, die machen ja alles N4P, RDNA4, alle APUs, das CCD... N3 wird bei AMD nur MI400 und Turin Dense. Die kalkulieren halt gernauso mit dem KI-Hype und Turin Dense ist das Probukt um den Servermarkt zu dominieren.
mboeller
2024-03-01, 13:10:25
RDNA4 Specs & Performance Update seitens RGT:
https://www.3dcenter.org/news/news-des-29-februar-2024
- ist nun nahe dem, was MLID sagt
- große Differenz: Chipflächen lt. MLID deuten auf 5nm hin, Chipflächen lt. RGT deuten auf 3nm hin
Wenn die Chipfläche für N48 stimmen sollte (~220mm², aber 5nm) wäre der Preis für die Karten vielleicht auch in der Größenordnung wie eine 7600XT - 7700XT, also 350-450,- Euro... und dann 7900XT Performance. Vielleicht ein Winner?
amdfanuwe
2024-03-01, 13:11:39
N3E ist die Geldkackmaschine für NV, ich halte das für total illusorisch, dass man da auch nur einen Krümel den Consumern zukommen lässt,
...
Bei AMD ist es übrigens das gleiche, die machen ja alles N4P, RDNA4, alle APUs, das CCD...
Wäre ich mir nicht sicher.
COWOS soll ja sie Kapazität begrenzen, nicht die Wafer Verfügbarkeit.
AMD nutzt doch eher selten den neuesten Node. Da wird nach Apple, Intel, Nvidia etc. auch wenig Kapazität zu akzeptablen Preisen übrig sein.
Mit Phoenix hat AMD ja schon N4 Erfahrung, die werden den Node nochmal so richtig ausquetschen.
w0mbat
2024-03-01, 13:16:38
Da muss ich uwe zustimmen, CoWoS und HBM limitieren, nicht N3E wafer.
amdfanuwe
2024-03-01, 14:05:43
wäre der Preis für die Karten vielleicht auch in der Größenordnung wie eine 7600XT - 7700XT,
Warum sollte er, wenn die Performance auch höhere Preise ermöglicht.
Ein Winner wirds für AMD nur, wenn sie das Maximum an Gewinn aus dem Chip erwirtschaften können.
-------------------
In wiefern wird eigentlich die Dense Library bei GPU genutzt? Könnte da AMD auf Grund ihrer Erfahrung mit Phoenix noch was rausholen?
Der_Korken
2024-03-01, 15:01:17
Wenn man mal großzügig davon ausgeht, dass IMCs und GDDR6-PHYs nicht größer sind als die IF-PHYs und Logik und man für 64MB IF$ nur 40mm² braucht, müsste der GPU-Teil von 200 auf 180mm² geschrumpft sein, obwohl dort 7% mehr CUs, eine SE mehr und noch zusätzliche HW-Kapazitäten für RT untergebracht sein sollen. Dazu soll das ganze ja offensichtlich mit hohen Taktraten laufen bzw. zumindest keine Regressionen gegenüber dem, was für RDNA3 vielleicht mal geplant war. Das sind so viele Wenns und Abers, dass ich das nicht für glaubwürdig halte. Am ehesten ginge es noch, wenn AMD alle RT-Verbesserungen gestrichen und den Registeraufbau wieder auf N33-Level zusammengestaucht hätte. Aber selbst dann wäre für 256bit SI eigentlich zu wenig Platz.
amdfanuwe
2024-03-01, 15:47:46
eine SE mehr
N32 sind 3SE * 10WGP = 30WGP
N48 sollen 4SE* 8WGP = 32WGP sein
Der_Korken
2024-03-01, 16:08:27
N32 sind 3SE * 10WGP = 30WGP
N48 sollen 4SE* 8WGP = 32WGP sein
Genau. Die zusätzlichen Rasterizer, ROPs und L1$ (sofern der Aufbau so bleibt) kosten ja auch etwas Platz.
E39Driver
2024-03-01, 16:12:31
Hmm Performanceprognose nun doch unterhalb der 7900XT und dazu hoher Stromverbrauch von 265 Watt auf winzigen Chip. Also scheinbar bis zum Anschlag geprügelt. Sieht enttäuschend aus. Damit würde man sich im Performance pro Watt Verhältnis ja immer noch nicht wirklich von Navi 21 aus dem Jahr 2020 absetzen können und dies jetzt 2 Generationen weiter.
Mal schauen ob es wirklich so kommt
basix
2024-03-01, 16:29:37
N48 könnte schon etwas kleiner als 300mm2 sein. Mit 256bit und 64MB IF$ wäre das mMn schon ein gutes, aber auch realistisches Resultat. Zwischen N23 und N33 Chipgrösse wird es in N4 nie und nimmer landen. Wüsste nicht wie das gehen sollte. Wenn da noch dedizierte RT-Units und allenfalls sogar Matrix Cores dazu kommen, wird man in N4 schnell etwas grösser als 300mm2 werden. AD104 kann man da als Referenz nehmen.
Achill
2024-03-01, 19:56:55
Wenn die 64MB L3 kommen, dann deutet das aber imho auf eine GPU für FHD/WQHD hin ...
Mal schauen ob es wirklich so kommtWenn ja "muss" ich leider wieder zu nvidia greifen.
Ich hoff doch sehr, dass dieses Gerücht nicht stimmt.
Leonidas
2024-03-02, 09:13:39
Bei AMD ist es übrigens das gleiche, die machen ja alles N4P, RDNA4, alle APUs, das CCD... N3 wird bei AMD nur MI400 und Turin Dense. Die kalkulieren halt gernauso mit dem KI-Hype und Turin Dense ist das Probukt um den Servermarkt zu dominieren.
Die These hat was. Aber die von RTG genannten Chipflächen sind in N4 nie zu erreichen. Nicht bei dem was RDNA3 bereits unter N5 benötigt. Ergo muß sich RTG in diese Frage irren, wenn es N4 sein sollte. Auch Derivate von N4 würden das nicht schaffen.
Ich glabe, dass weder der RGT nocht MLID irgendwelche belastbaren Infos zu RDNA4 haben. AMD scheint das hermetisch abgeschottet zu haben, schwer zu sagen wieviel Desinformation da auch im Spiel ist. Sieht man ja an den ständig wechselnden Specs.
Leonidas
2024-03-02, 10:23:03
Gut denkbar. Leider ist von außen nicht einzusehen, wie gut die jeweilige Quellenlage ist. Und manchmal haben die Herren YouTuber ja auch tatsächliche Treffer. Ganz ignorieren geht daher auch nicht.
BlacKi
2024-03-02, 10:30:18
Wenn die 64MB L3 kommen, dann deutet das aber imho auf eine GPU für FHD/WQHD hin ...oder man kann irgendwie den gddr7 move machen.
Wenn die Chipfläche für N48 stimmen sollte (~220mm², aber 5nm) wäre der Preis für die Karten vielleicht auch in der Größenordnung wie eine 7600XT - 7700XT, also 350-450,- Euro... und dann 7900XT Performance. Vielleicht ein Winner?und dann das rdna3 portfolio ohne gewinn weiterverkaufen? es macht halt überhaupt keinen sinn, sein eigenes portfolio zu torpedieren und die konkurenz zur preissenkung zu zwingen.
Neurosphere
2024-03-02, 11:43:56
Generell kann man zu den next-gen Chips bei AMD aber sagen sie werden nicht nur mehr RT Power bieten, sie müssen mehr RT Power bieten. Wenn AMD die Deals mit den Konsolenherstellern halten will müssen sie da einfach zulegen sonst verlieren sie ihre Verträge.
Von daher denke ich das wir bei RDNA 4 dort die Performance-Steigerung sehen und nicht wirklich bei klassischen lasten. Wenn man dort also nicht mit einer 7900 XT mithalten kann ist es kein Beinbruch und auch nicht das Ziel.
Achill
2024-03-02, 12:17:42
Generell kann man zu den next-gen Chips bei AMD aber sagen sie werden nicht nur mehr RT Power bieten, sie müssen mehr RT Power bieten. Wenn AMD die Deals mit den Konsolenherstellern halten will müssen sie da einfach zulegen sonst verlieren sie ihre Verträge.
Von daher denke ich das wir bei RDNA 4 dort die Performance-Steigerung sehen und nicht wirklich bei klassischen lasten. Wenn man dort also nicht mit einer 7900 XT mithalten kann ist es kein Beinbruch und auch nicht das Ziel.
Ich finde man muss dies aus dem Standpunkt der Zukunft betrachten. Wenn RDNA4 kommt, dann gibt es oder kommt Zeitnah auch Blackwell. Ich würde mich sehr wundern wenn NV nicht wieder einen ordentlichen Sprung macht - dies muss passieren wenn man weiter +1500/2100€ Karten verkaufen will.
Damit rutschen dann aber auch alle Karten der letzten Generation in ihren relativen Leistungsklassen mindestes eine Stufe nach unten. Davon ausgehen finde ich dann eine Stagnation der Raster-Performance auf dem Level einer 7900 XT nicht gut, denn man darf m.E. nicht vergessen, dass Raytracing auch sehr wohl viel Shader-Last erzeugt.
Wenn man nur davon ausgeht, dass maßgeblich RDNA 4 Verbesserung für RT mitbringt bzw. zur Konkurrenz in diesen Teilen wirklich aufholt, dann ist dies nur die halbe Miete. Wenn z.B. der Durchlauf von den BHVs per HW beschleunigt wird, so muss (vereinfacht) pro Pixel für die n-Rays mit jeweils m-Bounces an jede dieser Position/Schnittpunkt Berechnungen für sich das dort befinde Polygon mit Textur/Material/Shader passieren ... und AMD wird mehr Roh-Power brauchen, weil NV natürlich nicht Ray-Reconstruction für die Konkurrenz (AMD und Intel) öffnen wird.
Nur weil man einen Flaschenhals löst heißt dies nicht, dass sich dahinter nicht ein anderer Versteckt. Wenn es wirklich so kommt, das es eher eine Mid/High Range Karte wird, dann hoffe ich für AMD auf Preise ...
dildo4u
2024-03-02, 13:07:05
Wenn die Chipfläche für N48 stimmen sollte (~220mm², aber 5nm) wäre der Preis für die Karten vielleicht auch in der Größenordnung wie eine 7600XT - 7700XT, also 350-450,- Euro... und dann 7900XT Performance. Vielleicht ein Winner?
Speicher limitiert solche Dumping Preise.
Da alle neuen Karten vermutlich 16GB haben wird zu teuer sieht man jetzt schon 7700XT 400€,7600XT 350€ obwohl die 7700XT 30% schneller ist.
Der 6nm Chip sollte eigentlich erlauben das man Nvidia massiv unterbietet was nicht der Fall ist.
Slipknot79
2024-03-02, 14:18:55
Gut denkbar. Leider ist von außen nicht einzusehen, wie gut die jeweilige Quellenlage ist. Und manchmal haben die Herren YouTuber ja auch tatsächliche Treffer. Ganz ignorieren geht daher auch nicht.
Statistische Auswertungen hierzu wären interessant.
robbitop
2024-03-02, 14:58:32
8 gbit (1GB) gddr6 kostet unter 3$ als Spotpreis (gab auch lows unter 2 USD):
https://www.dramexchange.com/
Bei großen Stückzahlen eher weniger.
Der Aufpreis von 8 auf 16 GB wären als < 24 $.
reaperrr
2024-03-02, 15:31:47
Speicher limitiert solche Dumping Preise.
Da alle neuen Karten vermutlich 16GB haben wird zu teuer sieht man jetzt schon 7700XT 400€,7600XT 350€ obwohl die 7700XT 30% schneller ist.
Der 6nm Chip sollte eigentlich erlauben das man Nvidia massiv unterbietet was nicht der Fall ist.
Wie robbitop oben schrieb, am Speicher liegt es nicht.
AMD zielt bei der 7600 XT auf möglichst hohe Marge und nutzt hier aus, dass die 4060 keine 16GB-Variante hat und die 4060Ti-16GB immer noch über 400 kostet.
AMD könnte die 7600XT problemlos für unter 300 und die 7600 unter 250 anbieten. Nur hätten sie davon nichts, weil sie dann wahrscheinlich ca. 50-100% mehr Karten verkaufen müssten um auf den gleichen Nettogewinn zu kommen, und dafür ist in dieser Leistungsklasse - auch wegen der Konkurrenz durch gebrauchte 6650XT, 6700er und 3070/3060Ti/3060-12G - die Nachfrage vermutlich nicht hoch genug.
BlacKi
2024-03-02, 16:20:03
kommt drauf an, wann man die preise ausgehandelt hat. aber selbst dann können die 8gb extra für extra 24€ nicht in einem 24€ teureren produkt resultieren.
Given the spot prices of GDDR6, equipping a graphics board with 8GB of memory cost at least $104 in early 2022 — a sizeable amount of money.
Ultimately, equipping an AIB with 16GB of memory can be costly, even today, especially if you want to be flexible in terms of price.
We do need to consider that a $27 increase in the bill-of-materials (BoM) can translate into double that for the retail price. That would make a 16GB card cost $54 extra (give or take). Also, the above IC prices are for 8Gb ICs, but modern GPUs are using 16Gb ICs (2GB each) — that's necessary to get 8GB on a 128-bit interface with just four chips. However, we assume 16Gb IC prices are generally tracking the 8Gb IC prices.
artikel aus dem juni:
wurde der nichtschonmal hier verlinkt?
https://www.tomshardware.com/news/gddr6-vram-prices-plummet
robbitop
2024-03-02, 16:28:45
Naja die Erhöhung wird natürlich verdoppelt weil sie davon auch Marge haben wollen. Bei gleicher Gewinnspanne (absolut) könnte man annähernd die BOM Steigerung annehmen. Und der Artikel sagt ja auch dass die 16gb Chips den Preisen der 8gb Chips folgen. Zumal Nvidia und AMD wahrscheinlich keine Spotpreise zahlen aufgrund des hohen Volumes.
Es will halt bei einer 16 gb SKU auch mehr (absolute) Gewinnspanne gemacht werden. Nachvollziehbar sonst wäre es sinnfrei eine aufzulegen. Aber in einem Preiskrieg kann man davon auch mal was absenken, wenn sie SKUs schlecht verkaufen sollten. (die guten alten Zeiten…)
BlacKi
2024-03-02, 18:18:43
naja, je nach dem wann die verträge abgeschlossen wurden. da die preise über die jahre hinweg gefallen sind, würde ich mal annehmen, das sie damals teurer waren. also die vertrags chips werden damals teurer abschlossen worden sein, als sie heute sind.
alles andere wäre unlogisch.
rdna kam ende 2022, d.h. die verträge wurden grob mitte 2022 abgeschlossen. da haben die pro gb noch über 7$ gekostet, vergünstigt dann für 3-5euro so meine these. und die 2gb module werden minimal teurer sein.
ich halte 50€ aufpreis für normal. und da liegen die preise aktuell auch. 50-60€ teurer für 16gb statt 8gb. 100€ sind natürlich viel zu teuer, war aber klar, das die preise fallen müssen.
die frage ist eher, würdet ihr für eine 4070ti / 7700xt mit 24gb 100-150€ mehr zahlen? oder doch eine ti super 16gb / 7800xt für 850€/ 530€ kaufen?
robbitop
2024-03-02, 18:52:24
Ich kann mir nicht vorstellen, dass Verträge statische Preise haben und dann noch über eine so lange Zeit. RAM ist commodity.
BlacKi
2024-03-02, 19:25:18
so ganz ohne sicherheiten? bezweifle ich. das sind rießige mengen, genau wie bei den wafern, wirds da mindestabnahmen zu bestimmten preisen geben.
robbitop
2024-03-02, 19:29:21
Nvidia/AMD wird aber keine 7 usd zahlen wenn der Spotpreis bei 3 usd liegt. Da wird es schon entsprechende Mechanismen zur Preisentwicklung geben. In meiner Branche läuft es so: da gibt es auch Verträge über mehrere Jahre mit unseren Kunden und dennoch wird der Preis jedes Quartal angepasst je nach Rohstoffkosten und je nach constitute. Ich kann mir kaum vorstellen, dass Nv/AMD commodity suppliers erlauben Speicher zum doppelten Spotpreis zu verkaufen über Jahre.
AffenJack
2024-03-02, 20:00:10
Nvidia/AMD wird aber keine 7 usd zahlen wenn der Spotpreis bei 3 usd liegt. Da wird es schon entsprechende Mechanismen zur Preisentwicklung geben. In meiner Branche läuft es so: da gibt es auch Verträge über mehrere Jahre mit unseren Kunden und dennoch wird der Preis jedes Quartal angepasst je nach Rohstoffkosten und je nach constitute. Ich kann mir kaum vorstellen, dass Nv/AMD commodity suppliers erlauben Speicher zum doppelten Spotpreis zu verkaufen über Jahre.
Das kommt ganz auf die Vertragsgestaltung an. Das gleiche Spiel geht dann nämlich in die andere Richtung. Desto flexibler die Vertragsgestaltung, desto mehr Probleme kriegen die, wenn der Preis hoch geht.
In deiner Branche mag das der Fall sein, weil die Rohstoffkosten variabler sind. Da ist es deutlich schwieriger feste Preise zu machen. Bei RAM sind die Rohstoffkosten/Produktionskosten in der Schwankungsbreite aber unerheblich, der Preis wird hauptsächlich durch die Marktgegebenheiten diktiert.
Davon abgesehen sagt der Spotmarkt in dieser Form erstmal sogut wie gar nix aus. Welcher GDDR6 kostet denn 3$? Wer weiß wieviel mehr GDDR6X oder schneller GDDR6 kostet. Da gab es bei Ram oftmal massive Unterschiede.
DrFreaK666
2024-03-02, 20:04:32
Außerdem kann man Gesetze im Ausland nicht unbedingt mit dem deutschen Gesetz vergleichen.
Der §309 (1) BGB sieht im Ausland sicherlich anders aus oder existiert in dieser Form vielleicht gar nicht
robbitop
2024-03-02, 20:18:01
Das hat eher mit Vertragsgestaltung als mit dem Gesetz zu tun. Wenn man eine commodity verkauft ist man meistens nicht auf der Seite der allerhöchsten Margen. Einfach weniger Hebel bei den Verträgen. Und RAM ist nur eine commodity.
AffenJack
2024-03-02, 20:36:08
Das hat eher mit Vertragsgestaltung als mit dem Gesetz zu tun. Wenn man eine commodity verkauft ist man meistens nicht auf der Seite der allerhöchsten Margen. Einfach weniger Hebel bei den Verträgen. Und RAM ist nur eine commodity.
Das ist bei GPU-Ram schon ne sehr grenzwertige Bezeichnung. Nvidia kann z.B. den schnellen GDDR6X durch gar nix anderes ersetzen und ist völlig abhängig von Micron. GDDR6 ist bis 16Gbps Jedec standardisiert, das ist Commodity. Alles darüber von Micron und Samsung gibt eher den Speicherherstellern den Hebel, als den Grafikkartenherstellern.
BlacKi
2024-03-02, 21:59:35
Das hat eher mit Vertragsgestaltung als mit dem Gesetz zu tun. Wenn man eine commodity verkauft ist man meistens nicht auf der Seite der allerhöchsten Margen. Einfach weniger Hebel bei den Verträgen. Und RAM ist nur eine commodity.
wenn vram in den kosten explodieren würde, dann stünde das ganze portfolio auf der kippe. deshalb gibt es rahmenbedingungen.
ich kenne nicht die ganzen vertrag details. aber beide firmen brauchen absicherungen. und mich würde es nicht wundern, wenn spotpreise durchaus unterhalb der vertragspreise liegen.
im gegenteil, ich würde bei dieser kurve erwarten das es so ist
https://cdn.mos.cms.futurecdn.net/4tpnm6XGD2sBmjXUdocKbe-1200-80.png
dildo4u
2024-03-04, 08:37:48
Das könnte die 350€ für 7600XT erklären laut dem Artikel vom Oktober sollten GDDR6 Preise ansteigen.
Ich vermute das die GDDR6 Produktion mittlerweile gedrosselt wurde um die Preise zu stabilisieren.
https://i.postimg.cc/P5B0bFbV/Screenshot-2024-03-04-083558.png
https://www.trendforce.com/presscenter/news/20231013-11880.html
basix
2024-03-04, 08:57:56
+50$ für +8 GByte sind mMn OK. Mehr sollten es nicht sein, aber es ist jetzt kein Abriss. Die 4060 Ti ist jetzt dort gelandet verglichen mit der 8GByte Version, ist aber beim Grundpreis noch zu teuer.
OgrEGT
2024-03-07, 22:01:40
First generation of GDDR7 graphics cards sticking to 16Gbit (2GB) modules, 3GB on roadmaps
https://videocardz.com/newz/first-generation-of-gddr7-graphics-cards-sticking-to-16gbit-2gb-modules-3gb-on-roadmaps
Erstmal nur 2GB/Modul... Da steht auch dass RDNA4 GDDR7 verwenden könnte... je nachdem wie schnell der LLC ist könnte auch GDDR6 ausreichen? Würde auch besser zur derzeitigen Leistungsprognose von N44/N48 passen...
Da könnte man mit GDDR6 mehr VRAM/€ bieten als mit GDDR7...
basix
2024-03-07, 22:49:52
Bei 256bit SI, 64MByte LLC und den jetzigen Performanceprognosen denke ich nicht, dass GDDR7 nötig ist. Siehe RTX 4080
robbitop
2024-03-08, 07:36:22
Andererseits sind das die Cache/SI Daten von aktuell N32 der ja ein gutes Stück entfernt von der 4080 ist. Ggf ist Nvidia da auch etwas effizienter.
reaperrr
2024-03-08, 11:59:16
Andererseits sind das die Cache/SI Daten von aktuell N32 der ja ein gutes Stück entfernt von der 4080 ist. Ggf ist Nvidia da auch etwas effizienter.
Ja, die 77XT hat jedenfalls kaum weniger TDP und Rohleistung, landet in der Praxis aber trotzdem locker 20% hinter der 78XT, trotz etwas höherer GCD-Taktraten, und die 79GRE landet trotz deutlich mehr Rohleistung pro Takt kaum vor der 78XT. AMD scheint bei der Bandbreiteneffizienz schon noch etwas hinter Nvidia herzuhinken.
Beim Speichertakt ist mit GDDR6 auch nicht viel Luft nach oben, wenn sie bei 20Gbps bleiben.
Andererseits könnte RDNA4 Verbesserungen an Culling, DCC oder im Bereich der L0-L2-Caches haben, durch die der Bandbreitenbedarf je FLOP etwas weiter reduziert wird.
~79XT-Leistung sollte mit der Bandbreite aber normalerweise möglich sein. Bandbreiten-Limitierungen sind ja auch keine harte Mauer, sondern bremsen nur je nach Spiel nach oben raus immer weiter aus, aber nie komplett.
basix
2024-03-08, 12:32:16
Im Idealfall erreicht N48 ~RTX 4080 Performance in allen Lebenslagen (Raster, RT) mit 18 Gbps GDDR6. Das noch bei 220W und <300mm2 Die Size in N4 sowie guten Verbrauchswerten bei Niedriglast, Idle, Multimedia und Multi-Monitor, dann sieht RDNA4 sehr gut aus. Dazu noch ein verbessertes FSR (allgemein verbesserte Qualität, Ray Reconstruction) und man hätte zu Nvidia aufgeholt. Sind aber viele Wünsche auf einmal ;)
robbitop
2024-03-08, 12:41:39
Naja dann hätte man (wenn das überhaupt klappt) zu Ada aufgeschlossen. Nvidia legt mit Blackwell ja wieder nach und bei Features wird man sicherlich auch nicht stehen bleiben.
basix
2024-03-08, 13:03:39
Ich hätte gesagt, aufgeschlossen (ein bisschen überholt bei der Energieeffizienz und Perf/Area) wäre aus meiner Sicht schon ein gutes Ergebnis. Man hat zumindest keine stärkeren Nachteile mehr bei den meisten Features. Mehr nimmt man immer gerne. Von mir aus kann N48 auch eine 4090 schlagen ;) RDNA4 wird mit hoher Wahrscheinlichkeit günstiger in der Herstellung sein wie Blackwell, da kann AMD was über den Preis richten.
Der_Korken
2024-03-08, 14:56:45
Wenn N48 mit <300mm² eine 4080 schlagen kann, hätte AMD sogar einen deutlichen Vorsprung in Sachen Perf/mm². Das ist viel zu optimistisch. Ich wäre froh, wenn N48 in Raster auf 4070TiS-Level kommt und in RT auf 4070Ti-Level bei <350mm² und <280W. Mehr ist aus den 64 CUs imho nicht rauszuholen.
mczak
2024-03-08, 16:54:22
Also wenn man bezüglich Effizienz (pro Fläche und pro Watt) zu Ada aufschliesst oder sogar leicht vorne liegt wäre das schon nicht schlecht. Dass Blackwell da wirklich gross besser als Ada ist steht ja auch noch nicht fest, auch bei Nvidia gibt es nicht bei jeder Generation grosse Fortschritte (Pascal->Turing beispielsweise nutzte ja praktisch dieselbe Fertigung, und brachte Perf/W so gut wie nichts und bezüglich Perf/Fläche bei der generellen Performance auch nichts (Tu11x) beziehungsweise sogar einen deutlichen Rückschritt (Tu10x, dies natürlich aufgrund der neuen Features)).
AffenJack
2024-03-08, 17:17:01
Im Idealfall erreicht N48 ~RTX 4080 Performance in allen Lebenslagen (Raster, RT) mit 18 Gbps GDDR6. Das noch bei 220W und <300mm2 Die Size in N4 sowie guten Verbrauchswerten bei Niedriglast, Idle, Multimedia und Multi-Monitor, dann sieht RDNA4 sehr gut aus. Dazu noch ein verbessertes FSR (allgemein verbesserte Qualität, Ray Reconstruction) und man hätte zu Nvidia aufgeholt. Sind aber viele Wünsche auf einmal ;)
Nur sagen das noch nicht mal die optimistischten Spekulationen der Leaker.
Im Idealfall erreicht N48 ~RTX 4080 Performance in allen Lebenslagen (Raster, RT) mit 18 Gbps GDDR6. Das noch bei 220W und <300mm2 Die Size in N4 sowie guten Verbrauchswerten bei Niedriglast, Idle, Multimedia und Multi-Monitor, dann sieht RDNA4 sehr gut aus. Dazu noch ein verbessertes FSR (allgemein verbesserte Qualität, Ray Reconstruction) und man hätte zu Nvidia aufgeholt. Sind aber viele Wünsche auf einmal ;)
FSR wird wohl durch KI "aufgehübscht". FSR 3 incl. FG läuft eh relativ rund, aber die Performanceprognosen sind mir sehr weit hergeholt. Ich erwarte ohne RT eine Performance +5 bis 10% zur GRE und mit RT in etwa 7900XT Niveau bei vielleicht 200w. GDDR7 benötigt in WQHD niemand...
Der_Korken
2024-03-08, 18:02:44
Der Chip wird nicht bei 200W rauskommen. AMD wird den bis zur Kotzgrenze prügeln, um die maximale Performance pro Fertigungskosten rauszukriegen. N32 mit 260W ist ein ganz guter Ausgangspunkt, weil ähnlicher CU-Count und Speichersystem. Die Frage ist, wieviel Strom der zusätzliche Takt kostet, wenn man bedenkt, dass bei N31/N32 ja offensichtlich was kaputt ist mit dem Verbrauch.
Was hat die verwendete Speichertechnologie mit der Auflösung zu tun? Mehr Pixel bedeutet auch mehr Arbeit für die Shader.
dargo
2024-03-08, 18:15:36
Der Chip wird nicht bei 200W rauskommen. AMD wird den bis zur Kotzgrenze prügeln, um die maximale Performance pro Fertigungskosten rauszukriegen.
Logisch... denn dann kannst du mehr Geld pro Chip verlangen. :) Wichtig ist hierbei nur, dass die GPU bsw. bei 280W hohe Frequenzen bei hoher Voltage schafft und nicht so ein "Unfall" wie RDNA3 wird. Die "Green Edition" bastelt sich dann der User selbst. ;) Allerdings sollte hier AMD RDNA4 nicht so zunageln wie RDNA3. Oder mehr Spielraum mindestens nach unten beim Powerlimit im Treiber erlauben.
basix
2024-03-08, 18:16:01
Nur sagen das noch nicht mal die optimistischten Spekulationen der Leaker.
Leaker wissen bei weitem nicht alles ;) Aber wie ich geschrieben habe: Idealfall.
[...] aber die Performanceprognosen sind mir sehr weit hergeholt.
Milchmädchen:
- 60 -> 64 CU (sollte gut/überproportional skalieren, da 4 anstatt nur 3 Shader Engines)
- 2.4 -> 3.2 GHz (2.4 GHz ist laut CB Test der durchschnittliche Takt einer 7800XT, 3+ GHz sind für RDNA4 im Gespräch)
- +10% IPC (verbesserte WGPs -> RDNA3 Defizite ausbügeln, neue Instruktionen)
--> 1.56x Performance auf eine 7800 XT --> ~4080 Super Performance (in 4K, bei 1440p wäre N48 sogar schneller)
Ich verstehe eher nicht, wieso man mit den CU und Taktraten laut Leakern nur zwischen 7900GRE (+8% auf eine 7800XT) und 7900XT (+34%) landen soll. Selbst ohne IPC Steigerung und "nur" 3.0 GHz landet man bei einer 7900XT.
AffenJack
2024-03-08, 18:54:26
Leaker wissen bei weitem nicht alles ;) Aber wie ich geschrieben habe: Idealfall.
Wird dann aber schwierig gegen die 5060, die gleichzeitig kommt und über 4080 Leistung bei 150 W bieten könnte, natürlich im Idealfall ;D
Ich bleibe lieber bei realistischen Annahmen, statt diese Träumereien jedesmal die die meilenweit von der Realität entfernt sind.
basix
2024-03-08, 19:00:11
Die Rechnung in meinem Post hast du gesehen? Sie basiert auf den gerade geläufigen Zahlen. Und 3+ GHz erscheinen mir für RDNA4 nicht unrealistisch, wenn man sich RDNA3 anschaut. Oder hast du was besseres, als ein Bauchgefühl "ach das wird eh nicht so schnell"? Es kann immer anders kommen, klar. Aber eine Abschätzung anhand den meist genannten Zahlen sowie dem Vorgänger-Produkt ist zuverlässiger als reines Raten.
Vielleicht ist es dann 280W anstatt 220W, das ist was anderes. Das ist deutlich schwieriger abzuschätzen als die Performanceprognose. Das ist deutlich näher an reiner Raterei ;)
Edit:
Eine 5060 wird eher nicht bei einer 4080 landen. 2.4x Abstand ausgehend von einer 4060 sind ein wenig gar viel ;) Das wird nichts, auch nicht im Idealfall :D
1.5x von der 7800XT ausgehend und einer eher schwachen Vorsteillung von RDNA3 erscheint mir wesentlich realistischer ;)
robbitop
2024-03-08, 19:03:51
Naja die Frage ist (1) welcher Takt wird denn angegeben von den Leakern? Boost Takt ist ja zB bei der 7800XT ja auch höher als 2,4 GHz. Außerdem: front-end oder alu? Hier ist oft viel Spielraum für Uneindeutigkeit
(2) Wie sehr mit dem SE/WGPs skaliert - oftmals deutlich unter 1. Auch mit mehr SEs.
(3) kommt wirklich mehr „ipc“ an? Seit rdna1 gab es keine „ipc“ Erhöhung pro flop mehr.
Man muss bedenken dass die 2 großen skus weg sind und das die zweit kleinste sku ist die geplant war (Äquivalent von n23). Da kann man nicht zu viel erwarten IMO.
dargo
2024-03-08, 19:09:24
Naja die Frage ist (1) welcher Takt wird denn angegeben von den Leakern? Boost Takt ist ja zB bei der 7800XT ja auch höher als 2,4 GHz. Außerdem: front-end oder alu?
Erstmal musst du uns mal erklären wie du auf die Idee kommst RDNA4 würde wieder unterschiedliche Taktraten beim Front-End und den Shadern haben.
basix
2024-03-08, 19:14:32
Der dicke N41 Brummer wahr wohl mi 192CU geplant. Das 3x von N48 jetzt. Wenn man mit N41 die Leistungskrone anpeilen wollte, wäre das Ziel vermutlich ganz grob ca. 1.7...2x 4090 gewesen. 2x 4090 entspricht 2.7x 4080. Jetzt wäre es hier ja realistisch, dass eine 64 CU Karte auf ca. 4080 Niveau landen würde. Ich vermute also, dass man schon die 4080 angepeilt hat. Macht einfach Sinn aus all den obigen Überlegungen. Wenn man von oben runter geht (N41 vs. Leistungskrone) oder unten rauf (N32 vs. Gerüchteküche) landet man im gleichen Zielbereich. Irgendwo zwischen 7900XT und XTX. Letzteres entspricht der 4080. Ob man AMD das Ziel erreicht ist nicht garantiert. Aber es war mit hoher Wahrscheinlichkeit der Zielbereich.
The_Invisible
2024-03-08, 19:28:17
Wird dann aber schwierig gegen die 5060, die gleichzeitig kommt und über 4080 Leistung bei 150 W bieten könnte, natürlich im Idealfall ;D
Ich bleibe lieber bei realistischen Annahmen, statt diese Träumereien jedesmal die die meilenweit von der Realität entfernt sind.
AMD Leaks waren zuletzt massiv overhyped, N31 war ja der 4090 Killer und die 7800xt sollte alle Fehler von N3x bereinigen... außerdem hinkt man RT Leistung noch immer ein gutes Stück hinterher, von PT nicht zu sprechen, da muss der Chip schon massiv umgebaut werden
Der_Korken
2024-03-08, 20:56:21
--> 1.56x Performance auf eine 7800 XT --> ~4080 Super Performance (in 4K, bei 1440p wäre N48 sogar schneller)
Ich verstehe eher nicht, wieso man mit den CU und Taktraten laut Leakern nur zwischen 7900GRE (+8% auf eine 7800XT) und 7900XT (+34%) landen soll. Selbst ohne IPC Steigerung und "nur" 3.0 GHz landet man bei einer 7900XT.
Bei letzterem bin ich bei dir. 7900GRE-Performance wäre desolat, denn dann hätte man sich die Entwicklungskosten sparen und weiterhin N32 produzieren können. Vielleicht mit neuem Stepping, um nochmal 5-10% rauszupressen. Ausnahme: Das Teil ist wirklich nur 220mm² groß und könnte für 400€ komfortabel verkauft werden.
Die +56% von dir sind aber wieder das andere Extrem, denn du vernachlässigst hier komplett die Speicherbandbreite. Da werden es maximal +20%, sofern 24Gbps-Speicher überhaupt verfügbar ist, sonst noch weniger. Die Gesamtleistung wird also nicht 1:1 skalieren, auch nicht mit Takt.
AffenJack
2024-03-08, 21:12:09
Die Rechnung in meinem Post hast du gesehen? Sie basiert auf den gerade geläufigen Zahlen. Und 3+ GHz erscheinen mir für RDNA4 nicht unrealistisch, wenn man sich RDNA3 anschaut.
Vielleicht ist es dann 280W anstatt 220W, das ist was anderes. Das ist deutlich schwieriger abzuschätzen als die Performanceprognose. Das ist deutlich näher an reiner Raterei ;)
Es geht nicht um einzelne Bereiche, denn in diesen kann ich deine Erwartung nachvollziehen. Es geht um das Zeichnen eines unrealistischen Gesamtbildes. Du hast RTX4800 Geschwindigkeit in allen Lebenslagen mit 220W,300mm² und 18Gbps angegeben. Das ist nicht mal im Idealfall realistisch.
Zu den Zahlen:
Milchmädchen:
- 60 -> 64 CU (sollte gut/überproportional skalieren, da 4 anstatt nur 3 Shader Engines)
- 2.4 -> 3.2 GHz (2.4 GHz ist laut CB Test der durchschnittliche Takt einer 7800XT, 3+ GHz sind für RDNA4 im Gespräch)
- +10% IPC (verbesserte WGPs -> RDNA3 Defizite ausbügeln, neue Instruktionen)
--> 1.56x Performance auf eine 7800 XT --> ~4080 Super Performance (in 4K, bei 1440p wäre N48 sogar schneller)
Gute Skalierung, gut möglich. Beim Takt geh ich mit nach den Spekulationen. IPC Steigerung glaube ich nicht dran. Kommt noch die Ramfrage dazu. Wenn nicht gerade 24 Gbps Speicher eingesetzt wird, dann haben wir hier -10 oder -20%.
Bei allen diesen Annahmen die immer getroffen werden, wo ist für mich da die Krux der ganzen Sache? Das sind Dinge, die sich in den letzten Jahren bei der Architekturentwicklung immer gezeigt haben:
1. Perf/W kostet Transistoren. Zwar werden effizientere Mechanismen eingebaut, diese bringen aber Perf/W durch Komplexität
2. Features kosten Transistoren, da sie neue Fähigkeiten bringen und erst sekundär durch Unterstützung Geschwindigkeit (RT könnte hier eine Ausnahme sein)
3. Takt kostet Transistoren/Fläche durch Massetransistoren oder geringere Packdichte
Zusammengefasst: Iso-Transistor werden GPU-Architekturen in der Regel langsamer, aufgrund von Komplexitätserhöhung. Ausnahme ist Takterhöhung durch neue Nodes.
Ein RDNA2 hat im gleichen Node massive Sprünge in der Perf/W gebracht. Aber das war durch Transistoranzahl erkauft bei N21 und N22. N32 ist Iso-Trans langsamer N21, ebenso N33. Rühmliche Ausnahme ist allerdings N23 der einfach alles platt macht Iso-Transitor und sogar besser als N10 da steht. N22 ist dagegen aber wieder massiv langsamer pro Transistor. Desto schneller ein Chip, desto mehr Skalierungsprobleme gibt es auch. Aber auch bei N23 sind wir im Bereich von 2,3% mehr Geschwindigkeit Iso-Trans vs N10.
Nen N48 soll aber nicht so groß sein, schneller takten, mehr Features und Perf/W haben. Das wiederspricht den Erfahrungen der letzten Jahre. Im Optimalfall wäre N48 mit 5% mehr Iso-Trans/Perf realistisch, da sind wir aber bei 55Mrd Transistoren. Da aber MCD zu Single Chip würde ich N48 sogar 15% mehr Effizienz Iso-trans zugestehen, macht 50Mrd Transistoren. Bei 120 Mio Trans/mm² macht das aber immernoch 416 mm². Das ist weit weg von allen spekulierten Diesizewerten. Dementsprechend halte ich solche Geschwindigkeit auch für unrealistisch.
Oder hast du was besseres, als ein Bauchgefühl "ach das wird eh nicht so schnell"? Es kann immer anders kommen, klar. Aber eine Abschätzung anhand den meist genannten Zahlen sowie dem Vorgänger-Produkt ist zuverlässiger als reines Raten.
Siehe oben. Ich schätze ein aufgrund von Daten, historischen Steigerungen und Entwicklungen im Grafikkartenbereich der letzten Jahre. Am Ende ist der Erwartungswert mit Ausnahme von Ausreißern schon durch den verwendeten Node und Diesize ganz gut einschätzbar, da Diesize oftmals deutlich früher bekannt und genauer vorhersagbar ist, als Chipdaten. Deshalb lag meine Einschätzung bei N33 auch deutlich näher an der Realität als die allgemeine Einschätzung damals, dass N33 auf N21 Niveau kommt. Transistorzahlen sind die besten Anhaltspunkte.
Eine 5060 wird eher nicht bei einer 4080 landen. 2.4x Abstand ausgehend von einer 4060 sind ein wenig gar viel ;) Das wird nichts, auch nicht im Idealfall :D
1.5x von der 7800XT ausgehend und einer eher schwachen Vorsteillung von RDNA3 erscheint mir wesentlich realistischer ;)
Genausowenig wie dein Idealfall, natürlich war das überspitzt.
Der dicke N41 Brummer wahr wohl mi 192CU geplant. Das 3x von N48 jetzt. Wenn man mit N41 die Leistungskrone anpeilen wollte, wäre das Ziel vermutlich ganz grob ca. 1.7...2x 4090 gewesen. 2x 4090 entspricht 2.7x 4080. Jetzt wäre es hier ja realistisch, dass eine 64 CU Karte auf ca. 4080 Niveau landen würde. Ich vermute also, dass man schon die 4080 angepeilt hat. Macht einfach Sinn aus all den obigen Überlegungen. Wenn man von oben runter geht (N41 vs. Leistungskrone) oder unten rauf (N32 vs. Gerüchteküche) landet man im gleichen Zielbereich. Irgendwo zwischen 7900XT und XTX. Letzteres entspricht der 4080. Ob man AMD das Ziel erreicht ist nicht garantiert. Aber es war mit hoher Wahrscheinlichkeit der Zielbereich.
Du kommst wieder mit Zahlen, die völlig Overhyped und illusorisch für AMDs eigene Planung sind. Das ist nix anderes als bei RDNA3 mit 2,5-3x RDNA2. Mit einer Verdopplung des Chips auf 192 CU inkl. Taktsteigerung sind bei optimistischer Planung ne Erwartungshaltung von 2x drin. Mit mehr haben die Hersteller nie geplant und werden nicht plötzlich damit anfangen. Auch hier könnte man wieder mit erwarteten Transistorzahlen in einem N3 Node rechnen.
mczak
2024-03-08, 22:44:32
Die +56% von dir sind aber wieder das andere Extrem, denn du vernachlässigst hier komplett die Speicherbandbreite. Da werden es maximal +20%, sofern 24Gbps-Speicher überhaupt verfügbar ist, sonst noch weniger.
Naja also der hat ja offiziell "sampling" Status auf der Website, da kann man imho schon davon ausgehen dass der in einem halben Jahr (oder auch etwas später) tatsächlich verfügbar ist. IIRC gab es in der Vergangenheit auch schon Karten im Laden bei denen der Speicher auf der Website noch Sampling-Status hatte...
Die Frage ist höchstens ob der auch preislich attraktiv genug ist, und ob der Speichercontroller auch für so hohe Frequenzen ausgelegt ist (ist ja eben keine HIghend Karte). Mit 20Gbps Speicher hätte man schon ein ziemliches Defizit, auch etwas im direkten Vergleich mit RTX 4080 Super, die hat ja auch 64MB LLC aber 23Gbps gddr6x - und Ada ist da möglicherweise bei der Bandbreitennutzung etwas effizienter (es sei denn RDNA4 hat da Verbesserungen).
robbitop
2024-03-09, 07:41:57
Erstmal musst du uns mal erklären wie du auf die Idee kommst RDNA4 würde wieder unterschiedliche Taktraten beim Front-End und den Shadern haben.
Das waren Beispiele um zu demonstrieren, dass die Angabe von GPU Takt heute nicht mehr etwas Eindeutiges ist und man sich auf einen Frequenzwert in den Gerüchten nicht so stützen kann um es mit aktuellen Produkten zu vergleichen. Jedenfalls nicht solange der Takt genauer spezifiziert ist.
reaperrr
2024-03-10, 19:06:40
N22 ist dagegen aber wieder massiv langsamer pro Transistor. Desto schneller ein Chip, desto mehr Skalierungsprobleme gibt es auch.
N22 ist kein gutes Beispiel, da hier die Balance nicht ideal war.
Wäre mit 48 MB IF$ vmtl. kaum langsamer gewesen (ist ja so schon meist nur ~25% schneller als N23 trotz massiver Bandbreitenvorteile und größerem VRAM), aber deutlich kleiner (unter 300mm²).
Oder mit 48 CUs kaum größer, aber deutlich stärker, eine RDNA2-CU ist kaum größer als 2 mm², wären dann vielleicht 20mm² (6%) mehr Fläche für 20% mehr Rohleistung je Takt gewesen, damit wäre ne 6700XT vor der 3070 und sehr nah an der 6800 gelandet.
Wahrscheinlich war letzteres einer der Hauptgründe, warum man N22 CU-seitig nicht höher spezifiziert hat, man wollte im Fall schwächerer N21-Yields die 6800 nicht kannibalisieren.
Zu RDNA4: Leistung nur knapp über 7900GRE mit 64 CUs und 3+ GHz Takt macht nur dann ansatzweise Sinn, wenn an anderer Stelle ggü. N32 gespart wurde, wie z.B. ROPs (von 96 auf 64 runter?), Caches (nur 2 MB L2?) und/oder Register (zurück zu den 128KB von N33?) etc., wobei da die Frage wäre, ob das von der Perf/mm² Sinn macht.
An viel mehr als 30% Mehrleistung zu N32 glaube ich aber selbst im besten Fall nicht, allein schon wegen der nahezu gleichbleibenden IF$/Bandbreite-Konfig.
Aber, da die ~79GRE-Angabe von RGT stammt, gäbe es eine andere Erklärung, nämlich dass hier der gleiche Fehler gemacht wird wie damals bei N31:
Mit dem Hype von angeblich "2.7x Performance" seinerseits waren im Nachhinein nämlich von seiner vermeintlichen Quelle wohl nur die TFLOPs bei Dual-Issue gemeint.
Und mit 64 CUs @ 3 GHz landet man nicht weit über den TFLOPs der 7900 GRE, die aber wegen PT-Begrenzung und lahmem Speicher viel weniger aus ihren TFLOPs macht als die 7800 XT.
Meine Tendenz ist, die RGT-Gerüchte von 79GRE-Leistung sind falsch, die MLID-Theorie von bis zu 4080-Leistung aber zu optimistisch.
Raster-Leistung im Bereich von 4070TiS/7900XT halte ich für das wahrscheinlichste Szenario.
BavarianRealist
2024-03-11, 12:14:55
...Zu RDNA4: Leistung nur knapp über 7900GRE mit 64 CUs und 3+ GHz Takt macht nur dann ansatzweise Sinn, wenn an anderer Stelle ggü. N32 gespart wurde, wie z.B. ROPs (von 96 auf 64 runter?), Caches (nur 2 MB L2?) und/oder Register (zurück zu den 128KB von N33?) etc., wobei da die Frage wäre, ob das von der Perf/mm² Sinn macht...
Für RDNA3.5/4 dürfte AMD zwei Ziele verfolgen:
- möglichst hohe Effizienz, da RDNA3.5/4 vor allem in APUs und in der kommenden PS5-Pro finden wird
- möglichsst kostengünstig (=kleines Die), da RDNA3.5/4 in sehr großer Menge hergestellt werden dürfte: in APUs mit großer iGPU (=Strix und Strix-Halo, wo die Größe der GPUs eine große Rolle spielt, weil sie viel Fläche verbraucht) aber auch in PS5-Pro (große Menge über lange Zeit). Zuletzt wird RDNA3.5/4 im N4-Prozess vermutlich auch noch sehr lange leben und dadurch in großen Mengen in APUs für Mainstream und Lowend Verwendung finden.
Maximale Performance dürfte für RDNA3.5/4 als Ziel daher geopfert worden sein, um die anderen Ziele besser zu erreichen, sodass man infolge für diese Generation die High-Performance-GPUs gestrichen hat.
robbitop
2024-03-11, 13:02:16
Man darf nie vergessen, dass N48 das Äquivalent von N23/N33 ist. Die drittgrößte SKU. Und so steht sie entsprechend auch zu den großen alten SKUs da.
Ich kann mir aber auch vorstellen (wenn früh genug entschieden wurde dass die beiden großen SKUs gecancelt wurden), dass man diese SKU dann ein wenig stärker gemacht hat als sie ursprünglich gedacht war. Das Ding heißt immerhin nicht N43 sondern N48.
Immerhin scheint es 256 bit SI zu haben was auffällig für die drittkleinste SI ist. Und Sub 300 mm² auch leicht unüblich für 256 bit.
Wenn das Ding BVH processing in HW macht kann man immerhin ordentlich mehr RT Leistung erwarten (insbesondere in sehr RT heavy Spielen). Aber ansonsten wird man sicherlich bei der kleinen die size mit N4 keine Wunder erwarten können. Der GCD bei N32 ist gerade mal 200 mm² groß. N4 bringt nochmal 6%. Das wäre dann 188 mm². Und das ist ohne Cache und Interfaces. Die nehmen bei N32 weitere 146 mm² ein. Nun weiß man nicht, wie viel das shrinkt von 6 nm auf 4 nm und wie viel für das Chiplet design an Fläche drauf geht.
Aber mit ~250 mm² kann man jetzt nicht all zu viel erwarten.
Ggf. bekommt man ein wenig mehr Takt hin. Aber auf 20-30% würde ich jetzt auch nicht setzen. Solche Sprünge sind wirklich selten. Entsprechend wird es sich bei Raster sicherlich irgendwo bei der 7900 GRE oder leicht darüber einordnen. Und wenn bei RT wirklich ordentlich was passiert ist, kann man bei Path Tracing ggf sogar die 7900XTX überholen. :)
Hier ein zweiter Blickwinkel:
Ein doppelter N33 wären 408 mm². Bei N4 (121 MTr/mm² vs 65 MTr/mm2 - Faktor 1,86). Da kommen dann 219 mm² raus. Also nicht mehr so extrem viel Spielraum wenn man von der Sparvariante von RDNA3 ausginge.
dargo
2024-03-11, 13:09:12
Man darf nie vergessen, dass N48 das Äquivalent von N23/N33 ist. Die drittgrößte SKU. Und so steht sie entsprechend auch zu den großen alten SKUs da.
Ich kann mir aber auch vorstellen (wenn früh genug entschieden wurde dass die beiden großen SKUs gecancelt wurden), dass man diese SKU dann ein wenig stärker gemacht hat als sie ursprünglich gedacht war. Das Ding heißt immerhin nicht N43 sondern N48.
Lol... du willst daraus was ableiten wo AMD die Namensgebung bei RDNA4 geändert hat (größte Zahl für stärkste SKU)? :freak:
Entsprechend wird es sich bei Raster sicherlich irgendwo bei der 7900 GRE oder leicht darüber einordnen.
Halte ich für kompletten Unsinn mit 64 CUs und >3GHz. Ich habe auch keine Ahnung was ihr mit der 7900GRE habt. Das Ding ist kaum schneller (lächerliche 8% im Schnitt) als die 7800XT. Schon ca. 2,7Ghz (13% mehr Takt) bei N32 würden für gleiche Performance ausreichen. Eigentlich unverständlich warum AMD die 7900GRE überhaupt gebracht hat. Immerhin muss man dafür den ganzen 300mm² GCD opfern. Die einzig logische Schlussfolgerung für mich ist, dass die Ausbeute bei N31 wirklich schlecht ist (stutzig machen mich vor allem die Berichte über maues Undervolting, da sind nicht selten nicht mal mickrige -50mV drin) und hier der letzte Silikonschrott noch irgendwie verwertet wird.
Edit:
Meine Prognose sieht folgendermaßen aus wenn das Ding mit 64 CUs und ca. 3,2Ghz Takt ohne IPC Verbesserungen kommt. Takt logischerweise in Gaming-Workloads anliegend und nicht der max. Boost im Treiber.
N48 = ~RX 7900XT bei Raster
Bei hoher RT-Last würde es mich nicht überraschen wenn die RX 7900XTX erreicht oder gar leicht übertroffen wird sofern die implementierte BVH-Beschleunigung nennenswert was bringt.
Sollte das so zutreffen erwarte ich 649-699$ als UVP, wenn AMD ganz frech wird 749-799$, N31 kann dann EOL gehen wenn N48 bei RT N31 erreicht.
basix
2024-03-11, 13:14:11
N48 = N23/N33, OK. Wenn man von unten her guckt wäre es eher N32, ist also Ansichtssache ;) Man kann N41 auch als Portfolio Ergänzung oben hin ansehen, welche nun aber anscheinend nicht passiert. Wäre einer der Benefits von Chiplets, oben hin grösser zu werden ohne dass man sehr teure Chips designen und herstellen muss.
Zumindest wenn man es mit dem Blackwell Portfolio vergleicht, wäre N48 wohl so im Bereich von GB205 angesiedelt. Obere Mittelklasse. 12...16 GByte Speicher. GB205 wird bei der 5070 zum Einsatz kommen. Da passt der Vergleich mit N22/N32 mMn besser. Insbesondere, da der Chip von der Fläche her in etwa gleich fett wie die Vorgänger sein wird und auch etwa ähnliche viel Stromaufnahme haben wird (220...260W).
Der_Korken
2024-03-11, 13:40:50
Das Ding heißt immerhin nicht N43 sondern N48.
Für den Namen gibt es viele Interpretationsmöglichkeiten. N41 bis N43 waren intern wohl offensichtlich mal andere Chips, die irgendwann gestrichen wurden. Entweder steht hinten jetzt die 8, weil N48 ein doppelter N44 ist und 8 das doppelte von 4, oder N48 ist ein N43 2.0 und AMD hat 5 addiert, weil sozusagen die obere Hälfte der Ziffern (5 bis 9) ein Refresh oder Rework der unteren Hälfte (Ziffern 0 bis 4) ist. Oder sie mögen einfach die Zahl 48.
Immerhin scheint es 256 bit SI zu haben was auffällig für die drittkleinste SI ist. Und Sub 300 mm² auch leicht unüblich für 256 bit.
256bit SI spricht imho stark gegen einen winzigen Chip. N10 war 250mm² groß und hatte 256bit und selbst ohne IF$ ging da ein wirklich großer Teil der Fläche für das Speichersystem drauf. In der Mitte war nicht mehr viel "Fleisch" übrig. Eine Apple-Variante, wo das GDDR6-SI durch ein HBM-SI ersetzt wurde war bei gleicher Bandbreite direkt nur noch 200mm² groß.
Ein doppelter N33 wären 408 mm². Bei N4 (121 MTr/mm² vs 65 MTr/mm2 - Faktor 1,86). Da kommen dann 219 mm² raus. Also nicht mehr so extrem viel Spielraum wenn man von der Sparvariante von RDNA3 ausginge.
Faktor 1,86 gilt nur für den Logikanteil. SRAM liegt afaik eher irgendwo bei 1,3 und der Analoganteil nochmal darunter. 1,5x Packdichte wäre wohl schon gut über den ganzen Chip gerechnet und damit landet man bei ~270mm². Und da sind noch keine Verbesserungen an den CUs drin (neue SALUs, Vergrößerung der Register, BVH-Beschleunigung).
Selbst wenn AMD ganz radikal rangeht, den Takt komplett killt (d.h. weiterhin max. 2,5Ghz), keine Extralogik für BVH, werden 220mm² sehr eng. Da müssten sie zusätzlich noch auf 192bit und 48MB IF$ runter oder den Cache auf 32MB halbieren. Dann ist das aber ein Krüppelchip, der Probleme haben wird an N32 vorbeizukommen.
robbitop
2024-03-11, 15:12:09
Lol... du willst daraus was ableiten wo AMD die Namensgebung bei RDNA4 geändert hat (größte Zahl für stärkste SKU)? :freak:
Mit dir ist eine spekulative Diskussion wirklich ätzend. Immer dieser toxische Ton und selbst trägst du hier fast nie etwas produktives bei. Wir sind in einem Spekulationsforum und tragen Indizien zusammen. Wie wäre es mit respektvollem Umgang auf Augenhöhe? Oder willst du so abfällig und salopp behandelt werden? Das kann man von gebildeten Erwachsenen ja wohl erwarten.
Und ja N48 ist ein Indiz. Der Codename ist keine SKU Bezeichnung sondern ein interner Codename der historisch auch eher die Intention der Einordnung der SKU zeigt.
Halte ich für kompletten Unsinn mit 64 CUs und >3GHz.
Wie ich schonmal schrieb ist die Frage, was mit den >3 GHZ wirklich gemeint ist (in den "Leaks") und wie wahr das ganze ist.
Ist Boosttakt gemeint? Ist das Frontend oder backend? Gibt es die Unterscheidung überhaupt? Ist das sustained in Spielen als Mittelwert? Je eher sowas "geleakt" wird, desto oberflächlicher sind diese Werte normalerweise, weil entsprechende Untersuchungen für solide Daten Zeit brauchen, was Leaker selten haben. Vor allem so lange vor dem Launch.
Bei RDNA3 hieß es auch 3 GHz und was am Ende herauskam wissen wir alle. Will sagen, ich würde bei großen Taktsteigerungen erstmal relativ skeptisch sein. Das habe ich ja auch im initialen Posting geschrieben.
Aber ja mit 3,2 GHz (wenn das wirklich sustained in Spielen anliegt) - dann liegt das Ding sehr wahrscheinlich bei oder oberhalb der 7900XT. Aber das wäre schon ein ziemlich ordentlicher Taktsprung. Da kann man schon skeptisch sein.
dargo
2024-03-11, 15:15:11
Mit dir ist eine spekulative Diskussion wirklich ätzend. Immer dieser toxische Ton und selbst trägst du hier fast nie etwas produktives bei. Wir sind in einem Spekulationsforum und tragen Indizien zusammen.
Och Gottchen, verzeih mir... habe vergessen, dass hier der eine oder andere Sensibelchen unterwegs ist. :freak:
Edit:
Um mal beim Thema zu bleiben... ich sehe keine Indizien dafür, dass N48 mit 64 CUs und >3Ghz nur bei 7900GRE oder minimal drüber rauskommt. Dafür müsste man bsw. schon Caches deutlich schrumpfen. Oder das Ding taktet wieder deutlich unter den Erwartungen (den Fehler von RDNA3 sollte AMD nicht 2x hintereinander machen).
Bei RDNA3 hieß es auch 3 GHz und was am Ende herauskam wissen wir alle.
Wie oft denn noch? :freak: RDNA3 schafft 3GHz wenn man ihn lässt!!! Nur hat sich AMD gegen 450-500W bei N31 @Referenz entschieden!
Dino-Fossil
2024-03-11, 15:32:42
Das Schema Buchstabe-Zahl für die Chipbezeichnung sollte doch als es damals eingeführt wurde eine Sortierung nach Entwicklungsbegin machen. N23 wurde nach N22 begonnen, welcher nach N21 begonnen wurde. Jedenfalls wurde das mal so kommuniziert, wenn ich mich nicht täusche.
Damit wäre ein N48 eben erst sehr spät designed worden, was ja zu den Gerüchten der gecancelten Chips passt.
Natürlich reden wir hier von AMD, und wie wir alle wissen ist ein einmal kommuniziertes Namenssschema bei AMD für alle Zeiten festgelegt... :uroll:
Wie oft denn noch? RDNA3 schafft 3GHz wenn man ihn lässt!!! Nur hat sich AMD gegen 450-500W bei N31 @Referenz entschieden!
Ja und du meinst ernsthaft, dass "designed for 3GHz" von AMD so gemeint war, dass man das eben nur unter ganz speziellen Bedingungen oder bei 450W+ sieht? Es war sicherlich mal für "normale" Spielelast unter "normalem" Verbrauch gedacht. Und das hat so offenbar nicht ganz funktioniert. Dein Beissreflex ist hier bissl unangebracht.
robbitop
2024-03-11, 15:34:27
Och Gottchen, verzeih mir... habe vergessen, dass hier der eine oder andere Sensibelchen unterwegs ist. :freak:
Was hat gegenseitiger Respekt und ein angemessener Ton mit "Sensibelchen" zu tun? :| Aber deine Antwort lässt tief schließen - hätte ehrlich gesagt mehr von dir erwartet.
Wie oft denn noch? :freak: RDNA3 schafft 3GHz wenn man ihn lässt!!! Nur hat sich AMD gegen 450-500W bei N31 @Referenz entschieden!
Aha dein Argument ist ein brutal übertaktetes Exemplar mit absurder Leistungaufnahme. :freak:
Und du gehst von 3,2 GHz bei einer Serien SKU für N48 aus.
Das Schema Buchstabe-Zahl für die Chipbezeichnung sollte doch als es damals eingeführt wurde eine Sortierung nach Entwicklungsbegin machen. N23 wurde nach N22 begonnen, welcher nach N21 begonnen wurde. Jedenfalls wurde das mal so kommuniziert, wenn ich mich nicht täusche.
Damit wäre ein N48 eben erst sehr spät designed worden, was ja zu den Gerüchten der gecancelten Chips passt.
Natürlich reden wir hier von AMD, und wie wir alle wissen ist ein einmal kommuniziertes Namenssschema bei AMD für alle Zeiten festgelegt... :uroll:
Es ist ein Indiz. Und interne Bezeichnungen können sich auch mal ändern. Bei Nvidia ist es ja bspw ziemlich konstant. Bei AMD sah es aber bis dato auch so aus als gäbe es zumindest ein Muster.
Ja und du meinst ernsthaft, dass "designed for 3GHz" von AMD so gemeint war, dass man das eben nur unter ganz speziellen Bedingungen oder bei 450W+ sieht? Es war sicherlich mal für "normale" Spielelast unter "normalem" Verbrauch gedacht. Und das hat so offenbar nicht ganz funktioniert. Dein Beissreflex ist hier bissl unangebracht.
This :up:
Es wäre total gut für uns Endkunden, wenn AMD ein starkes Produkt (mit gutem P/L) bringt. Insofern würde sich hier sicherlich jeder über 3,2 GHz sustained freuen. Aber skeptisch darf man schon sein. Keine einzige RDNA3 SKU egal ob APU, 6 nm monolith oder 5 nm chiplet packt >3 GHz ohne die Brechstange anzusetzen. Selbst 2,8 GHz sind oft schon super "teuer". Wo soll dieser Durchbruch auf einmal herkommen ohne deutlich mehr Transistoren zu kosten?
Unmöglich? Nein.
Aber so offensichtlich wahrscheinlich, dass man sofort damit rechnen sollte? Finde ich nicht.
Wäre es geil? Na klar.
basix
2024-03-11, 15:48:39
Knapp 3 GHz sind für eine 2024er GPU Generation aber nicht überraschend. Ada schafft im Nominalbereich bereits 90% davon und 100% mit OC. RDNA2 (um mal Frontend/Backend aussen vor zu lassen) kam auf 75-80% von 3.0 GHz. Selbst die PS5 liegt bei 74%. Und das war 2020 mit N7. Bei RDNA3 steht "architected for 3 GHz" auf den Folien und wenn man die Powertarget Leine loslässt oder nur Compute Workloads anschaut, wird dieser Takt übertroffen. 3GHz ist also jetzt nicht ein überaus fernes und unrealistisches Ziel. Summa Summarum kann man schon davon ausgehen, dass AMD und Nvidia ca. 3 GHz anpeilen. Wenn es 10% mehr wird wäre das nice und ist immer noch im Bereich des gut möglichen. 3.5 GHz wäre dann aber schon ziemlich optimistisch. Ich tippe auf 3....3.3GHz für beide RDNA4 und Blackwell, als durchschnittlicher Gaming Boost Clock der Referenzkarte.
Wie robbi antönt und uns RDNA3 auch gezeigt hat: Sicher ist es nicht. Aber im realistischen Bereich. Oder wer erinnert sich noch die absurden 4 GHz Gerüchte von RDNA4? :D
Ach ja zu Taktraten:
Glaube MLID hat in einem der letzten Videos RDNA 3.5 und RDNA4 erwähnt und dass die Test Samples bei knapp über 3 GHz laufen sollen. Kann geraten sein (siehe meine Ausführungen oben), aber anhand der 680M und 780M sind >3 GHz für RDNA 3.5 jetzt nicht ein Quantensprung. Und für relativ "kleine" RDNA4 GPUs mMn auch nicht.
robbitop
2024-03-11, 16:40:38
Knapp 3 GHz sind für eine 2024er GPU Generation aber nicht überraschend. Ada schafft im Nominalbereich bereits 90% davon und 100% mit OC.
Naja die Jahreszahl macht ja erstmal selbst nichts aus. Und wie du sagst: Ada schafft keine 3 GHz out of the box und selbst mit OC ist es laut Raff kaum möglich (es sei denn man setzt TDP Mods ein oder hat ein goldenes Sample). (Ich rede hier immer von sustained average game clocks.) Und Ada ist bereits auf 4 nm.
Das heißt nicht, dass es nicht für RDNA4 nicht möglich ist (bessere Implementierung für den Takt ist durchaus nicht unmöglich zumal man das Ryzen Team hat). Aber ein starkes Indiz ist Ada auch nicht. Und gerade die letzten 10% sind es ja die dann wehtun.
Und Dargo geht sogar von 3,2 GHz aus. :)
Hier ist ein anderes Indiz: Phoenix wurde mit der Brechstange auf 3,15 GHz übertaktet. Braucht dann aber 150W für 12 CUs* - man extrapoliere das auf 64 CUs ^^. Und das ist bereits eine 4 nm Implementierung von RDNA3. Mit 2,9 GHz geht es einigermaßen.
*Quelle
https://www.pcgameshardware.de/Ryzen-7-8700G-CPU-280151/News/Radeon-780M-mit-Overclocking-am-Limit-1440361/
Es wäre schon merkwürdig, wenn alle RDNA3 Implementierungen (ob nun 4nm, 5 nm oder 6 nm (alle mit anderen Designrules! und immerhin 2 verschiedene high level implementierungen von RDNA3) diesen angeblichen Fehler haben, der erwartete hohe Taktraten nur bei sehr hohen Leistungsaufnahmen möglich macht. Aber unmöglich wäre es nicht.
Will sagen: es gibt mindestens genau so viele Gründe skeptisch zu sein wie optimistisch zu sein. Die Wahrheit liegt sehr oft (aber nicht immer) irgendwo dazwischen. Geil wäre es ja. :)
RDNA2 (um mal Frontend/Backend aussen vor zu lassen) kam auf 75-80% von 3.0 GHz. Selbst die PS5 liegt bei 74%. Und das war 2020 mit N7. Bei RDNA3 steht "architected for 3 GHz" auf den Folien und wenn man die Powertarget Leine loslässt oder nur Compute Workloads anschaut, wird dieser Takt übertroffen. 3GHz ist also jetzt nicht ein überaus fernes und unrealistisches Ziel. Summa Summarum kann man schon davon ausgehen, dass AMD und Nvidia ca. 3 GHz anpeilen. Wenn es 10% mehr wird wäre das nice und ist immer noch im Bereich des gut möglichen. 3.5 GHz wäre dann aber schon ziemlich optimistisch. Ich tippe auf 3....3.3GHz für beide RDNA4 und Blackwell, als durchschnittlicher Gaming Boost Clock der Referenzkarte.
Naja das Gesetz des sinkenden Grenzertrags ist leider eine Schlampe. X-D
Die letzten paar MHz sind die teuersten. Und wir reden davon, dass eine Serien SKU einen Serien Takt sustained mit Serienkühlung bei 3,2 GHz schaffen soll. Keine Brechstange und keine 90%.
Aber ja: geil wäre es auf jeden Fall. Der GPU Markt hat es auf jeden Fall nötig.
Ach ja zu Taktraten:
Glaube MLID hat in einem der letzten Videos RDNA 3.5 und RDNA4 erwähnt und dass die Test Samples bei knapp über 3 GHz laufen sollen. Kann geraten sein (siehe meine Ausführungen oben), aber anhand der 680M und 780M sind >3 GHz für RDNA 3.5 jetzt nicht ein Quantensprung. Und für relativ "kleine" RDNA4 GPUs mMn auch nicht.
Tja die Frage ist immer nur welche Taktrate als Referenz gilt. Selten ist das was die Leaker meinen sustained + in Spielen + auf den ALUs. Da wird dann potenziell schnell *hush*hush* irgendeine Zahl nachgeplappert für die aber unbekannt ist, was sie repräsentiert.
Aber hier im Thread wird genau das als Referenz für die Hochrechnung genutzt. Und wenn man mal zurückschaut wie oft Leaker mit Taktraten (und deren Bedeutung) so deutlich vor dem Launch richtig lagen... naja dann wird es schnell dünn.
Alles kann - nichts muss. :)
basix
2024-03-11, 17:37:04
Alles kann - nichts muss. :)
Ist ja auch Speku-Thread hier ;)
Ich verstehe deine Argumente. 3 GHz fällt nicht von alleine vom Baum. Aber es liegt im Bereich des realistisch möglichen. Oder hat wer 2.7GHz als "easy clock" für Ada erwartet? Ich nicht. Sind stolze +40% gegenüber Ampere. Da sollten +10...20% mit weiteren Designoptimierungen nicht ausgeschlossen sein. Das wird mit hartem Engineering gewonnen. Bei Nvidia wie bei AMD. Gab mehrere Beispiele, wo mehr als das im selben Prozess gelungen ist (Kepler -> Maxwell, RDNA1 -> RDNA2) und viele die bei ~10% rum liegen. Bei GPUs wie CPUs. RDNA4 wird ausserdem vermutlich N4P nutzen, was ~10% bringen soll. Dazu +2 Jahre Erfahrung mit N5/N4 Prozessen sowie einer überarbeiteten Architektur. Gibt also viele Pro-Argumente. 4 GHz können wohl ausgeschlossen werden, 3 GHz und etwas mehr sind aber in greifbarer Nähe. Bei Nvidia könnte es sogar N3E werden, ich erwarte aber auch bei Blackwell N4P.
dargo
2024-03-11, 17:42:57
@robbitop
Es ist völlig sinnlos mit dir über RDNA3 zu diskutieren. Du hast nach über einem Jahr immer noch nicht verstanden, dass ein N31 eine ~500W Heizplatte in einem 355W Korsett ist. Einfach unfassbar, wie Brett vor dem Kopf.
Ja und du meinst ernsthaft, dass "designed for 3GHz" von AMD so gemeint war, dass man das eben nur unter ganz speziellen Bedingungen oder bei 450W+ sieht? Es war sicherlich mal für "normale" Spielelast unter "normalem" Verbrauch gedacht. Und das hat so offenbar nicht ganz funktioniert. Dein Beissreflex ist hier bissl unangebracht.
Alter... :freak:
Wo habe ich das Gegenteil jemals behauptet?
Aha dein Argument ist ein brutal übertaktetes Exemplar mit absurder Leistungaufnahme. :freak:
Und du gehst von 3,2 GHz bei einer Serien SKU für N48 aus.
Wat? Wovon redest du da wieder? Jeder der nicht halbblind auf beiden Augen ist sieht, dass die hohen Taktraten von RDNA3 bei hoher bis mittlerer Heizlast von Gaming-Workloads (gibt auch Ausnahmen) nicht erreicht wurden weil das Ding wie ein Loch bei diesen säuft. Ergo ist im Design was schief gelaufen. In welcher Phase sei mal dahin gestellt.
Knapp 3 GHz sind für eine 2024er GPU Generation aber nicht überraschend. Ada schafft im Nominalbereich bereits 90% davon und 100% mit OC. RDNA2 (um mal Frontend/Backend aussen vor zu lassen) kam auf 75-80% von 3.0 GHz. Selbst die PS5 liegt bei 74%. Und das war 2020 mit N7. Bei RDNA3 steht "architected for 3 GHz" auf den Folien und wenn man die Powertarget Leine loslässt oder nur Compute Workloads anschaut, wird dieser Takt übertroffen. 3GHz ist also jetzt nicht ein überaus fernes und unrealistisches Ziel.
Alles vollkommen korrekt, aber komm robbitop bloß nicht mit Fakten. Der hat sich bei dem Unfall @RDNA3 fest gebissen und möchte nicht mehr loslassen. :freak:
robbitop
2024-03-11, 18:02:42
@robbitop
Es ist völlig sinnlos mit dir über RDNA3 zu diskutieren. Du hast nach über einem Jahr immer noch nicht verstanden, dass ein N31 eine ~500W Heizplatte in einem 355W Korsett ist. Einfach unfassbar, wie Brett vor dem Kopf.
Wo habe ich das jemals explizit verneint und was hat das mit dem Thema zu tun?
Relevant ist es oben drein auch nicht. Denn aus dem kann man nicht schließen, dass N48 mit Serienausstattung 3,2 GHz sustained game clock schaffen kann.
Möglich ist alles aber basierend auf alleinig dieser Tatsache lässt sich das nicht schließen.
Es ist weiterhin völlig ironisch, dass gerade du behauptest, es sei sinnlos mit jemandem zu diskutieren. :freak:
Wat? Wovon redest du da wieder? Jeder der nicht halbblind auf beiden Augen ist sieht, dass die hohen Taktraten von RDNA3 bei hoher bis mittlerer Heizlast von Gaming-Workloads (gibt auch Ausnahmen) nicht erreicht wurden weil das Ding wie ein Loch bei diesen säuft. Ergo ist im Design was schief gelaufen. In welcher Phase sei mal dahin gestellt.
Das war mal ein Gerücht bzw ist eine These. Der Fakt, dass dieses Verhalten bei allen RDNA3 Implementierungen (N4, N5 und N6 die verschiedene Designrules nutzen - und sogar 2x verschiedene Versionen von RDNA3 nämlich die mit den großen Registern und deutlich größeren CUs in N31+32 vs Rest) auftritt stützt diese These nicht gerade.
Dass GPUs stromhungriger bei hohen Taktraten sind, ist auch nicht gerade unüblich.
Ja es ist charakteristisch anders bei RDNA3 dass höhere Taktraten bei Teillast möglich sind.
Aber dennoch kein Beweis für diese These. Aber eine Möglichkeit bleibt es dennoch. Alles was ich sage ist, dass solange das nicht bewiesen ist, man skeptisch bleiben kann was RDNA4 Takt angeht.
Möglich - aber es ist unklar wie wahrscheinlich. Es gibt Töne zwischen Schwarz und Weiß. ;)
Das allerdings schon als Fakt ("da ist defintiv was schief gelaufen - und wäre es nicht schief gelaufen würde RDNA3 bei normalen TDPs viel höhere Taktraten schaffen") darzustellen ist IMO etwas zu weit gegriffen.
Es bleibt immer noch die nicht gerade kleine Möglichkeit, dass das kein Fehler war sondern das einfach das Auskommen aus RDNA3 ist und es nicht notwendigerweise deutlich höhere Taktraten für RDNA4 bedeutet. Und da sind Angaben was mit ultra hoch geprügelten RDNA3s möglich ist nicht indikativ für RDNA4 - zumindest bis bewiesen ist, dass da was "schief gelaufen" ist.
mczak
2024-03-11, 18:03:07
Es wäre schon merkwürdig, wenn alle RDNA3 Implementierungen (ob nun 4nm, 5 nm oder 6 nm (alle mit anderen Designrules! und immerhin 2 verschiedene high level implementierungen von RDNA3) diesen angeblichen Fehler haben, der erwartete hohe Taktraten nur bei sehr hohen Leistungsaufnahmen möglich macht. Aber unmöglich wäre es nicht.
Also ich gehe davon aus, falls es diesen Fehler gibt, dass es den nur bei den 5nm/4nm Chips gibt. Bei N33 sehe ich keine Anzeichen dass da irgendwie ein höherer Takt hätte erreicht werden sollen - die Anzahl Transistoren wurde auch nicht wahnsinnig erhöht, es scheint logisch dass der in N6 ähnliche Taktraten wie N23 erreicht.
Allerdings habe ich keine Ahnung wie wahrscheinlich es wäre dass derselbe Fehler in 4nm und 5nm passiert.
dargo
2024-03-11, 18:10:46
Wo habe ich das jemals explizit verneint und was hat das mit dem Thema zu tun?
Relevant ist es oben drein auch nicht. Denn aus dem kann man nicht schließen, dass N48 mit Serienausstattung 3,2 GHz sustained game clock schaffen kann.
Möglich ist alles aber basierend auf alleinig dieser Tatsache lässt sich das nicht schließen.
Meine Fresse... N48 wird mit 2,5Ghz takten. Hoffentlich habe ich endlich Ruhe von dir.
Das war mal ein Gerücht bzw ist eine These. Der Fakt, dass dieses Verhalten bei allen RDNA3 Implementierungen (N4, N5 und N6 die verschiedene Designrules nutzen - und sogar 2x verschiedene Versionen von RDNA3 nämlich die mit den großen Registern und deutlich größeren CUs in N31+32 vs Rest) auftritt stützt diese These nicht gerade.
Dass GPUs stromhungriger bei hohen Taktraten sind, ist auch nicht gerade unüblich.
Wie kann man nur so blind sein? :crazy: Ich hatte dir mehrmals Beispiele genannt wo N31 im noch nicht völlig absurden Powerlimit hohe Taktraten erreicht. Ich verlinke das jetzt zum letzten Mal für dich weil mir das mit dir langsam zu blöd wird!
https://abload.de/image.php?img=assassinscreedoriginsdpf5f.jpg
Oder sowas hier mit etwas größeren Heizlast.
https://abload.de/image.php?img=unknown_2023.04.02-22dcfhw.jpg
Hier genau das Gegenteil... deutlich weniger Takt bei ähnlichem Verbrauch.
https://abload.de/image.php?img=unknown_2023.04.01-22afefe.jpg
Verschiedene Gaming-Workloads sprechen unterschiedlich die GPU an. Gleiches gilt für reine Compute-Last wo N31 bei 355W 3,3Ghz erreicht (oder waren es sogar 3,5GHz? weiß es nicht mehr genau). Wenn die GPU also bei bestimmten Workloads =>3Ghz erreicht was ist da wohl naheliegend? Ist einfachste Logik wirklich so schwer? Irgendein Teil der GPU säuft verhältnismäßig extrem was sich nicht in jedem Workload zeigt.
basix
2024-03-11, 18:13:04
Also ich gehe davon aus, falls es diesen Fehler gibt, dass es den nur bei den 5nm/4nm Chips gibt. Bei N33 sehe ich keine Anzeichen dass da irgendwie ein höherer Takt hätte erreicht werden sollen - die Anzahl Transistoren wurde auch nicht wahnsinnig erhöht, es scheint logisch dass der in N6 ähnliche Taktraten wie N23 erreicht.
Allerdings habe ich keine Ahnung wie wahrscheinlich es wäre dass derselbe Fehler in 4nm und 5nm passiert.
N4 und N5 sind aber sehr nahe beieinander. Ich denke nicht dass es an den lowlevel Design-Rules liegt, sondern irgendwas oberhalb. Vermutlich auch nicht so weit oben wie die Highlevel-Architektur an sich aber hinsichtlich Implementation in N4/5 IP-Blöcken, dem Metal Stack Aufbau, Clock Distribution Network oder so. Sehr viele Transistoren für faktisch Null Taktgewinn zu verbauen scheinen mir bei RDNA3 nicht das Ziel gewesen zu sein.
Klar scheint jedoch, dass der Durst bei Gaming-Load viel stärker steigt wie bei reiner Compute-Load. Also die Shader-Arrays an sich scheinen nicht das Problem zu sein. RDNA3 hat die Spezialität des entkoppelten Frontend & Shader Taktes. Bei N33 gibt es den afaik auch, ist aber weit weniger stark auseinander wie bei N31.
dargo
2024-03-11, 18:59:16
btw.
Da war ich mit den 500W bei N31 zu optimistisch in Gaming-Workloads, es werden 700W benötigt. X-D
https://www.computerbase.de/2023-05/oc-auf-3-4-ghz-radeon-rx-7900-xtx-jagt-mit-700-watt-die-rtx-4090/
Mit 500W erreicht mal gerade mal 2,8+Ghz im Schnitt des Parcours.
Und hier ist der Fall mit Compute.
https://videocardz.com/newz/custom-amd-radeon-rx-7900-xtx-can-hit-3-5-ghz-clock-with-blender-2-8-ghz-in-games
Bei Compute liegt die RX 7900XTX Referenz bei ca. 300W mit über 3Ghz.
robbitop
2024-03-11, 19:01:49
Meine Fresse... N48 wird mit 2,5Ghz takten. Hoffentlich habe ich endlich Ruhe von dir.
Wie kann man nur so blind sein? :crazy: Ich hatte dir mehrmals Beispiele genannt wo N31 im noch nicht völlig absurden Powerlimit hohe Taktraten erreicht. Ich verlinke das jetzt zum letzten Mal für dich weil mir das mit dir langsam zu blöd wird!
https://abload.de/image.php?img=assassinscreedoriginsdpf5f.jpg
Oder sowas hier mit etwas größeren Heizlast.
https://abload.de/image.php?img=unknown_2023.04.02-22dcfhw.jpg
Hier genau das Gegenteil... deutlich weniger Takt bei ähnlichem Verbrauch.
https://abload.de/image.php?img=unknown_2023.04.01-22afefe.jpg
Verschiedene Gaming-Workloads sprechen unterschiedlich die GPU an. Gleiches gilt für reine Compute-Last wo N31 bei 355W 3,3Ghz erreicht (oder waren es sogar 3,5GHz? weiß es nicht mehr genau). Wenn die GPU also bei bestimmten Workloads =>3Ghz erreicht was ist da wohl naheliegend? Ist einfachste Logik wirdlich so schwer? Irgendein Teil der GPU säuft verhältnismäßig extrem was sich nicht in jedem Workload zeigt.
Hohe Taktraten im Teillastbereich sind kein Beweis für einen Fehler der hohe Taktraten auch im Volllastbereich bei moderaten TDPs verhindert. Es ist ein Indiz auf ein bis dato eher atypisches Verhalten. Die These kann korrekt sein - muss aber nicht.
Dagegen spricht wie gesagt, dass es keine rdna3 Implementierung mit sinnvollen TDP Entwicklungen über 3 GHz schafft. Wäre es ein Fehler den man übersehen hat, wäre es bei dem Maß an Unterschied (2x verschiedene rdna3 Implementierungen und 3x verschiedene Designrules bei der Implementierung) nicht unwahrscheinlich dass der bei einer der SKUs behoben wäre. Natürlich besteht auch die Möglichkeit dass das Problem tiefer sitzt.
Will sagen so eindeutig wie du glaubst ist es nicht. Zu wenig Eindeutig um es als Fakt anzunehmen.
Dass du mit 2,5 GHz kommst, zeigt, dass du anscheinend nur schwarz/weiss verstehst.
Meine Aussagen sind aber nuancierter. Betrachten das Für und Wider. Es kann sein - muss aber nicht. Entsprechend muss man solange keine belegten Informationen vorhanden sind ein mögliches Spektrum betrachten anstatt sich blind auf einen Datenpunkt (ohne die Grundlagen dafür zur Verfügung zu haben) festzulegen.
Platos
2024-03-11, 23:02:39
Was einem an den 3 Bildern von Dargo auffält: Die Spannung kackt ab. Bei den beiden mit ~350Watt verbrauch ist beim einen Beispiel mit 2467MHz auch die Spannung am abkacken. Kein Wunder ist der Takt niedrig. Aber leider wurde im OSD die GPU Last nicht auch angezeigt.
Da aber der Stromverbrauch hoch ist, obwohl die Spannung viel niedriger ist, könntr man vermuten, dass die Auslastung irgendwie nicht so hoch war und dort, wo sie dann hoch war, konnte der Takt nicht gehalten werden (bzw. die Spannung).
@Dargo: Hast du da auch Bilder mit GPU Auslastung?
Der_Korken
2024-03-12, 00:11:28
Da aber der Stromverbrauch hoch ist, obwohl die Spannung viel niedriger ist, könntr man vermuten, dass die Auslastung irgendwie nicht so hoch war und dort, wo sie dann hoch war, konnte der Takt nicht gehalten werden (bzw. die Spannung).
Der Verbrauch steigt je öfter Transistoren schalten, je mehr Spannung dabei anlag und je mehr Transistoren schalten. Wenn die ersten beiden Zahlen niedrig sind, aber der Verbrauch hoch, muss die Anzahl der schaltenden Transistoren hoch sein, was in der Regel für eine besonders hohe Auslastung spricht.
Der Link zur gemoddeten 700W-7900XTX zeigt doch das Problem: Takt ist überhaupt kein Problem, aber der Verbrauch ist in allen Lagen viel zu hoch. Und zwar wirklich in allen. Er ist nicht etwa bei geringen Taktraten in Ordnung und steigt bei hohen Taktraten dann viel zu stark an im Vergleich zu anderen Chips. Nein, der Verbrauch ist auch bei geringen Taktraten viel zu hoch. Nach oben hin skaliert N31 völlig normal mit mehr Takt und Verbrauch. Das einzige, was die 7900XTX im Defaultzustand "in Ordnung" aussehen lässt ist, dass AMD die Karte quasi permanent im Eco-Modus laufen lässt. Stark begrenztes Powerlimit und schön niedrige Spannungen bei hoher Last. Und nein, das ist kein Witz, die 355W der 7900XTX sind der Eco-Modus, so wie wenn Leute ihre 4090 auf 350W limitieren, weil das kaum Leistung kostet, aber alles viel leiser und kühler wird. Der Normal-Modus der 7900XTX läge irgendwo bei 450W+. Das konnte aber AMD aber nicht bringen, weil der Perf/W-Gewinn auf N21 dann irgendwo bei 10% gewesen wäre, nachdem man vorher 50% angekündigt hat. Und auch gegenüber Ada hätte sich AMD arg lächerlich gemacht.
BlacKi
2024-03-12, 00:19:19
Was einem an den 3 Bildern von Dargo auffält: Die Spannung kackt ab. Bei den beiden mit ~350Watt verbrauch ist beim einen Beispiel mit 2467MHz auch die Spannung am abkacken. Kein Wunder ist der Takt niedrig. Aber leider wurde im OSD die GPU Last nicht auch angezeigt.
Da aber der Stromverbrauch hoch ist, obwohl die Spannung viel niedriger ist, könntr man vermuten, dass die Auslastung irgendwie nicht so hoch war und dort, wo sie dann hoch war, konnte der Takt nicht gehalten werden (bzw. die Spannung).
@Dargo: Hast du da auch Bilder mit GPU Auslastung?
nur weil du annähernd 100% gpu auslastung hast, bedeutet das nicht vollast.
wenn du zb. battlefield 2042 mit pubg vergleichst, dann hast du bei max gpu auslastung in beiden spielen massiv unterschiedliche taktraten und damit auch voltage unterschiede anliegen. voltage ist an den takt gekoppelt, nur die chip temp. setzt dann einen offset obendrauf. und der takt sinkt halt, wenn das powerlimit erreicht wird.
reaperrr
2024-03-12, 01:15:23
Es ist ein Indiz. Und interne Bezeichnungen können sich auch mal ändern. Bei Nvidia ist es ja bspw ziemlich konstant. Bei AMD sah es aber bis dato auch so aus als gäbe es zumindest ein Muster.
Ich bin und bleibe der Ansicht, dass das ur-ursprüngliche Line-Up wie folgt aussah:
N41: N31-Nachfolger, 3 N3E-GCX a 48 CUs, 144 gesamt, 6 N4(P)-MCDs für 384 bit (GDDR7)
N42: N32-Nachfolger, 2 N3E-GCX a 48 CUs, 96 gesamt, 4 N4(P)-MCDs für 256 bit (GDDR7)
N43*: N33-Nachfolger, 1 N3E-GCX a 48 CUs, 48 gesamt, 2 N4(P)-MCDs für 128 bit (GDDR7)*
N44: Monolith in N4P, 32 CUs, 128bit GDDR6 (Refresh evtl. mit GDDR7), -> N24-Nachfolger
*N43 wurde m.E. verhältnismäßig früh in der Entwicklung wegen fraglichem Kosten-/Nutzen-/Performance-Verhältnis gestrichen (Verfügbarkeit und Kosten für GDDR7 sowie N3E- und Packagingkapazitäten und -kosten als mögliche Spielverderber für ein Mainstream-Produkt) und durch einen monolithischen N44x2 in N4P ersetzt, den man deshalb N48 genannt hat (4x2=8).
Keine einzige RDNA3 SKU egal ob APU, 6 nm monolith oder 5 nm chiplet packt >3 GHz ohne die Brechstange anzusetzen. Selbst 2,8 GHz sind oft schon super "teuer".
Wir reden bei diesen Beispielen aber auch von
- einem Monolithen, der mehr Transistoren in weniger Fläche packt (vgl. zu N23), in einem eher auf Kosten/Packdichte als Performance optimierten Prozess;
- zwei Chiplet-Designs wo wir nicht ganz sicher wissen, zu welchem Grad die Chiplets und/oder ein spezifisches, nicht innerhalb RDNA3 (ROPs?) zu rettendes Detail die GCDs in Sachen Perf/W ausbremst;
- APUs, wo schon die 2.8 Ghz eigentlich zu viel sind, weil insbesondere der Vollausbau der IGP dann heftig im Bandbreitenlimit hängt und der Strom weitgehend zum Fenster rausgeschmissenes Geld ist, selbst wenn 3 GHz im Desktop eventuell relativ leicht machbar wären (wenn das dann 125 statt 65W braucht, macht es natürlich mit oder ohne genug Bandbreite wenig Sinn).
Dass relativ betrachtet die Brechstange für Taktraten Richtung 3 GHz benötigt wird stimmt zwar, aber ich finde eben auch, dass hier keines der RDNA3-Produkte von der Konfiguration ein idealer Ableitungsfall für einen Mainstream-Monolithen in N4P mit überarbeiteter Architektur ist.
Wo soll dieser Durchbruch auf einmal herkommen ohne deutlich mehr Transistoren zu kosten?
Warum sollte das deutlich mehr Transistoren brauchen?
Ich halte das Thema Massetransistoren für etwas überbewertet. Man verlängert eher die Pipeline etwas oder verbaut mehr Cache, um die saftziehenden VRAM-Zugriffe noch weiter zu reduzieren.
Und wenn die hohe Transistorzahl von N31+32 von zusätzlichen Massetransistoren kommt, haben die ggü. N33 herzlich wenig gebracht, dann muss irgendwas an der uArch als solcher den dicken Stromverbrauch verursachen.
Grundsätzlich wollen die Hersteller so viel Performance wie möglich aus so wenig Fläche wie möglich holen, da steht umfangreicher Einsatz von Massetransistoren auch ein wenig im Widerspruch zu.
Wenn Ada schon nicht massiv Transistoren für die relativ lockeren 2,75-2.8 GHz brauchte und von N10 zu N22 damals in nahezu identischem Prozess und nur moderat aufgewerteter Architektur satte 1 GHz mehr drin waren, sollten bei
- monolithischem Design (Einsparung von Chip-to-Chip Kommunikation; IF$ und SI mit Full-Node-Shrink)
- auch für Compute-Teil etwas größerem Prozessvorteil als bei N10 zu N22
- größerem Architektursprung und mehr Zeit zwischen den Architekturen als zw. RDNA1 und RDNA2
auch 500-700 MHz höhere Taktraten nicht sooo unrealistisch sein.
Mal ganz ab eben von der Möglichkeit, dass RDNA3 doch irgendeinen Effizenz-kostenden Architekturfehler hat, der zwar zu tief/ernst war, um ihn mit bloßen Respins oder anderen Design-Rules für die N3x beheben zu können, aber noch harmlos genug, dass man ihn zumindest bis RDNA4 ausfindig machen, beheben oder zumindest stark genug abschwächen konnte.
basix
2024-03-12, 07:04:23
Ich denke, dass auch RDNA3.5 diesen "Suff-Fehler" bereits beheben wird und sich leichter höher takten lässt und einiges effizienter sein wird.
dargo
2024-03-12, 07:30:03
Was einem an den 3 Bildern von Dargo auffält: Die Spannung kackt ab. Bei den beiden mit ~350Watt verbrauch ist beim einen Beispiel mit 2467MHz auch die Spannung am abkacken. Kein Wunder ist der Takt niedrig. Aber leider wurde im OSD die GPU Last nicht auch angezeigt.
Da aber der Stromverbrauch hoch ist, obwohl die Spannung viel niedriger ist, könntr man vermuten, dass die Auslastung irgendwie nicht so hoch war und dort, wo sie dann hoch war, konnte der Takt nicht gehalten werden (bzw. die Spannung).
@Dargo: Hast du da auch Bilder mit GPU Auslastung?
:freak:
Nichts für ungut aber wenn ich deinen Text so lese weiß ich direkt, dass du auch noch nicht nach über einem Jahr mitbekommen hast, dass RDNA3 bzw. in diesem Fall N31 deutlich tiefer in der V/F-Kurve arbeitet als der Vorgänger. Eben weil AMD ein sehr enges Korsett beim Powerlimit der SKU verpasst hat. Das ist vergleichbar mit einem N21 der auf ca. 180-200W limitiert wird. Wenn du das machst wirst du gleiches Ergebnis bekommen... wenig Takt + wenig Spannung. Nicht vergessen... jede Spannungsstufe alle 6,25mV ist an eine bestimmte Frequenz gekoppelt innerhalb der V/F-Kurve. Das hat nichts mit irgendwelchem Abkacken der Spannung zu tun. ;) Hast du ein Gaming-Workload der stark heizt (siehe APTR) ist die Frequenz + Spannung entsprechend gering. Hast du ein Gaming-Workload der wenig heizt ist die Frequenz + Spannung entsprechend hoch (siehe AC Origins). Bei AC Orgins war ich sogar im Taktlimit und nicht im Powerlimit trotz 3GHz Shader. Power war auf max. 347W limitiert.
Edit:
Hier hast du noch ein Beispiel mit AC Origins wenn man den max. Boost auf 2,7Ghz begrenzt, AMD lässt bei der 7900XTX bis max. 2,9+Ghz boosten.
https://abload.de/image.php?img=assassinscreedorigins9wevm.jpg
Dann bist du bei geschmeidigen 248W.
robbitop
2024-03-12, 09:56:11
Ich bin und bleibe der Ansicht, dass das ur-ursprüngliche Line-Up wie folgt aussah:
N41: N31-Nachfolger, 3 N3E-GCX a 48 CUs, 144 gesamt, 6 N4(P)-MCDs für 384 bit (GDDR7)
N42: N32-Nachfolger, 2 N3E-GCX a 48 CUs, 96 gesamt, 4 N4(P)-MCDs für 256 bit (GDDR7)
N43*: N33-Nachfolger, 1 N3E-GCX a 48 CUs, 48 gesamt, 2 N4(P)-MCDs für 128 bit (GDDR7)*
N44: Monolith in N4P, 32 CUs, 128bit GDDR6 (Refresh evtl. mit GDDR7), -> N24-Nachfolger
*N43 wurde m.E. verhältnismäßig früh in der Entwicklung wegen fraglichem Kosten-/Nutzen-/Performance-Verhältnis gestrichen (Verfügbarkeit und Kosten für GDDR7 sowie N3E- und Packagingkapazitäten und -kosten als mögliche Spielverderber für ein Mainstream-Produkt) und durch einen monolithischen N44x2 in N4P ersetzt, den man deshalb N48 genannt hat (4x2=8).
Kann gut sein - allerdings muss die Entscheidung dann relativ früh gefallen sein.
Wir reden bei diesen Beispielen aber auch von
- einem Monolithen, der mehr Transistoren in weniger Fläche packt (vgl. zu N23), in einem eher auf Kosten/Packdichte als Performance optimierten Prozess;
- zwei Chiplet-Designs wo wir nicht ganz sicher wissen, zu welchem Grad die Chiplets und/oder ein spezifisches, nicht innerhalb RDNA3 (ROPs?) zu rettendes Detail die GCDs in Sachen Perf/W ausbremst;
Korrekt wir wissen es nicht. Es gibt keinen wirklich harten Indikator dafür aber auch keinen dagegen. Entsprechend ist mir unklar, wo der Optimismus für den hohen Takt für RDNA4 herkommt. Es liegt sicher im Spektrum des möglichen aber die Indizien dafür sind nicht besonders vielsagend. Genau wie die dagegen. ;)
- APUs, wo schon die 2.8 Ghz eigentlich zu viel sind, weil insbesondere der Vollausbau der IGP dann heftig im Bandbreitenlimit hängt und der Strom weitgehend zum Fenster rausgeschmissenes Geld ist, selbst wenn 3 GHz im Desktop eventuell relativ leicht machbar wären (wenn das dann 125 statt 65W braucht, macht es natürlich mit oder ohne genug Bandbreite wenig Sinn).
Macht zwar wenig Sinn - aber es ist RDNA3 in 4 nm und jemand hat es probiert zu übertakten. Und es brauchte die Faktor 5 Keule an TDP. Es ist ein Muster über alle RDNA3 Implementierungen zu sehen, was zumindest ein Stück weit gegen den Optimismus des Bugs der Gerüchte aus dem letzten Jahr spricht. Nicht mit einer entgültigen Beweiskraft dagegen aber auch fernab mit dem Gegenteil. :)
Dass relativ betrachtet die Brechstange für Taktraten Richtung 3 GHz benötigt wird stimmt zwar, aber ich finde eben auch, dass hier keines der RDNA3-Produkte von der Konfiguration ein idealer Ableitungsfall für einen Mainstream-Monolithen in N4P mit überarbeiteter Architektur ist.
Naja immerhin gibt es RDNA3 auf 4nm mit Phoenix. Aber es gibt wie gesagt auch keine starken Indizien wo auf einmal ein starker Durchbruch im Takt (bei normaler TDP und sustained) herkommen soll.
Ja bei RDNA2 ist das schon einmal geschehen. Entsprechend ist das auch nicht unmöglich - aber nur weil es schon geschehen ist muss es nicht bei RDNA4 nochmal geschehen. Kann aber. ^^
Warum sollte das deutlich mehr Transistoren brauchen?
Ich halte das Thema Massetransistoren für etwas überbewertet. Man verlängert eher die Pipeline etwas oder verbaut mehr Cache, um die saftziehenden VRAM-Zugriffe noch weiter zu reduzieren.
Auch die Verlängerung von Pipelines kostet Transistoren. Zumindest relativ häufig wenn Designs deutlich mehr Takt bekommen sollen artet das in deutlich mehr Transistoren pro Ausführungseinheit aus. Vega ggü Polaris. Pascal ggü Maxwell. Auch Ada hat mächtig Transistoren mehr ggü Ampere pro SM ausgegeben. Da sind auch mehr Features und mehr SRAM dazugekommen aber nicht in der Mehrmenge.
Aber nicht immer muss, da stimme ich dir zu, Takt aus Transistoren kommen. Wenn die Implementierung verbessert wird kann da auch noch Potenzial zu heben sein.
Nichts ist schwarz oder weiß. Der Punkt ist doch einfach nur: so richtig harte Indizien, dass RDNA4 hohe Taktraten bringen soll gibt es nicht. Aber auch keine dagegen. Ich kann einfach nur den Optimismus (für manche ist der hohe Takt ja bereits Fakt) dafür nicht nachvollziehen.
Und wenn die hohe Transistorzahl von N31+32 von zusätzlichen Massetransistoren kommt, haben die ggü. N33 herzlich wenig gebracht, dann muss irgendwas an der uArch als solcher den dicken Stromverbrauch verursachen.
Tja irgendwas ist bei N31/32 im Argen. Aber wo das herkommt wissen wir nicht. Wir sind uns einig, dass die Mehrtransistoren pro CU ggü N33 nicht so toll investiert waren.
Grundsätzlich wollen die Hersteller so viel Performance wie möglich aus so wenig Fläche wie möglich holen, da steht umfangreicher Einsatz von Massetransistoren auch ein wenig im Widerspruch zu.
Absolut. Da hat man zwei Optionen: mehr Ausführungseinheiten (die unterproportional skalieren ab einem gewissen Punkt) oder mehr Takt (sollte linear skalieren). Aber auch Takt kann Transistoren kosten.
Irgendeinen Tot muss man sterben. Ansonsten bräuchte es keine Shrinks für neue Leistungssprünge. :)
Wenn Ada schon nicht massiv Transistoren für die relativ lockeren 2,75-2.8 GHz brauchte
Schau dir mal das Transistorbudget von Ada vs Ampere pro SM an. Das hat richtig fettig Transistoren gekostet.
AD103 vs GA102 haben ungefähr gleiche SM Anzahl.
AD103 hat 45,9 Mrd Transistoren
GA102 hat 28,3 Mrd Transistoren
Die Differenz im L2 Cache sind 58 MiB. Das sind bei 8T Zellen 3,9 Mrd Transistoren. Das breitere SI bei GA102 kostet sicher auch einiges an Transistoren, die man wieder abziehen könnte. Ganz vernünftig normieren kann man es aufgrund des neueren Featuresets nicht. Aber zu behaupten, dass Ada nicht massiv mehr Transistoren brauchte finde ich in dem Kontext eine Untertreibung. :)
und von N10 zu N22 damals in nahezu identischem Prozess und nur moderat aufgewerteter Architektur satte 1 GHz mehr drin waren, sollten bei
- monolithischem Design (Einsparung von Chip-to-Chip Kommunikation; IF$ und SI mit Full-Node-Shrink)
- auch für Compute-Teil etwas größerem Prozessvorteil als bei N10 zu N22
- größerem Architektursprung und mehr Zeit zwischen den Architekturen als zw. RDNA1 und RDNA2
Ja wenn man den IF$ abzieht hat RDNA2 das ohne mehr Transistoren geschafft. Das ist ein Präzendenzfall. Aber das bedeutet nicht, dass das immer zutrifft. :)
auch 500-700 MHz höhere Taktraten nicht sooo unrealistisch sein.
Solche Taktsprünge gibt es nicht oft. Und wir sind ja bereits bei hohen 2 GHz. Das Gesetz des sinkenden Grenzertrags redet leider auch immer mit.
Again: ich sage ja auch nicht, dass es "soo unrealistisch ist". Ich sage nur, dass man sich aufgrund der jetzigen Fakten und Indizienlage überhaupt nicht sicher sein kann. Es liegt im Spektrum des Möglichen. Aber auch das Gegenteil liegt im Spektrum des Möglichen. Oder etwas dazwischen.
Was waren die Gesichter lang nach dem RDNA3 launch und dem Hype den des davor gab. (negatives Beispiel) und das Gegenteil: RDNA2 Launch - positive Überraschung.
Mal ganz ab eben von der Möglichkeit, dass RDNA3 doch irgendeinen Effizenz-kostenden Architekturfehler hat, der zwar zu tief/ernst war, um ihn mit bloßen Respins oder anderen Design-Rules für die N3x beheben zu können, aber noch harmlos genug, dass man ihn zumindest bis RDNA4 ausfindig machen, beheben oder zumindest stark genug abschwächen konnte.
Kann sein - muss aber nicht. Bis dato gibt es keine harte Indizien dafür oder dagegen.
Ich frage mich warum man sich da jetzt auf eine Richtung festlegen will. Dann kann man auch würfeln. :)
Ich denke, dass auch RDNA3.5 diesen "Suff-Fehler" bereits beheben wird und sich leichter höher takten lässt und einiges effizienter sein wird.
Das hoffen wir alle. Aber ob es wirklich einen "Suff-Fehler" gibt, weiß niemand und es gibt auch keine richtig harten Indizien die das belegen. Aber cool wäre das schon. :)
Der_Korken
2024-03-12, 12:35:23
Schau dir mal das Transistorbudget von Ada vs Ampere pro SM an. Das hat richtig fettig Transistoren gekostet.
AD103 vs GA102 haben ungefähr gleiche SM Anzahl.
AD103 hat 45,9 Mrd Transistoren
GA102 hat 28,3 Mrd Transistoren
Man muss hier aber auch sagen, dass die Packdichte sowohl bei Ampere -> Ada als auch bei RDNA2 -> N31/32 um deutlich mehr als Faktor 2 angestiegen ist, d.h. deutlich mehr als man anhand der Prozessmetriken erwarten würde.
Bei N21 -> N31 ist die gesamte Diesize in etwa gleich geblieben, dafür hat sich die Transistorzahl mehr als verdoppelt. N21 hat zudem noch 128MB Cache, die sich extrem dicht packen lassen, während N31 nicht nur anteilsmäßig sondern sogar absolut weniger Cache hat. Zudem sind Teile des Chips in 6nm statt 5nm gefertigt, d.h. wenn man nur die Shader-Engines vergleichen würde, käme man wahrscheinlich bei >2.5x Packdichte raus (afaik hat das hier sogar mal jemand ausgerechnet).
Du hast natürlich Recht, dass Transistoren investiert wurden, aber sie scheinen effektiv keine Fläche zu kosten bzw. verhalten sich anders als bei den N7-basierten Prozessen. Weitere Beispiele sind N33, welcher 1/3 von N31 ist bei < 1/4 der Transistoren (und nein, die paar MB SRAM für die zusätzlichen Register erklären diesen Gap bei weitem nicht) und auch das Zen-4-CCD, welches überproportional viele Transistoren und Packdichte aufweist.
robbitop
2024-03-12, 14:05:28
IIRC hatte AMD ja präsentiert, wie sie auf die höhere Packdichte gekommen sind mit dem N31 GCD.
Mit weniger Transistoren pro CU/SM wären die Flächen kleiner geworden oder man hätte mehr verbauen können. ^^ Gerade bei N31/32 sieht es nicht so aus als hätte sich die Investition der Transistoren ggü den kleineren N33 CUs nicht unbedingt gelohnt. ^^
Bei Ada waren es ja in Wahrheit mehrere Nodejumps. 8 nm Samsung von Ampere ist ja eher eine cost down Variante von einem 10 nm Node. Insofern sind das 2 Full Nodesprünge. Da sollte natürlich auch was in Density herauskommen 45 MTrans/mm² -> 125 mmTrans/mm²
Ein 3x N33 als Monolit (mit der 4/5nm Familie) wären ~40 Mrd Transistoren und 332 mm² in 4/5 nm (Packdichte von AD103 mit N4). Ein 4x N33 als Monolit wären dann 53,2 Mrd Transistoren mit 443 mm² geworden.
Mit dem Flächenbudget von AD102 hätte man sogar einen 6x N33 geschafft. Aber das wäre mit dem Memory SI nicht aufgegangen - da hätte man dann HBM nehmen müssen oder nochmal deutlich mehr als die dann 192 MiB L3 Cache auftischen müssen. ^^
fondness
2024-03-12, 14:58:21
Aha dein Argument ist ein brutal übertaktetes Exemplar mit absurder Leistungaufnahme. :freak:
Es wäre total gut für uns Endkunden, wenn AMD ein starkes Produkt (mit gutem P/L) bringt. Insofern würde sich hier sicherlich jeder über 3,2 GHz sustained freuen. Aber skeptisch darf man schon sein. Keine einzige RDNA3 SKU egal ob APU, 6 nm monolith oder 5 nm chiplet packt >3 GHz ohne die Brechstange anzusetzen.
Naja so stimmt das auch nicht. Auch eine default 7900XT erreicht >3Ghz wenn die TDP nicht limitiert. Ergo dieser Takt ist im default Taktprofil hinterlegt, ganz ohne Übertaktung. Liegt bsw. ein CPU-Limit vor, oder die GPU wird nicht voll ausgelastet wie bsw. bei Computer-Workloads, läuft N31 ohne Übertaktung und Brechstange mit >3Ghz. Das kann jeder mit Monitoring-Tools nachvollziehen. Die GPU schafft also absolut zuverlässig und mit hohen Yields >3Ghz. Klar ist die TDP zu hoch um den Takt bei Spielen zu fahren, aber deshalb ist es nicht "brutal übertaktet" oder "Brechstange".
robbitop
2024-03-12, 15:19:15
Naja so stimmt das auch nicht. Auch eine default 7900XT erreicht >3Ghz wenn die TDP nicht limitiert. Ergo dieser Takt ist im default Taktprofil hinterlegt, ganz ohne Übertaktung.
Aber default ist die TDP eben doch limitiert. Entsprechend geht es nicht ohne Brechstange. Das war ja der Punkt.
Liegt bsw. ein CPU-Limit vor, oder die GPU wird nicht voll ausgelastet wie bsw. bei Computer-Workloads, läuft N31 ohne Übertaktung und Brechstange mit >3Ghz. Das kann jeder mit Monitoring-Tools nachvollziehen. Die GPU schafft also absolut zuverlässig und mit hohen Yields >3Ghz. Klar ist die TDP zu hoch um den Takt bei Spielen zu fahren, aber deshalb ist es nicht "brutal übertaktet" oder "Brechstange".
Naja hohe Taktraten im Teillastbereich sind aber auch nicht gerade ein Beweis für das zu erreichende Zielkriterium in RDNA4 (>>3 GHz sustained game clocks out of the box mit normalen Serientaktraten und normaler Serienkühlung). Und auch kein Beweis dass das "Saufen" ein Bug ist.
Es zeigt lediglich, dass der Flaschenhals für den Takt bei RDNA3 anders ist als bei anderen uArchs. Aber ob man daraus einen Vorteil schlagen kann mit RDNA4 bleibt absolut ungeklärt.
Insofern ist jegliche Betrachtung von offenen TDPs und Teillast eine Diskussion hypothetischer Natur. Denn das ist ja nicht das Zielkriterium.
fondness
2024-03-12, 15:29:06
Naja hohe Taktraten im Teillastbereich sind aber auch nicht gerade ein Beweis für das zu erreichende Zielkriterium in RDNA4 (>>3 GHz sustained game clocks out of the box mit normalen Serientaktraten und normaler Serienkühlung). Und auch kein Beweis dass das "Saufen" ein Bug ist.
Einen Beweis für RDNA4 wird man nie bekommen, völlig utopische Forderung. :) Selbst wenn RDNA3 bereits mit default TDP in Spielen mit >3Ghz taktet, wäre das kein Beweis, dass es bei RDNA4 auch so sein muss. Deshalb will ich in solche Diskussionen auch nicht einsteigen, da kann ja jeder alles behaupten und ewig auf seinem Standpunkt beharren :) Was allerdings eindeutig ist, dass bereits RDNA3 mit > 3Ghz taktet sofern die TDP nicht limitiert. Ergo der Chip ist darauf ausgelegt worden und schafft diese Taktraten stabil mit hohen Yields. Selbst die Spannung die dafür benötigt wird ist relativ niedrig. Irgendwas im Chip führt allerdings zu einem hohen Anstieg der Leistungsaufnahme.
robbitop
2024-03-12, 15:42:17
Einen Beweis für RDNA4 wird man nie bekommen, völlig utopische Forderung. :)
Natürlich - aber es ist genauso utopisch so extrem optimistisch was hohe Taktraten angeht für RDNA4 im Spekulationsforum zu sein ohne, dass es besonders feste Indizien (die sich domininat gegen die Gegenindizen durchsetzen können) gibt. Das ist der einzige Punkt den ich versuche zu vermitteln. Es ist im Spektrum des Möglichen - keinen Zweifel. Aber auch das Gegenteil liegt im Spektrum des Möglichen.
Selbst wenn RDNA3 bereits mit default TDP in Spielen mit >3Ghz taktet, wäre das kein Beweis, dass es bei RDNA4 auch so sein muss. Deshalb will ich in solche Diskussionen auch nicht einsteigen, da kann ja jeder alles behaupten und ewig auf seinem Standpunkt beharren :)
Der Punkt ist ja gerade der, dass es ziemlich substanzlos ist, auf irgendeinen Punkt zu beharren was Takt angeht - da es für beide Enden des Spektrums keine echten eindeutigen Indizien gibt, für die es nicht auch gleichstarke Gegenindizien gibt. Entsprechend sollte man sich da IMO nicht festlegen - es sei denn man will Glaskugel oder Würfel spielen. :)
Wäre geil wenn RDNA4 deutlich mehr Takt bei akzeptabler TDP schafft - da sind wir uns alle einig. Wie wahrscheinlich das ist: aus jetziger Sicht IMO völlig unklar. Aus dem Grunde kann ich den Optimismus (oder dass manche es bereits als gesetzt ansehen) nicht nachvollziehen.
Was allerdings eindeutig ist, dass bereits RDNA3 mit > 3Ghz taktet sofern die TDP nicht limitiert. Ergo der Chip ist darauf ausgelegt worden und schafft diese Taktraten stabil mit hohen Yields. Selbst die Spannung die dafür benötigt wird ist relativ niedrig. Irgendwas im Chip führt allerdings zu einem hohen Anstieg der Leistungsaufnahme.
Oder aber es ist einfach dieses Mal ein anderer Bottleneck. Es gibt eine Vielzahl an Faktoren die den Takt begrenzen können. Der kritische Pfad ist das eine. Aber TDP das andere.
Wir können einfach nur feststellen, dass es bei RDNA3 nicht der kritische Pfad (aus Takt Sicht ist). Das festigt aber nicht das uralte Gerücht, dass da irgendwas kaputt ist.
Aber natürlich ist das absolut möglich. Nur eben ist die Wahrscheinlichkeit völlig unbekannt. Schroedinger's Katze ;)
fondness
2024-03-12, 15:53:18
Oder aber es ist einfach dieses Mal ein anderer Bottleneck. Es gibt eine Vielzahl an Faktoren die den Takt begrenzen können. Der kritische Pfad ist das eine. Aber TDP das andere.
Wir können einfach nur feststellen, dass es bei RDNA3 nicht der kritische Pfad (aus Takt Sicht ist). Das festigt aber nicht das uralte Gerücht, dass da irgendwas kaputt ist.
Aber natürlich ist das absolut möglich. Nur eben ist die Wahrscheinlichkeit völlig unbekannt. Schroedinger's Katze ;)
Naja, mit Verlaub, es werden seit Jahrzehnten unzählige verschiedene Chips designed, RDNA3 ist nicht einer der ersten zehn Chips die jemals verkauft wurden oder so. :D Und das Bottleneck war immer der max. Takt, was auch logisch ist, denn wenn die Transistoren schneller schalten müssen geht sich das irgendwann mit der Signallaufzeit nicht mehr aus. Ergo muss man dazu längere Pipelines und zusätzliche Transistoren verbauen, etc. Dass das bei RDNA3 anders ist, ist schon mindestens sehr sehr ungewöhnlich.^^ Das einfach wegzuwischen mit "es ist halt diesmal ein anderes Bottlneck" erscheint mir etwas dürftig. Der Schluss, dass da etwas nicht nach Plan gelaufen ist, ist dementsprechend schon relativ naheliegend. ;)
robbitop
2024-03-12, 16:05:49
Naja, mit Verlaub, es werden seit Jahrzehnten unzählige verschiedene Chips designed, RDNA3 ist nicht einer der ersten zehn Chips die jemals verkauft wurden oder so. :D Und das Bottleneck war immer der max. Takt, was auch logisch ist, denn wenn die Transistoren schneller schalten müssen geht sich das irgendwann mit der Signallaufzeit nicht mehr aus. Ergo muss man dazu längere Pipelines und zusätzliche Transistoren verbauen, etc. Dass das bei RDNA3 anders ist, ist schon mindestens sehr sehr ungewöhnlich.^^ Das einfach wegzuwischen mit "es ist halt diesmal ein anderes Bottlneck" erscheint mir etwas dürftig ;)
Wieso wegzuwischen? Wir haben anerkannt, dass nicht der kritische Pfad der Bottleneck ist sondern die TDP und dass das schon atypisch ist.
Aber wo genau ist da der Hinweis, dass es einen Bug gibt, der dazu führt, dass die TDP besonders ansteigt und dass das deutlich anders für RDNA4 werden wird? Für mich bis dato nicht erkennbar. Auch Ada muss extrem geprügelt werden um 3 Ghz zu erreichen. Aber erreichbar mit geunlockter TDP ist das auch.
Am Ende muss ja beides für den hohen sustained clock passen: TDP und kritischer Pfad.
fondness
2024-03-12, 16:08:00
Wieso wegzuwischen? Wir haben anerkannt, dass nicht der kritische Pfad der Bottleneck ist sondern die TDP.
Aber wo genau ist da der Hinweis, dass es einen Bug gibt, der dazu führt, dass die TDP besonders ansteigt und dass das deutlich anders für RDNA4 werden wird? Für mich bis dato nicht erkennbar.
Am Ende muss ja beides für den hohen sustained clock passen: TDP und kritischer Pfad.
Ist der Hinweis nicht offensichtlich? Es ist bei defacto allen anderen Chips anders. Ergo ist der Schluss, dass da etwas nicht nach Plan gelaufen ist relativ naheliegend. Anderenfalls müsste man zum Schluss kommen, dass AMD entweder irgendwas tolles gefunden hat was alle anderen nicht gesehen haben oder alle anderen doof waren es anders auszulegen.
robbitop
2024-03-12, 16:11:01
Bei Ada ist es anscheinend aber auch sehr ähnlich. Da gehen 3 GHz auch mit der TDP Keule. Das TDP-Frequenzverhalten in Spielen unter Volllast ist da nicht unähnlich. Entsprechend müssten da 3 GHz in niedriger Teillast dort auch sichtbar sein, wenn man sie einstellt.
Und so ungewöhnlich ist es jetzt auch nicht, dass höhere Taktraten als Stock mit deutlich mehr TDP (die dann aber zu viel sind für Serien HW) gehen. Vega20 war IIRC auch so ein Fall.
Und wie gesagt ist es schon merkwürdig, dass wenn es einen Bug geben sollte, der dann in allen RDNA3 Implementierungen zu erkennen ist. Egal ob 4 nm, 5 nm und 6 nm. Mit unterschiedlichen Designrules und sogar unterschiedlichen CUs.
Ggf ging es auch einfach ähnlich nicht auf wie die langfristigen Taktpläne bei Intel mit Netburst - oder AMD mit Bulldozer. Der Plan ist einfach nicht aufgegangen. Und entsprechend gibt es keine Garantie dafür, dass es beim nächsten Mal aufgeht.
Will nicht sagen, dass ich einen bias zu einem der Theorien hab sondern lediglich, dass es zu jedem Indiz auch Gegenindizien gibt.
fondness
2024-03-12, 16:14:38
Die 7900XTX hat einen default Boost Takt von 2,5Ghz. Schafft allerdings ohne TDP-Limit gut und gerne 3.25Ghz, das sind satte 30% mehr. Das ist schon sehr ungewöhnlich. Und da rede ich nicht von der Spannungskeule, sondern nur von aufgehobenen TDP-Limit.
Und wie gesagt ist es schon merkwürdig, dass wenn es einen Bug geben sollte, der dann in allen RDNA3 Implementierungen zu erkennen ist. Egal ob 4 nm, 5 nm und 6 nm. Mit unterschiedlichen Designrules und sogar unterschiedlichen CUs.
Finde ich nicht ungewöhnlich. Wenn es ein Problem an Design ist, ändert man das nicht mal eben so.
robbitop
2024-03-12, 16:16:52
Das gilt auch für AD102. 2,5 GHz boost clock. >3 GHz ohne Spannungserhöhung mit ordentlich mehr TDP hab ich schon mehrfach im Netz gesehen.
Finde ich nicht ungewöhnlich. Wenn es ein Problem an Design ist, ändert man das nicht mal eben so.
Na aber mit unterschiedlichen designrules der Fertigungsprozesse macht man die Implementierung mehrfach unterschiedlich. Trotzdem der selbe Bug?
Auch sind die CUs von 780M und N33 schon ziemlich anders als die CUs der N31/32 - also vom Design her auch anders. Trotzdem der selbe Bug?
Finde ich schon ungewöhnlich weil man für obiges schon ziemlich stark das Design anfassen muss.
fondness
2024-03-12, 16:18:20
AD102 taktet auch bei Spielen bereits mit ~2,75Ghz, das ist nicht vergleichbar.
robbitop
2024-03-12, 16:22:03
AD102 taktet auch bei Spielen bereits mit ~2,75Ghz, das ist nicht vergleichbar.
Das kann aber auch die Wahl des Betriebspunktes sein. Nvidia hat ja einen Kühler vergeben, der bis 600W evaluiert war und bereits von Haus aus eine sehr hohe TDP. Dazu den modernen Fertigungsprozess (N4 vs N5) und ggf das etwas effizientere Design.
fondness
2024-03-12, 16:24:06
Na aber mit unterschiedlichen designrules der Fertigungsprozesse macht man die Implementierung mehrfach unterschiedlich. Trotzdem der selbe Bug?
Auch sind die CUs von 780M und N33 schon ziemlich anders als die CUs der N31/32 - also vom Design her auch anders. Trotzdem der selbe Bug?
Finde ich schon ungewöhnlich weil man für obiges schon ziemlich stark das Design anfassen muss.
Da gibts höchstens Anpassungen auf Transistorebene und einiges an Massetransistoren sind weg gefallen. Die ISA ist bei allen ident. Das Design der µArch hat sich dementsprechend nicht geändert. Je nachdem wo das Problem sitzt kann das auch ein komplexes Problem sein das sich nicht so einfach lösen lässt.
robbitop
2024-03-12, 16:29:22
ISA =! uArch. ISA ist das instruction set - welche Instruktionen die CUs nutzen/verstehen und wie viele Takte welche Instruktion vorgesehen ist. Und ja: das ist gleich. Die uArch ist die phyisische Implementierung. Und die musste man mindestens für N33 und Phoenix anpassen um die Register anzupassen.
Und das Implementieren eines Designs auf einen bestimmten Fertigungsprozess ist auch nicht gerade wenig invasiv. Da gab es schon einige Beispiele wie bereits ein Respin deutlich andere Taktraten brachte.
fondness
2024-03-12, 16:35:30
ISA =! uArch. ISA ist das instruction set - welche Instruktionen die CUs nutzen/verstehen und wie viele Takte welche Instruktion vorgesehen ist. Und ja: das ist gleich.
Das brauchst du mir wirklich nicht zu erklären :)
Die uArch ist die phyisische Implementierung. Und die musste man mindestens für N33 und Phoenix anpassen um die Register anzupassen.
Und das Implementieren eines Designs auf einen bestimmten Fertigungsprozess ist auch nicht gerade wenig invasiv. Da gab es schon einige Beispiele wie bereits ein Respin deutlich andere Taktraten brachte.
Jetzt können wir uns natürlich semantisch darüber unterhalten was jemand unter "Design" versteht. :) Das bringt uns halt nicht weiter. Das Argument, dass es bei allen RDNA3 Chips das gleiche ist, ist jedenfalls ein schwaches. Niemand hier weiß, wo das Problem ist oder wie man es beheben kann. Je nachdem wie komplex das ganze ist kann es auch viel Aufwand und Zeit bedeuten es zu fixen. Dass man das nicht mal eben bei einem Respin fixen kann, überrascht mich jedenfalls nicht und ist auch kein Beweis, dass es kein Bug ist.
robbitop
2024-03-12, 16:41:27
Das brauchst du mir wirklich nicht zu erklären :)
Wirkte aber in dem Kontext so als bräuchte es die Erklärung. :) Denn die ISA ist nicht wirklich zwingend einschränkend für den Kontext von TDP/Taktentwicklung.
Die ISA ist bei allen ident. Das Design der µArch hat sich dementsprechend nicht geändert.
Hier ziehst du sinngemäß den Schluss: die ISA ist identisch also hat sich die uArch nicht verändert. Und der Schluss zeigt, dass es obige Erklärung angebracht war. :)
Die uArch kann sich natürlich ändern auch wenn die ISA gleich ist.
Jetzt können wir uns natürlich semantisch darüber unterhalten was jemand unter "Design" versteht. :) Das bringt uns halt nicht weiter. Das Argument, dass es bei allen RDNA3 Chips das gleiche ist, ist jedenfalls ein schwaches. Niemand hier weiß, wo das Problem ist oder wie man es beheben kann. Je nachdem wie komplex das ganze ist kann es auch viel Aufwand und Zeit bedeuten es zu fixen. Dass man das nicht mal eben bei einem Respin fixen kann, überrascht mich jedenfalls nicht.
Ob das Argument stark oder schwach ist, kann meines Erachtens kaum jemand hier (inkl uns beiden) beurteilen. Da sollte man hier kein overconfidence bias aufbauen - das ist nie gut, wenn man nicht vom Fach ist. ;) Wir sind beide klar erkennbar keine GPU Engineers.
Der Fakt, dass man für N33/780M aufgrund der unterschiedlichen CUs und Prozesse signifikante Anteile des Designs anfassen muss, ist nicht abzustreiten. Wie invasiv das ist können wir nicht beurteilen. Entsprechend müsste man hier eher sagen: inkonklusiv. So wie jedes bisher andere genannte Indiz.
Ob es überhaupt ein Bug ist - dafür gilt ohne genauere Kenntnisse zu der uArch und einem GPU Engineer background zumindest mit der jetzigen Faktenlage IMO das gleiche.
Es kann auch einfach sein, dass man sein Ziel nicht erreicht hat in der Gesamtheit.
Oder aber es ist ein Bug, der in zukünftigen Iterationen gefixt ist. Das Spektrum ist mMn noch ziemlich breit. Wie gesagt: Schroedinger's Katze nach jetzigem Erkenntnisstand
fondness
2024-03-12, 16:53:36
Wirkte aber in dem Kontext so als bräuchte es die Erklärung. :) Denn die ISA ist nicht wirklich zwingend einschränkend für den Kontext von TDP/Taktentwicklung.
Hier ziehst du sinngemäß den Schluss: die ISA ist identisch also hat sich die uArch nicht verändert. Und der Schluss zeigt, dass es obige Erklärung angebracht war. :)
Die uArch kann sich natürlich ändern auch wenn die ISA gleich ist.
Gehen dir jetzt die Argumente aus und deshalb musst du über Semantik herziehen oder wie? Ich denke ich weiß schon selbst am besten was ich gemeint habe. :)
Da gibts höchstens Anpassungen auf Transistorebene und einiges an Massetransistoren sind weg gefallen. Die ISA ist bei allen ident. Das Design der µArch hat sich dementsprechend nicht geändert.
Der letzte Satz bezog sich auf den ersten Satz, den du hier freundlicherweise weggeschnitten hast. :) Aber ja ein Beistrich statt einem Punkt wäre besser verständlich gewesen nach dem ersten Satz, mea culpa. :) Und ja man kann zugegebenermaßen darüber diskutieren was man unter Design versteht, aber ich denke es war klar wie es gemeint war.
Es kann auch einfach sein, dass man sein Ziel nicht erreicht hat in der Gesamtheit.
Der Satz erinnert mich frappierend an Habeck: "Unternehmen sind nicht insolvent, sie hören nur auf, zu verkaufen"
Für mich ist die Diskussion hiermit auch beendet, sonst eskaliert das ganze wieder mit dir. :)
AffenJack
2024-03-12, 19:09:24
Das brauchst du mir wirklich nicht zu erklären :)
Jetzt können wir uns natürlich semantisch darüber unterhalten was jemand unter "Design" versteht. :) Das bringt uns halt nicht weiter. Das Argument, dass es bei allen RDNA3 Chips das gleiche ist, ist jedenfalls ein schwaches. Niemand hier weiß, wo das Problem ist oder wie man es beheben kann. Je nachdem wie komplex das ganze ist kann es auch viel Aufwand und Zeit bedeuten es zu fixen. Dass man das nicht mal eben bei einem Respin fixen kann, überrascht mich jedenfalls nicht und ist auch kein Beweis, dass es kein Bug ist.
Es geht doch nicht mal um nen einfachen Respin, man hat mit dem Tapeout N31 bis N32 nen Jahr gehabt, um den Chip zu überarbeiten, wenn es ein Fehler wäre. In der Zeit hätte man jeglichen Fehler mit nem kompletten neuen Tapeout beheben können, statt einem einfach Metal Re-Spinn. Fermi war auch komplett im Eimer, aber man konnte den fixen. Anzunehmen, dass es einen Bug gibt der innerhalb eines Jahres nicht gefixt werden kann ist äußerst unwahrscheinlich. Da ist die Annahme, dass es ein Bug sein muss ein deutlich schwächeres Argument.
dargo
2024-03-12, 19:14:15
Es geht doch nicht mal um nen einfachen Respin, man hat mit dem Tapeout N31 bis N32 nen Jahr gehabt, um den Chip zu überarbeiten, wenn es ein Fehler wäre. In der Zeit hätte man jeglichen Fehler mit nem kompletten neuen Tapeout beheben können, statt einem einfach Metal Re-Spinn. Fermi war auch komplett im Eimer, aber man konnte den fixen. Anzunehmen, dass es einen Bug gibt der innerhalb eines Jahres nicht gefixt werden kann ist äußerst unwahrscheinlich. Da ist die Annahme, dass es ein Bug sein muss ein deutlich schwächeres Argument.
Das ist mir nicht weit genug gedacht. Hätte AMD N32 "gefixt" würde man sich selbst RDNA4 gefährden. Die Frage stellt sich also hier nicht ob man einen Bug in einem Jahr beheben kann sondern ob man diesen überhaupt beheben will im Hinblick auf den Nachfolger. Und nüchtern betrachtet denke ich da sogar zu weit. Unter der Annahme N32 wäre gefixt und würde bei seinen 265W mit =>3Ghz in den üblichen Gaming-Workloads takten würde AMD selbst schon die eigene RX 7900XT obsolet machen.
Hübie
2024-03-12, 21:52:57
Dargo hat gar nicht so Unrecht. Wir skippen ebenfalls öfter Bugs, wenn es Workarounds gibt und / oder diese nicht kritisch sind.
Im Fall von RDNA3 kann ich allerdings relativ sicher sagen, dass es kein Bug ist. Eher eine Designentscheidung. Wir werden in ein paar Jahren sicher irgendwo mal ein Interview finden, wo wir erfahren was los war. Ähnlich wie bei Tonga wo man plötzlich mehr SI und ALUs hatte als jemals aktiv waren (war doch Tonga, oder?). Wie auch immer. Es muss in 5 Jahren oder so nur mal jemand auf die Idee kommen jemanden mit den Insides zu interviewen. ;)
basix
2024-03-12, 22:12:57
Aber ob es wirklich einen "Suff-Fehler" gibt, weiß niemand und es gibt auch keine richtig harten Indizien die das belegen
Eine 7900 XTX arbeitet je nach Workload bei <2.4 GHz und >3.1 GHz. Und das ist das Referenzdesign. Hat man das bei irgendeiner anderen GPU je schonmal so gesehen? Der Spread ist locker doppelt so breit wie bei allen anderen GPU Architekturen. Die meisten liegen bei 10...15%. Also wenn das bereits kein deutliches Indiz ist, weiss ich auch nicht ;)
Und: Man kann nochmal +15% Takt drauflegen (z.B. 3.5 GHz in Blender), wenn man der Karte nochmals mehr Saft gibt (ca. 450...500W). Schaut man sich Ada Karten an, ist der Spread bei 2.7...3.0 GHz zwischen "hoher Spielelast" und maximal denkbarem Takt. Und viel weiter als 3 GHz geht es sowieso nicht, auch mit OC nicht, hast du selber bereits geschrieben.
Also da scheint schon was nicht so zu funktionieren, wie man es initial mal gedacht hatte. Man hat ja auch die +50% Energieeffizienz zu RDNA2 deutlich verfehlt. Weiterer Punkt, wo man sieht, dass es nicht wie geplant gelaufen ist. Würde die GPU mit +15...20% in Spielen takten, würde das alles besser passen.
Es geht doch nicht mal um nen einfachen Respin, man hat mit dem Tapeout N31 bis N32 nen Jahr gehabt, um den Chip zu überarbeiten, wenn es ein Fehler wäre. In der Zeit hätte man jeglichen Fehler mit nem kompletten neuen Tapeout beheben können, statt einem einfach Metal Re-Spinn. Fermi war auch komplett im Eimer, aber man konnte den fixen. Anzunehmen, dass es einen Bug gibt der innerhalb eines Jahres nicht gefixt werden kann ist äußerst unwahrscheinlich. Da ist die Annahme, dass es ein Bug sein muss ein deutlich schwächeres Argument.
Ist auch eine Ressourcen Frage und was effektiv das Problem ist. Vielleicht liegt es einfach an Fehlkonzeptionen beim Design. Die kannst du nicht einfach fixen, ohne viel Zeit zu investieren. +15% machen die Karten auch nicht mega besser und man hatte mit RDNA4 ein ambitioniertes Chiplet Ziel. Wo investierst du also die Ressourcen? Wäre ich AMD, hätte ich auch eher in die Zukunft investiert. Ergo erwarte ich von RDNA4 eigentlich relativ viel, was die Architektur und Umsetzung anbelangt. Dazu ist +1 Jahr für N32 das, was man als Kunde zu Gesicht bekommen hat. Es gibt viele Infos, dass N32 schon lange vor Release schon fertig war. AMD wollte sicher die 4070 abwarten und schauen wo man landet. Dann hat man es 3-4 Monate später für Back-to-School released.
Fermi hatte einfach bei der physischen Implementation ein Problem. Die Architektur hat man bei GF110 nicht angefasst.
_shorty_
2024-03-12, 23:28:37
Fermi hatte einfach bei der physischen Implementation ein Problem. Hört sich ja fast wie das Statement von Jen-Hsun damals an das TSMC zu doof für seinen eigenen 40nm Prozess ist. Die Architektur ist zwar bei GF100 und GF110 gleich aber da wurden an einigen Stellen Nachgearbeitet weil die 480 schnell gegen die 5870 auf den Markt mußte. Ähnlich is es doch hier auch, Lisa hatte zugesagt die 7900 XTX in nem Zeitfenster zu launchen, das hat sie nicht den Käufern zugesagt sondern den Aktionären. Bei Ada gabs lange Spekulationen vom Schluck Monster größer 600 Watt. Weshalb soll AMD da nicht das Target von 600 Watt gehabt haben, Nvidea machts laut Rumors auch. ADA kam dann doch deutlich genügsamer, Powerkorsett angeschnürrt, manche Dinge harmonieren damit nicht mehr ganz und das ist das Resultat. Auch wenn die einzelnen Punkte AMD klar sind. Eine Überarbeitung von RDNA 3 auf ein Fix z.B. 3.5 kostet ordentlich Geld, Ressourcen, macht für AMD keinen Sinn. Da wird halt das Thema einfach ausgesessen und wie oben bereits gesagt Ressourcen auf RDNA 4 gerichtet, halt ne vergeigte Gen. Vega wurde doch auch nie wirklich nachgearbeitet
basix
2024-03-12, 23:36:00
Ich habe damit nicht gemeint, dass TSMC schuld war ;) Die Implementation wird primär von Nvidia gemacht, TSMC bietet nur die Werkzeuge & Support an.
reaperrr
2024-03-13, 03:01:42
Eine Überarbeitung von RDNA 3 auf ein Fix z.B. 3.5 kostet ordentlich Geld, Ressourcen, macht für AMD keinen Sinn. Da wird halt das Thema einfach ausgesessen und wie oben bereits gesagt Ressourcen auf RDNA 4 gerichtet, halt ne vergeigte Gen. Vega wurde doch auch nie wirklich nachgearbeitet
Für was es wert ist:
So in etwa ist auch die Gerüchtelage zu den Hintergründen.
Ursprünglich hat AMD wohl ca. Herbst 2022 schon noch drüber nachgedacht, später einen RDNA3.5-Refresh für das Line-Up zu bringen, der zumindest einen Teil der Schwächen reduziert hätte.
Aber selbst so ein relativ kleiner Refresh wäre erst 9-12 Monate nach der Original-Reihe fertig gewesen (9-12 Monate im Sinne von Produktionsreife zu Produktionsreife), und weil
- manche Dinge wie neue Masken bei einem kleinen uArch-Update genauso viel Geld kosten wie bei einer völlig neuen Architektur,
- für N32 wegen dem schleppenden Abverkauf von N22 und N21 bereits absehbar war, dass es lange dauern würde, bis es Sinn macht den überhaupt rauszubringen,
- es mit den Chiplet-RDNA4 da schon Probleme gab und
- RDNA3.5 die Schwächen von RDNA3 eben nur reduziert, aber nicht behoben hätte,
hat man die Ressourcen stattdessen zunächst zu RDNA4 verschoben, um diese dafür schneller fertigzukriegen.
Daraus ist dann nach mehreren Monaten bekanntermaßen bei den Chiplet-Varianten aber auch wieder nichts geworden, bloß wieder auf einen RDNA3.5-Refresh zurückzuswitchen hätte zu dem Zeitpunkt schon keinen Sinn mehr gemacht (zu viel Zeit verloren, um mit einem RDNA3.5-N31R noch groß was reißen zu können, und alles darunter konnten N44+48 eh besser abdecken als es leichte Updates von N32 und N33 gekonnt hätten), also hat man die Ressourcen weitgehend zu RDNA5 weiterverschoben und überlässt das HighEnd halt notgedrungen NV, bis RDNA5 fertig ist (oder AMD den Chiplet-Ansatz auch dort nicht in den Griff bekommt und endgültig die HighEnd-Segel streicht...).
Altehardware
2024-03-13, 03:50:06
Hoffen wir das mal nicht mcm ist ambitioniert und nach bisherigen Patenten auch umsetzbar verlangt aber zwingend tsv und gestapelte chips um die Latenz Nachteile durch 2,5 auszugleichen
Das birgt aber mehr widerstand somit wärme was den Takt drückt das würde nur mit n2 eingeführte backside Stromversorgung helfen.
Das problem bei rdna3 ist die Datenkonsistenz die nicht gegeben ist darum die enorme Stromaufnahme.
Das wird man mit rdna4 gefixt haben es ist bald soweit vermutlich zum summer game fest wird angekündigt und dann zur gamescom erscheinen gleichzeitig mit der ps5 pro.
Es ist schon mitte März die deals mit rdna3 häufen sich derzeit beste P/L gpu in entry
Wäre da nicht die extreme Stromaufnahme was mich von den gpu abhält.
dargo
2024-03-13, 07:20:47
Dargo hat gar nicht so Unrecht. Wir skippen ebenfalls öfter Bugs, wenn es Workarounds gibt und / oder diese nicht kritisch sind.
Im Fall von RDNA3 kann ich allerdings relativ sicher sagen, dass es kein Bug ist. Eher eine Designentscheidung.
Das wäre ja noch verrückter. Hat sich AMD hier tatsächlich auf die Gerüchte bei Ada verlassen der würde mit 600W oder was auch immer kommen und deshalb N31 mit um die 500W geplant? So naiv kann doch AMD nicht sein. Zumal es für solche Entscheidungen bei Ada Gerüchten eh schon zu spät war, da war N31 schon zu weit fortgeschritten. Und als weiteres hätte AMD die Effizienzziele vs. RDNA2 mit 500W weit verfehlt.
Eine 7900 XTX arbeitet je nach Workload bei <2.4 GHz und >3.1 GHz. Und das ist das Referenzdesign. Hat man das bei irgendeiner anderen GPU je schonmal so gesehen? Der Spread ist locker doppelt so breit wie bei allen anderen GPU Architekturen. Die meisten liegen bei 10...15%. Also wenn das bereits kein deutliches Indiz ist, weiss ich auch nicht ;)
Und: Man kann nochmal +15% Takt drauflegen (z.B. 3.5 GHz in Blender), wenn man der Karte nochmals mehr Saft gibt (ca. 450...500W).
Nicht ganz... in Blender waren es ~3,5Ghz bei 374W. :) Aber die 450-500W beziehst du sicherlich auf Gaming-Workloads.
Ist auch eine Ressourcen Frage und was effektiv das Problem ist. Vielleicht liegt es einfach an Fehlkonzeptionen beim Design. Die kannst du nicht einfach fixen, ohne viel Zeit zu investieren. +15% machen die Karten auch nicht mega besser und man hatte mit RDNA4 ein ambitioniertes Chiplet Ziel. Wo investierst du also die Ressourcen? Wäre ich AMD, hätte ich auch eher in die Zukunft investiert. Ergo erwarte ich von RDNA4 eigentlich relativ viel, was die Architektur und Umsetzung anbelangt. Dazu ist +1 Jahr für N32 das, was man als Kunde zu Gesicht bekommen hat. Es gibt viele Infos, dass N32 schon lange vor Release schon fertig war. AMD wollte sicher die 4070 abwarten und schauen wo man landet. Dann hat man es 3-4 Monate später für Back-to-School released.
Das ist auch ein wichtiger Punkt den man dabei betrachten sollte. Wenn ich AMD wäre dann würde ich auch die 5nm Kapazitäten wo anders investieren (mehr Cash) als in einen N32 GCD solange es geht bzw. bis die Konkurrenz mit entsprechendem Performancesegment kommt. Ein weiteres Indiz für diese These könnte auch sein, dass N33 früher als N32 released wurde. N33 blockierte die 5nm Kapazitäten auch nicht.
btw.
Wann hatte N32 eigentlich sein tape out? Gibts da was Offizielles zu?
Zossel
2024-03-13, 07:37:27
Hoffen wir das mal nicht mcm ist ambitioniert und nach bisherigen Patenten auch umsetzbar verlangt aber zwingend tsv und gestapelte chips um die Latenz Nachteile durch 2,5 auszugleichen
Das birgt aber mehr widerstand somit wärme was den Takt drückt das würde nur mit n2 eingeführte backside Stromversorgung helfen.
Wenn ich mir die letzte Iteration der KI-Beschleuniger von AMD anschaue würde ich diese Probleme als gelöst ansehen, jetzt werden die Stückzahlen skaliert.
Troyan
2024-03-13, 11:28:20
Es geht doch nicht mal um nen einfachen Respin, man hat mit dem Tapeout N31 bis N32 nen Jahr gehabt, um den Chip zu überarbeiten, wenn es ein Fehler wäre. In der Zeit hätte man jeglichen Fehler mit nem kompletten neuen Tapeout beheben können, statt einem einfach Metal Re-Spinn. Fermi war auch komplett im Eimer, aber man konnte den fixen. Anzunehmen, dass es einen Bug gibt der innerhalb eines Jahres nicht gefixt werden kann ist äußerst unwahrscheinlich. Da ist die Annahme, dass es ein Bug sein muss ein deutlich schwächeres Argument.
Es gibt keine Bugs mehr. Ein Tape-Out kostet mehr als $500 Millionen. Heute wird jeder Transistor, jede Beziehung, jede Kommunikation im Großrechner simuliert.
reaperrr
2024-03-13, 12:06:09
Es gibt keine Bugs mehr.
:lol:
Damit beweist du nur, dass du absolut keine Ahnung hast.
Die Chips haben heute teilweise mehr Bugs als früher, weil neue Steppings und Respins so teuer geworden sind, dass man viele Bugs lieber über Firmware "fixt" bzw. Work-Arounds einbaut.
https://www.digitaltrends.com/computing/intel-sapphire-rapids-has-500-bugs-to-fix/
Und die Firmware von Zen 3 (Desktop) ist deshalb extrem fett, weil der so viele Bugs hat, dass AMD eine Menge über Firmware fixen musste, damit die überhaupt starten.
Und ja, das gilt auch für GPUs, und ja, auch für Nvidia.
Du kannst gar nicht alles so im Vorfeld simulieren, dass du damit jegliche Bugs im Design im Voraus vermeiden könntest.
Zossel
2024-03-13, 12:12:29
Es gibt keine Bugs mehr. Ein Tape-Out kostet mehr als $500 Millionen. Heute wird jeder Transistor, jede Beziehung, jede Kommunikation im Großrechner simuliert.
FPGA
Troyan
2024-03-13, 12:55:33
:lol:
Damit beweist du nur, dass du absolut keine Ahnung hast.
Die Chips haben heute teilweise mehr Bugs als früher, weil neue Steppings und Respins so teuer geworden sind, dass man viele Bugs lieber über Firmware "fixt" bzw. Work-Arounds einbaut.
https://www.digitaltrends.com/computing/intel-sapphire-rapids-has-500-bugs-to-fix/
Und die Firmware von Zen 3 (Desktop) ist deshalb extrem fett, weil der so viele Bugs hat, dass AMD eine Menge über Firmware fixen musste, damit die überhaupt starten.
Und ja, das gilt auch für GPUs, und ja, auch für Nvidia.
Du kannst gar nicht alles so im Vorfeld simulieren, dass du damit jegliche Bugs im Design im Voraus vermeiden könntest.
Aha. Und ohne die 500 Bugs wären Intel-Prozessoren wohl 50% schneller, gell? :rolleyes:
Eine GPU Generation bleibt heutzutage zwei Jahre auf dem Markt. Ein fehlerhaftes Design ist damit viel schwerwiegender. Niemand bringt ein Design zur Fertigung, was so kaputt ist, dass dort 10%+ Leistung einfach auf der Strecke bleibt.
FPGA
Testchips sind klein und weitaus weniger komplex. nVidia simuliert im Großrechner.
Neurosphere
2024-03-13, 13:41:12
Aha. Und ohne die 500 Bugs wären Intel-Prozessoren wohl 50% schneller, gell? :rolleyes:
Niemand hat davon geschrieben das es dabei direkt immer gleich um performance gehen muss.
Testchips sind klein und weitaus weniger komplex. nVidia simuliert im Großrechner.
Man wird wohl beides tun und das nicht nur bei NV. Ein Großteil des Chips wird ja bereits vom "Großrechner" entworfen.
amdfanuwe
2024-03-13, 13:41:56
Ein Tape-Out kostet mehr als $500 Millionen.
Wie kommst du denn da drauf?
Gipsel
2024-03-13, 16:02:58
Im Fall von RDNA3 kann ich allerdings relativ sicher sagen, dass es kein Bug ist. Eher eine Designentscheidung.So sieht es für mich auch aus. Man hat das physische Design (vermutlich ein wenig mit Brechstange und zu vielen low Vt-Transistoren) so ausgelegt, daß 3,5GHz möglich werden (wie man in einigen Workloads offenbar sehen kann), darüber aber den Stromverbrauch ein wenig außer Acht gelassen. Deswegen kann man diesen Takt realistisch nicht fahren. Also offenbar hat man sich da irgendwo verschätzt. Hinterher ist man zwar klüger, aber AMDs Marktanteil/Stückzahlen im Consumerbereich rechtfertigten offenbar nicht den Aufwand eines komplett neuen physischen Designs für RDNA3 (insbesondere wenn sich dadurch z.B. die Diefläche ändern würde), um das auf einen günstigeren Betriebspunkt zu schieben.
Wir haben ja bei Zen4 vs. Zen4c viel darüber geredet, wie viel ein anderer Zielpunkt für den Spitzentakt ausmachen kann. Wenn es nur um den Zieltakt (und nicht Zieltakt+Fläche) geht, sind die Auswirkungen sicher noch etwas größer.
Wäre RDNA3 bei anderer Auslegung der Überflieger geworden? Sicher nicht, aber es hätte vielleicht etwas besser ausgesehen.
Hübie
2024-03-14, 01:50:01
Soweit ich weiß war man sogar überrascht wie hoch sich die ALU und Frontend Domain takten lassen. Ich finde RDNA3 auch ehrlich gesagt ziemlich gelungen, wenn wir mal nur von Rasterleistung pro Watt sprechen. Es ist ja nicht so, als wäre der Kern eine neue Erfindung. Die physikalischen Herausforderungen standen hier viel mehr im Fokus, da es bisher kein Endprodukt mit Chiplets gab. Hier konnte man aus dem CPU Sektor ordentliche Learnings ziehen. Dem Ingenieur ist es meist egal ob er an einem Teil der GPU, CPU oder sonst was arbeitet.
@Troyan: selten so gelacht. Wenn es gut läuft, kannst du einen Teil der Architektur simulieren, aber einen ganzen Chip mit all seinen Faktoren sicher nicht. Das würde bedingen, dass du jedes Molekül abbilden kannst und da sind wir ganz sicher nicht. Das wird alles Iteration für Iteration durchgerechnet. 100%ig. Was du sicherlich mal gesehen hast, sind bspw. thermische Simulationen oder Stromfluss-Simulationen. Das sind aber alles nur (An-) Näherungsrechnungen. Prozessgrößen lassen sich halt nicht 100%ig voraussagen. Und ja die Dinger haben eine Menge Bugs und eine Menge Zusatztransistoren...
RitterRost
2024-03-14, 08:34:53
Keine Ahnung, wie man RDNA3 "gelungen" finden kann...
Wo sind denn die versprochenen +35% perf/W?
Dass die 7800XT in vielen Fällen nicht schneller als die 6800XT ist (oder zumindest in Benchmarks zur Veröffentlichung der 7800XT war)...
Ich bin jedenfalls auch sehr gespannt, ob wir mal erfahren werden, was sich die Beteiligten da gedacht hatten...
][immy
2024-03-14, 10:04:51
Keine Ahnung, wie man RDNA3 "gelungen" finden kann...
Wo sind denn die versprochenen +35% perf/W?
Dass die 7800XT in vielen Fällen nicht schneller als die 6800XT ist (oder zumindest in Benchmarks zur Veröffentlichung der 7800XT war)...
Ich bin jedenfalls auch sehr gespannt, ob wir mal erfahren werden, was sich die Beteiligten da gedacht hatten...
Du verschweigst allerdings das die 7800xt mit weniger Hardware es schafft auf 6800 xtx Niveau zu kommen. Z.b. die Anzahl der shader 4608 (6800xt) vs 3840 (7800xt). Die Hardware ist schon effizienter, wird aber nicht so betrieben. Weniger shader bei höherer Frequenz = mehr Verbrauch. Es ist eher so, das man weniger Hardware bekommt aber die Leistung ähnlich geblieben ist. Ist halt einfach aus consumer Sicht eine verlorene Generation (wie bei Nvidia).
Zudem hat sich der Transistor Count nur um 2mrd Transistoren erhöht (neue Funktionen aber weniger Recheneinheiten).
Aus Konsumentensicht hätte die 7800xt eigentlich eher eine 7700 werden müssen, nach den ganzen Jahren.
BlacKi
2024-03-14, 10:44:14
Keine Ahnung, wie man RDNA3 "gelungen" finden kann...
Wo sind denn die versprochenen +35% perf/W?
Dass die 7800XT in vielen Fällen nicht schneller als die 6800XT ist (oder zumindest in Benchmarks zur Veröffentlichung der 7800XT war)...
Ich bin jedenfalls auch sehr gespannt, ob wir mal erfahren werden, was sich die Beteiligten da gedacht hatten...die +30-35% findest du noch bei anderen karten, aber es waren +50% auf den folien, die bei gaming bei keiner karte nachzubenchen sind.
dargo
2024-03-14, 10:47:14
Keine Ahnung, wie man RDNA3 "gelungen" finden kann...
Wo sind denn die versprochenen +35% perf/W?
Geplant waren mindestens +50% perf/W vs. RDNA2.
[immy;13507907']Du verschweigst allerdings das die 7800xt mit weniger Hardware es schafft auf 6800 xtx Niveau zu kommen. Z.b. die Anzahl der shader 4608 (6800xt) vs 3840 (7800xt). Die Hardware ist schon effizienter, wird aber nicht so betrieben. Weniger shader bei höherer Frequenz = mehr Verbrauch.
Und du verschweigst, dass N32 GCD ein Full Node Sprung ist. ;) Und dann kommt der Witz noch hinzu, dass N32 nur ganz minimal höher taktet als N21 Topdog.
https://www.computerbase.de/2023-09/amd-radeon-rx-7700-xt-rx-7800-xt-test/2/#abschnitt_die_tatsaechlichen_durchschnittlichen_taktraten_unter_last
https://www.computerbase.de/2020-12/amd-radeon-rx-6900-xt-review-test/2/#abschnitt_taktraten_unter_last
Er könnte natürlich wesentlich höher takten. Nur wären dann 350+W fällig.
dildo4u
2024-03-14, 10:54:18
Raff hat +66% beim RT gegen 6800XT
https://youtu.be/0LjNeXBfDQQ?si=j_DtptgN7kly1CE7&t=978
Eine 6950XT(330 TDP) könnte in den Vergleich passen bei +50% Leistung vergleichbares TDP.
dargo
2024-03-14, 11:03:07
Die Welt dreht sich nicht nur um RT. :rolleyes: Und eine 6950XT vs. 7900XTX zu stellen ist auch ein super Vergleich. :lol: Erstere operiert eher am oberen Ende der V/F-Kurve, Zweitere eher am unteren Anfang weil ihr ein deutlich engeres Korsett beim Powerlimit verpasst wurde. Vergleiche mal beide mit stark offenem Powerlimit bei gleichen real anliegenden Spannungen dann wirst du schon sehen wie effizient N31 ist. ;D
BlacKi
2024-03-14, 11:04:00
@dildo weiß nicht ob man das pferd so aufzäumen will, denn dann verliert die angabe seine aussagekraft.
dildo4u
2024-03-14, 11:52:55
Ich denke andere Tester testen halt oft leichte CPU Limits vorallem mit den größeren Karten.
Raff sucht sich Stellen aus die wirklich reinhauen Alan Wake ohne RT 50fps auf der 4090 z.b.
Das könnte erklären wie AMD Damals auf 54% kam wenn man die CPU eliminiert kommt es hin.(Tests mit 3D Mark?)
46 -> 75
https://i.ibb.co/fpjgVJ0/port-1-radeon-rx-7900-series-performance.webp (https://ibb.co/gTk2bYg)
https://hothardware.com/reviews/amd-radeon-rx-7900-xt-and-7900-xtx-review?page=3
dargo
2024-03-14, 12:48:58
Ist wieder Kirschen pflücken angesagt um sich was schön zu saufen? :freak: In 4k ist die Perf/W der 7900XTX gerade mal 18% besser als bei 6900XT.
https://www.computerbase.de/2022-12/amd-radeon-rx-7900-xtx-xt-review-test/5/#abschnitt_energieeffizienz_in_fps_pro_watt
Nicht mal die 4090 erreicht deine +54% Perf/W sondern nur die 4080. Mag sein, dass sich das im Laufe der Zeit minimal zugunsten der neuen Gen verschoben hat, aber garantiert nicht in den Bereich von dem du da sprichst bzw. welchen AMD im Visier hatte.
amdfanuwe
2024-03-14, 13:13:02
aber es waren +50% auf den folien,
unter welchen Bedingungen? Stand auch auf den Folien.
ChaosTM
2024-03-14, 13:17:37
RDNA3 ist nicht so gelaufen wie geplant, daran gibt es nichts zu rütteln.
Der erste Multichip Ryzen war auch nicht besonders gut. Ich hoffe man hat was gelernt.
RitterRost
2024-03-14, 14:22:43
die +30-35% findest du noch bei anderen karten, aber es waren +50% auf den folien, die bei gaming bei keiner karte nachzubenchen sind.
Dann habe ich das wohl schon verdrängt. Danke für die Korrektur.
AMD kann auch kaum von 35% oder 50% sprechen, wenn man den Fortschritt dann nur in einem einzelnen synthetischen Benchmark reproduzieren kann.
robbitop
2024-03-15, 09:50:43
Das neuste Video von MLID scheint die PS5 Pro zu leaken was potenziell Implikationen zu RDNA4 hat:
https://www.youtube.com/watch?v=SV7BJKnZfP8&t=927s
- 67 TFLOPs FP16 -> 33,5 TFLOPS FP32
- 300 TOPS (INT8) mit customized AI HW
- 40% konventionell höhere GPU Leistung als PS5
- 2-3x so schnell in RT
- PSSR Playstation Spectral Super Resolution (Temporales Upsampling mit Machine Learning)
Entsprechend hat man deutlich mehr RT HW investiert und in das Processing von Matritzen.
Das hat sicherlich Implikationen zu RDNA4, da AMD historisch einen Großteil der IP auch in den dGPUs nutzt.
Bei PSSR ist es allerdings unklar, wie viel hier von Sony kommt (vom Verfahren) und welche HW man nutzt. Ggf hat man auch einfach einen XDNA2 IP Block verbauen lassen und lässt da sein eigenes Verfahren darauf laufen, auf das AMD keinen Anspruch erheben kann.
bloodflash
2024-03-15, 10:17:11
33,5 TFLOPS FP32
- 2-3x so schnell in RT
Ausgehend von den knapp 11 TFLOPS der originalen PS5, schauen die 2-3x RT jetzt auch nicht besonders berauschend aus. Die 3-fache Leistung für ein Pro-Update!?
robbitop
2024-03-15, 10:37:02
Ausgehend von den knapp 11 TFLOPS der originalen PS5, schauen die 2-3x RT jetzt auch nicht besonders berauschend aus. Die 3-fache Leistung für ein Pro-Update!?
Die Zahlen muss man im Kontext sehen.
RDNA3 bringt eine Verdopplung der FP Leistung pro CU (die aber taktnormiert nicht besonders viel in Spielen bringt)
RNDA2 hat eine Verdopplung der FP16 FP Leistung pro CU gebracht, die die PS5 nicht hat soweit ich weiß (da hat Sony ein paar Abstriche gemacht).
Die Xbox Series X hat das und wirbt entsprechend mit ~22 TFLOPs FP16.
Also man müsste um das halbwegs vergleich zu können den Wert vierteln. Die PS5 Pro hat CU normiert also ~60% mehr "echte" Leistung.
Wahrscheinlich etwas mehr, weil die Erhöhung obiger Fähigkeiten schon etwas bringen - aber lange nicht das was man dabei erwartet.
Dazu kommt, dass reine FP Leistung oftmals nicht die limitierende Komponente in Spielen ist.
Laut dem Leak soll die PS5 Pro GPU etwa 40% schneller in Rastertiteln sein. Das widerum klingt etwas wenig.
RT ist sehr wahrscheinlich deutlich schneller wegen mehr dedizierter RT HW.
Zu den absurd hohen FP16 Zahlen bei RDNA3 mal ein Vergleich:
Die Radeon 7600 hat 43,5 TFLOPS FP16 mit 2048 Shadercores und 2655 MHz Boost clock
Die Radeon 5700 XT hat 9,7 FTLOPS FP16 (in der Hinsicht ähnlich zur PS5) mit 2560 Shadercores und 1905 MHz Boost clock
Das impliziert auf den ersten Blick Faktor ~4,5. Aber die 7600 ist eher nur ~30% schneller.
https://www.youtube.com/watch?v=wYMe4Vb82QI
Wenn man auf nur CUs und Takt schaut, liegt die 7600 (RDNA3) nur 10% über dem was die 5700 XT (RDNA1) hat. Also sind die CUs von RDNA3 etwa ~18% schneller.
Mit dieser Information würde ich schlussfolgern, dass 67 TFLOPs bei der PS5 also eher zu +90% mehr GPU Leistung in Spielen führen müssten. Entsprechend ist Sonys Angabe da ziemlich konservativ.
dargo
2024-03-15, 10:40:55
Das neuste Video von MLID scheint die PS5 Pro zu leaken was potenziell Implikationen zu RDNA4 hat:
https://www.youtube.com/watch?v=SV7BJKnZfP8&t=927s
- 67 TFLOPs FP16 -> 33,5 TFLOPS FP32
- 300 TOPS (INT8) mit customized AI HW
- 40% konventionell höhere GPU Leistung als PS5
- 2-3x so schnell in RT
- PSSR Playstation Spectral Super Resolution (Temporales Upsampling mit Machine Learning)
Lol... und dafür braucht man >Faktor 3 an TFLOPs? :freak: :lol:
Laut dem Leak soll die PS5 Pro GPU etwa 40% schneller in Rastertiteln sein. Das widerum klingt etwas wenig.
RT ist sehr wahrscheinlich deutlich schneller wegen mehr dedizierter RT HW.
Eben... wegen lächerlichen +40% bringt keiner einen Konsolenrefresh. Es sei denn man möchte mit Upscaling und RT die Leute verarschen. :tongue: Da dürfte mehr bei rum kommen.
robbitop
2024-03-15, 10:48:25
Ich hab es nochmal editiert - es müssten ~90% mehr konventionelle GPU Leistung herauskommen.
reaperrr
2024-03-15, 13:20:51
Laut dem Leak soll die PS5 Pro GPU etwa 40% schneller in Rastertiteln sein. Das widerum klingt etwas wenig.
Die Speicherbandbreite steigt nur um 28,5%, wenn sie keinen IF$ verbauen.
Gut, RDNA3 hat leicht verbesserte DCC, aber es ist unwahrscheinlich, dass das viel bringt.
Außerdem scheint man bei 2 ShaderEngines zu bleiben, wodurch die Auslastung trotz weniger Treiber-Overhead und mehr Low-Level Optimierung in manchen Szenarien trotzdem schwächer als bei den Desktop-Pendants ausfallen könnte, und zumindest der Primitive-Durchsatz je Takt leidet darunter definitiv.
Soll wohl auch nur mit 2 GHz statt der 2.23 bei der PS5 takten, in Aspekten wo mehr CUs nicht helfen, könnte die Leistung also sogar leicht sinken.
Wie es bei den ROPs aussieht wissen wir auch nicht, bei den Desktop-RDNA3 wurde der Z/Stencil-Durchsatz je ROP im Vergleich zu RDNA2 halbiert.
Langer Rede kurzer Sinn, dass bei 55-66% mehr CUs, aber leichtem Takt-Rückschritt, gleichbleibender Frontend-Breite, nur 28,5% mehr Bandbreite und einer außerhalb der CUs mglw. kaum aufgebohrten GPU nur ~40% mehr Raster-Leistung rauskommen, ist jetzt keine große Enttäuschung, sondern eher das, was man von den Specs erwarten konnte.
Man wird halt manche Titel endlich in konstanten 60 FPS spielen können, manche Titel werden nicht mehr dynamisch die Auflösung runterregeln oder so viel LODen müssen, und in manchen Titeln wird mit Sony's DLSS-Equivalent ordentliche Grafikqualität + RT möglich.
Für einen Mid-Life Kicker OK. Wie vorher schonmal erwähnt, wesentlich mehr wäre in Raster allein schon durch den nur mäßigen Prozess-Vorteil nicht so ohne weiteres möglich gewesen.
Edit: Außerdem sagt MLID immerhin ~45%, nicht 40%.
davidzo
2024-03-15, 13:36:59
- 300 TOPS (INT8) mit customized AI HW
Das ist mehr als eine 3090 mit sparsity. Möglicherweise sind das keine tensorcores in den WGPs sondern wieder Xilinx NPU Technologie. Die sind schon in der drölften Generation und haben da mittlerweile wohl eine sehr gute performance/per Area und energy. Die ersten NPUs waren noch auf FPGA Basis, Phoenix hat dediziertes Silizium und bei Hawk konnte trotz praktisch identischer hardwaree nochmal deutlich mehr herausholen.
Ich bin gespannt was das für Strix und Zen6 bedeutet, wenn schon eine Konsole so fette NPUs bekommt.
basix
2024-03-15, 14:02:58
Die Speicherbandbreite steigt nur um 28,5%, wenn sie keinen IF$ verbauen.
Bei "nur" so viel FLOPS nehme ich an, dass kein Infinity Cache zu Einsatz kommt. Bandbreite ist sicher etwas knapp, aber RDNA3 bringt deutlich grössere Register sowie L0/L1/L2 Caches.
Außerdem scheint man bei 2 ShaderEngines zu bleiben, wodurch die Auslastung trotz weniger Treiber-Overhead und mehr Low-Level Optimierung in manchen Szenarien trotzdem schwächer als bei den Desktop-Pendants ausfallen könnte, und zumindest der Primitive-Durchsatz je Takt leidet darunter definitiv.
Wie kommst du nur auf 2? Ich hätte 3 wie bei N32 gesagt, 20 CU pro SE. Wüsste nicht, dass man auf 30 CU pro SE skalieren könnte.
Soll wohl auch nur mit 2 GHz statt der 2.23 bei der PS5 takten, in Aspekten wo mehr CUs nicht helfen, könnte die Leistung also sogar leicht sinken.
Wie es bei den ROPs aussieht wissen wir auch nicht, bei den Desktop-RDNA3 wurde der Z/Stencil-Durchsatz je ROP im Vergleich zu RDNA2 halbiert.
33.5 FP32 / 67 FP16 TFLOPS bei vermutlich 56 CU (60 full chip) entspricht 2.35 GHz
- 67 TFLOPs FP16 -> 33,5 TFLOPS FP32
- 300 TOPS (INT8) mit customized AI HW
- 40% konventionell höhere GPU Leistung als PS5
- 2-3x so schnell in RT
- PSSR Playstation Spectral Super Resolution (Temporales Upsampling mit Machine Learning)
Entsprechend hat man deutlich mehr RT HW investiert und in das Processing von Matritzen.
Das hat sicherlich Implikationen zu RDNA4, da AMD historisch einen Großteil der IP auch in den dGPUs nutzt.
Wenn man das so liest, sollte RDNA4 deutlich aufgebohrte RT-Fähigkeiten bekommen sowie Matrix-Accelerators. Ich denke nämlich nicht, dass man eine dedizierte 300 TOPS NPU auf den Chip knallt, das wäre viel zu teuer. Bei 56 CU und 2.65 GHz Takt würde man 300 TOPS erreichen (4x INT8 / clock verglichen zu FP16). Hinsichtlich customized denke ich, dass man hier bei den Matrix-Units FP16 weglässt und nur INT8/INT4 anbietet und eventuell noch FP8 (aber evlt. auch nicht). Das ist ein Fokus auf Inferencing, Training passiert eh nicht auf der Konsole. Das spart Fläche und erhöht die Energieffizienz, deswegen können die ALUs dann höher takten.
Matrix Units bei den GPUs würde ausserdem AMDs Strategie entsprechen: ML/AI pushen. Wäre immerhin 6 Jahre nach Turing mal an der Zeit.
Das ist mehr als eine 3090 mit sparsity. Heute scheinen alle nicht rechnen zu können ;) Eine 3090 hat mit INT8 ohne Sparsity bereits ~300 TOPS ;) Aber ja, die 300 TOPS von oben könnten auch mit Sparsity sein. Wenn nicht, wäre man schon in etwa auf 3090 Niveau beim Inferencing. Ist mir nicht bekannt, dass Sparsity so verbreitet zur Anwendung kommt.
robbitop
2024-03-15, 14:23:32
Die Speicherbandbreite steigt nur um 28,5%, wenn sie keinen IF$ verbauen.
Das ist ein guter Punkt. Wobei man sich dann fragt, wozu die Rechenleistung so aufbohren, wenn man sie nicht auf die Straße bringen kann. Ist ja verschwendetes Silizium
Gut, RDNA3 hat leicht verbesserte DCC, aber es ist unwahrscheinlich, dass das viel bringt.
Denke ich auch - das ist ausiteriert. Gesetz des sinkenden Grenzertrags impliziert, dass da im Vergleich zu den ersten Sprüngen nur noch Fitzelchen zu holen sind.
Außerdem scheint man bei 2 ShaderEngines zu bleiben, wodurch die Auslastung trotz weniger Treiber-Overhead und mehr Low-Level Optimierung in manchen Szenarien trotzdem schwächer als bei den Desktop-Pendants ausfallen könnte, und zumindest der Primitive-Durchsatz je Takt leidet darunter definitiv.
Ergibt Sinn, dass das abschwächend wirkt aber woraus schließt du, dass es bei 2 SEs bleibt?
Soll wohl auch nur mit 2 GHz statt der 2.23 bei der PS5 takten, in Aspekten wo mehr CUs nicht helfen, könnte die Leistung also sogar leicht sinken.
Wie es bei den ROPs aussieht wissen wir auch nicht, bei den Desktop-RDNA3 wurde der Z/Stencil-Durchsatz je ROP im Vergleich zu RDNA2 halbiert.
Schliest du das aus den früheren Gerüchten mit 56...60 CUs? Bei 60 CUs wären es 2180 MHz und bei 56 2336 MHz. Das könnte hinkommen.
Spricht aber (sofern RDNA3.5 auch stimmt) dann nicht gerade für einen weiteren Fortschritt im Takt bei neueren GPU IPs.
Bei der PS5 hat Sony die Taktvorteile von RDNA2 gern mitgenommen und hat relativ wenig CUs verbaut (Transistoren sparen) - wenn es weitere für RDNA3.5 geben sollte, würde man annehmen, dass sie das mitnehmen.
Bedeutet entweder stimmt das Gerücht um RDNA3.5 nicht oder aber es gibt erstmal nicht die erhofften Taktvorteile oder aber Sony geht auf einmal einen ganz anderen Weg. :)
Langer Rede kurzer Sinn, dass bei 55-66% mehr CUs, aber leichtem Takt-Rückschritt, gleichbleibender Frontend-Breite, nur 28,5% mehr Bandbreite und einer außerhalb der CUs mglw. kaum aufgebohrten GPU nur ~40% mehr Raster-Leistung rauskommen, ist jetzt keine große Enttäuschung, sondern eher das, was man von den Specs erwarten konnte.
Ja macht Sinn - aber schon doch sehr enttäuschend was bei so viel mehr Rechenleistung auf die Straße kommt. Da gebe ich den Vorrednern schon Recht.
Man wird halt manche Titel endlich in konstanten 60 FPS spielen können, manche Titel werden nicht mehr dynamisch die Auflösung runterregeln oder so viel LODen müssen, und in manchen Titeln wird mit Sony's DLSS-Equivalent ordentliche Grafikqualität + RT möglich.
Für einen Mid-Life Kicker OK. Wie vorher schonmal erwähnt, wesentlich mehr wäre in Raster allein schon durch den nur mäßigen Prozess-Vorteil nicht so ohne weiteres möglich gewesen.
Mal schauen wie groß das Ding so wird. Aber immerhin wird mal die Architektur auf den Stand der Technik erhöht. ML Upsampling und anständige RT HW. Endlich
Edit: Außerdem sagt MLID immerhin ~45%, nicht 40%.!
:eek::freak:;D
robbitop
2024-03-15, 14:27:52
Das ist mehr als eine 3090 mit sparsity. Möglicherweise sind das keine tensorcores in den WGPs sondern wieder Xilinx NPU Technologie. Die sind schon in der drölften Generation und haben da mittlerweile wohl eine sehr gute performance/per Area und energy. Die ersten NPUs waren noch auf FPGA Basis, Phoenix hat dediziertes Silizium und bei Hawk konnte trotz praktisch identischer hardwaree nochmal deutlich mehr herausholen.
Ich bin gespannt was das für Strix und Zen6 bedeutet, wenn schon eine Konsole so fette NPUs bekommt.
Da Hawk Point gleiches Silizium ist wie Phoenix spricht das eher für FPGA.
Ich hab mal hochgerechnet wie flächen und TDP effizient der Xilinx Kram von den Xilinx Produkten ist - gut aber wenn du richtig viele TOPS brauchst auch nicht effizienter als der Kram von Nvidia.
Aber ja Gerüchte hatten XDNA2 vor einigen Wochen benannt. Kann gut sein.
Wenn Sony ihr eigenes ML-Upsampling gemacht hat und dafür TOPS brauchte und AMD noch keine Matrixcores für RDNA zu dem Zeitpunkt vorgesehen hatte, dass man dann einen XDNA2 IP Block angeboten hat. Entsprechend hätte das aber auch eher negative Implikationen für die Verwendung des Verfahrens und der HW in der nächsten RDNA dGPU IP.
Mit Checkerboarding auf der PS4PRO hat Sony ja auch eigene HW Wünsche gehabt (ID Buffer) und ihr eigenes Verfahren verwenden lassen. Das kann hier natürlich auch der Fall sein.
reaperrr
2024-03-15, 15:38:39
Ergibt Sinn, dass das abschwächend wirkt aber woraus schließt du, dass es bei 2 SEs bleibt?
Weil es bisher bei allen RDNA-Iterationen so war, dass sich CUs nicht einzeln/asymmetrisch deaktivieren lassen, sondern das immer von der Anzahl der (aktiven) ShaderEngines bzw. ShaderArrays abhängt.
N10: 2SE/4SA, CUs lassen sich nur in 4-er Schritten deaktivieren, bzw. in 2er WGP-Schritten.
N22: Same.
N21: 4SE/8SA, nur in 8CU/4WGP Schritten (6800XT), oder ne ganze SE (6800).
N32: Hat 3SE/6SA, CUs/WGPs lassen sich nur in 6er/3er Schritten deaktivieren (oder halt ne komplette SE, aber für ne 40CU-SKU ist das N32-Konstrukt wohl zu teuer herzustellen).
N31: Lassen sich nur in 12CU/6WGP-Schritten deaktivieren (7900 XT), oder halt ne ganze SE (7900 GRE), oder ne Mischung (die "alte", gecancelte N31-7800XT hätte 5 SE mit je 7 WGP gehabt).
Dass sich die PS5Pro-GPU weiter in 4er-CU-Schritten deaktivieren lässt, spricht zu 100% gegen 3 SE wie bei N32, und macht 4 SE wie bei N21 sehr, sehr unwahrscheinlich.
Außerdem war Sony auch schon bei der PS4 sparsam hinsichtlich SE, die hat nämlich alle CUs in eine SE gestopft, nicht 2 wie bei Pitcairn, und da sich CUs schon damals nur in Paaren je SE deaktivieren ließen, waren die 18 aktiven CUs auch nur so möglich.
Einen Präzedenz-Fall dafür gab es also bei der vorherigen Gen auch schon.
Ganz davon ab, dass RGT es in seinen PS5Pro-Gerüchten auch schon so gesagt hat, dass es weiter nur 2 SEs gibt (was normal nicht viel heißen muss, aber in diesem Fall passt es sowohl zu RDNA's Granularität als auch Sony's bisherigem Designverhalten hinsichtlich SEs).
mboeller
2024-03-15, 16:05:16
Bei PSSR ist es allerdings unklar, wie viel hier von Sony kommt (vom Verfahren) und welche HW man nutzt. Ggf hat man auch einfach einen XDNA2 IP Block verbauen lassen und lässt da sein eigenes Verfahren darauf laufen, auf das AMD keinen Anspruch erheben kann.
imho: die 2ms für 1080p -> 2160p upscaling auf der Folie bedeuten, dass 4K "praktisch for free" ist, oder?
basix
2024-03-15, 16:16:26
imho: die 2ms für 1080p -> 2160p upscaling auf der Folie bedeuten, dass 4K "praktisch for free" ist, oder?
Ist es denn for free bei DLSS? ;)
@reaperr:
30 CU pro SE sind aber schon extrem viel. Da finde ich 24 CU und somit 44 CU inkl. Salvage bei 3.0 GHz fast realistischer :D
robbitop
2024-03-15, 16:53:27
imho: die 2ms für 1080p -> 2160p upscaling auf der Folie bedeuten, dass 4K "praktisch for free" ist, oder?
Relativ üblich für Temporales Upsampling. Die 2 ms hauen natürlich je höher die Framerate ist desto mehr rein.
Was ziemlich teuer bei typischen Temporalem Upsampling ist (wenn die Endauflösung viel viel höher als die Inputresolution ist): Full Screen Effects werden in voller Auflösung berechnet. Das ist z.B der Grund warum DLSS Ultra Performance von 1440p -> 8K so teuer war.
Und der Impact des höheren Berechnungsaufwandes vom PP ist sicherlich nicht in den 2 ms enthalten. Denn das gehört ja nicht zum Upsampling.
memory_stick
2024-03-15, 17:28:18
Da Hawk Point gleiches Silizium ist wie Phoenix spricht das eher für FPGA.
Ich hab mal hochgerechnet wie flächen und TDP effizient der Xilinx Kram von den Xilinx Produkten ist - gut aber wenn du richtig viele TOPS brauchst auch nicht effizienter als der Kram von Nvidia.
Aber ja Gerüchte hatten XDNA2 vor einigen Wochen benannt. Kann gut sein.
Wenn Sony ihr eigenes ML-Upsampling gemacht hat und dafür TOPS brauchte und AMD noch keine Matrixcores für RDNA zu dem Zeitpunkt vorgesehen hatte, dass man dann einen XDNA2 IP Block angeboten hat. Entsprechend hätte das aber auch eher negative Implikationen für die Verwendung des Verfahrens und der HW in der nächsten RDNA dGPU IP.
Mit Checkerboarding auf der PS4PRO hat Sony ja auch eigene HW Wünsche gehabt (ID Buffer) und ihr eigenes Verfahren verwenden lassen. Das kann hier natürlich auch der Fall sein.
Hawk/phoenix wird auch kein fpga integriert haben, die Xilinx AIE slices sind hardwired blöcke, schon auf ihren Versal ACAPs Monster FPGAs (siehe https://support.xilinx.com/s/article/1132493?language=en_US)
Da wird AMD sicher nicht zurückgehen und das wieder in eienm PL block synthetisieren, die werden einfach 1:1 das AIE design übernommen haben. Das einzige was da bedingt konfigurierbar ist,ist das NOC auf den Versal chips, und da würde jch vermuten das bei PHX/HKP die XDNA IP einfach an den on chip IF angehängt ist. Die erhöhung der infernece Leistung kommt mit hoher wahrscheinlichkeit von Takterhöhungen und sonstigen Firmware Verbesserungen zustande, allenfalls noch HW bugfixes (wobei ich nicht weis ob HKP überhaupt ein neues stepping/Metall spin ist). FPGA (klassisch) mit programmierbarer Logik ist schlicht unwirtschaftlich in so einem Massenprodukt(und vermutlich auch nicht energiefizient genug)
davidzo
2024-03-15, 19:33:15
Heute scheinen alle nicht rechnen zu können ;) Eine 3090 hat mit INT8 ohne Sparsity bereits ~300 TOPS ;) Aber ja, die 300 TOPS von oben könnten auch mit Sparsity sein. Wenn nicht, wäre man schon in etwa auf 3090 Niveau beim Inferencing. Ist mir nicht bekannt, dass Sparsity so verbreitet zur Anwendung kommt.
Die Zahlen sind direkt aus den Nvidia Whitepaper:
Finally, GA102’s new Tensor Cores can process sparse neural
networks at twice the rate of Turing Tensor Cores which do not support sparsity, yielding 238
sparse Tensor TFLOPS in RTX 3080 compared to 89 non-sparse Tensor TFLOPS in RTX
2080. https://images.nvidia.com/aem-dam/en-zz/Solutions/geforce/ampere/pdf/NVIDIA-ampere-GA102-GPU-Architecture-Whitepaper-V1.pdf
Respektive ±280 bei der 3090.
basix
2024-03-16, 04:27:22
Das sind FP16 TFLOPS, nicht INT8 TOPS
Lurtz
2024-03-17, 10:40:12
Na hoffentlich gibt es das Playstation-KI-Upsampling dann auch zu Release (!) für RDNA4. Sonst würde man das Vorurteil, dass Radeons nur noch Abfall vom Konsolengeschäft sind, nur weiter befeuern.
Wäre absurd wenn das PS5 Pro-exklusiv bleiben würde und PCler weiterhin mit FSR2 Upsampling rumgurken würden.
dargo
2024-03-17, 10:44:36
Und die Comedy im 3DC geht weiter... ein Geforce Konsument macht sich Sorgen um das Upscaling bei Radeons. Dieses Forum ist nur noch albern. :crazy: Und das geiste dabei... die Qualität vom Upscaling bei der kommenden Playstation kennt der noch nicht mal. :facepalm:
Lurtz
2024-03-17, 10:49:01
Ist gut dargo :facepalm: So viel Comedy wie du lieferst, da braucht man andere gar nicht mehr.
FSR2 ist einfach inakzeptabel, da kannst du deine Fanboy-Fantasien auch mal stecken lassen (mal davon abgesehen dass ich bis 2020 20 Jahre lang nur Radeons hatte).
CbJYtixMUgI
Dann ersetz es mit: AMD braucht was besser als FSR2 Upsampling. Und zwar eher gestern als heute.
robbitop
2024-03-17, 11:06:05
Egal ob NV oder AMD User. Nvidia hat aktuell ein Quasimonopol bei dGPUs. Bzw sie dominieren den Markt und die Preise. Also macht es unabhängig davon welche GPU man im System hat etwas für den Underdog zu hoffen -> mehr Wettbewerb je gleich stärker beide Kontrahenten sind. Besseres P/L für alle.
Ich gehe davon aus, dass PSSR PS exclusive ist wie damals Checkerboardrendering mit ID buffer und es mit xdna2 IP läuft. AMD wird sicherlich an einem FSR Upsamplingnachfolger arbeiten. Immerhin ist da (auffällig) lange nichts mehr passiert.
Linmoum
2024-03-17, 11:14:09
Natürlich arbeiten sie daran. Was dann auch dazu führen wird, dass es ein entsprechendes TC-Äquivalent geben wird und frühere Generationen an Radeons in die Röhre schauen werden. Aber man wird schlicht nicht drumherum kommen, weil Quantität am Ende schlicht weniger Wert ist als Qualität. Ich bin mir nur immer noch nicht sicher, ob das schon mit RDNA4 passieren wird oder doch nicht erst noch eine Generation später.
robbitop
2024-03-17, 11:20:47
Naja RDNA3 hat mit WMMA und den dual issue FPUs ja auch schon keine kleine TOPS Rate für INT8 (das müsste 4x der FP32 rate sein also 240 TOPS für N31). Wenn man sich in nview die frametime in der die Tensorcores bei DLSS aktiv sind anschaut ist das nur ein Bruchteil. Ggf geht das schon halbwegs gut mit RDNA3 als fallback.
fondness
2024-03-17, 11:23:48
Ich gehe davon aus, dass PSSR PS exclusive ist wie damals Checkerboardrendering mit ID buffer und es mit xdna2 IP läuft.
Wie soll das über XDNA-IP gehen, ohne GPU-Anbindung? Wäre das möglich (über welche Schnittstelle?), dann würde AMD wohl kaum entsprechende Capabilities in die RDNA-IP einbauen.
DrFreaK666
2024-03-17, 11:42:29
Natürlich arbeiten sie daran. Was dann auch dazu führen wird, dass es ein entsprechendes TC-Äquivalent geben wird und frühere Generationen an Radeons in die Röhre schauen werden...
Vielleicht nimmt man sich auch Intel als Vorbild und gibt eine Sparvariante für alle frei, die dann trotzdem besser als das aktuelle FSR Upscaling ist.
Und eventuell entwickelt man ja was mit MS zusammen - sie wollten Ende dieses Jahres ja neue Xbox Hardware ankündigen
dargo
2024-03-17, 15:02:15
Ist gut dargo :facepalm: So viel Comedy wie du lieferst, da braucht man andere gar nicht mehr.
FSR2 ist einfach inakzeptabel, da kannst du deine Fanboy-Fantasien auch mal stecken lassen (mal davon abgesehen dass ich bis 2020 20 Jahre lang nur Radeons hatte).
Und weiter geht die Comedy-Show. ;D Wenn mich was nicht überzeugt dann nutze ich es einfach nicht. Zum "Problem" wird es für einige Spieler erst wenn man es den Spielern aufzwingt. Noch ist sowas wie Alan Wake 2 eine Ausnahme. Denn dort ist die Bildstabilität von FSR2 unterirdisch.
https://youtu.be/CbJYtixMUgI
Und dann kommt der noch mit Upscaling für 1080p Output an wo DLSS auch genug Müll produziert. :facepalm:
The_Invisible
2024-03-17, 15:14:47
Egal ob NV oder AMD User. Nvidia hat aktuell ein Quasimonopol bei dGPUs. Bzw sie dominieren den Markt und die Preise. Also macht es unabhängig davon welche GPU man im System hat etwas für den Underdog zu hoffen -> mehr Wettbewerb je gleich stärker beide Kontrahenten sind. Besseres P/L für alle.
Ich gehe davon aus, dass PSSR PS exclusive ist wie damals Checkerboardrendering mit ID buffer und es mit xdna2 IP läuft. AMD wird sicherlich an einem FSR Upsamplingnachfolger arbeiten. Immerhin ist da (auffällig) lange nichts mehr passiert.
Naja aus Mitleid kaufe ich jetzt auch net das schlechtere Produkt, sind alles Konzerne die nur unsere Kohle wollen.
Einfach überzeugende Produkte liefern dann wird's was, muss ja nicht sofort fehlerfrei laufen aber zumindest Ambitionen setzen, hatte auch ewig nur Intel und bin jetzt über 3000er ryzen auf 7800x3d gelandet weil die Richtung stimmte, gerne auch bei GPUs AMD...
robbitop
2024-03-17, 17:04:12
Wie soll das über XDNA-IP gehen, ohne GPU-Anbindung? Wäre das möglich (über welche Schnittstelle?), dann würde AMD wohl kaum entsprechende Capabilities in die RDNA-IP einbauen.
Wer sagt dass es da keine Schnittstelle gibt. Apples MetalFX Upsampling (die ML Variante) läuft auch über einen separaten IP Block auf dem SoC. Das sollte dank kohärentem Speicherzugriff und dicker Fabric kein großes Problem sein.
robbitop
2024-03-17, 17:04:54
Naja aus Mitleid kaufe ich jetzt auch net das schlechtere Produkt, sind alles Konzerne die nur unsere Kohle wollen.
Einfach überzeugende Produkte liefern dann wird's was, muss ja nicht sofort fehlerfrei laufen aber zumindest Ambitionen setzen, hatte auch ewig nur Intel und bin jetzt über 3000er ryzen auf 7800x3d gelandet weil die Richtung stimmte, gerne auch bei GPUs AMD...
So sehe ich das auch.
Zossel
2024-03-17, 17:24:24
Wer sagt dass es da keine Schnittstelle gibt. Apples MetalFX Upsampling (die ML Variante) läuft auch über einen separaten IP Block auf dem SoC. Das sollte dank kohärentem Speicherzugriff und dicker Fabric kein großes Problem sein.
Selbst als Adapter im Monitorkabel zwischen Monitor und Computer sollte das gehen.
robbitop
2024-03-17, 19:02:38
Ich meine kein spatiales Upsampling sondern temporales Supersampling mit ML für das clamping der subpixel (also ein DLSS/XeSS Äquivalent). Das hat doch ein wenig andere Amforderungrn.
Denniss
2024-03-17, 19:57:19
Wer FSR/DLSS bei 1080p nutzt hat eh schon verloren - entweder zuwenig Rohleistung oder im FPS-Wahn
DrFreaK666
2024-03-17, 20:02:44
Wer FSR/DLSS bei 1080p nutzt hat eh schon verloren - entweder zuwenig Rohleistung oder im FPS-Wahn
https://i.postimg.cc/FRgm5wLT/nms3.webp (https://postimg.cc/ftL1Y25d)
rechts mit FSR2.
Das ist übrigens No Man´s Sky auf der Switch
robbitop
2024-03-17, 20:10:54
Wer FSR/DLSS bei 1080p nutzt hat eh schon verloren - entweder zuwenig Rohleistung oder im FPS-Wahn
Für Handhelds (bzw. mobile Gaming im Generellen) sinnvoll. Denn da ist man sehr begrenzt auf wenig Leistung und auch auf TDP Budget. Upsampling hilft bei beidem.
raffa
2024-03-17, 22:30:27
Klar, gibt schon fälle, wo es sinn macht.
Das FSR2 grundsätzlich schlecht sein soll, kann ich auch nicht unterschreiben, grad Witcher 3 mit fsr-q auf 1440p durchgespielt und war sehr happy mit der Grafik.
DrFreaK666
2024-03-18, 01:58:16
https://i.postimg.cc/1XCTXSQM/Screenshot-20240318-015519-Brave-2.jpg (https://postimg.cc/YLF8DJjm)
Platos
2024-03-18, 02:21:18
Ob das reicht? Am Ende muss AMD es auch hinkriegen, dass es nicht wieder so eine RDNA3-Warmluftpumpe wird. Ansonsten bringt auch 2x mehr RT Power nix.
Und natürlich muss man dann auch genügend Einheiten verbauen, damit das dann alles stimmt. Da kann man wirklich nur bangen, dass AMD endlich mal wieder konkurrenzfähig wird.
Wobei AMD ja anscheinend keine Interessen an einem Preiskampf hat. Von daher...
Da hoffe noch eher, dass Intel irgendwann mal aufschliesst.
Altehardware
2024-03-18, 02:51:27
Dafür muss intel erst auf allen belangen gute Treiber haben die jkomplett alles wiedergeben können seit directx6 und ogl
vinacis_vivids
2024-03-18, 03:52:19
Ob das reicht? Am Ende muss AMD es auch hinkriegen, dass es nicht wieder so eine RDNA3-Warmluftpumpe wird. Ansonsten bringt auch 2x mehr RT Power nix.
Und natürlich muss man dann auch genügend Einheiten verbauen, damit das dann alles stimmt. Da kann man wirklich nur bangen, dass AMD endlich mal wieder konkurrenzfähig wird.
Wobei AMD ja anscheinend keine Interessen an einem Preiskampf hat. Von daher...
Da hoffe noch eher, dass Intel irgendwann mal aufschliesst.
Von was redest du denn ? In der neuesten Technologie (FSR3 + FG) ist AMD bereits fast durchgehend schneller und besser als Nvidia.
Huang lebt noch in ein oder zwei RT-Demos, die wie ein Sack Nüsse laufen (CP2077, Alan Wake 2) ähnlich dem schlechten NV Hairworks ggü. AMD Pure-Hair.
Nicht aufregendes wo sich AMD irgendwie aufregen müsste. Dazu gesellen sich noch schlechte Frametimes bei NV und UE5 sowie diverse BQ-Probleme von DLSS und das schlechte FG.
NV ist einfach überbewertet im Gaming-Bereich.
raffa
2024-03-18, 08:52:10
Ich erhoffe mir von RDNA4 gut abgestimmte midrange Karten.
Da es kein Highend geben soll, könnte das was werden.
Der_Korken
2024-03-18, 09:23:47
Kann jemand mit den Begriffen "BVH8", "RDNA4's RT engine" und "double RT throughput per cycle" was anfangen? Bezieht sich das auf den Durchsatz der Triangle-Intersection-Tests pro Takt? Denn die Krux bei RDNA2/3 ist ja, dass viel Arbeit auf die Shader ausgelagert wird, die bei Nvidia auf Extra-Einheiten läuft (sofern ich das richtig verstanden habe). Da ergibt "doppelter Durchsatz" für mich wenig Sinn, außer man meint damit eine Verdopplung der gesamten Compute-Power, aber dann wäre nicht von "double RT throughput" die Rede.
Lurtz
2024-03-18, 11:54:10
Und weiter geht die Comedy-Show. ;D Wenn mich was nicht überzeugt dann nutze ich es einfach nicht. Zum "Problem" wird es für einige Spieler erst wenn man es den Spielern aufzwingt. Noch ist sowas wie Alan Wake 2 eine Ausnahme. Denn dort ist die Bildstabilität von FSR2 unterirdisch.
Es gibt halt Erleuchtete, die nicht mehr sinnlos Leistung für grottiges TAA verballern, das weniger stabil als DLSS ist - und Radeon-Konsumenten :cool:
Und dann kommt der noch mit Upscaling für 1080p Output an wo DLSS auch genug Müll produziert. :facepalm:
Gibt genug FSR2-Algorithmus-Fails, die unabhängig von der Auflösung sind.
dargo
2024-03-18, 12:18:43
Es gibt halt Erleuchtete, die nicht mehr sinnlos Leistung für grottiges TAA verballern, das weniger stabil als DLSS ist - und Radeon-Konsumenten :cool:
Jo... die nehmen dann das extrem effiziente Raytracing und Path Tracing. ;D ;D ;D
Gibt genug FSR2-Algorithmus-Fails, die unabhängig von der Auflösung sind.
Ja, und es gibt genug Beispiele wo FSR2 gut funktioniert. Nicht perfekt, aber gut genug, dass ich es auch verwende.
DrFreaK666
2024-03-18, 12:28:33
Das kannst ja nicht vergleichen: FSR stellenweise gut genug um die Performance zu verbessern != RT nicht gut genug um den Performanceverlust zu rechtfertigen
robbitop
2024-03-18, 17:34:59
Kann jemand mit den Begriffen "BVH8", "RDNA4's RT engine" und "double RT throughput per cycle" was anfangen? Bezieht sich das auf den Durchsatz der Triangle-Intersection-Tests pro Takt? Denn die Krux bei RDNA2/3 ist ja, dass viel Arbeit auf die Shader ausgelagert wird, die bei Nvidia auf Extra-Einheiten läuft (sofern ich das richtig verstanden habe). Da ergibt "doppelter Durchsatz" für mich wenig Sinn, außer man meint damit eine Verdopplung der gesamten Compute-Power, aber dann wäre nicht von "double RT throughput" die Rede.
BVH8 könnte ein Hinweis darauf sein, dass das compute der BVH Structure mit 8 Bit Genauigkeit durchgeführt wird (keine Ahnung, ob das geht). Das würde dann ohne FF BVH HW bedeuten, dass sich der Durchsatz für BVH compute auf den FPUs verdoppelt. Das würde wahrscheinlich RT auch beschleunigen aber immer noch bedeuten, dass man nach wie vor keine FF RT HW für BVH verbaut hat. Aber ob das so viel bringt? RDNA3 hat ja pro CU den FPU Throughput auch verdoppelt (und immerhin 50% mehr Register verbaut und mehr lokalen Cache im CU) und dabei kam jetzt nicht so irre viel mehr RT Leistung in Spielen raus als RDNA2. Gemäß Gesetz des abnehmenden Grenzertrags dürfte eine weitere Verdoppelung nicht mehr bringen als die letzte (sondern eher weniger).
Aber das ist reines Raten anhand des Begriffs.
Mehr Ray Intersection Throughput (das einzige wofür AMD bis dato FF HW hat) bringt wahrscheinlich auch nichts mehr wenn man nicht mehr CUs und Bandbreite etc drauflegt.
Entweder ist die Interpretation falsch oder es fehlt ein weiteres Puzzlestück. :)
mczak
2024-03-18, 17:58:47
BVH8 könnte ein Hinweis darauf sein, dass das compute der BVH Structure mit 8 Bit Genauigkeit durchgeführt wird (keine Ahnung, ob das geht).
Dachte mit BVH2/4/8 wird manchmal bezeichnet wie die Baumstruktur aufgebaut ist? AMD nutzt ja bisher eine BVH Baumstruktur mit (max) 4 untergeordneten Knoten. Die HW (in den Textureinheiten) kann dann gleichzeitig den Ray / Box Intersection Test auf allen 4 durchführen (IIRC der Ray / Tri Intersection Test bei den Endknoten ist auf 1 solchen Test pro Takt limitiert).
BVH8 würde also bedeuten dass man eine Baumstruktur mit (max) 8 untergeordneten Knoten nutzt, und der verdoppelte Durchsatz käme dann daher dass man weiterhin pro Takt einen Ray / Box Intersection Test durchführt auf allen untergeordneten Knoten (was ohne weitere Aenderungen am Ende wohl nicht ganz den doppelten Durchsatz ergibt).
Ist aber auch reine Spekulation, von RT-Implementierungen habe ich eigentlich keine Ahnung :-).
(Keine Ahnung was intel und nvidia für Strukturen nutzen, bei intel müsste man das eigentlich wissen falls es mal erwähnt wurde habe ich es aber wieder vergessen, und bei nvidia ist es laut einem Artikel den ich mal gelesen habe unklar weil nvidia das gerne für sich behalten möchte und man das auch in den Debug-Tools nicht korrekt sieht.)
robbitop
2024-03-18, 18:13:30
Das macht Sinn :up:
Aber bedeutet für sich gesehen erstmal nur mehr ray intersections pro Zeiteinheit (die ja nicht großartig limitiert haben). Aber ggf ist das nur ein Teil der Neuerung und es gibt zusätzlich BVH HW.
Der_Korken
2024-03-18, 18:13:35
Ich dachte in meinem naiven Verständnis, dass der Kontrollfluss bei der Traversierung beschleunigt werden soll. Wenn ich z.B. einen Strahl habe, will ich wissen, welches Polygon er wo trifft. Jetzt fange ich oben in meinem Baum an und teste auf der obersten Ebene auf Schnittpunkte. Da wo es welche gibt, gehe ich im Baum eine Ebene tiefer und teste wieder auf Schnittpunkte. Da man hier gewissermaßen immer wieder das gleiche macht, dachte ich, dass die Kontrolle dieser Traversierung an FF-HW ausgelagert wird, die nach außen quasi die Operation "Input: Strahl; Output: finaler Schnittpunkt" anbietet und diese dann in variabel vielen Takten berechnet. Der Shader wird erst dann aufgerufen, wenn eine Oberfläche getroffen wurde, um dort den Farbwert bzw. Reflektionsverhalten zu berechnen (ggfs. rekursive Strahlen spawnen oder sowas). Die ausgelagerte Arbeit wäre aber viel Branching und Pointer-Chasing, also gerade kein FP.
Aber ich muss hier erwähnen, dass ich weder von GPU-Programmierung noch von modernen Datenstrukturen im 3D-Bereich Ahnung habe. Das heißt meine Vorstellung, was da passiert, könnte vollkommen falsch sein.
mczak
2024-03-18, 18:23:00
Das macht Sinn :up:
Aber bedeutet für sich gesehen erstmal nur mehr ray intersections pro Zeiteinheit (die ja nicht großartig limitiert haben). Aber ggf ist das nur ein Teil der Neuerung und es gibt zusätzlich BVH HW.
Das denke ich auch, eine Verdoppelung der Ray Intersection Rate (selbst wenn das auch für Ray / Tri Tests gelten würde) allein würde wohl so gut wie gar nichts bringen. (Es sei denn BVH Traversal im Shader würde dadurch einfacher weil die Baumstrukturen breiter aber weniger tief sind, aber das scheint mir auch nicht sonderlich plausibel.)
Mangel76
2024-03-18, 20:51:05
Gemäß Gesetz des abnehmenden Grenzertrags dürfte eine weitere Verdoppelung nicht mehr bringen als die letzte (sondern eher weniger).
Aber das ist reines Raten anhand des Begriffs.
Das Gesetz des abnehmenden Grenzertrages passt hier nicht so recht. Bei einfach mehr vom gleichen (z.B. mehr CUs) - okay, sieht man ja in der Skalierung. Aber wenn nur ein Teil des Systems geändert wird, kann dies zu sehr unterschiedlichen Erträgen führen. Hängt davon ab, ob es sich um einen Flaschenhals des Gesamtsystems handelt oder nicht. Wenn die betreffende Funktion bisher kein Flaschenhals war, passiert vielleicht nichts oder nur sehr wenig. War es einer, könnte es voll durchschlagen.
Gipsel
2024-03-18, 23:47:13
Das denke ich auch, eine Verdoppelung der Ray Intersection Rate (selbst wenn das auch für Ray / Tri Tests gelten würde) allein würde wohl so gut wie gar nichts bringen. (Es sei denn BVH Traversal im Shader würde dadurch einfacher weil die Baumstrukturen breiter aber weniger tief sind, aber das scheint mir auch nicht sonderlich plausibel.)
Doch, das bringt schon was. Das Fetchen der Knoten der nächsttieferen Ebene ist typischerweise lahm. Wenn man also den Baum weniger tief gestaltet, wird das schon besser. Ein Problem daran ist, daß die Effizienz der Baumstruktur mit großem Branchingfaktor typischerweise sinkt. Allerdings könnte das durch verdoppelte Anzahl der Tests quasi kostenlos sein, so daß es nicht so schlimm ist und der Vorteil der flacheren Baumstruktur überwiegt. Aber ein BVH8 hat im Schnitt aber nicht die Hälfte an Ebenen, sondern ~2/3*. es bringt also vermutlich maximal nur +50% Geschwindigkeit (alle anderen Faktoren vernachlässigend, weniger als 50%, weil man auch mehr unsinnige Knoten fetched, der den Vorteil zumindest teilweise wieder auffressen kann [optimal für minimale Zahl an nötigen Intersection-Tests wäre wohl BVH3, wobei das von der Verteilung der Geometrie im Baum abhängt; der Unterschied zwischen best case und worst case wird bei breiten Bäumen wohl kleiner als bei kleinen Branching-Faktoren und die Performance damit womöglich konsistenter**]). Ein wenig mehr würde man vielleicht schon gerne sehen.
*: weil ln(4)/ln(8) = 2/3
oder anders: 43n = 82n
**: Das ist auch der Grund warum man oft BVH4 dem BVH2 vorzieht. Der best case (mindestens erforderliche Instersection Tests) ist bei beiden identisch. Mit B als Basis/Branch-Faktor des BVH-Trees mit N Knoten benötigt man mindestens
logB(N) * B + 1 Intersection-Tests (ergibt identische Zahlen für B=2 und B=4 weil log2(N) = 2*log4(N) , B=3 ist das Minimum), allerdings liegt der Worst-Case für B=4 (also BVH4) niedriger, so daß praktisch BVH4 schneller ist (wenn man 4 gleichzeitige Intersection-Tests quasi umsonst bekommt, sowieso [gilt auch auf der CPU mit SIMD]).
robbitop
2024-03-19, 09:23:36
Das Gesetz des abnehmenden Grenzertrages passt hier nicht so recht. Bei einfach mehr vom gleichen (z.B. mehr CUs) - okay, sieht man ja in der Skalierung. Aber wenn nur ein Teil des Systems geändert wird, kann dies zu sehr unterschiedlichen Erträgen führen. Hängt davon ab, ob es sich um einen Flaschenhals des Gesamtsystems handelt oder nicht. Wenn die betreffende Funktion bisher kein Flaschenhals war, passiert vielleicht nichts oder nur sehr wenig. War es einer, könnte es voll durchschlagen.
Naja in dem von mir beschriebenen Fall wurde ja bereits die FP Leistung von RDNA2 zu RDNA3 verdoppelt und hat nur wenig Mehrleistung in RT und Raster gebracht. Wenn das das Einzige ist was nochmal weiter verdoppelt wird im CU ist keine bessere Skalierung zu erwarten. Eher eine noch schlechtere. Einfach weil das von vornherein nicht der dominierende Flaschenhals gewesen zu sein scheint. Wenn natürlich zusätzlich andere Änderungen kommen, die dominierende Flaschenhälse angehen, dann kann das besser skalieren. Absolut ja.
Der_Korken
2024-03-19, 10:30:00
Ist Wahl und Implementierung der Datenstruktur eigentlich den GPU-Herstellern überlassen? Quasi als Blackbox, wo man Polygone und Strahlen reinsteckt und Schnittpunkte als Output erhält? Ansonsten würden alte Spiele überhaupt nicht von einer schnelleren BVH8-Implementierung profitieren.
mczak
2024-03-19, 12:15:47
Ist Wahl und Implementierung der Datenstruktur eigentlich den GPU-Herstellern überlassen? Quasi als Blackbox, wo man Polygone und Strahlen reinsteckt und Schnittpunkte als Output erhält? Ansonsten würden alte Spiele überhaupt nicht von einer schnelleren BVH8-Implementierung profitieren.
So ist es es gibt keinen Standard (zumindest bisher) wie diese Strukturen auszusehen haben.
In D3D12 baut die App die mit Aufrufen von "BuildRaytracingAccelerationStructure" (als Parameter kommen da unter anderem die Geometriedaten rein), es gibt 2 verschiedene, (TLAS/BLAS, Top Level / Bottom Level Acceleration Structure). In der Dokumentation steht ausdrücklich "Applications may not inspect the contents of an acceleration structure. Nothing stops a determined app from doing this, but the point is the data is implementation-dependent, undocumented and therefore useless for an app to inspect.".
Mangel76
2024-03-19, 13:06:40
Naja in dem von mir beschriebenen Fall wurde ja bereits die FP Leistung von RDNA2 zu RDNA3 verdoppelt und hat nur wenig Mehrleistung in RT und Raster gebracht. Wenn das das Einzige ist was nochmal weiter verdoppelt wird im CU ist keine bessere Skalierung zu erwarten. Eher eine noch schlechtere. Einfach weil das von vornherein nicht der dominierende Flaschenhals gewesen zu sein scheint. Wenn natürlich zusätzlich andere Änderungen kommen, die dominierende Flaschenhälse angehen, dann kann das besser skalieren. Absolut ja.
Ich habe gar nichts konkret beschrieben. Eine reine Verdopplung der FP-Leistung ist etwas anderes als eine Verdoppelung des gesamten Systems. Hier hast du doch das beste Beispiel - entweder war die FP-Leistung kein Flaschenhals und die Verdopplung hat deshalb nicht den erhofften Effekt gehabt. Oder es wurde zwar die FP-Leistung verdoppelt, aber nicht das drumherum. Dadurch entstand ein neuer Flaschenhals, der eine bessere Nutzung der FP-Leistung verhindert. Genauso kann es sich mit den spekulierten Änderungen von RDNA4 verhalten. Ist es jetzt kein Flaschenhals, wird es wenig bringen. Ist es einer, kann es viel bringen. Wie viel genau hängt auch davon ab, ob die Leistung ankommt und ob neue Flaschenhälse entstehen.
Das Gesetz vom abnehmenden Grenzertrag geht davon aus, dass man einfach eine Einheit mehr von einem Produktionsfaktor in den gleich bleibenden Prozess steckt, während alles andere konstant bleibt. Die Frage ist hier, was ist eine Einheit eines PF? Eine CU? Eine SE? Oder die ganze GPU?
Ich glaube aber kaum, dass nur an einer Stelle etwas geändert wird. Dadurch bleibt das Gesamtergebnis aller Änderungen ohne weitere Kenntnisse unbestimmt.
mczak
2024-03-19, 13:32:49
Doch, das bringt schon was. Das Fetchen der Knoten der nächsttieferen Ebene ist typischerweise lahm. Wenn man also den Baum weniger tief gestaltet, wird das schon besser. Ein Problem daran ist, daß die Effizienz der Baumstruktur mit großem Branchingfaktor typischerweise sinkt. Allerdings könnte das durch verdoppelte Anzahl der Tests quasi kostenlos sein, so daß es nicht so schlimm ist und der Vorteil der flacheren Baumstruktur überwiegt. Aber ein BVH8 hat im Schnitt aber nicht die Hälfte an Ebenen, sondern ~2/3*. es bringt also vermutlich maximal nur +50% Geschwindigkeit (alle anderen Faktoren vernachlässigend, weniger als 50%, weil man auch mehr unsinnige Knoten fetched, der den Vorteil zumindest teilweise wieder auffressen kann [optimal für minimale Zahl an nötigen Intersection-Tests wäre wohl BVH3, wobei das von der Verteilung der Geometrie im Baum abhängt; der Unterschied zwischen best case und worst case wird bei breiten Bäumen wohl kleiner als bei kleinen Branching-Faktoren und die Performance damit womöglich konsistenter**]). Ein wenig mehr würde man vielleicht schon gerne sehen.
Interessant. Aber ja, selbst wenn da tatsächlich +50% bei "reiner" RT-Performance herausschaut wäre das IMHO etwas wenig - man braucht ja nicht unbedingt gleichauf mit Nvidia zu liegen, aber da wäre man immer noch ziemlich weit davon entfernt. Hoffen wir also dass das nicht alles ist.
vinacis_vivids
2024-03-19, 13:34:56
Warum guckt ihr euch nicht die FSR3 + FG Beispiele von der 7800XT gegen die RTX4070 an ?
Zumindest CB hat einen halbwegs brauchbaren FSR3 + FG Artikel vorgelegt.
https://www.computerbase.de/2024-03/amd-fsr-nvidia-dlss-frame-generation-vergleich/#abschnitt_frame_generation_in_like_a_dragon_infinite_wealth
1% percentile FSR3/DLSS3 -P +FG
7800XT ~ 74 Tflops fp16 = 166fps
RTX4070 ~ 29 Tflop fp16 + 117 Tensor Tflops fp16 = 120fps
Die 7800XT ist 38% schneller als die RTX4070, also sicherlich in der Liga der RTX4080.
Für den neuesten Techniker (FSR3 / DLSS3 + FG) ist die 7800XT ca. geichauf mit der RTX4080.
RDNA4 könnte doppelt so schnell sein wie die RTX4080 / RX7800XT.
reaperrr
2024-03-19, 13:35:50
Naja in dem von mir beschriebenen Fall wurde ja bereits die FP Leistung von RDNA2 zu RDNA3 verdoppelt und hat nur wenig Mehrleistung in RT und Raster gebracht. Wenn das das Einzige ist was nochmal weiter verdoppelt wird im CU ist keine bessere Skalierung zu erwarten.
RT läuft bei AMD doch hauptsächlich über die TMUs, nicht die ALUs.
Ich sehe nicht, warum man da eine RT-spezifische Verbesserung wie BVH8 mit dem FP32-DualIssue von RDNA3 gleichsetzen sollte. Das klingt für mich nach Äpfel/Birnen-Vergleich.
Außerdem war die RT-Verbesserung in RDNA3 Takt- und CU-normiert ja durchaus da, in Raster war RDNA3 zum Launch nur 9% schneller, in RT immerhin 21%, in einzelnen Titeln auch mal deutlich mehr.
robbitop
2024-03-19, 15:35:16
RT läuft bei AMD doch hauptsächlich über die TMUs, nicht die ALUs.
Ich sehe nicht, warum man da eine RT-spezifische Verbesserung wie BVH8 mit dem FP32-DualIssue von RDNA3 gleichsetzen sollte. Das klingt für mich nach Äpfel/Birnen-Vergleich.
Außerdem war die RT-Verbesserung in RDNA3 Takt- und CU-normiert ja durchaus da, in Raster war RDNA3 zum Launch nur 9% schneller, in RT immerhin 21%, in einzelnen Titeln auch mal deutlich mehr.
Was du meinst ist meines Erachtens nach Ray Intersection. BVH processing läuft m.E. genau wie der Rest der RT Pipeline auf den FPUs bis inkl RDNA3.
Und ja ein wenig hat sich bei RT getan aber der Schritt war IMO viel zu klein.
Der_Korken
2024-03-19, 16:31:11
Warum guckt ihr euch nicht die FSR3 + FG Beispiele von der 7800XT gegen die RTX4070 an ?
Weil das für Architekturdiskussionen keine Relevanz hat.
vinacis_vivids
2024-03-19, 17:32:39
Weil das für Architekturdiskussionen keine Relevanz hat.
? Natürlich hat das Relevanz. AMD FSR3 + FG ist Aufgrund der Architektur einfach besser als NV DLSS3 + FG.
BavarianRealist
2024-03-19, 19:54:37
Sehe ich mir die Infos zur PS5pro an und denke ich an die Aussagen von Lisa, nach der AI überall sein wird, könnte AMDs RDNA4-Strategie ganz anders aussehen: das große Ziel dürfte auch hier AI sein, d.h. beide dürften AI-Einheiten erhalten.
Vermutlich wurden Navi-41/42/43 gecancelt, weil man die Bedeutung von AI erst zu spät erkannt hat. So wie man bisher bei RT Nvidia hinterher läuft, will man den gleichen Fehler nicht bei AI wiederholen. Noch weiß keiner, was Nvida hier vorlegen wird.
Zudem hat AMD die Bedeutung von AI mit dem Aufbohren der AI-Leistung von Phoenix zu Hawk-Point unterstrichen. Entsprechend wird Strix-Point im Vorfeld vor allem mit der 3fachen AI-Leistung beworben.
Sonys Ps5pro-SoC scheint weiterhin auf N6 zu basieren, d.h. Sony geht es vermutlich gar nicht so darum, die reine GPU-Power zu steigern, sondern "moderner" zu werden, also die RT-Leistung steigern und vor allem AI neu zu integrieren, nach dem Motto: die Zukunft ist AI, alles ohne AI ist gestern.
Nachdem RDNA3 bereits parallel auf N6 und N4 (in den APUs!) exisitiert, hat man vermutlich früh parallel RDNA3 auf N6 (für Sony) und N4 (=RDNA4) weiter entwickelt. Entsprechend könnte Navi44 von Anfang an eine kleine, günstige GPU weiterhin auf N6 sein, zumal N4 sehr knapp und teuer bleiben wird, weil schon alleine Nvidia hier alles weg kaufen wird, was AMD nicht bereits geblockt hat.
Schon alleine weil man zu wenig N4 hat, könnten Navi-41-43 gestrichen worden sein. Und es ist womöglich aus der Not dann Navi-48 erst später entstanden, statt Highend-GPU nun womöglich eine starke AI-Einheit, so wie es auch Sony in der PS5pro haben wird. Vieles deutet für mich daraufhin, dass AMD und Sony hier recht viel gemeinsam entwickelt haben könnten (all das müsste schon längst unterweg sein)....
...denn last but not least: das PS5pro-SoC müsste bereits in der Feritung sein, falls die PS5pro Ende des Jahres kommen soll, denn AMD verkauft vor allem in Q2 die meisten SoCs, damit genügend Konsolen zur Weihnachtszeit verfügbar sind.
][immy
2024-03-19, 20:01:05
AI hat man schon deutlich früher mit angefangen. Nicht umsonst sind die Server GPUs eher gcn basierend.
Im Heimbereich sehe ich auch nur begrenzten nutzen, aber Buzzwords verkaufen sich halt gut.
Vor allem besteht ai aktuell eigentlich nur aus ziemlich simplen Chips die sehr kleine Operationen durchführen. Hat halt nicht viel mit Grafikchips zu tun, wenn man gewisse spähren erreichen möchte. Bislang versucht man ja eher einen chip für alles zu entwickeln, denn bei allem anderen helfen die Zusatzchips halt herzlich wenig.
reaperrr
2024-03-20, 13:52:27
Vermutlich wurden Navi-41/42/43 gecancelt, weil man die Bedeutung von AI erst zu spät erkannt hat. So wie man bisher bei RT Nvidia hinterher läuft, will man den gleichen Fehler nicht bei AI wiederholen. Noch weiß keiner, was Nvida hier vorlegen wird.
Außer bei sowas wie DLSS, wobei NV das ja auch "zuhause" in ihren Rechenfarmen vortrainiert und somit auch AMD möglich wäre, wenn sie erstmal ne entsprechende Technik fertig haben, sehe ich hier für Spiele noch keine nennenswerten Vorteile.
Und einen fertigen, funktionierenden Chip, der besser als die RDNA3-Pendants ist (auch für KI), cancelst du nicht einfach so, es sein denn er macht Probleme und du willst nicht riskieren, dass er anfängt deine gesamte R&D-Pipeline zu blockieren.
Das wird primär an Verzögerungen durch Probleme mit den Chiplets gelegen haben und sekundär vielleicht noch an Packaging-Kapazitäten, die man lieber für MI300 und 400 frei haben wollte, und tertiär vielleicht noch daran, dass man auch in Raster wohl nicht ganz konkurrenzfähig gewesen wäre und deshalb lieber versucht, RDNA5 schneller fertigzukriegen, um zumindest ca. 1 Jahr bis zum Blackwell-Nachfolger wieder ganz vorn dabei zu sein.
Entsprechend könnte Navi44 von Anfang an eine kleine, günstige GPU weiterhin auf N6 sein, zumal N4 sehr knapp und teuer bleiben wird, weil schon alleine Nvidia hier alles weg kaufen wird, was AMD nicht bereits geblockt hat.
(...)
Schon alleine weil man zu wenig N4 hat, könnten Navi-41-43 gestrichen worden sein. Und es ist womöglich aus der Not dann Navi-48 erst später entstanden, statt Highend-GPU nun womöglich eine starke AI-Einheit, so wie es auch Sony in der PS5pro haben wird. Vieles deutet für mich daraufhin, dass AMD und Sony hier recht viel gemeinsam entwickelt haben könnten (all das müsste schon längst unterweg sein)...
AMD hat gerüchteweise letztes Jahr sogar versucht, gebuchte Kapazitäten wieder loszuwerden, weil die Nachfrage nicht so hoch war wie zum Buchungszeitpunkt erwartet. Also an Kapazitäten lag es nicht, die Kapazitäten werden auch größtenteils schon zu Zeiten des letzten Mining-Booms gebucht worden sein.
Außerdem waren die Compute-Tiles der größeren Chiplet-RDNA4 mit hoher Wahrscheinlichkeit in N3E, N4(P) macht nur für IF$/SI-MCDs und monolithische Mainstream-GPUs Sinn: bei MCDs weil die in N3E sowieso kein Stück kleiner und nur unwesentlich effizienter gewesen wären; bei Mainstream-GPUs, weil hier der prozentuale Kostenvorteil von N4P vermutlich größer ist als der Performance-Vorteil von N3E.
Und das mit N44 in N6 ist Quark. Dann würde der in Raster kaum schneller als N33 und komplett zersägt von den Low-End-Blackwells, dann hätte man sich die Entwicklungskosten auch sparen können.
Bei N33 hat es noch mit Ach und Krach einigermaßen Sinn gemacht, weil der in N6 kleiner und billiger herzustellen war als N23 und wegen der hohen N5-Waferpreise vermutlich auch billiger als AD106 und evtl. sogar AD107, immerhin etwas schneller als N23 und knapp auf AD107-Niveau, und sie so für RDNA3 noch keine IF$/SI-IP-Blöcke in N5 designen mussten und quasi N6-Ports der RDNA2-IP-Blöcke weiterverwenden konnten, was ordentlich R&D gespart haben dürfte.
Für N44 macht das keinen Sinn mehr, der Perf- und Perf/W-Rückstand würde zu groß werden.
Savay
2024-03-20, 17:10:49
Vermutlich wurden Navi-41/42/43 gecancelt, weil man die Bedeutung von AI erst zu spät erkannt hat.
Die reine Inferencing Performance von RDNA2 und 3 über die ALUs ist auch ohne dedizierte AI Einheiten schon sehr ordentlich und wenn man halbwegs neutrale DNN zum Benchmarken nimmt! tw. sogar besser als bei äquivalenten nV Chips mit ihren Tensor Cores.
DXO DeepPrime und DeepPrime XD ist da ein gutes Beispiel.
Bei den APUs geht es eher um bestmögliche Flächen und Energieeffizienz und Kompatibilität zu irgendwelchen kommenden Windows Features, daher der Fokus auf die separaten Einheiten.
Denke nicht das diese Betrachtung für die GPUs bereits eine wirklich übermäßige Rolle gespielt hat.
Leonidas
2024-03-21, 10:59:56
Sehe ich mir die Infos zur PS5pro an und denke ich an die Aussagen von Lisa, nach der AI überall sein wird, könnte AMDs RDNA4-Strategie ganz anders aussehen: das große Ziel dürfte auch hier AI sein, d.h. beide dürften AI-Einheiten erhalten.
Lohnt aber im Gegensatz zu den APUs nur, wenn daraus auch Mehrperformance resultiert. Bei Prozessoren kann man zweckfreie Einheiten einfach wegen des Werbewerts verbauen - weil dort wegen der Dominanz der Komplett-Geräte 90% aller CPU-Entscheidungen der PC-Hersteller trifft, nicht der Endkunde. Ist bei Grafikkarten aber ganz anders, dort gibt es zwar auch einen Werbewert von AI-Einheiten, aber wenn die dann keine Spiele-Beschleunigung haben, isses Essig. Mit "Beschleunigung von ChatGPU" muß auf Grafikkarten niemand kommen.
vBulletin®, Copyright ©2000-2025, Jelsoft Enterprises Ltd.