PDA

Archiv verlassen und diese Seite im Standarddesign anzeigen : AMD/ATI - RDNA3 (Navi 3X, Radeon RX 7000 Serie, tlw. Chiplets, 5/6 nm, 2022)


Seiten : 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 [42] 43 44 45 46 47 48

BlacKi
2023-06-21, 12:01:58
wo sind die 2,66x fp32 in bezug auf performance vs 6900xt? mir kommts so vor, als wäre ein doppelter n21, selbst mit 256/384bit mit 256 inf cache in 5nm deutlich schneller gewesen als 1x n31.

Thunder99
2023-06-21, 12:30:19
Dachte Dual Issue wird vom Treiber gemanagt und adressiert, nicht vom Spiele Code.
Skalierung ist halt noch sehr schlecht und es kommt anstatt 50% um die 25% raus.

Dino-Fossil
2023-06-21, 12:49:13
Vielleicht haben wir wirklich ein Stück weit eine Situation wie damals unter Vega - da hatte AMD glaube ich mal angekündigt, dass der draw stream binning rasterizer und die primitive shader per Treiber gezündet werden, dann mal, dass sie angepassten Spielecode erfordern.
Hab das irgendwann nicht mehr verfolgt, also k.A. was da die abschließende Beurteilung war.

Wie es dann bei RDNA3 und dual-issue aussieht? Realistisch kann das meiner Meinung nach eigentlich nur per Treiber sinnvoll gelöst werden (ich meine hier aus Sicht der einfachen Anwendung im Alltag, nicht von der technischen Seite, da mag es anders aussehen), denn kaum ein Entwickler wird seinen Code angesichts der Marktanteile aufwändig an RDNA3 anpassen. Vielleicht wenn die nächste Konsolengeneration etwas ähnliches bietet - aber bis dahin ist RDNA3 längst Alteisen.
Bei nVidia sähe das vielleicht anders aus, die haben entsprechende Marktanteile und stecken offensichtlich mehr Geld in die marketingträchtige Kooperation mit Spielentwicklern.
Bleibt also nur zu hoffen, dass AMD die Funktion nochmal gründlich überarbeitet.

Wobei man natürlich auch einfach mal in der Praxis keinen Code sehen wird, der eine perfekte Skalierung überhaupt ermöglicht.

Exxtreme
2023-06-21, 13:01:49
Bei nvidia aber auch. Z.b. bei Kepler vs Fermi. Letzterer hat pro Shadereinheit viel mehr Leistung extrahiert und einen komplexen hardware scheduler. Mit Kepler hat man den Scheduler rausgeschmissen, die shadereinheiten vereinfacht, die Clockdomain entfernt. Skalierte schlechter pro Einheit, hatte aber aber auch ein vielfaches mehr Rohleistung ohne dass die Transistorenzahl so massiv anstieg. Wenn fixed function hardware immer die bessere Wahl wäre, dann sind wir schon bei G80 falsch abgebogen und man wäre bei Vertex- und Pixelshader geblieben.

Unified Hardware ist aber eben viel besser auslastbar und skaliert in fast jedem Szenario. Das problem an fixed function hardware ist dass diese entweder nicht voll ausgelastet werden oder auf der anderen Seite schnell einmal ein eigenes Bottleneck bildet. Wenn also der Workload einseitig ist, muss man dafür wieder einen neuen Chip auflegen der die hardware anders skaliert.


Das ist richtig. AMD setzt halt ziemlich extrem auf "general purpose", was ihnen die Vorteile aber auch Nachteile bringt. Tomshardware hat neulich einige theoretische Benchmarks gemacht und da sieht man auch wie extrem schnell die Shader-ALUs von RDNA3 sind. AMD benutzt sie aber für so ziemlich alles und das kostet Effizienz. Dürfte aber gleichzeitig der Grund für "FineWine technology" sein weil man hier viel drehen kann da man sehr flexibel ist. Wenn man die 7900 XTX mit 700 Watt befeuert dann erreicht sie RTX 4090-Leistung. RDNA3 skaliert sehr gut, säuft halt extrem viel.

Ich gehe davon aus, dass sie mit RDNA4 viel mehr auf spezialisierte Hardware setzen werden. Weil sie den Stromverbrauch anders kaum in den Griff bekommen.

Der_Korken
2023-06-21, 13:05:15
Z.B. benutzen sie die aufgemotzte TMUs um einige Raytracing-Bearbeitungsschritte zu machen. Obwohl TMUs eigentlich für Texturfilterung zuständig sind etc.

Das stimmt afaik so nicht ganz: Man hat schon dedizierte Recheneinheiten für Ray Intersections neben den TMUs, man nutzt aber Datenpfade und Infrastruktur der TMUs mit, die man sonst duplizieren müsste. Ist eigentlich auch nicht ganz doof, denn hohe Last auf den Intersection Testern bedeutet auch, dass die Shader stark mit RT ausgelastet und TMUs dann nicht so stark gebraucht werden. Du hast natürlich Recht, dass das ein shortcut ist, um Fläche zu sparen, aber macht auch den Chip billiger.

amdfanuwe
2023-06-21, 13:10:34
Vielleicht wenn die nächste Konsolengeneration etwas ähnliches bietet - aber bis dahin ist RDNA3 längst Alteisen.

Das ist doch ein Henne-Ei Problem. Irgendwann muss man mit neuer Funktionalität anfangen, damit sie später mal genutzt wird.
Halt jetzt dumm für RDNA3, RDNA4 könnte dann aber davon profitieren.

KarlKastor
2023-06-21, 13:12:25
Es wurden Chips schon weit mehr deaktiviert.
Welche genau?

Wenn AMD den Yield so streng ansetzt, dass die 7700XT ne gewisse Energieeffizienz erreichen müssen, dann hat man ne Menge Ausschuss der anderweitig weg muss. Zudem denke ich, dass der Yield bei RDNA3 zwar von der Defektrate nicht schlecht ist, aber von der Enegieffizienz durch Leckströme beschissen.
Dann bringt man eben ein Modell mit weniger Takt und ein bisschen weniger CU. Kein Grund so weit abzuspecken und zusätzlich dann noch beim Takt aufpassen zu müssen. Da liegt man dann fast beim N33.

Dino-Fossil
2023-06-21, 13:25:06
Das ist doch ein Henne-Ei Problem. Irgendwann muss man mit neuer Funktionalität anfangen, damit sie später mal genutzt wird.
Halt jetzt dumm für RDNA3, RDNA4 könnte dann aber davon profitieren.

Klar, so gesehen ist RDNA3 vielleicht ein schöner Testballon für AMD um Erfahrungen zu sammeln, aber falls es größerer Anpassungen als nur des Treibers bedarf, bin ich eher skeptisch, dass wir Kunden aktuell viel davon haben.

basix
2023-06-21, 13:30:24
Glauben ist nicht gleich wissen.
AMD weiß ob sich das lohnt oder nicht, die wissen es. Und ich hab schon Projekte gesehen, da sollte ein Ingenieur sehen, ob er noch 1 oder 2 Cent durch andere Bauteile einsparen kann. Kommt auf die Stückzahl drauf an, ob sich das lohnt.


Ja, AMD weiss es. Stichwort Opportunitätskosten ;) Wenn ich den selben Chip mit weniger SE ausliefere, muss ich garantiert auch solche mit funktionsfähiger SE salvagen (die besagten +1.5% Yield reichen wohl nicht für die Mengen-Abdeckung für eine komplett neue SKU). Nur hätte ich diese Chips mit mehr SE und mehr CU für höhere Preise verkaufen können. Dann wird es sehr schnell unvorteilhaft für die Lösung mit einer deaktivierten SE.

Und das mit den 1-2 Cents kenne ich selber. Nur sind das bestehende End-Funktionalitäten und eine reine BOM Kostenreduktion. Endverkaufspreise bewegen sich nicht. Hier wird die Marge optimiert. Das ist bei einem SE-Salvage nicht der Fall. Dort wird neben der Kostenreduktion auch der Verkaufspreis (zwangsläufig) sinken. Die Marge sinkt in der Tendenz. Und mit der oben genannten Mischrechnung und Opportunitätskosten lohnt sich das mMn nicht. Zumindest nicht hinsichtlich Margen & Yield Verbesserungen. Wenn man ein Loch im Portfolio hat, ist das eine andere Geschichte. Gibt auch 4C Zen CPUs, wo garantiert nicht 4C des CCDs defekt sind. In diesem Fall kann man eine stark salvaged SKU bringen, damit man in diesem Portfolio-Bereich keine Lücke frei lässt (lieber ein AMD Produkt mit geringerer Marge als gar kein Produkt verkaufen). Bei RDNA3 sehe ich die Notwendigkeit dafür aber nicht. Die Lücke kann auch mit 48 CU und 12 GByte geschlossen werden. Nvidia hat in diesem Bereich eh nichts Gescheites (4060 Ti 8GB/16GB).


Vielleicht lohnt es sich nicht alleine Chips mit einer Defekten SE zu sammeln.
Lohnt nicht mit einem defektem SI zu sammeln.
Lohnt nicht niedrig Taktenden oder zu hohem Verbrauch zu sammeln.
Also alles, was nicht im "normalem" SKU verwendbar ist.
Es lohnt sich aber vielleicht all diesen Ausschuss zu sammeln und in einem entsprechendem salvage Chip zu verarbeiten.
Da tragen die 1,5% Defekt in SE-Chips schon einiges zu dieser Gruppe bei.

Ob es gemacht wird? Das rechnet sich AMD schon aus, ob sich das lohnt.
Ja, werden wir sehen. Grundsätzlich macht deine Argumentation schon Sinn. Aber nicht umsonst gibt es die 70 CU N31 Karte nur bei Workstation (W7800): Kleine Stückzahlen (weil relativ wenig Defekte anfallen, niedrige Taktraten auch gleich inkludiert), Preise eh sehr hoch und man konkurriert nicht mit Margen anderer Produkte. Zusätzliche Differenzierung zu den grösseren Geschwistern über die Speichermenge (32GB vs. 48GB).

Bei Consumer sehe ich aber keinen Sinn dahinter. Vielleicht gibt es eine Single Slot oder 75W Profi Karte mit 36 CU, wer weiss.

Raff
2023-06-21, 13:40:47
[...]Nvidia hat in diesem Bereich eh nichts Gescheites (4060 Ti 8GB/16GB).[...]

Das wird rückblickend, wie die RTX 3060 12GB, eine der besten Karten des Portfolios. Wir sprechen in 2-3 Jahren nochmal. ;)

MfG
Raff

basix
2023-06-21, 13:43:56
Hast du den Preis berücksichtigt? ;)

Technisch ist die 4060 Ti 16GB gut (wie so vieles im Ada Portfolio). Inkl. Preise ist es ein anderes Thema.

Eine 48 CU / 12GB N32 Karte erwarte ich für ~400$. Mit etwas über 4060 Ti Performance bei RZ und im Schnitt leicht unter der 4060 Ti bei RT. Das sieht P/L technisch schlecht für die 4060 Ti aus. Die 8GB Version kann man inkl. RT knicken (Nachteil bei RT für N32 fällt weg) und bei der 16GB Version wäre P/L allgemein deutlich schlechter.

Hier wieder ein Grund, welcher gegen eine 36-40 CU N32 Karte spricht: Man konkurriert dann schon fast mit der 4060 für 299$. Dort runter wird man mit N32 nicht wollen.

HOT
2023-06-21, 13:45:09
Welche genau?
[...]

Das passiert andauernd, NV macht das ständig, deswegen hab ich auch so überrascht reagiert. Das ist überhaupt nichts besonderes. Gibt zig Beispiele, eines davon:
https://www.techpowerup.com/gpu-specs/geforce-rtx-3050-8-gb.c3858
ist mehr downgecuttet als ein N32 mit 2x9 WGP wäre. Die TPU-Datenbank ist voller Beispiele.

basix
2023-06-21, 13:51:42
Die 3050 mit GA106 war aber auch in einer Phase, wo man jede GPU verkaufen konnte. Und das zu sehr hohen Preisen. Diese Situation hat man heute nicht mehr.

HOT
2023-06-21, 13:54:37
Ja man kann immer das Haar in der Suppe finden. Es ist aber nunmal Fakt, dass das ständig passiert, in jeder NV-Generation, selbst in der Ampere-Generation und auch Ada wird da mittelfristig nicht von verschont bleiben. Wir werden ja sehen was passiert. Ich wette, dass es eine 2 SE-Variante geben wird, wenn nicht 7600XT dann was anderes, die werden nicht auf den kaputten Chips sitzen bleiben sondern die einfach auch noch verkaufen.

basix
2023-06-21, 13:57:00
Es passiert, ja. Ich habe aber nur Mining-Hypes (Pascal, Ampere) im Kopf, wo das wirklich vorkam. Und irgendwelchen sehr spät im Generation-Zyklus releasten SKUs, die mit oftmals sehr geringen Stückzahlen Lücken im Portfolio schliessen (oder gar erst nach Release der Folgegeneration, wo man die alte Lagerware loswerden will). Einen breiten Release (was es bei N32 wäre) mit solch grossem Salvage ist bei "normalen" Bedingungen aber noch nie geschehen. Man kann mich auch korrigieren, wenn ich falsch liegen sollte.

Ausserdem ja bei Ampere noch das Thema, dass bei Samsung die Yields sehr schlecht sein sollen.

Dino-Fossil
2023-06-21, 14:05:26
Das wird rückblickend, wie die RTX 3060 12GB, eine der besten Karten des Portfolios. Wir sprechen in 2-3 Jahren nochmal. ;)

MfG
Raff

Rein technischer Sicht wäre die 16GB Karte in der Tat ne schöne fullHD Karte, mit der man auch in ein paar Jahren wohl noch zocken kann.
Aber Preis/Leistung ist halt, wie bei den meisten Karten dieser Generation, vorraussichtlich unterirdisch.
(Inflation lass ich nur bedingt gelten, die trifft GPUs im Hardwarebereich nämlich auffallend selektiv).

BlacKi
2023-06-21, 15:01:16
Wenn ich mir durchlese wie schwierig es für Chips and cheese war bei RDNA3 "dual issue" zu triggern und welche Anpassungen am Code es benötigt, dann würde ich mich nicht wundern wenn die Leistung die wir bisher sehen einfach nur auf die Single issue Rohleistung und die diversen kleinen Verbesserungen bei Registern, RT-pipe etc. zurückgehen. Da ist noch kein Dual Issue dabei, weil niemand seine Software angepasst hat. Die Rohleistung ist in Wirklichkeit die Hälfte.

Und dass die Software da nochmal aufholt sehe ich schwarz. Da man bereits so lange in Verzug ist würde es sich für RDNA3 kaum lohnen erst jetzt das richtige SDK und die richtigen Enwticklertools bereit zu stellen um Dual Issue breiter auszurollen. Die meisten Games in denen wir vergleichen sind eh schon gelauncht und würden wegen sowas nicht mehr gepatcht. Stattdessen müssen AMDs ingenieure sich jetzt auf RDN3.5 und 4 konzentrieren damit so ein Fiasko nicht nochmal passiert. Wenn es dort wieder Softwareabhängigkeiten gibt, dann müssen die Entwickler heute noch die Tools für RDNA4 erhalten, damit der Benchmarkparkour für eine 2024 entsprechend optimiert ist.danke, das mit dual issue war tatsächlich hilfreich fürs verständnis.


hat das feature dual issue auf der karte nachteile, obwohl man es nicht nutzt? zb. platzverschwendung? oder gar performance/effizienz einbußen?


könnte rdna3.5 dual issue einfach streichen und ist dann rdna3 well done?

HOT
2023-06-21, 15:02:38
Es passiert, ja. Ich habe aber nur Mining-Hypes (Pascal, Ampere) im Kopf, wo das wirklich vorkam. Und irgendwelchen sehr spät im Generation-Zyklus releasten SKUs, die mit oftmals sehr geringen Stückzahlen Lücken im Portfolio schliessen (oder gar erst nach Release der Folgegeneration, wo man die alte Lagerware loswerden will). Einen breiten Release (was es bei N32 wäre) mit solch grossem Salvage ist bei "normalen" Bedingungen aber noch nie geschehen. Man kann mich auch korrigieren, wenn ich falsch liegen sollte.

Ausserdem ja bei Ampere noch das Thema, dass bei Samsung die Yields sehr schlecht sein sollen.
Da liegst du glaube ich auch total daneben. Die meisten der hart gesalvageten GPUs gehen ja in den OEM-Bereich. Da sind die Stückzahlen aber ganz andere... Da wäre aber eine 7600XT mit N32 gar kein Problem.

Bitte mal folgendes bedenken: Die 7600 ist N33 voll mit schon 160W. Die wird sicherlich in den <$200-Sektor rutschen. Eine N32 hätte immerhin 12GB und würde bei ca. 20% (packt ja auch mehr Takt) bei > $300 sich halten können. Mit N33 kann man zwar auch 16GB machen, das Teil wäre aber deutlich langsamer und bei 200W+. Wenn man mehr für das Produkt nehmen kann ist N33 dann plötzlich gar nicht mehr so günstig.

davidzo
2023-06-21, 15:22:48
Dachte Dual Issue wird vom Treiber gemanagt und adressiert, nicht vom Spiele Code.
Skalierung ist halt noch sehr schlecht und es kommt anstatt 50% um die 25% raus.

So die theorie dass der shadercompiler das schon macht. Erkennt er aber in den meisten Fällen wohl nicht wenn nicht auch der game-code angepasst wird.

I’m guessing RDNA 3’s dual issue mode will have limited impact. It relies heavily on the compiler to find VOPD possibilities, and compilers are frustratingly stupid at seeing very simple optimizations. For example, the FMA test above uses one variable for two of the inputs, which should make it possible for the compiler to meet dual issue constraints. But obviously, the compiler didn’t make it happen. We also tested with clpeak, and see similar behavior there.
https://chipsandcheese.com/2023/01/07/microbenchmarking-amds-rdna-3-graphics-architecture/

On the other hand, VOPD does leave potential for improvement. AMD can optimize games by replacing known shaders with hand-optimized assembly instead of relying on compiler code generation. Humans will be much better at seeing dual issue opportunities than a compiler can ever hope to.

Also hat sich AMD mal wieder ein Software Developer bzw. support engineer Bottleneck gebaut.


Vielleicht haben wir wirklich ein Stück weit eine Situation wie damals unter Vega - da hatte AMD glaube ich mal angekündigt, dass der draw stream binning rasterizer und die primitive shader per Treiber gezündet werden, dann mal, dass sie angepassten Spielecode erfordern.
Hab das irgendwann nicht mehr verfolgt, also k.A. was da die abschließende Beurteilung war.

Genau, es gab mal ne Demo und anfangs funktionierte das auch in einzeln dafür freigeschalteten Anwendungen. Das wurde dann aber afaik später deaktiviert, da die kompatibilität und performance inkonsistent war. Afaik ist das in den Radeon Pro Modellen aber noch an, kann aber auch sein dass ich es jetzt mit HBCC verwechsle.

davidzo
2023-06-21, 15:24:10
Mit N33 kann man zwar auch 16GB machen, das Teil wäre aber deutlich langsamer und bei 200W+. Wenn man mehr für das Produkt nehmen kann ist N33 dann plötzlich gar nicht mehr so günstig.

Die Speicherausstattung ändert nicht den Stromverbrauch. Es ist immer noch ein 128bit SI und das verbraucht auch wie 128bit.

mczak
2023-06-21, 15:24:21
hat das feature dual issue auf der karte nachteile, obwohl man es nicht nutzt? zb. platzverschwendung? oder gar performance/effizienz einbußen?
Wenn man es nicht nutzen kann, Platzverschwendung auf jeden Fall. Die Effizienz könnte auch minimal leiden. Beides sollte aber nicht allzu dramatisch sein, sieht man ja auch beim Vergleich von N23 und N33.


könnte rdna3.5 dual issue einfach streichen und ist dann rdna3 well done?
Das wäre im Endeffekt dann aber eher rdna 2.5, ansonsten sind die Unterschiede zwischen rdna2 und rdna3 ja nicht so gross. Ausserdem benötigt man die verdoppelten ALUs auch für die neuen wmma Instruktionen (für bechleunigte Matrixmultiplikation), die werden zwar auch noch nicht gross genutzt aber dafür hat AMD wohl noch Pläne (FSR 3 z.B.).
Vielleicht arbeitet man bei rdna4 stattdessen daran dass es weniger Restriktionen gibt um dual issue öfter nutzen zu können.

HOT
2023-06-21, 15:52:11
Die Speicherausstattung ändert nicht den Stromverbrauch. Es ist immer noch ein 128bit SI und das verbraucht auch wie 128bit.
Wie kommste denn auf das schmale Brett? Wenn N33 als 7600 schon 160W braucht, braucht der um 10% mehr Leistung zu erreichen mit Sicherheit einiges über 200W. Das Teil ist für moibile entwickelt und taktet entsprechend schlecht. N32 mit nur 2 SEs wird <200W brauchen und obendrein schneller sein.
N33 ist ein absolutes Billigprodukt und wird auch genau dort bleiben. Im Desktop <220€ auf absehbare Zeit und im Mobile weiterhin irrelevant, weil diskrete AMD-GPUs in Mobile nicht laufen. Werden sie auch nie, weil die OEMs das wegen dem Geforce-Sticker machen, den man auf die Notebook-Vorderseite neben Ryzen und Core I bla anbringt, nicht wegen der Qualität der GPUs.

mksn7
2023-06-21, 16:47:32
Hier mal wieder der Hinweis, dass im wave64 mode keine gesonderten dual instructions nötig sind um die dual execution units zu nutzen, der generierte Code sieht genauso aus wie vorher, der compiler muss dafür nichts tun.

Pixel shader laufen überwiegend im wave64 mode.

Ob die hardware die zwei Hälften eines wave64 tatsächlich dual issue ausführen kann, hängt natürlich immer noch an den diversen Limitierungen bei der Registerbandbreite.

Ich behaupte, der Schluss "es liegt an der software/dem compiler/fine wine" ist zu etwa 80% falsch. Ich gebe da nur noch 20% Rest, weil obwohl bei den wave32 shadern vielleicht noch was drin ist, wäre der möglich speedup selbst bei perfekter Software nicht groß, denn zum einen gibt es eben die Hardwarebeschränkungen wie oft dual issue tatsächlich zum Einsatz kommen könnten und zum anderen hängt die Performance einfach zu selten am rohen FP32 Durchsatz.

BlacKi
2023-06-21, 17:56:04
Wenn man es nicht nutzen kann, Platzverschwendung auf jeden Fall. Die Effizienz könnte auch minimal leiden. Beides sollte aber nicht allzu dramatisch sein, sieht man ja auch beim Vergleich von N23 und N33.kann man die reduktion der die size grob einschätzen?


Das wäre im Endeffekt dann aber eher rdna 2.5, ansonsten sind die Unterschiede zwischen rdna2 und rdna3 ja nicht so gross. Ausserdem benötigt man die verdoppelten ALUs auch für die neuen wmma Instruktionen (für bechleunigte Matrixmultiplikation), die werden zwar auch noch nicht gross genutzt aber dafür hat AMD wohl noch Pläne (FSR 3 z.B.).
Vielleicht arbeitet man bei rdna4 stattdessen daran dass es weniger Restriktionen gibt um dual issue öfter nutzen zu können.
also ist rdna3 nicht eine baustelle sondern mehrere?

mczak
2023-06-21, 20:46:33
kann man die reduktion der die size grob einschätzen?

Schwierig. Rein von der Transistoranzahl her hat ja Navi 33 20% mehr als Navi 23 - da sind dann Dinge dabei wie bessere Videoencoder, grössere L0/L1 Caches (nicht aber breitere Register wie bei den anderen Navi 3x Chips), RT-Verbesserungen. Und eben auch für die doppelten ALUs. Die-Shots von Navi 33 habe ich noch keine gesehen, und ausserdem sollen ja die CUs / WGPs dank eines Redesigns deutlich dichter gepackt sein als noch bei Navi 23 - das trifft sicher zu denn bloss aufgrund der Transistoranzahl wäre der Chip ansonsten deutlich grösser zu erwarten (TSMC gibt 18% höhere Packdichte für Logik an von N6 gegenüber N7, und trotz der 20% mehr Transistoren ist ja Navi 33 14% kleiner als Navi 23).
Meine Vermutung wäre aber dass dual issue deutlich weniger als 20% der Fläche einer CU kostet (und somit insgesamt weniger als 10% der Gesamtchipfläche bei Navi 33). Diese Zahlen habe ich jetzt frei erfunden, da müsste man schon einen Chipentwickler bei AMD fragen. Aber prinzipiell kann man durchaus davon ausgehen dass eben die investierte Fläche prozentmässig auch im Rahmen der erwarteten Mehrperformance lag - idealerweise wäre es natürlich mehr Performance als man an Fläche investiert hat, aber sicher hat bei AMD niemand erwartet dass da der Chip dadurch wirklich massiv schneller wird (im Gegensatz zu ein paar Forenteilnehmern die dachten der Chip würde locker RX 6900 Performance erreichen...).

BlacKi
2023-06-21, 23:07:53
ich seh schon. wenn man 7nm vs 6nm vergleicht und dual issue auslässt, dann ist rdna2 grob = rdna3.
https://www.anandtech.com/show/14228/tsmc-reveals-6-nm-process-technology-7-nm-with-higher-transistor-density

und dann kommt nochmal das chiplet design, das nicht positiv auf die kombi einwirkt, dann ist die performance diskrepanz schnell erklärt.

nicht funktionierendes dual issue geht derzeit auf amds kosten. trotzdem fragt man sich ob +40% in 5nm vs 7nm ihr ernst ist. auf den ersten blick nicht wirklich.

mksn7
2023-06-22, 11:02:37
Die Einschränkungen bei der Nutzbarkeit haben auch den Vorteil dass es eben nicht viele Ressourcen belegt.

Dass der Nutzen jetzt nicht so groß ist, ist eine Entscheidung beim Hardwaredesign, kein Defizit der Software. Höchstens in Bezug auf die wmma Instruktionen, deren beschränkter Nutzen liegt momentan bei der Software.

davidzo
2023-06-22, 11:37:46
Wie kommste denn auf das schmale Brett? Wenn N33 als 7600 schon 160W braucht, braucht der um 10% mehr Leistung zu erreichen mit Sicherheit einiges über 200W. Das Teil ist für moibile entwickelt und taktet entsprechend schlecht. N32 mit nur 2 SEs wird <200W brauchen und obendrein schneller sein.

Achso, du meinst mit ordentlicher Mehrleistung. Das stimmt wohl, der Takt ist schon recht knapp an der Kotzgrenze. Mehr wird energetisch sehr teuer, sieht man ja bei der 6650xt und 6750xt.
Aber eine 16GB 7600 mit 160 oder 170Watt wäre ohne weiteres möglich und würde sich ebenfalls sehr gut verkaufen selbst wenn die Karte insgesamt immer noch deutlich langsamer ist als eine 4060ti. Wenn da 5% Mehrleistung herauskommen zur 7600 nur durch seltene Speicherlimits wäre das schon viel.
Ob sowas dann 7600xt heißen sollte oder nicht lässt sich diskutieren. Preislich ließe sich die Karte aber leicht mit 50€ Aufpreis positionieren, zwischen 4060 und 4060ti. Das wäre vermutlich trotz Leistungsdefizit die attraktivste Einsteigerkarte dieser Generation.


Hier mal wieder der Hinweis, dass im wave64 mode keine gesonderten dual instructions nötig sind um die dual execution units zu nutzen, der generierte Code sieht genauso aus wie vorher, der compiler muss dafür nichts tun.

Pixel shader laufen überwiegend im wave64 mode.

Das ist doch eine Treiber bzw. Compilerentscheidung oder nicht? Gibt es Statistiken dazu in welche games der Treiber wave64 und wann wave32 wählt? Ich höre das gerade zum ersten mal "der nimmt sowieso überwiegend wave64". Was heißt überwiegend, was sind die Bedingungen und wie häufig treffen die zu?

amdfanuwe
2023-06-23, 08:44:29
Kann jemand etwas zu den Programmiermodellen auf RDNA sagen?
Ich meine, wie wirkt es sich aus, ob 2, 3, 5 oder 6 SE vorhanden sind.
Wie verhalten sich 6 - 10 WGP pro SE aus programmtechnischer Sicht?
Oder spielt das keine Rolle?

dildo4u
2023-06-23, 09:46:02
Navi 31 im Navi 32 Package zum Testen von billigeren Boards für 7800XT/ Mobile 7900xt

6vTizq6MLFY

Thunder99
2023-06-23, 13:10:31
Was soll das überhaupt bringen?

dildo4u
2023-06-23, 13:13:02
Er meint im Video Navi 32 (60CU) wäre zu schwach als 600€ Modell, mit 70 CU sollte die 7800XT schneller als 4070 sein.
Das kleinere Package würde High-End Mobile Modelle mit Navi31 ermöglichen.

Gipsel
2023-06-23, 14:12:14
Kann jemand etwas zu den Programmiermodellen auf RDNA sagen?
Ich meine, wie wirkt es sich aus, ob 2, 3, 5 oder 6 SE vorhanden sind.
Wie verhalten sich 6 - 10 WGP pro SE aus programmtechnischer Sicht?
Oder spielt das keine Rolle?Das Programmiermodell ist von solchen Implementationsdetails unberührt. Und wahrscheinlich 99,9% des Codes da draußen sind solche Details auch egal. Du kannst das zwar abfragen und im Prinzip dazu verwenden, z.B. die Größe der abgesetzten Arbeitspakete zu optimieren, aber das macht vermutlich kaum jemand (und ist bis auf ganz wenige Fälle von low level Optimierungen aus meiner Sicht auch nicht wirklich sinnvoll bzw. passiert das implizit sowieso, wenn Du z.B. in einem Spiel die Grafikdetails anpaßt). Da mag mich jemand mit aktuellerer Programmiererfahrung in dem Bereich gerne korrigieren, aber ich kann mir das ehrlich gesagt kaum vorstellen (maximal bei irgendwelchen hochoptimierten Compute-Codes für irgendwas).
Und Du siehst ja ganz praktisch, daß identischer Code auf verschiedenen Konfigurationen der Hardware von der Performance ganz normal skaliert, ohne irgendwelche Anpassungen.

HOT
2023-06-23, 14:27:48
Was soll das überhaupt bringen?

1.) Man kann N31-Chips auf normalen N32-Packages verbauen und den auch downcutten bis 2 oder 3 SEs, also sämtlichen Ausschuss verwerten
2.) Man spart bei der 7800XT Geld, weil man das N32-PCB nutzen kann
3.) Man kann N31 als Mobilvariante bringen

Langlay
2023-06-23, 15:53:32
3.) Man kann N31 als Mobilvariante bringen

Die guten Produkte von AMDs schaffen es kaum in kaufbare Laptops. Ich seh keinen der auf einen mobile Navi31 wartet.

vinacis_vivids
2023-06-23, 18:08:15
Auf einen mobilen N32 oder salvage N31 mit 70CU und 16GB VRAM würde ich mich freuen. Nur N33 8GB mobile ist mir etwas zu schwach.

HOT
2023-06-23, 18:25:07
Da wäre doch ein 96CU N31 viel sinnvoller mit nur 1,5GHz Takt oder weniger und 160W, gepaart mit 4 MCDs. Glaub zwar nicht, das sowas kommt, aber man hätte immerhin die Möglichkeit ;).

BlacKi
2023-06-23, 18:31:29
Da wäre doch ein 96CU N31 viel sinnvoller mit nur 1,5GHz Takt oder weniger und 160W, gepaart mit 4 MCDs. Glaub zwar nicht, das sowas kommt, aber man hätte immerhin die Möglichkeit ;).bei 0,3v? ansonsten würde das nicht ordentlich skalieren. @,7v liegen selbst bei 1200mhz bis zu 200w an. und die performance wäre wohl schlechter als rdna2 mobile.

HOT
2023-06-23, 23:34:04
Ja, weil das ja so vergleichbar ist mit einer Mobilkonfiguration :freak:...

iamthebear
2023-06-24, 21:28:34
Zu dem Thema AMD GPUs und Mobilemarkt:
Geht mal auf Geizhals und setzt dort einen Filter wie viele Modelle es mit AMD GPU gibt.
AMD hat zumindest was die Modelle angeht einen Marktanteil von gerade einmal 2% und das mit RDNA2 vs. Ampere wo man noch einen Performance/W Vorsprung hatte.

Kein OEM wird Navi31 in seine Notebooks verbauen außer bei ein paar Modellen als Gefälligkeitsdienst damit man die CPUs billiger bekommt. Das sind lediglich die Fanboy Hirngespinnste von MLID.

Ich kann mir auch kaum vorstellen, dass es preismäßig einen großen Unterschied macht ob die 7800 XT ein N31 oder N32 Package hat.
Die Preistreiber sind die GCD Größe, Anzahl MCDs, die Menge an VRAM und Verlustleistung (Kühler, VRMs etc.)

Für mich hören sich die 70 CUs so an wie 6700 und 6800: Man verkauft ein paar einzelne Modelle in homöopatischen Dosen um die paar Dies, die man nicht als 7900 XT verkaufen kann nicht wegwerfen zu müssen aber viele wird es davon nicht geben, da die Yields gut genug sind, dass man wenig solcher Schrottdies hat.

Was Navi32 angeht so ist sich AMD glaube ich nicht so sicher, ob es wirtschaftlich überhaupt Sinn macht diesen zu launchen. Sobald sich die VRAM Preise wieder etwas stabilisieren hat man eine Karte mit <= 6800 XT Performance mit 16GB VRAM für die man am Markt bestenfalls 500$ Endkundenpreis verlangen kann.

amdfanuwe
2023-06-24, 23:47:56
AMD hat zumindest was die Modelle angeht einen Marktanteil von gerade einmal 2% und das mit RDNA2 vs. Ampere wo man noch einen Performance/W Vorsprung hatte.
Da ist Corona und Chipmangel , wo AMD lieber das vorhandene Material in andere Produkte investierte, schon vergessen.
Mit Dragon Range hat AMD jetzt aber auch ein Produkt im Notebookmarkt, dass sich gut mit Radeon M Bündeln ließe. Mal sehen, was sie daraus machen.

Mich wundert aber auch, warum N31 70 CU im Desktop erscheinen sollte, ob als 7800XT oder 7900.
Die paar so schlechten Chips verbaut man doch schon in der W7800, die mit dem gleichen Takt läuft wie die 7900XTX.

Für den Desktop würde ich doch eher
5 SE * 8 WGP = 80 CU und niedrigeren Takt
oder
6 SE * 6 WGP = 72 CU erwarten.

Zumindest ist N21 anscheinend abverkauft, da sollte also bald was passieren.

N22 ist mit den 6700XT und 6750XT noch gut verfügbar. Die 7700(XT)er wird sich also noch Zeit lassen.

HOT
2023-06-25, 08:30:22
Die 67x0XT konkurriert nut mit einer potenziellen 7600XT, für 7700(XT) ist die irrelevant. Und ich sehe bisher keinen Abverkauf der N21-Produkte, das wird sicherlich noch ne ganze Weile so weitergehen.

amdfanuwe
2023-06-25, 09:43:54
Bei MF ist das Angebot an Lagerware für 6800XT bis 6950XT deutlich zurückgegangen.
Vielleicht warten sie ja nur auf die nächste Lieferung?

HOT
2023-06-25, 09:50:31
Die 7700XT (der Ersatz für die 6800XT) soll ja erst im August/September erscheinen, die 7700 vielleicht sogar noch später, wir werden vielleicht langsam weniger Menge sehen von N21-Chips, aber das dürfte noch ne Weile weitergehen. Die Preise jedenfalls sind auf neuem Niedrigststand für N21, sind grad bei Mindstar bei 499 für 6800XT.

reaperrr
2023-06-25, 16:32:10
Für den Desktop würde ich doch eher
5 SE * 8 WGP = 80 CU und niedrigeren Takt
oder
6 SE * 6 WGP = 72 CU erwarten.
Es geht darum, sowohl eine komplette SE (wenn entweder etwas im Frontend der SE kaputt ist, oder zu viele WGP in einer SE defekt sind um den Chip als 7900 XT verkaufen zu können), als auch 1 WGP je verbliebener SE zu deaktivieren, um mit dieser SKU auch wirklich sämtliche halbwegs wahrscheinlichen Defekt-Kombinationen abdecken zu können, die den Chip für eine 7900XT disqulifizieren.

Man könnte so außerdem theoretisch auch Chips verwenden, bei denen gar nicht so viel defekt ist, wo aber eine SE oder einige WGP zu schlecht takten/zu viel Spannung für den angepeilten Takt benötigen würden, um als XTX oder XT verkauft werden zu können.

amdfanuwe
2023-06-25, 17:21:09
...
Ist schon klar. Nur dürften das nicht allzu viele Chips sein, die so schlecht sind. Und die braucht man schon für die W7800.

HOT
2023-06-25, 20:37:20
Als wenn das ein Hersteller je gestört hätte ;).

DrFreaK666
2023-06-30, 00:17:32
Was hat es genau mit AMDs HIP auf sich? Ist das wieder eine Cuda-Konkurrenz?
https://rocm.docs.amd.com/projects/HIP/en/latest/

und
AMD to Add ROCm Support on Select RDNA™ 3 GPUs this Fall
https://community.amd.com/t5/rocm/new-rocm-5-6-release-brings-enhancements-and-optimizations-for/ba-p/614745/jump-to/first-unread-message?sf267637036=1

Iscaran
2023-06-30, 01:13:46
Was hat es genau mit AMDs HIP auf sich? Ist das wieder eine Cuda-Konkurrenz?

Sieht ganz danach aus, als ob es eine neuer zentraler Hub für Cuda-ähnliches computing mit AMD ist.

Inklusive vereinfachter Portabilität aus CUDA-Code nach HIP hinein.

https://rocm.docs.amd.com/projects/HIP/en/latest/user_guide/faq.html

OgrEGT
2023-06-30, 09:14:04
Gibts eigentlich was neues bzgl FSR3? GDC im März ist schon wieder ein Quartal her und da hieß es FSR3 erscheint in Kürze...
https://www.igorslab.de/auf-der-gdc-2023-wurde-die-amd-fsr-3-fidelityfx-super-resolution-technologie-vorgestellt/

Redneck
2023-06-30, 09:35:52
Und wie siehts mit der VR Schwäche von RDNA3 aus ? Hast sich da was in den letzten Monaten getan ?

mksn7
2023-06-30, 10:30:09
Was hat es genau mit AMDs HIP auf sich? Ist das wieder eine Cuda-Konkurrenz?
https://rocm.docs.amd.com/projects/HIP/en/latest/

und

https://community.amd.com/t5/rocm/new-rocm-5-6-release-brings-enhancements-and-optimizations-for/ba-p/614745/jump-to/first-unread-message?sf267637036=1

HIP ist so nah an einer 1:1 blanken Kopie von CUDA dran, wie sie sich geradeso getraut haben. Wenn der CUDA code (hier zum detektieren von Name und SM count eines device so aussieht:


cudaDeviceProp prop;
GPU_ERROR(cudaGetDevice(&deviceId));
GPU_ERROR(cudaGetDeviceProperties(&prop, deviceId));
std::string deviceName = prop.name;
int smCount = prop.multiProcessorCount;
dann sieht der HIP code so aus:

hipDeviceProp_t prop;
GPU_ERROR(hipGetDevice(&deviceId));
GPU_ERROR(hipGetDeviceProperties(&prop, deviceId));
std::string deviceName = prop.name;
int smCount = prop.multiProcessorCount;


Was fällt auf? Die Übersetzung geht hier mit einem einfachen search-and-replace "cuda"->"hip". AMD bietet sogar ein perl skript an was genau das tut, und für einen Großteil auch gut funktioniert.

Für eine große CUDA code basis funktioniert das nicht ohne Nacharbeit, aber der Aufwand ist dramatisch kleiner als bspw. auf OpenCL umzustellen. AMD stellt sich das so vor, dass man seinen CUDA code nach HIP portiert. Sie bieten dann noch einen wrapper an, der entweder AMDs HIP compiler aufruft und für AMD GPUs kompiliert, oder einen header einbindet, wo die HIP Funktionen nur ein dünner wrapper um die CUDA Äquivalente sind, und dass dann dem CUDA compiler übergibt. Also quasi "Schreib HIP, das funktioniert bei beiden".

Weil ich aber auf einem NVIDIA system keine Abhängikeit von AMD tools haben möchte, schreibe ich meine CUDA programme so, dass das hippify-perl tool die anstandslos und ohne Nacharbeit frisst. Ich hab ein Makefile target dass die hip Dateien als Teil des build Prozesses erzeugt:

main.hip: main.cu
hipify-perl main.cu > main.hip

So mach ich das bei meiner Sammlung von GPU micro benchmarks:
https://github.com/te42kyfo/gpu-benches

Jeder benchmark der gpu-xxx heißt, ist portabel auf diese Weise.

BlacKi
2023-07-01, 00:08:40
dann vl 2nd half
https://videocardz.com/newz/amd-has-failed-to-launch-hypr-rx-technology-on-time

DrFreaK666
2023-07-01, 00:19:03
Der Tag ist irgendwo noch nicht vorbei :D

Ex3cut3r
2023-07-01, 00:51:14
HYPR-RX. Alles klar. Nichts als heiße Luft mal wieder, erinnert mich an Vega mit dem Primitiven Shader Gesülze damals. Vlt. lieber bei noch mehr Spiele einkaufen und DLSS blockieren? :facepalm:

DrFreaK666
2023-07-01, 01:21:53
HYPR-RX ist kein Hardware-Feature :rolleyes:

amdfanuwe
2023-07-01, 01:23:35
Vlt. lieber bei noch mehr Spiele einkaufen und DLSS blockieren? :facepalm:
Verstehe das Problem nicht. Ist ja nicht so, das es mit FSR auf Geforce schlechter läuft. Zeige mir aber mal einer ein Game mit DLSS das auf Radeon mit DLSS läuft.

DrFreaK666
2023-07-01, 01:34:15
Das Problem ist dass FSR nicht mithalten kann, wenn es um Bildqualität geht.
Ist zwar nur für eine geringe Anzahl (schätzungsweise) Menschen ein Problem, aber unschön ist es trotzdem

amdfanuwe
2023-07-01, 02:22:48
Ja, fände es auch schöner, wenn DLSS auf Radeon laufen dürfte.
Liegt doch nur an Nvidia.

aufkrawall
2023-07-01, 03:19:21
Kannst ja NIS nutzen, wenn du unbedingt unnützen Cross-Vendor-Kram von Nvidia nutzen willst. Denn das ist XeSS in der DP4a-Form so ziemlich, halt von Intel.

OgrEGT
2023-07-01, 06:49:16
Da ich Radeon Super Resolution und Radeon Boost ohnehin nicht nutze sondern nur Radeon Anti-Lag aktiviere brauch ich das HYPRRX Dingens nicht...

robbitop
2023-07-01, 07:12:11
HYPR-RX. Alles klar. Nichts als heiße Luft mal wieder, erinnert mich an Vega mit dem Primitiven Shader Gesülze damals. Vlt. lieber bei noch mehr Spiele einkaufen und DLSS blockieren? :facepalm:

Bisher sind es Anschuldigungen ohne Beweise. Wenn es stimmt ist es furchtbar. Aber ohne Beweise sind es nur Anschuldigungen. Und dann darauf einzusteigen ist IMO Lemming Niveau.

Exxtreme
2023-07-01, 07:28:27
Verstehe das Problem nicht. Ist ja nicht so, das es mit FSR auf Geforce schlechter läuft. Zeige mir aber mal einer ein Game mit DLSS das auf Radeon mit DLSS läuft.

Geht nicht um schlechter laufen. Bei DLSS ist die Bildqualität besser. Hier mal schöne Vergleichsbilder:
https://www.forum-3dcenter.org/vbulletin/showthread.php?p=13339725#post13339725

Linmoum
2023-07-01, 07:36:04
Wenn HYPR-RX wirklich nur so ein banales 1-Click-Feature im Treiber für RSR/Boost/Anti-Lag zur Aktivierung ist, frag ich mich ernsthaft, warum man das nicht gebacken bekommt. Das hat man bei der Vorstellung von RDNA3 Anfang November (!) für H1 2023 angekündigt.

Leonidas
2023-07-01, 09:44:59
dann vl 2nd half
https://videocardz.com/newz/amd-has-failed-to-launch-hypr-rx-technology-on-time

FSR 3.0 fehlt genauso noch, auch wenn da kein so genauer Termin gesetzt wurde.

amdfanuwe
2023-07-01, 11:17:11
Geht nicht um schlechter laufen. Bei DLSS ist die Bildqualität besser. Hier mal schöne Vergleichsbilder:
https://www.forum-3dcenter.org/vbulletin/showthread.php?p=13339725#post13339725
Da sollte man Nvidia anscheißen, dass das nicht für alle verfügbar ist.

Exxtreme
2023-07-01, 11:30:52
Da sollte man Nvidia anscheißen, dass das nicht für alle verfügbar ist.

Nein. Das entscheiden immer noch die Entwickler ob sie DLSS einbauen oder nicht.

amdfanuwe
2023-07-01, 11:39:35
Nein. Das entscheiden immer noch die Entwickler ob sie DLSS einbauen oder nicht.
Nein, das entscheided Nvidia ob für AMD und Intel DLSS verfügbar ist.

Exxtreme
2023-07-01, 11:42:28
Nein, das entscheided Nvidia ob für AMD und Intel DLSS verfügbar ist.

Nein, das entscheidet nicht Nvidia. Denn wenn RDNA3 DLSS schon hardwaremäßig nicht kann dann geht es nicht. Und selbst wenn es gehen würde dann müsste AMD das auch noch in die Treiber einbauen. Und die tun sich schon mit FSR3 ziemlich schwer wie es ausschaut.

robbitop
2023-07-01, 11:44:48
Naja wenn man es öffnen würde und eine Schnittstelle anbieten würde, würde die HW das schon können. Auch Vektor FPUs können Matritzen rechnen. Nvidia nutzt dlss für customer retention also darf es kein anderer ihv nutzen.

amdfanuwe
2023-07-01, 11:51:51
Naja wenn man es öffnen würde und eine Schnittstelle anbieten würde, würde die HW das schon können.
Eben. Dann wäre es AMDs Problem die Hardware entsprechend zu bauen, dass auch die Performance rüber käme. Aber die Möglichkeit haben sie ja erst gar nicht.

BlacKi
2023-07-01, 11:58:10
Nein, das entscheided Nvidia ob für AMD und Intel DLSS verfügbar ist.das scheitert doch schon daran, das amd sich nicht bei proprietären lösungen mitmachen will. ich hab irgendwo mal gelesen, das amd lizenzen bei nv kaufen könnte um dann den support für dlss bringen zu können. aber weder intel noch amd sehen das als ihren vorteil, auch wenn das natürlich vorteilhaft für die kunden wäre.


also aus amds und intels sicht verstehe ich schon warum man das nicht unterstützt.

Iscaran
2023-07-01, 12:03:26
Geht nicht um schlechter laufen. Bei DLSS ist die Bildqualität besser. Hier mal schöne Vergleichsbilder:
https://www.forum-3dcenter.org/vbulletin/showthread.php?p=13339725#post13339725

Ja der Unterschied ist schon extrem massiv - spring einem sofort ins Auge und würde bei einem Doppelblindtest bestimmt zu 100% sichere Zuordnung ermöglichen.../s:freak:

Warum also nicht FSR benutzen, ist jetzt ja nicht so, dass man das als nicht BQ-Nerd wirklich merkt.

Exxtreme
2023-07-01, 12:05:23
Ja der Unterschied ist schon extrem massiv - spring einem sofort ins Auge und würde bei einem Doppelblindtest bestimmt zu 100% sichere Zuordnung ermöglichen.../s:freak:

Warum also nicht FSR benutzen, ist jetzt ja nicht so, dass man das als nicht BQ-Nerd wirklich merkt.

Also ich sehe den Unterschied sehr wohl. :)

Von daher wäre es toll beides im Spiel zu haben.

robbitop
2023-07-01, 12:31:01
das scheitert doch schon daran, das amd sich nicht bei proprietären lösungen mitmachen will. ich hab irgendwo mal gelesen, das amd lizenzen bei nv kaufen könnte um dann den support für dlss bringen zu können. aber weder intel noch amd sehen das als ihren vorteil, auch wenn das natürlich vorteilhaft für die kunden wäre.


also aus amds und intels sicht verstehe ich schon warum man das nicht unterstützt.
Open source und überall unterstützte Schnittstelle gut ist (so wie fsr 2 und xess dp4a würde dann GPU agnostisch laufen) aber NV sperrt lieber ihre Kunden ein. Ist aber marktwirtschaftlich schlau.

Complicated
2023-07-01, 12:31:14
das scheitert doch schon daran, das amd sich nicht bei proprietären lösungen mitmachen will.
"Mitmachen" - da muss man sich ja schon fremdschämen, wenn man das liest.

Wer beim Konkurrent proprietäre Technik lizenziert kann den Laden in 5 Jahren zu machen.
Zumal es überhaupt kein Lizenzprogramm für DLSS gibt - zeig mal einen Link, wo ein Lizenz-Modell für andere GPU-Hersteller angeboten wird.
Das gab es nicht mit GSync, nicht mit PhysX und auch nicht mit CUDA.

Und bei allen Techniken hat sich am Schluß raus gestellt, dass die Innovationshöhe der ach so tollen Features, zumeist einfach eine 2 Jahre vorgreifende Implementierung offener Standards war oder mit den offenen Standards nicht mithalten konnte.

Linmoum
2023-07-01, 12:40:43
AMD hat ja - im Gegensatz zu Intel - Streamline abgelehnt und iirc hat sich das bis heute auch nicht geändert. Kann sich jeder seinen Teil zu denken.

DrFreaK666
2023-07-01, 14:01:09
Was wurde eigentlich aus Microsofts Bemühungen bezüglich Upscaling über Direct ML? Wäre das zu Ende gedacht worden, dann hätten wir einen ML-Standard für alle

Exxtreme
2023-07-01, 14:10:41
AMD hat ja - im Gegensatz zu Intel - Streamline abgelehnt und iirc hat sich das bis heute auch nicht geändert. Kann sich jeder seinen Teil zu denken.

Wobei Streamline jetzt kein API ist, welches DLSS auf Nicht-Nvidia-Hardware erlaubt. Das Ding macht wohl die Integration mehrerer Upscaler einfacher. Ob das jetzt so nützlich ist, keine Ahnung. AMD sieht das wohl nicht als nützlich an.

Langlay
2023-07-01, 14:23:07
Warum also nicht FSR benutzen, ist jetzt ja nicht so, dass man das als nicht BQ-Nerd wirklich merkt.

(Achtung! Verallgemeinerung)

Bei FSR haste halt öfters flimmern, bei DLSS ist das weniger ausgeprägt, das siehste halt bei Standbildern nicht.

Grundsätzlich ist es schon ganz nice bei den Upscalern sich den für sich besten, im jeweiligen Game, rauszupicken. Allerdings fänd ich es auch besser wenn DLSS auf den AMD/Intel Karten laufen würde. Aber das wird wohl ein Wunsch bleiben.

AffenJack
2023-07-01, 14:25:58
Wobei Streamline jetzt kein API ist, welches DLSS auf Nicht-Nvidia-Hardware erlaubt. Das Ding macht wohl die Integration mehrerer Upscaler einfacher. Ob das jetzt so nützlich ist, keine Ahnung. AMD sieht das wohl nicht als nützlich an.

Das muss man sich nur die Aussage der Spiderman Entwickler durchlesen:

https://wccftech.com/nvidia-dlss-fsr-xess-easily-supported/

Es ist also recht trivial die verschiedenen Upscaling Techniken zu unterstützen. Dann braucht man auch kein Streamline, weil es auch so sehr einfach ist, alle einzubauen.

Wieso ein Upscaler also nicht in einem Game auftaucht dürfte also ziemlich sicher nicht am Entwicklungsaufwand liegen.

vinacis_vivids
2023-07-01, 14:57:29
Das mobile Lineup von RDNA3 sieht sehr gut aus und dürfte den Durchbruch für AMD im mobilen Bereich bringen:

RX 7900M 70CU 16GB - 165W
RX 7800M XT 60CU 16GB - 165W
RX 7800M 54CU 16GB - 150W
RX 7700M 48CU 12GB - 140W
RX 7900S 60CU 16GB - 135W
RX 7800S 48CU 12GB -120W

Die 48-70CUs und 12-16GB mobile GPUs decken den Großteil an Bedarf sehr sehr gut ab. Vor allem wenn AMD preislich noch attraktiver wird bei den Salvage-Modellen (48-54CU) kombiniert mit einer günstigen AMD-APU.

Die 60/70CU mit N32-full bzw. N31-salvage wird AMD gut abschöpfen wollen. Das ist die RX6800 bzw. 6800XT Leistung am Desktop.

Schon vorhanden im Budged-Bereich:

RX 7600M XT 32CU 8GB - 75-120W
RX 7600M 28CU 8GB - 50-90W
RX 7700S 32CU 8GB - 75-100W
RX 7600S 28CU 8GB - 50-75W

Langlay
2023-07-01, 15:14:16
Das mobile Lineup von RDNA3 sieht sehr gut aus und dürfte den Durchbruch für AMD im mobilen Bereich bringen

AMD hat den Durchbruch im mobilen Bereich nicht mit guten Produkten geschafft, aber mit dem bestenfalls mittelmäßigen RDNA3 da kommt der Durchbruch ganz bestimmt. :freak:

N31 im Notebook kann ja auch nur ein Erfolg werden. Ist dann die RX 7900M XT 1 GHz Edition.

vinacis_vivids
2023-07-01, 17:00:03
Die Leistungen äquivalent einer RX6800 bzw. 6800XT 16GB am Laptop ist sehr sehr ordentlich. Vor allem nur mit 200/300mm² 5nm GCD statt 520mm² 7nm GPU.

N32 60CU ~ 2,2-2,4Ghz
~ 33,7-36,8 Tflops fp32

N31 70CU ~ 2,1-2,3Ghz
~ 37,6-41,2 Tflops fp32

Das passt zu 150-165W am Laptop.

MSABK
2023-07-01, 17:31:13
Die Teile wird aber fast niemand im Notebook verbauen. Es gibt bis auf 2-3 teure Zen4 Apus nicht einmal eine breite Auswahl an Phönix Apus.

Tesseract
2023-07-02, 00:25:37
Wobei Streamline jetzt kein API ist, welches DLSS auf Nicht-Nvidia-Hardware erlaubt. Das Ding macht wohl die Integration mehrerer Upscaler einfacher. Ob das jetzt so nützlich ist, keine Ahnung. AMD sieht das wohl nicht als nützlich an.

wo ist da der unterschied? ein "geöffnetes DLSS" würde sowieso darauf hinauslaufen dass jeder hersteller ein an die eigene architektur angepasstes NN einfügt. da ist die streamline-variante flexibler.

amdfanuwe
2023-07-02, 01:39:26
ein an die eigene architektur angepasstes NN einfügt.
Was soll das denn sein?
Ein NN besteht aus einem Haufen Knoten und den gewichteten Verbindungen derselben.
Das lässt sich mit einer großen Matrix beschreiben und die ist zu berechnen.
Je nach Architektur gelingt das mehr oder weniger schnell und effizient.
Da lässt sich ein NN nicht auf die eigene Architektur "anpassen".

Tesseract
2023-07-02, 02:38:01
das NN in DLSS ist ein binärdatenblob mit einem NN das speziell auf die fähigkeiten (datentypen, komplexität, sparsity) der entsprechenden architektur optimiert ist. selbst wenn das NN in irgendeinem intermediary-format vorliegen würde wär es wohl kaum sinn der sache wenn man das z.B. auf RDNA3 laufen lässt und die performance statt nach oben nach unten geht weil die karten den throughput nicht haben. intel hat das so gelöst dass alle anderen einfach eine simple fallback-lösungen bekommen und das wars.

robbitop
2023-07-02, 07:30:50
Die leider qualitativ für den Allerwertesten ist.

HOT
2023-07-02, 09:12:55
das scheitert doch schon daran, das amd sich nicht bei proprietären lösungen mitmachen will. ich hab irgendwo mal gelesen, das amd lizenzen bei nv kaufen könnte um dann den support für dlss bringen zu können. aber weder intel noch amd sehen das als ihren vorteil, auch wenn das natürlich vorteilhaft für die kunden wäre.


also aus amds und intels sicht verstehe ich schon warum man das nicht unterstützt.
Selten so einen Schwachfug gelesen ;).
Das Problem ist, dass AMD niemals an DLSS rankommen wird, weil NV das nicht will. Deswegen ist das Ganze ne proprietäre Blackbox.
In 5 Jahren redet aber sowieso niemand mehr über DLSS, weil es ganz andere Lösungen geben wird ;).

robbitop
2023-07-02, 09:30:48
Naja bis dato bleibt DLSS unangefochten, weil es qualitativ noch deutlich vorn ist. Das war bei GSync leichter, das einzuholen (hat aber eine Weile gedauert bis anständige vrr ranges und gutes lfc Standard war).
Um an DLSS heranzukommen braucht es sehr wahrscheinlich ein NN, welches bei Dingen wie Disocclusion wo keine Samples aus der Vergangenheit vorliegen, konkludente Werte zu halluzinieren.
Da muss AMD erstmal hinkommen. Und das Blöde ist, dass der Macher dann auch der owner des NNs ist. Es sei denn er liefert das auch open source aus und nicht als binary blob.
Gerade letzteres wäre notwendig, damit alle sich darauf einlassen.
Und eine sinnvolle Schnittstelle damit auch die Matrixunits aller IHV korrekt funktionieren. Das wird diesmal jedenfalls nicht leicht.

HOT
2023-07-02, 09:34:13
Da wird AMD automatisch hinkommen hinkommen. Wir reden hier von 5 Jahren.

vinacis_vivids
2023-07-02, 10:10:41
https://gpuopen.com/wmma_benefits_ml_compute/

WMMA-instruction erlaubt:

GEMM: Generalized Matrix Multiplication mit HLSL 6.8

https://gpuopen.com/wp-content/uploads/2023/06/gemm_matrix_equation.svg

Damit ist (fast) alles möglich mit FSR 3.0. Bspw. Wellenförmige 3D-Motion-Vectors in 2D (R16G16) umzuwandeln.

robbitop
2023-07-02, 10:58:09
Leider trotzdem relativ lahm weil es auf den Vektor FPUs laufen muss.

Achill
2023-07-02, 11:24:41
Wobei Streamline jetzt kein API ist, welches DLSS auf Nicht-Nvidia-Hardware erlaubt. Das Ding macht wohl die Integration mehrerer Upscaler einfacher. Ob das jetzt so nützlich ist, keine Ahnung. AMD sieht das wohl nicht als nützlich an.

Es wird von NV behauptet bzw. es ist eine Annahme im Netz, dass es die Integration mehrerer Upscaler einfacher macht. Zumindest die API ist als OS Projekt verfügbar: https://github.com/NVIDIAGameWorks/Streamline

Man kann in GibHub in den entsprechenden Projekten suchen, durch alle Dateien wie Code oder Dokumentation. Die suche nach XeSS oder FSR(2) ergibt keine Treffer ... im aktuellen Stand kann das Projekt keine anderen Lösungen integrieren. Damit hat die Aussage "[..] macht wohl die Integration mehrerer Upscaler einfacher." weder Hand noch Fuß.

Warum werden sich AMD und Intel nicht beteiligen? Das imho ist relativ einfach Erklärt. Auch wenn das Projekt OpenSource ist, ist es nicht frei. NV hat die Hand bzgl. Anpassung, Weiterentwicklung und Release auf dem Projekt:
- Dies bedeutet AMD und Intel müssten sich immer auf den Guten Willen von NV verlassen.
- Benötigte Anpassungen an der API um evtl. benötigte Feature-Daten für XeSS oder FSR2 zu bekommen müssen von NV freigeschaltet werden. Im Entgegen gesetzten Fall muss NV aber nicht Intel oder AMD informieren wenn die selbst die API anpassen und neue Features einführen.
- Wir (zumindest ich) wissen nicht, ob die bestehende API überhaupt gut mit XeSS oder FSR2 zusammenspielt

=> AMD und Intel wären immer erst nach NV am Zug und NV hätte immer Vorab die Infos über neu geplante Features von AMD/Intel. Ich hoffe es wird klar warum auch Firmensicht dies keine gute Strategie ist ...

vinacis_vivids
2023-07-02, 11:32:00
@robbitop

Wieso denn Lahm? Die 3D-Motion Vectors werden eh per FSR 2.X in 2D fp16 Zahlenbuffer R16G16 umgewandelt. Da findet die Beschleunigung bei RDNA statt. AMD könnte bei RDNA4 die Flop per CU bei fp16 verdoppeln auf 1024 instructions. Von RDNA2 256 flop/CU auf 512flop/CU bei RDNA3 bereits gemacht.

Noch besser ist, HLSL RT-shading und Motion-Vektor gleich mit fp16 zu machen. Da spart man sich die Umrechnungszeit und viel Bandbreite.

Aber mit 2,6-3,0Ghz sind die ALUs vergleichsweise lahm ggü. denen in der CPU mit >5Ghz, ja. Da kann AMD noch viel beim Takt machen oberhalb >3,0Ghz wofür die uArch ja auch eigentlich ausgelegt ist. Der Takt bei der GPU gestaltet sich bedeutend schwieriger, sieht man bei fp64-GPUs, diese takten nur noch mit ~1,7Ghz.




https://www.pugetsystems.com/labs/articles/amd-radeon-pro-7800-and-7900-content-creation-review/

W7900 48GB - N31XTX Full 96CU
W7800 32GB - N31XL Salvage 70CU

AMD hat große Schritte nach vorne gemacht. Der Sprung von der W6800 auf W7900 ist bei UE5 von 20fps auf 35fps bei +74%. Der Salvage N31 70CU 4480SP macht +37% zur W6800. Das ist ca. das Level der ~6950XT.

Ein Desktop Ableger als 7800XT 70CU 16GB hätte 20% Abstand zur 7900XT und ist Ersatz für die 6900XT / 6950XT

Exxtreme
2023-07-02, 11:53:21
Man kann in GibHub in den entsprechenden Projekten suchen, durch alle Dateien wie Code oder Dokumentation. Die suche nach XeSS oder FSR(2) ergibt keine Treffer ... im aktuellen Stand kann das Projekt keine anderen Lösungen integrieren. Damit hat die Aussage "[..] macht wohl die Integration mehrerer Upscaler einfacher." weder Hand noch Fuß.


Streamline ist eine Plugin-Architektur. Und deshalb wird man auch keine FSR- oder Xess-Verweise im Code oder der Dokumentation finden. Weil es dann nicht nötig ist.

basix
2023-07-02, 12:12:08
Und eine sinnvolle Schnittstelle damit auch die Matrixunits aller IHV korrekt funktionieren. Das wird diesmal jedenfalls nicht leicht.

Gibt es mit DX12 seit neuestem mit SM 6.8 HLSL ;)
https://wccftech.com/microsoft-agility-sdk-adds-work-graphs-for-full-gpu-autonomy-wave-matrix-av1-support/
To allow access to this dedicated silicon, HLSL is adding Wave Matrix instructions to the language, also known as Wave Matrix Multiply Accumulate (WaveMMA). This addition defines several new abstract Wave Matrix data types, which allows the underlying hardware to store, rearrange, and duplicate data across all threads in a wave.
https://microsoft.github.io/DirectX-Specs/d3d/HLSL_SM_6_8_WaveMatrix.html

Treiber von AMD, Intel und Nvidia mit entsprechender Unterstützung sollen in den nächsten Wochen kommen.

AMD zeigt das bereits auf GPU-Open:
https://gpuopen.com/wmma_benefits_ml_compute/

Leider trotzdem relativ lahm weil es auf den Vektor FPUs laufen muss.
120 TFLOPS FP16 bei der 7900XTX sind jetzt nicht sooo wenig. Das ist 2080 Ti / 3080 / 4070 Level. Letztere zwei liegen beim generellen Performance-Rating bei ~50% einer 4090 und sind beileibe nicht langsam ;) Und es ebnet den Weg, dass dies mit einer einheitlichen Schnittstelle implementiert wird und nicht z.B. via NVAPI bei DLSS. Und es öffnet die Tür für andere Algorithmen, welche man via Matrix anstatt Vektor laufen lassen kann. Spatio-Temporal Upsampling ist nur einer der Use Cases für die Nutzung von WaveMMA. Das würde einen zusätzichen Performance-Boost geben. In der Wissenschaftsgemeinschaft werden ebenfalls immer mehr Algorithmen von Vektor auf Matrix umgeschrieben, damit man mehr Performance erhält. Gibt bei Spielen sicher ähnliche Problemstellungen.

DrFreaK666
2023-07-02, 12:55:02
Streamline... Gibt es überhaupt Belege dafür , dass es breitflächig genutzt wird?

robbitop
2023-07-02, 13:11:08
@v_v
Das Aufwändige ist das Inferencing des NN. Und das braucht Matrixleistung. Mit Vektor Rechenwerken dauert das x mal so lange.

@basix
Die RTX Karten haben die Matrixunits zusätzlich zu den Vektor FPUs.
Außerdem soweit ich weiß skaliert dual issue bis dato nicht mit rpm. Also bleibt es wohl bei 60 tflops.

Man sieht bei XeSS wie teuer sogar ein simplifiziertes NN ohne Matrixunits ist. Das native ist iirc nich 4x komplexer. Ist jetzt natürlich nur ein Datenpunkt aber aus Spaß verbauen beide IHVs die ein NN basiertes Upsamplingverfahren haben keine Matrixcores.

Achill
2023-07-02, 13:38:49
Streamline ist eine Plugin-Architektur. Und deshalb wird man auch keine FSR- oder Xess-Verweise im Code oder der Dokumentation finden. Weil es dann nicht nötig ist.

"Streamline ist eine Plugin-Architektur" => das stimmt erst, wenn es auch Plugins dafür gibt. Ansonsten ist es ggf nur ein Feigenblatt und Marketing ala "Hier seht, wie bemühen uns um Integration, die anderen müssen jetzt nur ihre Plugins schreiben. Wenn diese es nicht wollen, dann können wir auch nichts dafür. Wir haben es versucht, wie sind die Guten .." - m.E. ein Voller Erfolg bzgl. Marketing.

Einen Projekt welche unabhängige Plugins Dritter unterstützen will und das diese wirklich äquivalent funktionieren, muss m.E. folgendes vorgeben:
- Ausgangsszenarien (Testdaten und -Szenen, ggf. auch für populäre Engines)
- Zielvorgaben, wie das Resultat auszusehen hat

Damit wird folgendes erreicht:
- Es gibt Beispiele was korrekt und wie etwas zu verarbeiten ist (in der SW-Welt nennt sich die Specification by Example (https://en.wikipedia.org/wiki/Specification_by_example))
- Es ist offensichtlich, wenn Fälle noch nicht abgedeckt sind und können hinzugefügt werden
- Alle Partner die Plugins beisteuern können die Beispiele und Referenzen nutzen um ihr Plugin interoperable und mit möglichst gleicher Qualität umzusetzen
- Die Firma, die die Kontrolle über das Projekt hat, muss sich selbst an die Vorgaben, zumindest die bekannten, halten

---

Streamline... Gibt es überhaupt Belege dafür , dass es breitflächig genutzt wird?

Ich würde die Frage noch verschärfen: Gibt es überhaupt Belege dafür, dass es wenigsten ein Spiel mit SL gibt, das eines oder mehrere andere Plugins als die von NV nutzt und wenn ja welche?

Tesseract
2023-07-02, 14:56:37
Die RTX Karten haben die Matrixunits zusätzlich zu den Vektor FPUs.
Außerdem soweit ich weiß skaliert dual issue bis dato nicht mit rpm. Also bleibt es wohl bei 60 tflops.

sparsity nicht vergessen. in einem auf 50% sparsity optimierten NN können architekturen mit support 50% der berechnungen einfach weglassen, architekturen ohne support müssen alle null-nodes mitcrunchen.

weiß jemand wie sich turing auf hohen auflösungen mit den neureren, möglicherweise komplexeren, DLSS-presets verhält? gibt es da limitierungen?

vinacis_vivids
2023-07-02, 14:57:12
@robbitop

Die fp16 Matrixleistung wurde mit RDNA3 pro CU verdoppelt. Die Gesamtleistung bei MM wurde mehr als verdoppelt, was schon ganz gut ist.

https://abload.de/img/2023-07-0214_24_45-ho0vcdk.png

Bei 3,0Ghz Compute-Takt kommen bei Matrix-Shader ~ 147 Tflops fp16 raus.

512 / 3,0 / 96 ~ 147,456 Tflops

Genügend Rechenleistung ist ja verfügbar bei HYPR-RX um die doppelte fps ggü. FSR-P zu zeigen.

AffenJack
2023-07-02, 16:52:27
Streamline... Gibt es überhaupt Belege dafür , dass es breitflächig genutzt wird?

Streamline ist zumindest mit DLSS3 die Standardschnittstelle zur Implementierung davon geworden und ja auch für Reflex usw. Die UE5 hat noch was eigenes, aber ansonsten dürfen die viele Implementierungen die DLSS3 nutzen auf Streamline bauen.

robbitop
2023-07-02, 18:30:53
@robbitop

Die fp16 Matrixleistung wurde mit RDNA3 pro CU verdoppelt. Die Gesamtleistung bei MM wurde mehr als verdoppelt, was schon ganz gut ist.

https://abload.de/img/2023-07-0214_24_45-ho0vcdk.png

Bei 3,0Ghz Compute-Takt kommen bei Matrix-Shader ~ 147 Tflops fp16 raus.

512 / 3,0 / 96 ~ 147,456 Tflops

Genügend Rechenleistung ist ja verfügbar bei HYPR-RX um die doppelte fps ggü. FSR-P zu zeigen.

FP16 kann RDNA3 nicht dual issue. Entsprechend gibts für FP16 ggü rdna2 keine Verdoppelung

The result is a massive increase in FP32 throughput. FP16 sees a smaller throughput increase because RDNA 2 is able to use packed FP16 execution, with instructions like v_pk_add_f16. Those instructions interpret each 32-bit register as two 16-bit elements, doubling throughput. RDNA 3 does the same, but is not able to dual issue such packed instructions
https://chipsandcheese.com/2023/01/07/microbenchmarking-amds-rdna-3-graphics-architecture/

Dazu kommt: keine Sparsity, keine extra Matrixunits also wird das alles von der General Purpose Rechenleistung die man für Compute-, Pixelshader etc braucht weggenommen.

Dazu fährt RDNA3 in Spielen (wo man ja das Upsampling einsetzt) deutlich niedrigere FPU Taktraten als 3 GHz.

aufkrawall
2023-07-02, 18:37:03
weiß jemand wie sich turing auf hohen auflösungen mit den neureren, möglicherweise komplexeren, DLSS-presets verhält?
Afaik nehmen sich die Presets in der Performance so gut wie nichts und imho wird auch auf Turing der Löwenanteil an zusätzlichen Renderkosten in hohen Auflösungen durch das PP nach dem Upsampling kommen.

vinacis_vivids
2023-07-03, 07:19:04
FP16 kann RDNA3 nicht dual issue. Entsprechend gibts für FP16 ggü rdna2 keine Verdoppelung

https://chipsandcheese.com/2023/01/07/microbenchmarking-amds-rdna-3-graphics-architecture/

Dazu kommt: keine Sparsity, keine extra Matrixunits also wird das alles von der General Purpose Rechenleistung die man für Compute-, Pixelshader etc braucht weggenommen.

Dazu fährt RDNA3 in Spielen (wo man ja das Upsampling einsetzt) deutlich niedrigere FPU Taktraten als 3 GHz.

Der Artikel ist schon etwas älter und wurde nicht auf neue WMMA-Instructions getestet.

https://gpuopen.com/learn/wmma_on_rdna3/

"The WMMA instruction optimizes the scheduling of data movement and peak math operations with minimal VGPR access by providing source data reuse and intermediate destination data forwarding operations without interruption. The regular patterns experienced in matrix operations enable WMMA instructions to reduce the required power while providing optimal operations that enable sustained operations at or very near peak rates. "


Very "near peak rates" bedeuten ~123 Tflops fp16-Leistung bei WMMA und GEMM mit Standard-Clock im wave32 oder wave64 Modus. Matrizen werden nicht mehr Thread für Thread berechnet, sondern in WMMA 32/64er wave-fronts.

Bei "Stable Diffusion" , also text to picture ist RDNA3 deutlich schneller als RDNA2.

Bei FSR2 / FSR3 werden 3D Brwegungskoordinaten eh in 3-Komponenten Vektor-Bewegungen, also in Ein-Spalten-Matrix umgewandelt.

WMMA werden in VOP3P (Vector Op with 3 inputs, doing packed math) encodiert, laufen also sehr hardwarenah mit fp16.

dargo
2023-07-03, 09:42:55
Gibt es eigentlich irgendwelche Gerüchte zur RX 7950XT/XTX für Ende 2023? Im besten Fall dann aber auch etwas effizienter und schneller als RX 7900XT/XTX?

robbitop
2023-07-03, 10:10:43
Der Artikel ist schon etwas älter und wurde nicht auf neue WMMA-Instructions getestet.

https://gpuopen.com/learn/wmma_on_rdna3/

"The WMMA instruction optimizes the scheduling of data movement and peak math operations with minimal VGPR access by providing source data reuse and intermediate destination data forwarding operations without interruption. The regular patterns experienced in matrix operations enable WMMA instructions to reduce the required power while providing optimal operations that enable sustained operations at or very near peak rates. "


Very "near peak rates" bedeuten ~123 Tflops fp16-Leistung bei WMMA und GEMM mit Standard-Clock im wave32 oder wave64 Modus. Matrizen werden nicht mehr Thread für Thread berechnet, sondern in WMMA 32/64er wave-fronts.

Bei "Stable Diffusion" , also text to picture ist RDNA3 deutlich schneller als RDNA2.

Bei FSR2 / FSR3 werden 3D Brwegungskoordinaten eh in 3-Komponenten Vektor-Bewegungen, also in Ein-Spalten-Matrix umgewandelt.

WMMA werden in VOP3P (Vector Op with 3 inputs, doing packed math) encodiert, laufen also sehr hardwarenah mit fp16.
Das Format der Motionvectors ist egal. Es geht um das Inferencing eines NN. Und das passiert immer mit Matrizen.


Zum FP16 WMMA Durchsatz:
https://hothardware.com/photo-gallery/Article/3259?image=big_vector-unit-matrix.jpg&tag=popup

Pro SIMD32 können 64 dot2 Instruktionen in BF16 und INT8 abgearbeitet werden. Mit INT4 sogar 64 dot4. Wobei die Frage ist, ob man die auch durchbekommt (register pressure). Man hat die Register von rdna2 ja nur ver-1,5 facht. Den Rohdurchsatz aber verdoppelt.

Ich würde davon ausgehen, dass ein NN für Upsampling BF16 oder INT8 als Datentyp braucht. Dann kommt für N31 tatsächlich rund 120 TOPS dabei raus. Allerdings fressen die Matrixberechnungen General Purpose Leistung da es keine zusätzlichen Matrixunits gibt. Und wie gesagt gibt es kein Sparsity.

In Summe bleibt trotz wmma Instruktionen nur eine Verdopplung des Durchsatzes dieser Datentypen pro CU übrig. Genau wie mit FP32.

basix
2023-07-03, 18:19:54
FP16 kann RDNA3 nicht dual issue. Entsprechend gibts für FP16 ggü rdna2 keine Verdoppelung.

In Summe bleibt trotz wmma Instruktionen nur eine Verdopplung des Durchsatzes dieser Datentypen pro CU übrig. Genau wie mit FP32.

:rolleyes:

Schlussendlich kann RDNA3 pro CU doppelt so viele FLOPS wie RDNA2 umsetzen und zusammen mit mehr CUs sowie Takt landet eine 7900 XTX bei ~120 TFLOPS FP16. Und diese 120 TFLOPS kann man mit denen von Turing (2080 Ti) gleichsetzen (welcher Tensor auch nicht parallel konnte).

Ich habe selbst mit Nsight mal rumgespielt und die Tensor-Zeit bei DLSS ist ziemlich kurz. Viel kürzer als der gesamte Overhead von DLSS (DLSS + Post-Processing in der höheren Auflösung). Aus meiner Sicht ist hier die Matrix-Leistung nicht der limitierende Faktor. Mehr ist immer besser aber ein Deal-Breaker ist es auch nicht.


Pro SIMD32 können 64 dot2 Instruktionen in BF16 und INT8 abgearbeitet werden. Mit INT4 sogar 64 dot4. Wobei die Frage ist, ob man die auch durchbekommt (register pressure). Man hat die Register von rdna2 ja nur ver-1,5 facht. Den Rohdurchsatz aber verdoppelt.

RDNA3 hat mehr Register als Lovelace. Und letzterer kann Tensor und Vektor parallel und Peak-Durchsatz bei Matrix/Tensor ist 3x höher. Ich glaube nicht, dass bei RDNA3 der Registerplatz limitiert.

robbitop
2023-07-03, 20:11:44
:rolleyes:

Ich hab mich für den Folgepost zusätzlich belesen und somit selbst korrigiert. Was gibt es da zu rolleyen? Das ist ja wohl eine völlig alberne Reaktion deinerseits. Wenn man Fakten sieht, die konträr zum bisherigen Standpunkt sind, muss man diesen halt ändern.
Wo ist dein Problem?



Schlussendlich kann RDNA3 pro CU doppelt so viele FLOPS wie RDNA2 umsetzen und zusammen mit mehr CUs sowie Takt landet eine 7900 XTX bei ~120 TFLOPS FP16.
Habe ich ja schon längst geschrieben. Aber gut, dass du es nochmal erwähnst. :up:



Und diese 120 TFLOPS kann man mit denen von Turing (2080 Ti) gleichsetzen (welcher Tensor auch nicht parallel konnte).
Turing konnte 2 aus 3 gleichzeitig und ampere 3 aus 3(vektor, matrix, rt).



Ich habe selbst mit Nsight mal rumgespielt und die Tensor-Zeit bei DLSS ist ziemlich kurz. Viel kürzer als der gesamte Overhead von DLSS (DLSS + Post-Processing in der höheren Auflösung). Aus meiner Sicht ist hier die Matrix-Leistung nicht der limitierende Faktor. Mehr ist immer besser aber ein Deal-Breaker ist es auch nicht.
Haben wir schon mehrfach durchgekaut in den letzten Jahren. Ist mir nicht neu und von einem Dealbreaker hat auch niemand was gesagt.
Aber wir vergleichen hier eine HighEnd Karte von heute die gerade mal die Matrixleistung (Vektor käme on top) mit einer von vor 5 Jahren hat. Der Kram muss auch auf kleinen Karten gut laufen.




RDNA3 hat mehr Register als Lovelace. Und letzterer kann Tensor und Vektor parallel und Peak-Durchsatz bei Matrix/Tensor ist 3x höher. Ich glaube nicht, dass bei RDNA3 der Registerplatz limitiert.
Interessant. Hast du dazu konktete Zahlen mit Quellen? :)

Locuza
2023-07-03, 22:58:28
[...]
Interessant. Hast du dazu konktete Zahlen mit Quellen? :)
Die offiziellen Diagramme, hier Ada Lovelace:
http://www.3dcenter.org/dateien/abbildungen/nVidia-Ada-Lovelace-Shader-Cluster.png

(16.384 x 32 Bit) / 8 / 1024= 64 KB pro Subcore bzw. 4x 64 KB = 256 KB pro SM.
Das 256 KB Regfile beliefert bis zu 128 FP Lanes, Tensor Cores und RT-Einheiten.

https://fuse.wikichip.org/wp-content/uploads/2020/02/isscc2020-rdna-wgp.png
https://hothardware.com/image/resize/?width=1170&height=1170&imageFile=/contentimages/Article/3259/content/big_compute-unit-pair.jpg
Bei RDNA1/2 sind es 128 KB pro SIMD32 Unit bzw. 256 KB pro CU & 64 SIMD Lanes.
Bei RDNA3 N33 und Phoenix sind es auch 256 KB pro CU, hierbei gibt es aber bis zu 128 aktive SIMD Lanes (Bei single cycle Wave64, Dual-Issue Wave32 und Matrix instructions).
Bei RDNA3 N31/32 sind es 384 KB pro CU.

aufkrawall
2023-07-03, 23:04:57
Streamline ist zumindest mit DLSS3 die Standardschnittstelle zur Implementierung davon geworden und ja auch für Reflex usw. Die UE5 hat noch was eigenes, aber ansonsten dürfen die viele Implementierungen die DLSS3 nutzen auf Streamline bauen.
Das aktuelle DLSS 3 (FG & Upsampling) Plug-In für UE 5.2 nutzt auch StreamLine. Zumindest shipt es die DLLs, was sonst komisch wäre. Hogwarts mit UE4 hatte es auch schon genutzt.

Edit: Ok, die DLSS 2-DLL ist nicht mit im StreamLine-Ordner drin, was ggf. darauf schließen lässt, dass es noch anders implementiert ist.

basix
2023-07-03, 23:26:24
[...] hier Ada Lovelace:
(16.384 x 32 Bit) / 8 / 1024= 64 KB pro Subcore bzw. 4x 64 KB = 256 KB pro SM.
Das 256 KB Regfile beliefert bis zu 128 FP Lanes, Tensor Cores und RT-Einheiten.
[...]
Bei RDNA3 N31/32 sind es 384 KB pro CU.

Danke Locuza :)

OK, streng genommen hat N31 exakt gleich viel Registerplatz wie AD102. N31 hat 1.5x mehr pro CU, AD102 hat 1.5x SM.

Unter dem Strich hat Lovelace pro FLOP dennoch einiges weniger Registerplatz. Deswegen eben meine Vermutung, dass das bei RDNA3 nicht limitieren sollte.

robbitop
2023-07-04, 09:19:23
Die offiziellen Diagramme, hier Ada Lovelace:
http://www.3dcenter.org/dateien/abbildungen/nVidia-Ada-Lovelace-Shader-Cluster.png

(16.384 x 32 Bit) / 8 / 1024= 64 KB pro Subcore bzw. 4x 64 KB = 256 KB pro SM.
Das 256 KB Regfile beliefert bis zu 128 FP Lanes, Tensor Cores und RT-Einheiten.

https://fuse.wikichip.org/wp-content/uploads/2020/02/isscc2020-rdna-wgp.png
https://hothardware.com/image/resize/?width=1170&height=1170&imageFile=/contentimages/Article/3259/content/big_compute-unit-pair.jpg
Bei RDNA1/2 sind es 128 KB pro SIMD32 Unit bzw. 256 KB pro CU & 64 SIMD Lanes.
Bei RDNA3 N33 und Phoenix sind es auch 256 KB pro CU, hierbei gibt es aber bis zu 128 aktive SIMD Lanes (Bei single cycle Wave64, Dual-Issue Wave32 und Matrix instructions).
Bei RDNA3 N31/32 sind es 384 KB pro CU.

:up: danke

mczak
2023-07-04, 14:24:43
Wobei bei AMD's wmma Instruktionen ja mehr Registerbandbreite als eigentlich notwendig gebraucht wird weil die Daten manuell in obere Lanes repliziert werden müssen (Faktor 2 bei wave32, Faktor 4 (nur Input) bei wave64). Das scheint mir noch nicht so ganz ausgereift, auch das notwendige Matrizenlayout ist wenig flexibel (column-major für Matrix A, row-major für Matrizen B, C, D).
https://gpuopen.com/learn/wmma_on_rdna3/

Die Reigsterbandbreite reicht wohl trotzdem, weil im Gegensatz zu nvidia ja eben diese Matrix-Befehle nicht co-issued werden können.

dildo4u
2023-07-15, 07:56:56
Navi 32 soll angeblich auf der Gamescom gezeigt und im September gelauncht werden Navi21 scheint langsam durchgekaut?


7800 60 CU 260 Watt
7700 48 oder 54 CU 245 Watt


8zKe0Yq9YbY

HOT
2023-07-15, 09:21:24
Anders als Tom befürchte ich, dass AMD das Namensschema jetzt völlig verhunzen wird.
Vielleicht kommt ja mit RDNA4 schon wieder ein neues ;).

horn 12
2023-07-15, 10:52:26
Navi 31 wird etwas Billiger um die 100 Euro
und dies sickert jetzt schon durch.
Dann sollte 7900XT und 7900XTX um 729 und 949 Euro bald im Markt auftauchen!

Für dieses Geld kann man nix falsch machen und FSR 3.0 wird wohl Zeitgleich mit Navi 32 vorgestellt und Releast werden.

Platos
2023-07-15, 11:01:50
Quelle?

Linmoum
2023-07-15, 11:09:33
Den Usernamen gelesen? :D

Hübie
2023-07-15, 12:49:08
Es gab schon im Juni die 7900 XTX für 949,- Euro. Aktuell ebenfalls für den Kurs zu haben und immer wieder mal beim Mindstar zu finden.

Beispiel: https://geizhals.de/powercolor-radeon-rx-7900-xtx-v119572.html

Interessierte können sich bei mydealz anmelden und ein Alarm abonnieren. Geizhals.de bekommt Angebote nicht zuverlässig getracked.

horn 12
2023-07-15, 12:57:04
Ja, fast aussschließlich die PowerColor HellHound/ ebenso Asrock Chal.
Powercolor muss Massig auf Lager Liegen haben.
Im Großen und Ganzen mit vielen Anbietern rechne ich im August mit dem Preis zu 949 Euro in etwa.

Hübie
2023-07-15, 13:01:54
Bei Asus und Co wird man aber nach wie vor Apothekerpreise zahlen müssen. Ich war auch kurz davor eine Bestellung zu tätigen, aber da wir kurzfristig ein Haus zum Kauf gefunden haben, spare ich soviel Eigenkapital zusammen wie es nur geht. Hab eh kaum Zeit zum Daddeln und ein 5800X3D mit einer 6800XT ist jetzt auch gar nicht so schlecht. :smile:

HOT
2023-07-15, 13:13:37
Ja, fast aussschließlich die PowerColor HellHound/ ebenso Asrock Chal.
Powercolor muss Massig auf Lager Liegen haben.
Im Großen und Ganzen mit vielen Anbietern rechne ich im August mit dem Preis zu 949 Euro in etwa.

Wohl eher ist das einzige Custom die massenhaft nach Europa oder zumindest D geliefert wird. Große Mengen XTs gibts hier schlichtweg nicht, deshalb die Preise.
In den USA laufen die XTs durchaus:
https://www.microcenter.com/product/661861/powercolor-amd-radeon-rx-7900-xt-hellhound-overclocked-triple-fan-20gb-gddr6-pcie-40-graphics-card

Der_Korken
2023-07-16, 15:35:41
7800 60 CU 260 Watt
7700 48 oder 54 CU 245 Watt

Das scheint dann wohl die Effizienz von RDNA3 zu sein, wenn der Takt etwas geprügelt wird. Ob es wohl >10% oder <10% Perf/W auf N21 werden?

reaperrr
2023-07-16, 18:39:16
Das scheint dann wohl die Effizienz von RDNA3 zu sein, wenn der Takt etwas geprügelt wird. Ob es wohl >10% oder <10% Perf/W auf N21 werden?
Für die 7800 >10%, denn die 7800 wird in den 260W mindestens ~400 MHz und damit rund 20% höher takten als die 6800, mit ca. 10% mehr IPC obendrauf.
Damit sollte sie wenigstens um die 5-10% über der 6800XT landen, die 300W TGP hatte.

Bei der 7700 kommt es dann halt etwas auf die genauen Taktraten und Leistung je MHz an.
245W bei schmalerem SI/Speicher und deaktivierten CUs klingt nach gleichem oder höherem Takt als die 7800, da würde ich dann schon mind. 6750XT-Taktraten bei ~22% (48 CU) - ~30% (54 CU) höherer pro-MHz-Leistung erwarten, was ca. 6800 + 5-10% entsprechen würde, bei minimal niedrigerer TDP.

Aber relativ knapp wird's wohl, das stimmt, es sei denn es kommen noch merkliche RDNA3-Treiber/ShaderCompiler-Verbesserungen oder N32 taktet bei gleicher Spannung doch höher als N31.

Langlay
2023-07-16, 19:08:21
Für die 7800 >10%, denn die 7800 wird in den 260W mindestens ~400 MHz und damit rund 20% höher takten als die 6800, mit ca. 10% mehr IPC obendrauf.
Damit sollte sie wenigstens um die 5-10% über der 6800XT landen, die 300W TGP hatte.


Mit 260W sollte der 60CU N32 einen höheren Takt als die 7900XTX mit 355W fahren.

HOT
2023-07-16, 23:20:31
Diese n32 specs sind veraltet und wurden zig mal angepasst.. Mal sehen wie die Sachen im August wirklich aussehen.
Ich vermute ja mittlerweile eine 70 CU 7900, eine 60CU 7800XT und eine 7600XT die gleich zur 7600 ist oder minimal mehr Tdp hat und 16gb. Die bisherigen 7900 werden mMn refresht.

OgrEGT
2023-07-17, 06:15:12
https://www.computerbase.de/2023-07/radeon-geruechte-amd-werde-rx-7700-und-rx-7800-zur-gamescom-vorstellen/#update-2023-07-16T22:27
3DMark Werte

dildo4u
2023-07-17, 06:25:06
https://www.computerbase.de/2023-07/radeon-geruechte-amd-werde-rx-7700-und-rx-7800-zur-gamescom-vorstellen/#update-2023-07-16T22:27
3DMark Werte

Zum Vergleich PCGH hat 16k und 19k GPU Score für 6800/6800xt

https://www.pcgameshardware.de/3DMark-Software-122260/Specials/Punkte-Tabelle-Time-Spy-Benchmark-1357989/2/

OgrEGT
2023-07-17, 06:35:11
Zum Vergleich PCGH hat 16k und 19k GPU Score für 6800/6800xt

https://www.pcgameshardware.de/3DMark-Software-122260/Specials/Punkte-Tabelle-Time-Spy-Benchmark-1357989/2/

Das ist ja das Dilemma... auch wenn n32 die gleiche Leistung mit weniger CUs erreicht so scheint der Stromverbrauch ähnlich hoch so dass es wenig Aufrüstanreize ausgehend von 6800/XT geben wird... wird wohl auf den Preis ankommen...

dildo4u
2023-07-17, 06:48:13
Ja wichtig sind die Preise 6800XT gehen grad für 500€ weg ich befürchte das das überboten wird.

https://abload.de/img/screenshot2023-07-170ftd3q.png

https://www.mindfactory.de/Highlights/MindStar

Das TDP ist mit Dual Lüfter Kühlbar, da sehe ich weniger Probleme AMD Listet 6750XT mit 250.

https://geizhals.de/msi-radeon-rx-6750-xt-mech-2x-12g-oc-v399-004r-a2731603.html

OgrEGT
2023-07-17, 08:38:52
Ja wichtig sind die Preise 6800XT gehen grad für 500€ weg ich befürchte das das überboten wird.

https://abload.de/img/screenshot2023-07-170ftd3q.png

https://www.mindfactory.de/Highlights/MindStar

Das TDP ist mit Dual Lüfter Kühlbar, da sehe ich weniger Probleme AMD Listet 6750XT mit 250.

https://geizhals.de/msi-radeon-rx-6750-xt-mech-2x-12g-oc-v399-004r-a2731603.html

Genau. Und wenn man mehr verlangen möchte sollte man Mehrwert bieten... das könnte FSR3 sein... was aber dann bedeuten würde dass dieses dann nicht auf RDNA2 laufen würde sondern nur ab RDNA3...

Der_Korken
2023-07-17, 09:12:20
afaik geisterten schon mal 3Dmark scores durch den Thread, wo es so schien, als würde N32 full nicht die Performance einer 6800XT erreichen. Daher meine sarkastische Frage zu den 10% Perf/W, denn für 260W wäre so eine Performance ein Desaster.

dildo4u
2023-07-17, 09:24:59
Haben Chiplets nicht immer einer Effizienz Strafe, die APUs sind ja weiterhin Single Die Modelle da alles andere zu viel Saft zieht.

Der_Korken
2023-07-17, 09:40:44
Definitives nein. Der Verbrauch von RDNA3 kommt definitiv von den Shadern, denn wenn die ausgelastet werden, bricht der GPU-Takt ein und das Teil säuft wie ein Loch. Die Chiplets mögen Probleme beim Idle-Verbrauch machen, aber unter Last spielen sie keine Rolle. Man sollte außerdem bedenken, dass N31/N32 nicht übers Package kommunizieren wie AMDs CPUs, sondern über direkt über Silicon, was deutlich effizienter ist.

HOT
2023-07-17, 11:25:32
Bezüglich Idle-Verbrauch: Wer Probleme mit hohen 7k-Verbräuchen hat sollte einfach mal die Hz-Zahl seines Monitors verändern und danach wieder zurückstellen, das kann Wunder wirken...

Der_Korken
2023-07-17, 13:04:45
Bezüglich Idle-Verbrauch: Wer Probleme mit hohen 7k-Verbräuchen hat sollte einfach mal die Hz-Zahl seines Monitors verändern und danach wieder zurückstellen, das kann Wunder wirken...

Es geht nicht um das "ob", sondern das "wie viel". Sobald man einmal nicht im ganz unteren Stromsparmodus ist, steigt der Verbrauch bei N31 viel krasser als bei N21. Also 100W statt 60W z.B. bei Multimonitor oder Youtube. Das erscheint logisch, weil zusätzlich noch jede Menge PHYs aufgeweckt werden müssen, die man ohne Chiplets nicht hätte.

amdfanuwe
2023-07-17, 13:06:36
dass N31/N32 nicht übers Package kommunizieren wie AMDs CPUs, sondern über direkt über Silicon, was deutlich effizienter ist.
Silicon schmiert man im Bad oder sonstigen Feuchträumen in die Fugen.Du meinst Silizium, was aber auch falsch ist. Wird weder ein Silizium Interposer noch diese kleine Silizium Brücken ( EMIB, EFOB ) genutzt.
Das Fan-Out Package wird auf andere Weise produziert.
Hier etwas Material dazu:
https://eps.ieee.org/images/files/HIR_2021/ch23-wlpfinal2.pdf

Der_Korken
2023-07-17, 13:15:09
Silicon schmiert man im Bad oder sonstigen Feuchträumen in die Fugen.Du meinst Silizium, was aber auch falsch ist. Wird weder ein Silizium Interposer noch diese kleine Silizium Brücken ( EMIB, EFOB ) genutzt.
Das Fan-Out Package wird auf andere Weise produziert.
Hier etwas Material dazu:
https://eps.ieee.org/images/files/HIR_2021/ch23-wlpfinal2.pdf

[klugscheiß-mode]
silicon (engl.) = Silizium
silicone (engl.) = Silikon
[/klugscheiß-mode]

:D

Ansonsten magst du Recht haben, dass es technisch kein Interposer/EMIB/o.ä. ist, aber die Energiemenge pro übertragenem Bit ist deutlich geringer als bei der Lösung, die in den Ryzen-CPUs verwendet wird, weil die enorme Bandbreite im TB/s-Bereich sonst gar nicht realisierbar wäre. Mein Punkt war, dass die Last-Effizienzprobleme von RDNA3 nicht an den Chiplets liegen, sondern an der Architektur bzw. ihrer Implementierung.

basix
2023-07-17, 13:19:34
Ich glaube jeder hier weiss, dass damit nicht Silikon gemeint ist ;)
Silicon für Silikon braucht eigentlich niemand und ist hier weit ausser Kontext.

Der offizielle Name von Silizium im Periodensystem ist übrigens "Silicium" ;)
Standardsprachlich wird das Element „Silizium“ geschrieben. Die Schreibweise mit „c“ ist vor allem in der chemischen Fachsprache gebräuchlich.
https://de.wikipedia.org/wiki/Silicium

reaperrr
2023-07-17, 14:25:27
https://www.computerbase.de/2023-07/radeon-geruechte-amd-werde-rx-7700-und-rx-7800-zur-gamescom-vorstellen/#update-2023-07-16T22:27
3DMark Werte
Wenn die Werte endgültig sein sollten und auch grob die Raster-Performance wiederspiegeln, tritt wohl das ein, was ich schon ein bisschen befürchtet, wo ich aber bisher noch auf ein besseres Ende gehofft hatte:

Der nur halb so große IF$ sowie die geringere Zahl an ROPs (96 statt 128), mit halbiertem Z/Stencil-Durchsatz je ROP ggü. RDNA2, hauen bei N32 ggü. N21 doch stärker ins Kontor und fressen den IPC-Gewinn auf der CU-Seite praktisch komplett auf, so dass die Leistung je MHz selbst im Vollausbau nur ~6800-Niveau erreicht, in höheren Auflösungen vielleicht sogar darunter.

Anders ist schwer zu erklären, wie man mit solchen TBPs und damit wohl (bzw. hoffentlich...) Taktraten > 7900XTX auf so mittelprächtige Performance kommt.

Die 6800 liegt in WQHD nur 15% vor der 6750XT, die 7700 müsste demnach selbst dann, wenn sie nur 48 CUs hat (wobei wir dann immer noch von 3 statt 2 SE und 96 statt 64 ROPs reden würden), schon niedriger als eine 6750 XT takten, um die 6800 nicht zu schaffen.
In 245W weniger Takt als 6750XT trotz starker Beschneidung... puh.
Außer natürlich, 48 MB IF$ + 192bit SI sind für die Rohleistung einfach zu wenig und bringen die Leistung je MHz schlicht näher an N22...

robbitop
2023-07-17, 16:51:16
Definitives nein. Der Verbrauch von RDNA3 kommt definitiv von den Shadern, denn wenn die ausgelastet werden, bricht der GPU-Takt ein und das Teil säuft wie ein Loch. Die Chiplets mögen Probleme beim Idle-Verbrauch machen, aber unter Last spielen sie keine Rolle. Man sollte außerdem bedenken, dass N31/N32 nicht übers Package kommunizieren wie AMDs CPUs, sondern über direkt über Silicon, was deutlich effizienter ist.

Naja das GCD kommuniziert mit den MCDs über die Fanouts vom Package (info-r). INFO-R ist allerdings viel energieeffizienter als IFOP von Ryzen. Allerdings ist das Bandbreitenbedarf auch viel höher. Und es geht über EMIB oder vertical stacking nochmal deutlich effizienter. Je höher die Grafikladt, desto höher auch der Bandbreitenbedarf. Entsprechend sollte der zusätzliche Verbrauch für die inter chiplet Kommunikation mitskalieren. Aber wie groß der Anteil ist, ist unklar. Aber wahrscheinlich ist der Verbrauch des GCDs in hohen Betriebspunkten nicht-linear dominanter.

Complicated
2023-07-17, 19:29:31
EMIB ist wohl eine der ineffizientesten Techniken von den genannten. 2.5D Bridges mit, relativ zu den anderen gesehen, wenig Bandbreite. Nicht vergleichbar oder in einem Topf zu nennen mit vertical stacking (3D).

w0mbat
2023-07-17, 20:09:17
Vertical stacking muss nicht gleich 3D stacking sein. EMIB ist eigentlich ziemlich interessant, TSMC nutzt ein ähnliches Vorgehen für CoWoS-L (sie nennen es LSI, "local silicon interconnect"), was ab Ende dieses Jahres wohl CoWoS-S Konkurrenz machen wird. Echte silicon interposer sind eben teuer und brechen ziemlich einfach, das packaging ist komplex.

Complicated
2023-07-17, 20:44:03
Welches vertical stacking ist denn kein 3D?

EMIB 3.0 soll ja jetzt die Yield-Probleme zumindest mal fixen, die 2.0 noch mit Sapphire Rapids hatte.

LSI liegt ja nicht im Substrat, wie EMIB, sondern nochmals näher an den Chiplets:
https://images.anandtech.com/doci/16031/Advanced%20Packaging%20Technology%20Leadership.mkv_snapshot_11.38_%5B2020.08.25_ 14.14.11%5D.jpg

robbitop
2023-07-17, 22:00:42
Info_LSI / EMIB war iirc deutlich sparsamer pro Bit als Info-R.
Dass Apple mit M1 Ultra die erste wahre chiplet GPU (mGPU transparent zur Amwendung) damit gebaut hat spricht Bände. Das war mit Info_R offenbar noch nicht praktikabel.

aufkrawall
2023-07-17, 22:22:03
Genau. Und wenn man mehr verlangen möchte sollte man Mehrwert bieten... das könnte FSR3 sein... was aber dann bedeuten würde dass dieses dann nicht auf RDNA2 laufen würde sondern nur ab RDNA3...
Kann auch sein, dass ROCm für Windows nur für RDNA3 kommt.
Bei AMD gibt es schnell mal eine unschöne Fragmentierung im Treiber von neuer vs. alter Hardware. Das war etwa bei der RX 5700 XT so, die ohne inoffiziellen Reg-Tweak immer noch mit dem alten (ziemlich schlechten) D3D11-Treiber rumgurkt.
RDNA3 Vulkan hat auch nur noch den Open Shader-Compiler, da wird der alte proprietäre auch nicht mehr unendlich Liebe erhalten. Usw...

w0mbat
2023-07-18, 15:37:43
Welches vertical stacking ist denn kein 3D?
3D = aktiver Chip auf aktivem Chip
2.5D = aktiver Chip auf passivem Chip (z.B. ein nakter interposer)

horn 12
2023-07-18, 17:38:27
https://videocardz.com/newz/amd-reportedly-working-on-radeon-rx-7900-gre-with-16gb-gddr6-memory-and-cut-down-navi-31-gpu

RX 7900 Karte
ausschließlich (mal vorab) für China

vinacis_vivids
2023-07-18, 18:00:00
Hä: 80-84CU? Dächte es ist eine N31-70CU Version. Die Ausbeute dürfte hervorragend sein, wenn doch 80-84CU kämen.

HOT
2023-07-18, 18:52:41
Ist sehr sicher ne 7900 mit dem N32-Package. Statt die 7800XT jetzt global zu bringen, gibts erst mal das Ding als Zwischenspiel für China allein. Aber damit sollte das Lineup relativ klar sein:

7900XTX -> 96CUs 24GB
7900XT -> 84CIs 20GB
7900 -> 80-84CUs 16GB N32-Package (wahrscheinlich deutlich <300W)
7800XT -> 70CUs 16GB N32-Package (wird mMn bis zum 7950-Refresh verschoben)

Complicated
2023-07-18, 19:35:27
3D = aktiver Chip auf aktivem Chip
2.5D = aktiver Chip auf passivem Chip (z.B. ein nakter interposer)Nein.
3D = Chip auf dem anderen Chip (vertical stacking) - siehe HBM-Stacks oder Ryzen 3D-Cache.
2.5D = Chip neben dem Chip auf Interconnect (EMIB/Interposer/Substrat/MCD) aktiver oder auch passiver Interposer. Siehe Vega, Ryzen, Epic, RDNA3

horn 12
2023-07-18, 19:46:19
@Hot

Wann erwartest Du den RDNA3 Refresh, also RDNA 3.5
Oktober bis November 23

HOT
2023-07-18, 20:09:46
@Hot

Wann erwartest Du den RDNA3 Refresh, also RDNA 3.5
Oktober bis November 23
Nein, das wird nur mehr Takt und W wie bei der 6950 mMn, ich halte eine 7950XTX mit 450W und ebenfalls dem neuen 12V-2×6-Stecker für wahrscheinlich. Ich schätz mal auch erst dann, wenn NV einen Refresh planen könnte und das wäre irgendwann um April herum schätz ich mal. Bis dahin müsste auch GDDR6W (Samsung) und GDDR7 (Micron) verfügbar sein, die 32Gbit-Module dürften einige 16GB Mainstreamkarten erleichtern.

w0mbat
2023-07-18, 23:42:42
Nein.
3D = Chip auf dem anderen Chip (vertical stacking) - siehe HBM-Stacks oder Ryzen 3D-Cache.
2.5D = Chip neben dem Chip auf Interconnect (EMIB/Interposer/Substrat/MCD) aktiver oder auch passiver Interposer. Siehe Vega, Ryzen, Epic, RDNA3
Seltsam. Du schreibst "Nein.", bestätigst dann aber genau was ich geschrieben habe.

HBM-Stacks selber sind zwar 3D, da aktiver Chip auf aktiven Chip (via TSVs), aber werden nicht wirklich so genannt. SoC + HBM auf einem interposer ist 2.5D, da der interposer passiv ist. Wenn der interposer aktiv wäre (z.B. cache oder logic enthält), wäre es wiederum 3D.

Complicated
2023-07-19, 06:37:20
Der Unterschied ist, daß 2.5 nicht mit passiven Interconnects definiert ist. Du hattest auch EMIB mit vertical stacking gleichgesetzt. 3D=vertikal.

Aktive Interposer sind ebenfalls 2.5.

w0mbat
2023-07-19, 10:12:49
2.5D ist mWn dadurch definiert, dass es vertikales stacking mit passiven Komponenten ist. Und ich hab EMIB nicht mit vertical stacking gleichgesetzt sondern geschrieben, dass TSMCs LSI ähnlich wie EMIB funktioniert (nur eben in einem RDL anstatt im substrate).

Complicated
2023-07-20, 09:34:37
2.5D ist mWn dadurch definiert, dass es vertikales stacking mit passiven Komponenten ist. 2.5D wird nicht durch passive/aktive Komponenten definiert, sondern dadurch ob Logic Chips (Speicher/CPU/GPU/APU) aufeinander gestapelt sind - vertical stacking (3D) oder nebeneinander mit einem Interconnect/Interposer (2.5D) verbunden sind.

Ich hatte das dann hier wohl anders interpretiert mit EMIB:
Vertical stacking muss nicht gleich 3D stacking sein. EMIB ist eigentlich ziemlich interessant, ....Das klang als würdest du EMIB dem Satz zuvor zuordnen als 3D Beispiel.

Leonidas
2023-07-20, 16:27:52
Vergleichende Performance-Werte zu Radeon RX 7700 & 7800 aufgetaucht
https://www.3dcenter.org/news/geruechtekueche-vergleichende-performance-werte-zu-radeon-rx-7700-7800-aufgetaucht
https://www.3dcenter.org/dateien/abbildungen/AMD-Navi-32-Performance-Leak.png

RitterRost
2023-07-20, 22:26:55
...wenn es für die 7800 nicht mal für RX6800XT Performance reicht...
Wozu bringen sie dann diese Karten?

HOT
2023-07-20, 22:40:21
Billiger zu produzieren mittelfristig.

reaperrr
2023-07-21, 01:22:27
Billiger zu produzieren mittelfristig.
Wahrscheinlich auch kurzfristig.
N6 (MCDs) ist etwas günstiger als N7, die Ausbeute sollte auch verdammt gut sein bei den kleinen MCDs.
200mm² in N5 kosten vmtl. ca. so viel wie ~300mm² in N7, unterm Strich sollte N32 zwar teurer als N22, aber günstiger als N21 zu produzieren sein.

Meine grobe Milchmädchenrechnung sagt, dass N32 (mit 4 MCDs) in der Produktion ca. so viel wie ein 420-450mm² N7-Chip kosten dürfte, der Salvage 3MCD/192bit/12GB Part dürfte näher an N22 liegen.


N21 hatte man entweder noch sehr viel auf Lager, oder man wollte so lange wie möglich die höhere Marge für die 6900 XT und 6950 XT mitnehmen.
Es ist halt nicht so schlimm, wenn der alte Chip vielleicht ~20-30$ teurer zu produzieren ist, solange man für die schnellsten Karten dafür 100-200$ höhere Preise nehmen konnte, als das für den schnellsten N32 möglich gewesen wäre.

...wenn es für die 7800 nicht mal für RX6800XT Performance reicht...
Wozu bringen sie dann diese Karten?
Mal abgesehen davon, dass es eher nach knapp Gleichstand aussieht:

In erster Linie ersetzt man mit N32 die 6800-non-XT und 6700XT/6750XT.
In Sachen Perf/W und generell RT ist RDNA3 ja schon besser, nur nicht markant.

Trotzdem ist es auch für die Planung und Logistik Mist, immer neue 7nm-Wafer mit N21 und N22 nachzuordern, auch schwächeres RT und fehlende VOPD-Unterstützung der RDNA2-Chips können auf Sicht zum Problem werden.

Unterm Strich ist es einfach besser, den neuen Chip dann auch zu bringen, selbst wenn er nicht wesentlich besser als die Chips ist, die er ersetzt.

amdfanuwe
2023-07-21, 02:55:24
Mal zur Erinnerung: letztes Jahr gab es Chipengpässe. Nicht wegen mangelnder Chips sondern wegen fehlendem Trägermaterial.
Chips werden erst mal auf Halde produziert, schließlich sollen die Belichter optimal ausgenutzt werden.
AMD hat die letzten 3 Quartale jeweils weniger Chips in den Channel abgegeben weil der voll war.
AMD wollte ja auch die Liefermenge bei TSMC kürzen.
Der drastische Einbruch nach Corona war nicht absehbar.
Ich denke daher, AMD hat erstmal den Bestand abverkauft bzw. die Verträge mit TSMC erfüllt hat.
Da switcht man nicht einfach um. Letztendlich geht es um Gewinnmaximierung.

dildo4u
2023-07-21, 08:03:19
Der wichtigste AMD Chip aus der PS5 wurde doch schon auf 6nm umgestellt, da es keine 6nm Version von Navi 21 gibt kann doch irgendwann nicht nachproduziert werden.
TSMC will mit Sicherheit alle 7nm Fertigung auf 6nm umstellen.(6nm für Mainstream, 5/3nm für High-End Chips)

Leonidas
2023-07-21, 08:45:28
Die ursprüngliche Planung von AMD war sicherlich kaum, dass es so wenig Differenz in den Herstellungskosten gibt. Da hat man sicherlich mit mehr Performance, möglichen höheren Abgabepreise und damit einer besseren Wirtschaftlichkeit gerechnet.

Nun nachdem alle Vorabeiten bereits getan sind, sägt man das ganze dann aber auch nicht wieder ab, nur weil es aus wirtschaftlicher Sicht nicht ganz so gut rauskommt. Ein neues Produkt wird sowieso benötigt, alle Anlaufkosten wurden bereits gestemmt - dafür reicht dann sogar ein wirtschaftlicher Gleichstand für ein grünes Licht.

Die Alternative wäre, mit Radeon RX 6700 XT, 6750 XT, 6800 & 6850 XT bis ins Jahr 2024 durchhalten zu müssen. Arg unwahrscheinlich. Das passt schon deswegen nicht, weil man sich irgendwann auf das konkrete Feature-Set von RDNA3 konzentrieren und alles ältere links liegen lassen will.

basix
2023-07-21, 09:19:23
Was mich etwas irritiert ist der Fakt, dass N32 verglichen mit der 6700XT so schlecht abschneidet. Mit 48 CU (+20%) gerade mal +5% schneller? Scheint mir etwas suspekt zu sein.

Soweit ich das interpretiere, sind diese "Leistungswerte" einfach eine lineare Interpolation anhand der 84 CU der 7900XT. Ergo sind diese "Daten" völlig nutzlos.

48 / 84 * 136 = 78
54 / 84 * 136 = 87
60 / 84 * 136 = 97
70 / 84 * 136 = 113

AMDs Ziel muss es sein, dass dei 7700 sich mit der 4070 prügelt. Ausgehend von der 6700 XT ist das nicht völlig unrealistisch. Und die 7800 muss die 4070 um 5-10% schlagen. Dann sieht es gut aus für AMD.

dildo4u
2023-07-21, 10:00:03
Eine 6800 ist doch nicht 5% schneller als 6700xt alle Leaks deuten auf das Level hin.

PCGH hat + 20% also weit über 4060 TI mit 16Gb.

https://www.pcgameshardware.de/Grafikkarten-Grafikkarte-97980/Specials/Rangliste-GPU-Grafikchip-Benchmark-1174201/

Nvidia hat ein massive Lücke im Portfolio die man Ausnutzen kann.

TheAntitheist
2023-07-21, 10:25:05
Eine 6800 ist doch nicht 5% schneller als 6700xt alle Leaks deuten auf das Level hin.

PCGH hat + 20% also weit über 4060 TI mit 16Gb.

https://www.pcgameshardware.de/Grafikkarten-Grafikkarte-97980/Specials/Rangliste-GPU-Grafikchip-Benchmark-1174201/

Nvidia hat ein massive Lücke im Portfolio die man Ausnutzen kann.
die 4070 kostet 599, die 7800 wird wohl 549 kosten, dafür hat die 4070 auch mehr performance, deutlich mehr features und 4GB weniger RAM. Dafür das Nvidia sowieso immer etwas mehr nehmen darf, ist da eigentlich gar keine Lücke die AMD ausnutzen kann. Dafür müsste der Preis weit unter 500 fallen, eher Richtung 450. Ja dann wär da eine Lücke

RitterRost
2023-07-21, 10:33:09
Dass AMD (oder TSMC) von der 7nm-Fertigung weg will - klingt nachvollziehbar.
Ich hätte vermutet, dass AMD die Packaging-Kapazitäten lieber anders belegt, als mit einem lahmen N32...

Ich bin jedenfalls auf die Tests gespannt.
Da wird dann sicher auch die Frage bearbeitet, welche Vorteile die 7800 gegenüber einer 6800 hat.

HOT
2023-07-21, 10:36:15
Mal die reale TBP abwarten. Wenn das Ding erheblich weniger TBP hat würde das einiges erklären.
Ich bin ja immer noch etwas skeptisch, was die 10WGP pro SE angeht, das dürfte nicht grade super effizient sein. MMn wird die 48CU-Variante besser bei Perf/W.

RitterRost
TSMC selbst wird immer mehr N7-Fertigung in N6 und N4-Fertigung verwandeln mit der Zeit, also Fabrikumbau. AMD dürfte noch mal richtig billig zugeschlagen haben Ende letzten Jahres, weil TSMC ja plötzlich hier Überkapazitäten hatte aufgrund von Stornierungen anderer Companies, was N7-Kapazität angeht, und das geht jetzt zuende. Also ist man mMn viel mehr auf N5/6 angewiesen.

dildo4u
2023-07-21, 10:38:12
die 4070 kostet 599, die 7800 wird wohl 549 kosten, dafür hat die 4070 auch mehr performance, deutlich mehr features und 4GB weniger RAM. Dafür das Nvidia sowieso immer etwas mehr nehmen darf, ist da eigentlich gar keine Lücke die AMD ausnutzen kann. Dafür müsste der Preis weit unter 500 fallen, eher Richtung 450. Ja dann wär da eine Lücke
Ich habe von der 7700 geredet daher 6800 als Maßstab, die 7800 soll auf der 6800XT landen.

Eine 7700 wäre 15% schneller als 4060 TI mit 12GB für 450€?
4060 TI mit 16GB liegen bei über 500€, 16GB sind nice aber imo nicht nötig in der Klasse mit 12Gb kann man PS5 Settings nutzen ohne Kompromisse.

TheAntitheist
2023-07-21, 17:30:59
Ich habe von der 7700 geredet daher 6800 als Maßstab, die 7800 soll auf der 6800XT landen.

Eine 7700 wäre 15% schneller als 4060 TI mit 12GB für 450€?
4060 TI mit 16GB liegen bei über 500€, 16GB sind nice aber imo nicht nötig in der Klasse mit 12Gb kann man PS5 Settings nutzen ohne Kompromisse.
Nein du hast weder 7700 noch 7800 erwähnt... du hast nur von der 6800 gesprochen. Und welche Lücke AMD ausnutzen soll mit einem 2 Jahre alten Produkt kann hier wohl niemand beantworten. Entweder existierte die angebliche Lücke bereits ewigkeiten, oder niemand findet das dort eine existiert.

auch für 450€ wäre das Produkt nicht wirklich überzeugend. alles über 399 wird sich nicht durchsetzen. Lass sie 15% schneller sein als eine 4060ti, die wird im Preis auch bis auf 50€ rankommen, dann hast du aber immernoch den DLSS 2+3+Cuda+rtx voice etc. vorteil.
da denkt doch niemand über einen Wechsel nach.
Im letzten Quartal hat AMD wieviele GPUs verkauft? 780k. Nvidia war da bei ca. 6 Mio. Also AMD setzt hier niemanden unter Druck, LEIDER

vinacis_vivids
2023-07-21, 17:46:11
Es ist zurzeit der beste Zeitpunkt GPUs zu kaufen, weil die Preise unten sind. Preissenkung ist eine sehr gute Sache und sollte prinzipiell zum Kauf genutzt werden.

dildo4u
2023-07-21, 17:47:15
Nein du hast weder 7700 noch 7800 erwähnt... du hast nur von der 6800 gesprochen. Und welche Lücke AMD ausnutzen soll mit einem 2 Jahre alten Produkt kann hier wohl niemand beantworten. Entweder existierte die angebliche Lücke bereits ewigkeiten, oder niemand findet das dort eine existiert.

auch für 450€ wäre das Produkt nicht wirklich überzeugend. alles über 399 wird sich nicht durchsetzen. Lass sie 15% schneller sein als eine 4060ti, die wird im Preis auch bis auf 50€ rankommen, dann hast du aber immernoch den DLSS 2+3+Cuda+rtx voice etc. vorteil.
da denkt doch niemand über einen Wechsel nach.
Im letzten Quartal hat AMD wieviele GPUs verkauft? 780k. Nvidia war da bei ca. 6 Mio. Also AMD setzt hier niemanden unter Druck, LEIDER


AMD Preise halten eh nicht daher ist es Banane was sie aufrufen, 7600 sollte z.b 300€ kosten was sofort unterboten wurde.

https://www.mindfactory.de/product_info.php/8GB-MSI-Radeon-RX-7600-MECH-2x-Classic-OC-Aktiv-PCIe-4-0-x16--x8-Retail_1493068.html


400€ sind realistisch für 7700 nach dem Launch, die 6800 wurde nicht billiger da sie mit 16GB kam.

HOT
2023-07-21, 18:34:36
Ich nehme an $450 launch und rutscht recht schnell auf $400 runter. Die 7800 genauso, dürfte 550 launchen und recht fix auf 500 fallen.

BlacKi
2023-07-21, 20:09:08
ob wirklich die 7700(N32) und die 7800xt(N31) beide mit 16gb kommen? würde mich nicht wundern, das man nur 192bit und 12gb bei N32 bietet, wenn man 256bit und 16gb für den n31 sich vorbehält.

davidzo
2023-07-21, 20:16:47
ob wirklich die 7700(N32) und die 7800xt(N31) beide mit 16gb kommen? würde mich nicht wundern, das man nur 192bit und 12gb bei N32 bietet, wenn man 256bit und 16gb für den n31 sich vorbehält.

12gb für die 7700 gilt doch schon als gesichert.

HOT
2023-07-21, 20:34:09
ob wirklich die 7700(N32) und die 7800xt(N31) beide mit 16gb kommen? würde mich nicht wundern, das man nur 192bit und 12gb bei N32 bietet, wenn man 256bit und 16gb für den n31 sich vorbehält.
7800 werden 16GB werden, 7700 12GB. Ansonsten hätte man N32 gar nicht so designt. Passt ja auch zu den Leistungsdaten, unter 6800-Leistung nur 12GB, über 6800-Leistung 16GB.

BlacKi
2023-07-21, 20:34:37
12gb für die 7700 gilt doch schon als gesichert.ty

vinacis_vivids
2023-07-21, 21:35:16
_D4xkdtHn1U

MONSTER-APU :eek:
https://abload.de/img/amdsarlackoof12.png

amdfanuwe
2023-07-21, 22:21:44
Frage:
Was unterscheidet die CDNA Shader von den RDNA Shadern?
Ich meine, könnte AMD die CDNA Chiplets von MI300 auch für RDNA verwenden und den zusätzlich nötigen Kram in einem I/O Die unterbringen?

Nightspider
2023-07-21, 22:40:43
Bei den CDNA Chiplets dürfte ziemlich viel fehlen, was für Grafikrendering benötigt wird. Beispielsweise alles was mit Texturen zu tun hat.

Und das kann man nicht nachrüsten dem einem angepassten IO Chip.

mczak
2023-07-22, 02:29:22
Bei den CDNA Chiplets dürfte ziemlich viel fehlen, was für Grafikrendering benötigt wird. Beispielsweise alles was mit Texturen zu tun hat.


Und das kann man nicht nachrüsten dem einem angepassten IO Chip.
Textureinheiten braucht man auch für Compute, die sollten dabei sein (bin aber nicht sicher ob deren Fähigkeiten abgespeckt sind).
Unter anderem Rasterizer, ROPs, Tesselator fehlen aber bei CDNA - diese Dinge sind nicht umsonst sonst Teil der Shader Engines und die separat auf einem IO Chip zu haben würde tatsächlich nicht funktionieren (jedenfalls nicht vernünftig).

dildo4u
2023-07-22, 05:27:23
Die Desktop 7600 scheint extrem ineffizient, die 7700S soll praktisch die selbe Performance@ 100 Watt haben.

https://youtu.be/Zy5MWFrb0Y8?t=60

+10% Leistung 60% mehr Verbrauch?

https://benchmarks.ul.com/hardware/gpu/AMD%20Radeon%20RX%207600+review

Muss sagen das sieht im Notebook wesentlich Konkurrenzfähiger aus.

reaperrr
2023-07-22, 07:55:11
Frage:
Was unterscheidet die CDNA Shader von den RDNA Shadern?
Ich meine, könnte AMD die CDNA Chiplets von MI300 auch für RDNA verwenden und den zusätzlich nötigen Kram in einem I/O Die unterbringen?
Neben dem, was von den anderen schon erwähnt wurde, handelt es sich bei CDNA effektiv um eine rein Compute-orientierte Weiterentwicklung von GCN, und GCN war je ALU ne ganze Ecke langsamer als RDNA in Spielen.
Bringt also nichts, groß drüber nachzudenken.

Die Desktop 7600 scheint extrem ineffizient, die 7700S soll praktisch die selbe Performance@ 100 Watt haben.

https://youtu.be/Zy5MWFrb0Y8?t=60

+10% Leistung 60% mehr Verbrauch?

https://benchmarks.ul.com/hardware/gpu/AMD%20Radeon%20RX%207600+review

Muss sagen das sieht im Notebook wesentlich Konkurrenzfähiger aus.
Es kommt vermutlich nicht von ungefähr, dass TSMC für N6 vs. N7 zwar bis zu 17% mehr Effizienz bei gleichem Takt, aber keine Performance-Steigerungen bei gleichem Verbrauch angibt.

Ich vermute, dass bei der 7600 zwei Faktoren zusammenkommen, einmal, dass RDNA3 selbst ab ~2,5 GHz extem zu saufen anfängt, und zum anderen, dass auch N6 eher auf mehr Effizienz in mittleren und niedrigeren Taktbereichen ausgelegt ist, und kein primär auf bessere Performance = höhere Taktraten ausgelegter Prozess.
Dadurch musste AMD bei der 7600 weit über den Sweet Spot, um wenigstens die 6600 XT zu schlagen (für die 6650XT reicht es ja sogar öfter nicht ganz).

Leonidas
2023-07-22, 08:19:24
https://youtu.be/_D4xkdtHn1U
MONSTER-APU :eek:

Entspricht prinzipiell dem hier (vom April):
https://www.3dcenter.org/news/geruechtekueche-hardware-spezifikationen-zu-den-zen-5-apus-strix-point-und-strix-halo

HOT
2023-07-22, 09:12:34
Strix Halo wird der Codename für das Projekt sein, Sarlak der für das Produkt.

robbitop
2023-07-22, 10:46:26
https://youtu.be/_D4xkdtHn1U

MONSTER-APU :eek:
https://abload.de/img/amdsarlackoof12.png
Leider partiell sinnlos da zu durstig für Handhelds. Da wird Strix Point dann einzusetzen sein. Nur 16 CUs und kein IF$.

robbitop
2023-07-22, 12:47:33
Frage:
Was unterscheidet die CDNA Shader von den RDNA Shadern?
Ich meine, könnte AMD die CDNA Chiplets von MI300 auch für RDNA verwenden und den zusätzlich nötigen Kram in einem I/O Die unterbringen?

CDNA basiert mWn auf GCN. GCN war für compute pro CU ja nie schlecht. Und die CUs waren billiger. Bei Spieleshadern scheint es schwieriger zu sein ordentlich Leistung pro FLOP zu extrahieren als bei den typischen Computeaufgaben.

Complicated
2023-07-22, 13:27:20
CDNA ist ein RDNA-Derivat und basiert ebenso wenig oder viel auf GCN, wie RDNA. Ich würde beides als Next Gen nach GCN sehen.
Details: https://forum.planet3dnow.de/index.php?threads/cdna-whitepaper-unterschiede-zu-rdna.438448/
Gemeinsamkeiten gibt es, die allerdings eben Compute optimiert sind:
Mit Bezug auf die grundlegende Auslegung fällt auf, dass man bei RDNA mit der 32 Wavefront bei dem hoch dynamischen Gaming Code auf die Skalierungsprobleme mit grosser Anzahl Compute-Units reagiert hat. Bei CDNA bleibt es beim GCN bzw. Vega Ansatz, da man sich hier bei gleichbleibenden Algorithmen für die "Shader"-Auslasung durch die 64 Wavefront wohl eine höhere Effizienz erhofft.

reaperrr
2023-07-22, 15:10:19
CDNA ist ein RDNA-Derivat
Falsch.

Zitat aus deinem eigenen Link:

Während bei RDNA auf die Entwicklung einer Dual-Compute Unit gesetzt wurde, bei der sich die zusammengefassten Units den L1 Cache teilen und davon profitieren, hat man bei CDNA die GCN Compute Unit um die Grafik-Typischen Elemente erleichtert und dafür in den Rechenwerken zusätzliche Instruktionen implementiert. Neu spricht man hier deshalb von der Enhanced Compute Unit.

Natürlich hat sich CDNA seit CDNA1 weiterentwickelt und immer weniger mit GCN gemein, aber im Kern sind die CDNA1-CUs GCN-CUs (u.a. 4x SIMD16 statt der 2x SIMD32 bei RDNA1+2), die um z.B. die TMUs erleichtert wurden. Auch das Frontend von CDNA1 war weitgehend ein um Grafik-spezifische Elemente erleichtertes Vega-Frontend.


Was man durchgehen lassen könnte wäre zu sagen, dass CDNA und RDNA beide streng genommen GCN-Derivate sind, die in unterschiedliche, auf den jeweiligen Bereich zugeschnittene Richtungen weiterentwickelt wurden. Aber CDNA ist definitiv kein RDNA-Derivat. Was nicht heißt, dass nicht auch mal Erkenntnisse aus dem einen Bereich in die Entwicklung des anderen einfließen, aber der Ausgangspunkt ist sowohl bei RDNA als auch CDNA GCN.

fondness
2023-07-22, 15:15:57
Leider partiell sinnlos da zu durstig für Handhelds. Da wird Strix Point dann einzusetzen sein. Nur 16 CUs und kein IF$.

Dafür für Notebooks, Mini-PCs etc sehr interessant. Und natürlich x-fach effizienter wie jede dezidierte CPU/GPU-Kombi.

robbitop
2023-07-22, 20:15:57
Ich hoffe, dass auch die lowTDP APUs mal IF$ bekommen. Das beingt etwas performance (weil immer etwas bandbreitenlimitiert) und spart Energie (lokale Datentransfers kosten weniger Energie als aus dem Chip heraus im RAM)

fondness
2023-07-22, 21:32:26
Ich hoffe, dass auch die lowTDP APUs mal IF$ bekommen. Das beingt etwas performance (weil immer etwas bandbreitenlimitiert) und spart Energie (lokale Datentransfers kosten weniger Energie als aus dem Chip heraus im RAM)

Rentiert sich offenbar nicht. Denke auch nicht, dass die kleinen Dinger besonders Bandbreitenlimitiert sind. Und wieviel Energie das spart ist auch höchst ungewiss, die X3D-CPUs profitieren vor allem von den niedrigen Taktraten.

robbitop
2023-07-22, 22:00:15
CPUs haben aber auch einen ganz anderen Bandbreitenbedarf als GPUs. Und Energie bezahlst du pro Bit.

Ob es sich rentiert hängt vom Wettbewerb ab. Wenn Intel große Adamantine Caches verbauen wird und dadurch Vorteile erzilen wird, gibt es ggf Handlungsdruck.

mksn7
2023-07-23, 07:54:17
Natürlich hat sich CDNA seit CDNA1 weiterentwickelt und immer weniger mit GCN gemein, aber im Kern sind die CDNA1-CUs GCN-CUs (u.a. 4x SIMD16 statt der 2x SIMD32 bei RDNA1+2), die um z.B. die TMUs erleichtert wurden. Auch das Frontend von CDNA1 war weitgehend ein um Grafik-spezifische Elemente erleichtertes Vega-Frontend.

[...] Aber CDNA ist definitiv kein RDNA-Derivat.


Genau! CDNA und RDNA sind völlig unterschiedliche Entwicklungen.

Ich würde aber sogar noch weiter gehen, und sagen dass sich bei CDNA2 nicht viel verändert hat ggb. GCN. Die einzige große Änderung sind matrix cores und 1:1 rate FP64. Für viele Details, wie z.B. der L1 cache der MI210 funktioniert, kann ich immer noch Doku über die PS4 von 2013 lesen.

Damals war GCN für compute sicher eine tolle Sache, aber 10 Jahre später ist es doch sehr veraltet im Vergleich zu dem was NVIDIA heute bietet.

fondness
2023-07-23, 09:49:02
Ob es sich rentiert hängt vom Wettbewerb ab.

Das sehe ich nicht so, es ist eine einfache Kosten/Nutzenrechnung. Mehr Die-Size ist teuer, wenn ich das mehr an Bandbreite nicht benötige und sich die Einsparung der TDP in engen Grenzen hält wird man es nicht machen. Da kann man ggf über andere Maßnahmen mehr erzielen.

Wenn Intel große Adamantine Caches verbauen wird und dadurch Vorteile erzilen wird, gibt es ggf Handlungsdruck.

Solange Intel mit der Perf/Watt im nirgendwo ist wohl kaum.

robbitop
2023-07-23, 10:08:14
Richtig Intel muss dazu dann auch mit der Performance und perf/W den entsprechenden Druck erzeugen können.

Die size sollte dank 3D stacking auf den Cache nicht steigen. (siehe adamantine)

Complicated
2023-07-23, 13:37:48
Falsch.

Zitat aus deinem eigenen Link:

Bitte das ganze Zitat -damit ist es richtig was ich formuliert habe, dass es keine GCN-Architektur ist:hat man bei CDNA die GCN Compute Unit um die Grafik-Typischen Elemente erleichtert und dafür in den Rechenwerken zusätzliche Instruktionen implementiert. Neu spricht man hier deshalb von der Enhanced Compute Unit.
RDNA und CDNA habe sich parallel als jeweilige Forks als neue Architektur aufgestellt. Das eine ist nicht mehr oder weniger Nachfolger von GCN, da lediglich die relevanten IP-Blöcke, für den Zielmarkt weiter entwickelt, ein Teil der neuen Architektur wurden.

Wer sagt CDNA ist die Weiterentwicklung von GCN und RDNA was völlig neues, der liegt falsch. Die Trennung Compute (CDNA) und Grafik (RDNA) hat beiden Forks eine neue spezialisierte Architektur ermöglicht, ohne Platz und Transistoren für den jeweiligen anderen Use Case vorzuhalten.

robbitop
2023-07-23, 13:46:01
Mksn7 hat aber offenbar Indizien gefunden, dass CDNA sehr nah an GCN ist (viel näher als RDNA).

reaperrr
2023-07-23, 14:34:06
Bitte das ganze Zitat -damit ist es richtig was ich formuliert habe, dass es keine GCN-Architektur ist:
RDNA und CDNA habe sich parallel als jeweilige Forks als neue Architektur aufgestellt. Das eine ist nicht mehr oder weniger Nachfolger von GCN, da lediglich die relevanten IP-Blöcke, für den Zielmarkt weiter entwickelt, ein Teil der neuen Architektur wurden.
Bitte meine Aussagen nicht verdrehen bzw. richtig lesen.
Ich habe nicht gesagt, dass CDNA == GCN ist, sondern dass GCN die Grundlage ist, auf der man CDNA entwickelt hat, und CDNA halt nicht auf Grundlage von RDNA basiert (was du selbst mehr oder weniger später auch schreibst, nur: damit widersprichst du deiner eigenen ursprünglichen Aussage "CDNA ist ein RDNA-Derivat").
Und dass viele IP-Blöcke von CDNA1 nicht viel mehr sind als GCN minus einiger Grafikspezifischer Elemente, plus einiger Compute-spezifischer Elemente, ist Fakt.


Wer sagt CDNA ist die Weiterentwicklung von GCN und RDNA was völlig neues, der liegt falsch. Die Trennung Compute (CDNA) und Grafik (RDNA) hat beiden Forks eine neue spezialisierte Architektur ermöglicht, ohne Platz und Transistoren für den jeweiligen anderen Use Case vorzuhalten.
Dieser Teil deiner Aussage stimmt zu gewissem Grad, nur legst du mir auch hier etwas in den Mund, was ich überhaupt nicht gesagt habe, denn ich habe nie behauptet, dass RDNA keine Weiterentwicklung von GCN wäre.
So etwas wie komplett von Grund auf neue Architekturen GIBT es heutzutage eh nicht mehr, weil das viel zu komplex und riskant wäre. Es werden IMMER nur einzelne IP-Blöcke weiterentwickelt, manche mehr, manche weniger.
BEIDE Architekturen haben in ihrer ersten Iteration noch eine Menge Gemeinsamkeiten mit GCN. RDNA1 hat aber im Gegensatz zu CDNA1 zumindest komplett neue ALU-SIMDs, das WGP-Prinzip, Wave32-Unterstützung, und eine stärkere Frontend-Überarbeitung bekommen. Die ROPs und das ganze ShaderEngine-Prinzip sind von GCN übernommen, die ROPs wurden erst mit RDNA2 ausgetauscht (wohl ein Grund für die gestiegene Effizienz und Taktbarkeit, das alte ROP-Design war wohl einfach sch...)

NUR: Alles was du da schreibst, hat im Grunde überhaupt nichts mit dem zu tun, was ich geschrieben habe.

Deine ursprüngliche Aussage war: "CDNA ist ein RDNA-Derivat". Diese Aussage ist nachweislich zu 100% falsch. CDNA basiert in keinerlei Hinsicht auf RDNA, und zu großen Teilen auf GCN5. Das ist anhand von Whitepapers nachweisbarer Fakt, und um nichts anderes ging es mir in meinem vorherigen Post. Punkt.

Complicated
2023-07-23, 16:16:17
Bitte meine Aussagen nicht verdrehen bzw. richtig lesen.
Ich habe nicht gesagt, dass CDNA == GCN ist, sondern dass GCN die Grundlage ist, auf der man CDNA entwickelt hat, und CDNA halt nicht auf Grundlage von RDNA basiert
Daher der selbe Hinweise von mir - ich hatte darauf geantwortet, dass robbitop GCN->CDNA behauptet hat und RDNA als neue Architektur im Gegensatz dazu. Ich habe das differenziert und daher ist dein "Falsch" auf meine Ausführungen eben nicht korrekt. Meines auf seine jedoch schon.

NUR: Alles was du da schreibst, hat im Grunde überhaupt nichts mit dem zu tun, was ich geschrieben habe.
Korrekt, weil es um etwas anderes ging.

robbitop
2023-07-23, 16:28:36
Ich hab geschrieben dass es auf GCN basiert. Und du hast bon einem RDNA Derivat geschrieben…

Complicated
2023-07-23, 22:05:05
Ja. CDNA basiert jedoch nicht mehr auf GCN als RDNA. CDNA und RDNA sind beides neue Architekturen. Jeweils allerdings abgewandelt. Daher Derivate voneinander - sozusagen die Begründung der DNA-Serien mit einem Fork. Die jeweils das benötigte von GCN weiter entwickelt haben und das unnötige für den jeweiligen Spezialfall weg gelassen haben. Also eine Unterscheidung, wie du sie vorgenommen hast: GCN->CDNA und RDNA=Neu ist daher falsch.

robbitop
2023-07-24, 07:04:51
Laut mksn7 ist CDNA zumindest viel viel näher an GCN dran. Ich würde sagen das basiert damit schon deutlich mehr auf GCN. Bei RDNA wurde sogar die ISA verändert, das Cachesystem, die pipelinestages.

Gipsel
2023-07-24, 09:37:41
Wenn man sich z.B. mal ansieht, wie eng verzahnt das Scheduling mit dem Aufbau der CUs bei GCN und CDNA funktioniert (und zwar praktisch identisch), dann ist die sehr enge Verwandschaft zwischen den beiden nicht abzustreiten. RDNA hat dies dagegen schon deutlich umgekrempelt, auch wenn natürlich auch dort Ähnlichkeiten zu finden sind (das sind aber eher Ähnlichkeiten des Arbeitsprinzips, keine identischen Übernahmen wie bei CDNA).

Complicated
2023-07-24, 09:53:04
CDNA hat neue "Enhanced Compute Units" - klar ist GCN der Vorgänger. Nur weil RDNA deutlich weniger dieser Compute-Leistung benötigt und dafür andere Features erhalten hat, sehe ich jetzt nicht dass das eine oder andere eine direkte Weiterführung ist und das andere nicht.
GCN hat den Compute-Schwerpunkt ja gesetzt. RDNA hat das wieder reduziert und CDNA weiter voran getrieben. GCN ist IMHO der Vorgänger für beide.

mksn7
2023-07-24, 10:37:31
CDNA hat neue "Enhanced Compute Units" - klar ist GCN der Vorgänger. Nur weil RDNA deutlich weniger dieser Compute-Leistung benötigt und dafür andere Features erhalten hat, sehe ich jetzt nicht dass das eine oder andere eine direkte Weiterführung ist und das andere nicht.
GCN hat den Compute-Schwerpunkt ja gesetzt. RDNA hat das wieder reduziert und CDNA weiter voran getrieben. GCN ist IMHO der Vorgänger für beide.

Doch. CDNA ist eine blanke Umbenennung, hätte auch GCN6 heißen können. RDNA ist eine Neuentwicklung.

vinacis_vivids
2023-07-24, 11:27:37
Die letzte einzelne uArch für Compute und Gaming (General Purpose=GPGPU) war Vega10/20 mit der maximalen Ausbaustufe:

Professional
MI60 - Vega20 Full
4096SP
64CU
fp32 1:2 fp16
4096bit SI
32GB VRAM
HMB2 ECC

Gaming / Compute / Consumer
Radeon VII - Vega20 Salvage
3840SP
60CU
fo32 1:2 fp16
16GB VRAM
HBM2 ECC

Nach dieser kurzen bzw. während dieser "Ära" ist RDNA (RDNA1=Navi10) fürs Gaming und CDNA (CDNA1=MI100) als getrennte Entwicklungszweige entstanden.

https://abload.de/thumb/gpu_fission1jd88.jpg (https://abload.de/image.php?img=gpu_fission1jd88.jpg)

Gaming und Compute werden seit dem unterschiedlich behandelt: Beim HPC will AMD an die Spitze (Leistung, Perf/Watt) und im Gaming gehts um den Preis (Perf/$, Preis).

Koduri mit seiner 4096SP Konfiguration für alles seit GCN war wohl der Hauptgründer dieser Entwicklung bis sich Su entschied die Abteilung zu teilen und sich von Koduri zu trennen.

Leonidas
2023-07-24, 12:17:30
AMD, Gamescom, "AMD Gaming Festival", 25. August 2023:
"besondere Ankündigung"
https://www.3dcenter.org/news/news-des-2223-juli-2023

Complicated
2023-07-24, 12:20:20
Doch. CDNA ist eine blanke Umbenennung, hätte auch GCN6 heißen können. RDNA ist eine Neuentwicklung.
Interessant und wie begründest du das?

Aus dem Link von P3D:Man sieht deutlich den gleichen Ursprung und erkennt folgende Unterschiede


Enhanced vs. Dual Compute Unit
CU ohne Texture Filter&Mapping vs. CU mit Texture Filter&Mapping (bzw. künftig RayAccelerator - RA)
10 Wave Controller 64er Wavefront vs. 20 Wave Controller 32er Wavefront
4 ACE, HWS und DMA vs. dergleichen mit Geometry Processor und Graphics Command Processor
Erweiterte Instruktionen (SFUx4) vs. Transcendental Instruktionen (Trans.Unit x8')
Matrix SIMD vs. "nur" std. SIMD
Scalar Register 3.2KB vs. 10KB
8MB L2 Cache in 32 Slices vs. 4MB L2 Cache in 4 Slices
Caches und Register mit ECC vs. ohne ECC
HBM Memory Controller vs. GDDR Memory Controller
XGMI Links für Infinity Fabric vs. nur PCIe4

Du kannst gerne deine Punkte ergänzen oder diese widerlegen

Gipsel
2023-07-24, 12:54:46
Doch. CDNA ist eine blanke Umbenennung, hätte auch GCN6 heißen können. RDNA ist eine Neuentwicklung.
Interessant und wie begründest du das?

Aus dem Link von P3D:Man sieht deutlich den gleichen Ursprung und erkennt folgende Unterschiede


Enhanced vs. Dual Compute Unit
CU ohne Texture Filter&Mapping vs. CU mit Texture Filter&Mapping (bzw. künftig RayAccelerator - RA)
10 Wave Controller 64er Wavefront vs. 20 Wave Controller 32er Wavefront
4 ACE, HWS und DMA vs. dergleichen mit Geometry Processor und Graphics Command Processor
Erweiterte Instruktionen (SFUx4) vs. Transcendental Instruktionen (Trans.Unit x8')
Matrix SIMD vs. "nur" std. SIMD
Scalar Register 3.2KB vs. 10KB
8MB L2 Cache in 32 Slices vs. 4MB L2 Cache in 4 Slices
Caches und Register mit ECC vs. ohne ECC
HBM Memory Controller vs. GDDR Memory Controller
XGMI Links für Infinity Fabric vs. nur PCIe4

Du kannst gerne deine Punkte ergänzen oder diese widerlegenDu zählst schön die Unterschiede zwischen den CUs bei RDNA und CDNA auf. Aber wie sieht es zwischen GCN und CDNA aus? Die Register wurden verdoppelt, eine Matrixeinheit angeflanscht und die Interpolationseinheiten aus den TMUs entfernt (und die Speicheradressierung in den L/S-Einheiten/TMUs kann entschlackt werden, weil man die Adressen nicht aus Texturkoordinaten berechnen können muß). Ansonsten kann man sogar die Originaldiagramme von der GCN-Präsentation im Jahre 2011 praktisch deckungsgleich auf die CDNA-Diagramme abbilden.

Edit:
Gerade mal ins CDNA1 ISA-Manual (https://www.amd.com/system/files/TechDocs/instinct-mi100-cdna1-shader-instruction-set-architecture%C2%A0.pdf) geschaut, die TMUs sind da sehr wohl noch komplett drin (kann bei bestimmten Compute-Problemen durchaus hilfreich sein), die wurden also mitnichten entfernt. Die ROPs wurden rausgekickt, das war es dann aber auch schon so ziemlich. Alle Details zur internen Funktionsweise die ich auf die Schnelle gecheckt habe, sind völlig identisch etwa zum Vega ISA Manual (z.B. die zu den Dependency Checks und welche nicht in Hardware gemacht werden und wie viele Wartetakte dann per Software eingefügt werden müssen).

basix
2023-07-24, 13:46:47
Interessanter Leserartikel auf CB, welcher dem Thema Stromverbrauch nachgeht:
https://www.computerbase.de/2023-07/aus-der-community-ein-umfassender-vergleich-von-rx-7900-xtx-und-rtx-4090/

Anhand der Daten und Ausführungen scheinen die ROPs dazu zu führen, dass der Stromverbauch ansteigt. Krasses Beispiel Affinity Pro: Mit ROP-Last landet man bei 2.2 GHz und 175W. Mit Vektor-Last landet man bei 3.0 GHz und 165W. Auch die weiteren Beispiele deuten in Richtung ROPs.

Gipsel
2023-07-24, 13:53:54
Interessanter Leserartikel auf CB, welcher dem Thema Stromverbrauch nachgeht:
https://www.computerbase.de/2023-07/aus-der-community-ein-umfassender-vergleich-von-rx-7900-xtx-und-rtx-4090/

Anhand der Daten und Ausführungen scheinen die ROPs dazu zu führen, dass der Stromverbauch ansteigt. Krasses Beispiel Affinity Pro: Mit ROP-Last landet man bei 2.2 GHz und 175W. Mit Vektor-Last landet man bei 3.0 GHz und 165W. Auch die weiteren Beispiele deuten in Richtung ROPs.ROP-Last bedeutet im Normalfall auch Last für die MCDs. Man müßte schon einen Benchmark speziell designen (das haben die dort nicht gemacht), damit er zwar die ROPs auslastet, dabei aber fast nur auf die GCD-internen Caches zugreift und nicht auf die Caches und Speichercontroller in den MCDs.
Kurz: Ich halte nicht unbedingt die ROPs selber für den Übeltäter.

Complicated
2023-07-24, 17:05:13
Du zählst schön die Unterschiede zwischen den CUs bei RDNA und CDNA auf. Aber wie sieht es zwischen GCN und CDNA aus?
Das ist ja alles richtig was du sagst.
Nur sind die Unterschiede GCN und RDNA wirklich größer als zwischen GCN und CDNA?
Die Aufzählung macht nicht den Eindruck.

Das ist übrigens nicht meine Aufzählung bei P3D, sondern lediglich die Einschätzung, die ich bisher als Grundlage genutzt hatte.

Gipsel
2023-07-24, 17:31:00
Das ist ja alles richtig was du sagst.
Nur sind die Unterschiede GCN und RDNA wirklich größer als zwischen GCN und CDNA?Beim internen Aufbau und der Funktionsweise der CUs? Ja, ganz klar! Und das macht eben die Hauptmerkmale bei der Zuordnung zu einer bestimmten Architektur aus.
Die Aufzählung macht nicht den Eindruck.Die Aufzählung sind hauptsächlich Dinge, die RDNA anders macht als GCN und CDNA. Die Unterschiedsliste zwischen GCN und CDNA ist dagegen sehr kurz (insbesondere, wenn man sich auf die Architektur der CUs konzentriert): Matrixeinheit und doppelte Menge an Vektorregistern. Das war's eigentlich schon (wie gesagt wurden noch nicht mal die TMUs gestrichen, Texturfilterung ist drin geblieben).

basix
2023-07-24, 17:40:52
ROP-Last bedeutet im Normalfall auch Last für die MCDs. Man müßte schon einen Benchmark speziell designen (das haben die dort nicht gemacht), damit er zwar die ROPs auslastet, dabei aber fast nur auf die GCD-internen Caches zugreift und nicht auf die Caches und Speichercontroller in den MCDs.
Kurz: Ich halte nicht unbedingt die ROPs selber für den Übeltäter.

Gut möglich, dass nicht nur ROPs entscheidend sind. Wer hat Lust, ein solches Programm zu schreiben? :)

Ich finde es primär interessant, weil es das erste Indiz mit Hand und Fuss ist, welches ein "Problem" wirklich nachvollziehbar aufzeigt. Nicht nur "da muss irgendwo ein Bug sein". Und da es nachvollziehbar ist, ergeben sich dadurch erste Indizien für Verbesserungsoptionen für RDNA3.5 und später RDNA4.
Dazu noch die Diskussion rund um die Problematik der Low Power States, was natürlich von etwas (nicht ganz wie gedacht funktionierendem?) im Chip ausgelöst werden kann.

Die Infinity Fanout Links scheinen bei 0.4pJ/bit (https://www.tomshardware.com/news/amd-rdna-3-gpu-architecture-deep-dive-the-ryzen-moment-for-gpus) zu liegen (0.2x von "organic package links"), was laut AMD bei "effective bandwidth of 3.5 TByte/s" gerademal 11.5W oder 5% des GPU-Verbrauchs ausmacht (peak = 5.3 TByte/s --> Typo?). Irgendwie scheinen mir die Infinity Fanout Links nicht das Problem zu sein und die Speichercontroller auf den MCDs sind "Standardware"

Edit:
Als Nachtrag: Die monolithischen RDNA3 Versionen in Form von N33 und APUs zeigen ähnliche Issues hinsichtlich Stromverbrauich. Ich glaube nicht, dass es an den MCDs liegt.

Leonidas
2023-07-25, 03:44:29
Nur sind die Unterschiede GCN und RDNA wirklich größer als zwischen GCN und CDNA?

Zur Güte:
Zum Ist-Zustand kann man diese Frage wirklich stellen. Aber in der Erstentwicklung war es noch recht eindeutig: CDNA1 ist viel näher an GCN als RDNA1. Letzteres war schon von Grund auf geändert, während CDNA1 noch die allermeisten Änderungen von CDNA2/3 nicht trug und wirklich nur nach einer Fortentwicklung von GCN aussah.

horn 12
2023-07-25, 06:52:02
Schauen was die 7900 GBE reist am 29-ten ist Release in China.

OgrEGT
2023-07-25, 07:04:57
Schauen was die 7900 GBE reist am 29-ten ist Release in China.
GRE=Golden Rabbit Edition :)

Laut videocardz soll die Karte bis zu 84CUs und 16GB Speicher haben... müsste also in der Nähe der 7900XT liegen...

dildo4u
2023-07-25, 07:17:55
Ist die Bandbreite nicht geringer wenn RAM Module fehlen?

Iscaran
2023-07-25, 08:27:15
Gut möglich, dass nicht nur ROPs entscheidend sind. Wer hat Lust, ein solches Programm zu schreiben? :)

Ich finde es primär interessant, weil es das erste Indiz mit Hand und Fuss ist, welches ein "Problem" wirklich nachvollziehbar aufzeigt. Nicht nur "da muss irgendwo ein Bug sein".

devPandi hat dazu auch ein paar Benchmarks gemacht die in die Richtung deuten.
https://www.computerbase.de/forum/threads/kuehler-gegen-steckergate-devpandis-hin-und-her.2151961/
Details kann man aber erst mit optimierten Fall-spezischen Benchmarks bekommen.

Aber die "ROPs" sind wohl irgendwie größere Stromfresser (als die anderen GPU-Teile).

Und das weicht z.B. auch von nVidias Ada ab.

OgrEGT
2023-07-25, 08:31:35
Ist die Bandbreite nicht geringer wenn RAM Module fehlen?

Klaro... nur wie stark das ins Gewicht fällt bleibt abzuwarten... also in der Nähe unterhalb der 7900XT nur noch nicht klar wie weit...

basix
2023-07-25, 09:09:56
devPandi hat dazu auch ein paar Benchmarks gemacht die in die Richtung deuten.
https://www.computerbase.de/forum/threads/kuehler-gegen-steckergate-devpandis-hin-und-her.2151961/
Details kann man aber erst mit optimierten Fall-spezischen Benchmarks bekommen.

Aber die "ROPs" sind wohl irgendwie größere Stromfresser (als die anderen GPU-Teile).

Und das weicht z.B. auch von nVidias Ada ab.

Der Artikel von CB fusst auf dem Lederartikel von devPandi ;)

HOT
2023-07-25, 09:14:28
In UHD dürfte die Leistung abflachen aber darunter?

reaperrr
2023-07-25, 15:33:25
Ist die Bandbreite nicht geringer wenn RAM Module fehlen?
Natürlich, bloß kennen wir a) den Chiptakt der Karte nicht (vielleicht etwas niedriger bzw. niedrigere TBP als 79XT -> weniger Rohleistung trotz ca. gleicher CU-Zahl, wobei es wohl auch Modelle mit 80CU geben soll, 79GRE ist wohl quasi Reste-Verwertung sowohl von Chips mit 1 defektem ShaderArray als auch überschüssigen XT-Chips), und b) hat RDNA3 schon größere L0- und Global-L1-Caches sowie bessere DCC, also etwas geringeren Bandbreitenbedarf als RDNA2, während der Speichertakt etwas höher als bei der 6950XT ist.
Das einzige, was ein wenig schaden könnte, ist der kleinere IF$. Aber viel schneller als eine 6950XT wird die Karte so oder so nicht (wenn überhaupt).

Nightspider
2023-07-26, 15:58:33
In einigen Medien hieß es zuletzt das AI "seit kurzem" auch die höchste Prioität bei AMD hat.

Wäre also nicht verwunderlich wenn sie so viel Kapazitäten wie möglich zu MI300 und Genoar/Bergamo geschoben haben.

RDAN3 ist sowieso nur semi erfolgreich und HPC/AI hat die deutlich höhere Gewinnmarge.

Rembrandt war/ist so gut, AMD hätte sich einen Gefallen getan wenn sie mehr Rembrandt APUs in N6 produziert hätte, dann hätte es jetzt mehr Ware im Mobile Bereich gegeben, ohne das man N5/N4 Kapazitäten dafür gebraucht hätte.

Bei Strix Point (Halo) mit Advanced Packaging wird ebenfalls die Frage, ob dieses Produkt nicht leicht unter die Räder von AI kommen könnte, falls die Nachfrage in einem Jahr nach AI (und damit nach Advanced Packaging) weiterhin so enorm sein sollte.
Hoffentlich nicht.

Vor 2 Jahren ließ TSMC die Mitarbeiter freiwillig mit fetten Zuzahlungen am Wochenende und an Feiertagen arbeiten mit maximaler Auslastung. Würde mich nicht wundern wenn es so derzeit in den Advanced Packaging Fabs läuft.

Zossel
2023-07-26, 18:20:37
Bei Strix Point (Halo) mit Advanced Packaging wird ebenfalls die Frage, ob dieses Produkt nicht leicht unter die Räder von AI kommen könnte, falls die Nachfrage in einem Jahr nach AI (und damit nach Advanced Packaging) weiterhin so enorm sein sollte.
Hoffentlich nicht.

Anscheinend leidet KI auch unter Alzheimer und Demenz:

https://www.derstandard.at/story/3000000179800/chatgpt-wird-immer-duemmer-doch-niemand-weiss-warum

Und neuere KIs werden ja mit Daten trainiert die von KIs stammen weil jeder Depp KI-generierte Daten ins Internet stellt was dazu führt das irgendwann ein Brot schlauer als eine KI ist.

Die Blase könnte also bald platzen.

dildo4u
2023-07-28, 08:17:21
Alle neuen Karten werden sich bei den derzeitigen Preisen einordnen.
Komischerweise soll die "normale" 7900 nur 70 CU haben weniger als 7900GRE?

laoZhtk1qgk

HOT
2023-07-28, 08:45:16
Er sagt im gleichen Video, dass nicht bekannt ist, wie die benannt werden. Außerdem sagt er ziemlich niedrige Preise für die 7700 und 7800 voraus ;). Der PC-Crash ist aber vorbei, AM4 wird abverkauft und AM5 sinkt im Preis. Die Grafikkartenverkäufe werden sich aufgrund der Gesamtverkäufe jetzt natürlich stabilisieren, das heißt aber nicht, dass vor allem die großen Adas nicht trotzdem total überteuert sind. Die AMD-Preise sind i.O. für die USA, bei uns sind sie (die 7000er) eigentlich noch zu teuer, um wirklich Kunden anzusprechen und die Geforces werden trotzdem mittelfristig weiter sinken müssen mMn.

horn 12
2023-07-28, 08:51:32
https://videocardz.com/newz/amd-radeon-rx-7900-gre-officially-launches-with-5120-cores-16gb-memory-and-260w-tbp-costs-649#disqus_thread

7900 GRE Edition bei 260 Watt bei ca. 6950XT Performance
Für 649 Dollar vertretbar

OgrEGT
2023-07-28, 09:04:31
[url]https://videocardz.com/newz/amd-radeon-rx-7900-gre-officially-launches-with-5120-cores-16gb-memory-and-260w-tbp-costs-649[/url

7900 GRE Edition bei 260 Watt bei ca. 6950XT Performance
Für 649 Dollar vertretbar

P/L ist so keine Vollkatastrophe aber auch nicht wirklich gut...
Alles was unter der 7900XT kommt wird bereits Prima durch RDNA2 abgedeckt... RDNA3 hat in dem Bereich scheinbar keine wirklichen Vorteile für den Endkunden weder Perf noch Perf/W...
Dann bleibt noch Perf/Eur wenn der Preis stimmt...

Lurtz
2023-07-28, 10:15:57
Soll vielleicht vor allem den Preisverfall der beiden größeren Schwestern etwas auffangen.

dildo4u
2023-07-28, 11:17:50
Der Betriebspunkt gefällt mir wenn es stimmt das die 7800 auch 260 TDP hat, leider scheint die Karte ein OEM Spezial?
Mit den Benches scheint aber klar das die 7800 wirklich nur die 6800XT ersetzt, 7900GRE sollte genau bei der 6950 XT landen.

basix
2023-07-28, 13:49:53
P/L ist so keine Vollkatastrophe aber auch nicht wirklich gut...

Wie so fast alles von AMD in dieser Gen ;)

Linmoum
2023-07-28, 14:03:43
Ich frage mich mittlerweile ernsthaft, was da alles bei/mit N32 schiefgelaufen ist, wenn man jetzt sogar noch vor diesem eine dritte N31-Variante auf den Markt wirft. So viel Spielraum gibt's für N32 mittlerweile dann auch gar nicht mehr. Verbrauch muss dann deutlich unter 260W liegen, beim Preis gehen durch den riesigen Abstand der GRE zur XT und die $649 jetzt wahrscheinlich auch nur noch +-$499 für N32. Wobei ich befürchte, dass man den Takt hochprügeln wird, damit man es sich preislich erlauben kann, doch noch möglichst nah an die GRE ranzukommen kann.

MSABK
2023-07-28, 14:26:07
Ich spekuliere und sage mal es wird kein N32 geben und die Zeit bis RDNA4 wird so überbrückt werden. AMD scheint sich mit den Chiplets überhoben zu haben.

Nightspider
2023-07-28, 14:35:08
Man konnte ja an Hand N31 schon extrapolieren das N32 kaum besser als N21 wäre und AMD kann die Kapazitäten gut für HPC (Genoa, Bergamo) sowie AI (MI300) gebrauchen.

Wenn AMD N32 für dedizierte GPUs wirklich (mehr oder weniger) gecancelt haben sollte, würde mich das nicht wundern.

AMD könnte genauso versuchen so viele Zen4(c)/ MI300 Chiplets vorzuproduzieren wie es geht um dann die Kapazitäten so zeitig wie möglich auf RDNA 3.5 Produkte zu schieben, wie Strix Point und Strix Halo.

KarlKastor
2023-07-28, 16:34:18
Navi 32 scheint einfach die gleichen Probleme zu haben wie Navi 31.
Die 3DMark werte zeigten ja eine Performance im Bereich 6800-6800XT. Da ist ja ordentlich Luft bis zur 7900XT.

Keinen Ahnung warum Navi32 plötzlich gecancelt sein sollte. Was wollen die denn sonst verkaufen? Navi21?

Thunder99
2023-07-28, 16:51:40
Navi 32 wird kommen, alleine schon wegen der 7700er Serie.

Dino-Fossil
2023-07-28, 17:07:52
Deutet die Gerüchteküche aktuell nicht deutlich in die Richtung, das N32 bald kommt? Es wird sich halt nur in die Riege anderer RDNA3 Karten einordnen und damit keinen großen Vorteil ggü. den Vorgängern liefern.
Ansonsten hätte AMD die Karten wohl auch schon gebracht.

dildo4u
2023-07-28, 17:40:13
Komplettsysteme mit 7900GRE schon auf Lager.

5700X

https://www.memorypc.de/gaming-pc/amd-ryzen-7-560291/

12900k

https://www.memorypc.de/gaming-pc/intel-core-i9-556724/

gedi
2023-07-28, 18:58:03
Ich finde es eigentlich ärgerlich, dass die Karte in Europa nur in Komplettsystemen erhältlich sein wird. All in all schneller als ne 69xx (RT einberechnet) und dies für 699€. Okay ist nen fuffie bis hunni zu viel, aber ansonsten ne runde Karte. Mit der könnte man selbst ne 4080 12gb aka 4070ti oft ärgern.

][immy
2023-07-28, 20:11:08
Deutet die Gerüchteküche aktuell nicht deutlich in die Richtung, das N32 bald kommt? Es wird sich halt nur in die Riege anderer RDNA3 Karten einordnen und damit keinen großen Vorteil ggü. den Vorgängern liefern.
Ansonsten hätte AMD die Karten wohl auch schon gebracht.

Ja, da wird was kommen. Hätte man sich aber sparen können, da jetzt schon vorhersehbar ist, das die ka schneller sein werden als die Vorgänger. Ein refresh hätte gereicht, aber das wusste man im Designprozess halt nicht. Da ist irgendwo der Wurm drin sein, denn ich glaube kaum das es für AMD günstiger geworden st die zu produzieren.
Ein refresh hätte AMD wesentlich schneller bieten können und vermutlich auch günstiger. Ist halt alles nicht so gelaufen wie geplant.

Das gibt Nvidia natürlich den Vorteil das man hier nichts in den Segmenten bieten muss.

ChaosTM
2023-07-28, 20:18:20
So schnell kann man keinen Refresh bringen, da es offensichtlich Probleme mit der ersten Gen von Chiplet basierenden GPUs gibt.

Der ersten Ryzen war zwar ok, aber auch noch weit von seinen Möglichkeiten entfernt.

HOT
2023-07-28, 22:28:17
N32 erscheint im August und ist im September verfügbar, hat wieder die 20-40%+ Perf/W ggü. N2x und stellt die Mittelklasse bis RDNA4 dar. Ich weiß gar nicht, was der Dummfug hier wieder soll :freak:.

Nightspider
2023-07-28, 22:32:32
hat wieder die 20-40%+ Perf/W

**in ganz ausgewählten Szenarien :freak:

Also selten bis nie. ;D

Der_Korken
2023-07-29, 13:25:20
Leo hat auf der Hauptseite ein Review zur 7900GRE (https://www.3dcenter.org/news/amd-radeon-rx-7900-gre-fuer-den-weltweiten-vertrieb-vorgestellt-sowie-erstmals-getestet) verlinkt. Darin sieht man, dass die die 7900XT in 4K im Schnitt um 27% davon zieht. Einzelne Benches zeigen auch Differenzen von >30%. Das finde ich sehr extrem. Im Grunde ist die GRE GPU-seitig exakt 5/6 der XTX bzw. die XTX ist exakt 20% breiter. Blendet man also VRAM, IF$ und Takt aus, dürfte die XTX nur max. 20% schneller als die GRE sein und die XT dürfte nur 5% schneller sein, sofern das Frontend nicht limitiert.

In der Praxis ist die XTX bereits 17% schneller als die XT, was leicht oberhalb der GPU-Erwartung liegt (14% mehr CUs, gleiches Frontend, laut CB gleiche Taktraten unter Last). Hier könnte man also schon mutmaßen, dass das 20% breitere SI und der 20% größere IF$ eine Rolle spielen müssen, damit sich die XT um 17% absetzen kann.

Die GRE fällt in der Praxis nun aber völlig ab. In 4K ist die XT 27% schneller und die XTX wäre kumuliert satte 49% schneller. Durch die fehlende Shader-Engine kann diese Diskrepanz nicht erklärt werden, denn das Frontend ist gegenüber der XTX genauso stark geschrumpft wie die CUs. Der Takt könnte geringer sein, denn durch die 260W hätte die XTX ca. 13% mehr Strom pro CU zur Verfügung als die GRE. Auch das würde allerdings nicht reichen, um den Rückstand zu erklären und außerdem bedeuten 13% mehr Strom nicht 13% mehr Takt, da die Spannung auch steigen muss.

Meine Schlussfolgerung: Das kleine SI bzw. der kleine Cache ziehen die GRE so weit runter. Dadurch dass die GRE (afaik?) nur mit 18Gbps am VRAM läuft, hat die XT 39% mehr Bandbreite (und die XTX 67% mehr). Nichts anderes an der XT ist 27% schneller, um auf diese 4K-Diskrepanz zu kommen. Wäre es die Rechenleistung, müsste die GRE in Spielen mit 2,1Ghz takten, um so stark abzufallen, was ich für unwahrscheinlich halte.

Das kommt für mich überraschend, da N31 für mich mit Bandbreite komplett überversorgt schien. Es wäre natürlich möglich, dass der Cache zu klein ist. Die 6950XT hat auch 18Gbps@256Bit und auch 80CUs und läuft mit knapp 2,5Ghz, hat aber 128MB IF$. Trotzdem sieht das Review die GRE einen Hauch dahinter. Jetzt ist die Frage, was das für N32 bedeutet. Rechnerisch sollte ein voller N32 auf 62,5% (shader-limitiert) bis 66,7% (bandbreiten-limitiert) einer 7900XTX kommen und somit in Raster auf 6900XT-Niveau liegen (Frontend-Limit schließe ich mal aus, sonst hätte AMD a) das nicht so designed und b) war das bei der 6800 nie wirklich ein Faktor). Dummerweise wäre das gerade mal gute 5% hinter der 7900GRE trotz 60 vs 80CUs. Irgendwas ist hier total fishy.

Edit: Kann gerne im Review-Thread weiter diskutiert werden.