AMD/ATI - RDNA3 (Navi 3X, Radeon RX 7000 Serie, tlw. Chiplets, 5/6 nm, 2022) [Archiv] - Seite 37

Oberst

2023-01-16, 13:28:52

Am hohen Idle-Verbrauch könnten die Chiplets Schuld sein, siehe die Desktop-Ryzens.
Naja, z.B. bei Computerbase war der Idle Verbrauch relativ niedrig. Bei anderen Testern grob 3-4x so hoch. Ich denke eher, dass da der Treiber Amok läuft. Vielleicht klappt das Strom sparen aktuell nur richtig, in Kombi mit dem richtigen Board und der richtigen CPU. Oder die Auflösung macht da was aus. Das sollte sich aber durchaus früher oder später lösen lassen. Der Teillast-Verbrauch wurde ja schon deutlich verbessert. Bei CB ist man da in Doom Eternal in WQHD mit 144Hz Limit mal eben bis zu 90W sparsamer (248W zu 158W für die XTX). Noch nicht ganz da, wo man sein sollte (der 4080 reichen 139W), aber in einem vernünftigen Rahmen.

Btw: Ryzen 5k braucht im Idle auch nicht mehr als z.B. Alder Lake. Laut Computerbase braucht der 5950X auf dem B550 nur 42W (siehe erster Test von Ryzen 5k). Auf dem X570 sind es dann 56W, der Verbrauch wird hier also vom Board/Chipsatz verursacht (die 42W sind weniger als ein 9900K im Vergleich). Die Chiplet Anordnung scheint AMD beim Verbrauch durchaus gut im Griff zu haben.
Als Monolith geht natürlich noch mehr, aber bei den Desktops wird bei AMD und Intel nicht so viel Fokus auf Idle gelegt als bei den Mobiles. Ein paar Watt hin oder her sind da ja auch in der Regel nicht so relevant. Bei Ryzen 7k scheint im Idle auch der Hauptanteil durch die Plattform zu kommen, schreibt zumindest Computerbase in ihrem Test so. Unter Last ist das natürlich was anderes, da schlägt die höhere TDP zu. Aber Idle schätzen sie die CPU ähnlich wie Ryzen 5k ein, also ungefähr im Bereich von Alder Lake und Raptor Lake. Insofern macht Chiplet im Desktop beim Idle Verbrauch wohl keinen relevanten Unterschied aus.

robbitop

2023-01-16, 14:36:09

Bei den verwendeten Testläufen kommt vermutlich auch gar kein Dual-Issue zum Einsatz.
Man könnte/müsste auch noch die neuen WMMA-Instruktionen testen.
Da sollte man dann auch den doppelten FP16-Durchsatz (teilweise) sehen.

Was aber natürlich bedeutet, dass ohne Anpassungen oder extra APIs man das nicht automatisch bekommt.
Ich bin mir ehrlich gesagt nicht sicher, ob das mit dem VOPD von AMD eine so gute Idee war. Es ist wahrscheinlich billiger als die FPUs selbst voll zu verdoppeln, man bekommt aber auch weniger raus. Auch, dass weiterhin Inferencing und Matrix über die Vector Units läuft. Ist billiger und man steigert auch General Purpose Leistung aber man verliert in den Cases wo FF Units zum Einsatz kommen einfach den Anschluß. Ich kann nur hoffen, dass RDNA3 eher so eine Art "transition architecture" war und man grundsätzlich alles etwas besser machen wollte aber eher den Fokus drauf hatte, Chiplets lauffähig zu bekommen, Packdichte zu steigern und Takt zu steigern (was bei N31 gescheitert ist). Und dann mit RDNA4 Dinge konsequenter anpackt.
Im CB Review liegt Rohleistungsnormiert RDNA3 läppische 9% vorn in Spielen. Selbst wenn man den Compiler noch wesentlich besser macht - an die Auslastung von Ampere/Ada (die auch schon nicht so dolle ist - liegt dort aber auch an den Schedulerresources - Pascal zeigt ja dass man 128 FP pro SM auch auslasten kann) oder Pascal kommt man nicht heran. Oder man lässt es so und spendiert mehr WGPs. Ich kann mir nicht vorstellen, dass es einfacher ist pro WGP mehr ILP zu extrahieren als mehr in die Breite zu gehen (wo es ja auch ganz klar erkennbare Auslastungsschwierigkeiten gibt - weshalb ich annahm es wäre sinnvoll wie Volta und Turing die Auslastung pro SM zu steigern, Takt zu steigern und zu schauen, dass man nicht so viele SMs/CUs verbaut). Aber das ist wohl alles ständig ein "moving target".

Der_Korken

2023-01-16, 15:47:23

Naja, z.B. bei Computerbase war der Idle Verbrauch relativ niedrig. Bei anderen Testern grob 3-4x so hoch. Ich denke eher, dass da der Treiber Amok läuft.

Ich glaube der Knackpunkt waren zwei Monitore mit unterschiedlicher Auflösung und/oder Refreshrate. Allerdings ist bereits bei einem Monitor der Idle-Verbrauch doppelt so hoch wie bei RDNA2. Ich glaube nicht, dass diese Lücke noch über Software gelöst werden kann. Die Display Engine braucht offenbar den VRAM, um die Frames irgendwo hinzurendern. Allerdings scheint es sehr schwer zu sein, den VRAM im Low-Power-Modus zu halten. Sobald irgendwas nicht passt, fahren die IF-Links, die MCDs und die VRAM-Chips voll hoch, was ca. 100W verbraucht. Das sind Probleme, die ich seit der Radeon 4870 kenne, also seit über 10 Jahren. Eigentlich würde ein MCD mehr als genug Bandbreite und Kapazität liefern, d.h. man könnte die 5 anderen MCDs (und dessen VRAM) hart abschalten. Dann wäre es auch nicht so schlimm, wenn man den Takt nicht unten halten kann, weil das Konstrukt an sich nur noch 100/6 statt 100W brauchen würde. Bestimmt ist das komplette Abschalten von Teilen des physischen Adressraums irgendwie problematisch.

Der Teillast-Verbrauch wurde ja schon deutlich verbessert. Bei CB ist man da in Doom Eternal in WQHD mit 144Hz Limit mal eben bis zu 90W sparsamer (248W zu 158W für die XTX). Noch nicht ganz da, wo man sein sollte (der 4080 reichen 139W), aber in einem vernünftigen Rahmen.

In 4K sieht es dafür noch nicht so gut aus. Allerdings ist die Verbesserung des Treibers schon mehr als ich erwartet hatte. Wir haben schon das Thema, dass die 7900er seit weit unten auf der Spannungskurve laufen und geringe Taktreduzierungen deutlich wengier Spannung sparen als das bei den 5000er und 6000er Karten der Fall war.

Ich bin mir ehrlich gesagt nicht sicher, ob das mit dem VOPD von AMD eine so gute Idee war. Es ist wahrscheinlich billiger als die FPUs selbst voll zu verdoppeln, man bekommt aber auch weniger raus.

[...]

Im CB Review liegt Rohleistungsnormiert RDNA3 läppische 9% vorn in Spielen. Selbst wenn man den Compiler noch wesentlich besser macht - an die Auslastung von Ampere/Ada (die auch schon nicht so dolle ist - liegt dort aber auch an den Schedulerresources - Pascal zeigt ja dass man 128 FP pro SM auch auslasten kann) oder Pascal kommt man nicht heran. Oder man lässt es so und spendiert mehr WGPs. Ich kann mir nicht vorstellen, dass es einfacher ist pro WGP mehr ILP zu extrahieren als mehr in die Breite zu gehen (wo es ja auch ganz klar erkennbare Auslastungsschwierigkeiten gibt - weshalb ich annahm es wäre sinnvoll wie Volta und Turing die Auslastung pro SM zu steigern, Takt zu steigern und zu schauen, dass man nicht so viele SMs/CUs verbaut). Aber das ist wohl alles ständig ein "moving target".

Im Nachhinein habe ich mich auch gefragt, ob AMD sich nicht einen Gefallen getan hätte, wenn sie auf Dual-Issue und größere Register verzichtet hätten so wie bei N33. Sie hätten das 80CU-Layout von N21 behalten können zusammen mit den 4x32MB IF$-Blöcken und 256bit SI. Mit 3,2Ghz wären sie ungefähr da rausgekommen, wo N31 aktuell mit 2,5Ghz steht. Das wäre billiger gewesen und hätte trotzdem das neue Hochtakt-Design und Chiplets austesten können (vllt wären sie sogar <=300W geblieben und hätten den alten Ref-Kühler recylcen können ohne VC-Probleme :D). Was auch immer sie architekturmäßig verbessern wollen, wäre dann mit RDNA4 gekommen, den man ähnlich wie RDNA2 relativ kurz danach (z.B. Ende 2023) hätte bringen können. Im Falle von Dual-Issue hätten sie genug Zeit die Softwareseite hinzubekommen. Mich wundert aber auch, dass man nach RDNA1 jetzt wieder so eine Kehrtwende macht, was die Auslastung angeht. Wenn sich weder der CU-Count noch die IPC der CUs so einfach steigern lassen, hätten sie doch in RT investieren können. Vielleicht habe ich da eine zu naive Vorstellung, aber ist ein Problem von RT nicht auch, dass sich die Rechenwege der Strahlen stark diversifizieren? Wären da kleinere Wave-Sizes nicht effektiver als größere? Oder über eine Bitmaske jedem SIMD32 erlauben zwei verschiedene Operationen pro Takt ausführen zu können, um die Register-Bandbreite besser auszunutzen?

mksn7

2023-01-16, 16:45:11

Oberst

2023-01-16, 20:57:24

Ich glaube der Knackpunkt waren zwei Monitore mit unterschiedlicher Auflösung und/oder Refreshrate. Allerdings ist bereits bei einem Monitor der Idle-Verbrauch doppelt so hoch wie bei RDNA2. Ich glaube nicht, dass diese Lücke noch über Software gelöst werden kann.
Bei CB war der Verbrauch im Idle bei 1x UHD 60Hz bei 17W (XT) und 19W (XTX). Recht viel besser wird es nicht werden. Auch mit 2 Screens war man noch bei 19W und 23W. Mit 2 Screens war man damit sogar sparsamer als RDNA2. Bei TPU war Idle bei 11W und 13W, also noch eine Spur besser.
Bei Igor war Idle aber bei grob 40W, also deutlich höher als bei den anderen. Multi Monitor war Igor dann bei 70-100W, TPU auch. Was sicherlich am Treiber noch gemacht werden kann, ist den Idle Verbrauch bei einem Screen auf ca. 15W zu drücken. Das meine ich.
Auf die Werte von Navi21 wird man aber nicht kommen, da gebe ich dir Recht. Bei Multi Monitor kommt es auf die Screens und die Refresh Rate an, wie viel da noch geht.

In 4K sieht es dafür noch nicht so gut aus. Allerdings ist die Verbesserung des Treibers schon mehr als ich erwartet hatte. Wir haben schon das Thema, dass die 7900er seit weit unten auf der Spannungskurve laufen und geringe Taktreduzierungen deutlich wengier Spannung sparen als das bei den 5000er und 6000er Karten der Fall war.
4K ist dann vermutlich einfach keine Teillast mehr. Da wird man den Takt einfach recht hoch haben (müssen) und damit eine hohe Spannung brauchen. Insofern denke ich auch, dass da einfach die Spannungskurve Schuld dran ist. Spannend wird da, wie gut AMD es schafft, den Takt zu regeln um so Takt und Spannung entsprechend runter zu bringen.

robbitop

2023-01-17, 08:36:36

Im wave64 modus braucht es gar kein ILP um die dual ALUs zu nutzen. Nur die entsprechenden Anforderungen an die Registerbandbreite müssen gegeben sein.

Dadurch kann flexibel der Fokus auf Durchsatz oder Latenz gelegt werden. Für bspw pixel shader zählt eher der Durchsatz, da verwendet man den wave64 mode. Für stattdessen den vertex shader, wo meist gar nicht soviel Arbeit da ist um alles auszulasten und die Latenz wichtiger ist, kann im wave32 mode mit den dual instructions potentiell noch etwas ILP genutzt werden um die einzelne shader instanz schneller fertig zu bekommen.

Ich könnte mir vorstellen, die dual ALUs lohnen sich schon ohne VOPD instructions.

Jemand müsste sich mal mit einem profiler an ein Spiel hängen. Dann könnte man sehen wie viele shader in wave32/wave64 modus laufen und wieviele dual instructions in den wave32 shadern vorkommen. Dann hätte man wenigstens ein upper bound für den speedup.

Ich hatte es beim RDNA1 Launch so verstanden, dass wave64 (GCN konnte nichts anderes) in Bezug auf Granularität nicht so der Renner war und man deshalb wave32 eingeführt hat. Und RDNA1 machte (ggf. auch unter Anderem deshalb?) ja einen gesunden Sprung nach vorn was rohleistungsnormierte Performance in Spielen angeht. Nvidia arbeitet ja schon sehr lange mit einer 32er wave front size (aus dem Grund?).

Somit ist es ggf. zwar möglich mit wave64 keine Limitierung im Durchsatz zu haben aber man verschenkt andererseits Performance aufgrund der gröberen Granularität.

mksn7

2023-01-17, 10:25:40

Ich hatte es beim RDNA1 Launch so verstanden, dass wave64 (GCN konnte nichts anderes) in Bezug auf Granularität nicht so der Renner war und man deshalb wave32 eingeführt hat.

Das stimmt, aber das ist sicherlich nicht immer der Fall. Bspw für postprocessing ist wave64 top. Jetzt kann AMD sich ein bisschen aussuchen, ob TLP/Durchsatz oder ILP/Latenz.

Diese Wahl fällt leider schon beim Kompilieren des shaders, da liegen noch nicht so viele Informationen vor wie der shader tatsächlich verwendet wird. Zumindest in den open source Treibern wird einfach pauschal nach shader Typ entschieden, pixel shader in wave64 mode, alles andere wave32. Das könnte auch so ein tuning knob für spielspezfische Profile sein, wo AMD einfach testet was was für welchen shader schneller ist und das so hinterlegt.

robbitop

2023-01-17, 10:42:02

Mit echten doppelten FPUs so wie bei Ampere müsste man die Entscheidung halt nicht treffen sondern hätte beides. Auf Kosten von mehr Transistoren natürlich. Aber NV scheint damit exzellent zu fahren.

Das was du über sie Open Source Treiber sagst ist interessant. Entsprechend wären Vergleiche über Proton in Linux vs Windows mit RDNA3 ggf interessant bzgl Performancecharakteristik.

Iscaran

2023-01-17, 12:59:56

Neues Futter für die "Bug"-These - diesmal nach ziemlich gründlicher Recherchearbeit von CB:
https://www.computerbase.de/2023-01/rx-7900-xtx-oc-rtx-4080-oc-benchmark/

RDNA3 hat überhaupt kein Problem damit stabil mit 3.5 GHz zu laufen.
Bei Compute-Lasten braucht die Karte dann auch nur wenig mehr Leistung als Referenz.
ABER, in SPIELE-Lasten, und NUR in diesen explodiert der Verbrauch und man kriegt selbst mit 500 W (!) kaum mehr als 2.8 GHz zum laufen.

Den Rest vom Fazit quote ich einfach mal

Die Leaker, die vor dem Launch von „deutlich mehr als 3,0 GHz“ gesprochen haben, hatten vermutlich doch Recht. Höchstwahrscheinlich ist beim Design von Navi 31 oder dessen Simulation wirklich etwas schiefgegangen, die GPU benötigt in Spielelasten viel mehr Energie als ursprünglich geplant und kann deswegen den hohen Takt dort nicht ausnutzen.

Natürlich beweist der Test dies nicht, doch anders ist es kaum zu erklären, dass Navi 31 mit derart hohen Taktraten stabil laufen kann, in Spielen aber mal eben 500 MHz darunter bleibt. Da RDNA 2 (und Ada Lovelace) sich völlig anders verhält, liegt es einfach nahe, dass sich so auch RDNA 3 eigentlich nicht verhalten soll.

Der_Korken

2023-01-17, 13:09:02

Neues Futter für die "Bug"-These - diesmal nach ziemlich gründlicher Recherchearbeit von CB:
https://www.computerbase.de/2023-01/rx-7900-xtx-oc-rtx-4080-oc-benchmark/

RDNA3 hat überhaupt kein Problem damit stabil mit 3.5 GHz zu laufen.
Bei Compute-Lasten braucht die Karte dann auch nur wenig mehr Leistung als Referenz.
ABER, in SPIELE-Lasten, und NUR in diesen explodiert der Verbrauch und man kriegt selbst mit 500 W (!) kaum mehr als 2.8 GHz zum laufen.

Den Rest vom Fazit quote ich einfach mal

Auch gerade gelesen. Dem Fazit kann ich nur zustimmen. Im Review-Thread sind wir schon zu ähnlichen Schlussfolgerungen gekommen, dass das Design wie ne Eins taktet, aber von sich aus viel zu viel säuft. So als ob er eigentlich 50% größer wäre. Und auch dass das so nicht geplant sein kann, habe ich schon gepostet, denn mit den aktuellen Stats hätte AMD auch einfach einen schmaleren (günstigeren) Chip designen und auf 350W hochprügeln können. Das klingt nur leider nicht nach einem leicht zu behendem Bug...

gedi

2023-01-17, 13:14:37

Der Test auf CB taugt nix. OC ohne UV?!

dargo

2023-01-17, 13:33:12

Der Test auf CB taugt nix. OC ohne UV?!
Sowas nennt man OC innerhalb der default Spannungskurve. ;)

Tangletingle

2023-01-17, 13:39:05

Medi(?) hatte das mit dem Takt und Verbrauch bei Compute doch schon vor Wochen angemerkt.

vinacis_vivids

2023-01-17, 13:40:54

Der Test auf CB taugt nix. OC ohne UV?!

Leider ist CB bei AMD eher unfähig.

Ich denke bei Spielen limitiert nicht der Takt vom Command Prozessor und Shadertakt, sondern viel mehr FCLK, IF$ und VRAM. Die Verbindung zwischen GCD und MCD frisst auch ordentlich Leistung.

RDNA3 hat genügend Shader bzw. Rohleistung, aber der FCLK und der schmale IF$ ist noch die Archillesferse.

Die uArch ist schon Rekordniveau und skaliert bis 3,3-3,5Ghz! . Das ist extrem geil, aber bei 500W auch extrem hungrig.

Eventuell ist da ein Refresh auf 4nm mit 3,6-3,8Ghz möglich bei etwas geringeren Verbrauch.
RDNA3 erinnert an Zen2 14nm, da waren ab 3,3-3,5Ghz auch extrem hungrig geworden und FCLK, RAM und Latenz so die Archillesferse.

Linmoum

2023-01-17, 13:42:45

Dass bei einer primär fürs Gaming entwickelten Architektur der Takt gerade dort derart heftig gegenüber Compute-Workloads abfällt, kann in der Tat so niemals gewollt gewesen sein. Egal, ob man diesen Umstand jetzt als "bug" bezeichnen mag oder sonstwie.

Ich habe auch meine Zweifel, dass sich das bei N33 und/oder N32 großartig ändern wird und ob sich AMD bei RDNA3 überhaupt die Mühe machen wird, hier irgendetwas zu unternehmen.

mksn7

2023-01-17, 13:48:40

Der_Korken

2023-01-17, 13:58:56

Aufgrund einer einzigen Applikation würde ich da noch keine Schlussfolgerungen im Bezug auf 3D Graphic vs Compute ziehen. Vielleicht ist der HIP Pfad von Blender einfach schlecht und lastet die GPU nicht aus? Dann ist klar dass nicht viel Strom verbraucht wird und der Takt entsprechend hoch gehen kann.

Schon, aber dass die GPU so einen Takt überhaupt mit einer halbswegs menschlichen Spannung stabil schafft, ist sehr erwähnenswert. Der geringe Spiele-Takt lässt das so nicht vermuten. Außerdem geht bei der 4080 der Verbrauch auch auf 175W runter und bei der 6900XT der Takt um 200Mhz, d.h. die schlechte Auslastung wäre nicht RDNA3-spezifisch. Mit >600W würde man auch bei Spielen noch weiter hoch kommen, eine richtige Clockwall wurde da bisher nicht erreicht.

Linmoum

2023-01-17, 14:00:02

Es ist nicht nur eine einzige Anwendung. Es gab zuvor über die Feiertage schon auf Twitter ein paar Usermeldungen dazu, dass der Takt in Compute-Workloads deutlich höher liegt.

Jetzt hat man mit CB soweit ich das sehe die ersten Reviewer, die sowas auch offiziell mal beleuchtet haben.

Fusion_Power

2023-01-17, 22:01:49

Huiii!

Gerücht: AMD Ryzen Strix Point erhält mächtige iGPU mit 9 TFLOPs Gaming-Power (https://www.notebookcheck.com/Geruecht-AMD-Ryzen-Strix-Point-erhaelt-maechtige-iGPU-mit-9-TFLOPs-Gaming-Power.682207.0.html)
Mit Ryzen Strix Point erhalten AMDs Laptop-Prozessoren im nächsten Jahr ein geradezu gigantisches Upgrade, denn AMD soll dann genau wie Intel Raptor Lake auf eine Kombination aus Performance- und Effizienz-Kernen setzen, und zeitgleich eine deutlich leistungsstärkere iGPU verbauen.

https://www.notebookcheck.com/fileadmin/_processed_/7/a/csm_Roadmap70_7b0ce8101a.jpg

Das klingt ja schon mal sehr interessant. Scheiß auf dedizierte GPU im Notebook! :cool:

vinacis_vivids

2023-01-17, 22:20:15

24CUs = 3072SP @ 3,0Ghz ~ 9.2 Tflops fp32 🙈 für ne iGPU ist gigantisch. Dazu 4nm und RDNA3+ uArch. Das ganze gepaart mit Zen5 uArch, die +25% IPC verspricht 😱

Hammer Teil.

MSABK

2023-01-17, 22:22:51

Mit welchem Ram soll das gefüttert werden?

vinacis_vivids

2023-01-17, 22:46:38

Bei Phoenix Point soll es bis max. 256GB LPDDR5-7600 sein. Strix Point dürfte auf dem selben Level sein.
https://www.hardwaretimes.com/amd-ryzen-7000-phoenix-point-mobile-cpus-lack-pcie-gen-5-and-up-to-256gb-of-dual-channel-lpddr5-7600-memory/

Das sind umgerechnet 60,8GB/s und im Dual Channel 120 GB/s Bandbreite vom RAM.

MSABK

2023-01-17, 22:49:01

Theoretisch hat ja Ryzen 6xxx schon max mögliche 80gb/s soweit ich weiß. Auf notebookcheck im aida memtest war aber das beste was ich gesehen habe gerade mal um die 60gb/s.

dildo4u

2023-01-17, 23:01:12

Platos

2023-01-17, 23:31:39

Nicht vergessen: RDNA 3 TFLOPs sind nicht mit RDNA 2 vergleichbar.

Die 7900XTX hat doppelt so viel FP32 TFLOPs wie die 6900XT, ist aber nicht doppelt so schnell.

Dazu einfach Leonidas' News lesen.

Also die Leistung dürfte wohl (auf den ersten Blick) eher so im Bereich einer 5500X/ 1660 sein (was nicht schlecht ist). Jetzt muss man aber noch den Speicher mit einberechnen, d.h man muss dann doch wieder ein paar Prozente abziehen und die Karte wird vermutlich dann so auf 1060 Level landen oder vlt. auch nur auf 1650 Niveau (was ja auch immer noch gut ist).

Ich persönlich denke, sie wird dann wohl etwa auf 1650 Niveau liegen bzw. näher an dieser, wie an einer 1060. Für EInteiger bzw. E-Sport Tiel ist das aber eig. ne gute Sache. Auch die Energieeffizienz dürfte gut sein. Upgraden kann man ja immer noch.

robbitop

2023-01-18, 06:21:10

Ggf eher 3 nm. Bei Phoenix steht „4nm“ drüber und bei Strix „advanced node“

Zossel

2023-01-18, 06:51:49

9 Tflop wäre fast PS5 Level also kompletter Schwachsinn ohne GDDR6.
Die High-End Karten haben sogar ein sehr breites Interface also scheint RDNA3 an sich nicht sehr sparsam mit Speicher Bandbreite umzugehen.

Wie wirken sich sich diese ganzen Bildaufhübscher/Auflösungshochrechner auf den Verbrauch von Speicherbandbreite und Flops aus?

robbitop

2023-01-18, 07:58:50

9 Tflop wäre fast PS5 Level also kompletter Schwachsinn ohne GDDR6.
Die High-End Karten haben sogar ein sehr breites Interface also scheint RDNA3 an sich nicht sehr sparsam mit Speicher Bandbreite umzugehen.
Das sind aber die RDNA3 Luftpumpen TFLOPs. ;)
Ggf. ist das aber dennoch einen Hinweis auf einen LLC/IF$. Dann wäre das absolut machbar.

Relic

2023-01-18, 12:06:13

Das sind aber die RDNA3 Luftpumpen TFLOPs. ;)
Ggf. ist das aber dennoch einen Hinweis auf einen LLC/IF$. Dann wäre das absolut machbar.
Ja ohne Cache würde die Leistung verhungern. Tippe jedoch eher auf RDNA3 Luftpumpen Tflop also 9/4,5 Tflops. Dann kommt man auch ohne dicken Cache zurecht. 12Cus mit etwas mehr Takt.

Thunder99

2023-01-18, 12:40:31

War das bei AMD je anders? Rohrpower Hui, Realpower Pfui ;D

robbitop

2023-01-18, 13:31:29

RDNA1 und 2 hatten so ziemlich die höchste Auslastung der Rohleistung. Ggf. lag Turing noch leicht drüber. GCN und VLIW Generationen waren so ja.

Ja ohne Cache würde die Leistung verhungern. Tippe jedoch eher auf RDNA3 Luftpumpen Tflop also 9/4,5 Tflops. Dann kommt man auch ohne dicken Cache zurecht. 12Cus mit etwas mehr Takt.
Ja bereits Phoenix (wenn er das Dual Issue von RDNA3 bekommen hat) sollte auf knapp 9 TFLOPs kommen. 3GHz * 2 Flops pro Kanal * 128 FPUs pro CU (durch dual issue) * 12 CUs = 9,216 TFLOP/s

Dino-Fossil

2023-01-18, 14:14:13

Um das mal in Perspektive zu setzen: selbst 4,5 Tflops wären an Rohleistung noch fast das Niveau einer RX 480.
Inklusive Architekturverbesserungen seit Polaris + dem Zugewinn durch dual-issue (so vorhanden) hätte man damit eine APU, mit der man durchaus mal ordentlich zocken kann, jedenfalls wenn man nicht alles auf 4K Ultra+ stellt.
Ich habe z.B. immer noch eine 480 bei mir verbaut. :freak:

Naja, würde trotzdem erstmal abwarten, ob das denn so kommt.

robbitop

2023-01-18, 14:26:11

Meistens kann man gut 30-50% abziehen, weil im mobilen (TDP limitierten) Umfeld die Taktraten eh massiv abfallen. Die Peakwerte sind relativ praxisirrelevante Angeberwerte. ^^

Fusion_Power

2023-01-18, 15:24:49

Nightspider

2023-01-18, 17:31:33

TFLOPs sagen in der Tat nicht viel aus aber Strix Point kommt mit verbesserter RDNA3+ Architektur und mutmaßlich ohne die Bugs, die N31 besitzt.

PS5 Ports kann man damit sowieso problemlos zocken.

Dazu 4nm und RDNA3+ uArch.

Strix Point kommt entweder in stark verbessertem N4P oder N3, denn selbst Phoenix Point kommt schon in N4.

Hammer Teil.

Kommst du dir nach dem RDNA3 Release nicht dämlich vor, alles immer noch so zu hypen, was weit in der Zukunft liegt?

Strix Point wird erst in ~1,5 Jahren im Handel landen, dann reden alle schon wieder von Navi41 und RTX5000 und dann interessieren die 9TFLOPs auf dem Papier auch nicht mehr so sehr.

vinacis_vivids

2023-01-18, 18:10:01

Steam Deck APU:
AMD Zen 2 - 4C/8T
2.4-3.5 Ghz
AMD RDNA2 - 8CUs
1.0-1.6Ghz
16GB LPDDR5-5500

Phoenix APU
AMD Zen4 8C/16T
3.0-4.5Ghz
AMD RDNA3 - 12CUs
2.0-2.5Ghz
32GB LPDDR5-7600

Bei Steam-Deck gibs derzeit die Auflösung 1280x800. Mit den neuen APUs in Steam-Deck 2 ist eine FHD Auflösung von 1920x1200 inkl. Ray-Tracing drin. Auch FSR 3.0 ist im Anmarsch.

Meine Begeisterung wird immer größer 🙈

robbitop

2023-01-18, 18:11:17

Nightspider

2023-01-18, 19:01:18

Unsinn

Kannst du dich mal entscheiden ob du von Phoenix oder Strix Point sprichst?

Phoenix: Zen4 2023
Strix: Zen5 2024

Platos

2023-01-18, 19:18:06

vinacis_vivids

2023-01-18, 19:44:35

Kannst du dich mal entscheiden ob du von Phoenix oder Strix Point sprichst?

Phoenix: Zen4 2023
Strix: Zen5 2024

Habs mal editiert. Phoenix Point oder eine ähnliche Custom-APU ist wahrscheinlich für Steam Deck 2. 4nm versprechen deutlich längere Laufzeiten und eine stärkere Leistung.

Steam Deck wurde schon über 1 Mio. Mal verkauft mit 1.6 Tflops.

Beim Nachfolger mit 12 RDNA3 CUs sind es bei konservativen 2.0-2.5Ghz ca. 6,14 - 7,68 Tflops. Der Sprung wird gigantisch auf jeden Fall.

robbitop

2023-01-19, 10:57:01

So ich hab mir das RGT Video mal angeschaut. Er sagt zu Strix:

1.) 24x CUs
2.) bis zu 32 MiB IF$
3.) 3 GHz+
4.) Big.Little Zen5/5c (was ja hier im Forum mehrfach vehement abgestritten wurde, dass AMD sowas machen wird von Leuten wie HOT - mal sehen ob es wirklich so kommen wird - was wir aber daraus lernen sollten ist "never say never" / "keep an open mind")
https://www.youtube.com/watch?v=1Qiu5I8mCnA

Zu IGP: das wären nominell dann sogar 18 TFLOPs (mit DualIssue). Und ja das Ding mit IF$ sollte dann wirklich in der Lage sein, PS5 Ports zu spielen. Das Ding wird wahrscheinlich in N3E gefertigt (meine Annahme da auf der Roadmap Advanced Node steht und Phoenix in der gleichen Roadmap mit 4nm betitelt wird und N3E der nächste Schritt auf der TSMC Roadmap ist).
Das Ding wird jedenfalls nicht billig werden - dank IF$ und einfach mal einer Verdopplung der CUs wird man einen Sprung in IGPs machen, den es lange nicht mehr gab. Mal schauen ob es das dann auch als U Variante im 15W TDP Budget geben wird (sicherlich mit in der Praxis mit niedrigeren Taktraten). Das wäre ein richtig genialer SoC für das Steamdeck Format (x86 Gaming Handhelds).

HOT

2023-01-19, 12:55:53

Es ist ja nicht wirklich big Little, genau wie litte Phoenix. Das sind ja volle Kerne die etwas niedriger takten. Bei mobile ist das ja auch durchaus sinnvoll, etwas Die-Fläche zu sparen und da benötigt eh nicht jeder Kern das volle Taktpotenzial. Bei der Planung von Pheonix Point wird man wohl soweit noch nicht gewesen sein, sonst hätte man sicherlich bei dem auch schon 4 Kerne c gemacht.
Nur im Desktop und WS ist das eben sinnlos, weil das Chiplet ja eh schon recht klein ausfällt, da braucht man schlichtweg keine c-Kerne. Es ist eben nicht big.LITTLE wie es ARM, Apple oder Intel macht.
Geändert zu vorherigen Informationen hat sich zudem, dass das c-Chiplet für Server wohl doch N4 sein wird und bei Zen5 N3, also gleich zum mobile-Produkt, was dann auch wieder gut zum APU-Design mit c-Kernen passt.

Die IF$-Geschichte ist interessant und auch interessant ist, dass es 32MB sind. IF$ jetzt einfach L3 auch für GPU nutzbar? Oder ein eigener Stack? Komplett neues LLC-Design bei Zen5? Fragen über Fragen...

reaperrr

2023-01-19, 13:15:06

Es ist ja nicht wirklich big Little, genau wie litte Phoenix. Das sind ja volle Kerne die etwas niedriger takten.
Die Kerne selbst vielleicht, der shared L2 Cache könnte aber halbiert sein. Da die (bei TSMC quasi zum Stillstand gekommene) SRAM-Skalierung einer der größten Kostentreiber bei N3E sein wird, macht es Sinn und bedeutet auch am wenigsten Aufwand, hier den Rotstift anzusetzen und einen CCX/CCD nur mit halb so viel L2 auszustatten.

Bei der Planung von Pheonix Point wird man wohl soweit noch nicht gewesen sein, sonst hätte man sicherlich bei dem auch schon 4 Kerne c gemacht.
Bei Phoenix macht es eher wegen der geringen Kernzahl und dem einzelnen CCX wenig Sinn. Zwei verschiedene Kern-Versionen innerhalb eines CCD/CCX sehe ich bei AMD nicht kommen, das wird eher in getrennte CCX (oder gar Chiplets) getrennt.

robbitop

2023-01-19, 13:27:29

Nightspider

2023-01-19, 15:10:00

vinacis_vivids

2023-01-19, 15:32:12

In der APU ist das ein unified shared Cache, wo sowohl CPU als auch GPU zugriff haben.

robbitop

2023-01-19, 15:39:16

Es ist schon einige Tage her das ich das Video gesehen habe aber ich meinte mich zu erinnern, das er verschiedene Dinge zu IF$ gehört hat und sich nicht mal sicher ist ob überhaupt IF$ verbaut wird.
24 CUs kannst du ohne IF$ mit dual channel DDR5 nicht füttern. Das macht keinen Sinn. Wenn das Ding 24 CUs hat, dann hat es auch einen wirksamen Cache. Ansonsten würde man mächtig Silizium verschwenden - das macht ja heute keiner mehr.

In der APU ist das ein unified shared Cache, wo sowohl CPU als auch GPU zugriff haben.
Das ist eine Möglichkeit ja. Zen 5 soll ja Caches umstrukturieren. Entsprechend wäre ein shared LLC ggf. etwas was dann sinnvoll machbar ist.

vinacis_vivids

2023-01-19, 15:57:51

Ayaneo Next 2 mit diskreter Radeon GPU
https://www.computerbase.de/2023-01/ayaneo-next-2-gaming-handheld-amd-ryzen-7000/

Die stärkste Version ist bisher Zen3 8C/16T 4.5Ghz + Vega 8Cus.
Vega taktet glaube ich mit 2.1Ghz.

Die neue Version könnte RDNA3 GPU enthalten. Möglicherweise ist hier schon Phoenix am Werk mit 4nm Zen4 und 12CUs RDNA3.

Ich glaube wir sollten uns langsam in den APU Thread bewegen.

Edit: Es soll eine diskrete GPU sein...

Complicated

2023-01-19, 16:17:06

Es sind Zen 5 im Mix mit Zen 5c und genau das hast du bestritten ;)In welcher SKU/Sparte sollen die denn beide verbaut werden? Im Video nimmt er das einfach nur an. Warten wir doch mal auf Produktvorstellungen und zeigen dann mit dem Finger, wenn so etwas wie eine einigermaßen glaubwürdige Info von AMD vorliegt.

robbitop

2023-01-19, 16:37:10

In Strix Point. Ja noch ist es nicht materialisiert - aber er (RGT) war es übrigens der der erste war der den IF$ geleakt hat. Aber ein Beweis ist es noch nicht. Stimmt du hattest es ja auch abgestritten, oder? X-D

Ich will damit nur sagen, man muss bei Spekulationen offen bleiben. Die Branche bewegt sich brachial schnell und ständig kommen Überraschungen, die keiner kommen sieht. Ich kann mich noch gut erinnern, wie der IF$ vor dem Launch von vielen als Schwachsinn abgestempelt wurde und dennoch kam es so. Es bleibt für nahezu alle Kombinationen egal wie merkwürdig sie klingen immer noch eine gute Restwahrscheinlichkeit. "alles kann, nichts muss"

Complicated

2023-01-19, 16:45:23

Das ist eine Möglichkeit ja. Zen 5 soll ja Caches umstrukturieren. Entsprechend wäre ein shared LLC ggf. etwas was dann sinnvoll machbar ist.Solange AMD L3 als Victim Cache nutzt ist das nicht sinnvoll. Wenn sich das ändert wird die Architektur wohl nicht mehr Zen heissen.

Zen stellt die Speicherkohärenz über die Infinitiy Fabric her, wo die alten FCL und RMB Links, aus den Vorgänger Architekturen, rein gewandert sind.
https://en.wikichip.org/w/images/8/8e/zen_apu_if.png

Bei CDNA3/MI300 kommt HBM als gemeinsam genutzter Speicher hinzu und benötigt den zusätzlichen DDR-Memory Controller für die CPU nicht mehr zwingend.

Eine mobile Zen5c/RDNA4/HBM-APU kann ich mir vorstellen für Notebooks. Der HBM-Speicher onPackage würde bei Notebookherstellern deutlich Kosten sparen und AMD könnte so trotz höheren Kosten für die SKU dennoch im Gesamtpaket günstiger sein für die Hersteller. AMD würde dann den RAM in seine Wertschöpfungskette mit einbinden.
Mit Zen5c könnte ein 16-Core Chiplet anstatt 8-Core mit Zen5 bei Low-Power Szenarien das besser Paket sein.

Das mixen von Zen/Zenc bezweifle ich jedoch.

basix

2023-01-19, 16:48:39

Zen 5 + 5c macht mMn sehr viel Sinn. Insbesondere für Mobile. Der Aufbau wird dann interessant. Vermutlich 2x 8C CCX, eines Zen 5 und das andere Zen 5c. Shared IF$ / L3$ mit der iGPU wäre nice, sehe ich aber als unwahrscheinlich an.

Complicated

2023-01-19, 16:50:46

Wie schon geschrieben ist ein shared L3$ als victim nicht sinnvoll.
Welchen Nutzen haben denn beide Kern Versionen in einem mobilen Chip?

Nightspider

2023-01-19, 16:53:21

24 CUs kannst du ohne IF$ mit dual channel DDR5 nicht füttern. Das macht keinen Sinn. Wenn das Ding 24 CUs hat, dann hat es auch einen wirksamen Cache. Ansonsten würde man mächtig Silizium verschwenden - das macht ja heute keiner mehr

Triple Channel SI für 12 oder 24GB und +50% Bandbreite? :biggrin:

Wäre vielleicht nicht mal die verkehrteste Idee, weil anspruchsvollere Spiele ja auch mehr RAM benötigen.

24GB wären imo ein guter Sweetspot für Laptops.

Aber natürlich hoffe ich trotzdem auf IF$, schon der Effizienz wegen.

Vielleicht wird das Advanced Packaging 2024/2025 so günstig, das man selbst an "Massenware-Laptop-Chips" so ein bis zwei MCDs dran klatscht wie man es bei Navi31 getan hat. Schließlich sind 32MiB Cache in N3 teurer als in N5 und vor allem gegenüber N6.

amdfanuwe

2023-01-19, 17:23:31

Wie macht das eigentlich Apple? Die haben doch auch Speicher on Package und das ist kein HBM.
Vielleicht kommt sowas auch von AMD.

robbitop

2023-01-19, 17:28:42

Das wäre natürlich eine Option.

robbitop

2023-01-19, 17:33:29

Wie schon geschrieben ist ein shared L3$ als victim nicht sinnvoll.
Welchen Nutzen haben denn beide Kern Versionen in einem mobilen Chip?

Warum nicht? Wenn man entsprechende Bereiche alloziert für die GPU widerspricht das dem Victim Cache Prinzip nicht.

Warum der uArch Name sich ändern muss wenn man die Cachestruktur umstellt ist mir unklar. Es ist davon auszugehen, dass es immer mal wieder tiefgreifende Änderungen und auch redesigns geben wird. Zen 5 ist laut Gerüchten eine davon. Die Frage wie viel vom ursprünglichen Zen noch in Zen 5 steckt muss man sich stellen.

Zen 5c kann die MT Leistung mit weniger mm2 und wahrscheinlich auch mit weniger Leistungsaufnahme steigern.

amdfanuwe

2023-01-19, 17:42:36

OK, grad gesehen, es gibt ja schon 16GByte Chips LPDDR5. Bestimmt nicht billig aber billiger als HBM.
Da verbaut Apple dann 2 oder 4 Stück auf einem Package.
Darf bei Apple halt etwas teurer sein.

Complicated

2023-01-19, 17:56:45

Warum nicht? Wenn man entsprechende Bereiche alloziert für die GPU widerspricht das dem Victim Cache Prinzip nicht.
Weil der gemeinsame Adressraum im L2$ verwaltet und synchronisiert wird über IF (Point-to-Point, kein Ringbus wie Intel). Der Victim befüllt den jeweiligen L2$ wenn bei Miss ein L3$ Hit erfolgt. Die GPU hängt ebenfalls mit dem L2$ am IF.

Warum der uArch Name sich ändern muss wenn man die Cachestruktur umstellt ist mir unklar.Wieso unklar? Ich will damit sagen, dass eine solche Änderung bei AMD die gesamte Entwicklung der Memory Architektur seit der Llano APU, die über FCL (Onion) und RMB (Garlic) zu Infinitiy Fabric und dann auch Infinity Cache geführt hatten, neu aufstellen muss.

Alle APUs mit Katzenkernen, Bulldozer und Zen nutzen victim L3$. Eine solche gravierende Änderung (Wenn überhaupt sinnvoll für AMD) würde ich erst in einer völlig neuen Architektur erwarten, und nicht in Evolutionen von Zen. Zumal AMDs IF-Interconnect derzeit der entscheidende Vorteil gegenüber Intel ist und für das Chipletdesign unverzichtbar. Keine Ahnung warum sie es für einen LLC-Sync wieder aufgeben sollten und auf IF$ und Chiplets verzichten sollten. Erscheint mir über das realistische hinaus spekuliert zu sein ohne einen Mehrwert darin zu erkennen.

Ich fand dieser Abschnitt im Launch-Artikel bei Anand hat das beim ersten Zen gut zusammen gefasst:
https://www.anandtech.com/show/11170/the-amd-zen-and-ryzen-7-review-a-deep-dive-on-1800x-1700x-and-1700/9
Each core will have direct access to its private L2 cache, and the 8 MB of L3 cache is, despite being split into blocks per core, accessible by every core on the CCX with ‘an average latency’ also L3 hits nearer to the core will have a lower latency due to the low-order address interleave method of address generation.

The L3 cache is actually a victim cache, taking data from L1 and L2 evictions rather than collecting data from prefetch/demand instructions. Victim caches tend to be less effective than inclusive caches, however Zen counters this by having a sufficiency large L2 to compensate. The use of a victim cache means that it does not have to hold L2 data inside, effectively increasing its potential capacity with less data redundancy.

It is worth noting that a single CCX has 8 MB of cache, and as a result the 8-core Zen being displayed by AMD at the current events involves two CPU Complexes. This affords a total of 16 MB of L3 cache, albeit in two distinct parts. This means that the true LLC for the entire chip is actually DRAM, although AMD states that the two CCXes can communicate with each other through the custom fabric which connects both the complexes, the memory controller, the IO, the PCIe lanes etc.

Complicated

2023-01-19, 18:30:05

OK, grad gesehen, es gibt ja schon 16GByte Chips LPDDR5. Bestimmt nicht billig aber billiger als HBM.
Das hängt von Integrations-Level ab, den Du betrachtetest.
Kommt ein Silikon-Interposer zum Einsatz, weil man möglicherweise CPU- und GPU-Chiplets mit (aktivem) Interposer verbinden möchte (MI300) oder weil die Lieferengpässe bei Substraten eine Umsatzsteigerung erschwert, da wird HMB3 günstiger als LPDDR.

AMD könnte im nächsten Step aktive Interposer nutzen für APUs. Damit wäre ein Interposer schon gesetzt (AMD hat interessanterweise Wafer-Kapazitäten für 14nm bei GF und Samsung erhöht)

Mit HBM3 werden die Abwägungen Differenzierter. Guter Artikel der dies beleuchtet:https://semiengineering.com/hbm3s-impact-on-chip-design/

Der_Korken

2023-01-19, 18:31:30

Ist Intels L3-Cache nicht auch ein victim cache? Wegen der gewachsenen L2-Caches bei den Cove-Kernen ist Intel doch gerade erst vom inklusiven Design abgewandert.

Complicated

2023-01-19, 18:42:42

Skylake hat den victim Cache eingeführt bei Intel: https://www.anandtech.com/show/11550/the-intel-skylakex-review-core-i9-7900x-i7-7820x-and-i7-7800x-tested/4
A non-inclusive cache is somewhat between the two, and is different to an exclusive cache: in this context, when a data line is present in the L2, it does not immediately go into L3. If the value in L2 is modified or evicted, the data then moves into L3, storing an older copy. (The reason it is not called an exclusive cache is because the data can be re-read from L3 to L2 and still remain in the L3). This is what we usually call a victim cache, depending on if the core can prefetch data into L2 only or L2 and L3 as required. In this case, we believe the SKL-SP core cannot prefetch into L3, making the L3 a victim cache similar to what we see on Zen, or Intel’s first eDRAM parts on Broadwell. Victim caches usually have limited roles, especially when they are similar in size to the cache below it (if a line is evicted from a large L2, what are the chances you’ll need it again so soon), but some workloads that require a large reuse of recent data that spills out of L2 will see some benefit.

amdfanuwe

2023-01-19, 19:33:04

AMD könnte im nächsten Step aktive Interposer nutzen für APUs. Damit wäre ein Interposer schon gesetzt (AMD hat interessanterweise Wafer-Kapazitäten für 14nm bei GF und Samsung erhöht)

Sind die nicht für Xilinx?
Die hatten letztes Jahr noch Kapazitätsengpässe.
Da dreht AMD jetzt auch auf.
Virtex™ UltraScale+™ devices provide the highest performance and integration capabilities in a 14nm/16nm FinFET node.
https://www.xilinx.com/products/silicon-devices/fpga/virtex-ultrascale-plus.html#tabAnchor-productAdvantages
Die Versal kommen grad mal in 7nm und haben noch einen anderen Anwendungsbereich.

Könnte mir auch vorstellen, dass die Base Dies für MI300 in 14nm kommen.
Mit bis zu 4 x 400mm² kann AMD da einiges unterbringen. Und ich denke MI300 ist nur der Anfang für eine Serie ähnlich aufgebauter Produkte von AMD.
An aktive Interposer glaub ich da weniger.

Edit:
Sehe gerade, der Zynq™ UltraScale+™ adaptive SoC in 16nm wandert jetzt bei einem Anwender in die Serie.
https://www.amd.com/en/newsroom/press-releases/2023-1-19-amd-adaptive-computing-technology-enables-next-gen.html

Ist halt das Problem bei FPGAs, da wird erst Jahrelang an einer Applikation gefeilt bis dann eventuell mal die Chips in Menge geordert werden für eine Kleinserie.

Complicated

2023-01-19, 19:52:28

Die Timeline könnte stimmen :)
Ich bin mir nicht sicher ob das hier nur ein Versprecher war, doch MI300 könnte durchaus auch schon einen (oder 4 stiched Interposer) aktiven Interposer haben - der Kontext ist unklar, doch zum spekulieren reicht es mir derzeit ;)
https://www.tomshardware.com/news/amd-instinct-mi300-data-center-apu-pictured-up-close-15-chiplets-146-billion-transistors
Those nine dies are 3D-stacked atop four 6nm base dies that are not merely passive interposers - we're told these dies are active and handle I/O and various other functions. AMD representatives showed us another MI300 sample that had the top dies sanded off with a belt sander to reveal the architecture of the four active interposer dies. There we could clearly see the structures that enable communication not only between the I/O tiles, but also the memory controllers that interface with the HBM3 stacks. We were not allowed to photograph this second sample.

basix

2023-01-19, 20:23:37

Welchen Nutzen haben denn beide Kern Versionen in einem mobilen Chip?

PPA ;)

Halb so viel Flächenbedarf und stärker auf Low Power optimiert. Eindeutig ein Win, solange 8 schnelle Cores (normale Zen 5) genügen. Was es für Mobile sicher tut. Oben drüber kommt noch der Dragon Range Nachfolger. Verglichen mit 16 Big Cores: Geringere Fläche, gleichbleibende oder gar höhere MT Performance, hinsichtlich lightweight/background Tasks könnte die Akkulebensdauer gesteigert werden.

amdfanuwe

2023-01-19, 20:54:31

Nachdem Intel mit mehr als 8 Cores Mobile vorlegt, muss AMD auch nachziehen.
8+8 bzw. 8+16 kann ich mir für 2024 schon gut vorstellen.

Complicated

2023-01-19, 21:39:41

Nur sind 8+8 in dem Powerbudget nicht schneller als 16 c Cores. Die 16 Zen c Cores decken die Takt-Range passend zu den mobilen Bedürfnissen ab, ohne zusätzlich die Cores mit mehr L2$. Warum dann nicht ein CCD mit 16 C-Cores und sich das Powerbudget für ein zweites Chiplet sparen? 8+8 wäre teurer, braucht mehr Strom und kann den maximalen Takt nicht ausspielen.
Macht ja keinen Sinn das dann zu mixen.

Eher sind 2 SKUs mit 16 c-Cores und mit 16 p-Cores zu erwarten, die unterschiedliche Geräte-/Kundenwünsche bedienen. Das sind keine E-Cores wie bei Intel. Die stehen für sich alleine gut genug da ohne P-Cores und mit vollständigem Instructionset.

Fusion_Power

2023-01-19, 21:51:21

Naja die PS5 hat 10,28 echte TFLOPs. 9,2 rdna3 TFLOPs. Das sind vielleicht 6 rdna2 tflops. Und dann kann man nochmal locker 30% wegen TDP Limitierung abziehen.
Dazu kommt, dass es bei PC Ports ein gewisser Overhead existiert. Ich würde sagen „locker PS5“ Ports spielen ist ein Oberstatement. Dafür braucht es sicherlich nich ein paar Schritte.
Meine gute, alte GTX 1050TI (75W GraKa) hat glaube gerade mal so um die 2,3 TFLOPS, wenns hoch kommt. Trotzdem reicht sie locker für 120+FPS in Overwatch(2) auf mittleren Details in HD aus. Wenn jetzt die kommenden AMD iGPUs da noch ne Schippe drauf legen können, bei weniger Stromverbrauch obendrein, dann respekt! Ist natürlich die Frage ob diese die theoretische Rohleistung dann auch "auf die Straße" bekommen. Wegen RAM-Speed und so weiter.

amdfanuwe

2023-01-19, 23:36:19

Nur sind 8+8 in dem Powerbudget nicht schneller als 16 c Cores.
Multithreaded sicherlich kein wesentlicher Unterschied.
Ob jetzt ein Thread aber mit 5GHz oder mit 3GHz auf einen Mausklick reagiert könnte sich schon bemerkbar machen.
Gibt ja genügend Applikationen die mit weniger als 8 Kernen arbeiten.

bbott

2023-01-20, 00:12:14

Meine gute, alte GTX 1050TI (75W GraKa) hat glaube gerade mal so um die 2,3 TFLOPS, wenns hoch kommt. Trotzdem reicht sie locker für 120+FPS in Overwatch(2) auf mittleren Details in HD aus. Wenn jetzt die kommenden AMD iGPUs da noch ne Schippe drauf legen können, bei weniger Stromverbrauch obendrein, dann respekt! Ist natürlich die Frage ob diese die theoretische Rohleistung dann auch "auf die Straße" bekommen. Wegen RAM-Speed und so weiter.

Liegen die aktuellen APUs nicht schon um die 1050(Ti) herum?

Fusion_Power

2023-01-20, 01:03:08

Liegen die aktuellen APUs nicht schon um die 1050(Ti) herum?
Die Radeon 680M mit Sicherheit, die Intel Iris iGPU mit 96 EUs sicher nicht. Apples M1 und M2 Chips haben aufm Papier wohl beeindruckende Grafikleistung aber fürs (PC) gaming taugen die trotzdem wenig weil ARM halt und "komische" Treiber - hab ich zumindest gelesen. Mein Kumpel hat mir mal sein 16" Mackbook Pro mit M1 Chip vorgestellt, also zumindest Tomb Raider läuft flüssig drauf. Und die synthetischen Benchmarks natürlich.
Die schiere Rohpower einer alten, dedizierten GTX 1050Ti Grafikkarte ist sicher nochmal ne Ecke besser als die aktueller IGPUs, weil 75 Watt halt. Müsste man mal vergleichen mit weniger Watt, gleich eingestellt einer aktuellen Radeon 680M entsprechend, wo dann bei ähnlichen Eckdaten mehr FPS bei rum kommen. Aber das ist sicher so oder so ein krummer Vergleich.

robbitop

2023-01-20, 09:04:25

Alle APUs mit Katzenkernen, Bulldozer und Zen nutzen victim L3$. Eine solche gravierende Änderung (Wenn überhaupt sinnvoll für AMD) würde ich erst in einer völlig neuen Architektur erwarten, und nicht in Evolutionen von Zen. Zumal AMDs IF-Interconnect derzeit der entscheidende Vorteil gegenüber Intel ist und für das Chipletdesign unverzichtbar. Keine Ahnung warum sie es für einen LLC-Sync wieder aufgeben sollten und auf IF$ und Chiplets verzichten sollten. Erscheint mir über das realistische hinaus spekuliert zu sein ohne einen Mehrwert darin zu erkennen.

Ich fand dieser Abschnitt im Launch-Artikel bei Anand hat das beim ersten Zen gut zusammen gefasst:
https://www.anandtech.com/show/11170/the-amd-zen-and-ryzen-7-review-a-deep-dive-on-1800x-1700x-and-1700/9
Ggf. hat sich das Victim Cache Modell einfach so bewährt, dass man dabei bis heute geblieben ist.

Ob die Änderungen dafür wirklich so krass sind? Intel ist mit SKL-X von einem Inclusive Cache gewechselt.

https://www.anandtech.com/show/11550/the-intel-skylakex-review-core-i9-7900x-i7-7820x-and-i7-7800x-tested/4

Skylake für consumer hingegen hat noch den inclusive L3.
https://en.wikichip.org/wiki/intel/microarchitectures/skylake_(client)

Haswell auch:
https://en.wikichip.org/wiki/intel/microarchitectures/haswell_(client)

Auf jeden Fall hat Intel diesen Wechsel zwischen zwei nicht so dramatisch unterschiedlichen uArchs gemacht. Das heißt nicht, dass AMD das auch machen muss. Aber will sagen, dass man einen "open mind" haben sollte weil es ja anscheinend doch relativ machbar ist (siehe SKL und HSW vs SKL-X).

Zu Zen 5 hieß es aus verschiedenen Quellen bereits, dass eine größere Umstellung im Cachesystem kommen wird. Ob das so kommt muss man natürlich erstmal sehen. Manche haben von einem gemeinsamen L2 gesprochen und einem ausgelagerten L3.

Seit ADL scheint Intel bei Bedarf die Policies umstellen zu können zwischen inclusive und non-inclusive:

This system can also shift the L3 cache from an inclusive or non-inclusive policy based upon utilization.
https://www.tomshardware.com/features/intel-architecture-day-2021-intel-unveils-alder-lake-golden-cove-and-gracemont-cores

Skylake hat den victim Cache eingeführt bei Intel: https://www.anandtech.com/show/11550/the-intel-skylakex-review-core-i9-7900x-i7-7820x-and-i7-7800x-tested/4
Nur SKL-X. SKL hat nach wie vor ein inclusive L3. Siehe oben.

robbitop

2023-01-20, 09:07:38

Nachdem Intel mit mehr als 8 Cores Mobile vorlegt, muss AMD auch nachziehen.
8+8 bzw. 8+16 kann ich mir für 2024 schon gut vorstellen.
Ja. Zumindest um in der Wahrnehmung und den MT Benchmarks mithalten zu können. Intel will mittelfristig die E-Cores ja wieder verdoppeln auf 32.

Nur sind 8+8 in dem Powerbudget nicht schneller als 16 c Cores. Die 16 Zen c Cores decken die Takt-Range passend zu den mobilen Bedürfnissen ab, ohne zusätzlich die Cores mit mehr L2$. Warum dann nicht ein CCD mit 16 C-Cores und sich das Powerbudget für ein zweites Chiplet sparen? 8+8 wäre teurer, braucht mehr Strom und kann den maximalen Takt nicht ausspielen.
Macht ja keinen Sinn das dann zu mixen.

Eher sind 2 SKUs mit 16 c-Cores und mit 16 p-Cores zu erwarten, die unterschiedliche Geräte-/Kundenwünsche bedienen. Das sind keine E-Cores wie bei Intel. Die stehen für sich alleine gut genug da ohne P-Cores und mit vollständigem Instructionset.

Für die performancekritischen Threads bringen die non-c Cores halt mehr Performance. Nicht alles lässt sich beliebig parallelisieren. Entsprechend machen P Cores genau dort ja auch Sinn. Die Zen c Cores sind wie du sagst nicht so weit entfernt von den den non c Cores. Aber durch den reduzierten L2 Cache und die reduzierten Taktraten wird das schon schnell mal >20 % pro Thread ausmachen. Halbe Fläche bekommt man ja nicht ohne Nachteile "geschenkt". Entsprechend sind die non C Cores sicherlich von Vorteil für bursty loads. Vielleicht nicht so extrem wie bei Intel der Unterschied - aber er wird schon vorhanden sein.
Man hat ja eine Vielzahl verschiedener Lastfälle. Rein MT hast du Recht. Aber man will wahrscheinlich in allen Lastfällen möglichst gut dastehen. MT loads, bursty loads, loads mit 4-8 Threads wo ein paar Threads der Bottleneck sind und die möglichst schnell laufen müssen usw.
Man darf gespannt sein.

Meine gute, alte GTX 1050TI (75W GraKa) hat glaube gerade mal so um die 2,3 TFLOPS, wenns hoch kommt. Trotzdem reicht sie locker für 120+FPS in Overwatch(2) auf mittleren Details in HD aus. Wenn jetzt die kommenden AMD iGPUs da noch ne Schippe drauf legen können, bei weniger Stromverbrauch obendrein, dann respekt! Ist natürlich die Frage ob diese die theoretische Rohleistung dann auch "auf die Straße" bekommen. Wegen RAM-Speed und so weiter.
Naja IMO kann man allerspätestens seit Rembrandt/Van Gogh (die lösten Vega durch RDNA2 uArch ab) schon auch relativ okay auf IGPs spielen. Mit reduzierten Details und Auflösung gehen auch AAA Spiele, wie man beim Steamdeck sieht. Phoenix (Zen4+RDNA3) werden da nochmal eine Schippe drauflegen. Aber wenn Strix Point wirklich so kommt(Zen5+RDNA3+ mit 24 CUs und IF$), dann sehen wir wirklich dGPU Niveau (was also nicht nur alte dGPUs ersetzen kann sondern auch moderne lowend dGPUs) auf IGPs.
Das wäre schon für IGPs was Besonderes. Das ginge aber eben (sofern man beim üblichen DDR5/LPDDR5 Dual Channel bliebe) nur durch IF$. Und das wäre eine klare Ansage, dass man mit IGPs auf ein neues Level heben will.

Complicated

2023-01-20, 11:41:15

Entsprechend sind die non C Cores sicherlich von Vorteil für bursty loads. Vielleicht nicht so extrem wie bei Intel der Unterschied - aber er wird schon vorhanden sein.
Man hat ja eine Vielzahl verschiedener Lastfälle. Rein MT hast du Recht. Aber man will wahrscheinlich in allen Lastfällen möglichst gut dastehen. MT loads, bursty loads, loads mit 4-8 Threads wo ein paar Threads der Bottleneck sind und die möglichst schnell laufen müssen usw.
Man darf gespannt sein.

Kennst Du Benches/Balken die das darstellen? ;)

Ich denke einfach, dass die höhere Taktfrequenz in mobilen Geräten im Verhältnis zu Akku-Laufzeit innerhalb der TDP-Klassen 15, 25, 35 und 45 W nicht ausreichend zum tragen kommen. Der kleinere L2 und Takte bis 4 anstatt 5 GHz mit den C-Cores auf einem 16-Core CCD alleine, ist möglicherweise das bessere Paket, verglichen mit Dual-Chiplet Versionen (monolithisch kann das anders aussehen). Und wenn Du dann den C-Core Chiplets etwas 3DV L3 onTop packst, könnte das auch nochmal diversifiziert werden und mehr aus dem niedrigeren Takt raus holen.
Wie Du sagst, es bleibt spanend :)

robbitop

2023-01-20, 11:52:35

Noch gibt es logischerweise keine Benchmarks.
Aber logisch ist das für mich schon irgendwie schon (kennt man ja auch aus der ARM Welt und es ist etwas was Intel mit den P/E Cores ja auch verfolgt - auch wenn das noch nicht gut umgesetzt ist, heißt das nicht, dass das nicht besser werden wird).
Weil es genug Anwendungen gibt, die bloß wenige schnelle Threads brauchen, die die Gesamtperformance limitieren. Wenn diese Threads gute 20% (oder ggf. auch etwas mehr) schneller sind bringt das schon was. Und das ist ja auch nicht statisch - auch das kann selbst in Spielen bursty sein. Ggf. nutzt man das um die Peaks für ein paar Threads zu behandeln.
Sicherlich ist da beim Scheduler noch einiges nachzuholen - aber Dank Intel optimiert MS den Scheduler ja schon in diese Richtung.

Mal sehen - ggf. hat AMD auch völlig andere Pläne. :)

Complicated

2023-01-20, 12:32:08

vinacis_vivids

2023-01-20, 12:52:13

Für Gaming Notebooks wird es dieses Jahr auch sehr interessant mit Navi33 6nm mobile:

https://abload.de/img/amd_ces_2023_mobile_getfpu.png
https://abload.de/img/amd_ces_2023_mobile_g80faw.png

In diesem Bereich gibs noch viel abzugrasen.

DozerDave

2023-01-20, 13:30:14

Ist Navi33 die kleinste RDNA3 GPU?

dildo4u

2023-01-20, 13:34:26

Von dem was bis jetzt bekannt ist die 6500XT kam aber deutlich nach der 6600.
Also möglich das noch was kommt als 4050 Gegner.

robbitop

2023-01-20, 13:53:59

Ich meinte mit der Frage nach den Benches, dass AMD sich sicherlich auf Verkaufsargumente bei der Entscheidung für das Design fokussieren wird. Etwas messbares. Etwas zu optimieren, das niemand in Reviews vergleicht, wird da wohl eher die Prio-Liste runter rutschen.
Ich denke da würde man am besten auf ADL-Mobile Benchmarks zurückgreifen. Idealerweise wo man mal P und E Cores aktiviert und deaktiviert. Leider sind die E-cores wegen fehlender eigener Voltagerail nicht so effektiv wie sie sein könnten. Aber grundsätzlich macht ADL-Mobile dank der E Cores bei MT Benchmarks ggü dem Vorgänger einen guten Eindruck. Und dank der P Cores ist die Gamingleistung nicht schlecht.
Aber um es kurz zu sagen: ich habe nichts in der Hand. Müsste man sich mit beschäftigen was passendes zu suchen oder am besten mit eigener HW nachtesten.

Nightspider

2023-01-20, 15:11:47

Seht ihr Möglichkeiten gewisse Cache Varianten bei CPUs nach außen zu bringen?

Stichwort MCDs am äußeren Rand der CPUs wie bei N31.
Cache muss ganz dringend raus aus den CPU Chiplets weil 32MiB Cache in N3 teurer ist als in N5.
Cache darüber zu stacken bringt einen gravierenden Takt Penalty von rund 15%.

Keine Ahnung wie lange es dauern wird, bis sie es schaffen werden Cache an die Unterseite zu bringen.

Wobei mir gerade einfällt, das genau das ja bei MI300 zu kommen scheint, mit Cache im Base Chiplet.
Da kommen ja auch Zen4 Chiplets auf ein Cache-IO-Base-Die.

Aber wenn Strix Point wirklich so kommt(Zen5+RDNA3+ mit 24 CUs und IF$), dann sehen wir wirklich dGPU Niveau (was also nicht nur alte dGPUs ersetzen kann sondern auch moderne lowend dGPUs) auf IGPs.
Das wäre schon für IGPs was Besonderes. Das ginge aber eben (sofern man beim üblichen DDR5/LPDDR5 Dual Channel bliebe) nur durch IF$. Und das wäre eine klare Ansage, dass man mit IGPs auf ein neues Level heben will.

Ich weiß ja nicht. Dieses dGPU Niveau wurde schon sooo oft angesagt für APUs die in >1 Jahr auf den Markt kommen werden aber dabei wird immer vergessen, dass die dGPUs auch einen riesigen Sprung machen.

Der große Chiplet Wurf ist bei AMD leider ausgeblieben aber könnte mit RDNA4 kommen und die RTX4090 hat einen größeren Sprung gemacht, als es Rembrandt getan hat.

Ja natürlich, wenn man beachtet das man mobil eh geringere Auflösungen benötigt, dann gleichen sich solche Lösungen langsam großen PCs an - nur eben auf einem kleineren Level mit geringerer Auflösung.
Die meiste Leistung verpufft bei großen Grafikkarten schließlich bei 4K und 5K Auflösungen, 3440*1440 UltraWide oder 144Hz bis 240Hz Bestrebungen.

MSABK

2023-01-20, 15:47:37

Wäre es evtl auch möglich, dass AMD im mobilen Bereich eine starke iGPU bringt um eigene LowEnd dGPUs im Notebook zu ersetzen?

Dino-Fossil

2023-01-20, 15:50:03

Ich weiß ja nicht. Dieses dGPU Niveau wurde schon sooo oft angesagt für APUs die in >1 Jahr auf den Markt kommen werden aber dabei wird immer vergessen, dass die dGPUs auch einen riesigen Sprung machen.

Wobei ich das Gefühl habe (vielleicht stimmt mit meinem Gefühl ja was nicht), dass der Leistungszuwachs bei iGPUs in den letzten Jahren etwas stärker ausfiel als bei Einsteiger dGPUs. Definitiv gilt das für P/L.

Nightspider

2023-01-20, 15:51:24

Liegt natürlich auch daran das Einsteiger dGPUs stiefmütterlich behandelt werden und es nicht in jeder Generation neue Produkte im Einsteigersegment gibt.

Ich hätte es ja toll gefunden, wenn AMD mobil mehrgleisig fahren würde und APUs mit deutlich größerer IGP+entsprechendem Speicher anbieten würde.

vinacis_vivids

2023-01-20, 16:12:59

Ist Navi33 die kleinste RDNA3 GPU?

Fragst du nach Desktop oder Mobile?

Am Desktop sieht es so aus:
N31XTX, N31XT
N32XT, N32XL
N33XT, N33XL

Navi33 hat extrem viele SKUs:
Mobile: RX7600M, RX7600M XT, RX7600S, RX7700S
Desktop : RX 7700XT, RX7700.
Die 7700(XT) sind für Desktop vorgesehen und werden sehr hoch takten. Die 7600er sind mobile und takten niedriger. Die 7700s taktet moderat hoch.
Am Notebook:
N32XT, N32XL
N33XT, N33XL

200mm^2 ist bisher die kleinste RDNA3 GPU. Die Leistungsbereich darunter werden vermutlich mit APU wie Phoenix und Navi24 6nm abgedeckt.
Die sehr erfolgreiche 7nm Fertigung läuft auf jeden Fall langsam aus bei AMD.

Hier die offizielle Angabe:
https://www.amd.com/de/products/graphics/amd-radeon-rx-7700s

32CU - 2048SP
100W Leistung
20.5/41 Tflops fp32/fp16
13.3 Mrd. Transistoren
32MB IF$
8GB VRAM
288 GB/s Bandbreite

BavarianRealist

2023-01-20, 16:28:25

...
Navi33 hat extrem viele SKUs:
RX7600M, RX7600M XT, RX7600S, RX7700S, RX 7700XT, RX7700.
Die 7700er sind für Desktop vorgesehen und werden sehr hoch takten. Die 7600er sind mobile und takten niedriger.

Wenn Navi33 am Desktop für RX7700XT herhalten sollte, dann frag ich mich, inwiefern der - im Verglich zum 204mm²-N6-Navi33 - extrem aufwändige und teure Navi32 dann überhaupt noch Sinn ergibt? Ein verdoppelter Navi33 mit dann <400mm² in läppischem N6 kostet wohl nur einen Bruchteil davon und dürfte dabei womöglich Navi31-Niveau erreichen, oder?

vinacis_vivids

2023-01-20, 16:55:04

Wenn Navi33 am Desktop für RX7700XT herhalten sollte, dann frag ich mich, inwiefern der - im Verglich zum 204mm²-N6-Navi33 - extrem aufwändige und teure Navi32 dann überhaupt noch Sinn ergibt? Ein verdoppelter Navi33 mit dann <400mm² in läppischem N6 kostet wohl nur einen Bruchteil davon und dürfte dabei womöglich Navi31-Niveau erreichen, oder?

Ein "doppelter N33 6nm" käme auf 4096SP bei 2,5Ghz auf 40.96 Tflops und läge weit weit hinter den 61 Tflops von N31.

robbitop

2023-01-21, 10:35:24

Ich weiß ja nicht. Dieses dGPU Niveau wurde schon sooo oft angesagt für APUs die in >1 Jahr auf den Markt kommen werden aber dabei wird immer vergessen, dass die dGPUs auch einen riesigen Sprung machen.

Der große Chiplet Wurf ist bei AMD leider ausgeblieben aber könnte mit RDNA4 kommen und die RTX4090 hat einen größeren Sprung gemacht, als es Rembrandt getan hat.

Ja natürlich, wenn man beachtet das man mobil eh geringere Auflösungen benötigt, dann gleichen sich solche Lösungen langsam großen PCs an - nur eben auf einem kleineren Level mit geringerer Auflösung.
Die meiste Leistung verpufft bei großen Grafikkarten schließlich bei 4K und 5K Auflösungen, 3440*1440 UltraWide oder 144Hz bis 240Hz Bestrebungen.

Das lag aber immer daran, dass IGPs in der Bandbreite des DDR Dualchannelinterfaces „gefangen“ waren, das sie sich auch noch mit der CPU teilen mussten. Das wäre durch IF$ (fast) erstmal etwas völlig anderes. Intel hatte das mit Crystallwell ja einmal probiert aber da saugten deren GPU IP noch.
Dazu käme noch, dass man immer mit Siliziumfläche geizig war. Eine Verdopplung der CUs innerhalb einer Generation gab es IIRC moch nie. Und dazu noch der IF$.

Ich sehe jedenfalls keinen Grund warum das dann nicht erstmals mit echten und aktuellen dGPUs der low end klasse in 2024 gleichziehen kann. Die Randbedingungen wären, wenn die Specs stimmen, eben völlig anders als jemals zuvor. Also kann auch das Ergebnis ein anderes sein. ;)

AlterSack

2023-01-21, 11:27:58

Fragst du nach Desktop oder Mobile?

Am Desktop sieht es so aus:
N31XTX, N31XT
N32XT, N32XL
N33XT, N33XL

Navi33 hat extrem viele SKUs:
Mobile: RX7600M, RX7600M XT, RX7600S, RX7700S
Desktop : RX 7700XT, RX7700.
Die 7700(XT) sind für Desktop vorgesehen und werden sehr hoch takten. Die 7600er sind mobile und takten niedriger. Die 7700s taktet moderat hoch.
Am Notebook:
N32XT, N32XL
N33XT, N33XL

200mm^2 ist bisher die kleinste RDNA3 GPU. Die Leistungsbereich darunter werden vermutlich mit APU wie Phoenix und Navi24 6nm abgedeckt.
Die sehr erfolgreiche 7nm Fertigung läuft auf jeden Fall langsam aus bei AMD.

Hier die offizielle Angabe:
https://www.amd.com/de/products/graphics/amd-radeon-rx-7700s

32CU - 2048SP
100W Leistung
20.5/41 Tflops fp32/fp16
13.3 Mrd. Transistoren
32MB IF$
8GB VRAM
288 GB/s Bandbreite

die variante, bei der der 7700 von n32 mit abfällt, gefällt
mir deutlich besser als deine vermutung mit n33.
den sehe ich eher als 7600.

vinacis_vivids

2023-01-21, 12:55:09

die variante, bei der der 7700 von n32 mit abfällt, gefällt
mir deutlich besser als deine vermutung mit n33.
den sehe ich eher als 7600.

N32 erscheint als 7800XT / 7800
30 WGP (60 legacy CUs, 7680 ALUs)
3,0Ghz ~ 46 TFLOPs fp32
64MB IF$
256-bit GDDR6
16GB VRAM @ 640 GB/s
GCD TSMC N5, ~200 mm²
MCD TSMC N6, ~36.6 mm² x 4
Chipgröße: 346,4 mm²

amdfanuwe

2023-01-21, 14:04:28

N32 erscheint als 7800XT / 7800
30 WGP (60 legacy CUs, 7680 ALUs)
3,0Ghz ~ 46 TFLOPs fp32
64MB IF$
256-bit GDDR6
16GB VRAM @ 640 GB/s
GCD TSMC N5, ~200 mm²
MCD TSMC N6, ~36.6 mm² x 4
Chipgröße: 346,4 mm²
Jo, und mit einem MCD weniger und ein paar abgeschalteten WPGs als
7700XT 12 GB 24? WGPs

N33 Desktop
6600XT 8GB 16WGPs

davidzo

2023-01-21, 16:49:54

Ja ohne Cache würde die Leistung verhungern. Tippe jedoch eher auf RDNA3 Luftpumpen Tflop also 9/4,5 Tflops. Dann kommt man auch ohne dicken Cache zurecht. 12Cus mit etwas mehr Takt.

Würde ich auf ersten Blick auch denken. 12CU @3Ghz oder 16CU @ 2200mhz. AMD schreckt vor breiten APUs und Cache einfach zu sehr zurück weil man den Chip immer auch als mainstream Desktop APU parallel anbietet. Außerdem hat man sehr langfristige Waferverträge in die eine plötzlich viel größere APU nicht so recht passt.

Allerdings orientiert sich AMD auch immer an Intel und guckt dass man knapp on top bleibt bzw. nicht zu weit zurückfällt (Iris 96EU vs Vega8) bzw.
Die 2024er APUs haben lediglich deswegen 12CU weil man als Gegenspieler mit einer 128EU IGP gerechnet hat. Dass erst Meteorlake diese bringt und sich verspätet hat AMDs Strategie nicht mehr beeinflussen können.

Da für Arrowlake aber auch eine Halo-CPU mit 320EU geplant ist, könnte an dem 24CU / 12WGP Gerücht aber auch etwas dran sein. AMD orientiert sich eben bei der mobile Planung immer noch sehr stark am Marktführer und 24CU wäre der nötige Counter zu einer 320EU APU.
Einen unified L3 Cache in Kombination mit Zen5 halte ich aber für unwahrscheinlich, denn dass würde so starke Architektureingriffe erfordern dass es wohl nicht mehr Zen5 wäre (Zen5c?). Vermutlich müsste man den L2 vergrößern um ein einigermaßen ähnliches Latenzverhalten zu erziehlen, bzw. IPC-Einbrüche zu verhindern. Einfacher umzusetzen wäre daher ein privater IFcache der GPU oder ein gemeinsamer LLC Cache der für die CPU wie ein L4 aussieht. Dann können die Zen5 Kerne ähnlich wie im Desktop bleiben.
Wie man an Navi24 sieht würden 16mb vermutlich ausreichen als GPU-Cache.
Immerhin gibt es einige Gerüchte auf einen völligen Umbau des Cache Systems bei Zen5. Vielleicht ist das ja auch eine Vorbereitung auf den shared LLC (unabhängig ob der für die CPU ein L3 oder L4 ist).

robbitop

2023-01-21, 17:35:04

Naja seit kurzem machen sie ja 2x APUs. Rembrandt und Mendocino. Phoenix und Phoenix 2.
Bereits Phoenix hat 12 RDNA3 CUs mit bis zu 3 GHz.

Die Gerüchte von RGT für Strix Point sind 24 CUs basierend auf RDNA3+ und bis zu 32 mb IF$ und Zen 5.

Alles im zweiten Absatz sehe ich auch so. :)

MSABK

2023-01-21, 18:48:43

DozerDave

2023-01-21, 19:15:01

Fragst du nach Desktop oder Mobile?

Am Desktop sieht es so aus:
N31XTX, N31XT
N32XT, N32XL
N33XT, N33XL

Navi33 hat extrem viele SKUs:
Mobile: RX7600M, RX7600M XT, RX7600S, RX7700S
Desktop : RX 7700XT, RX7700.
Die 7700(XT) sind für Desktop vorgesehen und werden sehr hoch takten. Die 7600er sind mobile und takten niedriger. Die 7700s taktet moderat hoch.
Am Notebook:
N32XT, N32XL
N33XT, N33XL

200mm^2 ist bisher die kleinste RDNA3 GPU. Die Leistungsbereich darunter werden vermutlich mit APU wie Phoenix und Navi24 6nm abgedeckt.
Die sehr erfolgreiche 7nm Fertigung läuft auf jeden Fall langsam aus bei AMD.

Hier die offizielle Angabe:
https://www.amd.com/de/products/graphics/amd-radeon-rx-7700s

32CU - 2048SP
100W Leistung
20.5/41 Tflops fp32/fp16
13.3 Mrd. Transistoren
32MB IF$
8GB VRAM
288 GB/s Bandbreite

Frage nach Desktop.
Wird mal wieder Zeit für eine brauchbare 250€ Grafikkarte.
Aber das ist wohl unrealistisch.

Nightspider

2023-01-21, 19:33:40

Mit Phoenix ist die Die Size ja erstmal wieder gesunken auf 178mm² von Rembrandt mit 208mm². Phoenix ist somit 14,5% kleiner.

Strix Point müsste in der Tat deutlich größer werden für die dicken Zen5 Kerne, eine fast doppelt so große IGP und zusätzlichen IF$.

Falls tatsächlich N3(E?) genutzt werden sollte, wird das ein recht teurer Chip.

robbitop

2023-01-21, 20:00:04

Ggf kann man dafür halt mehr nehmen. Premiumprodukt.

Nightspider

2023-01-21, 20:09:51

Falls der Cache ebenfalls in einem monolithischen Chip sitzen würde, wäre der Cache ~50% teurer in einem N3 Prozess, weil der Cache nicht kleiner wird im neuen Prozess.

Wenn da tatsächlich 32MiB monolithisch drauf wären wäre das so, als hätte man bei Rembrandt 48MiB verbaut, vom Preis gesehen.

Deswegen fällt es mir bisschen schwer das zu glauben, da Rembrandt noch nicht mal 16MiB bekommen hat.

Imo sollte AMD da eher zweigleisig fahren, eine APU mit kleiner IGP und eine APU mit größerer IGP anbieten.
Und nein, Mendocino zähle ich dabei nicht, weil alte CPU Architektur.

robbitop

2023-01-21, 22:22:11

Naja sram shrinkt ja nicht gar nicht mehr. Nur weniger als die Logiktransistoren. Ggf machen sie ja auch was mit chiplets oder stacking.

mczak

2023-01-21, 23:03:02

Naja sram shrinkt ja nicht gar nicht mehr. Nur weniger als die Logiktransistoren. Ggf machen sie ja auch was mit chiplets oder stacking.
Bei TSMC N3E soll sram tatsächlich überhaupt nicht shrinken gegenüber N5, was imho schon ziemlich erstaunlich ist: https://www.anandtech.com/show/18727/tsmcs-3nm-journey-slow-ramp-huge-investments-big-future. Aber gut der Cache insgesamt sollte noch etwas shrinken weil da ja auch etwas Logik dazugehört aber viel wird's wohl nicht sein. Das würde dann in der Tat das Auslagern des Caches auf ein anderes Die (wie auch immer realisiert) nochmal interessanter machen.

=Floi=

2023-01-22, 02:41:28

Die apus stehen mit der bandbreite an.

reaperrr

2023-01-22, 03:50:59

Bei TSMC N3E soll sram tatsächlich überhaupt nicht shrinken gegenüber N5, was imho schon ziemlich erstaunlich ist: https://www.anandtech.com/show/18727/tsmcs-3nm-journey-slow-ramp-huge-investments-big-future. Aber gut der Cache insgesamt sollte noch etwas shrinken weil da ja auch etwas Logik dazugehört aber viel wird's wohl nicht sein. Das würde dann in der Tat das Auslagern des Caches auf ein anderes Die (wie auch immer realisiert) nochmal interessanter machen.
Gab es nicht schon von MLID oder RGT das (mMn in diesem Fall glaubwürdige) Gerücht, dass bei Zen5 nur noch ein (shared) L2 im CCD steckt und der L3 komplett ausgelagert wird?

Sinn machen würde es jedenfalls. Es ist ja schon bei Zen4 so, dass die CCDs in N5 allein wegen des verdoppelten L2 fast so groß sind wie die Zen3 CCDs in N7. Wenn bei Zen5 die CCDs nicht größer werden sollen, aber trotzdem mehr Cache her soll (und irgendwann MUSS AMD die Caches weiter vergrößern, weil SRAM der Punkt ist, in dem Intels Fabs am konkurrenzfähigsten sind und der ADL/RTL ggü. Zen3/4 den A... gerettet hat), geht es quasi gar nicht anders.

Ideal von Kosten/Nutzen wäre wahrscheinlich CCD in N3E, und dann entweder I/O in N6 und L3 in N5/4(P), oder ein neuer I/O-Die MIT (stacked?) L3 in N5/N4(P).

Nightspider

2023-01-22, 03:54:14

Cache in N5/N4 macht keinen Sinn, wenn dürfte der Cache auch in N6 kommen.

Aber ja - wenn man den Cache bei Strix Point stacken wird, wird man wohl auch gleich den IO Chip mit neuen Methoden stacken/anbinden, ohne das der Verbrauch steigt wie bei bisherigen Chiplet CPUs.

robbitop

2023-01-22, 09:55:37

Die Frage ist ab wann sich das lohnt. Moderne Packaging Methoden kosten ja auch Geld und die Interkommunikation kostet auch wieder Fläche. 32 MiB sind dann wahrscheinlich so um die 25mm² in N3E/N5. 16 MiB ggf. so 12 mm². Letzteres würde als zusätzlicher IF$ ggf. sogar schon reichen. Ob sich da teure Packagingmethoden dafür noch lohnen oder lieber die paar mm² einfach akzeptieren?

HOT

2023-01-22, 11:04:46

Wenn man Cache+I/O in einem N6-Die kombinieren möchte, wäre es aber extrem sinnvoll das CCD auf das IOD zu stacken und hier den Cache zu integrieren. Damit würde man auch das Problem lösen, dass das CCD nicht mittig im Package sitzt.

Sowas wird mMn aber erst bei Zen6 umgesetzt. Bei Zen5 erwarte ich ein CCD mit 3 IF-Links (was ja für Server auch schon prophezeit wurde) und ein komplett anderes Package mit gedrehten CCDs, die direkt verbunden sind über je 2 Links, aber dasselbe IOD wie jetzt. Die 32MB werden auch hier mMn auf dem CCD bleiben, die Implementierung kann sich aber dennoch ändern. MMn wird einfach das CCD wieder auf >80mm², vielleicht gar in Richtung 90mm², wachsen.

robbitop

2023-01-22, 11:25:19

Na die Frage ist ob sie bei den mobile APUs so schnell vom monolithischen Die weg gehen.

reaperrr

2023-01-22, 12:33:32

Na die Frage ist ob sie bei den mobile APUs so schnell vom monolithischen Die weg gehen.
Also ich habe mich nur auf die Desktop-Modelle bezogen, APUs sind ne andere Geschichte.

Mein Tipp für die Zen5 APUs: Wenn ein 8C-CCD/CCX bei Zen5 einen von allen CPU-Kernen geteilten L2 hat und dieser groß genug ausfällt (Kernzahl x 2), fällt der L3/IF$ bei den monolithischen APUs vielleicht einfach wieder komplett weg, jedenfalls bei den Mainstream-Modellen. Eventuell gibt es den dann noch optional bei den schnellsten Modellen als wie auch immer angebundenes Chiplet.

amdfanuwe

2023-01-22, 12:34:28

Na die Frage ist ob sie bei den mobile APUs so schnell vom monolithischen Die weg gehen.
Ist doch nur eine Kostenfrage.
Wenn es billiger ist I/O und SRAM auszulagern ohne wesentlich Leistung zu verlieren, wird man das machen.

Platos

2023-01-22, 13:11:25

Die APUs im Laptopmarkt werden sicherlich immer monolithisch bleiben, solange sie den Teillaststromverbrauch nicht modernisieren können.

Und deswegen denke ich, dass dann auch die Desktop-Linie da nicht anders sein wird.

HOT

2023-01-22, 14:26:53

Na die Frage ist ob sie bei den mobile APUs so schnell vom monolithischen Die weg gehen.
Wenn das so gemacht wird, wie ich das oben beschrieben hab, dann ja. Strix Point hingegen wird sicherlich ähnlich ausfallen wie Pheonix Point. Da ist mMn nix mit stacking, das Teil bleibt monolithisch, mit integriertem L3. Ab Zen6 hat man dann wieder eine CPU/APU, nur das IOD müsste sich dann unterscheiden - große oder kleine IGP und 1 oder 2 Stackingplätze für CCDs. Wenn man das weiter spinnt, könnte man das IOD dann sogar unterschiedlich fertigen: Für CPUs in N6 mit RDNA2 für 2 CCDs weiterhin und für APUs in N4 mit RDNA3/4 für nur 1 CCD. Bei Zen6 könnte man dann sogar in ein CCD 4 Zen6 und 8 Zen6c einbauen, dann wäre die Zeit reif für 12C per Standard und APU und 24C erweitert. Bei Zen5 wird man sicherlich erst mal die Verbindung zwischen den CCDs etablieren, ansonsten sehe ich die Zen5-Generation exakt analog zur Zen4-Generation. Große Innovation beim I/O sehe ich erst danach.

robbitop

2023-01-22, 15:54:02

Ist doch nur eine Kostenfrage.
Wenn es billiger ist I/O und SRAM auszulagern ohne wesentlich Leistung zu verlieren, wird man das machen.
Das ist schon klar. :) Wobei ich vermute, dass zumindest noch die power constraints auch eine Rolle spielen. Die Dinger sollen ja auch im idle super sparsam sein und auch bei Last gut in die 15 W Klasse passen. Die Chiplets CPUs saufen zumindest bis dato im Idle durch den IO Kram dafür noch zu viel.

davidzo

2023-01-22, 17:29:10

Die APUs im Laptopmarkt werden sicherlich immer monolithisch bleiben, solange sie den Teillaststromverbrauch nicht modernisieren können.

Vorsicht, die Desktop CPUs sind ASE MCMs und Navi31 ist Cowos R+. Ersteres ein normales Package und microbumps, letzteres nutzt einen organischen Interposer mit immer noch recht hohem powerdraw pro pin.
Echtes Silicon stacking kann viel sparsamer sein. Sieht man ja beim 5800x3d, der sich vom 5800 um gerade mal 3Watt im idle (identisch zum r5 3600) unterscheidet. Das kann schon die static power des riesigen caches sein für den page refresh.

Intel hat bei lakefield, also einen ultra low Power SOC auch Chip stacking sogar mehrer DIEs verwendet (DRAM, CPU, SOC). Wenn das in der Theorie viel mehr Power verbrauchen würde, dann hätte man das sicher nicht so designed.

Für eine echte mobile-CPU kann man das mit Powergating einzelner Cachebänke wie es es bereits für Intels Dothan gab und natürlich von Teilend des i/o DIes
und von einzelnen Kanälen des Speichercontrollers kombinieren.

Stacked Cache oder Cache im i/o DIE macht schon Sinn
- Ich rechne nicht mit 16 Kernen im Ultramobile. 8x Kerne sind ohne i/o und Cache aber nur 30mm in 5nm bei Zen4. 8 Zen5 Kerne in 3nm sind eher kleiner als größer. So kleine DIEs sind nicht mehr so wirtschaftlich, da nimmt der Verschnitt zu und es ist auch schwierig zu montieren und kühlen.
- Navi24 ist mit 16CU und Cache 107mm2 groß. In 3nm wäre das gerade mal die Hälfte. Zusammen mit 8 CPUkernen ohne L3 können das trotz 24CU noch unter 120mm2 werden in N3.
- Vielleicht liegt das i/o und Cache Die ja diesmal sogar unten, das vereinfacht die Kühlung und den RDL für die i/o pins.

Neurosphere

2023-01-22, 20:41:13

https://twitter.com/All_The_Watts/status/1617195441728245762

All RDNA3 refresh cancel.

All RDNA3 SKU miss perform & efficient target.

RDNA3 bad all platform.

Jensen win.

Also keine 7x50er sondern gleich RDNA4?

DeadMeat

2023-01-22, 20:44:31

Der "Hardwarebug" leaker canceled seine eigenen refresh leakes.

Iscaran

2023-01-22, 20:47:59

Das würde aber auch heissen denke ich, dass der "Bug" in RDNA3 nicht so einfach "fixable" ist...

DeadMeat

2023-01-22, 20:58:32

Falls es einen Bug tatsälich gibt, ja.

Vielleicht lohnt sich der Refresh wegen verfehlten Zielen einfach schlicht nicht, falls denn dieses Gerücht stimmen würde immerhin gabs auch bisher keinen Hinweis auf einen refresh.

Platos

2023-01-22, 21:05:19

Vorsicht, die Desktop CPUs sind ASE MCMs und Navi31 ist Cowos R+. Ersteres ein normales Package und microbumps, letzteres nutzt einen organischen Interposer mit immer noch recht hohem powerdraw pro pin.
Echtes Silicon stacking kann viel sparsamer sein. Sieht man ja beim 5800x3d, der sich vom 5800 um gerade mal 3Watt im idle (identisch zum r5 3600) unterscheidet. Das kann schon die static power des riesigen caches sein für den page refresh.

Intel hat bei lakefield, also einen ultra low Power SOC auch Chip stacking sogar mehrer DIEs verwendet (DRAM, CPU, SOC). Wenn das in der Theorie viel mehr Power verbrauchen würde, dann hätte man das sicher nicht so designed.

Für eine echte mobile-CPU kann man das mit Powergating einzelner Cachebänke wie es es bereits für Intels Dothan gab und natürlich von Teilend des i/o DIes
und von einzelnen Kanälen des Speichercontrollers kombinieren.

Stacked Cache oder Cache im i/o DIE macht schon Sinn
- Ich rechne nicht mit 16 Kernen im Ultramobile. 8x Kerne sind ohne i/o und Cache aber nur 30mm in 5nm bei Zen4. 8 Zen5 Kerne in 3nm sind eher kleiner als größer. So kleine DIEs sind nicht mehr so wirtschaftlich, da nimmt der Verschnitt zu und es ist auch schwierig zu montieren und kühlen.
- Navi24 ist mit 16CU und Cache 107mm2 groß. In 3nm wäre das gerade mal die Hälfte. Zusammen mit 8 CPUkernen ohne L3 können das trotz 24CU noch unter 120mm2 werden in N3.
- Vielleicht liegt das i/o und Cache Die ja diesmal sogar unten, das vereinfacht die Kühlung und den RDL für die i/o pins.

Ich meinte nicht, dass es mit Chiplets nicht möglich ist, nur eben, dass es bei AMD mit jetziger Ausführung nicht möglich ist.

Solange sie nicht bessere (energiesparende) Interconnects nutzen (wie Intel hoffentlich bald mit foveros) oder wie TSMC (was sie ja beim Cache-DIE verwendet haben, glaube ich), wird das eben nix.

Die müssen bei den Chiplets eben auf ne modernere Interconnects setzen.

Dann ist das kein Problem mehr. Aber mit der jetzigen Ausführung eben nicht.

M4xw0lf

2023-01-22, 21:15:14

https://twitter.com/All_The_Watts/status/1617195441728245762

Also keine 7x50er sondern gleich RDNA4?
Der hat auch kurz vor Zen4 X3D-Reveal noch von L3-Caches fabuliert, die cache-Chiplets auf beiden CCDs gebraucht hätten.

MSABK

2023-01-22, 22:03:17

Könnte ja auch sein dass Chiplets in GPUs einfach nicht funktionieren und sie wieder auf monolithisch gehen.

Schnitzl

2023-01-22, 22:59:10

Könnte ja auch sein dass Chiplets in GPUs einfach nicht funktionieren und sie wieder auf monolithisch gehen.
Das wäre ziemlich fatal.
Aber ich glaube da nicht so recht dran. Es war einfach der 1.Versuch und da kann jetzt AMD draus lernen. Schade dass sie keinen monolithischen Big Navi3 als Backup haben, aber das war wohl Rescourcentechnisch nicht möglich.

Ist auch die Frage wie verlässlich dieser Leaker ist ...

Langlay

2023-01-22, 23:28:57

Ist auch die Frage wie verlässlich dieser Leaker ist ...

Offensichtlicher Weise garnet, wenn erst geleakt wird Navi31 ist buggy aber mit Navi32 ist alles super. Zu jetzt ist alles scheisse und was besseres kommt mit RDNA3 nimmer.

Exxtreme

2023-01-22, 23:30:23

Könnte ja auch sein dass Chiplets in GPUs einfach nicht funktionieren und sie wieder auf monolithisch gehen.

Funktionieren tut es ja schon. Ist ja nicht so, das RDNA3 nicht läuft. Sticht die Vorgängergeneration in praktisch allen Disziplinen aus.

MSABK

2023-01-23, 00:02:56

Funktionieren tut es ja schon. Ist ja nicht so, das RDNA3 nicht läuft. Sticht die Vorgängergeneration in praktisch allen Disziplinen aus.

Energieverbrauch ist insbesondere abseits Gaming hat mal einfach paar Schritte zurück gemacht.

=Floi=

2023-01-23, 00:50:52

Funktionieren tut es ja schon. Ist ja nicht so, das RDNA3 nicht läuft. Sticht die Vorgängergeneration in praktisch allen Disziplinen aus.

Wir bräuchten mal einen thread zu den theoretischen tflops. Bei NV schiessen die auch in den himmel und es dürfte max 50-70% ausgelastet sein.
Ich hätte gerne mal benchmarks, wo die karten ihre flops auf den boden bekommen. Das ganze erinnert hart an kepler, wo die flops auch nur fürs papier gut waren.

wie ist denn die mining performance der aktuellen karten?

Nightspider

2023-01-23, 02:33:44

- Navi24 ist mit 16CU und Cache 107mm2 groß. In 3nm wäre das gerade mal die Hälfte. Zusammen mit 8 CPUkernen ohne L3 können das trotz 24CU noch unter 120mm2 werden in N3.

Da bist du zu optimistisch, denke ich.

Nur die CUs skalieren noch gut mit dem Node und die CUs machen gerade mal, grob über den Daumen gepeilt, 40% des Chips aus.

https://cdn.wccftech.com/wp-content/uploads/2022/01/AMD-Radeon-Pro-W6400-Graphics-Card-_4.webp

Wenn die 40% ideal von N6 auf N3 skalieren sparst du viel aber die restliche 60% vom Chip skalieren schlecht bis kaum.

Nehmen wir mal an diese 40% halbieren sich zu N3 und die 60% skalieren nur zu 20%, dann wäre N24 in N3 rund 68% seiner ursprünglichen Größe, du hättest 32% durch N3 an Fläche gespart während der Prozess ungefähr doppelt so teuer sein müsste wie N6.

Am meisten hilft es so viel Logik (CUs) wie möglich in den Chip zu quetschen, weil billig und den Cache/IO rauszuholen und zu stacken.

Zudem ist es ja auch von Vorteil beim Platzbedarf, wenn immer mehr gestapelt wird. Bei Apple sitzt der LPPDR5 schon auf dem Package.

TSMC baut ja fleißig neue Fabriken für die neuen Packaging Methoden. Was wir aktuell bei N31 und demnächst bei N32 sehen, werden wir in den nächsten Jahren auch in den niedrigeren Preisgefilden vorfinden.

Und was die Bandbreite angeht:
Wieso nutzt Apple so viele LPDDR5 Channel um extrem hohe Bandbreiten zu erreichen und wieso macht das AMD nicht?
Nur wegen der Flexibilität bei der Größe des Speicherausbaus?
Gibt doch auch LPDDR5 Chips in verschiedenen Größen.

Wir bräuchten mal einen thread zu den theoretischen tflops. Bei NV schiessen die auch in den himmel und es dürfte max 50-70% ausgelastet sein.

Jepp, die Tflops haben einfach 0 Aussagekraft in der heutigen Zeit.

Ich verstehe auch nicht ganz wieso die Tflops immer absurder steigen und davon nur ein Bruchteil ankommt, dann hätte man doch das Chipdesign ganz anders konzipieren müssen.

=Floi=

2023-01-23, 04:04:32

Du würdest das ganze produktportfolio durcheinanderbringen.
Mit 100-150gb/sek würde auch die cpu schneller sein und so die größeren modelle kanibalisieren. Preise würden auch steigen und die APUs sind einfach etwas für (moderne) bürorechner.

Irgendwann tritt auch der kostenpunkt für die komplexere software in den vordergrund.

OEM preise für die cpus dürften eher bis max 200$ gehen. Und zu allerletzt reicht die performance ja aus.

Bei laptops ist heute 15W der stand der technik und nicht mehr 45-65watt.

Nightspider

2023-01-23, 05:10:56

Nightspider

2023-01-23, 07:05:00

dargo

2023-01-23, 07:55:38

RGT hat auch von manchen Quellen gehört, dass der Refresh gekillt wurde...
Oder es wird eine einzige Quelle die Gerüchte streut wieder querbeet nachgeplappert. :freak:

dildo4u

2023-01-23, 08:01:06

CPUs profitieren kaum von Bandbreite. Da gibts nur wenige Anwendungen die ein kleines bisschen profitieren.

Würde mich mal interessieren wie viel teuer LPDDR5 Speicher ist.
Aber ja, ein bisschen teurer wird der schon sein aber wenn man sich dafür Cache im teuren N3 sparen könnte, könnte ich mir das schon als Alternative vorstellen.

Für Bürorechner könnte AMD Rembrandt spamen aber Rembrandt gibts ja noch nicht mal für AM5 oder AM4, warum auch immer.

AMD hat Kapazitäts Probleme es gibt bis Heute kaum Mobile Geräte mit den besten 15 Watt Chips.(6800U)
Daher werden sie Rembrandt R wieder für Notebook Markt beschränken, bisher sind sie besser gefahren alles was sie Haben als 35 Watt Modelle zu verkaufen.(6900HS höhere Preise?)
Ich bezweifle das sie dieses Jahr Apple/Intel alles unter 35 Watt überlassen wollen.

Exxtreme

2023-01-23, 08:21:23

CPUs profitieren kaum von Bandbreite. Da gibts nur wenige Anwendungen die ein kleines bisschen profitieren.

Was aber viel mehr an den Anwendungen liegt. Diese sind hochgradig darauf optimiert im CPU-Cache zu laufen und es wird immer versucht den Zugriff auf den RAM zu sparen. Es gibt aber Architekturen wo das nicht so ist. IBM Mainframes zum Beispiel. Aber die packen auch mehrere Terabyte Durchsatz pro Sekunde. Wäre der PC auch so dann würde man das wohl auch nutzen.

Der_Korken

2023-01-23, 09:28:44

RGT hat auch von manchen Quellen gehört, dass der Refresh gekillt wurde auch wenn andere Quellen wieder etwas anderes sagten:

https://www.youtube.com/watch?v=Gi4O55_dGOY

Angeblich hat AMD nicht Kapazitäten frei und konzentriert sich lieber auf die neuen Projekte.

Ich nehme mal an CDNA3 und RDNA4 fressen genug Manpower.

Prinzipiell kann das erstmal plausibel sein. Man hat ja gemerkt wie unfertig RDNA3 als ganzes zum Release war und teilweise immer noch ist. Wenn die eh schon hinter ihren Zeitplan sind dann streicht man das lieber. Die Gerüchte zum Design-Bug beinhalteten den Zusatz, dass AMD den Fehler verstanden hat, ihn aber nicht mehr fixen konnte ohne massive Verspätungen. In dem Fall wäre RDNA4 davon nicht betroffen, d.h. es wäre ein großes ungeplantes Bugfix-Projekt, aus dem man nichts neues lernen sondern lediglich N31 durch eine verbesserte Version ersetzen würde. Und es ist auch nicht klar wie viel schneller ein N31+ am Ende wäre. Für 10-15% mehr Leistung lohnt sich der Aufwand generell vielleicht auch nicht. N32 will tell.

robbitop

2023-01-23, 09:57:12

Eine GPU uArch dauert bis zu 5 Jahre vom Konzept zum Verkaufsstart. Entsprechend muss man Engineering Resources ziemlich im Voraus planen. Mit 2-3 Teams, die dann sich gegenseitig Leapfroggen. Ein mehr oder weniger spontaner Refresh ist dann, je nach dem wie aufwändig das ist, nicht spontan drin, ohne zukünftige Dinge zu verschieben. Ist IMO schon nachvollziehbar.

Nightspider

2023-01-23, 09:57:42

Falls N32 und Phoenix etwas weniger stark von diesem Designfehler ausgebremst werden, können wir davon vielleicht ja etwas extrapolieren, was bei N31 unterm Strich fehlt.

Eine GPU uArch dauert bis zu 5 Jahre vom Konzept zum Verkaufsstart. Entsprechend muss man Engineering Resources ziemlich im Voraus planen. Mit 2-3 Teams, die dann sich gegenseitig Leapfroggen. Ein mehr oder weniger spontaner Refresh ist dann, je nach dem wie aufwändig das ist, nicht spontan drin, ohne zukünftige Dinge zu verschieben. Ist IMO schon nachvollziehbar.

Zumal andere Projekte finanziell deutlich wichtiger sind für AMD als Firma, wie beispielsweise CDNA3.

Unterm Strich gewinnt man mit RDNA3 keine Krone aber man macht zumindest etwas Gewinn damit.

Exxtreme

2023-01-23, 10:21:36

Prinzipiell kann das erstmal plausibel sein. Man hat ja gemerkt wie unfertig RDNA3 als ganzes zum Release war und teilweise immer noch ist. Wenn die eh schon hinter ihren Zeitplan sind dann streicht man das lieber. Die Gerüchte zum Design-Bug beinhalteten den Zusatz, dass AMD den Fehler verstanden hat, ihn aber nicht mehr fixen konnte ohne massive Verspätungen. In dem Fall wäre RDNA4 davon nicht betroffen, d.h. es wäre ein großes ungeplantes Bugfix-Projekt, aus dem man nichts neues lernen sondern lediglich N31 durch eine verbesserte Version ersetzen würde. Und es ist auch nicht klar wie viel schneller ein N31+ am Ende wäre. Für 10-15% mehr Leistung lohnt sich der Aufwand generell vielleicht auch nicht. N32 will tell.

Das Überspringen des Refreshes kann auch ganz andere Gründe haben. Kann sein, dass das Team, welches an RDNA4 arbeitet viel weiter ist als ursprünglich angenommen. Dann wäre ein Refresh auch totaler BS wenn man 4 Monate später mit RDNA4 starten kann. Oder sie sind der Meinung, dass RDNA3 eigentlich gut genug ist und es besser ist sich auf Midrange- und Lowbudget zu konzentrieren weil man hier am meisten Marktanteile holen kann.

amdfanuwe

2023-01-23, 10:35:01

Zudem ist es ja auch von Vorteil beim Platzbedarf, wenn immer mehr gestapelt wird. Bei Apple sitzt der LPPDR5 schon auf dem Package.

Den LPDDR aufs Package setzen ist keine Kunst, nur normale Verbindungen auf dem Package wie bei AMD zwischen I/O und Chiplets.

TSMC baut ja fleißig neue Fabriken für die neuen Packaging Methoden. Was wir aktuell bei N31 und demnächst bei N32 sehen, werden wir in den nächsten Jahren auch in den niedrigeren Preisgefilden vorfinden.

Seh ich auch so, da wird jetzt erst durchgestartet und AMD hat schon direct Copper to Copper (beim 3D Cache, nennt Intel Favores direct und plant das für 2024) und Infinity Fanout Links bei N31/N32 in Serie.
Erst wenn etwas in Serie ist, kann man die Kosten, Yield und sonstige Vor und Nachteile real bestimmen und für zukünftige Produkte entsprechend einplanen.
Da arbeitet AMD mit TSMC an vorderster Front.

Und was die Bandbreite angeht:
Wieso nutzt Apple so viele LPDDR5 Channel um extrem hohe Bandbreiten zu erreichen und wieso macht das AMD nicht?
Nur wegen der Flexibilität bei der Größe des Speicherausbaus?
Gibt doch auch LPDDR5 Chips in verschiedenen Größen.

Kosten.
16GB LPDDR5 gibt es noch nicht so lange und die dürften noch ziemlich teuer sein. Ähnlich wie bei HBM sind in solch einem LPDDR Package auch mehrere Chips gestapelt. Samsung arbeitet an 64 GB Chips mit einem 32er Stapel.
Apple sind die Kosten egal, weil sie mit entsprechendem Premium Aufschlag verkaufen können. Da kann man sich die neueste teure Fertigungstechnologie teuren Speicher und sonstige Gimmiks leisten.

Wenn 16GB LPDDR zu akzeptablen Preisen für die Masse verfügbar ist, wird AMD das sicherlich auch nutzen.

--------------

Und Leute, mal überlegen, wie das in der Industrie abläuft.
Geht nicht alles von heut auf Morgen.
AMD baut auch keine Notebooks. Das machen die OEMs und die haben dann nochmals einige Monate Vorlaufzeit, bis das Produkt im Handel landet.
Letztes Jahren war AMD Kapazitätsbeschränkt, dieses Jahr wollen die OEMs schon wieder die neuen Produkte.
AMD kann ja auch nicht beliebig auf Halde Produzieren, die wollen ihr Zeug ja auch verkaufen, sieht man ja auch an den GPUs nach dem Miningeinbruch.
Schon liegt die Ware wie Beton im Lager. Umgekehrt kann man bei plötzlicher Nachfrage nicht einfach die Produktion hochfahren.

---------

APU mit LPDDR on Package hat sicherlich seinen Reiz und mit 16GB oder 32GB auch brauchbare Größen. Ob das dann aber noch für Desktop interessant ist?
Da reichen kleine Boards mit einer SSD dran und fertig ist der PC. Das ist was für Notebooks oder Mini PCs mit verlöteter CPU. Denke nicht, dass sowas in einen Sockel für Desktop kommt.

Der_Korken

2023-01-23, 11:24:37

Das Überspringen des Refreshes kann auch ganz andere Gründe haben. Kann sein, dass das Team, welches an RDNA4 arbeitet viel weiter ist als ursprünglich angenommen. Dann wäre ein Refresh auch totaler BS wenn man 4 Monate später mit RDNA4 starten kann. Oder sie sind der Meinung, dass RDNA3 eigentlich gut genug ist und es besser ist sich auf Midrange- und Lowbudget zu konzentrieren weil man hier am meisten Marktanteile holen kann.

So optimistisch wäre ich bei RDNA4 jetzt nicht, dass sich das mit einem RDNA3-Refresh überlappt. Ich würde auch letzteres tippen, dass AMD sich lieber mit N32 und N33 auf die Midrange- und Performance-Segmente konzentrieren will und Highend einfach auslässt. Haben sie bei RDNA1 quasi auch gemacht, wo sie nur bis zur RTX2070 mitkonkurriert haben. Bei CB habe ich heute erst gelesen, dass die 4070Ti aktuell die bei Mindfactory meistverkaufte Karte der Woche ist. Oberhalb von 1000€ wird der Käuferkreis eben dünn und unten gibts theoretisch noch die Leute, die während des Mining-Booms leer ausgegangen sind, aber keinen alten Kram mehr nachkaufen wollen.

amdfanuwe

2023-01-23, 12:34:16

RDNA3 ist nicht das strahlende nonplusultra Produkt.
Aber was soll es? Die 7900er bringen ihre Leistung und wenn der Preis stimmt ist das doch OK.
Dumm nur für AMD, dass sie damit nicht die erwartete Gewinnspanne erreichen.

HOT

2023-01-23, 13:55:32

Bei RDNA4 werden die Karten neu gemischt. Das würd ich noch nicht abschreiben. Mal sehen, in welche Richtung sich das mit den Chiplets entwickelt. Theoretisch kann man deutlich mehr mm² bringen als jetzt und nach den negativen RDNA3-Erfahrungen wäre das jetzt auch angebracht! RDNA3 wird vor allem implementierungstechnisch ein Schlag ins Wasser gewesen sein, Prämisse war halt offenbar wirklich so wenig mm² wie möglich, war ne blöde Idee. Ich hätt nicht gedacht, dass da jemand so doof ist, sowas zu versuchen bei ner GPU.

amdfanuwe

2023-01-23, 14:12:39

Mal MI300 abwarten.
Meine Spekulation geht dahin, dass dort 2 x 200mm² GPU Chiplets auf einem Base Die gepackt werden.
Kleinere Dies haben halt besseren Yield und lassen sich besser selektieren.

mksn7

2023-01-23, 14:41:09

Zumal andere Projekte finanziell deutlich wichtiger sind für AMD als Firma, wie beispielsweise CDNA3.

Wenn man sich CDNA2 anschaut, muss man leider sagen dass AMD da bisher nicht allzuviel Aufwand in die Architektur gesteckt hat. Ist immer noch der gleiche, 10 Jahre alte Kram wie die erste GCN Iteration. Ok, die Ausführungseinheiten wurden aufgebohrt. Aber alles was ein bisschen komplizierter ist hat man nicht angefasst.

Ich glaube nicht dass AMD damit rechnet da allzubald allzuviel Geld mit zu verdienen. MI300 hat von der Systemintegration mal wirklich ein Alleinstellungsmerkmal, aber ich bin mal gespannt ob sie die anderen Baustellen (L1 cache...) mal anfassen.

HOT

2023-01-23, 15:02:12

So optimistisch wäre ich bei RDNA4 jetzt nicht, dass sich das mit einem RDNA3-Refresh überlappt. Ich würde auch letzteres tippen, dass AMD sich lieber mit N32 und N33 auf die Midrange- und Performance-Segmente konzentrieren will und Highend einfach auslässt. Haben sie bei RDNA1 quasi auch gemacht, wo sie nur bis zur RTX2070 mitkonkurriert haben. Bei CB habe ich heute erst gelesen, dass die 4070Ti aktuell die bei Mindfactory meistverkaufte Karte der Woche ist. Oberhalb von 1000€ wird der Käuferkreis eben dünn und unten gibts theoretisch noch die Leute, die während des Mining-Booms leer ausgegangen sind, aber keinen alten Kram mehr nachkaufen wollen.
Ich glaube das stimmt nicht. Das Problem ist, dass diskrete Grafik einfach recht wenig zum Umsatz beiträgt. Aber AMD weiss um die Bedeutung von Enthusiastenprodukten. RDNA3 ist halt schiefgelaufen, das ist alles. Die Basteln keine Ultra-High-End-Chips um damit großartig Verkäufe zu machen, sondern um präsent zu sein.

Der_Korken

2023-01-23, 16:12:37

DozerDave

2023-01-23, 16:19:22

Oder es wird eine einzige Quelle die Gerüchte streut wieder querbeet nachgeplappert. :freak:

Abwarten was MLID demnächst von sich gibt 😂

Exxtreme

2023-01-23, 16:19:52

So optimistisch wäre ich bei RDNA4 jetzt nicht, dass sich das mit einem RDNA3-Refresh überlappt. Ich würde auch letzteres tippen, dass AMD sich lieber mit N32 und N33 auf die Midrange- und Performance-Segmente konzentrieren will und Highend einfach auslässt. Haben sie bei RDNA1 quasi auch gemacht, wo sie nur bis zur RTX2070 mitkonkurriert haben. Bei CB habe ich heute erst gelesen, dass die 4070Ti aktuell die bei Mindfactory meistverkaufte Karte der Woche ist. Oberhalb von 1000€ wird der Käuferkreis eben dünn und unten gibts theoretisch noch die Leute, die während des Mining-Booms leer ausgegangen sind, aber keinen alten Kram mehr nachkaufen wollen.

Mindfactory ist da nicht so wirklich repräsentativ da dort wahrscheinlich eher Bastler einkaufen. Und die kennen sich in aller Regel aus.

Warum AMD keinen Refresh bringt das weiss man im Endeffekt nicht genau. Lohnt sich womöglich nicht. Eventuell bekommt man den Stromverbrauch nicht in den Griff. Oder das Leistungsplus wäre so winzig, dass sich das gar nicht lohnt. Oder RDNA3 ist so billig herzustellen, dass ein höher getakteter Refresh mehr kosten würde etc. Sind alles Faktoren, die da einspielen können. Und übrigens, dass kein Refresh kommt ist ist AFAIK immer noch ein Gerücht und nirgendwo offiziell bestätigt.

HOT

2023-01-23, 16:20:48

Ist das nicht ein Widerspruch? Wenn diskrete GPUs wenig zum Umsatz beitragen, warum will man dann dort präsent sein? Ich finde am Beispiel von Zen 1 und 2 zeigt sich, dass man keine Halo-Produkte braucht, um erfolgreich zu sein, sondern gute Mainstream-Produkte. Gegen das dröflte 4-Kern-ohne-HT-Lineup von Intel hatte es AMD natürlich deutlich leichter als gegen Nvidia.
Na ja, die wollen ja in der Gewinnzone bleiben. Du brauchst die Enthusiastenprodukte um die kleineren Produkte zu pushen. Das war schon immer so. Es gab aber Zeiten, in denen AMD schlichtweg die Manpower nicht hatte, um entsprechende Produkte sauber zu entwickeln - und es gab echt dumme Entscheidungen. Fiji mit HBM war einfach dumm, denn es hat nichts gebracht aus meiner Sicht. HBM1 war denke ich ziemlich irrelevant für die Entwicklung für HBM2 und HBM2 ist nach wie vor irrelevant für GPUs. Als zweites gab es Vega, da war die Prämisse eben im professionellen Markt groß abzuräumen, das war aber kacke als GPU. Ein 450mm²-Polaris wär sicher stärker geworden. Wenn man das genau nimmt, war nur RDNA1 eine Generation ohne Enthusiastenprodukte (Hawaii zu GCN, Fiji zu GCN2, Vega zu Polaris) und das stimmt ja eigentlich auch nicht, denn da gab es Vega20. Dass V10 und V20 es nicht geschafft haben, den Anspruch zu erfüllen hat ähnliche Gründe wie bei RDNA3. Auch bei RDNA4 wirds wieder ein entsprechendes Produkt geben. Aber diesen Sparzwang, der zu Vega und RDNA3 geführt hat, muss man halt fahren lassen. Dann macht das Ding halt Verlust, hauptsache man ist Präsent und am besten on-Top. Dann gewinnt man auch Marktanteile. Sie Radeon 9700 oder X800. Das hat geklappt!

amdfanuwe

2023-01-23, 16:20:58

Complicated

2023-01-23, 16:26:51

Ist das nicht ein Widerspruch? Wenn diskrete GPUs wenig zum Umsatz beitragen, warum will man dann dort präsent sein? Ich finde am
Da die GPU-Entwicklung auch bei Server und mobilen Produkten IP generiert, denke ich ist das für AMD wichtig. Zudem ist der Großteil der IT-Presse gamerlastig. Auch für die Konsolen muss AMD an die max. Grenzen im Bezug zu Leistung-/Verbrauch gehen. Arbeit an GPU/CPU-Treibern ist hier dann auch schon vorgegeben. Die Leistung im kleinen Powerbudget wird oft über den Weg "Leistung zuerst" und dann über binning beim Verbrauch bestimmt.

Und der Markt lässt Nvidia überhaupt als Unternehmen so dastehen. Warum sollte AMD darauf verzichten, wenn sie die einzigen sind die überhaupt so nah dran sind. Schau mal was Intel investiert um da in die Nähe zu kommen. Erneut, nach schon gescheiterten versuchen.

HOT

2023-01-23, 16:34:13

Bei AMD geht es um mehr.
Sie brauchen gute Produkte für Semicustom, sie brauchen die IP für Mobile APUs und GPUs.
Da ist es hilfreich im populärem DIY vorne dabei zu sein.
Sonst gibt es die nächste Playstation von Intel oder mit ARM CPU von Nvidia.
Im Notebookmarkt wird es bald losgehen mit C(A)PU und GPU Bundle von einem Hersteller. Könnte noch übel werden für Nvidia, wenn die den Notebookmarkt verlieren.
Das kann zusammen hängen, aber ehrlichgesagt hab ich da Zweifel. AMD hat damals nur den Zuschlag bekommen, weil die scheiße-billig waren (Ultralativ :freak:) :D. Das hat sich nicht geändert. Solange AMD sich das nicht vergolden lässt, was NV und Intel tun würden, wird AMD auch da bleiben. Sekundär haste natürlich recht, denn ohne aktuelle GPU-Technik wird das halt nix, AMD ist hierdurch gezwungen am Ball zu bleiben.

Intel ist übrigens interessant in der Hinsicht. Intel wird erst mal vor allem Mainstream bleiben und echtes High-End erst mit Celestral oder gar Druid bringen. Aber sie streben genau da hin, aus genannten Gründen. Und da Intel im Mainstream präsent ist, mit BM sicherlich auch gut gelitten, sollte AMD mit RDNA4 diesmal echt voll zuschlagen und nicht wieder mit halber Kraft agieren oder dämlichen Kompromissen - oder total verkacktem Marketing, wie bei der 7k-Serie (obwohl, das war ein Hattrick, schlechte Entscheidungen, Unvermögen und schlechtes Marketing :freak:).

Apropos Marketing: Warum macht man diese beknackten Vorstellungen? Wenn das gut laufen soll, sucht euch doch ein Hitstudio aus, die haben Leute, die das vorstellen könnten und man hätte direkt einen großen Partner mit an Board, der verkauft. Ich versteh da sowieso nicht, warum es da keine Marketingparnterschaften gibt, die fruchtbar sind und genutzt werden. Man könnte da so geile Sachen machen. Die Amis sind doch eigentlich super in PR, aber im Techbereich wirds dann nur noch peinlich... Da müssen die Stars der Scene auf der Bühne stehen!

amdfanuwe

2023-01-23, 16:44:10

AMD hat damals nur den Zuschlag bekommen, weil die scheiße-billig waren (Ultralativ :freak:) :D.
Klar, solche APU Leistung konnten Intel oder Nvidia in dem Formfaktor einfach nicht liefern. Wäre die ganze Kiste wesentlich teurer geworden.

Complicated

2023-01-23, 16:48:02

HOT

2023-01-23, 16:50:05

Intel muss halt zunächst bei den Treibern aufholen, da ist es schwierig auf oberstem Level. Daher kann man hier erst einmal alle Erfahrungen sammeln ohne überteuert im neuesten Fertigungsprozeß oder am Limit der Chipgrößen viel Silizium zu verpulvern.

Hier bietet sich an Mainstream in dieser Phase zuerst konkurrenzfähig zu machen. Gleichwertig gute Treiber, mit der Konkurrenz verglichen, lassen sich dann meist in höhere Performanceklassen skalieren.
https://www.igorslab.de/intel-arc-770/

Das mit den Treiber geht schon, das kriegen die mit Alchemist schon hin. Bei BM versucht man sich so langsam an High-End heranzutasten. Es ist eben auch schwierig ne Architektur zu entwickeln, die so hoch skaliert und trotzdem effizient bleibt. So wie das für mich aussieht, probiert Intel grad alles aus, was man so machen kann: Refresh und Shrink mit Alchemist, bessere Skalierung mit BM, Enthusiastenbereich mit Celestral und Chiplets mit Druid. Das Teiberproblem wird nach Alchemist keines mehr sein.

aufkrawall

2023-01-23, 16:50:52

Im Notebookmarkt wird es bald losgehen mit C(A)PU und GPU Bundle von einem Hersteller. Könnte noch übel werden für Nvidia, wenn die den Notebookmarkt verlieren.
Wird von der Konkurrenz weder genug Stückzahl für Lowend geben, noch überhaupt nennenswert Konkurrenz für Highend. Notfalls verzichtet Nvidia minimal auf etwas Marge. Aber wahrscheinlich wird nicht mal das nötig sein, weil der Name zu sehr zieht.

DrFreaK666

2023-01-23, 17:52:38

lol, N31 ist gerade mal draußen, aber jetzt will man schon wissen, dass es kein Refresh von RDNA3 geben wird.
Leaker lagen in der Vergangenheit ja immer richtig

basix

2023-01-23, 18:07:37

Würde N31 so 15% höher takten (siehe Compute Benches) würde man sich gut genug von der 4080 absetzen können. Bei RT in vielen Spielen nicht weit weg sein. Wäre cool, wenn N33 und N32 eher in diese Richtung takten könnten.

Und ich hoffe, dass RDNA4 eher im Frühjahr 2024 kommt und wirklich gut wird. Das wäre sehr viel wert, da man damit vermutlich 3-6 Monate vor Nvidia dran wäre.

robbitop

2023-01-23, 18:14:54

Ich glaube das stimmt nicht. Das Problem ist, dass diskrete Grafik einfach recht wenig zum Umsatz beiträgt. Aber AMD weiss um die Bedeutung von Enthusiastenprodukten. RDNA3 ist halt schiefgelaufen, das ist alles. Die Basteln keine Ultra-High-End-Chips um damit großartig Verkäufe zu machen, sondern um präsent zu sein.
Vielleicht auch nur N31. N33 ist ja pro Transistor anscheinend schneller und energieefizienter als sein RDNA2 Pendant N23. Ggf wird N32 ja ein Stück besser.

Schnitzl

2023-01-23, 21:03:35

Vielleicht auch nur N31. N33 ist ja pro Transistor anscheinend schneller und energieefizienter als sein RDNA2 Pendant N23. Ggf wird N32 ja ein Stück besser.
ich wäre da sehr vorsichtig, vom gecrashten Hypetrain gleich auf den nächsten umzusteigen.
(nicht böse gemeint!)

ebenso ob N41 das alles wiedergutmachen kann ist komplett unsicher. Der ist ja auch schon Jahre in der Entwicklung. Kann man so spät noch umstellen von "Navi" nach "Big Navi" ?

Was ich mich gerade am meisten frage ist warum dauert N32 so lange, nVidia hat schon 3 Chips im Verkauf AMD gerade mal einen.

dargo

2023-01-23, 21:08:40

Was ich mich gerade am meisten frage ist warum dauert N32 so lange...
Ist doch nichts Ungewöhnliches, schau dir an wann N22 nach N21 kam. Da lagen 5 Monate dazwischen.

vinacis_vivids

2023-01-23, 21:26:08

AMD macht nicht nur GPUs, sondern auch viele CPU's, APUs usw. Die Produktpalette ist riesig und diskrete GPUs mit RDNA3 uArch wurden rein auf Kosten optimiert.
Die 200/300mm^2 GCD gepaart mit günstigen 6nm MCD können nun in hohen Stückzahlen abgesetzt werden.

Mit N32 wird AMD abwarten, weil die 7nm GPUs parallel abverkauft werden müssen (N21, N22, N23). N21 ist so gut wie abverkauft. N22 und N23 sind nach wie vor konkurrenzfähig in Preis-Leistung.

N32 ist ja deutlich billiger als N21 und wenn N32 schneller ist, lohnt sich das für AMD auf jeden Fall.

Ich denke in vielen Ländern ist N31 noch gar nicht angekommen. Über 1000$ für ne Grafikkarte ist in vielen Ländern einfach unbezahlbar. In Polen bspw. verdient der Durchschnitt 1000€ pro Monat. Abzüglich der Lebenserhaktung müssen diese Leute ein ganzes Jahr oder länger sparen, um sich eine Anschaffung von 1000€ überhaupt leisten zu können.

reaperrr

2023-01-24, 04:45:55

Was ich mich gerade am meisten frage ist warum dauert N32 so lange, nVidia hat schon 3 Chips im Verkauf AMD gerade mal einen.
Das ist bei AMD üblich, sie launchen die Karten halt in etwa dann, wenn der jeweilige Chip fertig ist.

Nvidia hat nach wie vor einen massiven Ressourcen-Vorteil, incl. bei Größe und/oder Zahl der Design-Teams, da lassen sich die Abstände wahrscheinlich etwas leichter klein halten.

Außerdem wird AD102 schlicht schon länger fertig gewesen sein (ist architekturell ja eigentlich kein großer Sprung von Ampere, nur der Prozess ist halt massiv besser), aber weil sie so viele Ampere produziert und zudem ein wenig Angst vor RDNA3 hatten (im Nachhinein natürlich zu Unrecht), haben sie mit dem 4090-Launch halt so lange gewartet, bis genug 3090 abverkauft und mehr Infos zu RDNA3 durchgesickert sind, wodurch AD103 und AD104 inzwischen dann halt auch fertig waren.

ebenso ob N41 das alles wiedergutmachen kann ist komplett unsicher. Der ist ja auch schon Jahre in der Entwicklung. Kann man so spät noch umstellen von "Navi" nach "Big Navi" ?
Zum Einen sind die Design-Teams nach dem Leap-Frogging-Ansatz aufgestellt, es werden zwar natürlich die Fortschritte der vorherigen Architektur teils übernommen, aber es ist nicht gesagt, dass RDNA4 so wahnsinnig viel von RDNA3 übernimmt bzw. dass RDNA4 die selben Designfehler enthält.
Zum Anderen heißt es ja, AMD hat schon rausgefunden woran es bei der RDNA3-Implementierung hauptsächlich hapert, nur zu spät für N31 und N33, aber offenbar nicht zu spät für N32 und damit dann natürlich erst recht nicht zu spät, um den/die Fehler bei N41 zu vermeiden/fixen, bevor es großartig Zeit kostet.

Neurosphere

2023-01-25, 06:29:58

https://twitter.com/All_The_Watts/status/1617957687182123008

N33 < RX 6750 XT
N33 >≈ RX 6650 XT

Damit wäre die ganze N3x Reihe doch deutlich am Ziel vorbei.

dildo4u

2023-01-25, 07:05:27

Es gibt doch schon Benches zur mobilen 7600XT ist genau das was man erwarten kann, AMD hat diese nur gegen 3060 gezeigt da eine 3060 Ti vermutlich zu schnell ist.
Die 4060 wird vermutlich ca so schnell wie die 3060 Ti wird aber 400 statt 350€ für die 7600XT kosten.

Exxtreme

2023-01-25, 08:29:05

https://twitter.com/All_The_Watts/status/1617957687182123008

Damit wäre die ganze N3x Reihe doch deutlich am Ziel vorbei.

Das ist bloß ein Gerücht. Und selbst wenn das stimmt, wenn die Preise stimmig sind dann passt das wieder.

Linmoum

2023-01-25, 09:23:49

"Wenn die Preise stimmen" ist bei AMD aber auch leider ein richtiges Totschlagargument - und macht Produkte und/oder Architekturen selbst leider auch nicht zwingend geiler. Nach RDNA2 hätte man eigentlich hoffen können, dass AMD von diesem Image bei ihren GPUs wegkommt. Aber andere essentielle Vorteile muss man ja leider mit der Lupe suchen und bei N31 ist ja nicht einmal der Preis das, was sie im Vergleich zur Konkurrenz rettet bzw. abhebt...

In meinen Augen ist mittlerweile mehr als offensichtlich, dass man einfach krachend ein eigentlich deutlich höher geplantes Taktziel verfehlt hat. Und damit fehlt natürlich auch einiges bei der realen Performance der Produkte.

HOT

2023-01-25, 10:03:00

Haste dir die Preise mal angeguckt? Ne 4070Ti bekommste für fast den gleichen Preis wie die 7900XT, da würd ich aber auf jeden Fall die 7900XT vorziehen, allein wegen der 20GB. Und ne XTX ist aber schon etwas billiger als ne 4080. Ich stimme aber soweit zu, dass die Preise alle nicht ok sind. Anscheinend sehen viele die Radeons trotz der schlechten Presse als den besseren Deal.

Exxtreme

2023-01-25, 10:20:25

Und ne XTX ist aber schon etwas billiger als ne 4080.

Der Unterschied beträgt da so 30 - 50 EUR. Und da halte ich die RTX 4080 für das bessere Angebot wenn die preislich so nah beieinander sind. Für die hohen Preise kann AMD aber nix. Die Dinger gehen halt trotzdem weg.

HOT

2023-01-25, 13:21:58

Der Unterschied beträgt da so 30 - 50 EUR. Und da halte ich die RTX 4080 für das bessere Angebot wenn die preislich so nah beieinander sind. Für die hohen Preise kann AMD aber nix. Die Dinger gehen halt trotzdem weg.
Du meinst wohl 100-150, je nach Angebotslage. Der Unterschied zwischen 4070ti und XT ist so gering.

Exxtreme

2023-01-25, 13:30:53

Du meinst wohl 100-150, je nach Angebotslage. Der Unterschied zwischen 4070ti und XT ist so gering.

Jetzt sind sie teurer geworden. Gestern abend abe ich einen Unterschied von 27 EUR gesehen.

Gott1337

2023-01-26, 09:58:44

Du meinst wohl 100-150, je nach Angebotslage. Der Unterschied zwischen 4070ti und XT ist so gering.
auch 200€ ist einfach zu wenig. 15% geringere kosten, über die Lebensdauer zahlst du schon die hälfte davon durch den höheren Stromverbrauch. Dazu noch die elend lange Featureliste von Nvidia. Ich würde sagen das DLSS schon den Aufpreis wert ist, denn DLSS Balanced sieht mindestens so gut aus wie FSR quality.

pilzsammler2002

2023-01-26, 13:12:49

HOT

2023-01-26, 13:27:28

auch 200€ ist einfach zu wenig. 15% geringere kosten, über die Lebensdauer zahlst du schon die hälfte davon durch den höheren Stromverbrauch. Dazu noch die elend lange Featureliste von Nvidia. Ich würde sagen das DLSS schon den Aufpreis wert ist, denn DLSS Balanced sieht mindestens so gut aus wie FSR quality.
Ja ich, weiß NV sind einfach die allergrößten :up:. Und nen Porsche gibts noch gratis dazu :freak:

vinacis_vivids

2023-01-26, 13:36:03

Dafür aber "nur 12GB Ram", mehr Telemetrie, mehr Sicherheitspatches (Ergo irgendwo Lücken)

Gibt auf beiden Seiten für und wieder...

Ich habe jetzt Z.B. mich mit der 7900 gezwungen Cyberpunk mit RT zu zocken. Ich habe es irgendwann dann doch wieder deaktiviert weils mir bisher in keinem einzigen Spiel den Performance Verlust bzw. den Mehrverbauch wert war...
Die paar Sezene wo man die Screen SPace Reflections etc. merkt sind da echt egal :)

Cyberpunk 2077 DF Optimized Ray Tracing FSR 4K | RX 7900 XTX | R7 5800X 3D
Ek2_XFNhvUA

Mit optimierten RT Settings und FSR läuft das relativ schlecht programmierte CB2077 mittlerweile ganz gut AMD's Hardware.

Im Prinzip hast du immer noch recht. Für die vorhandene Rechenleistung läuft das Spiel insgesamt ziemlich kacke.

pilzsammler2002

2023-01-27, 11:03:19

Ich bezog das nicht nur auf Cyberpunk...
Auch die anderen Games (die üblichen Verdächtigen AAA) haben es nie soweit aufgewertet das ich es wirklich nutzen werde...

Soll jetzt keine Grundsatz Diskussion sein, aber abseits der Games wo (bewusst) das SSR etc. verkackt wurde, ist der Unterschied zu Marginal und sieht manchmal von der Beleuchtung (einige Metro Innenräume) sogar schlechter aus...
Also wenn es halt übertrieben dunkel/schummerig ist :freak:

Nightspider

2023-01-31, 02:23:29

https://www.hardwareluxx.de/index.php/news/hardware/grafikkarten/60345-mcd-mit-3d-v-cache-amd-scheint-grafik-chiplets-mit-zus%C3%A4tzlichem-cache-vorzubereiten.amp.html

reaperrr

2023-01-31, 02:54:45

https://www.hardwareluxx.de/index.php/news/hardware/grafikkarten/60345-mcd-mit-3d-v-cache-amd-scheint-grafik-chiplets-mit-zus%C3%A4tzlichem-cache-vorzubereiten.amp.html
Dass die MCDs auch Cache-Stacking unterstützen, ist eigentlich schon lange bekannt, das heißt aber nicht, dass es mit RDNA3 auch noch kommt.

Realistisch betrachtet sind ja bereits die 384bit SI und 96MB IF$ ohne Stacking eher Overkill für die Real-World-Leistung der 7900 XTX. Größere L0/GL1 Caches und bessere DCC hat RDNA3 ja auch noch, was den Bandbreiten-Druck ebenfalls reduziert.

Ich frage mich eher, ob es außer Marketing überhaupt einen echten Grund gab, bei der XTX mehr als 5 und bei der XT mehr als 4 MCDs zu verbauen.

horn 12

2023-01-31, 07:39:32

Sollten sich lieber auf die Treiber focusieren, so wie Intel bei intel Arc dies im Paradebeispiel erfolgreich hinter sich gebracht hat.

Der_Korken

2023-01-31, 08:59:27

Realistisch betrachtet sind ja bereits die 384bit SI und 96MB IF$ ohne Stacking eher Overkill für die Real-World-Leistung der 7900 XTX. Größere L0/GL1 Caches und bessere DCC hat RDNA3 ja auch noch, was den Bandbreiten-Druck ebenfalls reduziert.

Ich frage mich eher, ob es außer Marketing überhaupt einen echten Grund gab, bei der XTX mehr als 5 und bei der XT mehr als 4 MCDs zu verbauen.

An den ganzen OC-Ergebnissen sieht man imho, dass N31 zwei Sachen will: Mehr Strom und mehr GPU-Takt. Es kann sein, dass AMD mit mehr Leistung gerechnet hat und dann mit dem Stacking noch ein 10% schnelleres Flagschiff hinterherschieben wollte. Ansonsten haben sich hier schon ein paar Leute gefragt, warum man die 7900XT nicht mit 4 MCDs gebracht hat, um Kosten zu sparen. Die 7900XT hätte auch so +25% Bandbreite auf die 6900XT gehabt und ist auch in etwa so viel schneller.

reaperrr

2023-01-31, 09:46:14

Ansonsten haben sich hier schon ein paar Leute gefragt, warum man die 7900XT nicht mit 4 MCDs gebracht hat, um Kosten zu sparen. Die 7900XT hätte auch so +25% Bandbreite auf die 6900XT gehabt und ist auch in etwa so viel schneller.
Naja, mit noch einem MCD und 4GB VRAM weniger wäre es noch schwerer gewesen, den Preis der XT im Vergleich zur XTX zu rechtfertigen, viel mehr als 829-849$ MSRP hätten sie dann noch schlechter rechtfertigen können als die 899$ jetzt.
Wie gesagt, wenn, dann hätten sie gleich bei beiden Karten 1 MCD weniger verbauen müssen, um den geringen Preisabstand weiter rechtfertigen zu können.
Für sich betrachtet sind die MSRPs im Vergleich zu den NV-MSRPs ja in Ordnung, die XT etwas schneller und mit mehr VRAM als die 4070 Ti (wäre auch mit 16GB noch der Fall gewesen), die XTX ca. so schnell wie und mehr VRAM für weniger Geld als die 4080.
Und mit je 1 MCD weniger, 2 RAM-Chips weniger und einem weiteren deaktivierten MemController/IF-Interface hätte man evtl. genug Watt gespart, um dafür den Chip (oder den RAM) etwas höher takten zu können.

Im Fall der XT würde mir ansonsten höchstens noch der Grund einfallen, dass es mit nur 256bit/16GB noch schwerer geworden wäre, die 7900 XT preislich und leistungstechnisch von N32XTX abzugrenzen, wenn der wirklich deutlich höher takten kann.

Iscaran

2023-01-31, 09:53:42

Die 7900XT hätte auch so +25% Bandbreite auf die 6900XT gehabt und ist auch in etwa so viel schneller.

IMHO ein weiteres Indiz dafür, dass AMD hier irgendwie eine Art "Bug" oder Problem mit der Leistungsaufnahme in speziellen Bereichen hat.

Man hätte den Speicher sicherlich NICHT so groß ausgelegt, wenn man nicht mehr Leistung erwartet hätte.

Wie die CB-Tests ja gezeigt haben, kann die RDNA3- Arch sehr wohl hoch takten und auch Leistung generieren, aber das ganze geht nur mit "normalem" Leistungsverbrauch unter bestimmten Computer Anwendungen - im Gaming Fall bzw. Normalfall hingegen liegt der Stromverbrauch überraschen ~25 oder 30% höher als eigentlich "erwartbar" war.

HOT

2023-01-31, 10:35:27

Jo das finde ich auch. Die Speicherbandbreite passt zu deutlich mehr Takt. Aber es ist nun mal wie es ist und es wird sich auch nicht ändern bis RDNA4. Bleibt zu hoffen, dass sie dort nicht auch so einen Hund einbauen.

Schnitzl

2023-01-31, 10:35:33

Da die 7800 noch rund ein halbes Jahr dauert wie wahrscheinlich ist es dass noch eine 7900 ohne XT rauskommt?
Irgendwas sollte AMD jetzt schon machen ...

HOT

2023-01-31, 10:36:34

Da die 7800 noch rund ein halbes Jahr dauert wie wahrscheinlich ist es dass noch eine 7900 ohne XT rauskommt?
Irgendwas sollte AMD jetzt schon machen ...

die wird im H2 kommen und die 7800XT wird mMn bis auf 10% an die 7900XT rankommen, weil der Chip besser funktionieren wird. Eine non-XT schließt sich bis der 7900 also aus.
Wir werden in 24 mMn einen Refresh der 7900er sehen, aber keine neue Rev. (was vermutlich nötig gewesen wäre), die etwas taktoptimiert mit ca. 400W daherkommt, aber nichts gewaltiges an Mehrleistung bringen wird.

reaperrr

2023-01-31, 13:38:47

die wird im H2 kommen und die 7800XT wird mMn bis auf 10% an die 7900XT rankommen, weil der Chip besser funktionieren wird. Eine non-XT schließt sich bis der 7900 also aus.
Wenn N21 bald abverkauft ist und N32 erst in H2 kommt, können sie als Übergangslösung auch noch eine 7900/7900XT-16GB bringen. Unwahrscheinlich vielleicht, aber nicht ausgeschlossen.

Wobei ich auch nicht ausschließen will, dass es für AMD günstiger ist, stattdessen N21 noch etwas weiterzuproduzieren, um den Performance-Bereich solange mit 6800 XT und 6950 XT abdecken zu können (der komplette N21 sollte kaum teurer zu produzieren sein als der N31-GCD allein, Speicher auch nicht teurer, Kühlung+Board wohl auch nicht).
Erst N32 sollte etwas günstiger zu produzieren sein als N21 (aber mit 4 MCDs wohl auch nur marginal).

Wir werden in 24 mMn einen Refresh der 7900er sehen, aber keine neue Rev. (was vermutlich nötig gewesen wäre), die etwas taktoptimiert mit ca. 400W daherkommt, aber nichts gewaltiges an Mehrleistung bringen wird.
In '24 soll schon RDNA4 kommen o.O

Also wenn es einen Refresh geben sollte, dann entweder schon etwas früher (zum Weihnachtsgeschäft 2023), oder nur um den Abverkauf zu beschleunigen, ohne dafür die Preise zu sehr senken zu müssen.

robbitop

2023-01-31, 13:52:56

Ich frage mich, warum AMD sich so lange Zeit lässt mit RDNA3 das Lineup abzuschließen. Nvidia hat schon 3 Chips gelauncht und launcht bald den nächsten.

RDNA4 wird sicherlich wieder gegen Ende 2024 kommen - aber laut RGT(?) ist RDNA3+ als Refresh für dGPUs wohl nicht mehr. Wahrscheinlich macht es mehr Sinn, sich auf RDNA4 zu konzentrieren als seine Resources da auszudünnen.

HOT

2023-01-31, 13:59:53

Da würde ich darauf tippen, dass ein wichtiger Faktor sein könnte, dass AMD sehr günstig N7 produzieren kann z.Zt. Einen großen Abverkauf wirds bei N21 eh nicht geben. Das die Dinger so günstig zu haben sind ist mMn einer erhöhten Produktion geschuldet. Ein Abverkauf wäre bei den Preisen schon längst abgeschlossen, AMD hat ja viel weniger Angebot als NV, begründet durch 1/5 des Marktanteils. Ne XT bekommste immer noch für 650€, ein echt gutes Angebot.

Ach ja, die 6950XT wurde auch im gleichen Jahr gelauncht wie die 7900-Serie.

reaperrr

2023-01-31, 14:55:39

Ich frage mich, warum AMD sich so lange Zeit lässt mit RDNA3 das Lineup abzuschließen. Nvidia hat schon 3 Chips gelauncht und launcht bald den nächsten.
Ada war architekturell ein kleinerer Schritt gegenüber dem Vorgänger als RDNA3, NV hat noch immer mehr R&D-Budget für GPUs als AMD für GPUs+CPUs zusammen, und mit Chiplets oder größeren Treiber-Anpassungen musste sich NV auch nicht rumplagen, sondern einfach "nur" shrinken, einige Caches vergrößern und die GPC/SM-Zahl hochskalieren.

Bei AMD wird außerdem auch ein bisschen Zeit in die Fehlersuche gegangen sein, als man gemerkt hat, dass die Taktbarkeit/Effizienz nicht so ausfällt wie gedacht, was auch ein Grund sein könnte, warum man N32 verschoben hat, um noch die Chance zu haben, dort Bugfixes direkt im ersten Stepping anwenden zu können und keinen (bei den komplexen Prozessen heutzutage wahrscheinlich recht teuren) Respin zu brauchen.

vinacis_vivids

2023-01-31, 15:42:26

N33 als RX 7600XT für Desktop
https://youtu.be/f_-YehPhNQ4

Ist auf dem Level der RX 6700 und leicht hinter der 6700XT.

amdfanuwe

2023-01-31, 15:53:20

Preis?
Ich schätze mal $399

DrFreaK666

2023-01-31, 16:19:23

Da macht eine 6700XT mit 12GB wahrscheinlich mehr Sinn, die es für knapp weniger als 400€ gibt

disap.ed

2023-01-31, 16:40:33

Oder eine 3060 12GB, die für ~350€ zu haben ist

https://geizhals.at/?cat=gra16_512&xf=132_12288%7E9810_06+16+-+RTX+3060

DrFreaK666

2023-01-31, 16:44:59

Oder eine 3060 12GB, die für ~350€ zu haben ist

https://geizhals.at/?cat=gra16_512&xf=132_12288%7E9810_06+16+-+RTX+3060

Kann man machen, wenn man auf Performance verzichten will

vinacis_vivids

2023-01-31, 16:56:07

Die 7600XT ist schneller als die 3060Ti und billiger. NV hat in diesem Bereich gar keinen konkurrenzfähigen Chip derzeit.
Es sind bei N33 nur 203mm^2 mit günstigen 6nm TSMC praktisch konkurrenzlos.

amdfanuwe

2023-01-31, 17:18:15

Da macht eine 6700XT mit 12GB wahrscheinlich mehr Sinn, die es für knapp weniger als 400€ gibt
Ja, $399 für 7600XT wäre etwas teuer.
Würde aber den Abverkauf der 6650 für ~349€ und der 6700XT ~400€+ fördern.
Mit dem Preis runtergehen kann man immer noch und die Leute halten es für billig, wenn sie es später unter UVP kaufen können.

Dino-Fossil

2023-01-31, 17:19:43

Die 7600 XT ist schon raus? Gar nicht gemerkt! :freak:

Ernsthaft, wenn das so in etwa käme - dann schnapp ich mir lieber noch eine 6700 10GB, die ähnliche Performance liefert (lediglich RT dürfte etwas schlechter sein), bereits heute günstiger ist und vermutlich nur geringfügig mehr Saft zieht. Gähn.

Was es in dem Marktsegment mal wieder braucht, ist eine Karte die beim Launch um die 300€ steht, mit einem spürbaren P/L Sprung. Ein würdiger Polaris Nachfolger halt.

robbitop

2023-01-31, 17:22:09

Ada war architekturell ein kleinerer Schritt gegenüber dem Vorgänger als RDNA3, NV hat noch immer mehr R&D-Budget für GPUs als AMD für GPUs+CPUs zusammen, und mit Chiplets oder größeren Treiber-Anpassungen musste sich NV auch nicht rumplagen, sondern einfach "nur" shrinken, einige Caches vergrößern und die GPC/SM-Zahl hochskalieren.

Bei AMD wird außerdem auch ein bisschen Zeit in die Fehlersuche gegangen sein, als man gemerkt hat, dass die Taktbarkeit/Effizienz nicht so ausfällt wie gedacht, was auch ein Grund sein könnte, warum man N32 verschoben hat, um noch die Chance zu haben, dort Bugfixes direkt im ersten Stepping anwenden zu können und keinen (bei den komplexen Prozessen heutzutage wahrscheinlich recht teuren) Respin zu brauchen.
Ich bin mir da nicht so sicher. Für RT ist bei Ada Einiges hinzugekommen. Und beim Cache ist auch einiges geschehen. Und man darf IMO nicht nur auf die Highlevel Charts der IHVs schauen. Die Implementierung selbst kann deutlich anders sein. Pro SM hat man massiv mehr Transistoren reingebuttert. RDNA3 sieht IMO eher nach einer Übergangs uArch aus. Insbesondere wenn man sich N33 anschaut

Gott1337

2023-01-31, 17:26:33

Die 7600XT ist schneller als die 3060Ti und billiger. NV hat in diesem Bereich gar keinen konkurrenzfähigen Chip derzeit.
Es sind bei N33 nur 203mm^2 mit günstigen 6nm TSMC praktisch konkurrenzlos.
ja stimmt, wenn alle Spekulationen so zutreffen ja. so wie deine Speku das N31 30% schneller als AD102 sein wird, RT auf dem gleichen Niveau etc.

DrFreaK666

2023-01-31, 17:32:16

... Was es in dem Marktsegment mal wieder braucht, ist eine Karte die beim Launch um die 300€ steht, mit einem spürbaren P/L Sprung. Ein würdiger Polaris Nachfolger halt.

Wo war Polaris spürbar schneller als ein R9 390?
Sie zogen weniger Saft und waren günstig. Gab's noch mehr?

amdfanuwe

2023-01-31, 17:37:38

Wo war Polaris spürbar schneller als ein R9 390?
Sie zogen weniger Saft und waren günstig. Gab's noch mehr?
Die 480XT 8GB zu 239€ ging wohl eher gegen die 370 3,5GB zu 300€

Dino-Fossil

2023-01-31, 22:40:18

Wo war Polaris spürbar schneller als ein R9 390?
Sie zogen weniger Saft und waren günstig. Gab's noch mehr?

Habe nie behauptet, dass sie schneller waren.

Schnitzl

2023-02-01, 00:14:44

die wird im H2 kommen und die 7800XT wird mMn bis auf 10% an die 7900XT rankommen, weil der Chip besser funktionieren wird. Eine non-XT schließt sich bis der 7900 also aus.
Wir werden in 24 mMn einen Refresh der 7900er sehen, aber keine neue Rev. (was vermutlich nötig gewesen wäre), die etwas taktoptimiert mit ca. 400W daherkommt, aber nichts gewaltiges an Mehrleistung bringen wird.
ja das vermute ich auch in etwa. Es sei denn die Architektur hat prinzipiell ein Problem, was ich nicht hoffe ...

vinacis_vivids

2023-02-01, 00:53:54

ja das vermute ich auch in etwa. Es sei denn die Architektur hat prinzipiell ein Problem, was ich nicht hoffe ...

Die Architektur funktioniert wunderbar bei 3,7Ghz Command-Prozessor und 3,2Ghz Shader. Sicherlich kann man den Verbrauch von 475W noch über einen Refresh optimieren. Das war bei Zen1 auch schon so, dass ab 3,2Ghz der Verbrauch explodiert ist.
https://youtu.be/EggkR6QU7LM

Weiß nicht welcher Typ die Fake-Info mit dem "bug" verbreitet hat.

robbitop

2023-02-01, 06:36:41

Habe nie behauptet, dass sie schneller waren.

DF hat IIRC ein Video gemacht wo sie alle GCNs und RDNA1 verglichen haben (sie haben den Takt und die Shaderunits normiert und iirc auch die Bandbreite). Da zog iirc Polaris schon ein Stück weg von der Vorgänger uArch. Aber das war natürlich mit moderneren Treibern und Spielen als zum Polaris launch.

Dino-Fossil

2023-02-01, 10:05:49

DF hat IIRC ein Video gemacht wo sie alle GCNs und RDNA1 verglichen haben (sie haben den Takt und die Shaderunits normiert und iirc auch die Bandbreite). Da zog iirc Polaris schon ein Stück weg von der Vorgänger uArch. Aber das war natürlich mit moderneren Treibern und Spielen als zum Polaris launch.

Klar war die µArch an sich etwas potenter. Polaris hatte mit etwas weniger CUs und viel kleinerem Speicherinterface bei nur geringfügig gestiegenem Takt eine (meist) vergleichbare Performance zu Hawaii geliefert.
Gab auch einen interessanten Artikel auf CB, glaube ich, wo sie Polaris mit Tonga verglichen haben (der ja schon etwas moderner war, als Hawaii).
Sie konnten sich aber in der Tat nicht klar von der 390(X) absetzen, aber das war halt ein Midrange-Chip gegen den früheren High-End Chip, es sei mal dahin gestellt, ob das AMDs Ziel war.
Dazu kamen aber deutlich weniger Verbrauch (auch wenn Polaris vermutlich mit noch besserem Verbrauch geplant war) und, abseits von temporären Verfügbarkeitsproblemen, ein vernünftiger Preispunkt. Später waren die Dinger teils sogar richtiggehend billig. Den Preis der entsprecheden nVidia Chips dürfte das auch gedrückt haben, also insgesamt hatten alle GPU-Käufer was davon.
Aktuell sehe ich jedenfalls keinen derartigen Chip in Sicht.

robbitop

2023-02-01, 10:25:17

https://www.eurogamer.net/digitalfoundry-2019-teraflop-face-off-current-gen-vs-next-gen

Also in den meisten DX11 Spielen landet man rohleistungsnormiert sehr ähnlich selbst wenn man die 40 CUs von Hawaii dazu rechnet.
Aber es gab auch ein paar DX11 Spiele wo Polaris davonzieht: Witcher 3, Ghost Recon, Forza Horizont 4, BF1
In DX12 wurde Tahiti (Hawaii wurde leider nicht mitgemessen sollte sich aber sehr ähnlich verhalten) von Polaris auch ziemlich zernichtet: https://www.eurogamer.net/digitalfoundry-2019-teraflop-face-off-current-gen-vs-next-gen?page=3

Ich würde sagen je moderner die Spiele, desto mehr lag Polaris auch vor Tahiti/Hawaii.

mboeller

2023-02-01, 13:51:41

hmmm.

780m:

https://www.notebookcheck.com/Radeon-780M-AMDs-schnellste-Ryzen-7000-iGPU-zeigt-in-Benchmarks-passable-aber-enttaeuschende-Fortschritte.689150.0.html

dildo4u

2023-02-01, 14:04:52

Ist doch klar selbst Kern Schrott wie die 6400 hatte extra Cache, die 12 CU sind schon zu Potent für die nicht vorhandene Bandbreite der APU.

Der_Korken

2023-02-01, 14:53:42

Ist doch klar selbst Kern Schrott wie die 6400 hatte extra Cache, die 12 CU sind schon zu Potent für die nicht vorhandene Bandbreite der APU.

Erstmal abwarten wie groß die iGPU wird. Die CUs in N33 scheinen sehr klein zu sein, in 5nm umso mehr. 20% mehr Leistung aus 25% mehr Takt auf deutlich kleinerer Fläche ist erstmal nicht übel. Das Dual-Issuing sollte man wohl komplett ausklammern, das scheint quasi keine IPC zu bringen. Aber ja, Phoenix wird keine große Leistungssteigerung. Quasi ein Rembrandt mit mehr Takt und weniger Verbrauch. Der große Sprung bei den iGPUs kommt wohl erst, wenn man einen SLC hat, der von GPU und CPU genutzt werden kann. Zwei große Caches will AMD nicht verbauen.

mboeller

2023-02-01, 14:57:16

Ist doch klar selbst Kern Schrott wie die 6400 hatte extra Cache, die 12 CU sind schon zu Potent für die nicht vorhandene Bandbreite der APU.

Der "3DMark Time Spy Graphics" sollte aber nicht so Bandbreitenhungrig sein?

Nightspider

2023-02-01, 15:24:23

Die CUs in N33 scheinen sehr klein zu sein, in 5nm umso mehr.

Du meinst "4nm" bzw. genauer N4. ;)

robbitop

2023-02-01, 16:09:05

hmmm.

780m:

https://www.notebookcheck.com/Radeon-780M-AMDs-schnellste-Ryzen-7000-iGPU-zeigt-in-Benchmarks-passable-aber-enttaeuschende-Fortschritte.689150.0.html
Nicht sehr überraschend. AMD hat offenbar absichtlich beim 7040 Launch nicht über die iGPU gesprochen. Die höheren Taktraten sind sicherlich je nach TDP Limit auch begrenzt. Und die uArch hat rohleistungsnormiert auch nicht sonderlich viel gebracht (laut CB IPC Vergleich gerade mal +11% und das war N31, der 50% breitere Register bekommen hat; N33 und IGPs haben diese Verbesserung nicht erhalten).
IMO kann man in Bezug auf IGPs erst bei Strix Point einiges erwarten. IF$ und doppelt so viele CUs.

Jetzt wundert mich auch nicht, dass Valve gesagt hatte, dass die Steamdeck APU erstmal gut genug ist und man sich auf andere Aspekte konzentriert. Im 15W TDP Envelope bleibt so viel nicht mehr übrig von mehr CUs und CPU Cores.
In den Benchmarks von daphawx sieht man, dass bei 15W die Steam APU genauso schnell wie Rembrandt ist in Spielen trotz doppelt so vielen Zen3+ Cores und +50% CUs. Und 15W ist IMO die interessanteste Kategorie für mobile Gaming, weil damit auch noch sinnvolle Akkulaufzeit ohne externe Stromversorgung möglich ist.

davidzo

2023-02-01, 16:15:24

hmmm.

780m:

https://www.notebookcheck.com/Radeon-780M-AMDs-schnellste-Ryzen-7000-iGPU-zeigt-in-Benchmarks-passable-aber-enttaeuschende-Fortschritte.689150.0.html

Das Pferd springt halt nur so hoch wie es muss.
Enttäuschend dass AMD hier nicht mehr ansetzt. Mobile ist halt immer noch ein Markt wo sie nicht die Eier haben für eine eigene Strategie wie im Server- und Desktop und stattdessen lieber Intel nachahmen. Und dafür reicht es anscheinend. Die Iris 96CU IGP von Raptor-lake-P liegt weit hinten und für die baldige 128CU Meteorlake IGP wird es wohl auch reichen. Auf CPUseite ist das kritischer, 8x Zen4 vs 6+8 bei Raptorlake-P ist schon knapp und MTL soll ja IPC- und Takt/Verbrauchstechnisch nochmal was drauflegen.

Immerhin heißt das es wird ein schön kleiner DIE und kommt auch irgendwann im Desktop.

In den Benchmarks von daphawx sieht man, dass bei 15W die Steam APU genauso schnell wie Rembrandt ist in Spielen trotz doppelt so vielen Zen3+ Cores und +50% CUs. Und 15W ist IMO die interessanteste Kategorie für mobile Gaming, weil damit auch noch sinnvolle Akkulaufzeit ohne externe Stromversorgung möglich ist.

Bei 10Watt. Bei 9Watt ist die Steamdeck klar schneller, bei 11 und 15Watt führt die GPD WinMax 2 (6800U) um ca. 15-20%. Also das sind zwar deminishing returns, ist aber auch schon signifikant. Man könnte meinen das entspricht genau dem bandbreitenunterschied (88gb/s vs 102gb/s), aber rembrandt skaliert auch noch etwas weiter mit 20 und 28Watt TDP. Rembrandt scheint klar für den 15/28Watt Case designt zu sein. Auch nicht ausschließen würde ich dass die GPD WinMax2 ein weniger effizientes "Labtop"-VRM Design hat welches eher für 15-28W ausgelegt ist für die das Steamdeck getuned ist.

Der_Korken

2023-02-01, 16:25:28

Jetzt wundert mich auch nicht, dass Valve gesagt hatte, dass die Steamdeck APU erstmal gut genug ist und man sich auf andere Aspekte konzentriert. Im 15W TDP Envelope bleibt so viel nicht mehr übrig von mehr CUs und CPU Cores.

Durch 4nm (danke @Nightspider ;)) sollte der Verbrauch pro Core bzw. CU nochmal deutlich sinken. Dadurch passen mehr Cores/CUs ins gleiche TDP-Korsett.

Nightspider

2023-02-01, 16:37:10

Jepp, die bessere Effizienz vom neuen Node würde wohl den größten Unterschied bringen bei einem theoretischen Steam Deck mit Phoenix APU.
Edit*wobei die Effizienz von N31 eigentlich auch Kacke ist, wenn ich so darüber nachdenke.

Die CUs müssten in N4 wirklich relativ wenig Platz benötigen.Die doppelte Leistung sollte für Strix Point 2024 locker machbar sein mit ein bisschen IF$, mehr CUs und bugfreier RDNA3+ µArch.

Randnotiz: N4 soll 6% logic area einsparen und 5% mehr Perf liefern.
https://fuse.wikichip.org/wp-content/uploads/2022/09/wikichip_tsmc_logic_node_q2_2022-1.png

Vielleicht skaliert die Effizienz von RDNA3 bei niedriger "Drehzahl" besser als bei N31. Teils war N31 ja nicht mal effizienter als N21, wenn ich mich richtig erinnere.
Hängt aber krass von der Softwareskalierung ab.

MSABK

2023-02-01, 18:01:49

Bevor es kein HBM oder ähnliches für die iGPU gibt braucht man da nicht viel spekulieren, da sollten wir aktuell ans Limit gekommen sein was die Leistung betrifft.

Der_Korken

2023-02-01, 18:57:03

Vielleicht skaliert die Effizienz von RDNA3 bei niedriger "Drehzahl" besser als bei N31. Teils war N31 ja nicht mal effizienter als N21, wenn ich mich richtig erinnere.
Hängt aber krass von der Softwareskalierung ab.

Ich finde, dass sich N31 deutlicher von N33 und den iGPUs unterscheidet als das noch bei N21 und dessen Ablegern der Fall war. Nur mal so als Vergleich: N21 hatte in seinen 80CUs ingesamt 20MB Registerspace. N31 hat durch 96CUs nicht nur 24MB erhöht, sondern zusätzlich noch die Register pro CU um 50% erhöht, d.h. 36MB Registerspace. Die Caches zusammen in N31 sind 3MB (L0) + 3MB (L1) + 6MB (L2) = 12MB. Das heißt allein die Vergrößerung der Register hat soviel Transistoren und Fläche gekostet, wie alle Data Caches auf dem GCDs zusammen. Ich weiß nicht, ob sich das arg negativ auf den Verbrauch auswirkt, aber es macht die CUs wesentlich fetter als die auf N33 und Phoenix (nur leider auch ohne wirklich Performance zu bringen).

Es würde mich daher nicht überraschen, wenn sich die kleinen RDNA3-GPUs deutlich anders verhalten als die große. Allein dass die iGPU mit 3Ghz laufen soll ist imho ein gutes Zeichen. N31 läuft mit seinen 2,5Ghz deutlich niedriger als von AMD geplant (behaupte ich mal), aber sie wollten das 350W-Limit nicht reißen. Bei den APUs kann AMD kein Verbrauchslimit reißen, weil das Teil sonst überhitzt und/oder den Akku leersaugt. Wenn Phoenix also ein ähnliches Verbrauchsproblem haben sollte und es nun trotzdem mit 3Ghz läuft, was war denn dann bitte vorher die Maßgabe beim Takt? 3,5Ghz?

davidzo

2023-02-02, 08:48:12

Die CUs müssten in N4 wirklich relativ wenig Platz benötigen.Die doppelte Leistung sollte für Strix Point 2024 locker machbar sein mit ein bisschen IF$, mehr CUs und bugfreier RDNA3+ µArch.

Dein Optimismus in allen ehren, aber wenn die Gerüchte stimmen dann wird Strix eher ein Neuaufguss der 780m.

12CU*64Shader*4 FP32/clock*3Ghz = 9,2Tflops

Also hat bereits Phoenix eine 9Tflop iGPU. Wenn Strix wieder mit 9Tflop angekündigt wird, wird sich wohl bei der IGP wenig ändern. Passt zu AMD und zum kurzen Abstand in der Roadmap dass man lediglich die CPU-IP tauscht und der Rest vom SOC gleich bleibt.

robbitop

2023-02-02, 10:18:37

Strix Gerüchte waren 24 CUs RDNA3+ und 16-32 MiB IF$ und Zen5/5c für die CPU. Das wird aber ne Weile hin sein. Auf der AMD roadmap steht bei Phoenix 4 nm und bei Strix "advanced node" was historisch bei AMD der nächste Node - also N3 (oder ein N3 Derivat) bedeutet. Ob das schon Q1 2024 bereit ist oder man ggf. dieses Mal etwas mehr als 1 Jahr warten muss? Dank IF$ kann man auch mal mehr CUs füttern und mal einen signifikanten Sprung in Performance hinlegen. Ob N3 und die durch den IF$ reduzierten Energiekosten für Speicherzugriffe reichen, 24 CUs auch in niedrigen TDPs nutzbar zu machen? Wenn dann wäre sowas ja richtig was Feines im Handheld Format (Steamdeck und Co)

vinacis_vivids

2023-02-02, 10:21:47

RDNA3+ ist halt ein RDNA3 Refresh von 4nm auf 3nm. Kann gut sein, dass da bis zu 24CUs reingepackt werden können, dann sind wir bei ~18,4 Tflops fp32 für Strix Point. Ist nur die Frage ob TSMC 3nm "günstig" genug ist, damit AMD aus dem Vollen schöpfen kann.

robbitop

2023-02-02, 11:30:19

AMD scheint ja APUs seit Mendecino zu diversifizieren. Eine kleine und eine große. Zu Phoenix soll es ja auch noch eine kleine geben. Ggf schafft das Raum, um eine große zu schaffen. Angeblich hat Intel ja auch vor eine 384 EU IGP zu launchen. Dann muss man da schon drauflegen

chithanh

2023-02-02, 12:09:32

AMD scheint ja APUs seit Mendecino zu diversifizieren. Eine kleine und eine große.Das ist doch schon von Anfang an so gewesen:

Zacate/Llano
Wichita (gecancelt)/Trinity
Kabini/Kaveri
Stoney Ridge/Carrizo
Banded Kestrel/Raven Ridge
*/Renoir
Mendocino/Rembrandt

* ist kompliziert
Ggf schafft das Raum, um eine große zu schaffen.Gibt es auch schon, MI300 aber mit CDNA3 und nicht für Consumer…

robbitop

2023-02-02, 12:17:39

Na ich meinte schon im consumer space. ;)
Die „Katzen“ APUs hab ich vergessen. Aber es gab lange Zeit keine kleine APU mehr. Die Katzencores sind ja mittlerweile asbach.

Complicated

2023-02-02, 12:30:51

Stoney Ridge waren Excavator Kerne anstatt Puma bei Bristol Ridge:
https://www.notebookcheck.com/AMDs-Bristol-Ridge-und-Stoney-Ridge-Architektur.167461.0.html
Stoney Ridge bezeichnet die kleinen und günstigen Einstiegs-APUs und ist Nachfolger von Carrizo-L, welche auf eine völlig andere Architektur basierten als Carrizo (z. B. noch stromsparende Puma Kerne statt Excavator). Hier kommt ein Dual-Core Die (1 Modul) mit 124,5 mm2 und 1,2 Milliarden Transistoren zum Einsatz.
Und Banded Kastrel hatte Zen-Kerne
https://www.golem.de/news/banded-kestrel-amd-bringt-ryzen-embedded-mit-unter-10-watt-2002-146872.html
zwei Zen-CPU-Kerne und drei Compute Units, also 192 Shader-Einheiten, mit Vega-Architektur
War also kein Sprung direkt von den Katzenkernen aus.

amdfanuwe

2023-02-02, 14:35:18

Vergesst Picasso 4C 210mm² und Dali 2C 149mm² nicht.
Kleiner als Mendocino 4C ~100mm² lohnt wohl nicht.
Hab hier eine Übersicht gefunden:
https://en.wikipedia.org/wiki/List_of_AMD_accelerated_processing_units

davidzo

2023-02-02, 15:48:57

Angeblich hat Intel ja auch vor eine 384 EU IGP zu launchen.

*320

Wobei ich das zunehmend unglaubwürdig finde. Arrowlake soll ja auf derselben Infrastruktur basieren wie Meteorlake. Heißt Sockel- und Pinkompatibilität. Das ist ja auch der Sinn von Foveros dass man SOC DIE, i/o DIE wiederverwenden kann.
Wo soll da der Riesen-DIE hinpassen den man bräuchte für 320EU?
Man munkelt dass der GT3 GPU-DIE lediglich 80mm2 groß ist. Das wird super knapp wenn man bedenkt dass 512 EUs in 6nm bereits 406mm2 groß sind bei CM-G10. Ein Teil der 80mm2 wird sicher auch für den Die to Die interconnect draufgehen und Architekturverbesserungen würde ich für Battelmage auch erwarten.

In jedem Fall ziehlt eine 320EU IGP deutlich höher als eine 12CU RDNA3 IGP. Da muss was am cache/Speichersystem passieren sonst verdursten die Shader.

chithanh

2023-02-02, 17:24:44

Vergesst Picasso 4C 210mm² und Dali 2C 149mm² nicht.
Die ganzen Refreshes (Lucienne, Picasso, Dali, Barcelo, Bristol Ridge, Richland) habe ich ausgelassen. Cezanne auch, da sich am GPU-Teil gegenüber Renoir nichts geändert hat, nicht mal einen AV1-Decoder hat AMD hinzugefügt.
War also kein Sprung direkt von den Katzenkernen aus.Und nach Banded Kestrel gab es noch einige weitere aber gecancelt bzw. semicustom (Van Gogh, Monet, usw.) oder Zweitverwertung aus Konsolenproduktion (Oberon 4700S/"Cyan Skillfish", 4800S)

Nightspider

2023-02-02, 19:14:16

Auf der AMD roadmap steht bei Phoenix 4 nm und bei Strix "advanced node" was historisch bei AMD der nächste Node - also N3 (oder ein N3 Derivat) bedeutet. Ob das schon Q1 2024 bereit ist oder man ggf. dieses Mal etwas mehr als 1 Jahr warten muss? Dank IF$ kann man auch mal mehr CUs füttern und mal einen signifikanten Sprung in Performance hinlegen. Ob N3 und die durch den IF$ reduzierten Energiekosten für Speicherzugriffe reichen, 24 CUs auch in niedrigen TDPs nutzbar zu machen? Wenn dann wäre sowas ja richtig was Feines im Handheld Format (Steamdeck und Co)

N4P ist auch ein Advanced Node und soll 22% effizienter sein als N5.

Wieso sollte AMD das 2024er Geschäft ausfallen lassen, weil ein Prozess noch nicht fertig ist?

Vielleicht ist N4P am Ende nur 11% effizienter als N4 aber RDNA3+, IF$ und Zen5 sollten genug Innovation bieten um eine interessante APU für 2024 zu bieten.

Leonidas

2023-02-05, 07:00:39

Die Spezifikationen von Radeon RX 7600, 7600 XT, 7700 XT & 7800 XT
https://www.3dcenter.org/news/geruechtekueche-die-spezifikationen-von-radeon-rx-7600-7600-xt-7700-xt-7800-xt

reaperrr

2023-02-05, 11:34:16

Die Spezifikationen von Radeon RX 7600, 7600 XT, 7700 XT & 7800 XT
https://www.3dcenter.org/news/geruechtekueche-die-spezifikationen-von-radeon-rx-7600-7600-xt-7700-xt-7800-xt
Die Preisfrage ist, ob das jetzt die offiziellen Taktraten laut Folien/Präsentationen oder die realen sind.

Wenn die offiziellen Angaben nämlich ähnlich vorsichtig wie bei N31 sind, könnten die realen Taktraten der 7800 XT durchaus an 3 GHz kratzen.
Die TDP der 7800 XT ist nämlich angesichts der Specs verdächtig hoch im Vergleich zur 7900XT und selbst XTX. Fast 80% der XTX-TDP trotz nur 60% der CUs, 50% der ROPs und 67% der L3/IF$/VRAM-Ausstattung (und niedrigerem Speichertakt).

Selbst wenn das mit dem Bugfix am Ende nur heiße Luft war und N32 sich nicht nennenswert besser verhält als N31, sollten bei der TDP ca. 300-400 MHz höhere Taktraten in Spielen als bei N31 im Bereich des Möglichen liegen. Dazu passt auch, dass N32 die 6950XT ersetzen soll, die ja nicht so viel langsamer als eine 7900 XT ist und ca. 35% vor einer 6800 liegt, die abgesehen von der uArch und eben den Taktraten nahezu identische Specs zu N32 hat.

robbitop

2023-02-05, 11:41:13

N4P ist auch ein Advanced Node und soll 22% effizienter sein als N5.

Wieso sollte AMD das 2024er Geschäft ausfallen lassen, weil ein Prozess noch nicht fertig ist?

Vielleicht ist N4P am Ende nur 11% effizienter als N4 aber RDNA3+, IF$ und Zen5 sollten genug Innovation bieten um eine interessante APU für 2024 zu bieten.
Ich meinte nicht, dass man 2024 ausfallen lassen muss sondern ib man eben etwas später dran sein könnte.

dargo

2023-02-05, 12:14:54

OgrEGT

2023-02-05, 12:16:02

Die Spezifikationen von Radeon RX 7600, 7600 XT, 7700 XT & 7800 XT
https://www.3dcenter.org/news/geruechtekueche-die-spezifikationen-von-radeon-rx-7600-7600-xt-7700-xt-7800-xt

Das steht "TDP"... also nicht "TBP"... Kommt da an Leistungsaufnahme noch was dazu oder ist "TBP" gemeint? Perf/W liest sich so oder so eher so meh...
7700XT = 6800 bei annähernd gleich hoher TDP/TBP...

dildo4u

2023-02-05, 12:23:31

RX6800 Gamelock ist 1.8 Ghz AMD nimmt diesmal einfach kleinere Dies und prügelt sie diesmal mehr.
Was Sinn macht wenn 5nm massiv mehr pro mm² kostet.

OgrEGT

2023-02-05, 13:39:45

RX6800 Gamelock ist 1.8 Ghz AMD nimmt diesmal einfach kleinere Dies und prügelt sie diesmal mehr.
Was Sinn macht wenn 5nm massiv mehr pro mm² kostet.

Schon klar... wenn aber unterm Strich Perf/W nix wirklich rumkommt, dann ist es trotzdem meh... wenn die architektonischen Änderungen (Dual-issue FP32, größere Register, etc.) so wie ggf. erwartet zu viel mehr Leistung geführt hätten, dann wäre auch Perf/W besser... so kommt man bei Perf/W scheinbar nicht so wirklich weg von RDNA2...

Ich werde so wahrscheinlich noch ne Weile bei der 6800 bleiben, die wirklich gut läuft... meistens zwar ohne RT, aber das brauche ich für den Spielspaß / Immersion nicht wirklich...

Nightspider

2023-02-05, 13:58:16

Für den Konkurrenzkampf kann man nur hoffen, das N32 weniger von den spekulierten Fehlern betroffen ist.

Wenn ein günstiger N32 nicht weit hinter N31 liegen würde, würde das die Preise am Markt deutlich verbessern, langfristig.

Der_Korken

2023-02-05, 14:46:53

Gott1337

2023-02-05, 16:49:13

Nightspider

2023-02-05, 17:05:15

AMD hat gesagt

:rolleyes:

Linmoum

2023-02-05, 17:51:30

Als börsennotiertes Unternehmen streitest du nicht öffentlichkeitswirksam irgendwelche Hardwarebugs/Designfehler/whatever ab und verneinst solche, wenn es diese hingegen gibt und du davon weißt. Das hat dann nämlich im Endeffekt potentiellen Einfluss auf deine Produkte und die potentiellen Verkäufe, was wiederum die Bilanzen beeinflussen kann, wo wir dann wiederum bei den Investoren sind.

Davon ab hatte sich AMD bisher allerdings auch nur spezifisch zum Shader-Prefetch öffentlich geäußert und nicht, wie Gott behauptet, generell zu "hw bugs". Das werden sie aber auch nicht tun. Entweder sie fixen das einfach mit kommenden Refreshes, oder dann erst mit RDNA4.

gedi

2023-02-05, 17:57:12

280W für 6950XT-Performance wären wirklich mau. Das wären 20% Perf/W auf die 6950XT selbst und 15% auf die 6900XT. Und auch die Wärmedichte wird spaßig bei 80% der Wärme auf 65% der Fläche verglichen mit der 7900XTX. Gut dass der Schuh bei mir aktuell nicht drückt, denn ich habe keinen Bock auf diese AMD-Gen. Wenn ich jetzt kaufen müsste, würde ich nach langer Zeit wohl wieder Nvidia kaufen.

Warum? Die XTX ist für sich ein rundes Produkt und im Raster ca. 50% über meiner 6900XTX Toxic EE, mit RT sind es an die 100% (gefühlt sind es Welten).
Zudem habe ich die Hoffnung mit dem MPT noch nicht begraben, da es wohl endlich unified-Treiber geben wird.

bbott

2023-02-05, 21:57:42

AMD hat doch selbst gesagt gibt keine hw bugs, daher auch kein refresh für 7900er
Quelle ?

Gott1337

2023-02-05, 22:57:26

Quelle ?
google -> AMD dismisses reports of RDNA 3 graphics bugs

Linmoum

2023-02-05, 22:59:38

Wie ich bereits schrieb, dort ging es spezifisch um den Shader Prefetch und nicht allgemein um "hw bugs". Himmelweiter Unterschied.

reaperrr

2023-02-05, 23:28:15

AMD hat doch selbst gesagt gibt keine hw bugs, daher auch kein refresh für 7900er
Haben sie nicht.
Was AMD gesagt hat bezog sich auf genau ein vermeintlich fehlendes/defektes Feature, das Shader-Prefetching, weil in gefundenen Treibereinträgen dessen Deaktivierung erwähnt wurde. Dabei hätte es sich hier aber um ein neues Feature gehandelt, welches laut AMD nur ein Test war und erst in zukünftigen Architekturen final implementiert werden soll.
Ob sie in diesem konkreten Fall ehrlich waren sei dahingestellt, es ist aber grundsätzlich tatsächlich so, dass alle IHVs von AMD über NV bis Intel immer einige Features erstmal nur zu internen Testzwecken als 'Beta' implementieren und erst in späteren Generationen fertig entwickeln und aktivieren.

Aber weder AMD noch sonst irgendwer sagt, RDNA3 hätte keine Bugs. Jede Architektur hat Bugs. Auch Ada hat Bugs. Kleinere Bugs werden in der Regel auch nie oder nur über Firmware-/Treiber-Workarounds gefixt.

Der "HW-Bug", von dem u.a. ich rede ist aber was anderes, nämlich dass laut einigen vermeintlichen Insidern zumindest N31 und N33 einen Design-/Implementierungsfehler haben, der hauptverantwortlich für den generell zu hohen und bei höheren Taktraten nahezu explodierenden Verbrauch ist, was wiederum zu deutlich niedrigeren Taktraten als geplant geführt hat.
Die Aussage von Bondrewd im B3D-Forum sowie All_the_Watts auf Twitter war, dass N32 und Phoenix dies zumindest weitgehend beheben würden.
Zuletzt meinte AtW aber dann auch, dass alle RDNA3-SKUs die Ziele verfehlt haben (also auch N32 und PHX) und sich AMD den Refresh nun doch schenkt, weil die Fixes von N32 und PHX offensichtlich weniger gebracht haben als erhofft und somit auch Bugfix-Respins von N31 und N33 nicht so viel retten würden, wie man sich bei AMD vielleicht zunächst noch erhofft hatte.

Sprich, man ist wohl zu dem Schluss gekommen, dass die Bugfix-Respins nicht genug verbessern um ihre Kosten in der Zeit bis RDNA4 reinholen zu können und man sich lieber auf RDNA4 konzentrieren sollte, um einen weiteren Reinfall zu verhindern.

Alles natürlich letztlich Speku, weil wir wahrscheinlich nie Beweise zu sehen bekommen werden, ob überhaupt Respins oder ein RDNA3+ Refresh geplant waren.

OpenVMSwartoll

2023-02-06, 00:48:00

Was ich schade finde, so wird man es nie endgültig klären können. Ein Respin wäre interessant gewesen.

Aber danke Euch beiden für die differenzierte Darstellung. Heutzutage wird vieles zu sehr verkürzt.

Gott1337

2023-02-06, 04:25:13

Haben sie nicht.
Was AMD gesagt hat bezog sich auf genau ein vermeintlich fehlendes/defektes Feature, das Shader-Prefetching, weil in gefundenen Treibereinträgen dessen Deaktivierung erwähnt wurde. Dabei hätte es sich hier aber um ein neues Feature gehandelt, welches laut AMD nur ein Test war und erst in zukünftigen Architekturen final implementiert werden soll.
Ob sie in diesem konkreten Fall ehrlich waren sei dahingestellt, es ist aber grundsätzlich tatsächlich so, dass alle IHVs von AMD über NV bis Intel immer einige Features erstmal nur zu internen Testzwecken als 'Beta' implementieren und erst in späteren Generationen fertig entwickeln und aktivieren.

Aber weder AMD noch sonst irgendwer sagt, RDNA3 hätte keine Bugs. Jede Architektur hat Bugs. Auch Ada hat Bugs. Kleinere Bugs werden in der Regel auch nie oder nur über Firmware-/Treiber-Workarounds gefixt.

Der "HW-Bug", von dem u.a. ich rede ist aber was anderes, nämlich dass laut einigen vermeintlichen Insidern zumindest N31 und N33 einen Design-/Implementierungsfehler haben, der hauptverantwortlich für den generell zu hohen und bei höheren Taktraten nahezu explodierenden Verbrauch ist, was wiederum zu deutlich niedrigeren Taktraten als geplant geführt hat.
Die Aussage von Bondrewd im B3D-Forum sowie All_the_Watts auf Twitter war, dass N32 und Phoenix dies zumindest weitgehend beheben würden.
Zuletzt meinte AtW aber dann auch, dass alle RDNA3-SKUs die Ziele verfehlt haben (also auch N32 und PHX) und sich AMD den Refresh nun doch schenkt, weil die Fixes von N32 und PHX offensichtlich weniger gebracht haben als erhofft und somit auch Bugfix-Respins von N31 und N33 nicht so viel retten würden, wie man sich bei AMD vielleicht zunächst noch erhofft hatte.

Sprich, man ist wohl zu dem Schluss gekommen, dass die Bugfix-Respins nicht genug verbessern um ihre Kosten in der Zeit bis RDNA4 reinholen zu können und man sich lieber auf RDNA4 konzentrieren sollte, um einen weiteren Reinfall zu verhindern.

Alles natürlich letztlich Speku, weil wir wahrscheinlich nie Beweise zu sehen bekommen werden, ob überhaupt Respins oder ein RDNA3+ Refresh geplant waren.
Nein es ging um HW defekte die die Performance im Gegensatz zu den Erwartungen beeinflussen, dies hat AMD allgemein verneint, auch bei dem Prefetch. Daher treffen auch ihre Performanceprognosen zu, wo wir ja alle wissen dass das gelogen ist. Dennoch funktioniert alles normal.
Wenn da was zu fixen wäre, würde ein Refresh nächstes Jahr kommen, das wurde ja gecancelt, WEIL da eben nix mehr zu holen ist... akzeptiert es, RDNA3 ist einfach kackjes

wir wollen mal festhalten das AMD das sagte: "AMD has dismissed reports that its new Radeon RX 7900 XT and XTX graphics boards are suffering from a bug that impacts performance" und danach sind sie auf das Prefetch speziell eingegangen. redet euch das alles schön, ändert nur nix an der realität.

Iscaran

2023-02-06, 08:29:21

wir wollen mal festhalten das AMD das sagte: "AMD has dismissed reports that its new Radeon RX 7900 XT and XTX graphics boards are suffering from a bug that impacts performance" und danach sind sie auf das Prefetch speziell eingegangen. redet euch das alles schön, ändert nur nix an der realität.

Es gibt nur eine EINZIGE Quelle für dieses Zitat und das stammt von Jeremy Laird (https://www.msn.com/en-gb/money/technology/amd-dismisses-reports-of-rdna-3-graphics-bugs/ar-AA15uux7) und keineswegs von AMD. Eine Quelle bei AMD dafür gibt Jeremy nicht an.

Zumal man diese Aussage dennoch dazu passt, dass es einen Bug bzgl. des Stromverbrauchs gibt. Die Performance ist ja nicht "impacted" - der Stromverbrauch ist nur zu hoch, weshalb man die Chips halt ~30% niedriger
taktet als technisch machbar wäre.
Tests dazu dass die RDNA3 Chips im Grunde ALLE bis 3.7 GHz takten können gab es z.B. von Computerbase. Allerdings explodiert dann, AUSSER in Compute Anwendungen der Verbrauch.
In Compute sind mit 3.7 GHz auch stabile Leistung mit praktisch gleichem Stromverbrauch wie bei Gaming @2.7 GHz möglich.
Welche andere GPU verhält sich in dieser Hinsicht so merkwürdig?

Linmoum

2023-02-06, 09:26:46

wir wollen mal festhalten das AMD das sagte: "AMD has dismissed reports that its new Radeon RX 7900 XT and XTX graphics boards are suffering from a bug that impacts performance" und danach sind sie auf das Prefetch speziell eingegangen. redet euch das alles schön, ändert nur nix an der realität.Nein, das fett markierte deinerseits ist kein wörtliche Zitat von AMD und das hat AMD dementsprechend auch nicht gesagt. Wird schon aus der Formulierung offensichtlich, dass das nicht direkt von AMD stammt, sondern irgendeine Interpretation bzw. Zusammenfassung Dritter ist. Das wörtliche Zitat gibt es in dem Statement gegenüber tomshardware, den Link hast du aus welchen Gründen auch immer wieder entfernt. Und dort war nur explizit der Shader Prefetch Thema, zu dem sich AMD geäußert hat.

Bleib einfach bei der Wahrheit und verdrehe nicht irgendwelche Tatsachen, um Recht behalten zu wollen. Ist einfach unnötig.

Nightspider

2023-02-06, 10:03:41

Sprich, man ist wohl zu dem Schluss gekommen, dass die Bugfix-Respins nicht genug verbessern um ihre Kosten in der Zeit bis RDNA4 reinholen zu können und man sich lieber auf RDNA4 konzentrieren sollte, um einen weiteren Reinfall zu verhindern.

Es ist für AMD wichtiger, das RDNA4 ausgereift und so schnell wie möglich marktreif ist.

Den größten Vorteil kann man aus dem Chiplet Design nur ziehen, wenn man einen neuen Prozess zeitiger auf die Straße bringt als mit großen, monolithischen Chips.

AMD würde auch Mindshare und Marktanteile gewinnen, wenn sie zeitiger liefern können als Nvidia.

Auch die Treiberteams würden profitieren, wenn die Hardware weniger Fehler hat und optimal läuft.

Nvidia haut dagegen Features raus wie Nvidia RTX Video Super Resolution (https://www.computerbase.de/2023-02/google-chrome-nvidia-rtx-video-super-resolution/), die ich auch gerne hätte.