AMD - Zen 3+ (Desktop: Warhol, gestrichen; APU: Rembrandt, 6nm, Q1/2022) [Archiv] - Seite 3

davidzo

2021-06-13, 12:39:29

Wenn man nur einen CCD stacked, dann hat man quasi zwei verschiedene Arten von Kernen (big.LITTLE), wo man bestimmte cache-sensitive Anwendungen auf dem einen CCD und alles andere auf dem anderen CCD laufen lassen will.

Das wäre tatsächlich sehr lustig, wenn AMD sozusagen innerhalb ihrer longterm rodamap ei en counter zu alderlake bringt. Die werden sicherlich so gut mit microsoft vernezt sein dass sie schon genau wissen wie die schedulerupdates für AL sich auswirken werden. AMD war schon immer eine Firma die neue Technologien am liebsten erst mit partnern bzw. nicht selber erschließt (DDR, HBM, Chiplet, etc). Wäre viel zu teuer die ganze entwicklungsarbeit selbst zu machen, aber wenn der Zug bereits fährt, wieso nicht dann erst aufspringen wenn die Geschwindigkeit stimmt?

Zitat:
Im Rahmen einer Episode der YouTube-Serie "The Bring Up" hat AMD einige weitere interessante Details zum 3D V-Cache verraten.

So wird der CCD um 180 ° gedreht und 95 % des Chips werden abgeschliffen. Am Ende bleiben nur noch 20 µm des ansonsten 400 µm dicken Chips als aktives Silizium übrig. Auf diese dünne Schicht wird dann der 3D V-Cache gestapelt. TSVs aus Kupfer stellen bekanntermaßen die Verbindung zwischen dem CCD und SRAM her. Laut AMD reicht die Adhäsion der Kupfer-Kontaktpunkte der TSVs auf beiden Seiten aus, um die beiden Chips miteinander zu verbinden.
https://www.hardwareluxx.de/index.ph...-2-update.html

Was meinen die mit 180°, lieg der Chip dann falsch herum auf dem Package, oder 180° in der anderen Achse (was egal wäre)? Oder wird der chip nur zum abschleifen gedreht, und dann wieder richtig herum montiert (dann wäre es eine überflüssige Formulierung ohne zu wissen wie herum die schleifmaschine aufgebaut ist und natürlich schleift man den chip nicht von unten am metal stack für die energieversorgung).

Muss ich mir wohl mal anschauen: https://youtu.be/Uh3WobaaP70?t=207

EDIT: Okay, deren Erklärung kann nicht stimmen. Wenn man wie die behaupten den ganzen metal stack bis auf M0 abschleifen, wo bleibt dann das fabric und vor allem die power delivery stacks?
Ich glaube die haben da einiges in den falschen hals bekommen. Das liegt wohl daran dass die Ingenieure ihnen das am wafer und nicht am chip package erklärt haben. Und wafer sind unmal upside down, da liegt M0 also zuerst auf dem wafer, bzw. unten und dann wird eben erst Layer für Layer aufgetragen und belichtet und geätzt. M0 liegt am Ende wenn man die DIEs umdreht wie sie auf das Package kommen also unter einer dicken schickt roh silizium, dem Roh Wafer, welcher abgeschliffen werden muss. Auf dem Package ist M0 aber oben und die metal layer unten. Da stimmt die 180Grad erklärung also nicht.

amdfanuwe

2021-06-13, 13:04:24

Auf Wikichip gibt es dazu einen Artikel:

https://fuse.wikichip.org/news/5531/amd-3d-stacks-sram-bumplessly/

https://fuse.wikichip.org/wp-content/uploads/2021/06/hybrid-bonding-flow.png
...
Hatten wir schon vor 3 Seiten geklärt.

Zossel

2021-06-13, 13:05:16

Die werden sicherlich so gut mit microsoft vernezt sein dass sie schon genau wissen wie die schedulerupdates für AL sich auswirken werden. AMD war schon immer eine Firma die neue Technologien am liebsten erst mit partnern bzw. nicht selber erschließt (DDR, HBM, Chiplet, etc).
Du meinst nicht das Microsoft das Microsoft was für seine schlechten Kernel und Scheduler bekannt ist?

Was meinen die mit 180°, lieg der Chip dann falsch herum auf dem Package, oder 180° in der anderen Achse (was egal wäre)?
"Falsch rum" wäre wenn die Chips keinen elektrischen Kontakt miteinander haben.

robbitop

2021-06-13, 13:15:10

Es ist ja nicht nur der Scheduler relevant sondern auch die Applikation. Im Idealfall „weiß“ die Apllikation von der Existenz von kleinen Kernen und hat auch eine Heuristik diese einzusetzen.
Ich vermute aber, dass Scheduler und uFirmware von außen ungefähr hinbiegen. Könnte mir vorstellen, dass bei bestimmter Charakteristik Threads die für SMT gedacht waren auf die littles umgeleitet werden.

aufkrawall

2021-06-13, 13:20:43

Oder auch nicht, falls mit SMT ein Task für zwei gleichartige Threads gesplittet abläuft. Hoffentlich werden Entwickler da gar keine Rücksicht drauf nehmen, dass es richtig schon mies läuft und der Mist wieder verschwindet.

robbitop

2021-06-13, 13:34:15

Das wird nicht mehr verschwinden. Intel hat die ganze Roadmap drauf ausgelegt. AMD plant es auch. ARM macht es sehr erfolgreich seit vielen Jahren. Apple tut es auch.
Und es macht einfach Sinn. Es ist wie ein Getriebe mit mehreren Übersetzungen für einen Verbrennungsmotor. Jede uArch hat einen begrenzten Bereich auf der Betriebskennlinie in dem sie effizient skaliert. Dazu kommt Amdahls law. Nicht alles ist beliebig parallel. Und nicht alle Threads sind kritisch - aber dennoch hilfreich wenn sie große Cores nicht aufhalten.
Dazu kommt, dass Shrinks immer seltener und teurer und somit wertvoller werden um einfach nur brutal mit der Keule zu wachsen. Jetzt muss man smarter werden. The right tool for the right job.

Ich bin davon überzeugt in 10 Jahren ist symetrisches SMP nahezu bedeutungslos.
Jetzt ist es an der Zeit diesen Weg mit SW zu bereiten. Die Dynamik ist aktuell dafür erkennbar.

aufkrawall

2021-06-13, 13:37:26

Es ergibt Stand heute eben keinen Sinn für Gaming, wenn man gute Cores en masse hat. Ok, AMD kann nicht die ganze Welt beliefern, was dann aber leider bedeuten kann, dass die Rücksichtnahme auf die Missgeburten-CPUs die optimale Auslastung der leistungsfähigen beeinträchtigen kann...

robbitop

2021-06-13, 14:30:52

Stand heute ja - aber die Welt ist nunmal nicht statisch. Man stelle sich vor, man verwendet das Transistor/Powerbudget von 4 jetzigen Kernen (die wir heute als schnell empfinden) für einen noch viel schnelleren Kern. Nur ein arbiträres Beispiel. Shrinks gäbe es ja weiter. Also hätte man dann weniger richtig richtig schnelle Cores für die kritischen Threads und bisherige Cores für die etwas weniger kritischen Threads. Siehe Zen5+Zen4 Kombination. (das liest sich für mich als wenn man Zen4 noch relativ schank und effizient hält wie bisher und mit Zen5 richtig breit wird).

Mit der Zeit können die Spielehersteller das auch berücksichtigen. Unterm Strich kann man damit potenziell eben gerade in Anwendungen die nur begrenzt und heterogen parallelisierbar sind aus einem fixen Transistor und Powerbudget das Macimum herausholen.

Es ist alles eine Frage der Perspektive. Wenn man die durstigen aber nicht viel schnelleren aktuellen Cove Cores und die relativ langsamen Mont Atom Cores als Sinnbild dieser Strategie sieht, erscheint das nicht besonders attraktiv. Aber es geht ja um das grundsätzliche Prinzip.
Zen5+4 oder aber Firestorm und Icestorm erscheinen hier als wahrscheinlich bessere Repräsentanten des Prinzips als solchem.

IMO muss man aber für ein vollständiges Ausschöpfen aber auch die Anwendung selbst dafür auch optimieren.

reaperrr

2021-06-13, 14:54:36

Es ergibt Stand heute eben keinen Sinn für Gaming, wenn man gute Cores en masse hat.
Das ist ja gerade das Problem:
Es wird langsam verdammt schwer, sowohl Kernzahl als auch Leistung je Kern gleichzeitig zu steigern, weil die Prozesssprünge immer kleiner und teurer werden.

Der Knackpunkt ist und bleibt, dass sich gerade x86 einfach nur schwer in Sachen IPC und Takt nach oben skalieren lässt, ohne dafür vergleichsweise unverhältnismäßig viel mehr Transistoren und damit Fläche und Energie aufzuwenden.
Aufgrund der immer stärker werdenden ARM-Konkurrenz kommen AMD und Intel aber nicht drum herum, insbesondere bei der IPC die nächsten Generationen massiv zuzulegen, zumindest auf den "Hauptkernen".

Wenn du aber bei Little Cores fast 80% der IPC der Hauptkerne in ~25% der Fläche unterbringen kannst, wie dies z.B. bei Gracemont vs. Golden Cove der Fall zu sein scheint, dann macht es aus Effizienzgründen auf Dauer einfach keinen Sinn mehr, nur auf Big Cores zu setzen, weil wir sonst Ewigkeiten auf 16-24 Kernen festhängen würden, da das komplette Transistor- und TDP-Budget für IPC- und Taktsteigerungen draufgehen würde.

Am Beispiel von Raptor, der wird mit 8 big und 16 little Kernen wahrscheinlich die MT-Leistung von 16 big cores in der TDP von 10-12 big cores erreichen. Und die Leistung in schlechter gethreadeten Anwendungen wird vermutlich trotzdem auf Augenhöhe mit hypothetischen 12xBig-CPUs landen, weil durch den big.little Ansatz die 8 fetten Kerne mit mehr AllCore-Takt laufen können, ohne das TDP-Budget zu sprengen.

Auch AMD geht Gerüchten zufolge wohl ab Zen5 diesen Weg, weil die Zen5-Kerne wohl solche fetten IPC-Monster werden sollen, dass man sonst die Kernzahl ggü. Zen4 womöglich gar reduzieren müsste. Da werden dann halt auf 3nm geshrinkte Zen4-Kerne als 'little' Kerne eingesetzt, um trotz Fläche und Verbrauch der Zen5-Kerne auf ne entsprechende Kernzahl zu kommen.

CrazyIvan

2021-06-13, 16:11:12

Ich bin davon überzeugt in 10 Jahren ist asymmetrisches SMP nahezu bedeutungslos.

Wie meinst Du das? Oder hast Du Dich nur vertippt und meintest symmetrisches SMP?

CrazyIvan

2021-06-13, 16:25:22

@reaperrr
+1

robbitop

2021-06-13, 16:26:15

War ein Typo. War ja auch aus dem Kontext zu erkennen. ;) Thx. Hab es korrigiert.

w0mbat

2021-06-13, 16:28:45

Der Knackpunkt ist und bleibt, dass sich gerade x86 einfach nur schwer in Sachen IPC und Takt nach oben skalieren lässt, ohne dafür vergleichsweise unverhältnismäßig viel mehr Transistoren und damit Fläche und Energie aufzuwenden.
Ich weiß nicht wo du in den letzten Jahren so warst, aber hier wo ich lebe wurde bei x86 sowohl IPC als auch Perf/W extrem nach oben skaliert. Mehr als in den 10 Jahren davor.

robbitop

2021-06-13, 16:34:06

Es kam und kommt dank AMD endlich mal wieder deutlich mehr Dynamik in die Entwicklung der IPC nach der jahrelangen Stagnation.
An AMDs und Intels Roadmap ist schon implizit zu erkennen, dass noch einige gute IPC Sprünge kommen werden. Und zwar wieder regelmäßig.
Konkurrenz belebt das Geschäft. :D

Nightspider

2021-06-13, 18:43:21

Ich hoffe nur das IPC Wachstum kommt nicht in 2-3 Jahren wieder zum stehen.

Zossel

2021-06-14, 07:02:07

Ich hoffe nur das IPC Wachstum kommt nicht in 2-3 Jahren wieder zum stehen.

Und wer bezahlt die dafür notwendigen Halbleiterfabriken?

CrazyIvan

2021-06-14, 08:21:15

Na wir.
Entweder unmittelbar durch den Erwerb neuer Rechentechnik oder mittelbar, weil die Politik endlich erkannt hat, dass uns die totale Abhängigkeit von Taiwan mordsmäßig um die Ohren fliegen kann.

BlacKi

2021-06-14, 18:01:22

na wenn man die big cores mit jeder menge small cores mischt, werden die kosten im rahmen bleiben und der stromverbrauch ebenso.

man sieht das schön am 5600x. schön schnelle cpu, aber 12t für knapp 300€? mhhh.

wenn man die big cores noch größer macht, und das biglittle konzept sich auszahlt im desktop, dann könnte man auch ein big.medium.little konzept einführen.

sulak

2021-06-14, 20:05:22

man sieht das schön am 5600x. schön schnelle cpu, aber 12t für knapp 300€? mhhh.

wenn man die big cores noch größer macht, und das biglittle konzept sich auszahlt im desktop, dann könnte man auch ein big.medium.little konzept einführen.

239€ ist der neue Straßenpreis, halte von Big.Little unter Windows nix, bevor nicht MS damit gescheit umgehen kann.

Gibt genug andere Baustellen, wenn nichtmal der OS Shop gescheit läuft oder man am ^Gaming Mode^ scheitert, HDR auf Konsolen einfach so funktioniert, unter W10 immer noch in Gefrickel ausartet..

Oder beim Anmelden von unterschiedlichen Benutzern einer AD-Domäne manchmal die Standard Apps wie der Rechner einfach hopps gehen…. da kakt MS mit unterschiedlich starken Cores garantiert in den Software-Sack.
Das Unix unter der Haube müsste halt mal entstaubt werden, vielleicht mal einen Schritt wie Apple wagen?

amdfanuwe

2021-06-16, 13:21:19

Da twittert PJ, dass AM5 Mainboards schon Q2/22 kommen sollen
https://twitter.com/PJ_Lab_UH/status/1405050672618250241

Könnte sein, dass AMD wie bei AM4 zunächst die Boards mit einer älteren APU Generation einführt. In diesem Fall ZEN3+ Rembrandt.
Damals gabs die Bristol Ridges auf AM4 zunächst nur für OEM.
Wenn das wieder so läuft, gibt es AM5 mit Rembrandt APU für OEM ab Q2/22 und wir dürfen warten bis ZEN4 Raphael Ende 22 soweit ist.

smalM

2021-06-17, 15:05:31

Es ist ja nicht nur der Scheduler relevant sondern auch die Applikation. Im Idealfall „weiß“ die Apllikation von der Existenz von kleinen Kernen und hat auch eine Heuristik diese einzusetzen.
Das ist nicht der Idealfall, das ist der größte anzunehmende Unfall!
Kleiner Hinweis, es laufen bei mir gerade 332 Prozesse in 1155 Threads. Und Du glaubst, es wäre ideal, wenn sich die Prozesse selbst um das Scheduling von CPU-Cores kümmern?
Das Scheduling hat in der Applikation nicht das allergeringste zu suchen. Und auch nicht im OS, das ist dieselbe Schose, nur eine Hierarchiestufe höher.
Die Applikationen können dem OS ihren Bedarf avisieren, das OS kann der CPU Informationen zu den Threads mitliefern, aber richtig funktionieren wird das ganze nur, wenn die CPU sich selbst um das Scheduling kümmert. Alles andere wird nur halbgar werden.
OK, zugegebener Maßen das üblicher Vorgehen in der Wintel-Welt. :wink:

das liest sich für mich als wenn man Zen4 noch relativ schank und effizient hält wie bisher und mit Zen5 richtig breit wird
Das wird interessant werden, wie AMD den Zen5 richtig breit macht, insbesondere wenn man sieht, wie massiv AMD den Zen-Core bereits aufpumpen mußte, um auf den jetzigen IPC-Stand zu kommen.

Brillus

2021-06-17, 15:16:06

Das ist nicht der Idealfall, das ist der größte anzunehmende Unfall!
Kleiner Hinweis, es laufen bei mir gerade 332 Prozesse in 1155 Threads. Und Du glaubst, es wäre ideal, wenn sich die Prozesse selbst um das Scheduling von CPU-Cores kümmern?
Das Scheduling hat in der Applikation nicht das allergeringste zu suchen. Und auch nicht im OS, das ist dieselbe Schose, nur eine Hierarchiestufe höher.
Die Applikationen können dem OS ihren Bedarf avisieren, das OS kann der CPU Informationen zu den Threads mitliefern, aber richtig funktionieren wird das ganze nur, wenn die CPU sich selbst um das Scheduling kümmert. Alles andere wird nur halbgar werden.
OK, zugegebener Maßen das üblicher Vorgehen in der Wintel-Welt. :wink:

Das wird interessant werden, wie AMD den Zen5 richtig breit macht, insbesondere wenn man sieht, wie massiv AMD den Zen-Core bereits aufpumpen mußte, um auf den jetzigen IPC-Stand zu kommen.

Sorry aber da finde ich bist du auf dem Holzweg. Weder OS noch CPU kann sicher vorraussagen wieviel Rechenleistung was braucht oder was wichtig und was eher unnötig ist.

Erstes ergibt sich schon aus dem Halteproblem. 2. einfaches Beispiel hast ein Simulationtool, was ist wichtiger das Ergebnisd gertig ist oder das die UI Latenzfrei funktioniert.

Glaube das Problem ist das ihr nich wissen müsst wieviel Threads ihr überhaupt habt. Ideal wäre das man dem OS die Arbeit gobt mit paar hints was es zu erwarten hat und wie die Prioritäten sind und der Rest kann es selber machen.

robbitop

2021-06-17, 15:26:51

So breit ist Zen jetzt nicht verglichen was es seit Haswell und Skylake seit einem halben Jahrzent gibt und verglichen mit Apples Firestorm.

CrazyIvan

2021-06-17, 17:19:00

@Brillus
Sorry, aber Du bist hier auf dem Holzweg. Mit dem Halteproblem hat das erst einmal nichts zu tun, da Scheduler seit Jahrzehnten ein sehr einfaches Gegenmittel haben: Sie entziehen einem Prozess das Betriebsmittel "Prozessor" einfach nach einer vom Scheduler definierten Maximaldauer und weisen es dem nächsten Prozess zu. Round robin nennt sich das. Und dabei ist es egal, ob der Prozess hält oder nicht.

Natürlich darf der Prozess nicht entscheiden, wieviel und wie lange er ein Betriebsmittel behalten darf - genau dafür sind Scheduler gemacht.
smalM hat schon recht - idealerweise sollte die Applikation maximal ermitteln können, wieviel Threads denn überhaupt Sinn machen. Cinebench beispielsweise wird einfach die Anzahl der logischen Kerne ermitteln. Für nicht so massiv parallelisierbare Anwendungen schaut man eher, auf wieviele Threads man einen Workload sinnvoll verteilen kann. Die Zuweisung übernimmt dann der Scheduler - und bezieht dabei ein, ob der Prozessor 1, 2,..., 128 Kerne, SMT, big.little oder sonstwas hat.
In dem Moment, indem man solche Entscheidungen der Applikation überlässt, ist man schon verloren. Denn jeder Entwickler hält sich selbst für den und seine Anwendung für die wichtigste ;)

smalM

2021-06-17, 17:34:46

@Brillus
Ich hatte "Applikationen können dem OS ihren Bedarf avisieren, das OS kann der CPU Informationen zu den Threads mitliefern" nicht unbedacht hingeschrieben.

@robbitrop
Verglichen mit Firestorm sind alle schmal und flach, aber Apple hatte Intel und AMD rein architekturell schon mit dem Monsoon eingeholt und dann mit Vortex bereits hinter sich gelassen. Es ist halt für X86-64-Architekturen vergleichsweise sehr viel schwerer, breiter und tiefer zu werden. Man weitet das Backend aus und moppt die Branch-Prediction auf und... dann wird die Luft dünn.

Deswegen wird es ja auch interessant, wie die das lösen wollen.

robbitop

2021-06-17, 17:44:36

Wir werden sehen. Mangels Wettbewerb ist seit einem halben Jahrzehnt halt nichts mehr passiert. Ich finde den Stand von 3015 halt aus 2021 Sicht nicht mehr als passende Referenz was breit ist. Schnee von Vorgestern. :)

Unicous

2021-06-21, 22:00:49

Gab es schon konkretere Eckdaten zu Rembrandt? Ich könnte mich nicht erinnern.:uponder:

Rembrandt in Form der embedded Plattform:

AMD Ryzen Embedded - V3000
Zen 3 (6 nm) - FP7r2

- up to 8 Cores / 16 Threads
- 20x PCIe 4.0 lanes (8x dGPU)
- 4x DDR5-4800 (ECC)
- two 10G ethernet PHYs
- 2x USB 4.0
- 15-30 W and 35-54 W models
- up to 12 CUs (RDNA2)
https://twitter.com/patrickschur_/status/1407044836637790212

Es bleibt bei einem CCX, davon war auszugehen.
Von 16 auf 20 PCIe Lanes aufgestockt (das ist natürlich Quark, Embedded gab es schon bei der Grey Hawk Plattform 20 Lanes), dazu jetzt PCIe 4.0.
Dual-Channel DDR5 bzw. 4 Sub-Channel oder 2 Dual Sub-Channel wie auch immer man es bezeichnen will.:freak:

12 RDNA CUs im Gegensatz zu 8 GCN CUs. Auch das war erwartbar.

Noch ein paar SKUs

V3516
Cores: 6/12 @ 2.8 GHz
Turbo: 4.4 GHz (1T)
L3: 16 MB, L2: 3 MB
TDP: 15-30 W
GPU: 8 CUs @ 1.8 GHz
https://twitter.com/patrickschur_/status/1407044711341252619

V3718
Cores: 8/16 @ 2.6 GHz
Turbo: 4.6 GHz (1T)
L3: 16 MB, L2: 4 MB
TDP: 15-30 W
GPU: 12 CUs @ 2 GHz
https://twitter.com/patrickschur_/status/1407044756971077634

V3748
Cores: 8/16 @ 3.1 GHz
Turbo: 4.6 GHz (1T)
L3: 16 MB, L2: 4 MB
TDP: 35-54 W
GPU: 8 CUs @ 1.9 GHz
https://twitter.com/patrickschur_/status/1407044788717867012

Bei den Taktraten scheint es im Vergleich zu den Zen 2 Embedded APUS einen eher moderaten Anstieg zu geben, stellt sich die Frage wie sich das auf die Retail APUs auswirkt. Vielleicht gibt es da maximal hier und da ein paar 100 MHz und das wars oder gar Stagnation.

CrazyIvan

2021-06-21, 22:35:34

@Unicous
Danke für die Infos. V3718 hat bei gleicher TDP immerhin 200 MHz mehr Turbo als der 5800U. Die Quad Channel werden wieder daher rühren, dass 4x 32bit LPDDR5 oder 2x64bit DDR5 möglich sind, oder irre ich mich da?

Locuza

2021-06-21, 23:01:31

@CrazyIvan

LPDDR5 verwendet 16-Bit pro Speicherkanal.
DDR5 verwendet 32-Bit pro Speicherkanal, welche die JEDEC aus meiner Perspektive unsinnigerweise Sub-Channels nennt, denn jeder "Sub-Channel" ist völlig unabhängig von dem anderem.
Bei 128-Bit DDR5 hätte man entsprechend ein Quad-Channel-System vor sich (4x32-Bit).
Bei 128-Bit DDR4 gibt es nur ein Dual-Channel-System mit 2x64-Bit.

Unicous

2021-06-21, 23:08:04

@CrazyIvan

Vergleich finde ich schwierig, da die embedded Chips offensichtlich 5 Watt mehr TDP headroom bekommen. Könnte sich natürlich analog auf die "Retail" Chips auswirken, könnte auch PCIe geschuldet sein, who knows.

Einen direkten Vergleich zu den Renoir SKUs gib es bei Grey Hawk leider nicht, der Ryzen 7 PRO 4750U kommt aber nahe mit 1,7 GHz und 4,1 GHz im Vergleich zum V2718 mit ebenfalls 1,7 GHz und 4,15 GHz. Man kann also annehmen, dass es auch bei den Retail SKUs nicht viel mehr Takt geben wird.

Wird etwas schwierig gegen Alder Lake wenn der Takt sich wirklich nur so moderat steigert, mMn. Könnte natürlich sein, dass AMD uns überrascht und da auch noch Cache draufpackt, aber ich gehe eher nicht davon aus.:wink:

Locuza
Was will der Autor uns damit sagen? :uponder:

Locuza

2021-06-21, 23:31:16

Die Frage verwirrt mich, ich meine die Aussageabsicht ist klar und deutlich? :confused:

Unicous

2021-06-21, 23:49:29

Mir war nicht klar, dass du auf CrazyIvan antwortest. ;)

Nightspider

2021-06-22, 00:15:14

Wird etwas schwierig gegen Alder Lake wenn der Takt sich wirklich nur so moderat steigert, mMn. Könnte natürlich sein, dass AMD uns überrascht und da auch noch Cache draufpackt, aber ich gehe eher nicht davon aus.:wink:

Wird spannend wie gut Zen3+ performt. 5-10% mehr Leistung bei gleichem Takt kann man erhoffen.

V-Cache bei den Topmodellen wäre schon genial, quasi als "Iris Pro" Gegenstück.
Da wäre es dann vielleicht auch egal wenn die 100 Euro mehr kosten.

Zossel

2021-06-22, 07:13:56

Zossel

2021-06-22, 07:19:56

@Brillus
Es ist halt für X86-64-Architekturen vergleichsweise sehr viel schwerer, breiter und tiefer zu werden.
Warum?

Jim Keller über Decoder (https://www.anandtech.com/show/16762/an-anandtech-interview-with-jim-keller-laziest-person-at-tesla):
For a while we thought variable-length instructions were really hard to decode. But we keep figuring out how to do that. You basically predict where all the instructions are in tables, and once you have good predictors, you can predict that stuff well enough. So fixed-length instructions seem really nice when you're building little baby computers, but if you're building a really big computer, to predict or to figure out where all the instructions are, it isn't dominating the die. So it doesn't matter that much.

Zossel

2021-06-22, 07:24:04

@Brillus
Ich hatte "Applikationen können dem OS ihren Bedarf avisieren, das OS kann der CPU Informationen zu den Threads mitliefern" nicht unbedacht hingeschrieben.

Auf welche konkreten Schnittstellen in welchen halbwegs verbreitenden Betriebssystem spielt du da an?

HOT

2021-06-22, 08:42:46

Wird spannend wie gut Zen3+ performt. 5-10% mehr Leistung bei gleichem Takt kann man erhoffen.

V-Cache bei den Topmodellen wäre schon genial, quasi als "Iris Pro" Gegenstück.
Da wäre es dann vielleicht auch egal wenn die 100 Euro mehr kosten.

Du baust da Luftschlösser, ich würd da mal so 2 bis 3% ggü. Cézanne pro Kern und Takt sehen und die APU hat weiterhin nur 16MB L3. VCache wirds mMn auch nicht geben.

CrazyIvan

2021-06-22, 10:10:40

Apple kann das erst seit 2001. Und das muß nicht zwingend per Round robin implementiert werden.
Natürlich muss es das nicht. Ich wollte damit nur sagen, dass dieses Problem geschätzt seit Mitte des letzten Jahrhunderts gelöst ist. Und was Apple damals fabriziert hat, tut IMHO nix zur Sache.

basix

2021-06-22, 10:21:34

Du baust da Luftschlösser, ich würd da mal so 2 bis 3% ggü. Cézanne pro Kern und Takt sehen und die APU hat weiterhin nur 16MB L2. VCache wirds mMn auch nicht geben.

V-Cache wäre ein massives Differenzierungsmerkmal in einem für AMD interessanten Markt. Nachteil im schlimmsten Fall: +16MB L3$ auf dem Die (oder etwa +15mm2). Sehe ich aber weniger als Problem. V-Cache muss nicht überall drauf und Cezanne für Low Cost hat man auch noch.

Edit:
Nicht nur Stromverbrauch und iGPU Performance wären Profiteure. ML/AI Workloads, Code Kompilierung usw. --> Mobile Workstations

HOT

2021-06-22, 10:48:03

V-Cache wäre ein massives Differenzierungsmerkmal in einem für AMD interessanten Markt. Nachteil im schlimmsten Fall: +16MB L3$ auf dem Die (oder etwa +15mm2). Sehe ich aber weniger als Problem. V-Cache muss nicht überall drauf und Cezanne für Low Cost hat man auch noch.

Edit:
Nicht nur Stromverbrauch und iGPU Performance wären Profiteure. ML/AI Workloads, Code Kompilierung usw. --> Mobile Workstations
Ich seh den Nutzen nicht. Man könnte Rembrandt sicherlich mit 48MB L3 fahren (16MB on Die + 32MB gestacked), aber für die Performancegeschichten hat man doch die großen VCache-CPUs. Im Notebook wird die Leistung ja problemlos auch ohne VCache reichen, da zählt ja im Gegenteil eher jedes Watt.

robbitop

2021-06-22, 10:48:26

Wäre auch für die iGPU sehr sinnvoll. Aber man müsste einiges ändern, damit die iGPU auch Zugriff auf diesen bekommen kann. Aktuell ist es ja primär ein Victim Cache.

HOT

2021-06-22, 10:52:21

Plane das mal eher für Pheonix Point oder gar erst Strix Point ein, aber nicht für Rembrandt. Das CCX wird wie Cezanne in N6 mMn. Da wird man den L3 wohl kaum derart starken Veränderungen unterwerfen, das wird ein strinknormales Zen3 CCX mit 16MB L3. Stack denkbar, aber nur für CPU.

amdfanuwe

2021-06-22, 11:16:47

Im Notebook wird die Leistung ja problemlos auch ohne VCache reichen, da zählt ja im Gegenteil eher jedes Watt.
So ein "Infinity Cache" würde einige Speicherzugriffe sparen und damit auch einiges an Energie.

Der wird wie Cezanne in N6 mMn.
mMn ist Cezanne in N7. Hab zumindest noch nichts anderes gelesen.

HOT

2021-06-22, 11:22:02

Als ich es las wusst ich, dass das missverstanden wird ;). Habs geändert. Gemeint war: Das CCX wird ähnlich bleiben, mehr wollte ich nicht sagen.

mboeller

2021-06-22, 11:23:20

Wäre auch für die iGPU sehr sinnvoll. Aber man müsste einiges ändern, damit die iGPU auch Zugriff auf diesen bekommen kann. Aktuell ist es ja primär ein Victim Cache.

mal ins blaue "geschossen": 64MB L4 V-Cache über dem Speichercontroller

amdfanuwe

2021-06-22, 11:37:13

Wie stehen eigentlich die Chancen, dass AMD direkt den RAM mit auf dem Package verbaut wie Apple beim M1. Kurze Wege sparen Energie.
Solch ein Package neben Rembrandt könnte mir schon gefallen:Jetzt folgt Samsung mit seinem „LPDDR5 UFS-based multichip package“, das 6 GB bis 12 GB LPDDR5-RAM und beim NAND-Flash 128 GB bis 512 GB bietet.https://www.computerbase.de/2021-06/lpddr5-und-ufs-3.1-samsungs-kombi-speicher-fuer-smartphones-wird-schneller/

Brillus

2021-06-22, 12:34:48

Wie stehen eigentlich die Chancen, dass AMD direkt den RAM mit auf dem Package verbaut wie Apple beim M1. Kurze Wege sparen Energie.
Solch ein Package neben Rembrandt könnte mir schon gefallen:https://www.computerbase.de/2021-06/lpddr5-und-ufs-3.1-samsungs-kombi-speicher-fuer-smartphones-wird-schneller/
Denk ich nicht. Gerade bei dicken mobile CPUs möchte man auch über Speichermenge differenzieren.

amdfanuwe

2021-06-22, 12:54:04

Denk ich nicht. Gerade bei dicken mobile CPUs möchte man auch über Speichermenge differenzieren.
Ohne mit 1 oder 2 Packages kann man ganz gut differenzieren.
Muß ja nicht jede APU damit ausgestattet sein.
Wo es auf Low Power oder kleinen Footprint ankommt, wären das schon schöne Lösungen. Mit 8GB/128GB Low End, Thin Client, AIO Budget Lösungen bis 24GB/1TB ULP High End ließe sich ein ordentlicher Markt abdecken.
In herkömmlicher Bauweise ohne RAM/SSD dann eben für dicke Gaming Notebooks.

Mal sehen, wie sich AMD entscheidet.

robbitop

2021-06-22, 13:29:40

mal ins blaue "geschossen": 64MB L4 V-Cache über dem Speichercontroller
Dann bringt er der CPU allerdings kaum noch was, weil die IF Latency oben drauf kommt.
Ggf wäre es sinnvoller, der iGPU über die IF Zugang zum L3 im CCX zu geben. Für GPUs sind Speicherlatenzen viel unwichtiger als Bandbreite.

Nightspider

2021-06-22, 14:58:36

Du baust da Luftschlösser, ich würd da mal so 2 bis 3% ggü. Cézanne pro Kern und Takt sehen und die APU hat weiterhin nur 16MB L3. VCache wirds mMn auch nicht geben.

Ich hätte vielleicht dazu schreiben sollen das ich mich auf Gaming-Performance beziehe.

Da hat schon Zen+ damals ordentlich zugelegt trotz minimalem IPC Sprung.

Keine V-Cache Varianten anzubieten wäre schade und eine verpasste Chance. AMD fehlt noch so ein richtiges Premium-Produkt um Intel schlecht dastehen zu lassen.
Aber vielleicht kommt sowas dann erst mit Zen4 APUs.

Für GPUs sind Speicherlatenzen viel unwichtiger als Bandbreite.

Mich würde ja mal interessieren wie viel der Bandbreite zB. bei Cezanne von der CPU und wie viel von der GPU "verbraucht" wird.

Also ob das das Verhältnis CPU zu GPU 1:3 ist oder 1:4 oder 1:5.

So oder so würde der IGP ja mehr Bandbreite zur Verfügung stehen wenn die CPU einen größeren Anteil schon im V-Cache erledigt.

Brillus

2021-06-22, 15:42:53

Ohne mit 1 oder 2 Packages kann man ganz gut differenzieren.
Muß ja nicht jede APU damit ausgestattet sein.
Wo es auf Low Power oder kleinen Footprint ankommt, wären das schon schöne Lösungen. Mit 8GB/128GB Low End, Thin Client, AIO Budget Lösungen bis 24GB/1TB ULP High End ließe sich ein ordentlicher Markt abdecken.
In herkömmlicher Bauweise ohne RAM/SSD dann eben für dicke Gaming Notebooks.

Mal sehen, wie sich AMD entscheidet.

Wenn ich richtig erinnere soll es ja noch kleine APU geben für die könnte ich es mir gut vorstellen aber Top End eher nicht.

r3ptil3

2021-06-25, 17:13:50

Hab die letzten Wochen verpasst...

Ist der 3D Cache bereits im Zen3 Refresh fix oder wie?
Wäre dann ja gar kein Refresh mehr, bei einer solchen Änderung.

Nightspider

2021-06-25, 17:16:43

So ganz genau weiß es noch niemand.

Ein Leaker meinte mal die Zen3 Refresh Modelle wären nicht nicht die V-Cache Produkte und zwei vers. paar Schuhe.

N0Thing

2021-06-25, 17:17:32

Es ist fix, dass zum Ende des Jahres CPUs mit dem 3D-Cache produziert werden sollen und dann wohl im Q1 auch auf den Markt gelangen. Ob damit auch ein Refresh der Zen-Kerne einhergeht, ist, soweit ich weiß, noch in der Gerüchteküche.

reaperrr

2021-06-26, 11:13:40

Ob damit auch ein Refresh der Zen-Kerne einhergeht, ist, soweit ich weiß, noch in der Gerüchteküche.
Mein letzter Stand aus der Gerüchteküche ist, dass Zen3+ von Seiten AMD's schon immer nur im Zusammenhang mit Rembrandt erwähnt wurde, und die einzige anderweitige Möglichkeit verbesserter Kerne - Warhol - schon vor einiger Zeit gestrichen wurde.
Wobei auch bei Warhol alles andere als gesichert ist, dass es Kernverbesserungen gegeben hätte, die über Taktoptimierungen hinausgegangen wären.
Es wird nach aktuellem Stand nur einen XT-Refresh von Vermeer geben (100-200 MHz mehr Turbo) sowie Modelle mit V-Cache, der IPC-mäßig in Spielen ja ca. nochmal so viel (bzw. teilweise noch mehr) bringt, wie Zen3 ggü. Zen2.
Halbwegs seriöse Hinweise auf Kernverbesserungen gab es immer nur bei Rembrandt, alles andere entstand m.E. nur aus Missverständnissen und Wunschdenken.

amdfanuwe

2021-06-26, 13:32:20

, dass Zen3+ von Seiten AMD's schon immer nur im Zusammenhang mit Rembrandt erwähnt wurde,
Wo gibt es das denn offiziell?
In den ersten Leaks der ominösen Roadmap steht nur ZEN3.
https://twitter.com/mebiuw/status/1308584487819702272

Offiziell gibt es von AMD nur, dass Ende des Jahres stacked Cache verbaut wird bei High End. Und da Lisa einen 12 oder 16 Core Desktop dazu in die Luft hielt ist anzunehmen, dass das auch im Desktop nächstes Jahr kommt.
Sonst nichts offizielles.
Aus der Gerüchteküche stammt alles andere.

reaperrr

2021-06-26, 19:09:30

Wo gibt es das denn offiziell?

Offiziell natürlich gar nicht, so wie Warhol nie offiziell war.

Zen3+ für Rembrandt kommt auch nur von Leakern, stimmt.

Was Folien/Roadmaps angeht, habe ich auch nur das gefunden:
https://videocardz.com/newz/amd-ryzen-6000-notebook-roadmap-leaks-6nm-rembrandt-with-zen3-and-navi2-in-2022

Deckt sich aber eben zumindest mit dem, was mittlerweile alle auch nur im Ansatz ernstzunehmenden Leaker sagen. Ob das nur daher kommt, dass die allesamt voneinander abschreiben oder wirklich echte Quellen haben, die ihnen das bestätigt haben, wissen wir logischerweise erst mit Sicherheit, wenn es von AMD offizielles Material, Treibereinträge o.ä. gibt. Aber das ist im Grunde bei allem so.

Davon, dass das '+' auch einfach nur für leichte Effizienzverbesserung in mittleren Taktbereichen dank 6nm + marginale Optimierung von Turbo, Firmware oder L3-Latenz stehen kann und die meisten Leute hier wahrscheinlich viel zu viel davon erwarten, mal ganz abgesehen.

Es ging mir aber bei meinem vorherigen Post eigentlich auch mehr darum, dass man auf jeden Fall eher NICHT mit Kernverbesserungen für den XT-Refresh und die V-Cache-Modelle rechnen sollte. Wenn es überhaupt noch Kernverbesserungen vor Zen4 geben wird, dann mMn mit Rembrandt, weil man dort wegen des 6nm-Ports vermutlich eh leichte Änderungen vornehmen musste und bei der Gelegenheit eventuell noch etwas weiter optimiert hat. Ansonsten nur XT-Refresh dank besserem Yield/Binning, und eben mehr Dampf pro Takt für vmtl. ordentlichen Aufpreis bei den V-Cache-Modellen.

amdfanuwe

2021-06-26, 20:15:38

Bin ich bei dir. Wollt nur klarstellen, dass da nichts offiziell von AMD zum + kam.

Die Quelle zu der von dir verlinkten Roadmap https://twitter.com/Broly_X1/status/1395434495923343364 findet Twitter nicht mehr.

Ex3cut3r

2021-11-09, 16:49:50

DeadMeat

2021-11-09, 16:54:58

Abgesehen von der Server Ankündigung gibt es nichts offizielles, außer dem Teaser vor ein paar Monaten.

Natürlich zeigt der Milan-X das die Vcache Chiplets in Masse gehen also kommen die wohl aber vom "+" war (bisher) keine Rede.

Ex3cut3r

2021-11-09, 16:59:38

Hmm ok. Komische Sache irgendwie. Erstmal im Januar heiß machen, und dann für Consumer nix mehr ankündigen. Muss ich nicht verstehen.

DeadMeat

2021-11-09, 17:02:00

Marketing, das bisher war ja das Serversegment, der Rest muss auf die CES warten.

Selbst Teaser und Ankündigungen von Präsentationen sind ja heute wichtige PR Ereignisse....

w0mbat

2021-11-09, 17:06:49

Wieso komisch? AMD hat Zen3D für consumer schon lange angekündigt, startet Q1 2022.

Nightspider

2021-11-09, 17:08:18

V-Cache hat nix mit Zen3+ zu tun.

Falscher Thread.

Und V-Cache wurde im Juni angekündigt und nicht im Januar.

HOT

2021-11-09, 17:55:03

Zen3+ scheint ausschließlich Rembrandt zu sein und auch hier sind keine großen Performancesprünge zu erwarten.

Hammer des Thor

2021-11-10, 14:54:33

Kann mich mal einer mit den aktuellen Stand versorgen? Kommt ein Zen 3 Refresh mit 3D Cache für Desktop Prozessoren oder nicht? Ich lese nur was von EPYC/Server CPUs die mich nicht interessieren.

Danke. :biggrin:

Der 3D-cache soll in erster Linie Spiele beschleunigen, da macht er mehr Sinn als bei Server!

Platos

2021-11-10, 14:56:41

Könnte aber sein, dass es den nur beim 5900x und 5950x gibt.

Birdman

2021-11-10, 15:14:28

Der 3D-cache soll in erster Linie Spiele beschleunigen, da macht er mehr Sinn als bei Server!
Es gibt (ausgesuchte) Serveranwendungen welche noch viel stärker von diesem Cache profitieren als es Spiele tun.
Ich wäre daher nicht so sicher dass AMD diesen Cache vor allem wegen Computerspielen aufgelegt hat, oder ob hier nicht irgendwelche Cloudhoster Anforderungen oder Supercomputer-Projekte für diesen Schritt verantwortlich sind. (und man die Spieleperformance quasi einfach als Bonus mitnimmt)

dildo4u

2021-11-10, 15:35:32

Alder Lake ist die einzige CPU die DDR5 nutzt und ist Desktop only daher erscheint es mir für Desktop deutlich kritischer als für Server.(Wo Intel eh nix gegen 96/128 Core Modelle hat)
Wenn die Ram Hersteller es gebacken bekommen hätten mher High-Performance Module zu liefern und damit auch bessere Preise, gäbe es für AMD nur 3D Cache als Option für ein Gegenschlag.
Wer weiß wann AM5 + DDR5 kommt die Zen 3 + Leaks sind bisher alles Mobile Modelle, Desktop DDR5 Support könnte erst mit Zen 4 kommen.

Nightspider

2021-11-10, 15:45:49

Was der zusätzliche L3 Cache in einigen HPC Anwendungen für Sprünge bringen wird ist sehr nice. Wenn bestimmte Anwendungen mit +60% reagieren wird es interessant ob man zukünftig mit 2 V-Cache Lagen auf ~+90 kommen wird.

Ich kann mir vorstellen das Game-Server von großen MMOs auch massiv vom V-Cache profitieren werden, wenn dort viele Spielemechaniken von dutzenden Spielern ineinandergreifen und kurze Latenzen benötigen. Nur mal beispielsweise Star Citizen genannt wo so viele Sachen ineinandergreifen, das man damit aktuell jeden Serverprozessor gnadenlos in die Knie zwingt. Würde mich nicht wundern wenn man da vielleicht auch derartige 50-65% Steigerungen sehen würde.

r3ptil3

2021-11-10, 15:50:09

Desktop-Roadmap bei AMD? Verwirrung pur für mich gerade.

Ich fasse mal zusammen:
1. Quartal 2022: Zen 3 3D V-Cache (Ryzen 6000)
4. Quartal: Zen 4 Desktop (DDR5, PCIe 5.0) (Ryzen 7000)

Ryzen 6000? Ich hoffe jemand korrigiert mich jetzt.

Hakim

2021-11-10, 15:52:23

Ich dachte die neu Auflage von Zen 3 wird die Version mit dem 3D Cache und danach kommt Ende des Jahres Zen 4?

aceCrasher

2021-11-10, 15:59:54

mboeller

2021-11-10, 16:49:29

Der 3D-cache soll in erster Linie Spiele beschleunigen, da macht er mehr Sinn als bei Server!

hat Basix vor 2 Tagen in einem anderen Thread gepostet (siehe unten):

https://techcommunity.microsoft.com/t5/azure-compute/performance-amp-scalability-of-hbv3-vms-with-milan-x-cpus/ba-p/2939814

der V-Cache beschleunigt einige Server-Anwendungen massiv. Der Unterschied zw. Milan und Milan-X (incl. V-Cache) ist teilweise wesentlich größer als zw. Rome und Milan.

https://www.forum-3dcenter.org/vbulletin/showpost.php?p=12841347&postcount=6211

Nightspider

2021-11-14, 12:43:35

Ich bin mal gespannt ob Rembrandt bei Leistung/Watt mit Alderlake Mobile mithalten können wird.
Wenn der L3 bei der bisherigen Größe bleibt wird Rembrandt zumindest im CPU Bereich keine Chance haben.

Wenn AMD noch etwas Secret Sauce in Rembrandt verbaut hat von der wir noch nichts wissen wäre das gut.

Ansonsten wird AMD erst wieder mit der Zen4 APU Anfang 2023 die Chance haben besser als Intel zu sein dank 5nm.

robbitop

2021-11-14, 12:58:30

Die Frage ist, wie relevant die letzten 10-15% CPU Leistung bei mobile sind.

Nightspider

2021-11-14, 13:00:57

MSABK

2021-11-14, 13:01:11

Zossel

2021-11-14, 13:09:35

Intel hat in mobilen Geräten halt den Vorteil, dass sie ein komplettes Paket anbieten können mit TB4, eigenem Wlan usw. Das macht es für die Hersteller einfacher.

Wenn selbst keine NICs von Intel lieferbar sind, kann Intel das auch liefern?

CrazyIvan

2021-11-14, 17:01:24

Weniger relevant als die Leistung/Watt. ;)

Wenn diese aber teils 15-25% vor Rembrandt liegen sollte würde ich klar zur Intel Lösung greifen.

Mal schauen was N6 an der Front bringt und ob AMD weiter am Power Management gefeilt hat.
Ohne jetzt sämtliche Zahlen bereits ins Detail durchgegangen zu sein, scheint ADL bei 125w eine sehr gute Perf/W zu haben - im MT durchaus auf Augenhöhe zu Cezanne-U und M1 Max. In ST ein Stück weit weg, aber ebenfalls eine deutliche Steigerung.
Daher wird es sehr darauf ankommen, ob man Rembrandt-U mit 2+8 bei 15w vergleicht oder Rembrandt-H mit 6+8 bei 28+w. Grob geschätzt könnte AMD den ersten Vergleich gewinnen und den zweiten verlieren.
Es gibt da aber für mich einen großen Unsicherheitsfaktor: ADL 8+8 scheint seinen Sweetspot irgendwo zwischen 65w und 125w zu haben. Deshalb bin ich mir nicht sicher, ob die Architektur genau so gut nach unten skaliert wie Zen2/3.

Nightspider

2021-11-14, 17:19:55

Zumindest in Cache lastigen Anwendungen wie Spielen scheint ADL ja sehr gut bzgl. Perf/Watt abzuschneiden.
Genau da hätte eine theoretische V-Cache Variante von Rembrandt neue Bestmarken errreichen können.
Bin auch mal gespannt ob Zen4 Raphael noch 2022 in Notebooks einzug halten wird. Das wird auf jeden Fall spannend. Wenn AMD das Momentum nutzt könnte man da Intel alt aussehen lassen zumindest bei der Perf/Watt unter Last bei fordernden Anwendungen.

Es bleibt auf jeden Fall spannend.

robbitop

2021-11-14, 18:57:17

Naja die meisten Notebooks sind sowas von GPU limitiert, dass die CPU Leistung in Spielen fast immer völlig sekundär ist.

Nightspider

2021-11-14, 18:57:46

Nur wenn man damit zockt.

Würde ich am Laptop nur zu 10-20% der Zeit machen.

Ist natürlich, wie du sagst, stark von den eigenen Präferenzen abhängig.

robbitop

2021-11-14, 19:37:26

Und was ist so rechenaufwändig abseits Games, so dass man 10-15% CPU Leistung braucht? Videoschnitt? Das geht auf Macs noch wesentlich besser seit M1 Max.

CrazyIvan

2021-11-14, 20:44:32

Naja, es gibt da schon noch genug Dinge für Entwickler. Einfach mal nen lokalen SQL Server installiert zu haben oder halt einfach allgemein im Windows oder gar Gaming Umfeld zu entwickeln. CAD Umfeld wäre da noch.
Aber Du hast schon recht: Die Nische für Wintel wird außerhalb Gaming immer kleiner.

ryan

2021-11-14, 20:54:22

Es gibt da aber für mich einen großen Unsicherheitsfaktor: ADL 8+8 scheint seinen Sweetspot irgendwo zwischen 65w und 125w zu haben. Deshalb bin ich mir nicht sicher, ob die Architektur genau so gut nach unten skaliert wie Zen2/3.

Im CB Multithreading Ranking ist der 12900k @65W effizienter als mit 88W und 88W sind wiederum effizienter als 125W. Es gibt diverse Skalierungstests und bisher sieht das sehr gut aus. Hier ganz frisch reingekommen: https://www.forum-3dcenter.org/vbulletin/showpost.php?p=12846663&postcount=452

Ich gehe davon aus, dass sich das Hybrid Design für mobile noch besser eignet. Interessanter wird es beim 2+8 gegen 6 oder 8 Zen 3. Bei 20+ Watt sollten 8 Zen 3 problemlos schneller sein, ob es bei strikten 15 Watt noch reicht kann ich nicht einschätzen. In den meisten ULV Tests sind die power Limits höher gesetzt.

Savay

2021-11-14, 22:54:17

Videoschnitt? Das geht auf Macs noch wesentlich besser seit M1 Max.

Klar...nur für Videoschnitt wechselt man mal eben das komplette Ökosystem und tut sich den goldenen Apple Käfig an oder wie?! :freak:

Nebenbei ist abseits div. Showcases von 08/15 Adobe Anwendungen die ARM Macwelt offensichtlich noch längst nicht ganz so rosig wie oftmals getan wird!
Sonst würde nicht allerorten nach M1 Ports und über Memoryleaks genörgelt, dazu komische Auffälligkeiten bei CoreML.

robbitop

2021-11-15, 12:27:22

Die neuen M1 Pro / Max (die alten M1 nicht) haben Hardware Encoder für ProRes. Das soll wohl laut den Reviews ein ziemlicher Gamechanger sein für Video Editing.

Müssen muss man nicht umsteigen. Aber ob 10-15% beim Videoschnitt jetzt den großen Vorteil ausmachen? Klar wenn man vor der Entscheidung steht und eines der beiden Produkte ist bei gleicher Leistungsaufnahme 10-15% schneller wird man das schnellere nehmen.
Aber der riesen große Vorteil ist es IMO nicht.

dildo4u

2021-11-15, 12:59:11

Mal sehen was Intel bringt ich erwarte da schon einiges von ARC was die Encoder angeht.
AMD und Nvidia werden vermutlich erst Ende 2022 was neues in ihren 5nm Modelle haben.

HarryHirsch

2021-11-17, 22:12:29

Ist schon bekannt ob die neuen APUs HDMI 2.1 unterstützen werden?

nordic_pegasus

2021-11-17, 23:28:42

Ist schon bekannt ob die neuen APUs HDMI 2.1 unterstützen werden?

was ist eigentlich hier die offizielle Definition? Wenn man bei Geizhals die Mainboard filtert, werden viele mit HDMI 2.1 beworben, auf den Hersteller-Seiten sind dann immer * mit Hinweisen wie folgt:

Support 4K@60Hz as specified in HDMI® 2.1.

ich sehe hier ein ähnliches Chaos wie bei USB 3.2 Gen1 (= Vanilla USB 3.0)

Darum würde ich die Frage etwas konkreter stellen, wann sind 48Gbps HDMI 2.1 Anschlüsse mit allen Features (ALLM, VRR) am Markt?

rentex

2021-11-18, 08:39:09

Warum HDMI 2.1 und teilweise HDMI 2.0 immer so ein Drama bei Intel oder AMD ist, kapiere ich nicht.

disap.ed

2021-11-22, 09:48:38

was ist eigentlich hier die offizielle Definition? Wenn man bei Geizhals die Mainboard filtert, werden viele mit HDMI 2.1 beworben, auf den Hersteller-Seiten sind dann immer * mit Hinweisen wie folgt:

ich sehe hier ein ähnliches Chaos wie bei USB 3.2 Gen1 (= Vanilla USB 3.0)

Darum würde ich die Frage etwas konkreter stellen, wann sind 48Gbps HDMI 2.1 Anschlüsse mit allen Features (ALLM, VRR) am Markt?

Agree. Ich frage mich in so Fällen immer, warum man nicht einfach HDMI 2.2 ausspricht, was dann wirklich (verpflichtend) alles abdeckt.

HOT

2021-11-22, 11:09:11

Über den CPU-Sockel gibts halt nur 4k60 ohne HDR. Scheint ja beim 1700er ebenfalls der Fall zu sein.

TwoBeers

2021-11-27, 08:35:47

Zen 3 3D ist Ryzen 6000.

Ich hoffe, dass es einen Ryzen 6900 geben wird.

Dann kann man einen 6900 und eine 6900 im Rechner haben. ;D (freue mich schon auf die Signatur)

basix

2021-11-27, 17:03:45

Ich hoffe, dass es einen Ryzen 6900 geben wird.

Dann kann man einen 6900 und eine 6900 im Rechner haben. ;D (freue mich schon auf die Signatur)

Naja, ich hätte ja gerne endlich nach 7 Jahren X99 vom 5960X auf den 6950X geupgraded :D

OgrEGT

2021-11-27, 20:59:15

Mir würd auch der 6800X3D langen :ulove:

BavarianRealist

2021-11-28, 13:07:27

Ich vermute, dass AMD die kommenden Ryzen mit 3D-Cache als Ryzen-6xxx benennen wird, weil diese einfach eine Generation leistungsfähiger werden. Die bisherigen behalten womögich ihre Bezeichnung, evtl. mit XT, wenn ein paar Mhz mehr.

Somit passt das dann auch gut zu den Rembrandts, die auch unter 6xxx leufen dürften, wo ebenfalls die "alten" Cezanne unter 5xxx weiter geführt werden.

HOT

2021-11-29, 11:15:25

AMD hat sich doch da was schützen lassen, das werden sie schon einbauen.

bnoob

2021-11-29, 11:15:32

Die sollen den endlich releasen, ich muss mein Mainboard austauschen und mir die Arbeit nicht zweimal machen :D

Q4 aus dem aktuellen Thread-Titel ist ja nicht mehr haltbar...

w0mbat

2021-11-29, 12:01:48

AMD hat sich doch da was schützen lassen, das werden sie schon einbauen.
Sie haben sich den Begriff "3D V-Cache" schützen lassen, da geht es mMn aber eher um einen Werbebegriff. Ich glaube kaum, dass AMD Zen3D als "Ryzen 9 5950X 3D V-Cache Edition" verkaufen wird. Ryzen 6000 macht Sinn.

HOT

2021-11-29, 12:14:49

Denke ich auch. Aber das wird für die gesamte Generation gelten mMn, die 5k werden dann verschwinden mMn. Irgendein Anhängsel wird man für den VCache sicherlich trotzdem machen, nicht nur 6k.

mironicus

2021-11-29, 12:26:12

Der Cache in Zen3D sollte teurere RAM-Sticks mit schnellen Timings praktisch überflüssig machen, oder?

w0mbat

2021-11-29, 12:51:15

Je mehr cache, desto weniger muss auf den RAM zugegriffen werden. Also in der Theorie ja. Aber auch bei 96-192MB L3 wird der RAM gebraucht und schneller = besser :D

][immy

2021-11-29, 13:22:46

Der Cache in Zen3D sollte teurere RAM-Sticks mit schnellen Timings praktisch überflüssig machen, oder?
theoretisch kann das passieren. Aber niedrige Timings dürften bei einem Cache-miss trotzdem noch top sein ;)
Aber der deutlich größere Cache dürfte z.B. besonders bei DDR5 ziemlich gut zu gebrauchen sein. Dürfte die Nachteile von DDR5 ganz gut abfangen. Daher frage ich mich ja schon ob die CPU nicht doch für AM5 kommt. Denn das wäre ein relativ guter Übergang zu einem neuen Sockeln, ohne großartig Nachteile durch den DDR5 Speicher befürchten zu müssen.

Da fragt sich aber auch langsam, ob der große Cache nicht dazu verwendet werden könnte ins Bios ohne Arbeitsspeicher zu kommen ;)
Würde die Fehlersuche definitiv einfacher machen. Denn wenn man sich alle Komponenten neu bestellt weiß man ja meist nicht woran es liegt das das System nicht hoch fährt.

Nightspider

2021-11-29, 16:37:13

Release im Februar?

https://twitter.com/greymon55/status/1465262838490931205

w0mbat

2021-11-29, 16:45:56

Macht Sinn. Vorstellung auf der CES, Verkauf 4 Wochen später.

MSABK

2021-11-29, 17:25:03

Wann ist die CES? Dort wurde die letzten Jahre ja auch die APU vorgestellt.

Gibt es da schon Gerüchte ob es DDR5 haben wird?

w0mbat

2021-11-29, 17:36:39

5. - 8. Januar. Die Mobilen APUs wohl sicher LPDDR5, die Desktop-Versionen wohl nicht, da AM4.

ryan

2021-11-29, 17:50:49

Release im Februar?

https://twitter.com/greymon55/status/1465262838490931205

3 Monate sind das nicht unbedingt, das können auch 2-2.5 Monate im Desktop sein. Von daher würde ich Januar nicht ausschließen.

mboeller

2021-11-30, 14:26:50

Thunder99

2021-12-05, 13:03:40

maximus_hertus

2021-12-05, 14:35:33

Was hat man davon, wenn man dann nicht liefern kann? Aktuell spielt Intel nahezu keine Role für AMD, die werden so oder so alles los. Das gleiche war ja bei Intel zuletzt der Fall. Der "normale" Marktmechanismus gilt nicht (mehr).

Und ein 8C 3D würde ich nahezu ausschließen. Zumindest im Sommer, bei der 3D Präsentation, wurde afair gesagt, dass nur die Ryzen 9 den 3D V-Cache bekommen, was den 8C ausschließen würde.

Meiner Meinung nach könnte das so ab 2022 aussehen:

Ryzen 9 6950"XT" (3D) - der neue "King" - 799 USD
Ryzen 9 6900"XT" (3D) - overall minimal hinter dem 12900K - 599 USD

Ryzen 7 6850X - quasi ein refreshter 5900X, Gaming knapp hinter 12700K, Multicore etwas über 12700K - overall grober Gleichstand - 449 USD
Ryzen 7 6800X - refreshter 5800X - overall minimal hinter 12600K, aber vor den non-K Modellen - 349 USD, was auch den eh schon vorhandenen Straßenpreisen entspricht
Ryzen 7 5700G - wie gehabt - leichte Preisanpasung - 329 USD

Ryzen 5 5600G - wie gehabt - leichte Preisanpassung - 239-249 USD

Die CPUs unter den 3D-Varianten bleiben quasi die gleichen mit Anpassungen an die "Preiswirklichkeit", die es eh schon gibt. Der 5600X könnte weg fallen, oder zu einem reinen OEM 6600X werden imo.

Aber warten wir ab. Es ist verdammt ruhig bei AMD. ICh hätte da schon ein wenig mehr "Gegenwehr" im November erwartet, um Alderlake zumindest etwas "entgegenzusetzen".

w0mbat

2021-12-05, 15:14:32

Zumindest im Sommer, bei der 3D Präsentation, wurde afair gesagt, dass nur die Ryzen 9 den 3D V-Cache bekommen, was den 8C ausschließen würde.
Nein, das wurde nicht gesagt. Es wurde ein 5900X mit 3D V-Cache als Prototyp gezeigt, aber keinerlei Aussagen über mögliche Produkte oder dass es nur für Ryzen 9 kommt.

dildo4u

2021-12-05, 15:43:27

Macht es Sinn, Zen3D und Zen3+ zu mischen bei der 6000er Serie? Damit könnte AMD zumindest im Vergleich zu der 5000er Serie wieder ein "komplettes" Portfolio anbieten

6950X -> Zen3D 16C 105W
6900X -> Zen3D 12C 105W
6850X -> Zen3D 8C 105W
6800D -> Zen3+ 8C 105W
6700D -> Zen3 8C (Recycling Zen3) 65W
6650X -> Zen3D 6C 105W
6600D -> Zen3+ 6C 65W
6600D -> Zen3 6C (Recycling Zen3) 65W

Um damit bestmöglich Alderlake parol zu bieten.
AMD wird keine Schnäppchen mher bringen alles was 2022 unter 300€ kommt mit IGP und weniger Cache, denn wenn sie auf diesen Chips sitzen bleiben kann man sie so besser an OEMs verhökern.
Solche Gurken wie 5600G sind imo das erste Anzeichen davon nicht vergessen RDNA2 wird noch mher vom Die Space einnehmen als Vega.

One.de hat z.b keine Ryzen 3600 mher für Preis/Leistung Systeme.

https://www.one.de/amd-ryzen-5-pc-systeme?p=1&o=3

maximus_hertus

2021-12-05, 16:06:39

Nein, das wurde nicht gesagt. Es wurde ein 5900X mit 3D V-Cache als Prototyp gezeigt, aber keinerlei Aussagen über mögliche Produkte oder dass es nur für Ryzen 9 kommt.

Ich habe mir die Präsentation nochmals angeschaut, sie sagt "for the highest end products". highest end ist nochmals eine Steigerung von High End und damit wohl nur der PReisbereich ab 500 USD. Klar ein 8C 3D ist nicht komplett ausgeschlossen, aber was soll das werden?

8C 3D wird in MT nicht mit einem i7-12700K mithalten können und im Gaming möglicherweise knapp vorne sein. Ein 12700K liegt bei 420 Euro. Ein 8C 3D wie gesagt nciht unter 500 Euro.

Ein 12C non 3D dürfte da praktischer sein. Gerade weil man da auch teildefekte Cores nutzen kann.

Ich bin mir auch nicht mehr so sicher, dass 3D V-Cache so viel bringen wird. Viel mehr als im Schnitt 10 - max. 15% sehe ich da nicht. Mit 10% wäre man gerade so ziemlich exakt auf 12900K Niveau (Games), zumindest beim Top-Model.

Aber es kann auch komplet anders kommen. Von daher lasse ich mich da gerne Überraschen :)

ryan

2021-12-05, 18:15:20

Hott3X

2021-12-05, 18:23:28

Das gute ist halt die Chiplets sind die gleichen, die guten kann AMD in den 16C oder 8C packen und die Teildefekten in die 12C. Theoretisch ginge selbst der 6C noch, aber ich denke alles wird für die 12C drauf gehen. Bei dem 8C sehe ich schon eine Chance, so groß ist der Bedarf nicht für 16C beim Gaming, da kann man auch über die Masse 8C für gutes Geld raus hauen.
Wenn ein 8C3D kommt, werde ich mir den holen. Sonst halt ein 12C.

Thunder99

2021-12-05, 18:50:59

Unterstützt Rembrandt auch DDR4? Ich frage mich was das werden soll mit der Verfügbarkeit und den Preisen. Die H Modelle mit dedizierter GPU würden noch gut mit DDR4 auskommen. Anders sieht es bei den Modellen mit iGPU aus, hier wäre DDR5 schon ein riesen Vorteil. Mit DDR4 würde man erheblich Bandbreite und damit iGPU Leistung einbüßen.
Davon kann man ausgehen. Wobei ich denke, dass DDR5 ohne extra Grafik besser wäre und mit extra Grafikkarte/Chip DDR4 genug ist.

Sehen wir dann nächstes Frühjahr :)

@Hott3X: Me too :D

maximAL

2021-12-06, 12:31:01

HOT

2021-12-06, 12:45:56

Rambrandt kommt ja auch auf AM5, diese Liste ist sicher Unsinnig. Höchstens Barcelo wird als Ryzen6k kommen.

davidzo

2021-12-06, 15:04:21

Ich denke Thunder99s Liste macht schon Sinn.
Es passt genau in die OEM Releasezyklen 1 Jahr nach Ryzen 5000 einen Nachfolger zu präsentieren. Durch Covid19 hat sich das ganze nochmal etwas verschoben, aber man wird nicht bis Q3/4 warten, also 2 volle Jahre zwischen Ryzen 5K und 6K packen.

Natürlich werden nicht plötzlich alle CPUs X3D cache bekommen. Aber das müssen sie auch nicht, es reicht wenn sie einfach eine modellreihe weiter runter gereicht werden, so wie das Intel, nvidia und AMD seit Jahrzehnten machen.
Und natürlich wird Rembrandt auch als APU kommen. möglicherweise will man den aber in derselben Modellfamilie mit Zen4 haben, damit der nicht so schnell altert weil die nächste APU frühestens 2023 kommt. Das wäre das einzige was gegen einen Namin-refresh spricht.

Davon abgesehen spricht absolut nichts gegen einen refresh. Die OEMs brauchen dafür lediglich ein neues BIOS und einen neuen Produktsticker, können einfach die Ryzen 5K weiterverwenden. Analog zu renoir-lucienne reichen firmwareverbesserungen und wenn es hoch kommt ein neues AGESA.

Btw, was meint ihr zur Leistung von Rembrandt?

https://www.3dcenter.org/news/timespy-wert-zeigt-massiven-sprung-der-igpu-performance-bei-amds-rembrandt-apu

Ich hatte mir irgendwie mehr erhofft von 50% mehr Ausfürungseinheiten + RDNA2 + 50% mehr Speicherbandbreite durch DDR5.
Idealerweise sollte das für eine Leistungsverdopplung reichen, nicht nur +60%. Hatte eigentlich auf knapp über GTX1650 Leistung gehofft, denn da liegt die Rechenleistung von RDNA2 mit dem erwartbaren Mehrtakt. Aber da reicht vermutlich einfach die Speicherbandbreite mal wieder nicht.

Damnit AMD, ein bisschen IFcache könntet ihr bei einer APU einfach mal bringen, ist doch nicht so schwer.

Möglicherweise ist das aber auch eine Mobile APU, von daher einfach TDP- und Speicherseitig nicht mit Desktop APUs wie dem 5700G vergleichbar.

HOT

2021-12-06, 15:10:51

Bei 50% mehr Bandbreite wird man wohl kaum mehr als 60% Mehrleistung rauskriegen. Das geht einfach nicht. Wer da mehr erwartet hat, hat schlichtweg unrealistische Erwartungen gehabt.
Und IFCache bringen die nicht, dafür ist das einfach nicht der Zielmarkt.
Die GPU-Leistung ist ja auch konkurrenzlos, von daher mission accomplished. 3DCache unnötig.

Und wir werden sehen, welche CPUs 3DCache bekommen. Nötig wird es gegen den 12600k, 12700k und 12900k, das ist schonmal klar. Alles darunter ist eigentlich egal, da kann man nen 8 Core gegen einen 6C von Intel setzen und fertig (und nen 6C vs. einen 4C). Und klar wird sein, dass der x950 mit 3DCache wieder die recht klar beste CPU sein wird.

Der_Korken

2021-12-06, 17:49:37

Ich hatte mir irgendwie mehr erhofft von 50% mehr Ausfürungseinheiten + RDNA2 + 50% mehr Speicherbandbreite durch DDR5.
Idealerweise sollte das für eine Leistungsverdopplung reichen, nicht nur +60%. Hatte eigentlich auf knapp über GTX1650 Leistung gehofft, denn da liegt die Rechenleistung von RDNA2 mit dem erwartbaren Mehrtakt. Aber da reicht vermutlich einfach die Speicherbandbreite mal wieder nicht.

Damnit AMD, ein bisschen IFcache könntet ihr bei einer APU einfach mal bringen, ist doch nicht so schwer.

Möglicherweise ist das aber auch eine Mobile APU, von daher einfach TDP- und Speicherseitig nicht mit Desktop APUs wie dem 5700G vergleichbar.

Solange wir den Verbrauch in dem Benchmark nicht kennen, würde ich das nicht auf die Bandbreite schieben. Es wird oft so gerechnet, dass +X% Rechenleistung und +X% Bandbreite in +X% Leistung umgewandelt werden, dabei aber vergessen, dass auch der Verbrauch erstmal um X% ansteigen würde. Drückt man den Verbrauch wieder aufs alte Niveau, muss zwingend Leistung geopfert werden.

Bei 50% mehr Bandbreite wird man wohl kaum mehr als 60% Mehrleistung rauskriegen. Das geht einfach nicht. Wer da mehr erwartet hat, hat schlichtweg unrealistische Erwartungen gehabt.

Die Bandbreiten-Effizienz ist mit RDNA gegenüber Vega gestiegen, von daher war es jetzt nicht so unrealistisch dass die Leistung stärker ansteigt als die Bandbreite. Wobei ein größerer Cache natürlich immer hilft, auch beim Verbrauch. Aber das war AMD dann vielleicht zu nischig um dafür Die-Fläche zu opfern.

amdfanuwe

2021-12-06, 18:05:07

Rembrandt ZEN3+ APU wird zur CES vorgestellt. Für den Desktop kommt die frühestens Mitte 2022. Dann sollte ZEN 4 auch nicht mehr weit weg sein.

Thunder99

2021-12-06, 18:12:02

Eventuell bringt AMD es fertig den L3 mit der GPU zu sharen :D, aber wahrscheinlich nicht jetzt sondern erst bei Zen4+ oder noch viel später

MSABK

2021-12-06, 18:27:55

Bleibt Rembrandt bei 16MB L3?

davidzo

2021-12-06, 19:32:40

Bei 50% mehr Bandbreite wird man wohl kaum mehr als 60% Mehrleistung rauskriegen. Das geht einfach nicht. Wer da mehr erwartet hat, hat schlichtweg unrealistische Erwartungen gehabt.

Ist nicht unrealistisch, sondern für eine neue µArch erwartbar, bzw. sind das seit Vega sogar zwei Architekturgenerationen.
Gegenbeispiel Nvidia Maxwell: GM206 ist gute 30% schneller als GK106 und hat doch 25% weniger Speicherbandbreite und gute 20Watt weniger Verbrauch trotz gleichem 28nm Node.
RDNA ist eigentlich AMDs Maxwell-Moment. RDNA1 = Testballon wie GM107. RDNA2 = GM200 Serie. RDNA3 = Pascal Moment ?? :biggrin: (biggest leap in one Gen, Leadership)

Eine grundlegend andere Architektur geht anders mit Speicherbandbreite um. Außerdem verändert sich die Software in der Regel so, dass zunehmend mehr Shaderleistung und weniger Bandbreite gefragt ist. Wer sagt denn das Vega in 2022 noch überall rein bandbreitenlimitiert ist?

Die GPU-Leistung ist ja auch konkurrenzlos, von daher mission accomplished. 3DCache unnötig.

Nur wenn man nicht über den Tellerrand schauen will. Bis die Teile 2022 lieferbar sind hätte ich schon anderthalb Jahre lang vergleichbare Leistung von der Konkurrenz mit dem Obsthandel kaufen können. Vermutlich sogar energieeffizienter und mit den besseren Gerätespecs.

Solange wir den Verbrauch in dem Benchmark nicht kennen, würde ich das nicht auf die Bandbreite schieben. Es wird oft so gerechnet, dass +X% Rechenleistung und +X% Bandbreite in +X% Leistung umgewandelt werden, dabei aber vergessen, dass auch der Verbrauch erstmal um X% ansteigen würde. Drückt man den Verbrauch wieder aufs alte Niveau, muss zwingend Leistung geopfert werden.

Rembrandt kommt aber in N6 und ich will doch hoffen das AMD nicht architektonisch auf der Stelle tritt. Da darf man also was die Effizienz angeht schon eine Verbesserung erwarten.

Eventuell bringt AMD es fertig den L3 mit der GPU zu sharen :D, aber wahrscheinlich nicht jetzt sondern erst bei Zen4+ oder noch viel später

Wer es glaubt wird selig. Für eine so große Änderung braucht AMD mehr vorlauf. Man hat das mit Trinity und HSA ja mal geplant, aber nach dem Flop sind die Leute alle gegangen worden. Glaube kaum dass AMD da im moment Kapazitäten für hat das nochmal neu zu machen, zumal es die Zen3 Cache Struktur vermultich so drastisch verändern würde dass ein neuer µArch Name angebracht wäre.

Bleibt Rembrandt bei 16MB L3?

Laut bisherigen Leaks ist das der Anschein, ja.

Und es kommt auch kein If$. Das sagt zumindest der AMDKFD Linux kernel driver. Dafür aber ein verdoppelter L2 Cache der IGP von 2mb, also auf Navi23 level statt 1mb wie Navi24/Lucienne/Cezanne. - War vermutlich das einfachste das so auf die schnelle zu implementieren ohne an den Speichercontroller der CPU ran zu müssen.

SimonGreen

2021-12-06, 22:34:37

Hauptsache auf nem 13" Rembrandt Notebook läuft XCOM 2 bei vollen Details flüssig in FHD ��

GTX770 Leistung muss sein!

Zossel

2021-12-06, 22:43:40

Nur wenn man nicht über den Tellerrand schauen will. Bis die Teile 2022 lieferbar sind hätte ich schon anderthalb Jahre lang vergleichbare Leistung von der Konkurrenz mit dem Obsthandel kaufen können. Vermutlich sogar energieeffizienter und mit den besseren Gerätespecs.

Sicherlich wird man zwischen normalen DDR und LPDDR vergleichen können.
Gibt es eigentlich schon Kisten mit Intel drin wo man das vergleichen könnte?

y33H@

2021-12-07, 01:56:51

idR gibt's keine Geräte die identisch sind abseits des Speichertyps, daher ist das in der Praxis leider schwierig.

davidzo

2021-12-08, 13:12:16

https://www.notebookcheck.com/Ein-Leak-enthuellt-das-Asus-ROG-Zephyrus-Duo-16-mit-einem-AMD-Ryzen-9-6900HX-und-einer-GeForce-RTX-3080-Ti.582179.0.html

Ryzen 9 6900HX mit 16 GB DDR5-4.800-Arbeitsspeicher

Falls die Timespy Werte von dem Mobilgerät stammen erklärt dass das maue Abschneiden. LPDDR5-6400 sind 33% mehr Bandbreite. Damit sollte sich dann auch GTX1650-Niveau einstellen.
Hoffentlich wird es Geräte geben die LPDDR5 mit ausreichender TDP kombinieren und nicht nur 15Watt Modelle.

Im Desktop kann man etwas mehr Takt + DDR5-5200 (laut Patrick Schur) erwarten .

ryan

2021-12-08, 13:47:42

DDR5-4.800 sind besser als LPDDR4x heute. Das Problem könnten die 16GB sein, 8 GB Module sind viel langsamer laut MSI:

https://storage-asset.msi.com/global/picture/news/2021/mb/DDR5_08.JPG
https://storage-asset.msi.com/global/picture/news/2021/mb/DDR5_09.JPG
https://storage-asset.msi.com/global/picture/news/2021/mb/DDR5_10.JPG
https://storage-asset.msi.com/global/picture/news/2021/mb/DDR5_11.JPG

Problem ist nur, dass 2x16GB DDR5 sehr sehr teuer werden.

maximAL

2021-12-08, 16:05:29

Welche DDR5 Geschwindigkeiten werden die ersten Boards und CPUs eigentlich unterstützen?

SimonGreen

2021-12-08, 16:13:52

Ich denke DDR5-4.800 und LPDDR5-6.400 wird es von Anfang an geben und hoffentlich auch verfügbar sein.
Zur CES 2022 am 04.01.2022 wissen wir mehr.

Rembrandt wird schon sehr interessant.
Da wird quasi alles überarbeitet:

Zen3 >>> Zen3D
Vega >>> RDNA2
DDR4>>> (LP)DDR5

Bei AMD zusätzlich:
TB3 >>> TB4

Sowas gibt´s dann doch eher selten.
Von daher sehe ich bei einem zukünftigen 6600U oder 6800U die Grafikleistung einer GTX770 für durchaus möglich :wink:

Thunder99

2021-12-08, 17:40:23

Rembrandt wird nicht Zen3D sein, das ist zu früh. Oder wir waren alle auf dem falschen Fuß.

Anscheinend eine + Variante, was auch immer das heißen mag.

Nightspider

2021-12-08, 17:51:24

Rembrandt wird schon sehr interessant.
Da wird quasi alles überarbeitet:

Zen3 >>> Zen3D
Vega >>> RDNA2
DDR4>>> (LP)DDR5

Wenn dann eher Zen3+ und nicht Zen3D.

Aber da würde ich jetzt nicht viel mehr als 3-5% erwarten. Wenn es am Ende 10% in Games sind freu ich mich natürlich.

In Spielen schlagen ja manchmal schon kleine Verbesserungen durch, wobei schon Cezanne eher durch den zu kleinen Cache ausgebremst wurde.

SimonGreen

2021-12-08, 22:06:23

7nm >>> 6nm
Ganz vergessen, da kommt einiges zusammen

amdfanuwe

2021-12-08, 22:45:47

7nm >>> 6nm
Ganz vergessen, da kommt einiges zusammen
Wenn AMD einfach das vorhandene 7nm IP für CPU/GPU übernehmen, werden die Flächenvorteile nicht genutzt.
Wenn AMD von vornherein auf den 6n Prozess optimiert könnten sie auch die CPU und RDNA2 überarbeiten und Schwachstellen beheben, die sich bei Vermeer, RDNA2 GPUs und Van Gogh zeigten.
Durch das neue Speicherinterface sollte zumindest der IF und Cache angepasst werden.
Könnte eine günstige APU werden.
3D Cache könnte als flotte APU Variante im Premium Segment mit entsprechendem Aufpreis angeboten werden.
Mal sehen, was AMD daraus macht.

maximus_hertus

2021-12-09, 10:03:45

Von daher sehe ich bei einem zukünftigen 6600U oder 6800U die Grafikleistung einer GTX970 für durchaus möglich :wink:

Wäre schön, aber das halte ich für komplett unmöglich. 15W sind 15W. Aber selbst mit deutlich mehr Wattage sehe ich eine 970er als in 2022 nicht erreichbar.

Vor allem wofür (aus AMDs Sicht)? Falls es so leistungsfähig wäre, würde man doch lieber die CUs beschränken etc., Silizium sparen und so mehr Kohle verdienen, da man mehr Chips herstellen kann.

SimonGreen

2021-12-09, 14:19:40

Wäre schön, aber das halte ich für komplett unmöglich. 15W sind 15W. Aber selbst mit deutlich mehr Wattage sehe ich eine 970er als in 2022 nicht erreichbar.

Vor allem wofür (aus AMDs Sicht)? Falls es so leistungsfähig wäre, würde man doch lieber die CUs beschränken etc., Silizium sparen und so mehr Kohle verdienen, da man mehr Chips herstellen kann.

Habs oben schon verbessert.

Sorry... Zahlendreher :redface:

Ich meine GTX770 Leistung in Rembrandt 6800U

machbar

basix

2021-12-09, 15:29:32

Naja, sind ja nur +50% zwischen 970 und 770. Ist ein gutes Stück, aber jetzt nicht Welten. Mit 12 CU @ 2.0 GHz wäre man wohl ziemlich nah an einer 970 (falls nicht Speicherbandbreite oder sonst was limitiert).
- 3.1 TFlops (RDNA2) vs. 4.0 TFlops (Maxwell)
- +13% IPC bei 2560 Shader Cores (RDNA1 ~RDNA2 vs. Pascal ~Maxwel (https://www.computerbase.de/2019-07/radeon-rx-5700-xt-test/4/#abschnitt_navi_vs_vega_vs_turing_vs_pascal)l)
- 768 vs. 1664 Shader-Cores: Weniger = bessere Auslastung. Typisch (bei vielen Architekturen) sind so 1.7x Performance bei 2.0x Shader-Cores (https://www.computerbase.de/2021-03/amd-radeon-rdna2-rdna-gcn-ipc-cu-vergleich/2/) --> ~+2518% IPC

3.1 * 1.13 * 1.25 1.18 = 4.1 "GTX 970"-TFlops --> ähnliche Performance (abzüglich der 3.5 GByte Limitierung :D)

GTX 770 Leistung bei 15W wären dann bei ~1.3 GHz drin. Das sollte definitiv machbar sein.

SimonGreen

2021-12-09, 15:43:41

Naja, sind ja nur +50% zwischen 970 und 770. Ist ein gutes Stück, aber jetzt nicht Welten. Mit 12 CU @ 2.0 GHz wäre man wohl ziemlich nah an einer 970 (falls nicht Speicherbandbreite oder sonst was limitiert).
- 3.1 TFlops (RDNA2) vs. 4.0 TFlops (Maxwell)
- +13% IPC bei 2560 Shader Cores (RDNA1 ~RDNA2 vs. Pascal ~Maxwel (https://www.computerbase.de/2019-07/radeon-rx-5700-xt-test/4/#abschnitt_navi_vs_vega_vs_turing_vs_pascal)l)
- 768 vs. 1664 Shader-Cores: Weniger = bessere Auslastung. Typisch (bei vielen Architekturen) sind so 1.7x Performance bei 2.0x Shader-Cores (https://www.computerbase.de/2021-03/amd-radeon-rdna2-rdna-gcn-ipc-cu-vergleich/2/) --> ~+25% IPC

3.1 * 1.13 * 1.25 = 4.3 "GTX 970"-TFlops --> ähnliche Performance (abzüglich der 3.5 GByte Limitierung :D)

GTX 770 Leistung bei 15W wären dann bei ~1.3 GHz drin. Das sollte definitiv machbar sein.

"3.5 GByte Limitierung" stimmt, da war was ;D
Trotzdem, freu mich auf die ersten RembrandtU Benchmarks.

Nightspider

2021-12-30, 10:43:04

AMD Ryzen 9 6900HX: Zen 3+ CPU on 6nm, packs 'Radeon 680M' Navi2 iGPU

We're looking at max CPU clocks of up to 4.6GHz, 20MB of L3 cache, and support for DDR5-4800 memory.

Read more: https://www.tweaktown.com/news/83643/amd-ryzen-9-6900hx-zen-3-cpu-on-6nm-packs-radeon-680m-navi2-igpu/index.html?utm_source=dlvr.it&utm_medium=twitter&utm_campaign=tweaktown

https://www.tweaktown.com/news/83643/amd-ryzen-9-6900hx-zen-3-cpu-on-6nm-packs-radeon-680m-navi2-igpu/index.html?utm_source=dlvr.it&utm_medium=twitter&utm_campaign=tweaktown

https://static.tweaktown.com/news/8/3/83643_04_amd-ryzen-9-6900hx-zen-3-cpu-on-6nm-packs-radeon-680m-navi2-igpu_full.jpg

Der_Korken

2021-12-30, 10:55:40

Wie kommen die auf 20MB L3? L2 und L3 zusammenaddiert?

MSABK

2021-12-30, 11:02:07

Wie kommen die auf 20MB L3? L2 und L3 zusammenaddiert?

Ja, an der CPU wird sich sicherlich nichts ändern bis auf die Fertigung.

davidzo

2021-12-30, 11:37:47

Wieso müssen sie das Naming immer so verkacken?

6400i und 6300i wäre die viel passendere Bezeichnung gewesen als 680m. Damit führt man eine parallelbezeichnung ein die keine Vergleiche zur RX6000 Serie zulässt. Ähnlich sinnlos wie nvidias MX-Serie. Das sind wahrscheinlich Vorderungen von den OEM Salesleuten, weil die dann glauben dass sie ihre premium formfactor geräte besser loswerden wenn es keine vergleichbarkeit gibt, aber wann haben solche Salesleute in der Vergangenheit jemals recht gehabt?

Damit wäre klar dass eine 6500m (16CU) klar schneller ist als eine 6400i (R9) und fast vergleichbar mit einer 6400m als 12CU salvage Variante von Navi24. Das ist imo premium genug für einen R9.
LPDDR5-6400 liefert eine vergleichbare Bandbreite zu 64bit 14Gt/s GDDR6. IF$ fehlt aber im Vergleich zu Navi24.

Die 6300m auf navi24 super-salvage basis soll ja auch noch kommen und wird vermutlich auf Rembrandt R5-R7 Niveau sein.

Für die CPUseite sieht es auch nicht gut aus.
- Turbotaktrate 4,6Ghz, identisch zu Cezanne.
- 16mb L3 - identisch zu Cezanne
- DDR5 könnte für einen 5-10% Speedup sorgen, analog zu den Zuwächsen bei Alderlake, aber im wesentlichen profitiert fast nur die IGP davon.

Was ist wenn Zen3+ einfach nur Zen3 in 6nm ist?

Na gut, Golden Cove wird massiv TDP limitiert sein, das war ja schon mit dem viel schmaleren Willow cove in 10SF der Fall und die Fertigungsstufe ist gleich geblieben. Aber im ST legt der nochmal gute 15% auf willow cove drauf, der ohnehin bereits leicht vor Cezanne führt. Cezanne liegt in ST also gute 20% hinter Alderlake-mobile und ich wüsste nicht was sich daran mit Rembrandt ändern sollte wenn der identisch aufgebaut ist.
Im MT könnte Rembrandt dagegen bei gleicher TDP einigermaßen mithalten wenn die Verbesserungen von N6 direkt in höhere MT-Taktraten fließen (+20% sind realistisch). Golden Cove säuft wie ein Loch und auch die E-cores sind in Intel7 nicht sparsamer als AMDs Zen3 cores und müssen die Taktraten reduzieren.

y33H@

2021-12-30, 12:09:42

Lustig, wie das NDA-Material für die CES ausgeschlachtet wird ... anhand der Infos lässt sich genau sagen, von welchem Hersteller bzw Gerät diese Info stammt und somit auch in etwa, wer Zugriff auf diese hat.

Benutzername

2021-12-30, 12:13:08

6400i und 6300i wäre die viel passendere Bezeichnung gewesen als 680m. Damit führt man eine parallelbezeichnung ein die keine Vergleiche zur RX6000 Serie zulässt. Ähnlich sinnlos wie nvidias MX-Serie. Das sind wahrscheinlich Vorderungen von den OEM Salesleuten, weil die dann glauben dass sie ihre premium formfactor geräte besser loswerden wenn es keine vergleichbarkeit gibt, aber wann haben solche Salesleute in der Vergangenheit jemals recht gehabt?

Naja, Ich kenne genug Leute die sich was auf ihre schwachbrüstigen Laptops was einbilden. Bauernfängerei funktioniert leider häufig genug. Und nVidida macht es auch immer wieder vor und AMD zieht dann nach. "weil man das halt so macht" Und letztlich ist es AMd auch egal welchen Namen die auf die Chips drucken. Hauptsache verkauft. Nur leider uns Enthusiasten, die wir ja alle automatisch der zu befragende Computerexperte sind, stehen dann im Wald, weil wir die Grafikchips in den Laptops nicht sofort in den Stack einordnen können. *seufz*

Aber zurück zu den kommenden Ryzengenerationen. Zen3+ wird vermute ich so wie Zen1+ halt die überholte neue Version sein, plus Vorbereitung, daß man da den 3D-Cache drauflöten kann. Das wäre auf jeden Fall die preiswerteste variante und Zen+ war ja auch merklich schneller als zen1. Von daher ein bisschen Zugewinn erwarte ich da. Und dann steht ja sowieos shcon der AM5 Sockel bald vor der Tür. Um bis dahin zu überbrücken reicht das IMHO. Außerdem macht AMd ja sowieso ein Großtei ldes Geldes mit EPYC, da ist ein Zen3+ Chiplet ja quasi copy & paste.

Nightspider

2021-12-30, 12:21:39

robbitop

2021-12-30, 13:15:46

Entweder war es MLID oder RGT der von einem der zuverlässigen Twitterer eine news gemacht hatte vor ein paar Tagen: Zen 4 word auf der Computex 2022 vorgestellt. Also Mai 2022. Das passt auch zu den bisherigen 5x Quartalabständen. Andererseots ist Zen 3 mit VCache irgendwie zu kurzlebig. Wer weiß ggf ist Computex nur die uArch Vorstellung und das Produnt kommt ein paar Monate später. Aber 2022 wird es sicherlich werden.

Nightspider

2021-12-30, 13:16:51

Ich sprach von der APU. ;)

Hätte vielleicht gleich Zen4 APU schreiben sollen.

Edit:

Wobei AMD mit Zen4 die Dominanz sicherlich 2023 über halten wird, sowohl im APU als auch im Desktop und HPC Markt und ob Intel Ende 2023 zurückschlagen kann hängt sicherlich stark davon ab ob sie ihren 5nm Prozess (ursprünglich 7nm) rechtzeitig in den Griff bekommen.

CrazyIvan

2021-12-30, 13:39:12

@davidzo
Na 10ESF ist schon ne Ecke besser als 10SF (abgesehen von PPA vermute ich mal).
Aber ja, Intel wird die CPU-Seite IMHO sowohl mit 2+8 als auch 6+8 dominieren. Im ST sowieso aber vermutlich auch in MT. Denke, dass die E-Cores da eine gute V/F aufweisen. Mein Renoir schafft mit 8c/8t in CB23 auch nur die ca. 5 fache MT Leistung.

basix

2021-12-30, 14:13:47

Beim Takt hatte ich auch etwas mehr gehofft.

Bleibt nur noch die Hoffnung das die IPC bei Zen3+ mehr zulegt als gemeinhin zu erwarten ist.

CPU seitig wird die Runde wohl aber eher an Intel gehen.

Mit Zen4 und 5nm wird die 2023er Runde im Mobile Bereich dann wieder an AMD gehen.

Neben mehr IPC kann es auch sein, dass der typ. anliegende Takt höher ist. Ist ja immerhin 6nm. Und dann wären da noch Idle-Verbrauch und anderweitige Verbesserungen zu begrüssen. USB 4.0? Gerne, ja. HDMI 2.1? Gerne, ja. AV1 Beschleunigung? Gerne, ja. Dazu noch die massiv schnellere iGPU.

Eine APU besteht nicht nur aus Peak ST-Performance ;)

CrazyIvan

2021-12-30, 14:28:37

IIRC wird Rembrandt leider kein AV1 beherrschen.

Corny

2021-12-30, 14:35:26

Laut AMD kann RDNA2 aber AV1: https://www.amd.com/de/technologies/rdna-2
Rembrandt hat RDNA2, warum sollte man so ein Feature aus einer APU entfernen?

ryan

2021-12-30, 14:40:02

Rembrandt unterstützt kein AV1. Für Rembrandt wird es erstmal schwierig werden imho, AMD wird die Masse mit Barcelo abwickeln gehe ich von aus. Rembrandt unterstützt kein DDR4, damit sind sie für den budget Massenmarkt quasi raus bis mindestens H2 2022.

Bis jetzt hat man ja auch nur 1-2 Premium Modelle von Rembrandt gesehen und auch nur von Asus, vielleicht gibt es wieder einen Premium Deal mit 1-2 Herstellern, damit AMD wenigstens etwas vorzeigen kann. Die breite Verfügbarkeit, wenn man davon überhaupt sprechen kann, folgt dann erst gegen mitte 2022.

Und bezüglich Effizienz und saufendem Golden Cove, man sieht ja schon beim 6+0 ADL-S das dem nicht so ist. Intel kann im Notebook viel niedrigere Taktraten fahren, außerdem muss Intel nicht mit 12C und 16C sondern mit maximal 8C konkurrieren. Gegen einen 6+8 müsste AMD schon 10C stellen damit das etwa vergleichbar wäre im Multithread.

y33H@

2021-12-30, 14:46:15

Laut AMD kann RDNA2 aber AV1: https://www.amd.com/de/technologies/rdna-2
Rembrandt hat RDNA2, warum sollte man so ein Feature aus einer APU entfernen?
Weil der Video-Block nicht direkt mit der GPU zusammen hängt.

ryan

2021-12-30, 14:52:10

Bis jetzt unterstützen sämtliche RDNA2 AV1, ist also nicht falsch. Streng genommen müssten sie die Seite nächsten Monat dann aber überarbeiten. Navi24 dGPU soll im übrigen auch kein AV1 unterstützen, das ist dann wohl eher eine Kostenoptimierung bei den kleineren Chips.

Der_Korken

2021-12-30, 14:54:40

Prinzipiell finde ich es kein großes Problem, dass Rembrandt den CPU-Part von Cezanne übernimmt, denn wo soll AMD jetzt auch plötzlich was neues herzaubern? Irgendwie kommt Rembrandt aber relativ spät finde ich. Cezanne wirkte relativ schnell zusammengeschustert, weil man größtenteils den alten Renoir-Die recyclet hat. Man hätte im Gegenzug "nur" den Uncore-Teil und die iGPU modernisieren müssen, hat dafür aber ein Jahr gebraucht. Jetzt hat man plötzlich Alder Lake als Konkurrenten und wird CPU-technisch wohl leider erstmals seit 2 Jahren verlieren. Vielleicht hat AMD zu sehr auf DDR5 gesetzt und der ist imho von Preis und Verfügbarkeit her bisher leider ein Rohrkrepierer.

davidzo

2021-12-30, 14:56:34

Eine APU besteht nicht nur aus Peak ST-Performance ;)

ne auch aus MT performance und average power draw. Da wird man es aber mit 8C/16T Zen3 sehr schwer haben gegen 14C/20T und 10C/12T Chips.

Und bezüglich Effizienz und saufendem Golden Cove, man sieht ja schon beim 6+0 ADL-S das dem nicht so ist. Intel kann im Notebook viel niedrigere Taktraten fahren, außerdem muss Intel nicht mit 12C und 16C sondern mit maximal 8C konkurrieren. Gegen einen 6+8 müsste AMD schon 10C stellen damit das etwa vergleichbar wäre im Multithread.

6+0 ADL-S (simulierter 12400) ist aber noch um Größenordnungen von einem mobile design entfernt. Zudem habe ich bisher nur vergleiche mit vermeer gesehen, nicht mit einer cezanne APU. Und es ist ja bekannt dass gerade die lower performance Modelle von Vermeer durch die hohe idle Stromaufname des i/o-DIEs nicht vergleichbar sind mit APUs wie Cezanne.
Was interessiert ist die pro Core Leistungsaufnahme und da ist Golden Cove afaik noch um Faktor 2x bis 3x off.

Corny

2021-12-30, 15:03:14

Weil der Video-Block nicht direkt mit der GPU zusammen hängt.

Okay, das macht Sinn.

Aber warum will AMD einen Video-Standard ausklammern, für den es die nötige Hardware gibt? AV1 wird von Youtube und Netflix gepusht und gerade bei mobilen Endgeräten ist Hardwarebeschleunigung enorm wichtig. :confused:
Ich kann mir die Antwort wohl selbst geben: 99,9% der Käufer wird das nicht interessieren.

aufkrawall

2021-12-30, 15:07:48

Ist schon sehr bedauerlich, wenn alle Gen 12 Intel-GPUs das könnnen. Tiger Lake ist jetzt auch nicht mehr so neu.

Unicous

2021-12-30, 15:08:51

@ryan

LOL, hast du dich gerade zum obersten FUD-Verbreiter ernannt?:freak:

Woher kommt die Behauptung, Rembrandt würde nur DDR5-fähig sein?:confused:

Woher der FUD mit den 1-2 design wins, und was willst du uns mit diesen haltlosen Behauptungen überhaupt erzählen?:freak:

Und dann nicht quantifizierbare Performance-Aussagen um das Ganze abzuschließen.

Die fehlende fixed function unit für AV1 decoding kann man durchaus kritisieren, andererseits scheint der Standard nicht aus dem Knick zu kommen, sieht man ja allein schon daran, dass Qualcomm, Apple, Samsung auch kein Hardware-Decoding anbieten, von daher ist es putzig, ausgerechnet das als großes Manko anzuprangern.:freak:

Nightspider

2021-12-30, 15:11:03

AV1 hat aber nur Vorteile, abgesehen davon das neue Hardware benötigt wird.

Aus Nerd Sicht ist es da schon traurig das QC, Apple, Samsung und jetzt vielleicht auch AMD so lange brauchen werden.

reaperrr

2021-12-30, 15:12:46

Was ist wenn Zen3+ einfach nur Zen3 in 6nm ist?

Mich wundert ehrlich gesagt nur, dass das so viele zu überraschen/enttäuschen scheint.

Es war schon immer höchst fraglich, dass AMD für ein einziges Produkt irgendwas nennenswertes an den Kernen ändert, das über kleine Bugfixes, Firmware-Optimierung (Taktverhalten) und vielleicht noch marginale Effizienzverbesserung im niedrigen bis mittleren Taktbereich dank N6' höherer Packdichte hinausgeht.

Zum Thema 6nm im Allgemeinen:
Für jeden, der von 6nm höhere Taktraten erwartet hat, war die Enttäuschung vorprogrammiert.
TSMC selbst gibt für N6 ggü. N7 genau zwei Vorteile an: Günstigere (kein Multi-Patterning, höhere Yield, höhere Packdichte) und schnellere Produktion (weniger Maskenlayer). Das war's, keine konkreten offiziellen Angaben zu Perf- oder Effizienzgewinnen, und damit hätte TSMC unter Garantie geworben, wenn es da irgendwelche nennenswerten Vorteile gäbe, vor allem hinsichtlich "Performance" (was die Schlüsselangabe für mehr Takt bei gleicher TDP wäre).

ryan

2021-12-30, 15:15:25

6+0 ADL-S (simulierter 12400) ist aber noch um Größenordnungen von einem mobile design entfernt.

Ich weiß. Das ist erstmal ein Vergleich mit dem nativen Sechskerner von Zen3 und bislang sieht es so aus, als wenn Intels nativer 6+0 mindestens so effizient wäre wie AMDs Sechskerner:

https://www.forum-3dcenter.org/vbulletin/showpost.php?p=12882455&postcount=4221

Golden Cove fängt erst ab 4.5 Ghz richtig an zu saufen. Kann mir gut vorstellen das ADL-P noch besser runterskaliert, laut Raichu (https://twitter.com/OneRaichu/status/1476493986869039105) kann ADL-P in 40-45W sogar mit M1Max konkurrieren.

Und wie gesagt ist 6+8 gegen 8+0 ein durchaus signifikanter Vorteil pro Intel im Notebook in multithreaded Benchmarks. Intel hat seit langer Zeit wieder einen Kern/Thread Vorteil im Notebook.

Unicous

2021-12-30, 15:17:21

@Nightspider

Ich habe auch große Stücke auf den Standard gehalten, als er angekündigt wurde. Nach nun fast 6 Jahren nachdem erste Referenz-Codec veröffentlicht wurde (zwei Jahre später Version 1.0) stellt sich langsam die Frage quo vadis AV1? :uponder:

Das verläuft alles so extrem schleppend, man fragt sich langsam ob das Absicht ist und die Industrie gar nicht so richtig Bock hat auf einen royalty-free Standard. :uponder:

][immy

2021-12-30, 17:08:54

Nightspider

2021-12-30, 17:16:11

Zum Thema 6nm im Allgemeinen:
Für jeden, der von 6nm höhere Taktraten erwartet hat, war die Enttäuschung vorprogrammiert.
TSMC selbst gibt für N6 ggü. N7 genau zwei Vorteile an: Günstigere (kein Multi-Patterning, höhere Yield, höhere Packdichte) und schnellere Produktion (weniger Maskenlayer). Das war's, keine konkreten offiziellen Angaben zu Perf- oder Effizienzgewinnen, und damit hätte TSMC unter Garantie geworben, wenn es da irgendwelche nennenswerten Vorteile gäbe, vor allem hinsichtlich "Performance" (was die Schlüsselangabe für mehr Takt bei gleicher TDP wäre).

Hängt vielleicht auch davon ab wie viel AMD bei dem inoffiziellen N7e Prozess schon vom N7P Prozess genutzt hat.

N6 soll zumindest die Performance von N7P haben.
Das AMD da vielleicht noch das eine oder andere Prozent herausholen konnte mit N6 ist nicht auszuschließen.

Der_Korken

2021-12-30, 17:27:47

War das schon hier?
Ist allerdings tiefste Gerüchteküche.
https://twitter.com/9550pro/status/1475837599764090882
https://pbs.twimg.com/media/FHs5pk8akAA5L-9?format=jpg&name=240x240

Hat mir Twitter vorhin zufällig vorgeschlagen ... wieso auch immer, Hardware Sachen verfolge ich auf Twitter eigentlich nicht ... [I]*spooky*

Das wäre aber schon weit außerhalb von dem wo ich mir Vorstellen könnte das "Cache" als solcher noch etwas bringt. Es sei denn man hat deutlich mehr Kerne, aber dann wäre der L1 & L2 etwas klein, andererseits, wenn der L3 geteilt wird und L1&L2 hier je CCX stehen würde das für einen 64-Kern Prozessor nicht ganz abwegig sein.

Die Zahlen sind schon komisch. Rechnen wir mal in Zen 3 um:

2MB L1 = 32 Kerne (wenn man L1I und L1D zusammenaddiert)
16MB L2 = 32 Kerne

Das passt. 32 Kerne hätten aber (auf 4 CCDs) nur 128MB L3, also 1/12 von dem, was da steht. Afaik kann AMD Cache auch nur maximal 8x stacken. Man könnte 8 CCDs nehmen mit jeweils 4 deaktivierten Kernen und dann 6x stacken.

Wenn sich das auf Zen 4 bezieht, wird es schwieriger, denn hier sprechen die Gerüchte von verdoppeltem L2 bei gleichbleibenden L1, d.h. das Verhältnis zwischen L1 und L2 passt nicht mehr. Und wenn Zen 5 gemeint ist: Da weiß man gar nichts zu. Da das der nächste größere Umbau wird und der laut Gerüchten so viel wie Bulldozer zu Zen 1 bringen soll, könnte es sein, dass die Cache-Hierachie komplett umgebaut wird. Da könnte man alle möglichen Späße treiben, z.B. kleinere Cache-Stufen auch stacken, wodurch ein dedizierter L3 auf dem CCD nicht mehr gebraucht wird und man stattdessen einen 1,5GB großen SLC aufs IOD stackt, der auch als L3 für die CPU genutzt werden kann. Da kann dieses verpixelte Bild aber ebenso gut FUD sein, wer weiß das schon.

y33H@

2021-12-30, 18:51:32

///

memory_stick

2021-12-30, 18:56:20

35W Märchen TDP? oder 35W hart gedeckelt?Ganzes Package sustained? Bursty Single Core Workloads oder 30min Render jobs?
Imho "Laut Intel" ist nicht die paar Bit Speicher&Bandbreite Wert die diese Buchstaben hier im Forum nutzen/belegen.

Piefkee

2021-12-30, 19:52:10

Savay

2021-12-31, 06:49:00

stellt sich langsam die Frage quo vadis AV1? :uponder:

Vielleicht liegt die Prio eher niedrig, weil die SW Decoder so oder so relativ effizient sind?! :wink:

Mein Renoir hat null Probleme mit den AV1 Streams die von YT und Co. seit ner Weile default ausgeliefert werden.
Von Laufzeiten und der Auslastung her merke ich keinen Unterschied zu den älteren HW beschleunigten VP9 Streams.
Dümpelt bis FHD so oder so alles relativ in der nähe des Idleverbrauchs rum.

MSABK

2021-12-31, 09:53:02

Ich habe einen Ryzen 3550H im Notebook und lese gerade zum ersten mal was von AV1. Auch bei mir läuft Youtube immer normal mit minimalster Auslastung.

CrazyIvan

2021-12-31, 09:55:15

Laut WCCFTECH soll der 6980HX mit max. 5.0Ghz an den Start gehen. Also doch eine ganz nette Steigerung - auch wenn es gegen ADL nicht ganz für die ST Krone reichen wird.

https://wccftech.com/amd-to-unveil-ryzen-9-6980hx-ryzen-9-6900hx-ryzen-7-6800h-rembrandt-apus-along-with-radeon-rx-6850m-xt-notebook-gpu-at-ces-2022/

MSABK

2021-12-31, 10:09:23

Auch wenn die CPU diesmal langsamer als die Intel wird freue ich mich auf die APU. Endlich mal mehr Bandbreite und RDNA2 im Notebook. Die Entwicklung bei Amd gefaällt mir einfach und es gibt inzwischen auch spannende Notebooks zu guten Preisen.

dildo4u

2021-12-31, 10:17:17

Ich habe einen Ryzen 3550H im Notebook und lese gerade zum ersten mal was von AV1. Auch bei mir läuft Youtube immer normal mit minimalster Auslastung.
AV1 geht ok bis 4k/60 erst mit 8k wird bei mir Kritisch.(2600x)

https://youtu.be/zCLOJ9j1k2Y

Grmbl-Na-Gut

2021-12-31, 10:22:44

AV1 geht ok bis 4k/60 erst mit 8k wird bei mir Kritisch.(2600x)

https://youtu.be/zCLOJ9j1k2Y
Das ist ein 4K Video, mehr kann ich nicht Auswählen.
Es steht dort zwar Japan in 8K aber due kannst nur 2160 Auswählen.

3500U 14%CPU 51% GPU

Zossel

2021-12-31, 10:43:07

Vielleicht liegt die Prio eher niedrig, weil die SW Decoder so oder so relativ effizient sind?! :wink:

Mein Renoir hat null Probleme mit den AV1 Streams die von YT und Co. seit ner Weile default ausgeliefert werden.
Von Laufzeiten und der Auslastung her merke ich keinen Unterschied zu den älteren HW beschleunigten VP9 Streams.
Dümpelt bis FHD so oder so alles relativ in der nähe des Idleverbrauchs rum.

Dafür könnten FPGA-Blöcke in handelsüblichen [AC]PUs doch sinvoll sein, auch um zum Beispiel neue Krypto implementieren zu können wie zum Beispiel: https://en.wikipedia.org/wiki/BLAKE_(hash_function)

dildo4u

2021-12-31, 11:37:24

Das ist ein 4K Video, mehr kann ich nicht Auswählen.
Es steht dort zwar Japan in 8K aber due kannst nur 2160 Auswählen.

3500U 14%CPU 51% GPU

Firefox Browser?
Mit Chromium geht es.(Chrome,Edge etc)

Der_Korken

2021-12-31, 13:49:47

AV1 geht ok bis 4k/60 erst mit 8k wird bei mir Kritisch.(2600x)

https://youtu.be/zCLOJ9j1k2Y

8K kann mein 5900X auch nicht 100% flüssig darstellen (läuft ins 140W Limit). An manchen Stellen ruckelt das Video sichtbar. Hätte nicht gedacht, dass es so aufwändig ist ein Videosignal zu dekodieren. Kann aber vielleicht auch an der Leitung liegen (50Mbps), weil 4K und 1440p droppen die ersten 20 Sekunden auch haufenweise Frames.

ryan

2021-12-31, 13:58:34

Das ist ein 4K Video, mehr kann ich nicht Auswählen.
Es steht dort zwar Japan in 8K aber due kannst nur 2160 Auswählen.

3500U 14%CPU 51% GPU

i7-1165G7 @2.8 Ghz CPU 2-4% Chrome/5-7% Taskmanager GPU: 0.4-0.7%

Für Akku betriebene Geräte ist ein dedizierter Beschleuniger von großem Vorteil.

MR2

2022-01-01, 11:12:45

https://videocardz.com/newz/amd-ryzen-9-6980hx-next-gen-6nm-rembrandt-mobile-processor-pictured

Savay

2022-01-01, 11:59:50

AV1 geht ok bis 4k/60 erst mit 8k wird bei mir Kritisch.(2600x)

https://youtu.be/zCLOJ9j1k2Y

Ab 4K läuft da bei mir VP9...das ist beschleunigt...trotzdem ist der ASIC/Systemverbrauch 50% höher.

Nur unterhalb 4K ist es AV1...und es dümpeln die GPU und CPU generell beim Baseclock rum. (1400/400MHz jeweils mit moderater bis niedriger Last.)

Für Akku betriebene Geräte ist ein dedizierter Beschleuniger von großem Vorteil.

Grau ist die Theorie...du musst schon aufs APU STAPM schauen und die jeweilige Last.
Ausserdem den Anteil des ASIC Verbrauchs am Gesamtverbrauch des Geräts.

AV1 erscheint mir bis FHD wirklich kaum fordernder für ne aktuelle APU zu sein als VP9.
Und da die meisten Geräte nur nen FHD Panel haben ist das für mich eher theoretisch ob es ab 4K da Probleme geben kann oder nicht.

Wenn nen stark beschnittener Renoir das hinbekommt wird es nen Rembrandt erst recht...egal ob der Codec das vollständig in HW macht oder es (teilweise) über die GPU läuft.

Zossel

2022-01-01, 12:08:50

https://videocardz.com/newz/amd-ryzen-9-6980hx-next-gen-6nm-rembrandt-mobile-processor-pictured

10Ge Ethernet gibt es nur für Linux, was ist da los?

ryan

2022-01-01, 13:02:28

Ab 4K läuft da bei mir VP9...das ist beschleunigt...trotzdem ist der ASIC/Systemverbrauch 50% höher.

Nur unterhalb 4K ist es AV1...und es dümpeln die GPU und CPU generell beim Baseclock rum. (1400/400MHz jeweils mit moderater bis niedriger Last.)

Welche GPU ist das? Falls deine Systeminfo aktuell ist mit der Vega: die hat kein VP9 hardware decoder. AMD hat bei Vega VP9 ein hybrid implementiert aus Shader+CPU, das ist eine suboptimale Lösung und kann in der Tat zu einem höheren Verbrauch führen, weil ja die Shader mithelfen. Ein höherer Verbrauch gegenüber CPU decoding wäre in dem Fall nicht überraschend, das ist eben keine hardware Lösung.

Ansonsten kann ich das weder mit meiner Nvidia dGPU noch Intel iGPU bestätigen. Hardware Beschleunigung liegt immer niedriger im Verbrauch und niemals höher. Je höher die Auflösung/fps/Bitrate, desto größer der Unterschied.

Und da die meisten Geräte nur nen FHD Panel haben ist das für mich eher theoretisch ob es ab 4K da Probleme geben kann oder nicht.

4K Videos erlauben auf youtube deutlich mehr Bitrate, dass sieht auch auf 1080p panels deutlich besser aus. 1080p auf youtube ist Matsch.

Wenn nen stark beschnittener Renoir das hinbekommt wird es nen Rembrandt erst recht...egal ob der Codec das vollständig in HW macht oder es (teilweise) über die GPU läuft.

Dass er es hinbekommt abzuspielen, ist nicht die Frage. Es kostet mehr Energie, der Akku ist schneller leer oder das Gerät wird wärmer...der Lüfter dreht schneller. Ist halt unschön für Notebooks.

iamthebear

2022-01-01, 13:52:54

Die Zahlen sind schon komisch. Rechnen wir mal in Zen 3 um:

2MB L1 = 32 Kerne (wenn man L1I und L1D zusammenaddiert)
16MB L2 = 32 Kerne

Das passt. 32 Kerne hätten aber (auf 4 CCDs) nur 128MB L3, also 1/12 von dem, was da steht. Afaik kann AMD Cache auch nur maximal 8x stacken. Man könnte 8 CCDs nehmen mit jeweils 4 deaktivierten Kernen und dann 6x stacken.

Die 8x4 Konfiguration ist durchaus möglich (siehe Epyc 75F3). Das wären dann 192MB L3 pro CCX.
Der Basischip hat 32MB.
Eine Lage VCache darüber bringt nochmals zusätzlich 64MB (also gesamt 96MB). Das wären dann gesamt die 768MB L3 die wir erwartet hätten.
Was etwas seltsam ist: Das wären dann 2.5 Lagen oben drauf. Das macht relativ wenig Sinn.

Was wäre wenn AMD den VCache nicht bloß über den bisherigen VCache stacked (32mm²), sondern über den gesamten Die (80mm²). Rein rechnerisch müssten hier bei gleicher Speicherdichte dann 160MB zusätzlich mit einer Lage drin sein. Dann wären wir in Summe bei den 192MB pro CCX.

Aber es könnte auch einfach nur ein Auslesefehler sein, dass bei 2 Sockel Systemen der L3 addiert wird, L1/2 jedoch nicht. Genauso ist es möglich, dass für Testzwecke nur 2 Cores pro CCX aktiv waren.

Wenn sich das auf Zen 4 bezieht, wird es schwieriger, denn hier sprechen die Gerüchte von verdoppeltem L2 bei gleichbleibenden L1, d.h. das Verhältnis zwischen L1 und L2 passt nicht mehr. Und wenn Zen 5 gemeint ist: Da weiß man gar nichts zu. Da das der nächste größere Umbau wird und der laut Gerüchten so viel wie Bulldozer zu Zen 1 bringen soll, könnte es sein, dass die Cache-Hierachie komplett umgebaut wird. Da könnte man alle möglichen Späße treiben, z.B. kleinere Cache-Stufen auch stacken, wodurch ein dedizierter L3 auf dem CCD nicht mehr gebraucht wird und man stattdessen einen 1,5GB großen SLC aufs IOD stackt, der auch als L3 für die CPU genutzt werden kann. Da kann dieses verpixelte Bild aber ebenso gut FUD sein, wer weiß das schon.

Zen5 würde ich ausschließen. Der ist noch so tief in der Designphase, dass im Moment sicher noch keiner sagen kann in welchen Konfigurationen der released wird.

Bei Zen4 wäre es nicht auszuschließen. Da könnte es schon erste CPUs bei AMD im Haus geben, die leaken könnten. Aber wie gesagt spricht die L1/2 Aufteilung dagegen. Abgesehen davon ist VCache bei Genoa ja auch nicht Standard. Das wird es nur bei einigen Modellen geben.

Was einen großen shared L3 angeht: Das glaube ich nicht. Da würde die Latenz schon stark darunter leiden vor allem wenn wir mit Zen4D von 256 Kernen aufwärts reden.

Laut WCCFTECH soll der 6980HX mit max. 5.0Ghz an den Start gehen. Also doch eine ganz nette Steigerung - auch wenn es gegen ADL nicht ganz für die ST Krone reichen wird.

https://wccftech.com/amd-to-unveil-ryzen-9-6980hx-ryzen-9-6900hx-ryzen-7-6800h-rembrandt-apus-along-with-radeon-rx-6850m-xt-notebook-gpu-at-ces-2022/

Das wären 200MHz mehr als bisher. Das ist jetzt nicht so berauschend. L3 bleibt auch weiterhin auf 16MB.
Ob die Energieeffizienz bei mittleren Taktraten besser ist wird man sehen. Ich vermute dass es nicht so berauschend sein wird. Der Hauptvorteil an TSMC 6nm ist afaik, dass 1 Layer mehr mit EUV belichtet wird. Dadurch erreicht man etwas höhere Transistordichten bzw. spart man sich einige DUV Masken sofern die notwendigen EUV Kapazitäten vorhanden sind.

10Ge Ethernet gibt es nur für Linux, was ist da los?

Laut einem Post im Anandtech Forum handelt es sich hierbei nicht um 10G Base-T über gewöhnliche Netzwerkkabel sondern um 10G Base-KR: https://forums.anandtech.com/threads/amd-rembrandt-zen-3-apu-speculation-and-discussion.2592313/post-40659966

10GBase KR ist Backplane Ethernet mit einer maximalen Länge von 1 Meter. Das ist nichts, wasnman im typischen Windows Notebook nutzen wird aber vermutlich will AMD mit demselben Die dann auch einige andere Geräte bedienen, die aber alle unter Linux laufen und wo es sich nicht auszahlt Windows Treiber zur Verfügung zu stellen.

Auch sehr interessante Info in dem Thread: Anscheinend ist das Hauptproblem an 10G Base T die enormen Lizenzkosten. Mal sehen ob sixh das 2023 ändert wenn das letzte Petent ausläuft.

Nightspider

2022-01-01, 14:22:02

Was wäre wenn AMD den VCache nicht bloß über den bisherigen VCache stacked (32mm²), sondern über den gesamten Die (80mm²).

https://c.tenor.com/Iwz-1B44X3gAAAAd/confused-what.gif

Der_Korken

2022-01-01, 14:42:30

Eine Lage VCache darüber bringt nochmals zusätzlich 64MB (also gesamt 96MB). Das wären dann gesamt die 768MB L3 die wir erwartet hätten.
Was etwas seltsam ist: Das wären dann 2.5 Lagen oben drauf. Das macht relativ wenig Sinn.

Was wäre wenn AMD den VCache nicht bloß über den bisherigen VCache stacked (32mm²), sondern über den gesamten Die (80mm²). Rein rechnerisch müssten hier bei gleicher Speicherdichte dann 160MB zusätzlich mit einer Lage drin sein. Dann wären wir in Summe bei den 192MB pro CCX.

Ich habe komplett verdrängt, dass die Cache-Chiplets doppelt so viel haben wie der Base-Die. Aber das macht die Sache nur noch krummer, wie du schon ausgerechnet hast. Den L3 über den gesamten Base-Die zu legen, klingt für mich erstmal komisch, weil die Signallaufzeiten durch die größere Fläche steigen würden, d.h. die Latenz dürfte ein gutes Stück schlechter ausfallen als ohne Stack.

Was einen großen shared L3 angeht: Das glaube ich nicht. Da würde die Latenz schon stark darunter leiden vor allem wenn wir mit Zen4D von 256 Kernen aufwärts reden.

Ich weiß, dass diese Idee hier in den Speku-Threads nicht sehr beliebt ist, aber wenn man den L2 per Stacking massiv ausbaut, halte ich das nicht für abwegig. "Massiv" heißt so 4-8MB/Core. Da müsste ein L3 schon entsprechend bei 8-16MB/Core sein, damit der die Hitrate noch nennenswert erhöht. Und da kann man sich halt schon fragen, ob die Fläche nicht besser in einen system-wide cache investiert ist, als jedem einzelnen CCX (und eventuell auch einer iGPU) einen eigenen großen L3 zu spendieren, um ein paar ns Latenz rauszuholen. Aber gut, ich schweife ab :D

robbitop

2022-01-01, 18:33:20

iamthebear

2022-01-01, 21:27:57

Systemweit kostet wieder Latenz und dann bringt die Hitrate auch wieder kaum was. Die CCX wurden ja genau deshalb gemacht damit man in diesen selbst eine Topologie mit niedriger Latenz haben kann und über die Skalierung der CCX über eine weitere Fabric das Gesamtdesign stark skalierbar ist. Also gute Skalierbarkeit und gute Latenz. Der Haken ist halt dass ein systemweiter Cache mot niedriger Latenz außen vor ist.

Also ich sehe mehrere Nachteile:
.) Man muss den L3 mit mehreren Kernen sharen. Das verkompliziert die Verwaltungslogik und erhöht die Latenz.
.) Es muss dann der gesamte Traffic über die Infinity Fabric. Afaik sind wir hier bei ca. 2pJ/Bit. Ein 5950X hat ca. 500GB/s read + write Bandbreite. Das wären 16W zusätzliche Verlustleistung. Bei 8 CCX wären das dann schon 64W oben drauf. Die Latenz wäre auch nicht so berauschend.
.) Derzeit sitzen 8 Kerne + 32MB L3 auf jedem Compute Die. Wäre der L3 nicht da sondern stattdessen 16 Kerne müsste man das Kühlsystem oder mit den Taktraten runter.

Ich habe komplett verdrängt, dass die Cache-Chiplets doppelt so viel haben wie der Base-Die. Aber das macht die Sache nur noch krummer, wie du schon ausgerechnet hast. Den L3 über den gesamten Base-Die zu legen, klingt für mich erstmal komisch, weil die Signallaufzeiten durch die größere Fläche steigen würden, d.h. die Latenz dürfte ein gutes Stück schlechter ausfallen als ohne Stack.

Also ich weiß nicht, ob das mit den Signallaufzeiten da wirklich so ein Thema ist. Wir reden hier im Worst case von 2mm mehr bzw. eine Richtung 0.01ns mehr. Das ist vielleicht bei L1/L2 innerhalb des Kerns ein Thema wenn man dadurch dann einen Zyklus mehr braucht aber wenn der Zugriff sowieso schon 10ns dauert ist ein Zyklus (0.2-0.4ns) mehr auch kein Drama.

Ich weiß, dass diese Idee hier in den Speku-Threads nicht sehr beliebt ist, aber wenn man den L2 per Stacking massiv ausbaut, halte ich das nicht für abwegig. "Massiv" heißt so 4-8MB/Core. Da müsste ein L3 schon entsprechend bei 8-16MB/Core sein, damit der die Hitrate noch nennenswert erhöht. Und da kann man sich halt schon fragen, ob die Fläche nicht besser in einen system-wide cache investiert ist, als jedem einzelnen CCX (und eventuell auch einer iGPU) einen eigenen großen L3 zu spendieren, um ein paar ns Latenz rauszuholen. Aber gut, ich schweife ab :D

Wenn du den L2 so stark vergrößerst dann wird dessen Latenz zweifelsfrei ansteigen. Das lässt sich nicht vermeiden wenn dieser mehr Einträge hat. Das müsste man mit einem größeren L1 kompensieren nur dann steigt wieder die Latenz des L1.
Abgesehen davon ergibt sich da unter Windows noch ein Schedulingproblem:
Der L2 ist privat. Angenommen ein Thread hat dort bereits 1MB an Daten angesammelt, 3 weitere MB sind noch frei. Dann kommt ein Context Switch (z.B. durch einen read vom Dateisystem) und den Thread schläft. 1 Mikrosekunde später wird der Thread fortgesetzt, landet aber auf einem anderen Kern (weil der alte Kern ja gleich von einem anderen Thread belegt wird). Dann hat der Thread auf einmal keinen Zugriff mehr auf seine ganzen Daten im L2 und muss sie wieder aus dem L3 laden. Es ist fraglich ob hier ein Kern hier in der Praxis überhaupt dazu kommt 4MB L2 anzufüllen.

Die Frage ist: Was will man generell damit erreichen. Bei L1 ist es ein Balancing Größe vs. Latenz und nur blind vergrößern wird wenig bringen.
Den L3 kann man durch Stacking vergleichsweise günstig auf 96MB pro 8 Kerne vergrößern. Das sollte doch aus Latenzsicht locker ausreichen vor allem bei 64 Kernern die sowieso mit maximal 3GHz laufen.
Mit Genoa gibt es 12 Speicherkanäle, wobei DDR5 diese ja auch noch einmal verdoppelt. Damit sollte der Durchsatz auch nicht der Flaschenhals werden.

Welche Motivation gibt es also den L3 über mehr als die 8 Kerne zu sharen solange der Scheduler mitspielt und die Threads am selben CCX belässt.

Der_Korken

2022-01-01, 21:52:07

Also ich weiß nicht, ob das mit den Signallaufzeiten da wirklich so ein Thema ist. Wir reden hier im Worst case von 2mm mehr bzw. eine Richtung 0.01ns mehr. Das ist vielleicht bei L1/L2 innerhalb des Kerns ein Thema wenn man dadurch dann einen Zyklus mehr braucht aber wenn der Zugriff sowieso schon 10ns dauert ist ein Zyklus (0.2-0.4ns) mehr auch kein Drama.

Du musst bedenken, dass du bei längeren durchschnittlichen Signalwegen auch insgesamt deutlich mehr Leitungen brauchst. AMD hat die beiden L3-Blöcke von Zen 2 auf Zen 3 zusammengefügt, aber die Bandbreite gleichgelassen, d.h. die Bandbreite/Kern effektiv halbiert, angeblich als Kompromiss um den Cache nicht komplexer bzw. langsamer zu machen. Wenn man den Kern in der Fläche aufbläht, dann kostet jeder Zugriff im Schnitt mehr Strom. Wenn man den Cache dagegen dreidimensional aufbaut, denn fügst du in einem planaren Modell quasi "Wurmlöcher" hinzu, mit denen große Distanzen fast kostenlos abgekürzt werden können. Ich bin natürlich kein Chipdesigner, der das wirklich beurteilen kann, aber intuitiv klingt die große Fläche erstmal nach einem Problem. Ich meine, wenn es kein Problem wäre, hätte man Caches doch schon lange so massiv vergrößern können. Deswegen sehe ich die Vorteile des Stackings langfristig auch in den Performancesteigerungen, die durch eine dreidimensionale Schaltung möglich werden.

Wenn du den L2 so stark vergrößerst dann wird dessen Latenz zweifelsfrei ansteigen. Das lässt sich nicht vermeiden wenn dieser mehr Einträge hat. Das müsste man mit einem größeren L1 kompensieren nur dann steigt wieder die Latenz des L1.

Auf Kosten der Latenz ergibt das keinen Sinn, da hast du Recht. Die Frage ist aber (seit mittlerweile 6 Monaten, AMD will das Teil einfach nicht releasen :freak:), ob das Stacking wirklich eine Vervielfachung der Cachegröße erlaubt, ohne dass Latenz und Energieverbrauch dadurch stark ansteigen. Falls ja, könnte das irgendwann auch für den L2 interessant werden und je nachdem wie groß die TSVs ausfallen auch für interne Teile der Kerne (L1 oder Register), wenn man einen gesamten "SRAM-only"-Layer über den gesamten Base-Die legt.

Abgesehen davon ergibt sich da unter Windows noch ein Schedulingproblem:
Der L2 ist privat. Angenommen ein Thread hat dort bereits 1MB an Daten angesammelt, 3 weitere MB sind noch frei. Dann kommt ein Context Switch (z.B. durch einen read vom Dateisystem) und den Thread schläft. 1 Mikrosekunde später wird der Thread fortgesetzt, landet aber auf einem anderen Kern (weil der alte Kern ja gleich von einem anderen Thread belegt wird). Dann hat der Thread auf einmal keinen Zugriff mehr auf seine ganzen Daten im L2 und muss sie wieder aus dem L3 laden. Es ist fraglich ob hier ein Kern hier in der Praxis überhaupt dazu kommt 4MB L2 anzufüllen.

Ob man einen 4MB großen L2 jemals voll bekommt, kann ich dir nicht sagen. Allerdings haben das Problem mit dem verloren L2 alle Designs, die auf einen Victim-L3 setzen. Aus irgendeinem Grund hat AMD das von Anfang an so gemacht, obwohl bei Zen 2+3 der L3 groß genug für ein inklusives Design wäre. Und auch Intel hat sich mit Skylake X und Willow Cove vom inklusiven Design verabschiedet. Das wird sicherlich einen Grund haben, denn die beiden werden besser als wir wissen, ob die L2-Größe in Zukunft ansteigt oder nicht. Die Tendenz geht imho zum "ja", da Sapphire Rapids und Raptor Lake angeblich mit 2MB L2 kommen sollen.

Welche Motivation gibt es also den L3 über mehr als die 8 Kerne zu sharen solange der Scheduler mitspielt und die Threads am selben CCX belässt.

In dem Szenario, dass jeder Kern sagen wir mal 8MB zur Verfügung hat, müsste der lokale L3 auf dem CCD gigantisch sein, um noch einen Effekt zu haben. Sagen wir mal min. 128MB für 8 Kerne. Jetzt hat man vielleicht vier solche Chiplets an einem Ryzen 9950X, also 512MB für die lokalen L3s. Am IOD hängen jetzt diverse Geräte, die auf den RAM zugreifen, vielleicht auch eine iGPU, die ständig den Framebuffer in den RAM schreiben und lesen muss, um das Bild auszugeben. Für diese Geräte würde sich ein SLC eventuell auch lohnen. Jetzt ist halt die Frage: Wäre es nicht eventuell sinnvoller/ökonomischer einen 256MB großen SLC auf den IOD zu stacken, der die RAM-Zugriffe so stark abfedert, dass die iGPU komplett im Cache rendern kann und der RAM zum stromsparen runergetaktet werden kann? Ist die zusätzliche Latenz im Zugriffsbereich 8-128MB in der Praxis wirklich so schlecht für die Performance oder geht sich das ganze vielleicht sogar halbwegs aus, wenn einzelne cache-hungrige Prozesse dafür im Zugriffsbereich 128-256MB wieder kleinere Latenzen haben, als wenn alle CCDs und iGPU ihren dedizierten L3 hätten? Möglicherweise wird der L2 auch so umfunktioniert, dass einzelne Kerne die unbenutzten L2-Lines der anderen Kerne mitnutzen können so wie IBM das bei neueren Chips gemacht hat oder man shared den L2 immer zwischen zwei Kernen, um ihn bei Teillast besser auszunutzen (das würde nochmals pressure vom L3 nehmen und ihn ertragärmer machen). Wie gesagt, man kann hier ewig rumspinnen, aber per se finde ich die Idee eines geshareten L3 nicht abwegig, sofern die genannten Kapazitätssteigerungen bei L1+L2 überhaupt technisch möglich sind ohne große Latenznachteile.

robbitop

2022-01-01, 22:08:07

Der_Korken

2022-01-01, 22:28:24

Sobald du aus dem CCX über sie IF gehst, ist die Latenz im Allerwertesten. Gibt genug Core to Core tests die das zeigen. Ein L4 im IOD bringt leider keinen Vorteil - es sei denn man bekommt die Fabric massiv schneller hin. Ich würde sagen, die ccx sind einfach der Kompromiss der Skalierbarkeit. Entsprechend muss man Cache dann halt pro CCX machen und kann nicht effektiv systemweit sharen.

Ein L4 mag nichts bringen, wenn man im CCX schon einen großen L3 hat. Die Frage ist aber, wieviel langsamer er ist, wenn man den L2 vergrößert und den bisherigen L3 "überspringt". Wird beim core-to-core test wirklich im Cache des anderen CCX nachgeguckt oder werden die Daten aus dem RAM geholt? Falls ersteres, bedenke dass du dann trotzdem einen sehr weiten Weg hast: L3 miss (CCX1) -> IF-Link zum IOD -> Lookup, ob CCX2 die Daten hat -> IF-Link zu CCX2 -> L3-Lookup -> IF-Link zum IOD -> IF-Link zu CCX1. Lägen die Daten direkt im IOD, spart man sich zwei von vier IF-Hops. Versteh mich nicht falsch, ich erwarte keine sub-10ns-Latenzen durch die Konstruktion, aber sub-20ns vielleicht schon (bedenke dass der bisherige L3-Lookup ~7ns kostet und entfallen würde!) und damit immer noch wesentlich schneller als DRAM.

Tesseract

2022-01-01, 22:33:56

Savay

2022-01-01, 22:49:53

Welche GPU ist das?

Nochmal:
Renoir mit GCN 5.2

Da ist nen anderer Codec (VCN 2.x) drin als im GCN 5.0 Vega10 (UVD 7.0), die ich eh schon lange nicht mehr habe und (fast) der gleiche wie in den Desktop Navi 1x
Wir hatten doch eh schon weiter vorne festgestellt das der Codec ziemlich unabhängig von der GPU ist und deshalb quasi alles was ne GPU, APU oder CPU ist eh ne Art "SoC" darstellt.

BTW:
Mein Navi21 bekommt bis 8K übrigens (beschleunigtes) AV1 vorgesetzt...nur kommt der VCN3.0 mit 8K/60 nicht klar...und hängt dauerhaft bei 100% mit massiven Framedrops. (Ich glaube der war eh nur bis 8K/30 spezifiziert)

4K Videos erlauben auf youtube deutlich mehr Bitrate, dass sieht auch auf 1080p panels deutlich besser aus. 1080p auf youtube ist Matsch.

Kann ich nicht zwingend bestätigen. Hängt zu sehr vom Quellmaterial ab.
Ansonsten: wen interessiert das?! YT ist kein Netflix...und mein Laptop nicht mein OLED und im Akkubetrieb schonmal doppelt uninteressant.

Zudem total wurscht und Kontraproduktiv wenn die höhere Bitrate (offensichtlich Geräteabhängig) einfach nur in nem ineffizienteren Codec ist. :rolleyes:

AV1 läuft im low-res bis 1080p btw. häufig auch auf Android Geräten ohne HW Support.
Weil die Bandbreiteneffizienz da offensichtlich teilweise die Verarbeitungseffizienz schlägt...auf die Laufzeiten hat es offensichtlich dennoch keinen allzu nennenswerten Einfluss.

Dass er es hinbekommt abzuspielen, ist nicht die Frage. Es kostet mehr Energie, der Akku ist schneller leer oder das Gerät wird wärmer...der Lüfter dreht schneller. Ist halt unschön für Notebooks.

Nochmal:

Es ist ein 13" SFF Convertible
Da dreht kein Lüfter, es wird nicht wirklich wärmer...der ASIC läuft in der Nähe des Idle Verbrauchs da das komplette SoC mit baseclocks und quasi nur außerhalb des clockgatings rennt.
Das APU STAPM geht von 2-3W auf "nur" ca. 4W hoch, in 4K/60@VP9 mit Beschleunigung sind es dann mal direkt ~6W und Last auf CPU und GPU fällt dagegen vom nem unteren zweistelligen Bereich unter FHD fast auf um die 1-2% bzw. 0%.

Nichtsdestotrotz merkt man in bisherigen YT Laufzeittests offensichtlich wenig davon, da dort anderes zu limitieren scheint.
Das CPU/GPU oder Codec ist ja nicht das einzige was dann läuft.

Es kann auch einfach sein das AMD ein Problem im absoluten Niedriglastbereich bei den Idle Arbeitspunkten der APUs mit der minimalen Leistungsaufnahme des VCN hat sobald das Ding aktiv ist.

Ich sage ja gar nicht das der Effekt theoretisch null ist, nur ist es in der Praxis wohl auch weniger dramatisch als es sich liest und man muss so ne Entscheidung immer als Systembetrachtung verstehen.
Wie gesagt: die AV1 SW Decoder scheinen mir auf modernen Architekturen für niedrige Auflösungen recht effizient zu sein.
In den frühen H.265/H.264 Zeiten war das m.E. noch anders.

Ramius

2022-01-01, 23:21:36

am genialsten finde ich die lösung von IBM jedem core einen mega großen "L2" zu geben den andere cores als L3 mitnutzen können. je größer die caches umso besser sollte diese variante im vergleich zu einer klassischen hierarchie abschneiden.

diese technik bietet sich dafür an adaptiert zu werden, z.B. "L2" lokal, "L3" im CCX, "L4" im IF usw. bis zu einem punkt wo jeder core mal eben 1GB+ virtuellen cache hat und kaum noch traffic die CPU verlässt.

Da wird aber sehr viel Traffic auf den IF-Links erzeugt, da schon der L2-Cache ein systemweiter Cache ist. Zudem werden pro L2-Cache 4 IF-Links benötigt. L3- und L4-Cache braucht man dann nicht mehr (würden nur die Latenzen in die Höhe treiben.) Zudem sind die Anfragen an den L2-Cache eher langsam, da wenn die gesuchten Daten nicht im lokalen Cache vorhanden sind, dann müssen alle anderen Cores in ihrem lokalen L2-Cache nach den Daten suchen. Bei 8 Cores wird das sicher ziemlich heftig.

Tesseract

2022-01-01, 23:46:23

ich glaube du misverstehst das etwas. >20MB (aus sicht des cores de-facto-exklusiver) L2 ohne evictions durch andere cores hat eine enorme hitrate wodurch fast nix überhaupt erst den core verlässt. das ist die grundidee dahinter.

Bei 8 Cores wird das sicher ziemlich heftig.

da wird garantiert nix "gesucht" sondern nach einer vorgegebenen stategie direkt accessed, so wie das innerhalb eines caches auch passiert. das monster von IBM hat 256 cores, fast einen gigabyte cache und das ganze wurde extra dafür entwickelt.
die stategie wird wohl immer besser je mehr cache pro core und je mehr cores man hat.

robbitop

2022-01-02, 10:11:18

Ein L4 mag nichts bringen, wenn man im CCX schon einen großen L3 hat. Die Frage ist aber, wieviel langsamer er ist, wenn man den L2 vergrößert und den bisherigen L3 "überspringt". Wird beim core-to-core test wirklich im Cache des anderen CCX nachgeguckt oder werden die Daten aus dem RAM geholt? Falls ersteres, bedenke dass du dann trotzdem einen sehr weiten Weg hast: L3 miss (CCX1) -> IF-Link zum IOD -> Lookup, ob CCX2 die Daten hat -> IF-Link zu CCX2 -> L3-Lookup -> IF-Link zum IOD -> IF-Link zu CCX1. Lägen die Daten direkt im IOD, spart man sich zwei von vier IF-Hops. Versteh mich nicht falsch, ich erwarte keine sub-10ns-Latenzen durch die Konstruktion, aber sub-20ns vielleicht schon (bedenke dass der bisherige L3-Lookup ~7ns kostet und entfallen würde!) und damit immer noch wesentlich schneller als DRAM.
Core to Core liegen die Daten direkt vor. Da geht nichts über den RAM. Innerhalb des CCX sind es sub 10 ns und außerhalb ~80ns.
Egal welches Level der Cache hätte - die IF ist einfach schnarchlahm. Du willst vermeiden aus dem ccx herauszumüssen.

@Tesseract
Dazu wäre aber IMO auch eine andere Topologie sinnvoll. Sobald man die IF nutzt ist die Latenz so schlecht, dass man auch gleich den RAM nutzen kann.

Bei IBM‘s sehr guter Idee wäre aber auch interessant wie hoch die Latenz des virtuellen L3s ist. Ich frage mich bei 256 Cores wie gut das gehen kann. Skalierbarkeit und Latenz sind bei Topologien ja leider diametrale Kriterien soweit ich das verstanden habe.

MSABK

2022-01-02, 13:08:21

Auch interessant:

Rembrandt bekommt noch CVML-Compute-Vision-&-Maschine-Learning, was eine Deep-Learning-Unit ist. Damit will AMD die Augen-Orientierung bei Video-Konferenzen zentrieren/korrektieren. Genau das hat Intels schon längst beim Tiger-Lake, eventuell schon beim Ice-Lake.

Aus den Kommentaren bei notebookcheck. Mal sehen ob das so kommt.

https://www.notebookcheck.com/Lenovo-IdeaPad-5-Pro-14-16-10-Laptop-Test-Die-Serie-wird-immer-besser.582175.0.html#toc-8

Der_Korken

2022-01-02, 13:19:22

Core to Core liegen die Daten direkt vor. Da geht nichts über den RAM. Innerhalb des CCX sind es sub 10 ns und außerhalb ~80ns.
Egal welches Level der Cache hätte - die IF ist einfach schnarchlahm. Du willst vermeiden aus dem ccx herauszumüssen.

Da können wir nur abwarten, wer am Ende richtig lag. Da das frühestens für Zen 5 ein Thema ist, haben wir noch viel Zeit :D.

Auch interessant:

Aus den Kommentaren bei notebookcheck. Mal sehen ob das so kommt.

https://www.notebookcheck.com/Lenovo-IdeaPad-5-Pro-14-16-10-Laptop-Test-Die-Serie-wird-immer-besser.582175.0.html#toc-8

Wie funktionieren solche ML-Chips eigentlich softwaremäßig (also auch bei Apple)? Muss man dafür einen Treiber bereitstellen und die Software muss explizit einen Codepfad für diesen Chip bereitstellen? Weil automatisiert Instruktionen aus vorhandenem Code auslagern, wird wohl kaum möglich sein.

Tesseract

2022-01-02, 14:00:05

Bei IBM‘s sehr guter Idee wäre aber auch interessant wie hoch die Latenz des virtuellen L3s ist.

der L2 ersetzt quasi klassischen L3, hat aber bessere latenz und den virtuellen L3 kann man als teilweisen ram- oder crystalwellersatz sehen und als solcher hat er natürlich auch bessere latenz. im prinzip geht es darum bei bei selben gesamtmenge an cache die zugriffe im schnitt lokaler zu machen (also weniger über die interconnects), weniger evictions und den nuztungsgrad zu maximieren.

davidzo

2022-01-02, 14:04:14

Bei IBM‘s sehr guter Idee wäre aber auch interessant wie hoch die Latenz des virtuellen L3s ist. Ich frage mich bei 256 Cores wie gut das gehen kann. Skalierbarkeit und Latenz sind bei Topologien ja leider diametrale Kriterien soweit ich das verstanden habe.

Anandtech hat dazu ein paar Daten, allerdings sind das auch die "averages" aus der IBM Folie, keine 3rd party überprüften Zahlen:

This IBM Z scheme has the lucky advantage that if a core just happens to need data that sits in virtual L3, and that virtual L3 line just happens to be in its private L2, then the latency of 19 cycles is much lower than what a shared physical L3 cache would be (~35-55 cycle). However what is more likely is that the virtual L3 cache line needed is in the L2 cache of a different core, which IBM says incurs an average 12 nanosecond latency across its dual direction ring interconnect, which has a 320 GB/s bandwidth. 12 nanoseconds at 5.2 GHz is ~62 cycles, which is going to be slower than a physical L3 cache, but the larger L2 should mean less pressure on L3 use. But also because the size of L2 and L3 is so flexible and large, depending on the workload, overall latency should be lower and workload scope increased.

[...]

This means that from a singular core perspective, in a 256 core system, it has access to:

32 MB of private L2 cache (19-cycle latency) 3.8 ns
256 MB of on-chip shared virtual L3 cache (+12ns latency) = 81cycles / 15.5ns
8192 MB / 8 GB of off-chip shared virtual L4 cache (+? latency)

AMD Vermeer hat dagegen:
512kb L2 2.5ns
32mb L3 10ns

oder 96mb L3 mit 3Dvcache bei angeblich gleichbleibenden Latenzen.

DRAM 65ns
remote chiplet: 80-110cycle
remote socket: 200cycle

IBMs cachestruktur sieht zwar richtig gut aus, aber was man nicht vergessen darf ist dass power bei mainframes keine Rolle spielt. IBM hat schon bei Z15 gesagt dass es nicht darum ging die Effizienz zu verbessern, oder bei gleichem powerbudget mehr Leistung zu bringen, sondern einzig und allein darum den throughput zu erhöhen. Also bei mehr Power. Nicht umsonst haben die mainframes schon seit Jahrzehnten ausschließlich flüssigkeitskühlung mit chillern.

Einen Mainframe kauft man sich nur wenn man zentralisierte Prozesse hat die einen gigantischen shared memory pool brauchen, also sich nur schlecht oder wegen der größe der Datasets überhaupt nicht in einzelne Teilaufgaben zerlegen und verteilen lassen. Und dieser mainframe ist dann auch auf Kante für diesen task genäht, das heißt der wird immer ausgelastet. Kein Mainframe wird für 20% load gekauft. Wenn z.B. ein Banken-mainframe gerade nicht 90% mit realtime transcacions ausgelastet ist schiebt man halt batch-prozesse rein die man sonst wann anders machen würde.

Insofern ist denen die idle Power ihres gigantischen interconnects ziemlich egal.
Ich bin ziemlich sicher dass das ganze massiv Energie verschleudert, vor allem im idle. Schon das Epyc i/o Die verbraucht gute 50Watt im idle, bloß um das Infinity fabric am leben zu halten, wenn last auf das IF und den DRAM Controller kommt wird das schnell 90+Watt.

Jedes 8-core Chiplet hat einen Dual direction Interconnect mit 320gb/s. Das ist insane :eek:

Zen3 hat für ein Chiplet mit ebenfalls 8 Cores lediglich eine IFlink Bandbreite von ca. 100gb/s. Und das ist eher power constrained, denn man hätte die Iflinks statt mit 18Gbps auch mit den vollen 25.6gbps laufen lassen können wie bei mi50/60.
- 320gb/s, das ist ähnlich wie die gesamte dram Bandbreite eines 64C epyc Milan Prozessors mit 297gb/s bzw. 252 NPS4 (peak 410gb/s). Ich bezweifle dass das groß Power spart gegenüber dem Gang zum DRAM.

Insofern ist das sicher eine tolle Sache um die Performance bei Vollauslastung mit Tasks mit großen Datasets zu steigern die nicht gut in den private L2 und L3 passen, aber die cache Architektur ist eine Katastrophe für den Idle Verbrauch. Für gut verteilbare workloads mit kleineren Datasets hat man dann immer noch einen riesen Idlepower Klotz am Bein.
Deswegen rechne ich auch nicht damit dass das jemand so schnell kopieren wird.
Für AMD machen große shared Caches nur im Datacenter Sinn, also z.B. per L4 auf dem i/o DIE. Da soll Zen4d ja durchaus für neue Überraschungen bei der Cache-struktur sorgen, aber so einseitig auf durchsatz/bandbreite optimiert wie bei einem mainframe-design wird das sicherlich nicht.

robbitop

2022-01-02, 20:07:51

Also die Latenz als virtual L3 ist ja Bombe. Tja ggf hat AMD von der Topologie ja doch noch ordentlich Luft nach oben.

ryan

2022-01-03, 02:56:10

BTW:
Mein Navi21 bekommt bis 8K übrigens (beschleunigtes) AV1 vorgesetzt...nur kommt der VCN3.0 mit 8K/60 nicht klar...und hängt dauerhaft bei 100% mit massiven Framedrops. (Ich glaube der war eh nur bis 8K/30 spezifiziert)

Dann hat AMD tatsächlich den leistungsschwächeren AV1 decoder.

Es ist ein 13" SFF Convertible
Da dreht kein Lüfter, es wird nicht wirklich wärmer...der ASIC läuft in der Nähe des Idle Verbrauchs da das komplette SoC mit baseclocks und quasi nur außerhalb des clockgatings rennt.
Das APU STAPM geht von 2-3W auf "nur" ca. 4W hoch, in 4K/60@VP9 mit Beschleunigung sind es dann mal direkt ~6W und Last auf CPU und GPU fällt dagegen vom nem unteren zweistelligen Bereich unter FHD fast auf um die 1-2% bzw. 0%.

Ok 6W sind nicht sonderlich berauschend für VP9 Hardware Decoding (für so ein ULV Gerät). 1080p software decoding gegen 4k hardware decoding zu vergleichen macht aber auch kein Sinn, in 1080p sollte auch der hardware encoder etwas weniger verbrauchen.

Ich sage ja gar nicht das der Effekt theoretisch null ist, nur ist es in der Praxis wohl auch weniger dramatisch als es sich liest und man muss so ne Entscheidung immer als Systembetrachtung verstehen.

Wie gesagt: die AV1 SW Decoder scheinen mir auf modernen Architekturen für niedrige Auflösungen recht effizient zu sein.
In den frühen H.265/H.264 Zeiten war das m.E. noch anders.

Ja bis 1080p, das läuft tatsächlich auch ohne hardware encoder recht gut mit AV1. 4k dagegen ist schon eine andere Hausnummer. Hier mal ein kleiner Test in Chrome:

i7-1165G7 2.8 Ghz Balanced power Profil, avg package power

1080p AV1
Hardware Beschleunigung off: 4.7W
Hardware Beschleunigung on: 3.5W

4k AV1
Hardware Beschleunigung off: 10W +massig dropped frames, sichtbares ruckeln
Hardware Beschleunigung on: 5W

Das sind 2.8 Ghz ohne Turbo wohlgemerkt. Mit Turbo ist das Verhältnis deutlicher zugunsten Hardware Beschleunigung, weil der CPU Turbo sporadisch reinkickt bzw. in 4k ständig im Turbo läuft. 4k ohne Hardware Beschleunigung kann man vergessen mit TGL-U.

Am besten läuft AV1 übrigens mit der Filme & TV App von Microsoft, damit bekomme ich das 8K60 Video lokal flüssig abgespielt bei 5W package Gesamtverbrauch, in Chrome liegt das doch eine ganze Ecke drüber in 8K.

Ex3cut3r

2022-01-03, 03:23:27

Kann eigentlich jemand dieses YouTube Video in 8K 60 FPS flüssig darstellen also ohne Dropped Frames?

https://www.youtube.com/watch?v=zCLOJ9j1k2Y&t=161s

https://abload.de/thumb/neuesprojekt10ajeb.png (https://abload.de/image.php?img=neuesprojekt10ajeb.png)

Dropped Frames und Ruckel Orgie Deluxe. ;D

Aktiviere ich AV1 (RTX 3080 Ti)
sieht es kein deut besser aus.

https://abload.de/img/neuesprojekt8dkgi.png

Was ist da krumm?

Erst wenn ich das Video runterlade in 8K 60 FPS und mit MPC per LAV Filter (DXVA2 Copy-back) abspiele läuft es absolut ruckelfrei.

https://abload.de/thumb/desktop_2022_01_03_03a8kvw.png (https://abload.de/image.php?img=desktop_2022_01_03_03a8kvw.png)

Die 3 Dropped Frames sind normal, beim Start des Videos, jegliches Vorspulen dropped auch Frames ist aber auch normal. Die Wiedergabe läuft absolut sauber und sieht mit MadVR Settings auch besser aus, als auf YouTube.

Was macht DXVA2 Copy-back so viel besser?
Mit D3D11 Native aka Auto ruckelt es komischerweise wieder wie sau. Mit D3D11 copy-back läuft es wiederum flüssig.

https://abload.de/thumb/desktop_2022_01_03_03s2kwp.png (https://abload.de/image.php?img=desktop_2022_01_03_03s2kwp.png)

ryan

2022-01-03, 04:25:00

Welcher Browser, Chrome?

https://abload.de/thumb/decodingtrjq8.jpg (https://abload.de/image.php?img=decodingtrjq8.jpg)

i7-1165G7 mit Hardware Beschleunigung kein Problem. Nur direkt nach dem laden gibt es ein paar dropped frames.

Chrome verwendet die AV1 extension von Microsoft meine ich, läuft das mit der Filme & TV App von Microsoft genauso schlecht? Bei Intel gibt es nur noch D3D11 Beschleunigung mit AV1, DXVA2 support wurde vor einem Jahr rausgenommen, weil das veraltet wäre sagt Intel.

dosenfisch24

2022-01-03, 12:55:12

Kann eigentlich jemand dieses YouTube Video in 8K 60 FPS flüssig darstellen also ohne Dropped Frames?

https://www.youtube.com/watch?v=zCLOJ9j1k2Y&t=161s

Auf meinem Desktop gibt es keinen einzigen dropped Frame gemäß der YT Statistik. Der Firefox erzeugt dabei ~23% GPU Last (6900XT) und ~30% CPU Last (5950X). Der Stromverbrauch ist ordentlich. 52W(+-5W) auf der GPU und 120W (+-10W) auf der CPU.

Daredevil

2022-01-03, 13:19:05

Der M1 Max packt die Wiedergabe ebenso bei ca. 60-70% CPU Last.
"Locker" macht er das aber nicht, ca. 40w Verbrauch und nach 3 Minuten geht der Lüfter leise an.

Könnte mir vorstellen, das ein Hexacore hier zu schwach ist, wenn die GPU nichts übernimmt ( oder Unsinn macht ).

ryan

2022-01-03, 13:35:28

Auf meinem Desktop gibt es keinen einzigen dropped Frame gemäß der YT Statistik. Der Firefox erzeugt dabei ~23% GPU Last (6900XT) und ~30% CPU Last (5950X). Der Stromverbrauch ist ordentlich. 52W(+-5W) auf der GPU und 120W (+-10W) auf der CPU.

30% Auslastung von einem 16C ist viel, nach Hardware decoding sieht das nicht aus. Höchstens ein Hybrid.

Ex3cut3r

2022-01-03, 13:41:18

Welcher Browser, Chrome?

Jo, Chrome.

Der M1 Max packt die Wiedergabe ebenso bei ca. 60-70% CPU Last.
"Locker" macht er das aber nicht, ca. 40w Verbrauch und nach 3 Minuten geht der Lüfter leise an.

Könnte mir vorstellen, das ein Hexacore hier zu schwach ist, wenn die GPU nichts übernimmt ( oder Unsinn macht ).

Könnte natürlich sein, ich bezweifle es aber, meine HW wird mit Chrome auf YouTube einfach nicht ausgelastet. Mit dem MPC + LavFilters @ DXVA2 Copy-Back eben schon, und habe dann auch keine dropped Frames.

Daredevil

2022-01-03, 13:45:28

Mal im Edge ausprobiert?

ryan

2022-01-03, 13:50:28

Jo, Chrome.

Könnte natürlich sein, ich bezweifle es aber, meine HW wird mit Chrome auf YouTube einfach nicht ausgelastet. Mit dem MPC + LavFilters @ DXVA2 Copy-Back eben schon, und habe dann auch keine dropped Frames.

Das sollte ordentlich funktionieren auf der RTX, Computerbase hat es beim RTX 3080 launch vorgeführt mit dem gleichen Video:

https://youtu.be/lTRbLnWdqwk?t=82

So sollte das dann eigentlich aussehen, niedrige CPU Auslastung und niedrige GPU (3D) Auslastung. Nur die Auslastung vom decoder ist logischerweise hoch.

Keine Ahnung, ob die AV1 extension noch gebraucht wird. Wenn die nicht installiert ist, einfach ausprobieren.

Ex3cut3r

2022-01-03, 13:53:42

Das selbe im Edge.

Ich habe aber jetzt ne Lösung gefunden. Einfach das hier ins MPC Verzeichnis (da wo auch die mpc.exe ist, reinkopieren.

https://github.com/yt-dlp/yt-dlp/releases

Dann einfach im MPC die YouTube Adresse reinkopieren, und schon streamt das YouTube Video im MPC mit LavFilters und/oder MadVR mit besseren Settings als auf YouTube. ;D

https://abload.de/img/unbenanntmzknb.png

Dropped Frames bitte ignoieren, habe vorgespült.

https://abload.de/thumb/desktop_2022_01_03_13nmkyl.png (https://abload.de/image.php?img=desktop_2022_01_03_13nmkyl.png)

gedi

2022-01-03, 21:12:18

Dumme Frage - sorry, aber kann der Refresh auch DDR4 und ist Pinkompatibel mit Sockel AM4? Da ich mit der Hardware zwecks der Preise und des eigenen Zufriedenheit des Systems nicht mehr befasse, diese DAU-Frage -sorry.

PCs bauen ist so etwas wie uninteressant geworden: EVGA Kinpin vermutlich deutlich über 1000W, CPUs welche sich mehr als 300W genehmigen …

Es bleibt einem eigentlich nichts Anderes mehr übrig, dieses Hobby sausen zu lassen.

Ist nur eine Anfrage für meinen Sohn :redface:

basix

2022-01-03, 21:19:10

Weiss ich leider nicht. Bis jetzt habe ich noch nichts konkretes dazu gehört. Ich würde anhand der Gerüchtelage eher auf Nein tendieren. Das Problem bei DDR4 wird auch sein, dass die iGPU an der Bandbreite stark limitiert wäre und seine Leistung gar nicht voll entfalten könnte.

Morgen, Dienstag, um 16 Uhr ist die AMD Pressekonferenz. Vermutlich bekommst du dann die Info die du benötigst.

Edit:
Wenn du mit Refresh die 3D V-Cache Variante meinst: Ja, die kommt auf AM4

y33H@

2022-01-03, 21:35:37

PCs bauen ist so etwas wie uninteressant geworden: EVGA Kinpin vermutlich deutlich über 1000W, CPUs welche sich mehr als 300W genehmigen …Gibt doch wie gehabt 65W-CPUs, der Core i5-12400F morgen etwa ist top ... und GraKas wie die RX 6600 XT mit 150W, sprich äußerst effizient.

SimonGreen

2022-01-03, 21:47:01

Sehr gespannt auf den 6800u für 13" Notebooks

Corny

2022-01-04, 08:37:22

Zur Ryzen 6000U Serie gibt es aber noch keine nennenswerten Gerüchte, oder? Ich lese überall nur H und HX.

Unicous

2022-01-04, 09:29:12

https://cdn.videocardz.com/1/2022/01/AMD-Ryzen-6000HX-HS-Rembrandt-Zen3Plus.jpg
https://videocardz.com/newz/amd-announces-ryzen-6000-mobile-cpus-based-on-6nm-zen3-rembrandt-silicon

Warum bist du so ungeduldig, in etwas mehr als 6 Stunden werden die neuen Chips vorgestellt.:confused:

https://cdn.videocardz.com/1/2022/01/AMD-Ryzen-6000HX-HS-Rembrandt-Zen3Plus-Features.jpg

basix

2022-01-04, 09:43:00

Drei Dinge zu diesen Folien:
- 12 / 6 CU Partitionierung? Wieso nicht 12/8 oder 12/10/8? Hat RDNA2 da irgendwelche technischen Limitierungen?
- AV1 Decoding: Yes!
- Kein Dolby Vision Support? Braucht es das bei einer APU?

dildo4u

2022-01-04, 09:44:46

Hoffentlich haden die OEM genug DDR5, die GPU scheint mir echt potent mit Risiko Bandbreiten limitiert zu sein.

Unicous

2022-01-04, 09:55:07

@basix

Zwischen 6800 und 6600 ist noch ein wenig Platz. :uponder:

@DDR5

Die Frage ist eher ob sie genug LPDDR5 haben.

Neosix

2022-01-04, 09:56:01

Ich habe die Hoffnung auf Zen3+3D nicht aufgegeben, auch wenn es nach der Gerüchtenlage nur eine Hoffnung bleibt :/ Aber warum nicht auch bei den normalen Desktop CPUs auf die 6nm gehen ich will auch die paar extra MHz mehr... (jaja ich weiß kapazitäten und so)

basix

2022-01-04, 10:05:29

@basix

Zwischen 6800 und 6600 ist noch ein wenig Platz. :uponder:

Das stimmt. Bei den -H Modellen ist es aber ähnlich. X-Modelle mit 12 CU und dann plötzlich runter auf 6CU. Ist einfach etwas irritierend.

Nun gut, x700er Modelle könnte es noch geben und Desktop gibt es ja auch noch.

Ach ja: DP 2.0 auch dabei, sehr gut!
Evtl. ist WiFi 6E / BT 5.2 gleich in den SoC integriert? Wäre ebenfalls nice.

Einzig die "nur" 20 PCIe 4.0 Lanes sind ein wenig schade. 24 Lanes wären für dicke mGPU wohl besser gewesen.

Alles in allem macht die Plattform aber einen sehr guten Eindruck. Eigentlich wurde alles stark aufgebohrt. Mit Ausnahme der CPU :D

Edit:
Was ich erst jetzt gesehen habe: Bei den U-Modellen steigen die Base-Clocks massiv an. Ist das die Zen 3+ und 6nm Geschichte?

Unicous

2022-01-04, 10:18:02

Vermutlich wird Cezanne mit 8 CUs die Lücke schließen.

Corny

2022-01-04, 10:28:33

Warum bist du so ungeduldig, in etwas mehr als 6 Stunden werden die neuen Chips vorgestellt.:confused:

Ich weiß, aber in 6 Stunden ist es keine Spekulation mehr ;)

Edit:
Was ich erst jetzt gesehen habe: Bei den U-Modellen steigen die Base-Clocks massiv an. Ist das die Zen 3+ und 6nm Geschichte?

Die U-Modelle haben jetzt eine TDP von bis zu 28W, vorher waren es nur 25W - das wird auch ein paar Mhz ausmachen.

Daredevil

2022-01-04, 10:52:37

Aber warum nicht auch bei den normalen Desktop CPUs auf die 6nm gehen ich will auch die paar extra MHz mehr... (jaja ich weiß kapazitäten und so)
Weil AMD im mobile Markt einen härteren Kampf zu kämpfen hat als im Desktop Markt. :)
Aber vielleicht kommt es ja tatsächlich bald im laufe des Jahres.

horn 12

2022-01-04, 10:57:23

Zen 3 mit 3D Cache doch im Schnitt 25% schneller als der 5800X
und dies wäre für Intel erneut ein Schlag ins Gesicht für 349 bis 379 Euro

Spekulieren darf man, ist ja nimmer lange hin...
Ob dies mit 15% im Schnitt wohl nicht absichtlich in die Welt gesetzt wurde...

Daredevil

2022-01-04, 10:58:36

Videocardz leakt einfach alles auf Twitter. Wer sich also noch überraschen will, einfach bis 16 Uhr das Internet ausmachen. :D

Wer sich hart Spoilern lassen will, klickt auf den Spoiler:
https://cdn.videocardz.com/1/2022/01/AMD-Ryzen-5800X3D-Raphael-Zen4.jpg

Neosix

2022-01-04, 11:03:34

Zen 3 mit 3D Cache doch im Schnitt 25%
hm? im schnitt wohl kaum, auf der amd eigenen folie vor ewigkeiten haben sie selber 5-25% im best case angegeben. die 25% werden also kaum den durschnittlichen zugewinn angeben (kann auch sein, dass ich da nur an gaming fps denke)

dildo4u

2022-01-04, 11:09:29

Jup wenn du wieder +20% für Zen 4 haben willst kannste nicht jetzt alles rausholen, daher ändert sich vermutlich nix am Takt bei 3D da noch 7nm.

davidzo

2022-01-04, 11:19:44

Drei Dinge zu diesen Folien:
- 12 / 6 CU Partitionierung? Wieso nicht 12/8 oder 12/10/8? Hat RDNA2 da irgendwelche technischen Limitierungen?

Eigentlich nicht, siehe navi23XL.

Vermutlich wird Cezanne mit 8 CUs die Lücke schließen.

8CUs vega sind eher unterhalb von 6CU RDNA2 einzuordnen.

Einzig die "nur" 20 PCIe 4.0 Lanes sind ein wenig schade. 24 Lanes wären für dicke mGPU wohl besser gewesen.

Es sind auch 24, aber das mobile package gibt wie bei Cezanne nur 20 frei. Das ist normal, sonst würde das package wesentlich größer werden und vermutlich auch mehr idle power schlucken. performancetechnisch ist das im mobile sowieso unkritisch, zumal nvidia und meist auch AMD ihre mobilchips eher mir mehr VRAM pro Rechenleistung ausstatten als die desktopchips.

Edit:
Was ich erst jetzt gesehen habe: Bei den U-Modellen steigen die Base-Clocks massiv an. Ist das die Zen 3+ und 6nm Geschichte?
Das sind ja jetzt auch 28Watt Chips.
Intel hatte AMD ja bei Tigerlake noch damit überrascht dass die U-Serie jetzt per default 28Watt hatte statt 15W. Damit meine ich Intels Performancefolien und das Referendesign whiteboot mit dem zum launch gebencht wurde, aber auch die Mehrzahl der höherwertigen OEM-Designs. Das war ziemlich unfair gegenüber AMD, die als default 15Watt und eine seltener genutzte TDPup von 25W angeboten haben. Deshalb zieht AMD jetzt nach mit defaultwerten für 28W.