AMD - Zen 4 (Raphael, Phoenix & Genoa, 5 nm, AM5, DDR5, PCIe 5.0, Ende 2022) [Archiv] - Seite 6

robbitop

2022-01-19, 15:02:56

Tja erstmal muss Intel wie du schon schreibst zeigen, dass sie die entsprechende Execution haben. 10 nm war ein Desaster und auch 14 nm lief nicht gut an (Broadwell kam nicht umsonst nicht als -S auf dem Desktop da die erste Iteration noch keine guten Taktraten schaffe und auch Skylake erreichte nicht die Taktraten von Haswell in 22 nm). Und neuere Prozessschritte werden nicht weniger komplex.
Bevor man über Intel 20A spricht, muss man ja erstmal Intel 4 und Intel 3 abliefern. Und bereits in 2 Jahren sollen 2x volle Prozessgenerationen veraltet sein und 20A kommen? Klingt - wenn man die Vergangenheit anschaut mehr als optimistisch. Das wären 3x Nodes in 2 Jahren. das ging ja nicht mal in den 1990ern wo shrinks noch vergleichsweise einfach waren.

https://www.anandtech.com/show/16823/intel-accelerated-offensive-process-roadmap-updates-to-10nm-7nm-4nm-3nm-20a-18a-packaging-foundry-emib-foveros

As always, there is a difference between when a technology ramps for production and comes to retail; Intel spoke about some technologies as 'being ready', while others were 'ramping', so this timeline is simply those dates as mentioned. As you might imagine, each process node is likely to exist for several years, this graph is simply showcasing the leading technology from Intel at any given time
Also sagt das noch nichts über Produkte aus oder deren Ramp sondern nur wann der jeweilige Prozess "ready" ist. Was auch immer das in Relation zu Serienproduktlaunchzeitpunkten hat. Sicherlich mindestens 1 Jahr.

Und dazu kommt: man will jetzt jedes Jahr einen neuen Shrink? Das ging viele Jahre lang nicht - nicht einmal bei TSMC und jetzt soll es auf einmal möglich sein? Man sollte sie nie unterschätzen aber IMO klingt das sehr ambitioniert.

basix

2022-01-19, 16:57:17

Jepp, ist sehr ambitioniert und man kann seine Zweifel anbringen. Zumindest in den letzten 7 Jahren sind Intels Prozesse immer zu spät gewesen.

HOT

2022-01-19, 18:01:36

Zu Zen 5 und N3: Q4/2023-H1/2024 wären für Zen 5 ja wohl angepeilt. Wieso das und N3 im Zusammenhang wichtig ist: Intel will H1/2024 mit Intel 20A (Power Via, GAA=RibbonFET) um die Ecke kommen. Schafft Intel das in H1/2024 (mit entsprechenden Produkten) und AMD käme erst H1/2024 mit Zen 5 raus: Selbst mit N3 wäre man theoretisch 1x Full-Node hinterher. Mit N4(X) etwa 1.5 Full Nodes.

PowerVias und GAA könnten einen zusätzlichen Boost bezüglich Energieeffizienz geben. Da wäre TSMCs N3 dann wirklich hinterher.

Aber mal schauen, ob Intel diese aggressive Timeline halten kann und ob dann auch zeitnah Produkte released werden. Bei Produkten meine ich nicht kleine Chips wie LoHi oder "egal wie teuer" HPC Beschleuniger, sondern CPUs.

Also 20A in 24 ganz ganz sicher nicht. Aber ganz sicher.
Außerdem sagt Intel, man will den Prozess da fertig haben, bis zum fertigen Produkt kann man da gepflegt noch mal 1 1/2 Jahre draufrechnen. Intel ist auch bei 20A noch mindestens 1 Jahr nach TSMC dran, da bin ich mir sehr sicher. Wir werden sowohl bei Intel 4 als auch Intel 3 jewels 2 Generationen haben mMn. Bei 14nm waren es 7 Generationen, bei 10nm (bzw. Intel 7) sind es 4.

N5 -> Intel 4 2,5 Jahre unterschied (Produkt Mitte 23)
N3 -> Intel 3 sicherlich 1,5 Jahre mindestens (TSMCs Verzögerung schon eingerechnet), Produkt früstens 25 mMn
N2 -> Intel 20A wird auch noch 1 Jahr unterschied betragen, mindestens, wenn alles gut geht, Produkt nicht vor 26, eher 27.

Den Rückstand wird man nicht schnell aufholen können. Intels Präsentationen dahingehend sind pures Marketing für die Aktionäre. Glauben kann man diese Zeitpläne nicht eine Sekunde lang.

robbitop

2022-01-19, 18:09:21

Nightspider

2022-01-19, 19:11:24

Wollte Intel nicht auch Chips bei TSMC in N3 fertigen lassen?

Betraf das jetzt nur GPUs oder auch CPU Tiles?

Falls ein Teil der CPUs von TSMC kommen wird, wird das alleine Druck auf AMD machen.

robbitop

2022-01-19, 19:14:16

Ich meine auch CPUs. Dazu auch die GPUs und wohl den compute tile einer zukünftigen cpu (das wäre die igp als stacking).
Bezüglich CPUs wirkte das aber so dass es nur ergänzend war zur eigenen Fertigung - iirc wurde core i3 erwähnt.

basix

2022-01-19, 20:56:51

Bei TSMC N3 kommt mir eher die iGPU in den Sinn. Das entlastet die eigene Fertigung ja schon. Wie schon früher mal gesagt: CPU Cores bei TSMC fertigen? Wäre ein Kniefall vor TSMC, auch wenn es nur "Ergänzungen" sein sollten.

Klar, evtl. kommt Intel auf die Idee, nur die Big Cores und somit ihre Kronjuwelen bei Intel zu lassen und die Little Cores (anderes Tile) bei TSMC. Aber auch hier: Kann ich mir nicht vorstellen. TSMC hat begrenzte Kapazitäten und GPUs, iGPUs und grosse Teile der HPC Beschleuniger kommen wohl von TSMC. Macht irgendwie auch Sinn: Intel kann ihre Prozesse anhand der CPUs ausrichten. Für GPUs nimmt man TSMC, welche eher einen "one-fits-all" Prozess anbieten.

robbitop

2022-01-19, 21:14:32

Ich kann mir gut vorstellen dass mit Pat Gelsinger Dinge wie „Kniefall“ kein relevantes Argument mehr sind. Da zählen ggf nur noch Resultate

basix

2022-01-19, 21:24:21

Es ist halt auch sehr viel Image und Prestige dabei. Das nur via allenfalls etwas besseren Resultaten zu kompensieren? Ich weiss nicht.

robbitop

2022-01-19, 21:31:36

Berniyh

2022-01-19, 22:16:00

Ich denke auch, dass man TSMC so schnell nicht schlägt. Prozesse werden immer komplexer und teurer und TSMC liefert Jahr für Jahr ab und sind die besten Chipfertiger die es momentan gibt. Die investieren auch eine Menge RnD in neue Lithographien und Packagingtechnologien. Wenn man am Ende in etwa zeitlich pari rauskommt, ist man schon gut bzw. muss man das erstmal schaffen.

Allerdings traue ich es Intel schon zu, wenn sie es richtig ernst meinen, AMD in Bezug auf das Design aus-zu-engineeren. Wenn sie mit der neuen Führung ihre Trägheit losgeworden sind und die Ressourcen gut einsetzen können, dann haben sie wahrscheinlich schon ganz andere Möglichkeiten mittelfristig.
Aus einer dysfunktionalen Organisation hat Jim bei AMD ja offenbar eine sehr funktionale gemacht. So wie es scheint ist das bei Intel auch geschehen.
Die Ressourcen und das Know-How, auch beim Prozess, hat Intel sicherlich.
Es ist aber halt eine Frage der Mentalität und Herangehensweise.
Intel will immer noch riesige Sprünge hinlegen und scheitert daran immer wieder bzw. schafft es dann erst verzögert.
Das war jetzt vor allem bei den Prozessen so, aber auch (eingeschränkt) beim Design.
TSMC hingegen macht es vor wie es besser geht. Die machen lieber viele kleine Schritte, wobei man dann die Zwischenstufen erstmal ausoptimieren kann und dadurch dann für das große Ganze lernt.
Das treibt dann natürlich Blüten mit einer recht großen Anzahl an Variationen und Abwandlungen von Prozessen, aber es sorgt halt auch dafür, dass man stetig vorwärts kommt und genau deshalb hat es sich bewährt.
Ähnlich macht es AMD beim Design, wobei man die Architektur Schritt für Schritt und zielstrebig weiterentwickelt.

basix

2022-01-19, 22:19:27

Ich bezweifle ob es mit Image und Prestige bei Intels Kunden überhaupt einen Einfluss hat wo was gefertigt wurde. Die Performance relativ zum Wettbewerbsprdukt wohl eher. Und nur das zählt.
Die Art Prestige betrifft wohl hauptsächlich die Köpfe der Halbleiterbranche selbst - aber wieviel ist das ernsthaft wert?

Ich hätte am ehesten Investoren gesagt. Aber die schauen auch auf die Zahlen.

Das Problem wäre eher ein darunterliegendes: Wenn Intels Fertigung nicht mithalten kann, wird irgendwann immer mehr Kapazität nach TSMC abwandern. Und dann sind die Intel Fabriken vor allem eines, ein Kostenfaktor. Man müsste Fabriken umnutzen, abschreiben oder gar verkaufen (jetzt weit in die Zukunft gedacht). Zudem würden die getätigten Investitionen rund um die Fabriken entwertet. Ich weiss nicht was das für finanzielle Auswirkungen für Intel hätte.

DavChrFen

2022-01-20, 01:58:35

Ich glaube auch, dass man bzgl. Ankündigungen in ferner Zukunft die unterschiedlichen Philosophien/geographisch-sozialen Hintergründe evtl. auch mit einbeziehen muss: TSMC lieber konservativer Forecast und bei Intel wird alles auf einmal super.

Und Intel würde ich zutrauen ein par Stunts zu machen. Aber ich glaube der erste wurde schon released bzw. angekündigt mit dem Ponte Vecchio(wenn ich jetzt nichts verwechsle).

Und Stunts können auch mal schief gehen (Pentium 5).

Um auch was zu Zen4 beizutragen: Ich halte bei Zen5 eine Mischung von Performance- und Efficient-Cores auf einem Chiplet thermisch recht günstig, da es so evtl. möglich ist bei Volllast die Hitze besser zu verteilen als bei einem Chiplet nur Performance-Cores und ein Chiplet nur Efficient-Cores. Gerade bei den Fertigungsgrößen.

robbitop

2022-01-20, 07:19:00

Was ist Pentium 5? Den Pentium 4 kenne ich und den Pentium 1 der P5 intern als Bezeichnung trug.

mboeller

2022-01-20, 07:31:21

vielleicht das hier:

Doch bei dieser Prognose bleibt es nicht - Intel wird sogar noch optimistischer: Sechs Jahre später, auf dem IDF in Tokyo, verspricht Intels Cheftechniker Pat Gelsinger, Prozessoren würden schon im Jahre 2010 auf 15 GHz kommen. Die Pentium-4-Architektur sollte für immerhin 10 GHz gut sein, der kommende Prescott bereits auf 5 GHz kommen, sein Nachfolger auf 6 GHz; der 15-GHz-Chip hingegen sollte auf einer neuen Architektur basieren.

https://www.pcgameshardware.de/Retrospektive-Thema-214694/News/Irrtuemer-Intels-10-Gigahertz-und-Nvidias-CineFX-PCGH-Retro-18-November-667403/

y33H@

2022-01-20, 07:42:28

Tejas ^^

fondness

2022-01-20, 07:55:06

vielleicht das hier:

https://www.pcgameshardware.de/Retrospektive-Thema-214694/News/Irrtuemer-Intels-10-Gigahertz-und-Nvidias-CineFX-PCGH-Retro-18-November-667403/

Wie passend, Pet Gelsinger. Da hat man ja genau den Geisterfahrer zum CEO gemacht. Zum Thema Fertigung: Wenn Intel ihre CPUs bei TSMC fertig, was fertigt man dann noch in den eigenen Fabs?

Berniyh

2022-01-20, 08:02:06

Wie passend, Pet Gelsinger. Da hat man ja genau den Geisterfahrer zum CEO gemacht. Zum Thema Fertigung: Wenn Intel ihre CPUs bei TSMC fertig, was fertigt man dann noch in den eigenen Fabs?
Das wäre wohl kein Problem, die freien Kapazitäten bekommt man auch vermietet, zumal ja evtl. manche TSMC Kunden wechseln müssten, wenn Intel auch noch dort mehr Kapazitäten wollte.
Selbst Global Foundries ist ja mit den "alten" Nodes ordentlich ausgelastet.

Bissle absurd wäre es aber natürlich schon.
Am Ende lässt AMD noch irgendwann bei Intel fertigen. :freak:

robbitop

2022-01-20, 08:15:49

vielleicht das hier:

https://www.pcgameshardware.de/Retrospektive-Thema-214694/News/Irrtuemer-Intels-10-Gigahertz-und-Nvidias-CineFX-PCGH-Retro-18-November-667403/
Stimmt - ich erinnere mich. :D
Die Verknüpfung in meinem Kopf fehlte, weil das Ding ja nie als Pentium 5 betitelt wurde sondern Tejas. Aber ja wahrscheinlich hätte man ihn so genannt. :)

X-Bow

2022-01-20, 09:18:40

Es ist halt auch sehr viel Image und Prestige dabei. Das nur via allenfalls etwas besseren Resultaten zu kompensieren? Ich weiss nicht.

Image und Prestige sind hier völlig nebensächlich, bei Eigenfertigung hat man eine höhere Marge des Produktes und Kapazitäten im Sinn. In der eigenen Fertigung musst man sich nicht um Kapa mit Konkurenten streiten und muss dem Fertiger keine Margen zahlen.

HOT

2022-01-20, 10:10:47

basix

2022-01-20, 11:55:05

vielleicht das hier:

https://www.pcgameshardware.de/Retrospektive-Thema-214694/News/Irrtuemer-Intels-10-Gigahertz-und-Nvidias-CineFX-PCGH-Retro-18-November-667403/
Bei dieser Quote musste ich kurz lachen, aufgrund dem Cheftechniker namens Pat Gelsinger :D So kann es gehen, wenn man überoptimistisch in die Zukunft blickt.

Das ergibt keinen Sinn, N3 ist der bessere Prozess und für Intel auch der teuerste. Den für IGPUs zu verschwenden ist aus meiner Sicht völlig sinnentleert. Das werden schon CPU-Chiplets sein, entweder für den oberen High-End-Bereich oder für mobil.

Doch, das macht sehr wohl Sinn: Die GPU-IP und das gesamte Design ist aufgrund von HPG sowieso schon in TSMC Prozessen aufgelegt. Eine iGPU ist einfach HPG dGPU von den EUs her abgespeckt. Und du deutest es schon an: In Mobil will man gute Energieffizienz. Genauso wie für die dGPU Marktführerschaft. Wieso sollte ich hier also etwas anders als bei HPG dGPU nehmen?

OK, jetzt habe ich HPG bei TSMC, Mobile will aufgrund der Effizienz allenfalls auch bei TSMC. Wieso soll ich normale und kleinst iGPUs nicht ebenfalls bei TSMC fertigen? Dann halt mit deutlich weniger EUs, ab Meteor Lake kommt eh alles in zig Chiplets daher. Daher ist eine iGPU im besten Fall auch einfach Chiplet-Tile Re-Use von den grossen HPG dGPUs. Ja, dGPU bräuchte unter Umständen viele Tiles oder mindestens zwei verschiedene Grössen von Tiles für die kleineren GPUs, z.B. 64 EU und 128 EU Tiles. Andererseits zeigt Ponte Vecchio in HPC und andere Intel Folien zum Thema Packaging bei CPUs, wo die Reise hingeht: Viele kleine Chiplets.

Du musst auch sehen, dass die Tiles bei den iGPUs sehr klein sein werden. Intels DG2-512 ist laut Schätzungen ~400mm2 gross in 6nm. Nimmt man dort das Speicherinterface, I/O, Display und so raus und lässt nur noch die EUs drin, bleiben noch etwa 300mm2 übrig (Notiz: Ab Meteor Lake wird all das I/O und Display Zeugs ins Base Tile wandern). Jetzt kommt man bei N3 evtl. auf 2x Scaling (ist sogar recht konservativ geschätzt, evtl. erreicht das N5HPC schon alleine). Somit bleiben noch 150mm2 übrig. Macht man die Tiles 64 EU gross, bleiben gerade mal winzige 20mm2 pro Tile übrig. Du kannst mir jetzt nicht behaupten, dass das jetzt viel kosten wird. 64 EU wären als minimalst Desktop-iGPU genug. Bei 2-3 GHz Takt landet man immer noch bei 2-3 TFlops. Je nachdem geht Intel auch auf 128 EU Tiles. Mit 40mm2 immer noch nicht extrem gross und auch nicht extrem teuer.

Und wie gesagt: iGPUs = Im besten Fall Tile Re-Use von den grossen HPG dGPUs. In diesen Tiles sollten nur die EUs drin sein. Schlussendilich ist das die kosteneffektivste Lösung. I/O, Video Engines und Display Zeugs kommt auf ein separates Die.

Intel kann natürlich immer noch N3 für CPU-Cores verwenden (ich glaube zwar nicht dran). Dass die iGPUs in Zukunft in TSMCs Prozessen und Tiles daherkommt ist für mich allerdings gesetzt.

Edit:
Ich habe mal mit 5x5mm Tiles gerechnet (somit 25mm2 und einiges grösser als oben beschrieben) und man bekommt aus einem 300mm Wafer ~2200...2300 funktionsfähige Tiles (je nach Defect Density von N3). Selbst wenn ein N3 Wafer dann 15k$ kosten sollte, wären das pro Tile gerademal ~7$. Verkraftbar ;)

Bei 4.5x4.5mm und somit ziemlich genau 20mm2 sind es sogar bis zu 2800 Tiles.

CrazyIvan

2022-01-20, 17:33:18

Ich denke auch, ein heterogenes Chiplet mit Big-Little Kernen ergibt keinen Sinn.
Neben 1Big+1Little Chiplet währen auch noch denkbar:
-gestacktes Litle Chiplet
-Little Cores in I/O, also eine APU als I/O die mit IF-Links für weitere BIG-Chiplets ausgestattet ist.

Einige Punkte zu der Thematik:

Ein dediziertes little-CCD bei angenommener Kernzahl von 8 wird vermutlich sehr klein. Es ist also gut möglich, dass man da schnell Pad-limited wird - irgendwo muss ja noch der IF-Link + Stromversorgung untergebracht werden. Wie passend, dass AMD laut SemiAnalysis (https://semianalysis.com/advanced-packaging-part-2-review-of-options-use-from-intel-tsmc-samsung-amd-ase-sony-micron-skhynix-ymtc-tesla-and-nvidia/) bei Zen 4 Fan-out-packaging verwenden wird. Leider komme ich nicht hinter die Paywall, aber üblicherweise ist der Hauptgrund für ein solches Packaging nach meinem Verständnis der, dass man eine Pad-Limitierung vermeiden will.
Dedizierte Dies für jeweils Big und little bedingen in meinen Augen noch ein anderes Problem: Datenlokalität. Wenn bei jedem Wechsel eines Threads von Big zu little oder umgekehrt erst über die IF-Links und das IOD gegangen werden muss, wird das (energietechnisch) sehr teuer. Inter-Thread-Kommunikation ist ein weiteres Problem - aber das hat man heute bei den >=2 CCD SKUs auch bereits.
Deine Variante mit litte-Cores im IOD hat schon was. Damit könnte man im idle und bei minimaler Last die IF-Links und das Big-CCD komplett abschalten und hätte sicher traumhaft niedrigen Verbrauch. Ist halt die Frage, wie lang ein Ramp-Up und die Migration der Threads dauern würde - vermutlich aber mittlerweile kein größeres Problem mehr. Die Anzahl der little-Kerne wäre vermutlich recht stark begrenzt - 4-8 könnte ich mir vorstellen.

Zossel

2022-01-20, 18:15:56

Einige Punkte zu der Thematik:

Dedizierte Dies für jeweils Big und little bedingen in meinen Augen noch ein anderes Problem: Datenlokalität. Wenn bei jedem Wechsel eines Threads von Big zu little oder umgekehrt erst über die IF-Links und das IOD gegangen werden muss, wird das (energietechnisch) sehr teuer. Inter-Thread-Kommunikation ist ein weiteres Problem - aber das hat man heute bei den >=2 CCD SKUs auch bereits.

Ist das der häufigere Fall? Je nach Anwendung und Mondphase kann das IMHO so oder auch anders sein, also dürfte das ziemlich egal sein.

Berniyh

2022-01-20, 20:55:14

Deine Variante mit litte-Cores im IOD hat schon was. Damit könnte man im idle und bei minimaler Last die IF-Links und das Big-CCD komplett abschalten und hätte sicher traumhaft niedrigen Verbrauch.
Ja, ist sicherlich der spannenste Anwendungsfall.
Das IOD ist ja im Grunde dann eine kleinere Variante von Rembrandt (oder dem was danach kommt).
Könnte man auch genau so verkaufen, d.h. als kleine APU für kleinere Laptops oder Office PCs, dann ohne die zusätzlichen Chiplets.
Wobei man das mit dem traumhaft niedrigen Verbrauch sicher etwas einschränken muss.
Man dürfte dieses IOD vermutlich nach wie vor in einer älteren Node produzieren als die anderen Chiplets.
Ob dann noch in GF 14nm/12nm oder 6nm bei TSMC hätte dann halt eben auch signifikante Auswirkungen auf den Leerlaufverbrauch.
Ist halt die Frage, wie lang ein Ramp-Up und die Migration der Threads dauern würde - vermutlich aber mittlerweile kein größeres Problem mehr.
Wieso sollte das ein Problem sein?
Selbst wenn es – völlig übertrieben – eine Sekunde dauern sollte, in wie vielen Szenarien ist das so schlimm? Wenn man die "big" cores wirklich braucht, dann ja meistens auch über einen vergleichsweise längeren Zeitraum (also eher Minuten), da haut das nicht so rein.
Und realistisch betrachtet geht das aber eh viel schneller.
Die Anzahl der little-Kerne wäre vermutlich recht stark begrenzt - 4-8 könnte ich mir vorstellen.

8 Cores brauchste da nicht, 4 reichen vollkommen. Alles drüber ist eigentlich schon übertrieben, dafür hat man ja die anderen Chiplets.
Vermutlich würden sogar 2 Cores schon reichen.

Gipsel

2022-01-20, 21:21:26

Dedizierte Dies für jeweils Big und little bedingen in meinen Augen noch ein anderes Problem: Datenlokalität. Wenn bei jedem Wechsel eines Threads von Big zu little oder umgekehrt erst über die IF-Links und das IOD gegangen werden muss, wird das (energietechnisch) sehr teuer. Inter-Thread-Kommunikation ist ein weiteres Problem - aber das hat man heute bei den >=2 CCD SKUs auch bereits.
Die Überlegungen spielten sicherlich auch bei der Speku eine Rolle:

https://www.notebookcheck.com/fileadmin/Notebooks/News/_nc3/83762_01_amd_ryzen_7000_series_zen_4_up_to_16_cores_vertically_stacked_cache_ful l.png

Paarweise geteilter L2 (jeweils ein Stromspar- und ein Performance-Kern) und geteilter L3 würden das Problem wohl ganz gut minimieren.

Zossel

2022-01-20, 21:39:09

Selbst wenn es – völlig übertrieben – eine Sekunde dauern sollte, in wie vielen Szenarien ist das so schlimm? Wenn man die "big" cores wirklich braucht, dann ja meistens auch über einen vergleichsweise längeren Zeitraum (also eher Minuten), da haut das nicht so rein.
Und realistisch betrachtet geht das aber eh viel schneller.

Ich habe schon Kisten mit 6-stelligen Context-switches/s und run-queues im oberen 2-stelligen Bereich oder auch drüber gesehen, wo sollen da den Minuten herkommen?

Stell dir einfach typische Software vor, die für jeden Pipifax eigene native Threads aufmachen und immer wieder kleines IO macht.

Berniyh

2022-01-20, 22:46:13

Ich habe schon Kisten mit 6-stelligen Context-switches/s und run-queues im oberen 2-stelligen Bereich oder auch drüber gesehen, wo sollen da den Minuten herkommen?

Stell dir einfach typische Software vor, die für jeden Pipifax eigene native Threads aufmachen und immer wieder kleines IO macht.
Das ist doch eine Frage wie man genau die Lastregelung macht.
Je nach Energiesparmodus kann das Chiplet ja länger aktiv bleiben oder schnell reaktivierbar sein (also ggf. nicht den tiefsten Schlafmodus).
Und dann kommt auch noch dazu, dass du ja nicht unbedingt das Chiplet aktivieren musst, nur weil gerade 10 Threads von irgendwas anstehen. Kommt ja schon auch darauf an, wie stark diese 10 Threads die verfügbare Prozessorkapazität auslasten.
Auch 4C können ja 50 Threads schnell abarbeiten, wenn alles Pipifax ist. ;)
Und nicht zuletzt sind ja auch Mechanismen denkbar mit denen Software "zeitnahen Bedarf" an Cores anmelden könnte.

Aber ja, ich rechne ja auch damit, dass das hin und her schalten sehr schnell geht. Generell kann ich mir jedenfalls nicht vorstellen, dass das ein großes Problem ist.
Praktisch jedes Betriebssystem funktioniert super mit 4C.
Und 99.9% der Software auch.
Und für die verbleibenden 0.1% ruft man dann halt die +8C oder +16C Kavallerie.

Zossel

2022-01-20, 22:58:11

Praktisch jedes Betriebssystem funktioniert super mit 4C.
Und 99.9% der Software auch.
Und für die verbleibenden 0.1% ruft man dann halt die +8C oder +16C Kavallerie.

Es geht um Server, nicht um eine Excel-kiste.

Berniyh

2022-01-21, 07:00:53

Im Server ist Powermanagement nicht ganz so kritisch wie im Desktop. Da kann man konservativer runter schalten.
Unter anderem deshalb nutzt AMD ja auch für die IOD bei den Servern eine ältere GF Prozessvariation als beim Desktop.

basix

2022-01-21, 11:13:11

Berniyh

2022-01-21, 11:39:00

Weiss nicht, ob das der Hautpgrund ist. Server ist deutlich kritischer bezüglich Zertifizierung und Validierung. Das will man eigentlich nicht wiederholen, sofern nicht nötig. Darum lohnt sich der Aufwand für diese eher geringfügigen Energieoptimierungen nicht.
Ja, das stimmt, aber es geht ja um die initiale Wahl des Prozesses.
Für den Desktop hat man da eben einen anderen, optimierteren, Prozess gewählt als für die Server.
Was genau die Gründe waren wissen wir nicht genau (vermutlich Durchsatz?), auf jeden Fall waren die paar W nicht so wichtig.

Jedenfalls denke ich, dass es beim Server und Desktop auch bei Zen 4 deutliche Unterschiede im Energiemanagement geben wird.

basix

2022-01-21, 13:46:19

Ja, das stimmt, aber es geht ja um die initiale Wahl des Prozesses.
Für den Desktop hat man da eben einen anderen, optimierteren, Prozess gewählt als für die Server.
Was genau die Gründe waren wissen wir nicht genau (vermutlich Durchsatz?), auf jeden Fall waren die paar W nicht so wichtig.

Ich kann mir gut vorstellen, dass das Server IOD zuerst dran war. Bei Desktop konnte man allenfalls kurzfristiger auf den neuen Node aufspringen (Design, Maske etc. ist ja die selbe).

Berniyh

2022-01-21, 15:12:32

Ich kann mir gut vorstellen, dass das Server IOD zuerst dran war. Bei Desktop konnte man allenfalls kurzfristiger auf den neuen Node aufspringen (Design, Maske etc. ist ja die selbe).
Das ist gut möglich und macht auch irgendwo Sinn, man muss ja schließlich mehr Hürden bzgl. Zertifizierung etc. nehmen.
In jedem Fall scheinen die Leistungsverluste im Idle oder bei Teillast einfach keine so große Rolle spielen und das macht auch irgendwo Sinn.

CrazyIvan

2022-01-21, 18:07:25

Die Überlegungen spielten sicherlich auch bei der Speku eine Rolle:

https://www.notebookcheck.com/fileadmin/Notebooks/News/_nc3/83762_01_amd_ryzen_7000_series_zen_4_up_to_16_cores_vertically_stacked_cache_ful l.png

Paarweise geteilter L2 (jeweils ein Stromspar- und ein Performance-Kern) und geteilter L3 würden das Problem wohl ganz gut minimieren.
Ja, aber das impliziert IMHO die Variante, BIG und little auf das selbe CCD zu packen. Hieß es nicht auch mal, AMD würde große und kleine Kerne womöglich wechselseitig betreiben und das OS bekäme nur die halbe Kernzahl gemeldet?

Charlie hatte hinter seiner Paywall auch spekuliert, AMDs BIG.little wäre "done right". Ist dazu inhaltliches bekannt?

Zossel

2022-01-21, 19:06:29

Charlie hatte hinter seiner Paywall auch spekuliert, AMDs BIG.little wäre "done right". Ist dazu inhaltliches bekannt?

CMT?

Nightspider

2022-01-21, 19:12:45

Ja, aber das impliziert IMHO die Variante, BIG und little auf das selbe CCD zu packen. Hieß es nicht auch mal, AMD würde große und kleine Kerne womöglich wechselseitig betreiben und das OS bekäme nur die halbe Kernzahl gemeldet?

Charlie hatte hinter seiner Paywall auch spekuliert, AMDs BIG.little wäre "done right". Ist dazu inhaltliches bekannt?

Keine Ahnung ob Gipsel sich auf Stacking bezog. Zen4 und Zen5 als Chiplets auf ein L3 Chip stacken (L3 unten) und man hätte extrem gute Core to Core Latenzen und wahrscheinlich noch einen extra großen L3.
Der L3 dürfte nur auch nicht zu breit werden von der Fläche, weil sonst die Latenz wieder hoch geht. Also der "gefaltete" L3 wie bei einem V-Cache Stack mit 2-4 Layern wäre wieder ideal.
Dann wären die Silizium Dummys unten neben dem L3 als Stütze, weil der L3 wahrscheinlich kleiner wäre flächenmäßig als 2 Chiplets.

Ich denke es wird mittelfristig eh darauf hinauslaufen das die Compute Chiplets oben liegen zwecks Wärmeabführung.

Dass das Ganze aber eher teuer und für HPC geeignet wäre als für den Massenmarkt muss ich wahrscheinlich nicht sagen.

Für den Massenmarkt bräuchte man eine günstigere Lösung als das Stapeln von Chips.

Berniyh

2022-01-21, 20:34:00

Ja, aber das impliziert IMHO die Variante, BIG und little auf das selbe CCD zu packen. Hieß es nicht auch mal, AMD würde große und kleine Kerne womöglich wechselseitig betreiben und das OS bekäme nur die halbe Kernzahl gemeldet?
Ähm, wäre das nicht eine ziemliche Platzverschwendung?
bzw. würde man dann nicht eher versuchen Cores zu entwickeln die zwischen big und little schalten können (also quasi einen Stromsparmodus im Kern haben wo sie als little laufen können)?
Da finde ich die Idee mit unterschiedlichen CCDs für big und little (ggf. im IOD) eigentlich spannender.
Zumal ja z.B. 32 little Cores (in einer 64C CPU) auch nur begrenzt viel Sinn machen?

basix

2022-01-21, 22:12:40

CMT?

:D

Zum Thema Big.Little:
Genoa und Bergamo zeigen ja mal, wie bei Zen 4 das aussehen wird. 8C bei Zen 4, 16C bei Zen 4c, jeweils ein separates Chiplet. Bei Desktop wird es garantiert nicht noch andere CCD geben. Im Prinzip ist das also eigentlich gar nicht Big.Little, sondern einfach zwei verschieden-artige CPUs (Geschwister).

Bei Zen 4 Mobile denke ich ebenfalls, dass es auf 8C Zen 4 hinauslaufen wird. Zen 4c ist später dran und die APUs wollen Anfang 2023 released werden. Produktionsstart also im Herbst/Winter 2022. Das passt bezüglich Timeline nicht und bei APUs plant AMD eher etwas konservativ, da man den Release-Termin nicht verpassen will.

Wo es dann interessant werden könnte, ist Zen 5. Hier denke ich aber, dass es nochmals genau gleich laufen wie bei Zen 4 (was mMn sinnvoll wäre). Was aber anders sein könnte: Zen 5 + Zen 5c gemeinsam auf dem Desktop. Bei der APU denke ich, wird es sogar noch interessanter. Hier evtl. nicht 16C Zen 5c sondern nur 8C Zen 5c. Dieses als Teil der monolithischen APU. Und was ist jetzt aber mit Zen 5? Haha, Chiplets. Zen 5 wird bei den dickeren APUs via IFOP angebunden. Hier ist maximale Performance wichtiger und maximale Energieeffizienz nicht ganz so kritisch. Aufgrund der Zen 5c Kerne auf dem Main-Die ist das Ding dennoch sehr effizient.

Und noch genialer wäre aber APU + Desktop = Selbe Chips, einfach mit entsprechenden Chiplets erweitert :D Das vierte Diagram: Big.Little Done Right. Hier als Anmerkung, dass die Chiplets grundsätzlich optional sind. Bei günstigeren SKUs lässt man 1-2 Chiplets weg.
Vorteil der im APU-Die integrierten Cores als auch iGPU: Energieffizienz. Die Chiplets schaltet man nur bei Bedarf aktiv. Desktop / Surfing geht auch auf den kleinen Cores ganz gut. Und bei Mobile kann man 90% der Tasks auf der kleineren GPU laufen lassen.
Wenn ich tippen würde, wäre hier die APU in 4/5nm und die Chiplets dann in 3nm. Vielleicht ist es dann halt "nur" Zen 4c und RDNA3 in der APU und die Chiplets sind dann Zen 5 und RDNA4. Das hätte den Vorteil, dass man die IP nicht auf verschiedenen Prozessen implementieren muss. Zen 4c und RDNA3 nimmt man für die APU einfach aus der Bibliothek und man könnte auch relativ früh mit der Umsetzung anfangen (sehr vorteilhaft bezüglich Timeline). Die 3nm Chiplets mit neuerer Technologie ergänzen dann das ganze.

iamthebear

2022-01-22, 00:06:28

Soweit ich das im Kopf habe ist Zen5 eine Kombination aus den neuen Zen5 Big Cores in 3nm und Zen4C in 5nm. Zen5C würde dann erst mit Zen6 kombiniert werden. Allerdings frage ich mich, ob das aus Sicht der Verlustleistung sehr sinnvoll ist.

robbitop

2022-01-22, 09:00:38

Zossel

2022-01-22, 09:00:41

:D

Ich finde das gar nicht sooooo abwegig.

HOT

2022-01-22, 10:43:08

Ich würde vermuten, sie packen jeweils einen Zen5 und 4c CCX in den CCD. 1x CCX mit 8x Zen5 und einen CCX mit 16x Zen4c.
Mit TSMCs N3 sicherlich machbar. Insbesondere da die 4c ja relativ winzig werden - ich kann mir gut vorstellen, dass man für Zen5 die Zen4 cores auch etwas mehr im L2 und/oder L3 beschneiden wird.

2x CCX pro CCD gab es mit Zen 2 ja zuletzt. Auch wenn das nur jeweils 4C waren.
Glaub ich nicht. Bei AMD wird es immer nur 4 Zen4c als little-Cores geben, die machen das auf keinen Fall wie Intel. Und ich vermute, man wird eher das IOD in N4 fertigen (oder vielleicht sogar 4LPP), um die 4 Littles da hineinzubringen (und die iGPU). Das kann man ja nach wie vor mit 1 oder 2 Zen5 CCDs kombinieren, welche dann ja N3 sein sollten.

robbitop

2022-01-22, 10:56:36

robbitop

2022-01-22, 11:03:14

Ich finde das gar nicht sooooo abwegig.

CMT hat aber nichts mit big little zu tun. Das wäre eine Option, um mehr MT Leistung pro Transistor zu generieren. Der Name ist natürlich durch Bulldozer verbrannt. Das Auskommen war aber eher der uArch als dem CMT Prinzip zu verdanken. Mit einer wesentlichen besseren uArch kann das eine Option bleiben. Halte ich für Zen aber mittelfristig unwahrscheinlich. Man hat wohl allem aus der Zeit erstmal den Rücken gekehrt und fokussiert sich jetzt auf Execution anstatt Experimenten mit Risikokompomente.

basix

2022-01-22, 11:17:04

Die Idee beim IOD ist es, dass IO kaum schrumpft und man günstige, verfügbare, abgeschriebene Prozesse nutzen kann.
Da wieder einen Haufen Logik reinzutun und wieder einen dann immer noch top Prozess nutzen erwcheint mir die wesentlichen Vorteile des Chiplet Konzeptes zu torpedieren.

Wenn ich wetten müsste würde ich deshalb entschieden dagegen wetten. Entweder im gleichen CCD oder es gibt ein separates Zen4C extra CCD.
Das könnte man ja zB wiederverwerten von Bergamo(?). Kann aber nicht muss - kann auch ein neues sein in N4 mit besser passender Konfiguration.

Ein N3 CCD mit nur 8 Cores Zen 5 erscheint mir als könnte das schon Pad limitiert sein. Sind ja von heute aus gesehen 2 major nodejumps. Natürlich kann es sein, dass Zen 5 ein Monster in Bezug auf Transistoren wird und das eben dann doch reicht um nicht padlimitiert zu sein. Oder aber man hat absichtlich noch kleinere Chiplets für noch bessere Ausbeute und nutzt modere Pad IP.

So oder so IMO wird Zen4c entweder ein extra ccd haben oder sich das CCD mit Zen 5 teilen. IOD finde ich wie gesagt unwahrscheinlich.

Man würde beim IOD N4 verwenden. Mit weniger Metal Layers usw. sollte das günstiger werden. Aber erst ab Zen 5. Zen 4 wird noch einen älteren Node nutzen. Dieses N4 IOD könnte man auch für Zen 6 weiterverwenden.

An eine Kombination von Big und Little Cores auf einem CCD glaube ich aus einem Grund nicht: Epyc. Hier macht dieser Mix keinen Sinn (ausser jemand hat da mehr Ahnung als ich und weiss da was anderes) und man wird für Server und Desktop weiterhin die gleichen CCD nutzen wollen. Dann eher zwei verschiedene Chiplets, 1x Big und 1x Little.

Bei Zen 5 kann es auch gut auf 12C pro CCD gehen. Geht auch ;)

Berniyh

2022-01-22, 11:34:21

Ist es denn eigentlich bestätigt, dass das Zen 4 IOD N7, N6 (oder sonstige Abwandlungen von N7) verwendet?
Nicht, dass die das dann doch wieder bei Global Foundries produzieren lassen. ^^

robbitop

2022-01-22, 11:54:24

Auch mit weniger metal layers ist die kapazität und die Kosten wird N4 doch eine ganz andere Nummer als es dann N7 oder N10 oder N12 sein wird. IO Zeug schrumpft kaum.

Zu little bei Epyc: würde Epyc nicht gerade von viel MT profitieren?
Wenn nicht zeigt das IMO mehr in die Richtung dass es entweder einen weiteren CCD in neu geben kann oder man ie Bergamo CCDs die dann ja schon 1 Jahr in Serie gefertigt werden einfach nimmt. Ist doch eine elegante Lösung.

basix

2022-01-22, 12:17:44

Ich finde das gar nicht sooooo abwegig.

CMT wurde vor allem mit einem beschrieben: Maximaler Througput bei minimaler Fläche (https://scalibq.wordpress.com/2012/02/14/the-myth-of-cmt-cluster-based-multithreading/). Mit einem breiten Core und SMT wirst du im Endeffekt auch hier landen bei gleichzeitig aber höherem ST Durchsatz. Ein Zen 1 Core machte mit weniger Integer Pipelines mehr Durchsatz. Über ILP versucht man sowieso, möglichst alle Pipelines gleichzeitig auszlasten. Ich sehe einfach keinen wesentlichen Vorteil durch CMT. CMT würde nur Sinn machen, wenn es in einem Core eine Ressource gäbe, welche typ. nur zu 50% ausgelastet wird, auch mit SMT. Aber wenn du sowas im Design hast, wieso nicht diese Ressource auch nur auf 50% Breite auslegen?

Wesentlich interessanter fand ich vorhin, als ich was bezüglich AMDs Skybridge gesehen hatte. Das haben sie als "Ambidextrous" oder "Beidhändig" beschrieben.
AMD looks to merge its x86 and ARM designs via Project SkyBridge that utilizes a common on-chip fabric.
Was, wenn das AMD wieder ausgräbt, einfach mit zwei unterschiedlich ausgestalteten x86 Cores? Wie gesagt, ich erwarte eher, dass die zwei Cores auf zwei unterschiedlichen CCD daherkommen. Aber Skybridge scheint genau die Integration von zwei verschiedenen Cores in einem Chip gewesen zu sein.

Ist es denn eigentlich bestätigt, dass das Zen 4 IOD N7, N6 (oder sonstige Abwandlungen von N7) verwendet?
Nicht, dass die das dann doch wieder bei Global Foundries produzieren lassen. ^^

Könnte sein, dass einfach das Epyc IOD in 12LP+ daherkommt? Desktop auf N7/6 aufgrund der iGPU? Auf dem Desktop könnte 12LP+ fürs IOD auch kommen, dann wäre die iGPU aber ein separates Chiplet.

Edit:
Auch mit weniger metal layers ist die kapazität und die Kosten wird N4 doch eine ganz andere Nummer als es dann N7 oder N10 oder N12 sein wird. IO Zeug schrumpft kaum.
Klar ist 4nm deutlich teurer. Mein Vorschlag wäre aber, dass dann Mobile + Desktop die gleiche "Base-APU" teilen, mit minimalst Konfiguration. PCIe Lanes, Display-Anschlüsse, USB usw. kann man je nach Markt beschneiden. Diese "Base-APU" hätte faktisch 100% Yield und könnte man bei Zen 5 wie auch Zen 6 verwenden. Das amortisiert die Kosten über eine lange Zeit. Und man hätte mit 4nm und eben minimalst CPU/GPU eine hohe Energieeffizienz bei Desktop und Web-Browsing Tasks. Zudem ist diese "Base-APU" gleichzeitig Standalone betriebsfähig. Mit evtl. 120mm2 wäre das eine sehr kompakte und günstige APU im unteren Preissegment, vor allem wenn man mit den neuen Cores auf N3 umsteigt, wird N4 im Vergleich deutlich günstiger sein. Ausserdem muss man auch sehen, dass AMD mit N5 und N3 seine Fertigungskapazität effektiv verdreifachen könnte. Ihre Chips wären dann über drei Prozesse verteilt (IOD, CCD, APU, V-Cache, ... = N3, N4/5, N6/7) und die Konsolen bleiben auf 7nm. Für Epyc IOD dann noch GloFo 12LP+ obendrauf. Damit limitert die Kapazität von TSMC nicht die Herstellmenge von Epyc.

Bei GPUs kann man irgendwann evtl. ebenfalls das "IOD" auslagern und komplett auf Chiplets umschwenken. Bei GPUs wäre ein IOD in 6nm mehr als ausreichend, da muss ja nur PCIe und etwas Display und Video Zeugs rein. Ebenso die Geschichte mit den MCD, wo der IF$ und allenfalls auch die GDDR6 PHY drauf sind, das ist in 6nm mehr als ausreichend.

Im Endeffekt also optimal ausgenutzte Fertigungskapazitäten über 4 Fertigungsprozesse (TSMC N3, N4/5, N6/7, GloFo 12 LP+). Und das ohne wesentliche Nachteile bei Energieffizienz oder sonstigen Performance kritischen Eigenschaften. Und das bis und mit Zen 5 (allenfalls Zen 6) und RDNA4. Das wäre doch mal ein Schlachtplan :D

Zu little bei Epyc: würde Epyc nicht gerade von viel MT profitieren?
Wenn nicht zeigt das IMO mehr in die Richtung dass es entweder einen weiteren CCD in neu geben kann oder man ie Bergamo CCDs die dann ja schon 1 Jahr in Serie gefertigt werden einfach nimmt. Ist doch eine elegante Lösung.

Ja, Epyc würde von MT profitieren. Die Frage ist, ob man dies in einem einzelnen Chip zusammenfassen muss oder eben separat wie bei Genoa und Bergamo mehr Sinn macht. Deswegen: 1x Zen 5 + 1x Zen 4c CCD = Ja, passt. Zen 5 + Zen 4/5c auf einem CCD = Eher nein

Berniyh

2022-01-22, 12:32:43

Stimmt, am Desktop könnte N6 wegen der GPU Sinn machen.

basix

2022-01-22, 12:41:34

Naja, 12LP+ in Kombination mit einem iGPU Chiplet fände ich irgendwie geiler ;)

Das IOD kann dann 2-3 IFOP bereitstellen.
- 2 IFOP = 16C oder 8C + iGPU
- 3 IFOP = 24C oder 16C + iGPU

2 IFOP sehe ich dann ehrlich gesagt als wahrscheinlicher an. Einen 16 Kerner wird man wohl meistens mit einder dGPU betreiben. Evlt. einer 6500XT? :D

amdfanuwe

2022-01-22, 12:44:56

Ist es denn eigentlich bestätigt, dass das Zen 4 IOD N7, N6 (oder sonstige Abwandlungen von N7) verwendet?
Nicht, dass die das dann doch wieder bei Global Foundries produzieren lassen. ^^
Da ist gar nichts bestätigt.
Hier werden auch ein paar wichtige Sachen vergessen:
-Stacked Dies
-EFB
-Fan Out Packaging
-AMD kann sich mehr diversität leisten

Genoa wird noch wie Milan aufgebaut sein, halt mit 4x3 Chiplets nebeneinnander.
Ich denke nicht, dass bei Bergamo der gleiche I/O verwendet wird. Würde mit 4x2 16Core Chiplets 4 IF-Links brachliegen lassen und die 16 Cores Chiplets hätten nur die halbe Bandbreite wie bei Genoa ein 8 Core Chiplet.

Ich bin mir nur sicher, dass AMD alle Möglichkeiten simuliert und das für den jeweiligen Anwendungsfall optimale in Bezug auf Leistung, Verbrauch, Kosten wählt.
Bin schon gespannt darauf, was uns bei Bergamo und RDNA3 erwartet.

HOT

2022-01-22, 12:53:28

Ist es denn eigentlich bestätigt, dass das Zen 4 IOD N7, N6 (oder sonstige Abwandlungen von N7) verwendet?
Nicht, dass die das dann doch wieder bei Global Foundries produzieren lassen. ^^
Das Problem dabei ist die iGPU, denn Raphael hat interne RDNA2-Grafik. Das müsste man für GloFos 12LP+ backporten, damit man die Grafik in den I/O-Die bringt oder ein separates mini-Chiplets designen.

Das ist übrigens auch noch ne Möglichkeit bei Zen5:

- 1-2 Zen5 CCDs
- 1 IOD 12LP+
- 1 mini-Chiplet in N4 mit iGFX und 4 Zen4c.

N4 soll ja für N5 sowas wie N6 für N7 sein, eine günstige und kaum leistungsfähigere Variante.

Auch mit weniger metal layers ist die kapazität und die Kosten wird N4 doch eine ganz andere Nummer als es dann N7 oder N10 oder N12 sein wird. IO Zeug schrumpft kaum.

Zu little bei Epyc: würde Epyc nicht gerade von viel MT profitieren?
Wenn nicht zeigt das IMO mehr in die Richtung dass es entweder einen weiteren CCD in neu geben kann oder man ie Bergamo CCDs die dann ja schon 1 Jahr in Serie gefertigt werden einfach nimmt. Ist doch eine elegante Lösung.

Intel macht das doch auch nicht. Das wird sich schlichtweg für Serverzeug nicht lohnen. Entweder nur Bigs oder nur Littles (wie bei Zen4c eben). Ist doch auch logisch - entweder du hast hier einen Anwendungszweck für nur big-Cores oder für nur little-Cores, aber eben nicht beides. Deshalb ist Bergamo ja auch ein anderes Produkt als Genoa. Bergamo hat halt nur littles, Genoa nur bigs.

Übrigens hat sich AMD ja auch offen gegen Intels little-Strategie gestellt. Das heißt natürlich nicht, dass AMD keine little-Cores zu Effizienzverbesserung verbaut, aber AMD wird das sicher nicht aus Leistungsgründen tun, deshalb halte ich mehr als 4 Zen4c in Desktop/Mobile-CPUs für generell sinnlos. Dass das als Effizienzbooster kommen wird in Desktop/Mobile, und mobile erst Chiplets-Designs überhaupt ermöglicht sollte klar sein.

robbitop

2022-01-22, 13:13:51

Andere machen das auch nicht ist aus meiner Sicht kein ausreichendes Argument. Dann gäbe es nämlich keine Innovation. Irgendwer macht irgendwas immer als erster. ;)

Was die GPU angeht: die Frage ist, wie viel Mehrwert diese am Desktop wirklich bringt. Wenn ein IOD von 12 LP auf N4 gewechselt wird um eine IGP zu nutzen, die am Ende ggf. gar nicht genutzt wird oder dessen Mehrwert vom Markt nicht voll bezahlt wird, ist das ggf. gar nicht die sinnvollste Nutzung von Waferfläche.

Zudem gibt es ja auch für den Marktbereich, der IGPs braucht bereits APUs. Ob es jetzt wirklich lohnt, nur um das zusammenfassen zu wollen, das IOD auf N4 umzustellen? Tja - muss man sehen. Ich bin da - zumindest mittelfristig - skeptisch.

Eine ganz ganz kleine IGP würde den meisten wahrscheinlich auch ausreichen. Etwas, was gängige Videos beschleunigt und minimalste 3D Leistung hat. Das geht auch in 12LP und auch winzig klein (wenige mm²). Man schaue sich midrange und low end smartphone SoCs in 12, 16 und 20 nm an. Ich kann mir gut vorstellen, dass für die reinen Office PCs quasi null 3D Leistung gebraucht wird, solange das Featurezeug nicht völlig veraltet ist (moderne Codecs, modernes I/O, mindestmaß an GPU Featureset). Wer bessere APUs braucht, kann die Dinger nehmen, die richtigen APUs nehmen.

amdfanuwe

2022-01-22, 15:03:30

Eine ganz ganz kleine IGP würde den meisten wahrscheinlich auch ausreichen. Etwas, was gängige Videos beschleunigt und minimalste 3D Leistung hat. Das geht auch in 12LP und auch winzig klein (wenige mm²). Man schaue sich midrange und low end smartphone SoCs in 12, 16 und 20 nm an. Ich kann mir gut vorstellen, dass für die reinen Office PCs quasi null 3D Leistung gebraucht wird, solange das Featurezeug nicht völlig veraltet ist (moderne Codecs, modernes I/O, mindestmaß an GPU Featureset). Wer bessere APUs braucht, kann die Dinger nehmen, die richtigen APUs nehmen.
Da erscheint die 6500XT wieder in einem ganz anderem Licht.
Wenn eh die CPU/APU zum Video gucken reichen, braucht die dGPU keine Codecs. Da lassen sich mit einer 6500XT schon günstige Einstiegsrechner bauen. 8GB Varianten wären da mittels Clamshell auch möglich. RDNA3 ohne Codecs?
Mal sehen, wie sich das Portfolio gestaltet, wenn Corona und Mining mal vorrüber ist und wieder ein normaler Markt herrscht.

Berniyh

2022-01-22, 16:13:23

Da erscheint die 6500XT wieder in einem ganz anderem Licht.
Wenn eh die CPU/APU zum Video gucken reichen, braucht die dGPU keine Codecs. Da lassen sich mit einer 6500XT schon günstige Einstiegsrechner bauen. 8GB Varianten wären da mittels Clamshell auch möglich. RDNA3 ohne Codecs?
Mal sehen, wie sich das Portfolio gestaltet, wenn Corona und Mining mal vorrüber ist und wieder ein normaler Markt herrscht.
Das Dekodieren mittels dedizierten ASIC ist wesentlich effizienter als über die CPU. Da macht das Argument mit den APUs wesentlich mehr Sinn.

basix

2022-01-22, 16:44:29

Übrigens hat sich AMD ja auch offen gegen Intels little-Strategie gestellt. Das heißt natürlich nicht, dass AMD keine little-Cores zu Effizienzverbesserung verbaut, aber AMD wird das sicher nicht aus Leistungsgründen tun, deshalb halte ich mehr als 4 Zen4c in Desktop/Mobile-CPUs für generell sinnlos. Dass das als Effizienzbooster kommen wird in Desktop/Mobile, und mobile erst Chiplets-Designs überhaupt ermöglicht sollte klar sein.

8C Zen 4c hätte den Vorteil, dass es auch Standalone eine schlagkräftige APU wäre. Ohne Chiplets. Ich meine, Zen 4c könnte in der Grössenordung Zen 2/3 von der Grösse des Cores daherkommen und evtl. nur 8MByte L3$. Das in 4/5nm wäre winzig, so ~25mm2. Klar, jetzt kann man das nochmals halbieren. Das dann aber als Standalone APU zu verwenden? Gibt ja fast nichts mehr <6C heutzutage. Und Zen 5 kommt ~Q1/2024. 8C würde ausserdem ein 6C Salvage erlauben. Was macht man bei 4C? Das ganze Die wegwerfen? 2/3C und somit dann sehr schwach? Ich bleibe dabei, 8C würde mehr Sinn machen. Mit 6C könnte ich mich noch anfreunden (+4C Salvage). 4C sind zu schwach.

Eine ganz ganz kleine IGP würde den meisten wahrscheinlich auch ausreichen. Etwas, was gängige Videos beschleunigt und minimalste 3D Leistung hat. Das geht auch in 12LP und auch winzig klein (wenige mm²). Man schaue sich midrange und low end smartphone SoCs in 12, 16 und 20 nm an. Ich kann mir gut vorstellen, dass für die reinen Office PCs quasi null 3D Leistung gebraucht wird, solange das Featurezeug nicht völlig veraltet ist (moderne Codecs, modernes I/O, mindestmaß an GPU Featureset). Wer bessere APUs braucht, kann die Dinger nehmen, die richtigen APUs nehmen.

Schau dir mal Renoir/Lucienne/Rembrandt an. Vieles was einer GPU zugeordnet ist, aber nicht zur Shader Engine gehört, benötigt einiges an Fläche. Video En-/Decoder, Display Engines, Display PHY, ...

Ab RDNA3 ist die kleinste Einheit 4 CU schwer. Mit 8CU hätte man schon eine sehr anständige iGPU. Wie gesagt, wir reden von 2024 und dass die APU auch ohne externe Chiplets "überlebensfähig" wäre. Momentan wissen wir noch nicht, wie gross die RDNA3 CUs werden, deswegen gehe ich mal von RDNA2 aus: 2 CU sind ~5mm2 gross. Skaliert 4nm perfekt mit 2x Faktor (N5HPC ist bei AMD mit 2x Density angegeben), wären 8CU also gerade mal 10mm2 gross. Lohnt es sich hier, die 5mm2 noch wegzustreichen und ein Standalone Betrieb stark zu beschneiden? Klar, 4 CU @ 3.0 GHz sind immer noch 1.5 TFlops und zum anzeigen von Bildern usw. ist das noch genug. Wenn man aber bedenkt, dass der Rest ausserhalb der CUs ebenfalls einiges an Fläche beansprucht, lohnt sich ein drastische kastrieren der CUs mMn nicht: https://youtu.be/UdkYz5Jp-kw?t=1754 Und eben, bis dahin haben wir 2024

Wir hätten also folgende Möglichkeiten (exkl. Display Controller, VCN und Display PHY; aber inkl. restliche GPU Komponenten wie L2$ und Graphics/Compute Command sowie Geomentry Engine). Die Flächenangaben habe ich anhand er Angaben von Locuza (im oben verlinkten Video) auf N4 umgerechnet.
- Zen 4c + RDNA3
- 4C + 4CU = ~30mm2
- 4C + 8CU = ~35mm2
- 6C + 4CU = ~36mm2
- 6C + 8CU = ~41mm2
- 8C + 4CU = ~42mm2
- 8C + 8CU = ~47mm2

Jetzt kann man überlegen, wie und wo der Chip eingesetzt werden würde. 4C+4CU wären als minimalst Lösung überall brauchbar, aber ohne Chiplets sehr schwach auf der Brust.

amdfanuwe

2022-01-22, 21:14:29

Das Dekodieren mittels dedizierten ASIC ist wesentlich effizienter als über die CPU. Da macht das Argument mit den APUs wesentlich mehr Sinn.
Klar, Raphael mit iGPU ist dann ja auch ne APU.

robbitop

2022-01-22, 21:32:26

@basix
Das geht aber wie gesagt kleiner. Siehe smartphone SoCs. Ich kann mir gut vorstellen, dass auf einem sehr großen Teil der PCs nie gespielt wird. Windows anzeigen, Office, browsen, Videos. Das kann man mit wenigen mm2 machen. (Mali, IMG, Adreno die sind winzig - dann ist RDNA dafür einfach zu fett) Besser als nichts und für viele die bloß eine igp brauchen reichts. Und wer spielen will kauft eine dgpu dazu. Ich kann mir gut vorstellen, dass das ein gewisser Mehrwert für die reinen Ryzen CPUs wäre und damit 80% der Leute zufrieden stellt.

basix

2022-01-23, 07:10:13

Naja, solche ARM IP wirst du bei den AMD Chips aber nicht sehen ;)

6C+8CU wär mMn der beste Kompromiss aus Leistung, Fläche und SKU-Salvaging:
- Desktop = 4C+6CU
- Mobile = 4/6C+6/8CU

robbitop

2022-01-23, 07:59:23

Wahrscheinlich nicht. Aber AMD lizensiert jetzt selbst IP für mobile. (rdna2 an Samsung) Da wird der Kram sicherlich ordentlich entschlackt worden sein.
Ob man wirklich sowas vorsieht: keine Ahnung. Ggf nicht - aber man könnte. :)
Man könnte auch einfach Mali lizensieren - kostet angeblich sehr sehr wenig. Und selbst Intel hat eine Zeit lang IGPs lizensiert und zwar von IMG für die ULP Atoms IIRC. Ist schon >10 Jahre her. Serie 5 IIRC.

basix

2022-01-24, 12:19:08

Mal etwas Speku zu Zen 4 und nicht Zen 5 :D

Zen 4 EPYC IOD
- Zen 2/3 = 416mm2, 128x PCIe 4.0 Lanes, 8CH-DDR4, 8x IFOP
- Zen 4 = 397mm2, 128x PCIe 5.0 Lanes, 12CH-DDR5, 12x IFOP

Beim Zen 2/3 IOD bestehen ~40% aus IO-Fläche (grobe Schätzung).
- ~16% = PCIe
- ~16% = DDR
- ~8% = IFOP

Im grossen und ganzen ist das Zen 4 IOD 1.5x breiter als sein Vorgänger, mit Ausnahme der PCIe Lanes. Die entsprechenden Anteile des Chips würde also ebenfalls um 1.5x ansteigen:
- ~16% = PCIe
- ~24% = DDR
- ~12% = IFOP
- Total IO Chipfläche = 16+24+12% = 52%
- Total Chipfläche = 60% + 52% = 112% (nicht berücksichtigt: zusätzliche digitale Logik für Speicher- und IFOP-Kanäle)

Bei Zen 2/3 wird das IOD in GloFo 14HP 14LPP/12LP gerfertigt. Bei Zen 4 wird über TSMC N6 und GloFo 12LP+ spekuliert. Meine Tendenz: 12LP+

Hier eine Übersicht zu den GloFo Prozessen:
https://www.anandtech.com/show/14905/globalfoundries-unveils-12lp-technology-massive-performance-power-improvements

14HP vs. 12LP+
- 0.60x Power
- 1.32x Performance
- 0.72x Area

Annahmen:
- Die 60% Fläche, welche kein I/O beinhalten, skalieren perfekt mit dem Area Scaling
- Die 60% wachsen aufgrund von zusätzlichen Speicher- und IFOP Controllern sowie anderen neuen Features um Faktor 1.2x an
- IO skaliert gar nicht mit 12LP+ (keine Flächenreduktion)

Flächenrechnung #1:
- Digital = 60% * 1.2 * 0.72 = 52%
- Analog = 52%
- Digital + Analog = 104%
- 397mm2 / 416mm2 = 95.4%

Hmm, OK, jetzt fehlen noch 10%. Das ist so nahe dran, dass ich an eine Möglichkeit in 12LP+ glaube. Ich habe 0% Analog Scaling angenommen. Ich vermute, dass wird in Realität etwas besser sein. Und AMDs IO-IP ist relativ gross, wenn man es mit Intel vergleicht. Evtl. optimieren sie hier generell die Speichercontroller und PCIe PHY. AMD hat mittlerweile deutlich mehr Erfahrung mit IODs und auch den GloFo Prozessen.
Unter Umständen wächst der digitale Anteile zudem auch nur um 1.1x an. Die Speichercontroller und die zugehörigen Caches sind nicht so extrem gross. Und die IFOP Controller sind generell recht klein. Ist am Schluss eher die Frage, um wie viel die Tag Directories und das IO Root Hub grösser werden. Hält es sich hier in Grenzen, könnte es auch so aussehen:

Flächenrechnung #2:
- Digital = 60% * 1.1 * 0.72 = 48%
- Analog = 52% * 0.9 = 47%
- Digital + Analog = 95%
- 397 / 416mm2 = 95.4%

Voilà, könnte passen.

12LP+ hätte den grossen Vorteil, dass man nicht bei TSMC fertigt und keine wertvolle N6 Kapazität belegt. Ausserdem hat AMD ihr WSA mit GloFo bis 2025 verlängert und das Volumen um 1 Mia. Dollar angehoben.

Zen 4 Desktop
Auch bei Zen 4 Desktop halte ich 12LP+ immer noch für eine gute Lösung. Zen 4 und Zen 5 könnten darauf aufsetzen. Was dann allerdings sein müsste:
- iGPU wäre ein Chiplet in TSMC N6 (RDNA2 + VCN + Display) --> ~60mm2 mit 6-8 CU
- Allenfalls 3x IFOP Links auf dem IOD --> 1x für die iGPU

Bei Zen 2/3 war das Desktop IOD ~30% des Server IOD, bei 25% der PCIe/DDR Kanäle. Kann man einen ähnlichen Faktor auf Zen 4 übertragen:
- 397mm2 / 6 = 66mm2
- 66 * 1.2 = ~80mm2

Für CPUs ohne iGPU wäre das sehr schlank (8-24C). Inkl. iGPU kämen noch ~60mm2 in TSMC N6 obendrauf.

Die Kombination aus 80mm2 12LP+ mit 60mm2 N6 wird vermutlich günstiger sein als ein monolithisches ~120mm2 IOD in TSMC N6. Und AMD bekäme damit weitere Vorteile:
- TSMC N6 Kapazität wird geschont
- 24C Variante von Zen 4 möglich (32C mit Zen 4c? D)
- iGPU kann bei Bedarf bei Zen 5 nach RDNA3 geupdated werden. Base IOD bleibt identisch

Zen 4c CCD
Bein Zen 4c CCDs könnte es folgendermassen aussehen:
- 16C
- "1.0x" oder "1.5x" IFOP Links (8 Chiplets an 8 Links; oder 8 Chiplets an 12 Links)

Das hier interessante ist die IFOP Konfiguration:
- Bei "1.0x" kann man Server IOD Salvaging betreiben --> Kostenvorteil?
- Bei "1.5x" verliert man keine Bandbreite und die Reduktion bezüglich Performance/Bandbreite wird eher klein sein

Ich tendiere hier auf den "1.5x" Konfiguration
- Server IOD Salvaging kann man auch ohne "1.0x" IFOP machen, wenn halt <12 CCDs eingesetzt werden
- Kein Performance- / Bandbreiten-Verlust, was man bei maximalem Throughput im Server ja eher nicht will.

Auf Desktop bezogen würden hier wiederum die 3x IFOP Links auf dem IOD Sinn machen, da dadurch 2x Zen 4c Chiplets ohne Bandbreitenverlust ans IOD angebunden werden können. Am Desktop hätte man dann allenfalls total 3 verschiedene Substrate / Packages:
- 2x Zen 4 CCD + iGPU --> 6-16C + optionale iGPU
- 3x Zen 4 CCD --> 20-24C
- 2x Zen 4c CCD --> 24-32C

HOT

2022-01-24, 12:26:22

Öhm nein, das IOD wird in 12LP gefertigt, nachdem die ersten Chargen in 14LPP gefertigt wurden. 14HP ist ein vollkommen anderer Prozess.

Aber ich stimme dir zu, man wird auch mMn 12LP+ verwenden für das IOD (alternativ ginge übrigens auch 22FDX oder 12FDX), die iGPU könnte man in N6 fertigen, das Die ist ja so winzig dann, dass man auch einen teureren Prozess verwenden könnte.

basix

2022-01-24, 12:35:05

Ok, dann halt 14LPP/12LP anstatt 14 HP (SOI wäre wirklich ein wenig Overkill für ein IOD ;)). Die Densities der IOD sind allerdings anhand 14LPP evaluiert (Annahme war, das 14HP wohl identisch ist) und beeinflussen die Rechnungen deshalb nicht.

HOT

2022-01-24, 13:43:47

Jo des stimmt. Die 12LP ist ja nur der Prozess, das Design ist für 14LPP.

Zossel

2022-01-24, 16:47:57

CMT hat aber nichts mit big little zu tun. Das wäre eine Option, um mehr MT Leistung pro Transistor zu generieren. Der Name ist natürlich durch Bulldozer verbrannt. Das Auskommen war aber eher der uArch als dem CMT Prinzip zu verdanken. Mit einer wesentlichen besseren uArch kann das eine Option bleiben. Halte ich für Zen aber mittelfristig unwahrscheinlich. Man hat wohl allem aus der Zeit erstmal den Rücken gekehrt und fokussiert sich jetzt auf Execution anstatt Experimenten mit Risikokompomente.

Der Name ist sicherlich verbrannt, aber das ein kleiner "Core" Teile/Infrastruktur des großen Cores (z.b. Cache) nutzt wenn es nicht lohnt diesen zu aktivieren könnte unter den Gesichtspunkt Fläche gegenüber kompletten kleinen Cores zu sparen aus meiner Sicht Sinn machen.

BavarianRealist

2022-01-24, 17:59:38

Jo des stimmt. Die 12LP ist ja nur der Prozess, das Design ist für 14LPP.

GF hat ja in letzter Zeit viele neue Designs lizensiert für seinen 12LP+: DDR5, PCI5, etc.

Zudem dürften auch andere Elemente optimiert zur Verfügung stehen, sodass ich schon erwarte, dass Vieles in 12LP+ etwas dichter ausfällt. Mit 397sqmm ist das Ding zudem kaum kleiner als vorher, sodass das schon hin kommen dürfte. 6nm oder Ähnliches schließe ich hier völlig aus, weil das Die womöglich zudem über die über 6000 Pins pad-limited sein dürfte.

basix

2022-01-24, 18:23:33

GF hat ja in letzter Zeit viele neue Designs lizensiert für seinen 12LP+: DDR5, PCI5, etc.

Hast du da einen Link dazu?

Edit:
Gefunden https://news.synopsys.com/2020-09-24-Synopsys-and-GLOBALFOUNDRIES-Collaborate-to-Develop-Broad-Portfolio-of-DesignWare-IP-for-12LP-FinFET-Solution,1

Linmoum

2022-02-02, 09:32:34

I just confirmed something that made my jaw hit the floor. Hard to think straight with the magnitude of this tech. Story hopefully tomorrow but it may take a bit longer to write. Server CPU stuff, nuclear bomb dropped on the competition. Damn. No hints, sorry.
https://mobile.twitter.com/CDemerjian/status/1488704894844424193

Na mal schauen, ob Charlie wieder zu viel in etwas hineininterpretiert oder doch nicht.

Edit: Da steht jetzt natürlich noch nicht direkt AMD, aber irgendwo schon gelesen, dass es wohl was FPGA-mäßiges sein dürfte. Nach der Übernahme von Xilinx auch irgendwie erwartbar und logisch.

HOT

2022-02-02, 09:41:15

Hast du da einen Link dazu?

Edit:
Gefunden https://news.synopsys.com/2020-09-24-Synopsys-and-GLOBALFOUNDRIES-Collaborate-to-Develop-Broad-Portfolio-of-DesignWare-IP-for-12LP-FinFET-Solution,1

Damit steigt die Wahrscheinlichkeit für 12LP+ für alle IODs enorm finde ich. Das ergibt auch Kostensicht einfach enorm Sinn das so zu machen.

basix

2022-02-02, 22:19:13

https://mobile.twitter.com/CDemerjian/status/1488704894844424193

Na mal schauen, ob Charlie wieder zu viel in etwas hineininterpretiert oder doch nicht.

Edit: Da steht jetzt natürlich noch nicht direkt AMD, aber irgendwo schon gelesen, dass es wohl was FPGA-mäßiges sein dürfte. Nach der Übernahme von Xilinx auch irgendwie erwartbar und logisch.

Was ist mit Apple M2 Max^4? :D

Damit steigt die Wahrscheinlichkeit für 12LP+ für alle IODs enorm finde ich. Das ergibt auch Kostensicht einfach enorm Sinn das so zu machen.

Interessant sind bei weiterführenden Links auch solche Sachen: Via HBI findet man ungefähr raus, was HBM3 ungefähr an Energieffizienz verglichen mit HBM2 liefert ;)
https://community.cadence.com/cadence_blogs_8/b/breakfast-bytes/posts/hbi-a-new-standard-to-connect-your-chiplets

Laut Folie ~1.8x effizienter bei pJ/bit

MR2

2022-02-03, 00:01:54

"Neben dem Ryzen 7 5800X3D, der schon bald ansteht, stehen auch die Ryzen-7000-CPUs mit Zen 4 im Fokus. Die Desktop-CPUs mit Ryzen 7000 sollen eine "deutliche Leistungssteigerung im Vergleich zu unseren aktuellen Ryzen-Prozessoren" bieten. Dazu wird der 5-Nanometer-Zen-4-Kern mit Speicher- und IO-Technologien der nächsten Generation im neuen AM5-Sockel kombiniert, so AMD. Man sei weiter "auf dem besten Weg, sie in der zweiten Hälfte des Jahres 2022 auf den Markt zu bringen"."

Schreibt pcgh.
Quelle:
https://seekingalpha.com/article/4483324-advanced-micro-devices-inc-2021-q4-results-earnings-call-presentation

Unicous

2022-02-03, 21:18:05

Charlie Demerjian scheint wohl wirklich AMD gemeint zu haben, jedenfalls hat er einen Artikel namens

Genoa has a game-changing tech under the hood
Killer app for some very big markets
gepostet.

Hier noch der Teaser

AMD’s upcoming Genoa CPU has a feature SemiAccurate thinks will change the game. For some markets we feel it will bring a step change in TCO for customers that Intel can’t match.

Der aber auch nicht viel verrät, außer dass Genoa wohl die Preise für einige Anwendungen nochmals drücken wird und Intel da nicht herankommt. Demerjian neigt zwar gerne zu Übertreibung (um seine Artikel zu verkaufen.:freak:) aber dieses ominöse Feature hat scheint ihn ja doch einigermaßen aus dem Hocker gehauen zu haben.

Linmoum

2022-02-03, 21:26:40

Wird bestimmt nicht lange dauern, bis das seinen Weg über die Paywall findet. Aber gut, dass es nicht Intel sein würde, war irgendwie klar. ;D

Unicous

2022-02-03, 22:16:41

Ich bin um ehrlich zu sein immer wieder verwundert wie wenig von den Artikeln durchsickert. Hier und da passiert es mal, dass jemand den Inhalt postet, aber normalerweise kommen Details über die Demrjian schon Monate bzw. Jahre vorher Bescheid wusste erst viel später und meist durch andere unabhängige Quellen zum Vorschein. Und er behält auch meist Recht mit seinen Behauptungen. Seine arrogante und auch zum Teil aggressive Art ist natürlich jetzt nicht jedermanns Sache, aber immerhin trifft er nur sehr selten daneben.

Ich ging um ehrlich zu sein nicht von AMD aus. Ich hatte schon schlimme Vorahnungen, dass Apple irgendetwas versucht, oder irgendeine verrückte ARM/RISC-V Geschichte.

HPVD

2022-02-03, 22:34:09

noch ein tease:

If you understand the markets it is aimed at, this should floor you. If you don't, it probably doesn't seem like much.

https://twitter.com/CDemerjian/status/1489319405146288128

Unicous

2022-02-03, 22:40:43

Naja, übliches Geplänkel von Demerjian.

Der wahre Schatz ist das hier:

https://pbs.twimg.com/media/FKskO8JXwA0BoyW.jpg:freak:

HPVD

2022-02-03, 22:51:52

jaaa :-D

was könnte er meinen?
es muss ja schon etwas recht spezielles aber breit einsetzbares sein.

Ein erster Gedanke ohne jeglichen Einblick hinter die Paywall:
vielleicht kann man mit dem Chip etwas machen wie mit Nvidias GA100: den kann man in mehrere GPUs aufteilen und hat dann in der Cloud die Möglichkeit das zu konfigurieren/anzubieten was der Kunde will.

Bei CPUs könnte das dann eine "freie" Zuordung der Speicherbandbreite (=RAM Kanäl) zu den Kernen sein:
Also bei 96 Kernen und 12 RAM Kanälen etwas wie
32 Kerne mit 10 RAM Kanälen und
64 Kerne mit 2 RAM Kanälen
anbieten zu können...

amdfanuwe

2022-02-03, 22:59:35

Dann fangen wir mal mit dem raten an:
AMD hat 3D stacking Technik.
Aktuell wird nur Cache gestacked.
Letztens gab es ein Patent zu einem Cache inklusive DL Einheiten für GPU. Könnte genausogut auf CPU gestacked werden, wie es auch im Patent erwöhnt wird.
Dann könnte man noch ein FPGA stacken. Bestimmte Algorithmen in FPGA abzubilden statt mit einigen tausend CPU Cyklen zu berechnen, würde ordentlich beschleunigen und effizienter sein.
Oder alles zusammen? Cache + FPGA basierten DL einheiten, die sich auch für andere Zwecke umprogrammieren lassen.
War doch auch schon im Gespräch, dass mehrere Cache Dies gestackt werden können.
Muss ja nicht nur Cache auf den Dies sein.

Edit:
Natürlich beteht auch die Möglichkeit, dass anstelle von CPU Chiplets FPGA Chiplets angebunden werden.
Ebenso könnte der I/O Die freies FPGA enthalten. Xilinx hat ja Erfahrung mit großen Chips mit viel I/O.

Edit 2:
Vielleicht geht es aber auch nur um PCIe 5 /CXL " with Breakthrough Memory Expansion"
Neben 12TB RAM noch ein paar TByte RAM über PCIe angebunden könnte für einige schon interessant sein.
Weiß da einer mehr darüber, was konkret "Breakthrough Memory Expansion" bringen könnte?
https://blocksandfiles.com/2021/10/07/samsung-sw-virtualises-cxl-attached-memory/
So richtig erschließt sich das mir nicht. CXL stammt ja von Intel und Samungs Software dazu ist Open Source. Wo soll da der Bombige Vorteil für Genoa sein?

https://hothardware.com/Image/Resize/?width=1170&height=1170&imageFile=/contentimages/NewsItem/56743/content/big_amd_epyc_genoa.jpg

mboeller

2022-02-04, 09:32:12

TCO; Total Cost of Ownership

Hört sich für mich eher nach was finanziellem an und nicht nach einer neuen Technik.
Vielleicht ja etwas um ARM-Servern den Wind aus den Segeln zu nehmen?

amdfanuwe

2022-02-04, 09:47:14

Jede Technik die effizienter arbeitet oder weniger Platz benötigt senkt die TCO.

Edit:
ARM Server wurden geplant und entwickelt als Intel noch ein Monopol hatte und Mondpreise verlangte. Ob sich solch eine Entwicklung noch lohnt oder ob man besser bei AMD ein Semicustom Design beauftragt, bleibt abzuwarten.

TheAntitheist

2022-02-04, 10:32:05

96Cores ist ja nicht schlecht, aber wie wir Wissen, kaufen Unternehmen meistens die viel kleineren CPUs. Da muss der große Sprung kommen. Ich hoffe AMD arbeitet schon am ZEN Nachfolger!

mboeller

2022-02-04, 11:38:24

Jede Technik die effizienter arbeitet oder weniger Platz benötigt senkt die TCO.

es soll sich ja um einen "Step-Chance" handeln, also was wirklich wichtiges für Server.

- Kühlung?
- Cores/Socket? Hat ja, soweit ich weiß immer noch einen Einfluss auf die Lizenzkosten
- Sicherheit? In letzter Zeit geht es ja wieder mehr in Richtung 1 Kunde pro Core. Vielleicht erlaubt Genoa hier wieder xx-Kunden pro Core bei völliger Sicherheit
- ??? was komplett anderes

Also was technisches, dass bei Servern kostenseitig einen massiven Einfluss hat, sich aber ansonsten nur wenig "bemerkbar" macht. So war das mit dem finanziellen Aspekt gemeint

basix

2022-02-04, 11:48:13

Aufteilung einer fetten CPU in mehrere Kleine? Quasi eine HW-Virtualisierung? Oder gibt es das schon / keinen Nutzen zu OS-Virtualisierung?

Edit:
https://www.semiaccurate.com/2022/02/03/genoa-has-a-game-changing-tech-under-the-hood/

Zossel

2022-02-04, 11:56:41

Aufteilung einer fetten CPU in mehrere Kleine? Quasi eine HW-Virtualisierung? Oder gibt es das schon / keinen Nutzen zu OS-Virtualisierung?

Meinst du SMT?

basix

2022-02-04, 12:11:00

Nee. Das ist nicht das was ich meine. GA100 kann man sozusagen in 7 GPUs aufsplitten. Bei CPUs passiert das aber vermutlich schon lange in ähnlicher Form. In Form von Cores via SMT sicher, in Form von "ganzen" CPUs weiss ich nicht.

Bezüglich dieser TCO Step-Change Geschichte und CXL:
https://www.semiaccurate.com/2020/11/10/cxl-consortium-outs-cxl-2-0/
Was ist mit Memory Pooling? Genoa soll zwar nur CXL 1.1 unterstützen, aber evtl. mit ein paar der wichtigsten CXL 2.0 Features angereichert? Memory Pooling wäre für Hyperscalers sicher interessant. Evtl. hat das IOD einen solchen CXL-Switch integriert oder es gibt es separat, evtl. via Xilinx FPGA?

HPVD

2022-02-04, 13:56:35

basix

2022-02-04, 15:11:11

siehe gestern :wink:
https://www.forum-3dcenter.org/vbulletin/showthread.php?p=12911455#post12911455

:up:

Nightspider

2022-02-04, 15:29:38

Kühlleitungen in den Silizium-Dummys für Direkt-Die Wasserkühlung bei Genoa? :D

Nakai

2022-02-04, 15:45:45

Frei programmierbare Instruktionen mittels FPGA-Logik?

Ramius

2022-02-07, 14:33:09

Frei programmierbare Instruktionen mittels FPGA-Logik?
Für was braucht man so etwas?

Dr.Doom

2022-02-07, 14:39:40

Für was braucht man so etwas?Vmtl. zum effizienteren Minen mit CPUs.

amdfanuwe

2022-02-07, 14:58:40

Der Befehlssatz eines Prozessors umfasst nur einige Grundbefehle. Im Laufe der Zeit wurden Prozessoren um Hardwarebeschleuniger wie FPU, MMX, SSE, AVX, Crypto etc. erweitert.
Für manche Berechnungen braucht man hunderte Befehle in einer Funktion. Diese Funktion könnte man oft in einem FPGA programmieren und dort in wenigen Takten abarbeiten lassen.
Z.B.: Suche nach dem größten Wert in einem 100Byte Array.
Herkömmlich müssen alle 100 Bytes in einer Schleife durchsucht werden.
Legt man das Array im FPGA an, kann dieses in einem Takt den größten Wert liefern.

Anstatt also im Programm oft benötigte Funktionen mit vielen CPU Befehlen auszuführen, programmiert man das FPGA mit dieser Funktion und kann diese dadurch schneller und effizienter berechnen.

Zossel

2022-02-07, 16:11:55

Z.B.: Suche nach dem größten Wert in einem 100Byte Array.
Herkömmlich müssen alle 100 Bytes in einer Schleife durchsucht werden.
Legt man das Array im FPGA an, kann dieses in einem Takt den größten Wert liefern.

Und wie kommen die Daten da hin? Und wie kommen die Daten wieder zurück?

Zossel

2022-02-07, 16:13:37

Ich pack das mal in diesen Thread, diese Flanke sollte AMD nicht vernachlässigen:

https://www.phoronix.com/scan.php?page=news_item&px=AMD-OSF-2022

amdfanuwe

2022-02-07, 16:22:04

Und wie kommen die Daten da hin? Und wie kommen die Daten wieder zurück?
Ebenso wie die Daten in die FPU, AVX oder anderen "Special Function" Einheiten kommen.

mboeller

2022-02-07, 18:28:18

ich kann mir nicht vorstellen, das AMD wirklich ein FPGA in ihre Server-CPUs integriert.
Sowas ähnliches gab es schon mal und es hat sich nicht durchgesetzt.

Stretch Inc hat eine Software-Configurable CPU herausgebracht und ist, soweit ich mich erinnere untergegangen.

https://www.design-reuse.com/news/7733/stretch-software-configurable-processor-processor-embed-programmable-logic-within-processor-developers-automatically-configure-processor-c-c.html

By embedding powerful programmable logic within a processor, Stretch has uniquely combined the best qualities of GPPs, DSPs, ASPs (application-specific processors), FPGAs and ASICs-creating an off-the-shelf processor chip that can cost-effectively address virtually any compute-intensive application. With Stretch's new processors, embedded system designers can bypass painful trade-offs between flexibility, performance, cost and time-to-market.

Opprobrium

2022-02-07, 18:57:49

Ich pack das mal in diesen Thread, diese Flanke sollte AMD nicht vernachlässigen:

https://www.phoronix.com/scan.php?page=news_item&px=AMD-OSF-2022

Joa. AMD hat sich die letzten Jahre einen ganz guten Ruf in der Linux Gemeinde erarbeitet, insbesondere im direkten Vergleich mit nVidia

Dank Pluton sind sie grad dabei das wieder einzureißen, daher wohl auch solche Artikel.

basix

2022-02-07, 19:06:31

ich kann mir nicht vorstellen, das AMD wirklich ein FPGA in ihre Server-CPUs integriert.

Dem schliesse ich mich an.

Bei FPGAs stimmt die Energieeffizienz typischerweise einfach nicht. ASICs haben hier einen riesigen Vorteil. Und Custom Befehle werden auch nie wirklich Custom sein. Ansonsten hast du fast unendlich Komplexität
- Wer definiert wie die HW-Befehle? Entwickler? Compiler?
- Wie läuft das Zeugs parallel zur fixen Pipeline? Timing? Scheduling? Register?
- Wie sollen Hochsprachenbefehle von z.B. C++ oder Python nach VHDL oder Verilog übersetzt werden?
- Wie automatisiere ich das Auslegen der Datenpfade (wie richtig von Zossel angemerkt), welche nichts mit den Instruktionen oder dem Algorithmus an sich zu tun haben. Muss ich das machen? Oder macht das ein Compiler mit etwas Magie?
- Wie löst man Timing Probleme auf Gate Level? Muss ich die beachten oder ist hier ebenfalls ein Compiler zuständig?

...und man hätte eine grosse Sicherheitslücke und Fehlerquelle mehr.

Im Endeffekt wird man als SW-Designer zum HW-Desiger genötigt. Oder man baut irgendwelche Bibliotheken und Compiler mit vorgefertigten HW-Blöcken auf, welche dann aber auch nicht die maximale Effizienz erreichen werden. Und man darausschliessend fast schon am Punkt ist, dass man gleich die bestehende CPU-Pipeline nehmen kann. Bei FPGAs muss man schon noch einige Sachen mehr beachten als bei reinem SW-Code. Und aufgrund dieser Spezialisierung wäre es also vor allem für folgendes interessant: Für Spezialfälle und Spezialisten. Und letztere können das gleich auf vollwertigen FPGAs umsetzen. Für 98% der Fälle gibt es schon relevante Instruktionen in den CPUs. Und oftmals liegt es nicht an fehlenden Instruktionen, sondern dass die SW einfach schlecht geschrieben ist (architekturiell oder nur schlecht umgesetzt).

Es macht mMn wenig Sinn, das auf den selben Chip mit einer x86 CPU zu giessen. Zudem weiss ich nicht, ob FPGAs nicht deutlich einfachere Prozesse nutzen können, das schlussendlich vor allem ein grosses SRAM-Array. So sehr ich die Eleganz einer frei programmierbaren HW auch verstehe, so schwer scheint mir hier der praktikable Einsatz zu sein.

Eine Art Umprogrammierung / Weichenstellung in der Pipeline kann sehr wohl sinnvoll sein. Aber nur im Rahmen dessen, was der Entwickler dieser HW auch vorgesehen hat. Allenfalls kann AMD oder Intel per Micro Code Update Befehle und Instruktionen nachreichen, OK. Aber sicher nicht, dass der Benutzer hier was selbst einspeisen könnte. Und auch bei Microcode stelle ich mir die Sicherheitsfrage. Befehle und Funktionn deaktivieren etc., klar. Aber neue hinzufügen? Auweia. HW-Designs von CPUs sind nicht umsonst eine riesen Herausforderung fürs Debugging. Mit variablen Instruktionen: :freak:

amdfanuwe

2022-02-07, 19:06:58

Sowas ähnliches gab es schon mal und es hat sich nicht durchgesetzt.

War nicht X86 kompatibel und wenn man schaut welche Leistungssprünge x86 damals noch gemacht hat, kamen sie wohl auch mit der Leistung nicht hinterher.

Sind irgendwann von MaxLinear übernommen worden und haben dort ihre Nische gefunden.
https://www.maxlinear.com/stretchinc

Wenn AMD einen FPGA Block mit in die CPU setzt, muß man halt abwarten wie sich das entwickelt.

AVX 512 war ja auch eine Wette seitens Intel die bisher noch nicht aufgegangen ist.
3DNow von AMD konnte sich damals auch nicht als Befehlssatzerweiterung durchsetzen.
Neue Erweiterungen müssen halt immer erstmal in einer CPU implementiert werden. Der Markt entscheidet ob es angenommen wird oder irgendwann wieder verschwindet.

Zossel

2022-02-08, 07:33:35

96Cores ist ja nicht schlecht, aber wie wir Wissen, kaufen Unternehmen meistens die viel kleineren CPUs.

Sind Hyperscaler keine "Unternehmen"?

basix

2022-02-08, 20:38:16

Bezüglich Zen 4, 4c und beyond habe ich mich gefragt, wie man das CCD jeweils sinnvoll aufbauen könnte und wie der Interconnect / Ringbus zwischen den Cores gestaltet sein könnte. Dabei kam mir folgender Gedankengang:
- Zen 3 nutzt einen Rinbus+ (laut AMD)
- Anandtech und weitere spekulierten dann über einen bisected Ring (Link (https://www.anandtech.com/show/16930/does-an-amd-chiplet-have-a-core-count-limit))
- Bei Intel sieht man gut, dass Ringbusse bis ca. 10 Stops gut skaliern und danach nicht mehr
- Was macht man nun aber bei Zen 4c mit 16C pro CCD? Zwei 8C CCX mit jeweils halbiertem Cache und Betrieb wie bei Zen 2? Ist nicht so toll, da man den IFOP-Link viel stärker belastet (Bandbreite, Latenz).
- Was macht man bei Zen 5 mit vermutlich >8C?
- Was bei Zen 5c bei evtl. noch mehr Kernen?
- Hmm, OK, Ringbus ist OK. Aber wieso nicht bei 8 Ringstops bleiben?
- Und pro Ringstop können bei Bedarf mehr als ein Kern aufgeschaltet werden?
- Vorteile: Max. 8 Ringstops (Latenz), max. 2 Hops zu jedem Core (Latenz), Anzahl Verdrahtungen zwischen Kernen und Ringstops explodiert nicht sondern bleibt mehr oder minder konstant (Stromverbrauch), grundlegende Struktur und Aufbau sowie Kapazität des CCD sowie L3-Caches kann identisch bleiben (SW-Support)
- Bei mehr Cores skaliert man einfach die Breite des Ringbusses

Wie das aussehen könnte, habe ich mir mal aufgezeichnet (siehe Anhang):
- L3-Cache Grösse bleibt jeweils fix auf 32 MByte begrenzt. Da SRAM fast nicht mehr skaliert, will man hier eher nicht weiter rauf gehen. Lieber mehr Logik und somit Cores aufs CCD packen.
- Für viele Anwendungen ist 32 MByte genug (sind auch bei 16C immerhin noch 2 MByte/Core). CCD sollte somit bei ~70...100mm2 bleiben (Zen 3 bis und mit Zen 5c CCDs), obwohl man die Anzahl Cores stetig erhöht
- Für zusätzlichen Cache gibt es V-Cache als Option (z.B. total 96 MByte pro CCD, optional auch mehr mit 2-hi / 4-hi V-Cache)
- 32 MByte passen auch schön zu 8, 16, 32 Cores
- Bis und mit vermutlich Zen 6 sollten 16C, beziehungsweise 32 Cores bei Zen 6c, wohl auch mehr als genug Breite für zukünftige CPUs bieten. Bei Genoa+ mit 12 IFOP-Kanälen liegen so 192-256 Cores drin. Bei 280W TDP sind das gerademal ~1W pro Core. Und es sind 3-4x so viele Cores wie bei Zen 3.

Edit:
2. Fassung der Grafiken mit einer etwas sinnvolleren Verlinkung (kürzere Übertragungsstrecken durch Vermeidung unnötigem Traffic über lange Verbindungen)

Zossel

2022-02-08, 21:18:23

- Was bei Zen 5c bei evtl. noch mehr Kernen?

Vielleicht eine richtige Fabric (non-blocking) mit mehreren Ports zum Cache und mehr L2 (um die höhere Latenz durch die Fabric zu kompensieren) , die Fabric säuft allerdings Strom. Profitieren Fabrics von kleineren Prozessen?
Und in 5nm würde ich auch mehr Cache (48M) auf dem Die erwarten.

basix

2022-02-08, 21:25:17

Wie gesagt: Mehr Cache = Grössere Chiplets. Und für irgendwas hat man noch V-Cache. Viel Cache ist für viele Anwendungen wohl Perlen vor die Säue. Beim L2$ wird man bei Zen 4 zumindest aber eine Erhöhung von 512kB auf 1MB sehen.

Profitieren Fabrics von kleineren Prozessen?
Weiss ich zuwenig Bescheid darüber. Prinzipell vermutlich eher wenig, wenn die Distanz zwischen den einzelnen Komponenten nicht kleiner wird.

Der_Korken

2022-02-08, 21:57:06

- Hmm, OK, Ringbus ist OK. Aber wieso nicht bei 8 Ringstops bleiben?
- Und pro Ringstop können bei Bedarf mehr als ein Kern aufgeschaltet werden?
- Vorteile: Max. 8 Ringstops (Latenz), max. 2 Hops zu jedem Core (Latenz), Anzahl Verdrahtungen zwischen Kernen und Ringstops explodiert nicht sondern bleibt mehr oder minder konstant (Stromverbrauch), grundlegende Struktur und Aufbau sowie Kapazität des CCD sowie L3-Caches kann identisch bleiben (SW-Support)

Das zeichnet sich so leicht, aber ist das nicht ein wenig geschummelt? Wenn man so leicht mehrere Cores an einen Hop schaltet, warum hat AMD das nicht schon bei Zen 3 gemacht und mit vier Hops ein vollständiges Netz als Topologie genommen? Eventuell würde sowas gehen, wenn sich die Kerne am selben Hop auch den L2 teilen so wie Intel das bei Gracemont-Clustern gemacht hat. Allerdings würde das den L2 stark verlangsamen, wenn er groß genug für 2 Kerne ist und doppelte Bandbreite liefern muss.

Bei der Variante mit 16 und 32 Kernen muss man sich vor allem auch Gedanken um die Geometrie machen. Wenn man die Kerne in zwei Spalten untereinander anordnet, wird der Chip mit mehr Kernen immer länglicher. Wenn du zusätzlich den L3 pro Kern reduzierst, hast du in der Mitte irgendwann einen lang gezogenen Cache-Streifen mit hohen durchschnittlichen Distanzen zwischen den Slices. Ich könnte mir bei >8 Kernen auch andere Topologien vorstellen. Intel verwendet bei den HEDT-Modellen ein Mesh. Allerdings waren die Latenzen von Skylake X hier relativ schlecht. Man könnte eventuell wieder auf 4er CCX zurückgehen, zwischen diesen aber ein Netzwerk aufbauen. Das wäre dann so ähnlich wie bei IBM, d.h. jedes CCX hat einen eigenen L3 für seine vier Kerne, bei Bedarf können die anderen drei CCX (bei 16 Kernen) als L4 fungieren, sodass man die Kommunikation aus dem CCD heraus minimiert. Oder man nimmt deine Idee mit mehreren Kernen an einem Hop, aber ordnet Kerne und Cache anders an, sodass man in der Mitte einen möglichst quadratischen Cache-Block hat und die Kerne drumherum am Rand (hab mal was mit Paint gekritzelt :freak:).

basix

2022-02-08, 22:20:31

Klar, sowas geht auch und ist vermutlich günstiger, da die Distanzen zwischen den Cores als auch Ringbus-Hops minimiert werden :up: Eine grundsätzlich etwas ablänge Form wird man wohl aber beibehalten wollen, wenn man sich den Aufbau von Epyc anschaut.

Ob es leicht ist bei mehreren Cores pro Ringstop? Weiss ich nicht. Ein Ringstop müsste dann ja eine Art Crossbar oder sowas sein.

HOT

2022-02-08, 22:42:30

Bei Zen4 wird man sicherlich die gleiche Topologie wie bei Zen3 verwenden, Zen4c dann 2 Kerne pro Hop hört sich ebenfalls sehr plausibel an, dann hätte man recht simpel ein 16C-Chiplet. welches ja "angekündigt" wurde, dann ja mit 16 Threads. Ich würde aber sogar sagen, dass sich dann 2 Zen4c auch einen L2$ teilen und es sich hier um ein 2C-Modul mit 2 Zen4c handelt.
Aber für Zen5 würd ich da so nicht spekulieren, denn wer weiss, wieviele Chiplets und Stacks dort verwendet werden. Wir müssen uns nur MTL angucken, wie das aussehen wird, bei AMD kann das durchaus noch komplexer werden, kommt eben darauf an, in welchen Mengen sowas produziert werden kann. Bis 24 vergeht allerdings noch ein bisschen Zeit.

basix

2022-02-08, 22:54:23

Zu Zen 5 gibt es zumindest Gerüchte nach 192C/256C. Da wäre eine Verdopplung der Kerne pro Chiplet naheliegend, bei selbem IOD wie bei Zen 4: https://www.pcgameshardware.de/AMD-Zen-Architektur-261795/News/Epyc-mit-bis-zu-256-Kernen-und-600-Watt-cTDP-1382521/

Pirx

2022-02-09, 07:43:40

Gibts irgendwelche Termine zu Genoa/Zen4 (Vorstellung,...)?

w0mbat

2022-02-09, 10:43:39

AMD hat beim conference call gesagt, zweites Halbjahr. Mehr wissen wir offiziell nicht.

Kann von Juli bis Dezember alles sein. Zen2 kam im Juli, Zen3 im Dezember.

basix

2022-02-09, 20:37:03

Vermutlich wird eher früh in H2/2022 angepeilt. DDR5 und dessen Verfügbarkeit sowie Preise spielen aber auch eine Rolle.

Pirx

2022-02-10, 07:46:49

Ich dachte, Genoa/Server kommt eher, als Desktop, aber was ich so lese, kommt das eher noch später, als Ryzen 7000.

w0mbat

2022-02-10, 09:04:34

Im Server-Bereich wurde vor kurzem erst Milan-X gelaunched, während Zen3D im Desktop wohl nur ein Produkt bekommt. Ich denke, Zen4 werden wir im Spätsommer oder Herbstanfang sehen.

Wie schon von basix erwähnt hat AMD verlautbart, dass auch die DDR5 Preise bzw. Verfügbarkeit eine Rolle spielen. D.h. wenn DDR5 im Sommer noch Mangelware ist, eher später.

r3ptil3

2022-02-11, 10:32:52

Bisschen spekulieren und fantasieren:

Vorstellung von Zen4 zur Computex in Mai 2022?
https://i.ibb.co/gtnK9TW/amd.png

https://wccftech.com/amd-ryzen-7000-zen-4-desktop-cpu-am5-platform-launch-earlier-than-expected/

MSABK

2022-02-11, 11:10:03

Hmm, warum sollten sie? Wollen sie Intel früher kontern? Ist Zen4 doch nicht schnell genug?

Linmoum

2022-02-11, 11:10:43

H2 2022 für "Zen4" bezieht sich ja auch nicht nur spezifisch auf Server oder Desktop.

Würde halt auch dahingehend passen, dass man Desktop schon im Juli/August launcht und Genoa halt erst im November. Dann passt Zen4=H2 2022 ja immer noch.

r3ptil3

2022-02-11, 11:32:47

Hmm, warum sollten sie? Wollen sie Intel früher kontern? Ist Zen4 doch nicht schnell genug?

Schau dir den Trend an: Verkaufszahlen, Klicks in den Shops, wonach die Leute suchen, Verkaufsprognose von Intel in diesem Segment und ganz besonders das Launchdatum von Zen3 (wie lange ist das schon her)?

Der 5800X3D deutet ja schon daraufhin, dass ein Refresh schon überfällig war, zudem ist die CPU trotz eines möglichen frühen Zen4 Launches, sehr geschickt positioniert. Gute Gaming-Leistung auf dem Niveau eines 12700k und dazu noch passend auf Uralt-Mainboards.

Ich war mir zu Beginn auch relativ sicher, dass man einen Zen4 nicht vor Oktober/November 22 sehen wird, aber das ergibt wenig Sinn. Irgendwann zwischen Juli und September 22 wird wohl Zen4 im Handel sein.

Linmoum

2022-02-11, 11:36:59

Der Trend ist, dass AMD immer mehr Marktanteile in den relevanten Märkten (Server/Mobile) holt, auch und gerade mit Zen3 von Ende 2020.

Und Milan-X gibt es ja auch erst seit kurzem. Nur weil man bisher Ende 2022 vermutet hat, heißt das nicht, dass AMD umgedacht hat. Vielleicht war es intern schon immer frühes Q3 für erste Zen4-Produkte.

Der_Korken

2022-02-11, 11:38:43

Ursprünglich hatte man sogar angenommen, dass Zen 4 gemäß der 15-Monatskadenz bereits ihm Frühling 2022 kommt. Und dass Alder Lake erst nach Zen 4 verfügbar sein würde, weil Intel mal wieder zu optimistisch mit ihren Launch Dates war :freak:.

Dann hat AMD afaik aber irgendwann (vermutlich um Zen 3 Launch herum) gesagt, dass sich Zen 4 wegen Corona etwas verzögert. Die Gerüchte gingen dann von Ende 2022 aus, während Zen 5 angeblich bereits ein Jahr später kommt.

Aber ja, AMD täte gut daran sich nicht zu viel Zeit zu lassen. Ohne Alder Lake stünde man mit Zen 3 natürlich weiterhin bestens da im Desktop und Mobile.

robbitop

2022-02-11, 11:39:39

Man darf nicht vergessen, dass AM5 auch für Rembrandt gebraucht wird (und der ist ja bereits vorgestellt). Dass die Boards in Fertigung sind, sagt nicht zwangsläufig was über Zen 4 aus.

MSABK

2022-02-11, 11:46:38

Rembrandt habe ich total vergessen im Desktop, da freue ich mich mega. Ddr5+RDNA2 wird eine mega coole APU.

amdfanuwe

2022-02-11, 12:21:03

Habe mich vor ein paar Jahren auch auf neue Produkte gefreut.
Wollte vom 1600X + 480XT auf 3600 + 5xxx umstellen.
Ich warte immer noch auf eine GPU zu akzeptablem Preis.
Ist zwar schön, dass es die 6500XT ab 239€ gibt, hat für mch aber keinen Mehrwert.
Ich freue mich erst wieder, wenn das Zeug auch im Warenkorb liegt.

VooDoo7mx

2022-02-11, 12:25:45

Man darf nicht vergessen, dass AM5 auch für Rembrandt gebraucht wird (und der ist ja bereits vorgestellt). Dass die Boards in Fertigung sind, sagt nicht zwangsläufig was über Zen 4 aus.

Endlich mal einer der mitdenkt. :up:

Rembrandt wird wohl im Desktop auch als Ryzen 7000 vermarktet und kommt in Q3 22 zusammen mit AM5.(Cezanne kam auch erst Q3 21 auf Desktop)
So wie es aussieht sind wohl die ersten Rembrandt Notebooks auch erst ab April verfügbar und AMD will wohl erst mal den Mobile Markt versorgen.
Zen4 dann Q4 mit homöopathischer Verfügbarkeit und hohen Preisen. :ugly:

Linmoum

2022-02-11, 12:47:41

Rembrandt ist aber trotzdem nicht Zen4.

w0mbat

2022-02-11, 12:56:53

Hmm, warum sollten sie? Wollen sie Intel früher kontern? Ist Zen4 doch nicht schnell genug?
Ich verstehe nicht wie du von einem Zen4 launch in dem Zeitraum, den AMD schon lange angekündigt hat, auf "Ist Zen4 doch nicht schnell genug?" kommst? Wie ist das dein Gedankengang?

AMD sagt sein einer Weile "2022" und es wurde konkreter mit "2H 2022". Jetzt soll er, laut Gerüchten, Anfang 2H 2022 kommen und du so "OMG WARUM???" ;D

Wenn schon ein 5800X3D den 12900K in Spielen schlagen soll, wird Zen4 wohl eher nicht langsamer sein, oder?

nordic_pegasus

2022-02-11, 12:58:08

Der 5800X3D deutet ja schon daraufhin, dass ein Refresh schon überfällig war, zudem ist die CPU trotz eines möglichen frühen Zen4 Launches, sehr geschickt positioniert. Gute Gaming-Leistung auf dem Niveau eines 12700k und dazu noch passend auf Uralt-Mainboards.

umso früher der Release-Zeitraum von Zen4 laut Gerüchten rückt und gleichzeitig der 5800X3D weiterhin nicht gelauncht ist, umso weniger sehe ich den Sinn in dieser CPU.

Natürlich wird der 5800X3D der Schwanengesang für AM4 sein. Aber dann wäre auch ein theoretischer 5950X3D als ultimative AM4 CPU logisch gewesen. Wer jetzt noch bewusst in AM4 investiert, will auch längerfristig nicht auf DDR5/AM5 oder Intel upgraden.

Wenn jetzt wirklich schon im Mai Zen4 angekündigt wird mit 5GHz Game-Boost und 5GHz+ SingleCore-Boost, was soll dann bitte ein 5800X3D mit 4.5GHz Game-Boost dagegen ausrichten. V-Cache ist nice, aber dann nehme ich doch lieber den Takt- und Architektur-Vorteil von Zen4 anstatt nochmal in AM4 zu investieren.

Btw.: wird es eigentlich auch direkt Zen4 + V-Cache geben?

amdfanuwe

2022-02-11, 13:12:55

Rembrandt wird wohl im Desktop auch als Ryzen 7000 vermarktet
Nö. Rembrandt ist und bleibt 6xxx.
Phoenix ZEN4 Anfang 2022 wird dann die 7000er APU.

r3ptil3

2022-02-11, 13:17:00

@nordic_pegasus

Der 5800X3D holt diejenigen Kunden ab, die kein neues Board + RAM kaufen wollen/können.

Für dich ist Zen4 vielleicht gut zum aufrüsten, aber ein neues Mainboard inkl. RAM wird für viele alleine aus Kostensicht eine Hürde darstellen.

Und ja, AMD hat auf den 3D Cache bereits angedeutet diesen in ihrem "Werkzeugkasten" zu haben. Wird wohl aber nur fällig, wenn sowas gegen Intel notwendig werden wird, ggf. für einen Zen4 Refresh.

amdfanuwe

2022-02-11, 13:51:35

ggf. für einen Zen4 Refresh.
Unlogisch.
Für Server wird das Chiplet eh gebraucht. Wenn die Ressourcen vorhanden sind und sich ein entsprechender Mehrwert erzielen läßt, wird das auch direkt angeboten. Wenn auch nicht über alle SKUs.
Letztendlich geht es um Gewinnmaximierung.

r3ptil3

2022-02-11, 13:55:45

Was direkt angeboten? Der 3D Cache wird in den ersten Zen4 Desktop Modellen nicht vorhanden sein.

Linmoum

2022-02-11, 14:03:05

Der wird in den ersten Modellen vorhanden sein. Schon alleine, damit der Abstand zum 5800XD größer ist.

Die Frage ist sicher nicht ob, sondern schlicht welche SKUs.

Nightspider

2022-02-11, 17:14:46

Ich frage mich aber noch ein bisschen warum AMD zuerst Consumer bedienen sollte anstatt den lukrativeren HPC Markt.

Nur das ein paar Teile von Genoa (IO-Chiplet?) noch nicht ganz fertig sind, käme mir da in den Sinn.

Linmoum

2022-02-11, 17:32:23

Warum hat AMD mit Zen zuerst Conusumer bedient?
Warum hat AMD mit Zen2 zuerst Conusumer bedient?
Warum hat AMD mit Zen3 zuerst Conusumer bedient?

;)

Server war bisher immer später dran.

amdfanuwe

2022-02-11, 17:33:51

Die Verifikation für HPC ist viel aufwändiger. Die Kunden brauchen dann auch noch mal Monate bis die Tauglichkeit für ihr System verifiziert ist und größere Bestellungen rausgehen.
Bei Consumer reicht es, wenn Windows halbwegs rund läuft.

Nightspider

2022-02-11, 17:36:07

Hat AMD nicht schon Monate vorher Rome und Milan ausgeliefert?

Hab ich mir da jetzt etwas falsch gemerkt?

Leonidas

2022-02-11, 17:43:16

Ich schätze, diese Vorab-Auslieferungen waren immer nur dazu da, damit Großkunden ihre eigenen Validierungen starten konnten. Sprich, kleine Stückzahlen und kaum gedacht für den Produktiv-Betrieb.

Linmoum

2022-02-11, 17:48:15

Mit "bedient" ist dann auch der tatsächlich erfolgte Launch gemeint. Dass diverse Partner im Voraus immer schon Samples bekommen, ist ja völlig normal.

Nightspider

2022-02-11, 17:49:30

Soweit ich mich erinnern kann war da die Sprache von mehr als nur "Samples".

ChaosTM

2022-02-11, 17:49:55

Warum hat AMD mit Zen zuerst Conusumer bedient?
Warum hat AMD mit Zen2 zuerst Conusumer bedient?
Warum hat AMD mit Zen3 zuerst Conusumer bedient?

;)

Server war bisher immer später dran.

Und im Serverbereich ist man auch nicht so unter Zugzwang.

Das passt schon.

Nightspider

2022-02-11, 18:00:31

Und im Serverbereich ist man auch nicht so unter Zugzwang.

Das passt schon.

Je größer der Vorsprung, desto mehr kann man verlangen.

AMD bietete aktuell gute Preise für ihre Produkte. Mit Genoa können sie noch mehr verlangen.

basix

2022-02-12, 14:01:15

Soweit ich erinnere, wurden bei Zen 2/3 EPYC einzelne Grosskunden schon sehr viel früher beliefert. Offizieller öffentlicher Launch war jeweils zig Monate später.

Wird bei Zen 4 vermutlich ähnlich laufen.

Leonidas

2022-02-15, 13:24:04

Zen-4-Gerüchte aus China + teilweiser Widerspruch:
https://www.3dcenter.org/news/news-des-14-februar-2022

Tangletingle

2022-02-15, 13:29:21

Zen-4-Gerüchte aus China + teilweiser Widerspruch:
https://www.3dcenter.org/news/news-des-14-februar-2022
Zen-4-Launch irgendwann im Juni/Juli 2020

https://c.tenor.com/gvl_cWCDn8sAAAAC/back-to-the-future-2020.gif

mboeller

2022-02-15, 14:43:32

Zen-4-Gerüchte aus China + teilweiser Widerspruch:
https://www.3dcenter.org/news/news-des-14-februar-2022

Wenn der ZEN4 im April vorgestellt wird und im Juni/Juli auf den Markt kommt, dann macht es wirklich Sinn den 5800X3D sterben zu lassen (RIP-Kommentar im anderen Thread). Wer kauft schon einen 5800x3D wenn gleichzeitig der ZEN4 vorgestellt wird.

Der_Korken

2022-02-15, 14:43:42

Zen-4-Gerüchte aus China + teilweiser Widerspruch:
https://www.3dcenter.org/news/news-des-14-februar-2022

Sagen wir mal so: Die Specs sind nicht unrealistisch. Ausgehend vom 5950X wären 7% mehr Boost ziemlich genau 5,25Ghz und 8,7% mehr Base ziemlich genau 3,7Ghz. Letzterer Wert erscheint mir allerdings recht gering, zumindest wenn man 5nm einen Effizienzgewinn von 50% unterstellt und das Topmodell weiterhin 140W PPT hat. Es kommen natürlich noch 18% IPC dazu, d.h. ein Zen 4 Core zieht mehr als ein auf 5nm geshrinkter Zen 3 Core ziehen würde. Da Zen 4 angeblich AVX512 unterstützen soll, könnte es natürlich sein, dass sich der Baseclock auf AVX512-Workloads bezieht und bei "normalen" Workloads in der Praxis höher liegt. Das wiederum würde zu den anderen Aussagen passen, dass der MT-Clock angeblich 20% höher liegen soll. Dass Zen 4 schon in April kommen soll, steht dagegen im krassen Widerspruch zu allen anderen Gerüchten.

MSABK

2022-02-15, 15:59:10

Wenn der ZEN4 im April vorgestellt wird und im Juni/Juli auf den Markt kommt, dann macht es wirklich Sinn den 5800X3D sterben zu lassen (RIP-Kommentar im anderen Thread). Wer kauft schon einen 5800x3D wenn gleichzeitig der ZEN4 vorgestellt wird.

Würde ich so nicht sagen, AM4 ist noch weit verbreitet und da könnte man noch was für die Menschen bieten die nicht direkt auf AM5 wechseln wollen.

Sunrise

2022-02-15, 16:29:23

Sagen wir mal so: Die Specs sind nicht unrealistisch. Ausgehend vom 5950X wären 7% mehr Boost ziemlich genau 5,25Ghz und 8,7% mehr Base ziemlich genau 3,7Ghz. Letzterer Wert erscheint mir allerdings recht gering, zumindest wenn man 5nm einen Effizienzgewinn von 50% unterstellt und das Topmodell weiterhin 140W PPT hat. Es kommen natürlich noch 18% IPC dazu, d.h. ein Zen 4 Core zieht mehr als ein auf 5nm geshrinkter Zen 3 Core ziehen würde. Da Zen 4 angeblich AVX512 unterstützen soll, könnte es natürlich sein, dass sich der Baseclock auf AVX512-Workloads bezieht und bei "normalen" Workloads in der Praxis höher liegt. Das wiederum würde zu den anderen Aussagen passen, dass der MT-Clock angeblich 20% höher liegen soll. Dass Zen 4 schon in April kommen soll, steht dagegen im krassen Widerspruch zu allen anderen Gerüchten.
April wohl nicht, aber Computex (Vorstellung) ist ja aktuell der Tenor... es häufen sich die Hinweise.

iamthebear

2022-02-15, 23:07:53

Die 8.7% mehr All Core könnte der maximale All Core in der Praxis bei leichteren Lasten sein (z.B. Gaming).
Eine weitere Möglichkeit ist, dass die 8.7% der Base Clock bei gleicher W Angabe ist z.B. beide auf 105W limitiert. 5nm mag zwar 50% effizienter sein aber das wird ja verwendet um die IPC zu steigern.

Der_Korken

2022-02-15, 23:38:21

5nm mag zwar 50% effizienter sein aber das wird ja verwendet um die IPC zu steigern.

Ja aber doch hoffentlich nicht alles :D. Gab es nicht mal so ne Regel, dass man für 1% mehr Verbrauch mindestens 2% mehr Leistung (z.B. IPC) erreichen sollte?

Hammer des Thor

2022-02-16, 09:52:40

Wenn Zen 4 aka Ryzen 7000 etwa zeitgleich mit den Zen3+ Desktop aka Ryzen 6000 kommt dann dürfte es für lange Zeit kein 6-Kern 7000der geben weil der sich mit den 6000der beißen dürfte. Aber Ryzen 6000 6 Kerner und 8 Kernen, dann die nächste Stufe Ryzen 7000 8 Kern der deutlich schneller ist, das sollte passen! Dann aber min ein Jahr kein Ryzen 7000 6-Kerner!

r3ptil3

2022-02-16, 09:55:56

rentex

2022-02-16, 09:57:49

Das haben wohl einige nicht mitbekommen, das es im DT Segment, keine 6000er Serie geben wird.

Hammer des Thor

2022-02-16, 10:02:19

Desktop Ryzen 6000? Die Namensgebung wird es im Desktop nicht geben.

Ryzen 5000 und dann geht's direkt auf Ryzen 7000.

Sie meinen die werden nen Zen 3+ in 6nm als Ryzen 7000 deklarieren?
Das wäre noch mehr Verwirrung zumal Sie sich dann einen sinnvollen Namen für einen späteren echten Ryzen 7000 6 Kerner zerstören würden!

Hammer des Thor

2022-02-16, 10:04:44

Das haben wohl einige nicht mitbekommen, das es im DT Segment, keine 6000er Serie geben wird.

Zen 3+ soll doch auch für Desk kommen war vor einigen Wochen doch auch hier zu lesen.

DozerDave

2022-02-16, 10:16:21

Zen 3+ soll doch auch für Desk kommen war vor einigen Wochen doch auch hier zu lesen.

Zen3 ist nur ein 6nm Zen3 refresh.
Und ob Ryzen 6000 als APU kommt werden wir sehen.
Von „normalen“ Ryzen ohne APU in 6nm ist nämlich nichts aus der Gerüchteküche zu hören.

Hammer des Thor

2022-02-16, 10:21:23

Zen3 ist nur ein 6nm Zen3 refresh.
Und ob Ryzen 6000 als APU kommt werden wir sehen.
Von „normalen“ Ryzen ohne APU in 6nm ist nämlich nichts aus der Gerüchteküche zu hören.

Das habe ich nicht geschrieben, ich meine natürlich als APU, sollte Zen 4 nicht auch nur als APU kommen oder ist auch das wieder überholt, habe einige Wochen mich dafür nicht mehr interressiert, sorry!

BlacKi

2022-02-16, 10:38:12

Das habe ich nicht geschrieben, ich meine natürlich als APU, sollte Zen 4 nicht auch nur als APU kommen oder ist auch das wieder überholt, habe einige Wochen mich dafür nicht mehr interressiert, sorry! mein stand war, das man die option featured. aber selbst auf monolithischem Die, gibt es die option die gpu zu deaktivieren. siehe intels f apus, oder auto athlon apus von amd, wenn ich mich recht erinnere.

war bei zen4 der gpu teil nicht im IO Die? da war doch was...

HOT

2022-02-16, 11:07:21

Nicht unbedingt, ich gehe eher von einem eigenen Chiplet aus. Das IOD wird sicherlich 12LP+ sein, die GPU hingegen N6. Ist auch die deutlich billigere Lösung.

Der 5800X3D ist eben eine gute Aufrüstoption, oder für Leute, die die höheren DDR5- und höheren Mainboardpreise für AM5 nicht bezahlen wollen.

BlacKi

2022-02-16, 11:15:21

hatten wir nicht darüber diskutiert, das der IOD nicht jede menge platz frei hat wo man eine gpu einfach platzieren könnte? um geld und platz zu sparen?

Der_Korken

2022-02-16, 11:58:47

hatten wir nicht darüber diskutiert, das der IOD nicht jede menge platz frei hat wo man eine gpu einfach platzieren könnte? um geld und platz zu sparen?

Wenn das wirklich auf 6nm geshrinkt wird, könnte da durchaus Platz für sein. Es wäre dann sowieso nur eine Winzig-GPU, also z.B. 4 CUs, Display Output und Video-Dekodierung. Dann kann zumindest den Rechner ohne dGPU benutzen und eventuell Stromsparmechanismen einbauen, um die dGPU im 2D-Betrieb abzuschalten (der Idle-Verbrauch von AM4-System ist leider nicht zeitgemäß imho).

basix

2022-02-16, 14:26:21

Nicht unbedingt, ich gehe eher von einem eigenen Chiplet aus. Das IOD wird sicherlich 12LP+ sein, die GPU hingegen N6. Ist auch die deutlich billigere Lösung.

Ich bin da bei HOT. IOD in 12LP+. iGPU in N6 als separates Chiplet (inkl. Display und Video Engines).

- IOD bleibt auf kostengünstigerem 12nm Prozess
- Günstigere Low End CPUs mit IOD + 1x CCD
- Falls das IOD 3 anstatt 2 IFOP Links mitbringt: Höhere Variabilität bei den SKUs und max. 24C bei Zen 4 möglich (16C + iGPU als Variante)

Der_Korken

2022-02-16, 15:18:44

Lohnt sich dafür überhaupt eine eigene GPU? Für wen wäre es denn interessant Auspreis dafür zu zahlen eine kleine iGPU zusätzlich zu haben? Beim V-Cache haben einige schon befürchtet, dass die zusätzlichen 36mm² 7nm-Die-Space zu satten Aufpreisen führen, aber eine iGPU, die eine gewisse Minimalgröße haben muss (sagen wir mal >50mm² damit sich das modulo IFOP Links und Verluste beim Waferschneiden überhaupt lohnt) soll dann lohnenswert sein?

Da fände ich einen 6nm IOD schon interessanter. Für ein Modell mit iGPU stehen dann kostentechnisch 110mm²@12nm + 50mm²@6nm und 110mm²@6nm gegenüber (Zahlen sind einfach mal geschätzt). Dazu wäre letzteres auch noch sparsamer (=mehr Energie für die Kerne) und/oder performanter, weil man z.B. das IF auf dem IOD in 6nm schneller bekommt und somit die Speicherlatenzen drückt. Man könnte sicherlich auch einiges aus Rembrandt wiederverwerten. Klar, die langweilige Lösung mitohne iGPU, energiehungrigem IOD mit schlechtem Idle-Verbrauch und mäßigen Speicherlatenzen wäre natürlich die billigste, weil man nur den 12nm IOD bräuchte. Aber vielleicht lässt sich AMD da nicht lumpen mit Raptor Lake im Nacken :D.

HOT

2022-02-16, 15:33:21

Drehen wir den Spieß um, warum das IOD völlig überflüssigerweise in teurem N6 fertigen, wenn 12LP+ sehr viel billiger ist und, nicht vergessen, AMD hat auch noch GloFo an der Backe! Das Desgin muss AMD so oder so machen für die GPU, ob das jetzt innerhalb des IOD ist oder ein separates Chiplet. Wenn man länger darüber nachdenkt, kommt man immer zu dem Schluss, dass IOD in 12 und GFX als separates Chiplet stets die bessere Lösung ist.

Ob der I/O-Kram in 12LP+ oder N6 vom Band läuft ist energietechnisch völlig egal. Man könnte höchstens den separaten Link für die Grafik rechnen, aber das wird ebenfalls vernachlässigbar sein, das ist ja keine APU fürs Notebook.

RPL ist mMn völlig uninteressant, weil der lange nicht den Performanceimpact haben wird. Zen4 muss mit MTL/ARL vergleichen werden.

basix

2022-02-16, 21:04:00

Man sollte schon wissen, dass GloFo 12LP+ einen Grossteil der GloFo 7nm Verbesserungen geerbt hat. Rein von Performance und Stromverbrauch her ist das eher ein ~10nm Prozess. Density natürlich nicht ganz.

Verglichen mit 14LPP bringt 12LP+ aber dennoch satte 1.38x Density. Und man muss es auch so sehen: 100mm2 @ GloFo +50mm2 N6 @ TSMC (iGPU bei ~80% der Produkte) vs. ~110...120mm2 N6. Da wird ersichtlich, was günstiger ist und wo man total mehr Wafer zur Verfügung hat, ergo mehr CPUs verkaufen kann. Nehmen wir 67% Kosten bei 12LP+ vs. N6 an und dass 80% der SKUs die 50mm2 iGPU in 6nm bekommen werrden. Dann landet man kosten-normiert auf N6 im Durchschnitt bei 107mm2. Vorteile bei Yield aufgrund der kleineren Chips nicht eingerechnet. Auf AMDs Folien liegen zwischen 7nm und 14/16nm 1.7...1.8x an Kosten, wäre also eher 55...60% Kosten bei 12LP+ vs. N6. Ergo: Ein monolithisches 6nm IOD wird eigentlich immer teurer sein. Und dem Nachteil, dass man wertvolle 6nm Wafer dafür benötigt. Und wenn man das IOD wieder als Chipsatz verwursteln will: 12LP+ ohne iGPU würde ebenfalls besser passen. Und man kann bei Zen 5 auf eine RDNA3 iGPU updaten, ohne das IOD wechseln zu müsen.

Fazit von 12LP+ IOD & N6 iGPU Chiplet:
- Günstiger oder zumindest gleichwertige Kosten
- Mehr Waferkapazität
- Flexibler

Nachteile:
- Höherer Stromverbrauch
- Geringere Maximalfrequenzen

Beide Nachteile sind am Desktop und als IOD jetzt nicht Showstopper. Schneller und stromsparender als bei Zen 2/3 wird das IOD in 12LP+ sowieso.

Edit:
Die 36mm2 des V-Cache sind auch gar nicht wirklich teuer. Eher sind es das SoIC Packaging und die Opportunitätskosten (weniger CPUs zum verkaufen). Und dass man mit der schnellsten Gaming CPU mehr Geld verlangen wird.

Der_Korken

2022-02-16, 21:13:28

An den verbesserten 12nm-Prozess hatte ich gar nicht mehr gedacht. Damals bei Zen 3 wurde afaik spekuliert, ob AMD nicht einen neuen IOD in 12nm+ bringt. Es ist halt so, dass der alte IOD durchaus auch negative Auswirkungen hatte. Bei Epyc gehen ja direkt mal 80-100W dafür drauf, das ist schon eine Menge Holz. Und auch bei den 5000er Modellen (habe selber eins) werden mir ständig auch 15-20W SoC-Power angezeigt, selbst wenn der Rechner quasi nichts tut. Da guckt man schon neidisch auf Renoir/Cezanne, die keine 3W im Idle verbrauchen. Dazu die Limitierung auf ~1900Mhz IF-Takt. Da denke ich mir, wenn man das in 6nm nachbauen würde, würde der locker 2600Mhz IF-Takt mitmachen, sodass man z.B. DDR5-5200 im 1:1-Modus laufen lassen könnte (und wenn man die IF-Latenzen etwas entschärft vielleicht sogar DDR5-6000). Vielleicht sind 12nm+ auch ein guter Kompromiss, wenn das wirklich so ein großer Sprung ist.

basix

2022-02-16, 21:25:20

Ja, momentan benötigt das IOD eher etwas zu viel und dementsprechend die CPU auch unter Teillast. Das sieht bei monolithischen Chips besser aus. Das Zen 2/3 IOD war aber auch AMDs Erstlingswerk. Seither haben sie sicher sehr viel dazugelernt.

Der Herstellungs-Prozess ist nur eine Seite der Medaille, das Design die andere und vermutlich fast wichtigere. Ich erwarte, dass bezüglich Stromsparmechanismen einige Verbesserungen einfliessen werden. Unter Umständen auch aus Learnings anhand der APUs (z.B. verdoppelte IF-Link Breite, dafür halbierter Takt). Was auch durch das Internet geisterte war, dass IFOP verdoppelte Channels pro CCD bekommt. Bei Niedriglast könnte man also gut die Hälfte der IFOP-Channels schlafen legen, um Strom zu sparen.

6nm wäre hier sicher besser, aber 12LP+ sieht auf dem Papier recht ordentlich aus.

HOT

2022-02-16, 23:44:08

Man sollte vielleicht noch erwähnen dass das alte IOD in 14LPP designt wurde und dann in 12lp produziert wurde. Das Neue wäre jetzt ein voll auf 12lp+ angepasstes Design. Zudem sind viele große Bereiche von dem ganzen I/O Zeug nicht gut zu shrinken und würden quasi gar nicht von N6 profitieren. Will heißen, selbst wenn N6 beachtlich kleinere Chips ergibt in der Theorie wird da in der Praxis deutlich weniger übrigbleiben. Ich denke, dass das neue IOD bei den neueren Designs von Synopsys und Co und dank der fast 40% größeren Packdichte sicherlich 20% schrumpfen wird trotz mehr Funktionen und besseren Power Managements.

iamthebear

2022-02-17, 02:07:48

DavChrFen

2022-02-17, 02:27:28

Das IOD wird ja auch bei EPYC genutzt, oder? Und wenn da eine Grafikeinheit drauf ist, dann hat man die da auf dem Package x-mal völlig umsonst drauf.

Und, ehrlich, wenn ich so Intels DIE-Shots anschaue: So klein ist die auch nicht.

Wegen der 6 vs 12 nm-Diskussion: AMD wird wohl an der Infiniti-Fabrik was drehen. Und wenn das beinhaltet, dass man die wesentlich aufbohrt und dann damit die IF-Blöcke im IOD wesentlich größer werden: Da ist dann die Frage, ab wann sich die 6nm doch lohnen wegen Größe und Stromverbrauch. Also wenn die "neue" z.B. 4x so viel Platz braucht wie die alte pro Link. Nur so Überlegungen von mir. Ist da schon was bekannt, ob und wie viel die aufgebohrt wird?

amdfanuwe

2022-02-17, 04:33:49

Das IOD wird ja auch bei EPYC genutzt, oder?
nein.

basix

2022-02-17, 08:17:40

Also ich denke, dass ein 6nm IO Die mit GPU sinnvoller sein wird als 2 Chips. Das Packaging eines zusätzlichen Dies ist ja auch nicht gratis.

Auch zu bedenken: Wenn AMD jetzt einen neuen IO Die für Zen4 mit iGPU in 6nm designed, dann kann der Großteils auch für Zen5 noch weiterverwendet werden.
Wenn man jetzt einen neuen IO Die für 12nm designed (was mit den ganzen neuen Schnittstellen sowieso notwendig ist), dann ist der nicht unbedingt fit für 2024/25, denn langfristig ist es gut möglich, dass 6nm preislich sogar unter 12nm liegen wird. Das was die 7nm Preise treibt ist sind die knappen EUV Anlagen, die jedoch in ein paar Jahren schon abgeschrieben sind. Bei 12nm ist das was die Kosten treibt die Unmengen an Masken und das ist ein permanentes Problem.
Und der IO Die wird zwar mit 6nm schlechter skalieren als Logic und SRAM aber er wird definitiv noch kleiner werden.

MCM Packaging ist nicht sehr teuer. Und wie gesagt, 6nm wird besser für anderes Zeugs verwendet (APUs, Konsolen, GPUs) und mittels 12nm bekommt man "zusätzliche" Waferkapazität. In diesem Fall muss man die Opportunitätskosten ebenfalls miteinbeziehen.

Das neue IOD wird mMn Zen 4 und Zen 5 unterstützen. Zen 6 wird vermutlich noch auf AM5 setzen, könnte aber etwas anders daherkommen.

Dass 6nm günstiger als 12nm wird, halte ich ehrlich gesagt auch für ausgeschlossen. Wenn man Geschichten hört wie "bis 2026 ausgebucht" und der sehr hohen Nachfrage nach 6/7nm Produkten: Sehr, sehr unwahrscheinlich. Höhere Packdickte und kleinere Die sind schön und gut, aber die Nachfrage hat einen nicht unwesentlichen Einfluss auf den Preis. Und bei 6nm TSMC ist die vermutlich höher als bei GloFo.

Aber egal ob im IO Die oder als eigener Chip: Auf Dauer führt für AMD kein Weg vorbei wenn sie Intel im Desktopbereich abseits vom Gamingmarkt ernsthaft Marktanteile abnehmen wollen. Die Performance der iGPU ist sekundär aber irgendwie muss ja ein Bild ausgegeben werden. Und selbst für Gamingrechner ist mir das um die 50 Euro wert, dass ich den Rechner auch ohne GPU betreiben kann. Das spart so viel Stress im Fall eines GPU Defekts, man kann den Rechner später beliebig als Officegurke weiterverwenden und falls ich Mal beim Hardwaretausch 2-3 Wochen keine GPU habe kann ich den Rechner zumindest zum Surfen, für Emails usw. nutzen.

Da bin ich voll bei dir. Und die iGPU wäre ein Weg, dass man APUs nicht mehr zwingend auf den Desktop verfrachten müsste. Wäre zwar schade, aber aus technischer Sicht könnte das Sinn machen (APU muss keine Kompatibilität mit AM5 aufweisen).

BlacKi

2022-02-17, 08:43:35

wäre eine kleine gpu unter 12nm+ je nach betriebspunkt denn ein no go? selbst wenn man den IOD ein bisschen größer machen müsste, wäre er immer noch klein und man könnten ein chiplet einsparen.

Tobalt

2022-02-17, 09:09:35

AMD hat auch noch GloFo an der Backe!

Klingt als wäre das was schlechtes. Sie haben durch den langfristigen Vertrag wahrscheinlich solide Wafer Kapazitäten zu einem sehr niedrigen Preis. Einzig in Zeiten vor Zen kann es uU. ein Nachteil wegen der Fixkosten gewesen sein. Mittlerweile sehe ich es definitiv als Bonus.

Gerade da man eben durch das IO Die einen Superanwendungsfall hat. Glofo ist auch sehr gut bei FDSOI. Und auch das wäre für künftige Generationen des IO Die wohl keine schlechte Wahl. Kann sein dass dafür aber 12FDX nötig ist weil es sonst zu groß wird. Und dafür Fehlen Glofo wohl sowohl Nachfrage als auch Kapazität

Tobalt

2022-02-17, 09:12:19

Basix: Gibt es denn Infos wie teuer das MCM packaging ist ? Je nachdem wären ja auch noch kleinere Komponenten wie dedizierte GPU oder DRAM arrays rentabel..

HOT

2022-02-17, 09:28:39

Klingt als wäre das was schlechtes. Sie haben durch den langfristigen Vertrag wahrscheinlich solide Wafer Kapazitäten zu einem sehr niedrigen Preis. Einzig in Zeiten vor Zen kann es uU. ein Nachteil wegen der Fixkosten gewesen sein. Mittlerweile sehe ich es definitiv als Bonus.

Gerade da man eben durch das IO Die einen Superanwendungsfall hat. Glofo ist auch sehr gut bei FDSOI. Und auch das wäre für künftige Generationen des IO Die wohl keine schlechte Wahl. Kann sein dass dafür aber 12FDX nötig ist weil es sonst zu groß wird. Und dafür Fehlen Glofo wohl sowohl Nachfrage als auch Kapazität

Entsprechende Mengen kann AMD nur mit dem IOD in 12LP+ abnehmen.

basix

2022-02-17, 09:33:50

Basix: Gibt es denn Infos wie teuer das MCM packaging ist ?

Konkrete Zahlen zu Kosten habe ich keine. Schlussendlich ist der Prozess grundsätzlich aber gleich wie bei einem einzelnen Chip. Was es teurer macht, sind allfällige zusätzliche Prozesschritte (sind ja 2+ Chips) und die Logistik, dass die richtigen Chips zur richtigen Zeit am richtigen Ort sind. Und bei mehr Chips sinkt unweigerlich der Packaging Yield, was die Durschnittskosten anhebt. Der Packaging Yield sollte aber >98% betragen, sonst ist der ziemlich k***e.

Im Fall der 6nm iGPUs, wäre die Logistik aber wohl nicht so viel aufwändiger als bei Zen 2/3, da man das CPU CCD bereits von TSMC bezieht, evtl. sogar vom gleichen Fabrikstandort.

Je nachdem wären ja auch noch kleinere Komponenten wie dedizierte GPU oder DRAM arrays rentabel..

Was meinst du mit dem genau?

robbitop

2022-02-17, 09:36:04

Ob der IOD jetzt so wesentlich schrumpft (der i/O Kram hat eine Menge Analoganteil, der nur unwesentlich kleiner und sparsamer bei kleineren Prozessen wird) oder sparsamer wird durch einen Shrink? Viel wird ja durch die Energie, die benötigt wird, ein Signal zwischen den Chips hin und herzuschieben benötigt. Ein kleinerer Prozess hilft da weniger als die Chips einfach näher zusammen zu bringen (idealerweise gestackt).

Sofern da großartig noch Logik drauf ist - der Anteil wird kleiner und sparsamer mit einem Shrink.

basix

2022-02-17, 09:40:01

Der Betrieb des Infinity Fabric auf dem IOD ist mehr oder minder reine Logik. Das und der Betrieb der IFOP Links, wie du richtig sagst, werden vermutlich neben dem DDR-Interface den Grossteil der Energie verbrauchen. Der Rest wird pille palle sein.

Tobalt

2022-02-17, 10:05:55

Wäre das IOD wirklich "nur Interface Driver" würde man es wohl in 22 FDX fertigen. Sollte pro Fläche billiger sein als 12LP+ und in dem Fall würde sich die Fläche ja kaum ändern. Also wird schon noch genug Logik drauf sein, dass sich kleine Bulk Nodes rechnen.

Bezüglich Packaging: Ich meinte, wenn es denn wirklich so billig ist, könnte man ja auch noch mehr und kleinere Chiplets nutzen, sofern es von der Performance und Energie noch Sinn macht. Speziell meinte ich die Diskussion ob eine GPU mit auf das IO Die kann/sollte.

Man muss bei so einer GPU bedenken, dass sie wirklich nahezu nichts können muss für den Anwendungsfall, einfach nur ein Bild auszugeben. Da ist absolut keine 3D power nötig. Auch in 12 LP+ locker machbar IMO

robbitop

2022-02-17, 10:31:03

Letzteres sehe ich auch so. Bild anzeigen, Videobeschleunigung, 2x Videoausgänge und ein Minimalpaket an 3D Leistung für viele PCs (Office PCs) reicht völlig. Und wenn es nur 1x CU ist.

iamthebear

2022-02-17, 12:27:14

Also ich würde sagen Videos decodieren muss mit min 4K60 möglich sein bzw. DP 1.4 und HDMI 2.0

basix

2022-02-17, 12:40:25

Also ich würde sagen Videos decodieren muss mit min 4K60 möglich sein bzw. DP 1.4 und HDMI 2.0

Wenn schon eine nigelnagelneue Plattform: DP 2.0 und HDMI 2.1 ;) Rembrandt bringt das auch schon mit.

nordic_pegasus

2022-02-17, 13:39:58

Wenn schon eine nigelnagelneue Plattform: DP 2.0 und HDMI 2.1 ;) Rembrandt bringt das auch schon mit.

sprechen wir bei Rembrandt über echtes HDMI 2.1 mit 48Gbit/s oder die aufgeweichte Definition mit HDMI 2.0 Bandbreite plus irgendwelche 2.1 Features?

basix

2022-02-17, 14:36:32

Von Seiten SoC 48gbps
https://www.reddit.com/r/hardware/comments/rvpcwz/comment/hr812kq/

Platos

2022-02-17, 14:39:41

Wenn schon eine nigelnagelneue Plattform: DP 2.0 und HDMI 2.1 ;) Rembrandt bringt das auch schon mit.

Vor allem DP 2.0 wäre mir da wichtig. M.M.n ist HDMI 2.1 schon bei Release veraltet gewesen. Im Gegesatz dazu bringt DP immer wieder die bessere Schnittstelle (rein von der Übertragungsrate her gesehen).

Aber ja, das muss es schon mindestens beides sein, ansonsten kann man nur drüber lachen.

HOT

2022-02-17, 15:39:13

Wär aber auch traurig, wenn die neue Plattform nicht endlich echtes 2.1 liefern würde. Gleiches gilt für AM5.

basix

2022-02-17, 22:17:25

Vor allem DP 2.0 wäre mir da wichtig. M.M.n ist HDMI 2.1 schon bei Release veraltet gewesen. Im Gegesatz dazu bringt DP immer wieder die bessere Schnittstelle (rein von der Übertragungsrate her gesehen).

Aber ja, das muss es schon mindestens beides sein, ansonsten kann man nur drüber lachen.

Bei Rembrandt wird DP 2.0 nur mit UHBR10 unterstützt, was 40 Gbps bedeutet.

BlacKi

2022-02-17, 23:59:16

wäre 6nm nicht für den memorycontroller von vorteil?

Linmoum

2022-02-18, 09:49:55

HWinfo hat schon Zen4-Support bekommen. Dann dürfte an dem von greymon genannten Launchzeitraum tatsächlich mehr dran sein.

basix

2022-02-18, 10:17:42

wäre 6nm nicht für den memorycontroller von vorteil?

Wenn du die beste und schnellste Technologie willst, ist 6nm für alles von Vorteil ;)

Platos

2022-02-18, 12:23:02

Bei Rembrandt wird DP 2.0 nur mit UHBR10 unterstützt, was 40 Gbps bedeutet.

Na toll. Aber "beworben" wirds sicher mit DP 2.0. Am liebsten habe ich solche halbgaren Unterstützungen.

Naja, schlussendlich hängts bei mir vermutlich sowieso an der Grafikkarte. Also wen kümmerts :D Am Desktop bringts ja immer noch niemand fertig, iGPU und dGPU zusammenspielen zu lassen (bzw. eine zu deaktivieren).

basix

2022-02-18, 12:36:54

Naja, ist ja auch DP 2.0 ;) DP 1.4a ging nur bis 32 Gbps oder so und hatte durch das 8/10b encoding wesentlich geringere "Nutzlast". DP 2.0 mit 40Gbps bringt ~1.5x nutzbare Bandbreite verglichen mit DP 1.4a.

80 Gbps wäre natürlich schon sexy gewesen. Anscheinend gibt es aber noch zuwenige 12bit HDR Panel und 8K Monitore. Mit 40 Gbps reicht es genau für 4K/144Hz mit 10bit HDR ohne Kompression. Mit 12bit HDR reicht es für 4K/120Hz: https://en.wikipedia.org/wiki/DisplayPort Das wird mittelfristig für fast alle Enduser reichen. Für 8K/144Hz mit 12bit HDR müssten sowieso 2x 80 Gbps Kabel verwendet werden :D

Berniyh

2022-02-18, 13:32:48

Am liebsten habe ich solche halbgaren Unterstützungen.
Ach, bis das relevant wird hast du längst ein neues System.

Denk nur mal dran wie lange GPUs schon DP1.4 unterstützen und wie lange es gedauert hat bis passende Monitore kamen für die man das auch brauchte (bzw. die überhaupt DP1.4 hatten).

gedi

2022-02-22, 18:24:45

Ist eigentlich bekannt, wie viele CUs bei Ryzen 4 iGPU im Bestfall am werkeln sind? Nachdem mir die Performance von 680m bekannt ist, dann denke ich dass mir ein Drittel mehr an Performance ausreichen würde, um mich von einer diskreten Lösung verabschieden zu können.

Kompilierung von Musikdateien, Cubase vervollständigen einer Line, Guitar Pro Filterung usw., Programmieren mit/der Compiler(n) hier bringt es der Ryzen voll. Und so ein ganz wenig Gamen med. 1080p, das wäre für mich die perfekte CPU.

robbitop

2022-02-22, 18:42:40

Öffentlich habe ich dazu noch nichts gesehen. Ist auch noch sicherlich 1 Jahr hin. Ohne zusätzlichen Cache macht es wohl auch wenig Sinn, mehr als 12CUs zu verbauen da dann bandbreitenlimitiert, da DDR5 für die nächste Zeit noch keinen Nachfolger hat.

Zossel

2022-02-22, 18:47:44

Ist eigentlich bekannt, wie viele CUs bei Ryzen 4 iGPU im Bestfall am werkeln sind? Nachdem mir die Performance von 680m bekannt ist, dann denke ich dass mir ein Drittel mehr an Performance ausreichen würde, um mich von einer diskreten Lösung verabschieden zu können.

Egal wie viele es sein werden, es würde trotzdem fleißig gemeckert werden das es zu wenig sind. Da gibt es einfach keine Blumentöpfe zu gewinnen.

Tangletingle

2022-02-22, 18:50:26

imho wäre eine minimalausstattung für 4k@hdr, dp2.0 und hdmi2.1 + dedizierte mediede-/encoder schon völlig ausreichend. 3dleistung ist völlig nebensächlich in der grundausstattung. bild für den büroalltag muss raus kommen und da braucht man heute schon häufiger mal halbwegs ordentliche en-/decoder für videokonferenzen und streaming. mehr nicht.

gedi

2022-02-22, 19:36:58

Egal wie viele es sein werden, es würde trotzdem fleißig gemeckert werden das es zu wenig sind. Da gibt es einfach keine Blumentöpfe zu gewinnen.

Um dieses Thema geht es hier in meinem Fall nicht! Ich brauche da Performance wo es der Intel Schrott nicht bringt. Intel kann nur eine Kompilierung on Stage, mehr nicht! Leider geht hier Linux und Windows Hand in Hand und das funktioniert bei den fetten Titten eben nicht (ich hoffe ihr wisst worauf ich anspiele)! Ein R9 tut das sehr gut und hier hätte ich gerne ein excellent! BTW. wäre es so schön, nach getaner Arbeit noch ein Game zu zocken, welches dann in 1080p in med ohne Klickibunti aka RT brauchen muss! Nur ne halbe Stunde mit 40-60FPS zocken und gut.

Tangletingle

2022-02-22, 19:50:49

da bist du doch jetzt schon mit 6800h gut bedient, oder?

rentex

2022-02-22, 20:51:06

Von Seiten SoC 48gbps
https://www.reddit.com/r/hardware/comments/rvpcwz/comment/hr812kq/

Dann kann ich endlich meinen MiniPC austauschen.

HOT

2022-02-25, 09:15:47

Hm, nur 1,1GHz für die iGPU? Könnte tatsächlich ein 12LP+-Backport sein.

https://www.tomshardware.com/news/ryzen-7000-zen-4-cpus-rdna2-igpu

Der_Korken

2022-02-25, 10:14:57

Hm, nur 1,1GHz für die iGPU? Könnte tatsächlich ein 12LP+-Backport sein.

https://www.tomshardware.com/news/ryzen-7000-zen-4-cpus-rdna2-igpu

Ja 1,1Ghz ist wirklich niedrig, zumal es auf dem Desktop nicht so schmale Powerlimits gibt wie bei mobilen APUs. Solange das Ding flüssig 4K120-Monitore ansteuern kann und beim Videos dekodieren sparsam ist, warum nicht. Der Einsatzzweck einer solchen iGPU wäre für mich ohnehin nicht Gaming-Leistung, weil ich dafür lieber gleich die dGPU verwende, da stören auch die 4CUs nicht. Interessanter wäre es schon eher, dass man die Graka im idle komplett abschalten könnte, wie das auch in Notebooks passiert, um den Idle-Verbrauch auf ein zeitgemäßes Maß zu reduzieren. Mich verwundert nur, dass AMD sich dafür die Mühe macht RDNA2 extra wieder auf 12nm zurückzuporten. In 6nm hätte man sich einfach bei Rembrandt bedienen können. Aber die Diskussion hatten wir schon :D.

Locuza

2022-02-25, 11:03:35

y33H@

2022-02-25, 11:06:20

IMHO auch weil iGPU und IMC in einem Die sinnvoller ist als beide zu entkoppeln.

Der_Korken

2022-02-25, 11:31:03

Bei einer 4CU-GPU ist ein separates Chiplet natürlich totaler Unsinn. Da brauchen die beiden IF-PHYs im IOD und der GPU bald mehr Fläche als die GPU selber :freak:.

Zu der Folie oben: Warum heißt es CIOD3 und Durango CCD? Es wäre doch erst der zweite IOD und der Code-Name für Zen 4 ist Raphael? Oder haben die CCDs nochmal eine andere Reihe von Codenamen?

Locuza

2022-02-25, 11:47:01

Was die letzte Frage betrifft, ja, die CPU-Kerne und CCDs haben ihre eigenen Codenamen:
Zen2 core = Valhalla, Zen2 CCD = Aspen Highlands

Zen3 core = Cerberus, Zen3 CCD = Breckenridge

Zen4 core = Persephone, Zen 4 CCD = Durango.
https://twitter.com/chiakokhua/status/1401155629394235392

HOT

2022-02-25, 11:58:29

Das IOD kommt in 7/6nm und beinhaltet die GPU mit Display-Controller, AMD wird keine keine separaten GPU-Chiplets fertigen:
https://thetechzone.online/wp-content/uploads/2021/06/1623089464_513_AMD-Zen-4-Raphael-with-DDR5-and-hybrid-CPU-at.jpg

Wer mag kann die Slide anzweifeln, ich tue es nicht.
Wie kommst darauf, dass der 6/7nm ist? Das widerspricht doch eigentlich total dem Waferagreement mit GloFo, denn irgendwelche Massenprodukte muss AMD doch auch dort fertigen weiterhin.

fondness

2022-02-25, 12:01:26

Wie lange geht das Wafer Agreement? Bis dahin wird man wohl noch Zen3 fertigen, bzw. gerade bei Embedded und Server Produkte muss man lange Verfügbarkeiten garantieren. Das ist für mich kein Beweis für GF.

BlacKi

2022-02-25, 12:02:32

client ok

Locuza

2022-02-25, 12:21:27

Wie kommst darauf, dass der 6/7nm ist? Das widerspricht doch eigentlich total dem Waferagreement mit GloFo, denn irgendwelche Massenprodukte muss AMD doch auch dort fertigen weiterhin.
Die Folie ist etwas älter und anscheinend wird AMD auf 6nm für den CIOD setzen.
https://cdn.wccftech.com/wp-content/uploads/2021/06/AMD-Ryzen-Raphael-Zen-4-Desktop-CPU-AM5-Platform-Details-Leak_-Old-Slides-_2020-_1-1030x579.jpg
https://cdn.wccftech.com/wp-content/uploads/2021/06/AMD-Ryzen-Raphael-Zen-4-Desktop-CPU-AM5-Platform-Details-Leak_-Old-Slides-_2020-_1-1030x579.jpg

Das Unternehmen wird nach wie vor einige IODs für die bisherigen Client-, Workstation-und vor allem Server-Produkte herstellen (Rome&Milan(-X)).
Es gibt auch Gerüchte darüber, dass AMD eine neue low-end APU in 12nm plant, als Nachfolger von Dali/Pollock (Dual-Core Zen1).

Wie lange geht das Wafer Agreement? Bis dahin wird man wohl noch Zen3 fertigen, bzw. gerade bei Embedded und Server Produkte muss man lange Verfügbarkeiten garantieren. Das ist für mich kein Beweis für GF.
Das "alte" WSA ging bis 2024, man hat neu verhandelt und bis 2025 verlängert:
https://www.hardwareluxx.de/index.php/news/allgemein/wirtschaft/57765-amd-und-globalfoundries-schliessen-neues-wafer-abkommen.html

HOT

2022-02-25, 12:25:37

Ah ok, thx.

amdfanuwe

2022-02-25, 12:55:24

Im Tesla wird auch ein 4 Core Embedded Ryzen verbaut, werden wohl Picasso Abkömmlinge sein.
An 12nm APUs wird noch ordentlich Bedarf bestehen im Embedded Bereich.

basix

2022-02-25, 14:49:17

OK, 6/7nm verdichten sich. CIOD3 ist aber schon etwas speziell. Das "C" steht ja für Client. Hat man für 12/14nm Versionen verschiedenen Namen verwendet oder gab es bei Zen 3 irgendwelche Updates, welche ein CIOD2 gerechtfertigt haben?

4 CUs und 1.1 GHz? Ersteres evtl. ja, letzteres aber nie im Leben als Boost Clock. Eher wird das Ding auf 3.0 GHz geprügelt ;) 4 CUs * 3.0 GHz = 1.5 TFlops RDNA2 wäre auf ~Vega 8 Niveau was iGPU Performance anbelangt. Das wäre ausreichend und eigentlich auch ganz brauchbar. Und wenn man sieht, was RDNA2 verbraucht, würde man evtl. bei ~25-30W bei der iGPU landen. Sollte also machbar sein.

KarlKastor

2022-02-25, 16:25:09

Wäre wahrscheinlich immer noch schneller als Intels 32 EU IGP.

Relic

2022-02-25, 20:57:13

BlacKi

2022-02-25, 21:02:39

um chiplet cpus auch im mobilesegm. zu verkaufen vl.

Linmoum

2022-02-25, 21:59:55

Was will man denn Mobile nur mit 5950X +X% Performance ohne dGPU? Das ist doch völlige Verschwendung, bei sowas eine aufgebohrte iGPU reinzupacken.

amdfanuwe

2022-02-25, 22:13:18

Arbeiten. Gibt noch anderes als zocken.

Nightspider

2022-03-03, 18:21:43

Wie sehen eure Spekulationen zu Phoenix, dem Rembrandt Nachfolger aus?

Wahrscheinlich N5 oder N4.

Zen4 dürfte wohl gesichert sein. Irgendwer meinte mal etwas von mehr als 8 Kernen gehört zu haben aber das kann ich mir nicht so richtig vorstellen.

Spannender finde ich fast die Frage ob AMD bei der N5 APU eventuell etwas Infinity Cache für die IGP einführen wird, ob man die Anzahl der CUs steigert usw.
Spannend hätte ich ja auch immer ein Triple-Channel SI bei den APUs gefunden. Die Ultrabooks die wirklich auch noch etwas zum Gaming mit der IGP gedacht wären könnten dann halt von 50% mehr Bandbreite und Speicher (für VRAM) profitieren. Ist vielleicht preislich ähnlich wie Infinity Cache in die APU zu packen. Apple hat ja ebenfalls mehr Speichercontroller draufgepackt.

mboeller

2022-03-03, 18:35:35

Spannend hätte ich ja auch immer ein Triple-Channel SI bei den APUs gefunden.

das wäre aber bei N5 oder N4 sehr teuer, weil die Analog-Sachen ja nur geringfügig geschrumpft werden können.

Ein großer IF$ als 3D-Cache dürfte "billiger" sein

Vielleicht wird es ja nur noch ein 64bit Speicherinterface geben, dafür aber dann 64MB Cache Huckepack.

Tobalt

2022-03-03, 19:03:00

Bin mal auf die Dieshots des neuen IOD gespannt, speziell wie stark die Einheiten außerhalb der GPU dort tatsächlich shrinken.

Muss auch sagen, dass ich da eher mit 12LP+ gerechnet habe.

Nightspider

2022-03-03, 19:05:21

Also bei Cezanne hat das Dual Channel 128 Bit SI "nur" rund 15,4mm² und damit 8,5% Die Area benötigt.
Wenn man weitere ~7mm² in N5 opfert hätte man +50% Bandbreite und die Option für 12/24GB RAM Laptops.

Wie viel IF$ bekommt man in 7mm²unter?

Kann natürlich sein das man in diese Area auch genügend IF$ bekommen würde um die CUs deutlich zu beschleunigen
und IF$ verbessert natürlich die Effizienz.

16 CUs (+33%), etwas mehr Takt dank N5 und 16MB IF$ wären schon nice für Phoenix und zumindest grob ~50% mehr GPU Leistung.

Vielleicht wird es ja nur noch ein 64bit Speicherinterface geben, dafür aber dann 64MB Cache Huckepack.

Viel zu teuer in der Herstellung.

Der_Korken

2022-03-03, 19:17:21

Also bei Cezanne hat das Dual Channel 128 Bit SI "nur" rund 15,4mm² und damit 8,5% Die Area benötigt.

Plus den Sockel-Pinout, plus die PCB-Leitungen dafür. Da gerade auf DDR5 umgestiegen wird, ist ein Upgrade beim Speicherinterface sehr unwahrscheinlich. Das würde vielleicht dann kommen, wenn DDR5 zu stark limitiert, aber DDR6 noch zu weit weg ist.

Nightspider

2022-03-03, 19:29:50

Den Mehraufwand bei den PCB Leitungen halte ich für vernachlässigbar. Sind es halt 3 statt 2 Chips. (Immer noch viel simpler als Grafikkarten mit ihren 12-24 Speicherchips)

Beim Pinout kann ich aber nicht mitreden. Keine Ahnung wie schwer der Mehraufwand dort wiegt.

Das war aber auch mehr ein Gedankengang.

Gegen etwas IF$ bei Phoenix hätte ich auch nix einzuwenden. Ohne würde die Grafikleistung bei Phoenix zumindest stagnieren.

basix

2022-03-03, 20:43:22

Rembrandt ist je nach Spiel mit DDR5-4800 doch noch ziemlich bandbreitenlimitiert (siehe CB-Test, 680M verglichen mit dGPUs). Schnellerer Speicher hilft hier sicher, wird das Grundproblem aber nicht lösen. AMD hat mMn folgende Möglichkeiten:
- Infinity Cache / 3DV-Cache
- Bandbreiteneffizienz zu erhöhen (z.B. da RDNA3)

Infinity Cache geht immer, kostet aber was. Deutlich interessanter fände ich eine deutliche Erhöhung der Bandbreiteneffizienz. Wie man das lösen will? Da bin ich überfragt. Ich stelle mir eine Art Speicherkompression vor, wo die Daten nur noch stark komprimiert über das Speicherinterface wandern müssen. Durch die Kompression/Dekompression entstehen zusätzliche Latenzen, ist bei GPUs aber weniger kritisch als bei CPUs. Heutzutage ist Compute billig und Datentransfer sowie Speichermenge teuer. Kompression fällt unter die Kategorie Compute.

Was gegen diese Kompression spricht: Das hätte doch schon lange jemand umgesetzt ;)

Nightspider

2022-03-03, 22:36:35

Komprimiert wird schon seit Ewigkeiten beim VRAM. ;)

basix

2022-03-03, 23:02:53

Klar, Texturen, Color Compression usw. ist schon da.

Evtl. gibt es aber noch was besseres. Zum Beispiel ein neues/besseres Format.

Nightspider

2022-03-03, 23:21:23

Mir ist auch gerade aufgefallen das mit LPDDR5X ja schon der nächste Speicherstandard für mobile Geräte auf dem Plan steht.
Wahrscheinlich kommt Phoenix mit LPDDR5X und bis zu 33% höherer Speicherbandbreite.
Vielleicht spart sich AMD dann sogar den IF$ und lässt die IGP vielleicht nur rund ein Drittel schneller werden. Man könnte zwar auf mehr hoffen aber große Sprünge gibts leider nicht jedes Jahr.
Cezanne war bei der IGP auch nur minimal schneller als Renoir auf Grund minimal höherer Taktraten.
RDNA3 erwarte ich auch noch nicht bei Phoenix.

HPVD

2022-03-07, 11:18:35

ZEN4 wohl doch nicht früher...

There seems to be some conflict between my two sources right now. One of them is that ZEN4 will be released early, but from what I've heard at the packaging plant, there's no sign that ZEN4 is going into mass production. I'm confused.
https://twitter.com/greymon55/status/1500386927870033921

If ZEN4 were coming in July-August, then the factory would have started mass production by now, but they didn't.
https://twitter.com/greymon55/status/1500388358597402626

Sunrise

2022-03-07, 11:21:32

ZEN4 wohl doch nicht früher...

https://twitter.com/greymon55/status/1500386927870033921

https://twitter.com/greymon55/status/1500388358597402626
Das Ding ist halt ready, wenn es ready ist, bei AMD erwarte ich (hoffentlich) keine Paperlaunches. Ich würde das nicht als abschließende Wahrheit lesen.

Ich glaube auch nicht, dass es am Silizium an sich (das lief bereits ja blendend) hängt, sondern eher Validierung etc. denn da kommt ja ne Menge neues Zeug (Peripherie) mit.

Gehe davon aus, dass sie ab Q3 aber liefern, alles andere wäre für mich persönlich enttäuschend.

Nightspider

2022-03-07, 11:55:15

Ja vielleicht muss man noch ein paar Wochen auf den IO Chip warten. Da man ja sowieso mehr Compute Dies benötigt würde es ja Sinn ergeben da schon etwas eher mit der Produktion zu beginnen.
Ein Genoa Prozessor braucht immerhin bis zu 12 Compute Dies.

Der Output von N5 ist ja auch begrenzt, also wird AMD so zeitig wie möglich die Compute Chiplets fertigen lassen, selbst wenn es noch an anderen Stellen hängt.

Leonidas

2022-03-07, 14:30:49

Was will man denn Mobile nur mit 5950X +X% Performance ohne dGPU? Das ist doch völlige Verschwendung, bei sowas eine aufgebohrte iGPU reinzupacken.

Arbeiten. Gibt noch anderes als zocken.

Korrekt. Ich brauch Arbeits-Notebooks. Da muß keine dGPU dabei sein, die wäre nur Staubfänger oder Energieverschwender. Und ich kenne einige, die wollen ganz genauso leistuingsfähige Office-Notebooks.

Also bei Cezanne hat das Dual Channel 128 Bit SI "nur" rund 15,4mm² und damit 8,5% Die Area benötigt.
Wenn man weitere ~7mm² in N5 opfert hätte man +50% Bandbreite und die Option für 12/24GB RAM Laptops.

Problem: Extrem unübliches Speicherinterface, läuft dann nur auf extra Platinen - dafür lohnt es nicht, das auf denselben Sockel zu setzen. Und extra Sockel, extra Mainboards, extra Speicher-Kits (TripleChannel) etc. macht die Sache teuer.

Tarkin

2022-03-07, 14:30:54

ZEN4 wohl doch nicht früher...

https://twitter.com/greymon55/status/1500386927870033921

https://twitter.com/greymon55/status/1500388358597402626

vl wird aber für Zen 4 eine andere Packaging Plant genutzt? :wink:

HOT

2022-03-07, 15:02:27

Wenn das Teil im Juli erst auf den Markt kommen soll beginnt die Massenproduktion doch kaum vor April? Zudem ist das dann ja auch keine richtige Massenware, wenn es erst mal nur High-End geben sollte. Wenn die 500€+ sind, dann ist der Markt doch überschaubar.

basix

2022-03-07, 15:48:22

Packaging hätte ich jetzt auch nicht 5 Monate vor Release erwartet, eher so 1-3 Monate, je nach Startstückzahl bei Release. Die ersten Chargen werden oftmals per Luftpost versendet und erst später per Schiff-Container. Massenproduktion der Chips ja, die müsste so langsam starten.

Und ich kenne einige, die wollen ganz genauso leistuingsfähige Office-Notebooks.

Hier :wave: Für etwas CAD (PCB-Layout) braucht es keine dGPU. Heute wird aber oftmals eine Quadro verbaut...

Eine schnelle CPU hätte ich aber schon gerne. Simulationen laufen typ. alle über die CPU (Schaltungsdesign, PCB, EMV, Datenauswertung/Statistik, Algorithmenentwicklung, ..). Ein 15-28W Notebook mit anständiger iGPU und schneller CPU würde meinen Ansprüchen perfekt genügen.

Nightspider

2022-03-07, 16:03:28

Problem: Extrem unübliches Speicherinterface, läuft dann nur auf extra Platinen - dafür lohnt es nicht, das auf denselben Sockel zu setzen. Und extra Sockel, extra Mainboards, extra Speicher-Kits (TripleChannel) etc. macht die Sache teuer.

Die Laptop-Platinen ändern sich doch sowieso dauernd.

Rembrandt hat einen anderen Sockel als Cezanne. Phoenix soll auch einen anderen Sockel als Rembrandt bekommen.

Berniyh

2022-03-07, 16:30:08

Korrekt. Ich brauch Arbeits-Notebooks. Da muß keine dGPU dabei sein, die wäre nur Staubfänger oder Energieverschwender. Und ich kenne einige, die wollen ganz genauso leistuingsfähige Office-Notebooks.
Wenn es die nicht gäbe, dann hätte Intel nicht so viel GPU Anteil. ;)

Tarkin

2022-03-07, 18:09:43

interessant

https://www.reddit.com/r/Amd/comments/t8fh4u/zen_4_release_date_becomes_shrouded_in_confusion/hzpx240/?context=3

"N5 reduced mask count by ~20% and multi-patterning steps by a bit more than 20%. N7 lead times grew to almost 6 months (22 weeks, IIRC). N7+ was a couple weeks shorter with some EUV steps, IIRC, and N5 should be quite a bit shorter still with even more EUV... so down to 14~18 weeks depending on product complexity would seem likely.

I can't find a source for a specific N5 lead time estimate, but N7 is pretty easy to find, and everything about EUV is for reducing production times and cost.

For a variety of reasons April 4~6 is the likely commencement window for Zen 4 using the N5 production equipment (Zen 4 isn't using plain N5, but a customized process based on N5P), that puts the first batch die shipment at July 11~August 08, another couple of weeks for packaging and logistics before a launch would be expected.

We do know AMD has working Zen 4 silicon and current rumors aren't suggesting the need for any respins or major revisions, so some early cycles should be underway already for risk production and samples might be coming out in June for potential inclusion in launch batches. Current samples are hitting 5GHz+ on all cores, so that's a darn good sign.

The one issue I have is a lack of information on the N7 IO die production since those will take longer to produce. AMD bringing out more Zen 3 products isn't a surprise to me... I also kinda expect them to offer more VCache SKUs on Zen 3 if DDR5 prices stay high."