PDA

Archiv verlassen und diese Seite im Standarddesign anzeigen : AMD - Zen 3, 7 nm, 2020 (Vermeer, Cezanne, Genesis Peak & Milan)


Seiten : 1 2 3 [4] 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27

Nightspider
2019-12-01, 02:24:37
Es gibt also kein Problem mit der Kompatibilität. Zumal das I/O-Die eh gleich bleibt.

Reine Mutmaßung.

CompuJoe
2019-12-01, 02:42:20
Rein Theoretisch könnte man auch noch Zen 4 auf AM4 bringen, einfach die Zen4 Chiplets mit dem jetzigen IO-Die koppeln, man ist da recht variabel ^^

HOT
2019-12-01, 10:43:02
Das wird man nicht tun. Man wird AM4 bis zur Nachfolge-APU zu Renoir nutzen und in 2021 einen neuen I/O-Die mit DDR5 und PCIe5 vorstellen, der dann 2 Zen3-Chiplets nutzen wird. Damit läutet man eben AM5 ein. Die nächste APU, die dann Anfang 2022 erscheint, wird dann ebenfalls schon AM5 sein. Zen4 kommt erst in 2022, eher gegen Ende würde ich sagen (N5 Pro soll ja in 2022 überhaupt erst "reif" werden), so lange muss man nicht auf die neue Plattform verzichten. Hey, Luke Skywalker, nutze die Macht. Wenn man schon Chiplets hat, wieso nicht davon profitieren? Was soll daran bitte so unwahrscheinlich sein? Das wäre ja nicht mal ein Zen3+, das Chiplet verändert sich ja nicht, sondern nur ein Zen3 mit DDR5 und PCIe5.

Complicated
2019-12-01, 12:01:57
Ich bin mir überhaupt nicht so sicher ob AMD direkt so schnell DDR5 und PCIe5 etablieren will.

Derzeit hat Intel ja vor die DDR4/PCIe4 Generation so schnell wie möglich zu überspringen mangels konkurrenzfähiger Produkte. Allerdings ist der Mehrwert nur in Servern vielleicht vorhanden zu diesem Zeitpunkt. Um den Sprung schnell durchzuführen muss allerdings auch Peripherie dafür vorhanden sein. Da muss Intel direkt SSDs mit anbieten und der DDR5-Speicher wird sehr teuer sein, solange AMD nicht ebenfalls DDR5 nutzt, und die Preise dadurch fallen. RAM-Hersteller müssen ja auch erst einmal umstellen wollen in entsprechender Kapazität. AMD könnte durchaus auf AM4 verbleiben um die Plattformkosten im Vergleich für Intel zur Bremse zu machen. Im Serverbereich können Sie mit einem eigenen I/O-Die kontern und ganz locker AM4 noch weiter behalten im Mainstream. Da wird Intel auch mit DDR5/PCIe5 Probleme haben die Leute zu überzeugen für bis zu 16 Kerne.

Da kannst du ganz gemütlich bei Servern anfangen mit DDR5 um irgendwann die TRX-Plattform upzugraden und in 2 Jahren kann AM4 immer noch mit einem IO-Upgrade für USB4 einen breiten Markt bedienen, der kein Interesse an teurem DDR5 hat.

w0mbat
2019-12-01, 12:47:24
Wieso sollte AMD Intel die technologische Führung überlassen? Und vor allem bei APUs wird schneller DDR5 RAM sehr viel bringen.

Ich denke auch dass Zen4 auf AM5 mit DDR5 und PCIe 5.0 kommen wird. Ende 2021/Anfang 2022.

Langlay
2019-12-01, 12:53:33
Nur weil irgendwann ein AM5 Sockel kommt musst das ja nicht zwingend heissen das AM5 CPUs nimmer im AM4 Sockel laufen.

AM3 CPUs konnte man z.b. auch in AM2(+) Boards betreiben. Wenn es möglich ist sowas mit AM4 Boards & AM5 CPUs auch hinzubekommen wäre das doch ein schönes Feature und Alleinstellungsmerkmal ggü. Intel.

LadyWhirlwind
2019-12-01, 17:20:02
Nur weil irgendwann ein AM5 Sockel kommt musst das ja nicht zwingend heissen das AM5 CPUs nimmer im AM4 Sockel laufen.

AM3 CPUs konnte man z.b. auch in AM2(+) Boards betreiben. Wenn es möglich ist sowas mit AM4 Boards & AM5 CPUs auch hinzubekommen wäre das doch ein schönes Feature und Alleinstellungsmerkmal ggü. Intel.

Am Ende dürfte die Zahl derer, die nur eine CPU tauschen und nicht ein neues Mainboard kaufen gering sein, vor allem wenn die neuen Mainboards DDR5 und PCI-E 5 können und das alte board nicht.

Wenn sie es rechtzeitig ankünden, wird der Shitstorm schnell um sein.

robbitop
2019-12-01, 17:41:33
AM4 Mainboards der ersten Generation unterstützen so ziemlich alle die 3. CPU Generation nacheinander. Das ist deutlich mehr als man vorher kannte. IMO ist ab jetzt schon kein Shitstorm mehr legitim. Gibt aber natürlich immer Leute die den Hals nicht voll bekommen.
Ich denke aber mal, dass AMD bei Zen 3 auch noch abliefern wird. Wenn ja wäre das sehr vorbildlich. Aber IMO nicht selbstverständlich.

Sweepi
2019-12-01, 18:51:11
Am Ende dürfte die Zahl derer, die nur eine CPU tauschen und nicht ein neues Mainboard kaufen gering sein, [..]

Auf meinem ASUS M2N32 SLI Deluxe (AM2+) lief der Phenom II X3 720 BE einige Jahre gut mit DDR2 :biggrin:


Das ist deutlich mehr als man vorher kannte. IMO ist ab jetzt schon kein Shitstorm mehr legitim
Stimme ich zu, trotzdem fände ich aus egoistischen Gründen einen Übergangssockel AM4+ top :)

Nightspider
2019-12-02, 02:00:57
Wieso sollte AMD Intel die technologische Führung überlassen? Und vor allem bei APUs wird schneller DDR5 RAM sehr viel bringen.

Ich denke auch dass Zen4 auf AM5 mit DDR5 und PCIe 5.0 kommen wird. Ende 2021/Anfang 2022.

Die ersten DDR5 Riegel werden kaum schneller als die guten DDR4 Riegel.

Und mit Pech wird DDR5 am Anfang erstmal deutlich teurer.

Für Laptops kann AMD zukünftig ja auch auf LPDDR5X zurückgreifen, der dank Smartphones und Tablets schnell etabliert sein wird.

Gibt ja jetzt schon bezahlbare Smartphones mit schnellen 12GB LPDDR4X, wieso also nicht in 9 Monaten auf den LPDDR5X Zug aufspringen bei Renoir und seinem Zen 3 Nachfolger.

BoMbY
2019-12-02, 08:56:35
Gibt es irgendeinen Grund davon auszugehen, dass Zen3 einen neuen Sockel braucht ?

Für DDR5 wird es einen neuen Sockel geben. Das sollte eigentlich ab nächstem Jahr verfügbar sein.

HOT
2019-12-02, 09:20:50
Klar gibts da nen neuen Sockel :freak:.
Und ein Grund mehr den Zwischenschritt zu gehen und Zen3 für DDR5 und DDR4 verfügbar zu machen.

SKYNET
2019-12-02, 10:34:07
Wieso sollte AMD Intel die technologische Führung überlassen? Und vor allem bei APUs wird schneller DDR5 RAM sehr viel bringen.

Ich denke auch dass Zen4 auf AM5 mit DDR5 und PCIe 5.0 kommen wird. Ende 2021/Anfang 2022.

PCIe 5.0 wird wohl vorerst EPYC vorbehalten sein...

Piefkee
2019-12-02, 11:05:14
http://https://www.anandtech.com/show/14568/an-interview-with-amds-forrest-norrod-naples-rome-milan-genoa


DDR5 is a different design. It will be on a different socket. We've already said Milan is a mid-2020 platform, and we've already said that's socket SP3, so DDR4 will still be used for Milan.


Können wir jetzt bitte endlich damit aufhören ? Zen 3 ist DDR4 und vehemer bleibt auf AM4

HOT
2019-12-02, 11:07:43
PCIe 5.0 wird wohl vorerst EPYC vorbehalten sein...
Nope, da Genoa erst 2. HJ 2022 erwartet wird.

Leute, es besteht einfach kein Zweifel. PCIe4 und DDR4 bleiben bei AM4, PCIe5 und DDR5 werden in AM5 zum Einsatz kommen und natürlich erfordert das neue I/O-Dies und ist daher keinesfalls kompatibel zueinander. Es besteht nur noch die Frage, ob man AM5 mit Zen4 einführt oder vorher.

Ich gehe davon aus, dass man für 2021 ein neues I/O-Die+Chipsatz für DDR5/PCIe5 vorsieht und damit einfach Zen3-Chiplets kombinieren wird, voilà fertig ist der Refresh. Damit etabliert man gleich DDR5 im Markt, ohne Risiken einzugehen, weil DDR4 Zen3 ja bestehen bleiben würde und hätte gleich besseren Speicher für die 2022er APU zur Verfügung. Zen4 kann sich dann in ein gemachtes Bett legen.
In dem Fall gibts auch keinen Zen3+, da es ja dasselbe Chiplet bleibt, es gibt ja auch keinen kompatiblen Refresh-Prozess dafür. Also hat die Roadmap recht, es bleibt Zen3 bis Zen4 aber es sagt doch keiner, dass das I/O erst bei Zen4 erneuert wird.

SKYNET
2019-12-02, 11:12:03
http://https://www.anandtech.com/show/14568/an-interview-with-amds-forrest-norrod-naples-rome-milan-genoa



Können wir jetzt bitte endlich damit aufhören ? Zen 3 ist DDR4 und vehemer bleibt auf AM4

klar ist Zen3 AM4... wurde ja auch 1000-fach von AMD so kommuniziert, alles bis einschliesslich 2020 bleibt auf AM4 für die mainstream desktoplösung.

Semmel
2019-12-02, 12:06:41
klar ist Zen3 AM4... wurde ja auch 1000-fach von AMD so kommuniziert, alles bis einschliesslich 2020 bleibt auf AM4 für die mainstream desktoplösung.

Ja, das ist denke ich auch sicher.

Offen ist für mich nur die Frage, ob auch noch ein neuer Chipsatz kommt.

Für mich steht fest: Der beste AM4-Prozessor, der nächstes Jahr kommt, wird von mir gekauft. (vermutlich ein 4950X) Dann hat meine 2017er Plattform nochmal ein ordentliches Upgrade bekommen, mit der ich einige Jahre leben kann. Meinen DDR4-RAM will ich gerne noch länger nutzen. Aber beim Mobo überlege ich ein Upgrade und das könnte ich ja vorziehen, wenn X570 der letzte Chpsatz bleibt. Allerdings habe ich noch die Hoffnung, dass ein passiv gekühler X670 nachkommt. Von daher warte ich erstmal ab.

Complicated
2019-12-02, 12:29:00
@Hot
Zen3 wird kein DDR5, da es 2H/2020 kommt und nicht 2021. Da ist schon Zen4 auf der Roadmap. Keine Ahnung wen die abweichenden Timelines von dir verwirren sollen.

w0mbat
2019-12-02, 12:35:37
Les nochmal was HOT geschrieben hat...

robbitop
2019-12-02, 13:40:52
Bei einem 5 Quartals Release Rhytmus gäbe es im Kalenderjahr 2021 kein neues Produkt. Zen 3 Ende 2020 und Zen 4 Anfang 2022.
Entsprechend wäre es zumindest denkbar Zen 3 in 2021 mit dem IO Die für Zen 4 zu kombinieren und somit einen Refresh zu bringen. Alle Komponenten dafür hat man eh (CPU Cores) oder braucht man sowieso später (DDR 5 IO Die). Dank reifender Fertigung und ggf Microcodeupdate? könnte man ggf sogar ein kleines bisschen mehr Performance rausquetschen. Zen 3 refresh. Macht Intel seit Jahren so.

Obiges ist natürlich nur eine potenzielle Möglichkeit- heisst nicht, dass AMD das macht.
Aber es hilft definitiv dem Geschäft und im Gespräch zu bleiben wenn man etwas Neues launchen kann. Ansonsten bliebe für 2021 wohl nur die Zen 3 APU und ggf Threadripper 4000.

BoMbY
2019-12-02, 14:12:31
Können wir jetzt bitte endlich damit aufhören ? Zen 3 ist DDR4 und vehemer bleibt auf AM4

"Will still be used" heißt aber eben nicht "exclusively". Die Aussage wäre immer noch wahr wenn es das für AM4 mit DDR4 und AM5 mit DDR5 gibt. Alles was man machen müsste wäre ein anderes Package nutzen, und eventuell ein anderes IO-Die, aber auch das nicht zwangsläufig.

amdfanuwe
2019-12-02, 14:33:21
AMD bringt neue Produkte, wenn das Design Marktfähig ist und der Prozess die Erwartungen erfüllt.
Wie schnell kommt da mal ein Bug dazwischen, der ein paar Monate Verzögerung verursacht oder der Prozess bringt nicht die erwarteten Yields. DDR5 müssen auch die Hersteller soweit sein für die Massenfertigung und PCIe 5.0 muß der Standard auch in trockenen Tüchern sein. Da kann so viel geschehen.

ZEN 3 wird ENDE 2020 erwartet, da geht es noch weit in 2021 rein, bis das Portfolio komplett im Markt ist.
Denkt mal an ZEN1. Der wurde bereits Anfang 2015 auf den Roadmaps aufgeführt für 2016.
13.Dez.2016 haben sie es dann so eben geschafft ZEN1 vorzustellen, 2017 gings dann erst richtig los.
Also, ZEN 2 ist weitestgehend abgehakt, 2020 wird GPU Jahr und Ende 2020 sparen wir für ZEN 3 Anfang 2021.

maximus_hertus
2019-12-02, 15:14:35
AMD bringt neue Produkte, wenn das Design Marktfähig ist und der Prozess die Erwartungen erfüllt.
Wie schnell kommt da mal ein Bug dazwischen, der ein paar Monate Verzögerung verursacht oder der Prozess bringt nicht die erwarteten Yields. DDR5 müssen auch die Hersteller soweit sein für die Massenfertigung und PCIe 5.0 muß der Standard auch in trockenen Tüchern sein. Da kann so viel geschehen.

ZEN 3 wird ENDE 2020 erwartet, da geht es noch weit in 2021 rein, bis das Portfolio komplett im Markt ist.
Denkt mal an ZEN1. Der wurde bereits Anfang 2015 auf den Roadmaps aufgeführt für 2016.
13.Dez.2016 haben sie es dann so eben geschafft ZEN1 vorzustellen, 2017 gings dann erst richtig los.
Also, ZEN 2 ist weitestgehend abgehakt, 2020 wird GPU Jahr und Ende 2020 sparen wir für ZEN 3 Anfang 2021.

Die Roadmaps sagen da aber was anderes. Es würde mich sehr wundern, wenn Zen 3 später als Oktober 2020 kommt. Tendenziell tippe ich auf Seotember 2020. Zumindest der Desktopbereich von 250 - 500 USD.

HOT
2019-12-02, 16:24:09
[...]

Obiges ist natürlich nur eine potenzielle Möglichkeit- heisst nicht, dass AMD das macht.
Aber es hilft definitiv dem Geschäft und im Gespräch zu bleiben wenn man etwas Neues launchen kann. Ansonsten bliebe für 2021 wohl nur die Zen 3 APU und ggf Threadripper 4000.
Zen4 Anfang 22 ist absolut utopisch.
Bisher kam die entsprechende CPU immer ca. 1 bis 1 1/2 Jahre nach Fertigstellung des Prozesses. Das wird auch bei N5 Pro so sein, und genau den wird man nutzen.

amdfanuwe
2019-12-02, 17:24:51
Die Roadmaps sagen da aber was anderes. Es würde mich sehr wundern, wenn Zen 3 später als Oktober 2020 kommt. Tendenziell tippe ich auf Seotember 2020. Zumindest der Desktopbereich von 250 - 500 USD.
Selbst wenn der im Oktober vorgestellt wird, heißt das nicht, dass AMD den Desktop zuerst bedient. Da gibt es die geringsten Margen.
Je nach Lagerbestand, Konkurrenzsituation, Produktionsyield etc. wird AMD für die Firma das optimalste Launch Scenario ausrechnen.
ZEN 2 wurde auch im Juli vorgestellt und nächstes Jahr wird das Portfolio erst komplettiert mit 64C TR. ZEN 2 so früh im Desktop machte auch Sinn, da damit auf Intel stark aufgeholt wurde in der SC Performance und Datacenter noch nicht so sehr darauf vorbereitet war.
Könnte mit ZEN 3 anders aussehen, dass erst mal DC bedient wird.
Vielleicht gibt es ja wenigstens einen 9900KS Killer fürs Weihnachtsgeschäft 2020.

reaperrr
2019-12-02, 18:00:09
Zen4 Anfang 22 ist absolut utopisch.
Bisher kam die entsprechende CPU immer ca. 1 bis 1 1/2 Jahre nach Fertigstellung des Prozesses. Das wird auch bei N5 Pro so sein, und genau den wird man nutzen.
Der geht aller Voraussicht nach in Q2 2020 in Risk Production, ich sehe nicht, warum der nicht früh genug fertig werden sollte, um Zen4 Anfang 2022 ~15 Monate nach Zen3 rausbringen zu können.
Zumal Zen4 im Gegensatz zu Zen3 wahrscheinlich ein etwas kleinerer Architekturschritt wird, um die Risiken durch neuen Prozess und neue Plattform abzumildern.

Gipsel
2019-12-02, 18:16:34
Zen4 Anfang 22 ist absolut utopisch.
Bisher kam die entsprechende CPU immer ca. 1 bis 1 1/2 Jahre nach Fertigstellung des Prozesses. Das wird auch bei N5 Pro so sein, und genau den wird man nutzen.Der Zeitrahmen von Ende 2021 für Zen4 kommt aber von AMD selber. Und TSMC N5 startet offiziell die Massenproduktion in Q1/20. Paßt doch! ;)
Oder bestehst Du auf dem N5P-Gerücht? Wie sicher ist das denn überhaupt? Bei 7nm hat AMD auch nicht auf N7P gewartet (sondern Zen 2 kam in N7 und Zen3 kommt wohl in N7+ [ist sowieso etwas besser als N7P, allerdings nicht kompatibel, was bei einem neuen Chip egal ist]).
N5P wird aber wieder voll kompatibel zu N5 sein, so daß AMD damit theoretisch irgendwann 2022 einen Zen4+ Refresh mit einem gewissen Frequenzupdate produzieren könnte, ohne irgendwas am eigentlichen CCD und dem Maskenset dafür zu ändern (so ähnlich hat AMD das ja auch mit Zen+ auf GF's 12nm gemacht).

robbitop
2019-12-02, 18:26:21
Der geht aller Voraussicht nach in Q2 2020 in Risk Production, ich sehe nicht, warum der nicht früh genug fertig werden sollte, um Zen4 Anfang 2022 ~15 Monate nach Zen3 rausbringen zu können.
Zumal Zen4 im Gegensatz zu Zen3 wahrscheinlich ein etwas kleinerer Architekturschritt wird, um die Risiken durch neuen Prozess und neue Plattform abzumildern.
Mal schauen. Zen 1 brachte ja beides gleichzeitig: brandneue uArch und Prozess.

@Gipsel: Start Massenproduktion ist aber sicherlich ein paar Monate vor einem Hardlaunch nötig. Kann schlecht beides Q1 2022 sein.

Gipsel
2019-12-02, 18:33:48
@Gipsel: Start Massenproduktion ist aber sicherlich ein paar Monate vor einem Hardlaunch nötig. Kann schlecht beides Q1 2022 sein.N5 startet Massenproduktion offiziell bereits Q1/2020 (Risk production gibt es seit Q1/19). Rechne 1-1,5 Jahre auf den Start der Massenproduktion (für kleinere Chips) drauf (wie von HOT angegeben und konsistent mit der Vergangenheit für größere high performance Chips) und Du landest irgendwann H2/21. Deswegen ist ein Launch von Zen4 Ende 2021 (wie von AMD avisiert) lockerst drin. N5P startet risk production in Q2/2020. Selbst da könnte das also noch klappen, wenn der Ramp wie von TSMC geplant noch schneller als bei den 7nm Prozessen funktioniert (wird aber verdammt eng, weswegen ein Zen4+-Refresh darauf irgendwann später in 2022 im Moment wahrscheinlicher aussieht; nach der bisherigen Kadenz hieße das HVM dann Q2/21 => Produktlaunch im Q3/22, also pünktlich für Ryzen 6000-Linie?).

Mal zum Vergleich: Der 7nm-Prozeß für Zen2 (N7) ging offiziell im April 2018 in Massenproduktion (Risk production ab April 2017). 15 Monate später (Juli 2019) starteten die Zen2-Ryzens.

robbitop
2019-12-02, 18:47:00
Danke für die Erläuterungen. Hatte mich verlesen im vorherigen Post. Wie immer sehr hilfreich! :up:

amdfanuwe
2019-12-02, 19:37:07
Mal zum Vergleich: Der 7nm-Prozeß für Zen2 (N7) ging offiziell im April 2018 in Massenproduktion (Risk production ab April 2017). 15 Monate später (Juli 2019) starteten die Zen2-Ryzens.
und offiziell wurde VEGA 20 7nm Mite Nov. 18 released, 7 Monate nach Start der Massenproduktion.
Nehme mal an, dass wieder eine GPU den Pipecleaner macht bei 7nm+.

SKYNET
2019-12-02, 19:56:00
und offiziell wurde VEGA 20 7nm Mite Nov. 18 released, 7 Monate nach Start der Massenproduktion.
Nehme mal an, dass wieder eine GPU den Pipecleaner macht bei 7nm+.

klar, der fette navi wirds in diesem fall sein :)

HOT
2019-12-02, 19:57:10
Der geht aller Voraussicht nach in Q2 2020 in Risk Production, ich sehe nicht, warum der nicht früh genug fertig werden sollte, um Zen4 Anfang 2022 ~15 Monate nach Zen3 rausbringen zu können.
Zumal Zen4 im Gegensatz zu Zen3 wahrscheinlich ein etwas kleinerer Architekturschritt wird, um die Risiken durch neuen Prozess und neue Plattform abzumildern.

Risc-Production start Q2 2020, Volume Production Q2 2021 und Produkte dann Q3-4 2022. Sagen wir TSMC startet so im Q2 2021 die Massenproduktion und AMD steigt dann in den 5-Monate-Zyklus ein, kannst du dir ausrechnen wo man rauskommt. Das widerspricht sich nämlich gar nicht. 2021 wird definitiv nix mehr mit Zen4 und 1.HJ 22 wird ambitioniert.

Also bleibts bei meiner Planung:

September 2020 -> Zen3 AM4
Q3-4 2021 -> Zen3 AM5
Q3-4 2022 -> Zen4 AM5

Gipsel
2019-12-02, 20:40:14
2021 wird definitiv nix mehr mit Zen4 und 1.HJ 22 wird ambitioniert.Oder man nimmt N5 statt N5P und man hält den von AMD avisierten Zeitraum von Ende 2021, ein Jahr nach Zen3.
Also bleibts bei meiner Planung:

September 2020 -> Zen3 AM4
Q3-4 2021 -> Zen3 AM5
Q3-4 2022 -> Zen4 AM5Oder man macht Folgendes:
Q3/Q4 2020 Zen3 (AM4) auf N7+ (Ryzen 4k)
Q3/Q4 2021 Zen4 (AM4/AM5) auf N5 (Ryzen 5k)
Q3/Q4 2022 Zen4+ (AM5) auf N5P (Ryzen 6k)

Mir ist nicht bewußt, daß es irgendeine Aussage von AMD gibt, wo man sich für Zen4 auf N5P festlegt. Ich kenne nur die Roadmap, wo Zen4 für 2021 drauf steht. Und dann paßt N5 am besten.

Piefkee
2019-12-02, 21:27:25
Risc-Production start Q2 2020, Volume Production Q2 2021 und Produkte dann Q3-4 2022. Sagen wir TSMC startet so im Q2 2021 die Massenproduktion und AMD steigt dann in den 5-Monate-Zyklus ein, kannst du dir ausrechnen wo man rauskommt. Das widerspricht sich nämlich gar nicht. 2021 wird definitiv nix mehr mit Zen4 und 1.HJ 22 wird ambitioniert.

Also bleibts bei meiner Planung:

September 2020 -> Zen3 AM4
Q3-4 2021 -> Zen3 AM5
Q3-4 2022 -> Zen4 AM5

Leute warum spekuliert ihr hier um irgendwelche wilden Sachen rum ? Bleibt doch einfach bei der Roadmap von AMD?

Zen2 —> 2019
Zen3 —> 2020
Zen4 —> 2021/2022

Und dein N5P kannst du vergessen das wird nicht verwendet werden. Man wird ganz normales N5 benutzen.
Kann die auch den Grund sagen. TSMC hat bei N5 gleich die HPC Parameter von Anfang an dabei. Suche dir gerne die Quelle raus.

Piefkee
2019-12-02, 21:31:57
http://https://fuse.wikichip.org/news/2879/tsmc-5-nanometer-update/

N5 is TSMC’s next ‘full node’. TSMC expects N5 to ramp and reach high yield even faster than N7. A slight change from N7 is the fact that this node has been optimized upfront for both mobile and HPC. In the last few nodes, TSMC used to introduce a low-power mobile process first and then go back and optimize for HPC.

amdfanuwe
2019-12-02, 23:04:56
TSMC sieht da wohl das große Geschäft mit AMD, wenn sie früher einen besseren Prozessnode als Intels auffahren können.
Dürfte mit N5 ja auch wieder einen Kernupdate geben, 96Core max?

SKYNET
2019-12-02, 23:39:51
TSMC sieht da wohl das große Geschäft mit AMD, wenn sie früher einen besseren Prozessnode als Intels auffahren können.
Dürfte mit N5 ja auch wieder einen Kernupdate geben, 96Core max?

tippe eher auf verdopplung der kerne im server segment --> 128C/256T
HEDT dürfte wohl bei 64C/128T verweilen, genau wie mainstream bei 16/32T...

LadyWhirlwind
2019-12-03, 00:05:52
tippe eher auf verdopplung der kerne im server segment --> 128C/256T
HEDT dürfte wohl bei 64C/128T verweilen, genau wie mainstream bei 16/32T...
Man wird die Leistung nicht immer nur mit mehr Kerne steigern können.
Abseits von den Aufgaben die beliebig parallelisierbar sind, würde das ja auch kein Leistungsgewinn bringen. Da wird man mit der Zeit wohl eher auch in mehr IPC investieren.

Felixxz2
2019-12-03, 00:05:57
Dann mit 16 Kern oder 8 Kern Chiplets?

Ravenhearth
2019-12-03, 01:24:27
Ich würde nicht zu viel erwarten. N5 soll laut TSMC nur 20% power reduction gegenüber N7 bieten (noch nichtmal N7+). Bei 7nm vs 14nm GloFo waren es laut AMD noch 50%. Wie soll man so die Kernzahl um 50% erhöhen oder gar verdoppeln? Könnte mir eher vorstellen, dass die Kernzahl auch bei Zen 4/5nm so bleibt und man sich auf IPC und Takt konzentriert.

SKYNET
2019-12-03, 01:44:43
Ich würde nicht zu viel erwarten. N5 soll laut TSMC nur 20% power reduction gegenüber N7 bieten (noch nichtmal N7+). Bei 7nm vs 14nm GloFo waren es laut AMD noch 50%. Wie soll man so die Kernzahl um 50% erhöhen oder gar verdoppeln? Könnte mir eher vorstellen, dass die Kernzahl auch bei Zen 4/5nm so bleibt und man sich auf IPC und Takt konzentriert.

takt ein wenig reduzieren, dadurch spannung noch wieter absenken, durch verbesserte fertigung(5nm) nochmals strom gespart = 50% einsparung an strom = 100% mehr kerne bei gleichem verbrauch... die mehrleistung bei software die den corecount unterstützt dürfte massiv sein, gehe von 70-80% aus... und in zweifelsfall macht AMD halt ne 400W CPU draus, um an die 100% mehrleistung in MT zu erzielen.... weil die energie effizienz ist immernoch überragend... 2x 250W a 64/128 oder 1x 400W 128/256... ist wohl klar was vorzuziehen ist, und bei systemen wo der stromverbrauch eh egal ist, kann man so die doppelte anzahl cores pro server verbauen.

Großmeister_Varius
2019-12-03, 01:58:36
Bis wir ein beliebtes Spiel sehen, das bis zu 16 Kerne/32 Threads wirklich ausnutzt, wird noch viel Zeit vergehen. Es ist viel teurer aufwendige Skripte und Routinen zu entwickeln, die so umfangreich/verschachtelt werden, dass für deren Abarbeitung eine hohe Kernzahl notwendig wird. Es ist immer noch bedeutend billiger und schneller eine hübsche Grafik zu basteln, als eine schlaue KI oder eine umfangreiche Physiksimulation. Es gibt ja auch mehr Grafiker und 3D Artists, als es begabte Programmierer gibt und die wirklich guten arbeiten tendenziell eher bei IBM, google, oder der Nasa, als bei einem Spieleentwickler. Das wird sich auch so schnell nichts ändern.

AMDs Problem sind nicht zu wenig Kerne, sondern im Vergleich mit dem Konkurrenten immer noch etwas zu wenig Takt. Ich vermute, dass man zwischen 200-300Mhz mehr aus Zen 3 herausholen wird im Vergleich zu Zen 2, viel mehr hat man ja von 14 auf 7nm auch nicht erreicht und das war ein weit größerer Schritt. Der geteilte (potentiell riesige) Cache könnte aber durchaus für Spiele einen Unterschied machen, wenn nur ein Teil der Kerne genutzt wird, was ja auf absehbare Zeit so bleiben wird. Wird der Memory Controller auch mehr können als DDR4 3200?. DDR5 kommt erst mit Zen 4 auf neuem Chipsatz oder?

reaperrr
2019-12-03, 02:03:52
Risc-Production start Q2 2020, Volume Production Q2 2021 und Produkte dann Q3-4 2022. Sagen wir TSMC startet so im Q2 2021 die Massenproduktion und AMD steigt dann in den 5-Monate-Zyklus ein, kannst du dir ausrechnen wo man rauskommt. Das widerspricht sich nämlich gar nicht. 2021 wird definitiv nix mehr mit Zen4 und 1.HJ 22 wird ambitioniert.

Also bleibts bei meiner Planung:

September 2020 -> Zen3 AM4
Q3-4 2021 -> Zen3 AM5
Q3-4 2022 -> Zen4 AM5
Dann kommt Zen4 in N5 ohne P.
AMD verschiebt Zen4 nicht ein ganzes Jahr für ein Prozess-Update, das sage und schreibe 7% mehr Performance bringt. Mit Zen2 haben sie auch nicht auf N7P gewartet...

tippe eher auf verdopplung der kerne im server segment --> 128C/256T
N5 (ohne P) hat laut TSMC selbst in der Standardvariante mit 1,8-facher Packdichte nur 15% mehr Perf@ISO-Power bzw. 30% weniger Verbrauch bei gleichbleibender Performance.
Für die HPC-optimierten Transistoren sind zwar bis zu 25% mehr Perf angegeben, aber das kostet dann wieder Packdichte.

Wenn AMD die Taktraten von Zen3 halten, die IPC weiter verbessern (mehr Transistoren, z.B. noch mehr L3-Cache) und dann noch die Kosten je Chiplet gering halten will, sehe ich nicht, dass mehr als 96 Kerne drin sind (Chiplets blieben bei 8C, nur dass dann 12 statt 8 verbaut werden).

amdfanuwe
2019-12-03, 02:30:55
Ist doch eigentlich egal ob 96 oder 128 Kerne. Für Gamer sind vorerst nur 8 Kerne interessant und die, die wirklich viele Kerne brauchen sind für jeden dankbar der mehr Performance/Watt bringt.
AMD wird die technischen Möglichkeiten ausschöpfen in Hinblick auf HPC und wir können froh sein, wenn für uns auch etwas mehr abfällt.
Der Takt ist weitestgehend vom Prozess abhängig, die IPC läßt sich nicht beliebig steigern; ich schätze mit 3nm wird sich die aktuelle gebotene Leistung verdoppeln, jedoch nicht single Core mäßig.

r-or
2019-12-03, 03:19:19
Man wird die Leistung nicht immer nur mit mehr Kerne steigern können.
Abseits von den Aufgaben die beliebig parallelisierbar sind, würde das ja auch kein Leistungsgewinn bringen. Da wird man mit der Zeit wohl eher auch in mehr IPC investieren.
AMD interessiert vorrangig kein Gamer. Das ist für VM/Container gedacht. Oder Apps, die einfach in beliebig vielen Instanzen laufen.
90% der parallelisierbarkeit z.b. im Data Science Bereich skaliert perfekt über beliebig viele Python Instanzen. Klar könnte man das alles in cpp umschreiben, womit man 10x speedup hat, aber wer hat dafür Zeit/Lust in einem derart kurzlebigen FachGebiet? Ist fast egal, was die Workstation kostet.

Zossel
2019-12-03, 05:26:33
Man wird die Leistung nicht immer nur mit mehr Kerne steigern können.
Abseits von den Aufgaben die beliebig parallelisierbar sind, würde das ja auch kein Leistungsgewinn bringen. Da wird man mit der Zeit wohl eher auch in mehr IPC investieren.

Hyperscaler und Cloudprovider werfen genügend Kohle ab, um die Brotkrumen von den Zockern denen Meltdown und Spectre egal ist kann sich Intel kümmern.

Zossel
2019-12-03, 05:28:14
Ich würde nicht zu viel erwarten. N5 soll laut TSMC nur 20% power reduction gegenüber N7 bieten (noch nichtmal N7+). Bei 7nm vs 14nm GloFo waren es laut AMD noch 50%. Wie soll man so die Kernzahl um 50% erhöhen oder gar verdoppeln? Könnte mir eher vorstellen, dass die Kernzahl auch bei Zen 4/5nm so bleibt und man sich auf IPC und Takt konzentriert.

Intel bereitet doch gerade für AMD höhere TPDs im Serversegment vor.

Hat Intel überhaupt schon grössere Mengen an EUV-Belichtern gekauft?

Berniyh
2019-12-03, 07:24:45
Bis wir ein beliebtes Spiel sehen, das bis zu 16 Kerne/32 Threads wirklich ausnutzt, wird noch viel Zeit vergehen. Es ist viel teurer aufwendige Skripte und Routinen zu entwickeln, die so umfangreich/verschachtelt werden, dass für deren Abarbeitung eine hohe Kernzahl notwendig wird. Es ist immer noch bedeutend billiger und schneller eine hübsche Grafik zu basteln, als eine schlaue KI oder eine umfangreiche Physiksimulation. Es gibt ja auch mehr Grafiker und 3D Artists, als es begabte Programmierer gibt und die wirklich guten arbeiten tendenziell eher bei IBM, google, oder der Nasa, als bei einem Spieleentwickler. Das wird sich auch so schnell nichts ändern.

AMDs Problem sind nicht zu wenig Kerne, sondern im Vergleich mit dem Konkurrenten immer noch etwas zu wenig Takt. Ich vermute, dass man zwischen 200-300Mhz mehr aus Zen 3 herausholen wird im Vergleich zu Zen 2, viel mehr hat man ja von 14 auf 7nm auch nicht erreicht und das war ein weit größerer Schritt. Der geteilte (potentiell riesige) Cache könnte aber durchaus für Spiele einen Unterschied machen, wenn nur ein Teil der Kerne genutzt wird, was ja auf absehbare Zeit so bleiben wird. Wird der Memory Controller auch mehr können als DDR4 3200?. DDR5 kommt erst mit Zen 4 auf neuem Chipsatz oder?
Warum wird der Wert denn überhaupt so stark auf Spiele-Performance gelegt, wenn das doch nur ein kleiner Teil des Marktes ist?
bzw.: warum geilt man sich so an Spiele-Benchmarks auf, wenn die CPU dort doch eh eine untergeordnete Rolle spielt.
Ok, abgesehen von konstruierten Benchmarks bei niedrigen Auflösungen, welche aber auch wenig Praxisrelevanz haben …

128C wird sicher relativ bald kommen (Zen 4 oder 5), zumindest im Server. Dort sind mehr Cores einfach Gold wert, gerade bei Cloud-Anbietern (und diese gehören nach Berichten inzwischen verstärkt zu den Kunden von AMD).
Im Desktop wird man wohl beim aktuellen Status bleiben. Mehr bringt da in der Tat nicht viel.
In Frage stellen könnte man die 128C höchstens dahingehend, als dass das evtl. nicht mit 8C Chiplets vereinbar ist. (vermutlich eher nicht)
Auf dem Desktop wird man aber wohl eher weiter mit 8C Chiplets arbeiten wollen und nicht mit 16C Chiplets.
Eine 128C CPU bräuchte also entweder 16 8C Chiplets oder 8 16C Chiplets (d.h. ein eigenes Design). Beides erscheint mir irgendwie unwahrscheinlich, da es den Aufwand enorm erhöht.

basix
2019-12-03, 07:53:44
Wieso erhöht es den Aufwand? Anzahl Chiplets ist gleich, Banbreite pro Core ist gleich (DDR5).

basix
2019-12-03, 07:55:05
Wieso erhöht es den Aufwand? Anzahl Chiplets ist bei 8x gleich, Banbreite pro Core ist gleich (DDR5).

Desktop geht im Schnitt von 8C auf 10-12C.

Zwei verschiedene Chiplets lohnen sich wie du sagst nicht.

Ich vermute eher, bei 5nm gehen sie auf max. 96 Cores. Inkl. dem wahrscheinlich grösseren Cache ergäbe das wieder eine ähnliche Chiplet Grösse. Lieber noch was Die Size für IPC, Takt und SMT4 aufwenden. 2x Performance bei 96C wären besser als 2x Performance bei 128C.

Berniyh
2019-12-03, 08:00:39
Wieso erhöht es den Aufwand? Anzahl Chiplets ist gleich, Banbreite pro Core ist gleich (DDR5).
Weil ich mir einfach nicht vorstellen kann, dass man im Desktopmarkt (schon 2022) mit 16C Chiplets arbeiten wird.

Die Anzahl Cores ist hier in den letzten 2-3 Jahren regelrecht explodiert, da muss jetzt erst mal die Software halbwegs nachziehen, damit es sich lohnt in der Masse mehr als 8C anzubieten.

Wenn natürlich der bessere Schnitt durch die 16C auf dem Servermarkt so groß ist, dass es sich dennoch lohnt, dann sieht es anders aus.

disap.ed
2019-12-03, 08:17:14
Weil ich mir einfach nicht vorstellen kann, dass man im Desktopmarkt (schon 2022) mit 16C Chiplets arbeiten wird.

Die Anzahl Cores ist hier in den letzten 2-3 Jahren regelrecht explodiert, da muss jetzt erst mal die Software halbwegs nachziehen, damit es sich lohnt in der Masse mehr als 8C anzubieten.


Das denke ich auch, unter anderem, weil mit den Next-Gen Konsolen 8C/16T der Standard für die nächsten Jahre sein wird. Und Office-Rechner brauchen erst recht nicht mehr.

robbitop
2019-12-03, 09:29:38
Ich tippe auch darauf, dass es in Bezug auf die Steigerung der Anzahl der Kerne erstmal eine Stagnation geben wird. Im Serverbereich kann man, wenn notwendig mehr Chiplets auf einen Träger verbauen. In Desktop und HEDT Bereich ist man IMO erstmal gesättigt. Selbst der ganze Contentcreation Kram skaliert kaum bis 32 Cores.
Zumal Zen4 ja SMT4 bringen soll. Wenn er dazu nich breiter wird, steigt doch die MT Leistung dadurch bereits.

unl34shed
2019-12-03, 09:33:20
Ist das mit smt4 sicher oder nur so lange wiederholt worden, dass es jetzt stimmt?

HOT
2019-12-03, 09:42:45
Jo wird sicherlich keine Steigerung des Corecounts geben. Eher wird man wieder größere Caches einbauen. Man sollte da im Hinterkopf behalten, dass der N5 ja kaum leistungsfähiger ist als N7+. Mehr Kerne wird also schwierig.

robbitop
2019-12-03, 09:45:12
Ist das mit smt4 sicher oder nur so lange wiederholt worden, dass es jetzt stimmt?

Es war auf einer offiziellen Präsentation zu Epyc von AMD Teil einer der Folien zu Genoa. Das ist mittlerweile aber auch schon ein paar Wochen her.

Korvaun
2019-12-03, 10:00:51
Also 2022 ein 16C/32T Chiplet für den Gamer/Desktop finde ich nicht abwegig. Ist dann sozusagen wie der 3700/3800er aktuell der "Standard". Alles drunter aus Salvage, alles drüber dann wieder 2 Chiplets. Würde das schon 2021 auch nicht für ganz ausgeschlossen halten. Nur 2020 (Zen3) denke ich wird es keine Veränderung geben, ist einfach nicht sinnvoll machbar in 7nm und auch nicht nötig da Intel eh nichts entgegenzusetzen hat.

Gipsel
2019-12-03, 10:59:09
Es war auf einer offiziellen Präsentation zu Epyc von AMD Teil einer der Folien zu Genoa. Das ist mittlerweile aber auch schon ein paar Wochen her.Sicher? Ich hatte das so in Erinnerung, daß da explizit 2 Threads pro Core für Zen3 draufstanden (wo es ja auch schon SMT4-Spekus gab) und zu Genoa praktisch gar nichts stand. Oder welche Präsentation meinst Du?

====================

Also 2022 ein 16C/32T Chiplet für den Gamer/Desktop finde ich nicht abwegig. Ist dann sozusagen wie der 3700/3800er aktuell der "Standard". Alles drunter aus Salvage, alles drüber dann wieder 2 Chiplets.Für Zen4 in 5nm könnte man eventuell auch 12C-Chiplets bauen. Dann gibt es eben bis zu 24 Kerne auf dem Mainstream-Sockel. +50% in 2 bis 2,5 Jahren wäre schon drin (bisher hat AMD ja glatt verdoppelt, sowohl 2017 mit Zen1 als auch 2019 mit Zen2; das bringt aber irgendwann wie im Thread schon angesprochen nicht mehr so viel). Und die billigeren Varianten mit nur einem Chiplet decken dann den Großteil des Marktes ab, Salvage die billigen Bürokisten mit 6 bis 8 Kernen.
Hyopthetisches Lineup mit ähnlicher Gruppierung wie bisher:
Ryzen9 5950X - 24 Kerne (2 volle CCDs)
Ryzen9 5900X - 16 bis maximal 20 Kerne (2 CCDs, hängt vom internen Aufbau ab, wie man am besten salvaged)

Ryzen7 5800X - 12 Kerne (1 voller CCD)
Ryzen7 5700X - 10 Kerne?

Ryzen5 5600X - 8 Kerne
Ryzen5 5500 - 8 Kerne mit reduziertem L3

Ryzen3 sind dann 6 Kerner sowie APUs der Vorgängergeneration, die aber teilweise auch unter der Athlon-Marke verkauft werden könnten.

Piefkee
2019-12-03, 11:05:02
Sicher? Ich hatte das so in Erinnerung, daß da explizit 2 Threads pro Core für Zen3 draufstanden (wo es ja auch schon SMT4-Spekus gab) und zu Genoa praktisch gar nichts stand. Oder welche Präsentation meisnt Du?

====================

Für Zen4 in 5nm könnte man eventuell auch 12C-Chiplets bauen. Dann gibt es eben bis zu 24 Kerne auf dem Mainstream-Sockel. +50% in 2 bis 2,5 Jahren wäre schon drin. Und die billigeren Varianten mit nur einem Chiplet decken dann den Großteil des Marktes ab, Salvage die billigen Bürokisten mit 6 bis 8 Kernen.
Hyopthetisches Lineup mit ähnlicher Gruppierung wie bisher:
Ryzen9 5950X - 24 Kerne (2 volle CCDs)
Ryzen9 5900X - 16 bis maximal 20 Kerne (2 CCDs, hängt vom internen Aufbau ab, wie man am besten salvaged)

Ryzen7 5800X - 12 Kerne (1 voller CCD)
Ryzen7 5700X - 10 Kerne?

Ryzen5 5600X - 8 Kerne
Ryzen5 5500 - 8 Kerne mit reduziertem L3

Ryzen3 sind dann 6 Kerner sowie APUs der Vorgängergeneration, die aber teilweise auch unter der Athlon-Marke verkauft werden könnten.


Ich glaube es wird bei 8C CCD bleiben aus dem folgenden Grund.
Aus dem EPYC Video zu Milan und Rome hat man gesehen das Milan 8-C und einem gemeinsamen L3-Cache Pool hat. Fasst man jetzt noch das kommentar vom Forrest Norrad dazu (" Zen3 neue Architektur & Tick Tock).
Dann ergibt sich ganz einfach das Zen3 eine neue Architektur mit 8-Core CCD und gleichen L-3 Pool gibt. Da Zen4 dann nur der Tick ist erwarte ich dass man am CCD nichts macht. Man kenn halt mehrere 8-Core zusammenbauen 8/16/24/32 etc. Aber 12-Core CCD wird es nicht vor Zen5/6 geben.

robbitop
2019-12-03, 11:09:19
Jep die neuen CCX werden 8C beinhalten. Entsprechend hat der Vollausbau eines Chips ein ein/vielfaches vin 8C.

Zu SMT4 - finde ich tatsächlich nicht mehr. Ggf war es doch wieder nur eine Speku von irgendwelchen Quellen der youtube Leute, dass smt4 auf Zen4 verschoben wurde. Entsprechend damit nicht mehr offiziell. Andererseits haben die gleichen Quellen wohl auch von den Chiplets in Zen 2 schon in 2018 gewusst.

Setsul
2019-12-03, 11:15:02
Man sollte auch bedenken dass mehr Threads durch SMT auch zu höherer Leistungsaufnahme pro Kern führen wenn mehr Leistung rauskommt. Höhere Auslastung ist nicht kostenlos.
Genauso wird IPC Transistoren kosten und Transistoren kosten Strom.

Bei gleicher TDP ist zusätzlich zu IPC und SMT4 vielleicht noch etwas mehr Takt drin, vor allem verglichen mit Zen3/7nm+, aber das wars dann. Für mehr Kerne muss der Takt runter. SMT4 bedeutet natürlich auch weniger Leistung pro Thread, also ist das einerseits sowieso nur nützlich wenn das Programm gut mit Threads skaliert, andererseits kommt man mit noch mehr Threads mit niedrigerem Takt vielleicht in den Bereich wo es sich nicht mehr lohnt.
Also selbst bei niedrigerem Takt kann man 128C eigentlich ausschließen.
Je nachdem wie flexibel der neue L3 wird könnte ich mir 10 oder 12C Chiplets vorstellen um die defect density zu kompensieren. Dann gibts vielleicht ein paar SKUs mit 80/96C und niedrigem Takt, aber hauptsächlich kann AMD dann zuverlässig 64C usw. mit gleichem/höheren Takt und gleicher TDP wie EPYC2/3 liefern.
10/12C für <400$ ist auch wesentlich gewinnbringender wenn man dafür nur ein Chiplet braucht. Und trotz allem ist die Masse der Desktop CPUs die verkauft werden weiter bei 200-350$ (also von denen die von CPU Chiplets abgedeckt werden, darunter sind die APUs). Ob es für 700-1000$ jetzt 16, 20 oder 24 Kerne gibt ist da nicht so wichtig.

Eigentlich gehört das alles in einen Zen4-Thread.

robbitop
2019-12-03, 11:23:12
SMT kostet Power und Transistoren. Bringt aber auch MT Performance. Vermutlich mehr als es Power und Transistoren kostet. Entsprechend steigt Perf/W.
Je mehr man IPC steigert, desto sinnvoller ist SMT wegen ungenutzter Ressourcen.
Für Desktop vermutlich irrelevant- für die Bereiche für die Epyc genutzt wird ist MT sicherlich relevant.

HOT
2019-12-03, 11:50:24
Ohje, wenn Intels 8C Rocket Lake es dann mit Gipsels 12 Kern CCD zu tun bekommt dann mahlzeit, die Zeiten wären in dem Fall ja noch schlimmer als jetzt für Intel.

robbitop
2019-12-03, 11:56:00
Rocket Lake soll angeblich ein Backport von Willow Cove sein. Im Desktopmarkt lastet man 12 und 16C oft nicht aus. Es könnte sein, dass 8 möglichst schnelle Kerne dann immernoch eine gute Wahl sind.
Allerdings wird Rocket Lake es mit Zen 3 zu tun haben. Ich tippe darauf, dass Rocket Lake in Spielen (sofern er hoch taktende WC Kerne enthält) siegen wird, Zen 3 dank 16C bei Anwendungen.

Brillus
2019-12-03, 12:25:30
SMT kostet Power und Transistoren. Bringt aber auch MT Performance. Vermutlich mehr als es Power und Transistoren kostet. Entsprechend steigt Perf/W.
Je mehr man IPC steigert, desto sinnvoller ist SMT wegen ungenutzter Ressourcen.
Für Desktop vermutlich irrelevant- für die Bereiche für die Epyc genutzt wird ist MT sicherlich relevant.

Ich glaub du meinst Einheiten, von bei gleicher Eingeitenzahl IPC hoch geht umso weniger bringt SMT, weil das nur durch bessere Auslastung steigern kann.

Hammer des Thor
2019-12-03, 13:33:50
SMT kostet Power und Transistoren. Bringt aber auch MT Performance. Vermutlich mehr als es Power und Transistoren kostet. Entsprechend steigt Perf/W.
Je mehr man IPC steigert, desto sinnvoller ist SMT wegen ungenutzter Ressourcen.
Für Desktop vermutlich irrelevant- für die Bereiche für die Epyc genutzt wird ist MT sicherlich relevant.


Ähem, könnte es damit zusammenhängen, dass moderne CPU-Kerne bis zu 4 Integer-Befehle parallel abarbeiten können und mit angepasster SW 4SMT da optimal wäre? Seit dem 1 Pentium 1995 haben X86 parallele Einheiten und füllen mittels spekulativer Sprungvorhersage die Pipelines damit die schon mal abgearbeitet werden können. Nur kostet das Leistung da sich diese öfter mal verspekuliert und dann das was schon bearbeitet wurde wieder annulliert werden muss. So habe ich das jedenfalls verstanden!
Wenn es die Möglichkeit gäbe dass die SW diese Einheiten direkt parallel ansteuert hätte man das mit dem Verwerfen wegen spekulativer Sprungvorhersage nicht mehr was effizienter wäre?
Bin nur ein IT-Laie, aber sowas beschäftigt mich!

robbitop
2019-12-03, 13:58:35
Ich glaub du meinst Einheiten, von bei gleicher Eingeitenzahl IPC hoch geht umso weniger bringt SMT, weil das nur durch bessere Auslastung steigern kann.
Höhere IPC braucht mehr Ressourcen. Nicht nur Einheiten. IdR steigert man Decoder, Back-Endbreite, LS Einheiten, Caches, OOO Windows, ROB Buffer ectpp.

Das steigert den Peakdurchsatz und erhöht damit auch die durchschnittliche IPC. Man ist aber mittlerweile in einem Bereich, dass Ressourcen ungenutzt bleiben, weil sich Auslastung nicht beliebig steigern lässt.

Gipsel
2019-12-03, 15:24:18
Rocket Lake soll angeblich ein Backport von Willow Cove sein. Im Desktopmarkt lastet man 12 und 16C oft nicht aus. Es könnte sein, dass 8 möglichst schnelle Kerne dann immernoch eine gute Wahl sind.
Allerdings wird Rocket Lake es mit Zen 3 zu tun haben. Ich tippe darauf, dass Rocket Lake in Spielen (sofern er hoch taktende WC Kerne enthält) siegen wird, Zen 3 dank 16C bei Anwendungen.Ist Rocket Lake nicht erst für Q2/21 oder so geplant? Da ist die Wartezeit auf Zen4 (Ende 2021) eventuell nicht mehr so lang. Zen 3 sollte da zumindest schon ein halbes Jahr auf dem Markt sein.

mboeller
2019-12-03, 16:09:18
Ist Rocket Lake nicht erst für Q2/21 oder so geplant? Da ist die Wartezeit auf Zen4 (Ende 2021) eventuell nicht mehr so lang. Zen 3 sollte da zumindest schon ein halbes Jahr auf dem Markt sein.

anscheinend schon ein wenig früher:


14-nm-Fertigung von Samsung

Laut einem älteren Medienbericht aus Südkorea lässt Intel zumindest manche Rocket-Lake-Prozessoren ab Ende 2020 beim Auftragsfertiger Samsung in dessen 14-nm-Prozess produzieren, um die eigenen Fertigungsstätten zu entlasten. Die Gerüchte wurden erst in den vergangenen Tagen im Zuge der schlechten Verfügbarkeit von Prozessoren neu ins Spiel gebracht.

Samsungs 14-nm-Prozess weist trotz gleicher Nomenklatur schlechtere elektrische Eigenschaften auf als Intels eigene Fertigung mit Strukturbreiten von 14 nm.


https://www.heise.de/newsticker/meldung/Intel-Rocket-Lake-Angeblich-neue-CPU-Kerne-und-Xe-Grafik-4602830.html

amdfanuwe
2019-12-03, 16:17:50
Warum wird der Wert denn überhaupt so stark auf Spiele-Performance gelegt, wenn das doch nur ein kleiner Teil des Marktes ist?

Weil es die meiste Presse bringt.

Eine 128C CPU bräuchte also entweder 16 8C Chiplets oder 8 16C Chiplets (d.h. ein eigenes Design). Beides erscheint mir irgendwie unwahrscheinlich, da es den Aufwand enorm erhöht.
Sehe da nicht das Problem. Ein eigenes Design lohnt sich, wenn es die Kosten einspielt und im Verkauf etwas mehr Gewinn bringt als andere Lösungen.
16 Core Chiplet + 8 Core APU für Mainstream. 8 Core Chiplets werden dann gar nicht mehr gebraucht.

----------
4 Fach SMT: SMT skaliert ansich schlecht. Aber AMD hat da seine Erfahrungen mit Bulldozer CMT. Mit wenigen Transistoren wesentlich bessere HT Performance. Diesmal mit guten Kernen könnte sich da etwas tun.
Wenn AMD SMT4 einführt, dürfte sich das in den meisten HPC Anwendungen ordentlich bemerkbar machen.

HOT
2019-12-03, 16:22:28
anscheinend schon ein wenig früher:



https://www.heise.de/newsticker/meldung/Intel-Rocket-Lake-Angeblich-neue-CPU-Kerne-und-Xe-Grafik-4602830.html
Das ist sehr sicher wieder nur mobile-billig. Tigerlake ist mobile-teuer und selbst produzierte Rockets werden sicher wieder von Intel selbst kommen und Desktop erst 2021, da wird Gipsel schon sehr gut liegen.

Also eher so:
Rocket Lake U/Y 4/8 -> Samsung 14LPP (Ende 2020)
Tiger Lake U/Y 4/8 -> Intel 10nm+ (auch Ende 2020)
Rocket Lake H/S 6/12 und 8/16 -> Intel 14nm+++ (Anfang 2021)

Dazu kommt Xe-Grafik-Chiplets GT0/1/2 in 14LPP von Samsung und GT3/4 in 10nm+ von Intel.

Man muss ja sehen, dass man suksessive die 14nm-Produktion zurückfahren wird um Alder Lake komplett in 10nm zu bringen und die 14nm-Produktion dann nur noch für Chipsätze etc. gebraucht wird. Für die Übergangszeit nutzt man halt Samsung.

Das bleibt dann ja auch nur bis 2022, wo dann Alder Lake inklusive Xe in den Startlöchern steht in 10nm++, dann für alle Märkte, U und Y-Varianten sicherlich schon Ende 2021.

Rocket Lake wird sich also mit Vermeer herumschlagen müssen, im Mobile dann mit einer entsprechenden APU, Zen4 in N5 HPC wird dann der spätere Gegner.

Ravenhearth
2019-12-03, 16:25:06
Intel hat ganz klar dementiert, dass man CPUs irgendwo anders fertigen lassen wird. Auch nicht für Mobile. Bei dem Deal mit Samsung dürfte es nur um Chipsätze etc. gehen.

HOT
2019-12-03, 16:35:15
Sowas ist immer schwammig. Die werden das machen, was wirtschaftlich im sinnvollsten ist.

robbitop
2019-12-03, 17:01:39
Rocket Lake auf Samsung Prozess? Ach du lieber Himmel. Kann mir nur schwierig vorstellen, dass deren Prozess so hohe Frequenzen hergibt wie Intels jahrelang zu Tode optimierter 14nm+++.

In der 3DC News steht Anfang 2021. Also nicht so viel später als der Zen 3 launch.

Ravenhearth
2019-12-03, 17:15:21
Rocket Lake auf Samsung Prozess? Ach du lieber Himmel. Kann mir nur schwierig vorstellen, dass deren Prozess so hohe Frequenzen hergibt wie Intels jahrelang zu Tode optimierter 14nm+++.

Deswegen wird das auch nicht passieren.

robbitop
2019-12-03, 17:30:26
Deswegen wird was nicht passieren? Hohe Frequenzen?

14 nm Samsung geht ja eher ein Stück in Richtung Intels 22 nm Prozess. Wenn dann auch noch 8 Kerne verbaut sind und die Kerne wegen der IPC Erhöhung (siehe SC) auch noch mehr pro Takt an Leistungsaufnahme haben. Tja dann sieht es noch schlimmer mit sustained allcotr Turbotaktraten aus. Wobei Zen 2 sich ja hier auch nicht mit Ruhm bekleckert.

Ggf wird Zen 3 dann sogar ein wenig höher takten. Allerdings legt WC nochmal etwas auf SC drauf in Bezug auf IPC. Die größeren L3 und L2 Caches werden in Spielen (sofern nicht im Gegenzug durch eine andere Fabric die Memorylatenz verschlechtert wurde!) nochmal was drauflegen.
SC wurde mit +18% betitelt. WC muss man jetzt raten - 10% sind für die Cacheänderunfen aber IMO nicht zu weit hergeholt. Das sind dann knappe 30% auf Skylake. (zumal WC sicherlich bessere/schnellere HW mittigations gegen spectre/meltdown haben werden als SKL)

Das könnte in Spielen schon trotzdem knapp werden. Für Zen 3 tippe ich dann mal auf ~15% IPC Erhöhung und 5% mehr Takt. RL könnte in Spielen ggf knapp vorn liegen. In Anwendungen wird er versägt. Ähnliche Situation wie jetzt also.
Ein Glück für AMD dass Intel in einer Fettigungskrise steckt (14 nm Kapazität und nicht gut funktionierender 10 nm).
Das wird, wenn Intels 7 nm kommt anders werden.


(mit IPC ist hier durchschnittliche taktnormierte Leistung in aktuellen Spielen gemeint)

Ravenhearth
2019-12-03, 17:41:57
Deswegen wird was nicht passieren? Hohe Frequenzen?

Der wird nicht bei Samsung gefertigt werden. Intel hat jegliche Fertigung von CPUs bei Samsung dementiert, da gehts eher um weniger kritische Chips.

robbitop
2019-12-03, 17:44:30
Tja ist die Frage was weniger kritisch ist. Server, mobile, Gaming? Kapazitäten sind ja nunmal der Flaschenhals.

Hast du zufällig nen Link von den Dementi? Man liest im Zusammenhang mit RL ziemlich oft von Samsung.

Selbst wenn es Intels 14 nm++ ist, werden die durstigeren WC Kerne (verglichen mit SKL) zu entweder niedrigeren sustained Frequenzen führen oder aber zu einer erhöhten TDP.
Mit 5 GHz wäre WC Kerne schon ziemlich „giftig“. Wahrscheinlich hätte Zen 3 dann in Spielen keine Chance.

Ravenhearth
2019-12-03, 17:48:00
Tja ist die Frage was weniger kritisch ist. Server, mobile, Gaming? Kapazitäten sind ja nunmal der Flaschenhals.

Hast du zufällig nen Link von den Dementi? Man liest im Zusammenhang mit RL ziemlich oft von Samsung.
Server, Mobile, Gaming sind alle kritisch, daher wird Intel ja auch keine CPUs woanders fertigen. Stattdessen würde ich schätzen Chipsätze und anderer Kleinkram. Kein Grund das eigene 14nm darauf zu "verschwenden".
Hier (https://www.3dcenter.org/news/hardware-und-nachrichten-links-des-2-dezember-2019)

robbitop
2019-12-03, 17:54:54
Danke - dann ist das Thema ja geklärt. Chipsätze sind dafür natürlich am sinnvollsten.

Setsul
2019-12-03, 18:36:52
SMT kostet Power und Transistoren. Bringt aber auch MT Performance. Vermutlich mehr als es Power und Transistoren kostet. Entsprechend steigt Perf/W.

Das ist ja ganz nett, aber geht an dem vorbei was ich gesagt habe. Auch wenn die Kerne 3 mal so effizient wären weil sie 6 mal so schnell sind, weil sie doppelt so viel Strom brauchen könnte man bei einem Prozess der in der Hinsicht nur 20% bringt nicht mehr Kerne in die gleiche TDP quetschen.

Gerade zu Zen3/7nm+ wird der Vebrauch kaum sinken, also ist gleicher oder minimal höherer Takt bei besserer IPC und SMT4 in der gleichen TDP eigentlich schon das höchste der Gefühle.
Natürlich steigt die ST-Leistung durch die IPC und eventuell den Takt. Natürlich steigt MT-Leistung noch mehr durch SMT4. Bei gleicher TDP heißt das bessere Effizienz. Aber auch gleiche Kernzahl.



Bezüglich Samsung:
Intel fertigt die Chipsets normalerweise einen Prozess "hinter" den CPUs. Mit 10nm ist das alles durcheinandergekommen. Bestehende 10nm Kapazitäten können nicht genutzt werden wegen der Yields, Fab 42 wurde verzögert weil 2014 kein Bedarf bestand, gleichzeitig müssen jetzt aber alte 22 nm Kapazitäten auf 10/7nm und 22FFL umgerüstet werden wodurch sie erstens einige Zeit komplett ausfallen und zweitens für 22 nm Chipsets fehlen.
Das einzige was theoretisch noch sinnvoll sein könnte wären 14nm GPUs für die MCM Designs. Also 14nm CPU + entweder 10nm Intel GPU oder 14nm Samsung GPU. Bei den Desktop SKUs interessieren die paar Watt Unterschied kaum.

Bezüglich Rocket Lake:
10nm sollte eigentlich laut Intel 60% weniger Strom brauchen. Momentan werden die idealen Werte wohl nicht erreicht aber selbst dann ist Ice Lake sehr weit entfernt von dieser Effizienzsteigerung. Man kann das vielleicht auf die Taktraten schieben aber ich glaube ein Kern an dem alles um 50-100% aufgebohrt wurde braucht prozessnormiert einfach in gleichem Maße mehr Strom. Stört ja an sich nicht. 170% oder so Vebrauch prozessnormiert ergeben auf einem Prozess der den Vebrauch wieder um 60% reduziert fast den gleichen absoluten Verbrauch. Wenn dabei 20% mehr IPC rausspringen passt die Effizienz und alle wollen ja mehr ST-Performance. Wenn man die Möglichkeit hat wieso sollte man sie nicht nutzen?
Wenn man jetzt aber versucht 8 Kerne Willow Cove, die noch größer sein sollten, auf 14nm auf 5 GHz hochzuprügeln...
Der Stromverbrauch könnte ... problematisch sein.

Blediator16
2019-12-03, 19:02:57
Niemals werden solche CPUs bei Samsung gefertig. Absolut nicht drinnen. Von Intels 10nm auf Samsungs 14nm backporten? Absolut unglaubwürdig.

Unicous
2019-12-03, 19:18:24
@mboeller

Produktion heißt nicht Produkt-Launch. Intel fertigt zum Teil über ein halbes Jahr im Voraus Chips um die OEMs und den Einzelhandel vor Produktstart ausreichende Stückzahlen liefern zu können.

Zossel
2019-12-03, 19:24:42
Ähem, könnte es damit zusammenhängen, dass moderne CPU-Kerne bis zu 4 Integer-Befehle parallel abarbeiten können und mit angepasster SW 4SMT da optimal wäre? Seit dem 1 Pentium 1995 haben X86 parallele Einheiten und füllen mittels spekulativer Sprungvorhersage die Pipelines damit die schon mal abgearbeitet werden können. Nur kostet das Leistung da sich diese öfter mal verspekuliert und dann das was schon bearbeitet wurde wieder annulliert werden muss. So habe ich das jedenfalls verstanden!
Wenn es die Möglichkeit gäbe dass die SW diese Einheiten direkt parallel ansteuert hätte man das mit dem Verwerfen wegen spekulativer Sprungvorhersage nicht mehr was effizienter wäre?
Bin nur ein IT-Laie, aber sowas beschäftigt mich!

Sowas: VLIW (https://en.wikipedia.org/wiki/Very_long_instruction_word)?

robbitop
2019-12-03, 19:48:41
@Setsul
ich denke auch nicht, dass die Kernanzahl steigt. Desktop (Ryzen) und HEDT (Threadripper) sind erstmal versorgt (Software skaliert einfach nicht mit mehr Kernen)
Für Server sollte SMT4 sie MT Performance steigern. In dem Markt sind hohe Taktraten eh nicht an der Tagesordnung. Da zählt Perf/W. Entsprechend sind die Betriebspunkte besser (niedriger)

Bezüglich Rocketlake: ja da stimme ich Wort für Wort zu!

Piefkee
2019-12-03, 23:22:00
http://https://twitter.com/chiakokhua/status/1201939134928977920?s=21 (https://twitter.com/chiakokhua/status/1201939134928977920?s=21)


N5 now in Risk Production, HVM in Q1 2020
Yield reach 50%
Output 50k->70k-> 80k wafer/month
Versus 7nm: 1.8X density, 15% higher frequency or 30% lower power
Zen4 almost certain uses 5nm, expect to launch in 2021
3 Main customers Apple HiSilicon AMD

Unicous
2019-12-03, 23:34:34
Fix mal bitte den Link, der führt zu https.com. :wink:

amdfanuwe
2019-12-04, 02:05:05
https://twitter.com/chiakokhua/status/1201939134928977920
Versuch es mit diesem.
Piefke hat ein http:// zuviel drin.

Unicous
2019-12-04, 02:12:40
Ich hatte den tweet eh schon gesehen, aber danke.:smile:

amdfanuwe
2019-12-04, 09:19:01
30% weniger Verbrauch bedeutet 42% mehr Logik möglich bei gleichem Verbrauch.
Da sollten bei etwas geringerem Basetakt also 50% mehr Kerne mit 5nm für ZEN 4 möglich sein.
Mit 3nm sind wir bei 128 Kern CPUs.
Die herkömmliche CPU stößt an ihre Grenzen. Für mehr Leistung werden mehr heterogene Systeme mit spezialisierten Chips benötigt. Neben GPUs für berechnungen schätze ich mal, dass AI Chips kommen werden.
Mal gespannt, wann Smartphones intelligenter sind als ihre Besitzer.

robbitop
2019-12-04, 09:34:56
In der Regel kostet IPC Erhöhung normiert aber immer mehr Transistoren und Power. Also geht schon ein nicht unwesentlicher Teil der zusätzlichen Logik für die Vergrößerung der Kerne an sich drauf.

Aus Interesse weil noch nie gehört: wie kommt man bei 30% Verbrauchsreduktion auf +42% mehr Logik? :)

Wenn man zusätzlich zu größeren Kernen auch noch mehr Kerne verbauen will, dann muss man entweder den Takt reduzieren oder die TDP erhöhen. Das wäre bei High End SKUs aber auch kein Beinbruch. Wer braucht in 2021 schon 24 Cores im Desktop? Die die es brauchen können auch entsprechende Kühler kaufen.

Im Serverbereich ist man natürlich immer dankbar für mehr MT Leistung.

Mangel76
2019-12-04, 10:34:31
Aus Interesse weil noch nie gehört: wie kommt man bei 30% Verbrauchsreduktion auf +42% mehr Logik? :)



Weil 1*1,42*0,7 wieder etwa 1 ergibt. Erhöhe die Logik um 42% und ziehe dann von 142% Logik(=Verbrauch) die 30% Verbrauchsvorteil ab und du bist wieder beim gleichen Verbrauch. :biggrin:

amdfanuwe
2019-12-04, 10:57:52
@Mangel76
Danke

Leonidas
2019-12-04, 11:26:30
X670-Chipsatz angeblich erst im Q4/2020:
https://www.3dcenter.org/news/hardware-und-nachrichten-links-des-3-dezember-2019

Damit könnte der Ryzen 4000 Launch ebenfalls erst dann laufen. Sehe damit aber eher schwarz für Ryzen 5000 im Laufe des Jahres 2021.

amdfanuwe
2019-12-04, 11:27:55
In der Regel kostet IPC Erhöhung normiert aber immer mehr Transistoren und Power.
Mehr Power nicht unbedingt.
Das mehr an Transistoren heißt ja nicht, dass auch mehr Transistoren gleichzeitig aktiv sind. Auch können einige Schaltungen durch Tabellen ersetzt werden, braucht viel mehr Transistoren, ist aber schneller und sparsamer. Schaltungstechnik ist immer ein Kompromiss.
Die ganzen Stromsparmechanismen brauchen auch mehr Transistoren, sparen aber im Endeffekt.

SKYNET
2019-12-04, 11:48:05
X670-Chipsatz angeblich erst im Q4/2020:
https://www.3dcenter.org/news/hardware-und-nachrichten-links-des-3-dezember-2019

Damit könnte der Ryzen 4000 Launch ebenfalls erst dann laufen. Sehe damit aber eher schwarz für Ryzen 5000 im Laufe des Jahres 2021.

würd mich nicht wundern wenn ryzen 5000 doppelgleisig fährt, 2 sockel...

vollen funktionsumfang dann aber nur mit AM5... denke AMD wird mainstreamsockel auf ein neues level heben, und die anzahl PCIe lanes etc. deutlich anheben und sich AM5 zwischen AM4 und TRX4 positionieren was ausstattung angeht... man wird unter jeden umstand intel probieren zu dissen.

maximus_hertus
2019-12-04, 11:54:20
X670-Chipsatz angeblich erst im Q4/2020:
https://www.3dcenter.org/news/hardware-und-nachrichten-links-des-3-dezember-2019

Damit könnte der Ryzen 4000 Launch ebenfalls erst dann laufen. Sehe damit aber eher schwarz für Ryzen 5000 im Laufe des Jahres 2021.

Mögliche Auflösung:

Sommer-Herbst 2020: Ryzen 4000, Zen 3, X670, AM4, DDR4, PCIe4 (evtl. launcht man die ersten Zen3 mit X570 und kommt dann später mit den dicksten CPUs und X670, ähnlich wie bei 3000er, als das Flagschiff ja 4 Monate später kam)
Irgendwann 2021 (Sommer?): Ryzen 5000, Zen3"+", X770, AM5, DDR5, PCIe 4
Frühling-Sommer 2022: Ryzen 6000, Zen 4, X870, AM5, DDR5, PCIe 5

Also Ryzen 5000 = Ryzen 4000 mit neuerem IO Die (AM5, DDR5, aber unveränderte CPU Kerne). +100-200 MHz Takt und DDR5 sollten für die üblichen 5-10% Performance Plus bei einem Refresh sorgen.

Setsul
2019-12-04, 11:56:54
@amdfanuwe:
Ich habs schonmal geschrieben aber so funktioniert das nicht.
50% > 42%. Wenn AMD niedrigere ST-Performance wollte dann könnten sie einfach Zen2 shrinken und den Takt senken. Tun sie aber nicht.

Es sind 42% im Vergleich zu 7nm. Aber Zen3 ist auf 7nm+. Die höhere IPC im Vergleich zu Zen2 kommen von mehr Logik die den Vorteil von 7nm+ gegenüber 7nm fast ganz auffrisst (der Rest geht in mehr Takt). Sagen wir mal 10% mehr Logik. Zen4 wird ein noch größerer Kern. Nochmal 10%. Dann soll SMT4 etwas bringen, aber höherer Auslastung erhöht den Stromverbrauch. Von nichts kommt nichts. Nochmal 10%. Wie willst du jetzt 50% mehr Kerne in die gleiche TDP bringen ohne den Takt massiv zu senken?

Bei minimal niedrigerem Takt könnte man einfach 50% mehr geshrinkte Zen2 Kerne verbauen. Wäre viel einfacher und bringt auch +45% MT-Performance. Das ist aber uninteressant und nicht schwer.
10-15% durch IPC und Takt von Zen2 auf Zen3, das gleiche nochmal von Zen3 auf Zen4 und dann noch vielleicht 20% MT durch SMT4. Gleiches Ergebnis bei MT, aber +20-30% ST. Mehr Kerne sind nicht alles.

robbitop
2019-12-04, 12:08:36
Weil 1*1,42*0,7 wieder etwa 1 ergibt. Erhöhe die Logik um 42% und ziehe dann von 142% Logik(=Verbrauch) die 30% Verbrauchsvorteil ab und du bist wieder beim gleichen Verbrauch. :biggrin:

Ach wie peinlich. Ja natürlich. Danke. :)

Mehr Power nicht unbedingt.
Das mehr an Transistoren heißt ja nicht, dass auch mehr Transistoren gleichzeitig aktiv sind. Auch können einige Schaltungen durch Tabellen ersetzt werden, braucht viel mehr Transistoren, ist aber schneller und sparsamer. Schaltungstechnik ist immer ein Kompromiss.
Die ganzen Stromsparmechanismen brauchen auch mehr Transistoren, sparen aber im Endeffekt.
Da hast du nicht unrecht. Mittlerweile ist es aber so, dass mehr IPC auch mehr Power kostet (takt und prozessnormiert). So weit oben ist man schon auf der Kurve des sinkenden Grenzertrags.
Vor ~10 Jahren gab es bei Intel mal eine Designregel, dass 1% mehr Performance nur 0.5% mehr Leistungsaufnahme kosten darf. (selbst da kostete IPC schon Power - aber steigerte die Energieeffizienz dennoch da mehr Performancesteigerung als Leistungssteigerung).

Man schaue sich Sunny Cove an. Die Kerne brauchen deutlich mehr Strom bei niedrigerem Takt als Skylake Kerne - trotz Shrink und moderater Taktraten. So weit oben auf der Kurve sind wir schon.

Mehr IPC geht immernoch - aber sie kostet Transistoren und Power. Man versucht das durch Shrinks halbwegs auszugleichen.

Man hätte auch schon vor 10 Jahren schon Kerne mit wesentlich mehr IPC bauen können - es gab nur den Fertigungsprozess noch nicht, der es in Bezug auf Power und Die Size schaffen hätte können. (und ja natürlich gibt es auch immer wieder neue Entdeckungen in Bezug auf uArch Design)

HOT
2019-12-04, 12:23:45
X670-Chipsatz angeblich erst im Q4/2020:
https://www.3dcenter.org/news/hardware-und-nachrichten-links-des-3-dezember-2019

Damit könnte der Ryzen 4000 Launch ebenfalls erst dann laufen. Sehe damit aber eher schwarz für Ryzen 5000 im Laufe des Jahres 2021.
Siehe den 5-Quartals-Plan, der muss ja Q4 rauskommen.

Edit: jo.

robbitop
2019-12-04, 12:24:46
5 Quartalsplan meinst du?

Complicated
2019-12-04, 14:03:33
Mögliche Auflösung:

Sommer-Herbst 2020: Ryzen 4000, Zen 3, X670, AM4, DDR4, PCIe4 (evtl. launcht man die ersten Zen3 mit X570 und kommt dann später mit den dicksten CPUs und X670, ähnlich wie bei 3000er, als das Flagschiff ja 4 Monate später kam)
Irgendwann 2021 (Sommer?): Ryzen 5000, Zen3"+", X770, AM5, DDR5, PCIe 4
Frühling-Sommer 2022: Ryzen 6000, Zen 4, X870, AM5, DDR5, PCIe 5

Also Ryzen 5000 = Ryzen 4000 mit neuerem IO Die (AM5, DDR5, aber unveränderte CPU Kerne). +100-200 MHz Takt und DDR5 sollten für die üblichen 5-10% Performance Plus bei einem Refresh sorgen.
Vielleicht steckt hier ja die Auflösung für den Widerspruch der sich so etwas zu bilden scheint in den Gerüchten und Spekulationen.

Manche sagen Zen4 kommt 2022 und manche schon 2021. Das hängt mit der 5nm Fertigung zusammen, wo AMD einer der ersten Kunden ist auf der Fab18 bei TSMC und im Q1/2020 die Massenfertigung für 5nm gestartet ist. Zen 4 ist ziemlich sicher 5nm - nur vielleicht gar nicht AMDs erster 5nm?

Was wenn hier Zen3 auch schon in 5nm mit neuen EUV-Layer als einfacher Shrink mitläuft? Damit würde AMD einen Zen3+ haben (vielleicht auch schon einige Verbesserungen). Die Frage warum man das machen sollte beantwortet sich vielleicht einfach in den benötigten Kapazitäten die man so schnell wie möglich aufstocken will. Man würde dann Zen 2 und Zen 3 auf 7nm+ produzieren und schon 5nm Zen 3 bekommen (und schiebt dann auf 7nm+ entsprechend dem 5nm output die Produktion 1:1 von Zen2 zu Zen 3) um dort steigendes Bestell-Volumen abzufangen ab Sommer/2021. Die zusätzlichen Erfahrungsgewinne für einen 2022 Zen 4 Launch wären sicherlich auch nicht ohne Auswirkungen. Damit könnten die ganzen Gerüchte sogar kooexistieren ;)

Völlig abgefahren wird es wenn man anfängt über eine gleichzeitige Bestückung mit 7nm+ und 5nm-Chiplets nachzudenken. Plötzlich hätte man ein Chiplet für die Turboloads und ein zusätzliches Chiplet für die Multi-Threading-Loads. Mit einem solchen Big-Little-Modell könnte man die derzeitigen "Best-Core"-Erweiterungen die Windows nach und nach eingeführt hat sicherlich nochmals optimieren. Das könnte die "Zen3-Secret-Sauce" für mehr IPC sein und wäre zudem auch der nächste konsequent logische Schritt bei Chiplets. 14nm-IO, 5nm Highend-Cores und 7nm+ Multithreading-Cores die erst ab 8-Kernen (16 Threads) aufwärts aktiv werden.
- Man bedenke auch, dass man auf diese Weise einen 50% yield bei der 5nm Produktion nur noch für die Hälfte der CPU hat, da die andere Hälfte in 7nm+ über 90% yield läuft mittlerweile. Möglicherweise hat AMD auf diese Weise die Wirtschaftlichkeit um weitere 6 Monate nach vorne verlagert (6 Monate sind sie durch Chiplets schon voraus) und kann hier deshalb bei 5nm ebenso früh einsteigen wie die SoC-Hersteller. Das würde AMD eine neue und bessere Position bei TSMC einbringen und Zugriff auf mehr Wafer sicherlich. Für Server wären die frühen Preise kein Problem. Auch nicht für 5nm-only-SKUs ;)

Allerdings erwarte ich AM5 erst in 2022 dann wohl mit Zen 4. Vorher wird auch Intel keine DDR5/PCIe5-Plattform im Desktop oder HEDT haben. Hier 1 Jahr früher eine so deutlich teurere Plattform anzubieten wird AMD nicht machen, da Intel auf der derzeitigen PCIe4-Ebene erst einmal nachliefern muss.

robbitop
2019-12-04, 14:36:06
Wenn man bedenkt wie toll der Windows Scheduler mit neuen Topologien zusammenarbeitet und wie flexibel er ist, dann: gute Idee! :D :D
Wie schon mehrfach gesagt: schon traurig dass in der Hinsicht ein nicht kommerzielles OS einem kommerziellen so deutlich voraus ist.

Complicated
2019-12-04, 14:43:52
Na das ist ja gelöst. Windows sieht sowieso nur ein NUMA mit dem IO-Die. Nun könnte man Hardwareseitig davon profitieren. Bisher gingen Big-Little-Konzepte nicht unter Windows - und Windows kann es ja immer noch nicht selber. Sollte dies der Fall sein, könnte man verstehen warum Samsung AMD-GPU IP lizensiert und seine ARM-Hardware-Abteilung geschloßen hat. In 2 Jahren tritt man mit einer x86-Big-Little APU von AMD an zuerst in TVs/Tablets und skaliert es bis in 15W-Notebooks und Handys hoch respektive runter :D

basix
2019-12-04, 15:35:38
Für Zen4 in 5nm könnte man eventuell auch 12C-Chiplets bauen. Dann gibt es eben bis zu 24 Kerne auf dem Mainstream-Sockel. +50% in 2 bis 2,5 Jahren wäre schon drin (bisher hat AMD ja glatt verdoppelt, sowohl 2017 mit Zen1 als auch 2019 mit Zen2; das bringt aber irgendwann wie im Thread schon angesprochen nicht mehr so viel). Und die billigeren Varianten mit nur einem Chiplet decken dann den Großteil des Marktes ab, Salvage die billigen Bürokisten mit 6 bis 8 Kernen.
Hyopthetisches Lineup mit ähnlicher Gruppierung wie bisher:
Ryzen9 5950X - 24 Kerne (2 volle CCDs)
Ryzen9 5900X - 16 bis maximal 20 Kerne (2 CCDs, hängt vom internen Aufbau ab, wie man am besten salvaged)

Ryzen7 5800X - 12 Kerne (1 voller CCD)
Ryzen7 5700X - 10 Kerne?

Ryzen5 5600X - 8 Kerne
Ryzen5 5500 - 8 Kerne mit reduziertem L3

Ryzen3 sind dann 6 Kerner sowie APUs der Vorgängergeneration, die aber teilweise auch unter der Athlon-Marke verkauft werden könnten.

Ich tendiere ebenso auf 12C CCDs, was dann eben die von mir genannten 96C bei 8x CCDs ergeben würde. Das passt mit den Gerüchten zu vergrössertem Cache sowie den Grenzbedingungen wie Die Size vs. 5nm vs. Energieverbrauch. Zen 3 hat laut Mark Papermaster Priorität auf Effizienz, damit sollte man vermutlich erhöhte IPC, optimiertes IF und reduzierte Latenzen verstehen. Das hilft in allen Workloads. Ausserdem bügelt das die letzten Schwächen von Zen 2 weg. Allenfalls bekommen wir durch N7+ noch als Goodie ein gnädigeres Frequenzscaling nach oben hin.

Meine Vermutungen:

Zen 3 = 8C CCD + 48...64MB L3
Zen 4 = 12C CCD + iso L3 pro Core wie bei Zen 3. Chipletgrösse etwa wie bei Zen 2, ergo in etwa ähnliche Kosten.
Grundsätzlicher Aufbau von I/O Die und Anzahl Chiplets bleibt gleich (2x CCD auf Desktop, 8x CCD auf Server, 1x integriertes CCD bei APUs).
Evtl. kommen mit AM5 max. 32 PCIe Lanes, bei den Servern bleibt es bei Octa-Channel RAM und 128 PCIe Lanes. Durch DDR5 und PCIe 5.0 hätte man eh verdoppelte Bandbreiten bei möglicherweise und optimistisch gesehen verdoppelter CPU Leistung verglichen mit Zen 2.


Diese Punkte scheinen für mich insgesamt schlüssig. Das sind alles machbare Sprünge pro Generation, ohne sich zu überheben. Der Aufbau mit Chiplets und I/O Die bleibt mal eine Weile konstant, das hilft auch bei Software und sonstiger Infrastruktur. Es ist ja sonst schon genug Arbeit da mit DDR5, neuem Sockel und allenfalls PCIe 5.0.

Zeitgleich mit Zen 4 wird zudem die HPC / Deep Learning / AI Geschichte kommerzialisiert. Hier wird man die für den Frontier Supercomputer entwickelte Plattform nehmen (1x EPYC + 4x HPC/AI Beschleuniger + HBM3). Wenn wir Glück haben, gibt es dann noch 1x EPYC + 1x HPC Beschleuniger + HBM auf 1x Package als Drop-In in den selben Zen 4 Server Sockel. Dann kann man die eigene Serverplattform zusätzlich stärken und diversifizieren. Ah, ich brauche General Purpose CPUs? Rein Zen basierte Server verwenden. Ah, ich brauche je nach Anwendung noch ein wenig Vektor- oder AI-Leistung? Ich nehmen den Zen + HPC Beschleuniger Hybriden. Ah, durch neue Anforderungen muss ich stärker auf AI Leistung setzen? Einfach auf CPU mit zusätzlichem HPC Chiplet upgraden. AI + HPC + Server + Desktop + APU hätte man dann mit gerade mal 5x verschiedenen Chips abgedeckt (2x I/O Die, 1x HPC Chiplet, 1x Zen Chiplet, 1x APU).

Piefkee
2019-12-04, 16:11:31
Ich tendiere ebenso auf 12C CCDs, was dann eben die von mir genannten 96C bei 8x CCDs ergeben würde. Das passt mit den Gerüchten zu vergrössertem Cache sowie den Grenzbedingungen wie Die Size vs. 5nm vs. Energieverbrauch. Zen 3 hat laut Mark Papermaster Priorität auf Effizienz, damit sollte man vermutlich erhöhte IPC, optimiertes IF und reduzierte Latenzen verstehen. Das hilft in allen Workloads. Ausserdem bügelt das die letzten Schwächen von Zen 2 weg. Allenfalls bekommen wir durch N7+ noch als Goodie ein gnädigeres Frequenzscaling nach oben hin.

Meine Vermutungen:

Zen 3 = 8C CCD + 48...64MB L3
Zen 4 = 12C CCD + iso L3 pro Core wie bei Zen 3. Chipletgrösse etwa wie bei Zen 2, ergo in etwa ähnliche Kosten.
Grundsätzlicher Aufbau von I/O Die und Anzahl Chiplets bleibt gleich (2x CCD auf Desktop, 8x CCD auf Server, 1x integriertes CCD bei APUs).
Evtl. kommen mit AM5 max. 32 PCIe Lanes, bei den Servern bleibt es bei Octa-Channel RAM und 128 PCIe Lanes. Durch DDR5 und PCIe 5.0 hätte man eh verdoppelte Bandbreiten bei möglicherweise und optimistisch gesehen verdoppelter CPU Leistung verglichen mit Zen 2.


Diese Punkte scheinen für mich insgesamt schlüssig. Das sind alles machbare Sprünge pro Generation, ohne sich zu überheben. Der Aufbau mit Chiplets und I/O Die bleibt mal eine Weile konstant, das hilft auch bei Software und sonstiger Infrastruktur. Es ist ja sonst schon genug Arbeit da mit DDR5, neuem Sockel und allenfalls PCIe 5.0.

Zeitgleich mit Zen 4 wird zudem die HPC / Deep Learning / AI Geschichte kommerzialisiert. Hier wird man die für den Frontier Supercomputer entwickelte Plattform nehmen (1x EPYC + 4x HPC/AI Beschleuniger + HBM3). Wenn wir Glück haben, gibt es dann noch 1x EPYC + 1x HPC Beschleuniger + HBM auf 1x Package als Drop-In in den selben Zen 4 Server Sockel. Dann kann man die eigene Serverplattform zusätzlich stärken und diversifizieren. Ah, ich brauche General Purpose CPUs? Rein Zen basierte Server verwenden. Ah, ich brauche je nach Anwendung noch ein wenig Vektor- oder AI-Leistung? Ich nehmen den Zen + HPC Beschleuniger Hybriden. Ah, durch neue Anforderungen muss ich stärker auf AI Leistung setzen? Einfach auf CPU mit zusätzlichem HPC Chiplet upgraden. AI + HPC + Server + Desktop + APU hätte man dann mit gerade mal 5x verschiedenen Chips abgedeckt (2x I/O Die, 1x HPC Chiplet, 1x Zen Chiplet, 1x APU).


Zen3 --> neue Archi... Tock
Zen4 --> Tick
Ergo gibt kein 12Core CCD

Zen4 (Genoa) wird 12x 8C CCDs haben. Insgesamt dann 96Core Epyc
Man wird genauso wie jetzt beim IO Die von EPCY2 der ja mehr oder weniger ein doppelter Zen mattise IO Die ist. Diesen verdreifachen. Hießt es wird 12-Channel DDR4(5) geben insgesamt dann 24 DIMMS. Kann euch gerne mal die Die-Shots raussuchen. Das ist der einfachste weg zu skalieren. IO Die 1x (Destkop) IO Die 2x (EPYC Rome) und 3x IO (für Zen4 Genoa)

Ravenhearth
2019-12-04, 16:34:22
Zen3 --> neue Archi... Tock
Zen4 --> Tick
Ergo gibt kein 12Core CCD
Sagt wer? Dass man bei Zen 4 auf 5nm geht, muss ja nicht bedeuten, dass das ein reiner Shrink ohne jegliche Änderungen wird.

Zergra
2019-12-04, 16:43:39
Aktuell braucht AMD ca 14-16 Monate für die nächste Generation, schneller wird es in Zukunft auch nicht gehen. Vor Ende 2020 wird da nix kommen. Alleine schon weil der 16C 4 Monate später gekommen ist, wird AMD den nicht gleich wieder ablösen.

Piefkee
2019-12-04, 16:47:07
Sagt wer? Dass man bei Zen 4 auf 5nm geht, muss ja nicht bedeuten, dass das ein reiner Shrink ohne jegliche Änderungen wird.

Forrest Norrod...
When asked about what kind of performance gain Milan's CPU core microarchitecture, which is known as Zen 3, will deliver relative to the Zen 2 microarchitecture that Rome relies on in terms of instructions processed per CPU clock cycle (IPC), Norrod observed that -- unlike Zen 2, which was more of an evolution of the Zen microarchitecture that powers first-gen Epyc CPUs -- Zen 3 will be based on a completely new architecture.

Zen 3 7nm+ neue architectur... Tock (gleiche Kernanzahl) (siehe AMD Präsentation zu Milan)
Zen 4 5nm Shrink + Optimisierungen ...Tick (mehr Kerne)

Da Milan bei 8-Core CCD und insgesamt 64 bleibt sehe ich für Zen4 den gleichen CCX/CCD aufbau wie bei Zen3 nur halt mehr..Und natürlich Optimierungen...

Ravenhearth
2019-12-04, 17:02:54
Und wo steht in dem Absatz jetzt was zu Zen 4?

Piefkee
2019-12-04, 18:22:49
Und wo steht in dem Absatz jetzt was zu Zen 4?

Naja AMD hat mehrmals gesagt das sie Tick Tock machen bei Zen. Dann liegt es naja das Zen 4 genauso wie den Zen2 keine neue Architektur ist. Sprich man wird den CCX/CCD nicht anfassen, das wird bei Zen 3 passieren.

Linmoum
2019-12-04, 18:30:33
Wo hat AMD mehrmals von "Tick Tock" gesprochen? Das genaue Gegenteil ist der Fall, daher würde ich jetzt auch tunlichst noch keine Rückschlüsse auf Zen4 ziehen:

When asked how long Zen would last, compared to Intel’s two-year tick-tock cadence, Papermaster confirmed the four-year lifespan and tapped the table in front of him: “We’re not going tick-tock,” he said. “Zen is going to be tock, tock, tock.”
https://www.pcworld.com/article/3155129/amd-says-its-zen-cpu-architecture-is-expected-to-last-four-years.html

robbitop
2019-12-04, 18:41:33
Ja Zen wird offenbar stetig weiterentwickelt. Es gibt eine jährliche Deadline und alles was bis dahin reinpasst, wird als Silizium veröffentlicht. Es gibt kein Tick-Tock mehr. Nur noch Tocks, wie Linmoum sagt.

Was die CCD/CCX Größe angeht. Je mehr Kerne innerhalb einer Funktionseinheit sein sollen, desto komplexer wird die Verbindung der Kerne (wenn es niedrige Latenzen sein sollen) - und zwar mit einer Potenzfunktion. Die Realität wird sich dann eher in steigenden Latenzen äußern. Es gab gute Gründe für 4C CCX. Zen 3 wird die 8C CCX mit Latenz bezahlen müssen. IMO unklar, ob das immer so weitergeht - Latenz ist für viele Anwendungen ja performancekritisch. (damit ist nicht nur die Latenz zwischen den Kernen gemeint sondern auch die des L3 und des RAMs)

8C sollte für eine Weile eine solide Basis darstellen. Eine Steigerung der Anzahl der Kerne pro CCD ist im Desktop und HEDT gar nicht nötig. Man schaue sich die Skalierung von Endanwender und Profisoftware an. Kaum etwas skaliert über 16C, praktisch gar nichts mehr über 32C.

Server können auch einfach mehr CCDs verbauen pro Package. Und, sofern es denn stimmt, wird SMT4 dort auch genug helfen.

Zumal ja auch Amdahls Law relativ schnell ein relevanter Faktor wird. Und auch das ganze notwendige I/O skaliert ja mit.

basix
2019-12-04, 21:45:17
Was die CCD/CCX Größe angeht. Je mehr Kerne innerhalb einer Funktionseinheit sein sollen, desto komplexer wird die Verbindung der Kerne (wenn es niedrige Latenzen sein sollen) - und zwar mit einer Potenzfunktion. Die Realität wird sich dann eher in steigenden Latenzen äußern. Es gab gute Gründe für 4C CCX. Zen 3 wird die 8C CCX mit Latenz bezahlen müssen. IMO unklar, ob das immer so weitergeht - Latenz ist für viele Anwendungen ja performancekritisch. (damit ist nicht nur die Latenz zwischen den Kernen gemeint sondern auch die des L3 und des RAMs)

Ja die Verdrahtung wird komplexer. Die Latenz muss aber nicht mal so stark drunter leiden. Der lokale L3$ Slice wird immer noch etwa die selbe Latenz haben oder durch N7+/N5 sogar etwas niedriger. Weiter entfernte Slices haben dann höhere Latenz. Das ist aber schon heute so und wird halt ein wenig ansteigen. Es gibt dazu aber Mesh-Strukturen wie "Double Butterfly" oder "ButterDonut", welche die Anzahl Verbindungen als auch Hops gering halten und deutlich effizienter sind als ein "Full Mesh" bezüglich Flächenverbrauch, Latenz und Bisection Bandwidth (was bei einem Cache alles wichtig ist). Dort hat man bei 64 Teilnehmern nur 36 Verbindungen bei 4-Hops Network-Diameter (im Durchschnitt sogar nur 2.32 Hops). Bei bis zu 16C hätte man max. 2 Hops. Siehe dieses auch schon verlinkte Paper, bei welchem AMD dabei war https://tspace.library.utoronto.ca/bitstream/1807/70378/3/Kannan_Ajaykumar_201511_MAS_thesis.pdf

Ich tippe darauf, dass AMD sowas verwenden wird, weil die Vorteile die Nachteile deutlich überwiegen und eine Lösung für das Verdrahtungs- als auch Latenzproblem wären. Ausserdem kann man das schön zu noch grösseren Clustern skalieren, falls man möchte.


8C sollte für eine Weile eine solide Basis darstellen. Eine Steigerung der Anzahl der Kerne pro CCD ist im Desktop und HEDT gar nicht nötig. Man schaue sich die Skalierung von Endanwender und Profisoftware an. Kaum etwas skaliert über 16C, praktisch gar nichts mehr über 32C.
Im Prinzip richtig. Wenn ich mir TR 3000 Tests anschaue ist die Skalierung bis 24C noch OK, 32C wird langsam schwieriger. Irgendwie aber ein Henne-Ei Problem. Ohne entsprechende HW wird keiner SW für Many Core CPUs schreiben. Aussage: Es wird sich bessern. Ausserdem: AMD wird einen Grund sehen, mit dem 3990X sogar 64C zu bringen.



Server können auch einfach mehr CCDs verbauen pro Package. Und, sofern es denn stimmt, wird SMT4 dort auch genug helfen.

Können sie. 8 CCDs werden mit grosser Wahrscheinlichkeit aber weniger Platz brauchen als 12 CCDs und zudem stromsparender sein (weniger Off-Chip Verbindungen und Traffic). 8C CCDs wären winzig in 5nm, vermutlich <50mm2. Beliebig kleiner machen kann man nicht, z.B. wegen Wärmeableitung und Pin Count. 3x Generationen hintereinander die selbe Top SKU Konfiguration? Hört sich irgendwie nach Intel an. AMD hat noch nie mit Kernen gekleckert, deswegen wäre 16C für Zen 3 AM4 und 24C für Zen 4 schlüssig. Im Mainstream wird der Core Count >8 wohl ebenfalls in den Fokus rücken, wenn die Konsolen 8 Kerne haben werden. Irgendwie muss auch noch der Windows und Treiber-Overhead gestemmt werden. Deswegen wäre 1x 12C CCD für AMD im Schnitt deutlich günstiger als oftmals 2x 8C CCD verbauen zu müssen.

Edit:
Ach ja, laut dem verlinkten Paper ist die Dynamic Power Consumption nicht besser als bei einem herkömmlichen Mesh. Dies aufgrund der zum Teil deutlich längeren Leitungen. Basis war aber ein Interposer um mehrere CPU Chiplets zu verbinden. Wenn man jetzt bei Mesh an Skylake-X denkt: Säufer. AMD würde das Netzwerk aber auf deutlich kleinerem Raum aufspannen (den eben ca. 70-80mm2). Intels HCC Die ist aber mit 484mm2 viel grösser. Das Problem ist bei kleinen Dies deutlich entschärft.

Noch eine Idee: Vielleicht lassen sie as physische Alignment wie heute bei einem 4C CCX (4 Cores aussen, Cache in der Mitte), verbinden aber die Cache Slizes via "ButterDonut". Das ergäbe weitere Optionen, um eine gewisse Anzahl 4C CCX optimal auf einem Die anordnen zu können. z.B. einige Intel CPUs sind ja stark in die Länge gezogen wegen der Anordnung der Cores als auch der GPU.

Complicated
2019-12-04, 23:41:41
Aktuell braucht AMD ca 14-16 Monate für die nächste Generation, schneller wird es in Zukunft auch nicht gehen. Vor Ende 2020 wird da nix kommen. Alleine schon weil der 16C 4 Monate später gekommen ist, wird AMD den nicht gleich wieder ablösen.
Da 2 Teams unabhängig voneinander an Zen3 und Zen4 arbeiten (das Zen3 Team ist mittlerweile mit Zen5 beschäftigt) kann AMD da auch kürzere Zeiträume wählen. 5nm starten in Q1/2020 die Massenfertigung und AMD ist damit um 6 Monate früher dran als bei bisherigen Prozessen. AMD startet die 5nm mit Apple und Huawei ihren SoCs zeitgleich. Chiplets machen es möglich, was bei Zen+ noch nicht drin war. AMD hat bei 5nm einen Vorsprung von 12 Monaten gegenüber monolithischen CPUs was die Wirtschaftlichkeit angeht -> Time to market. Bei 7nm+ waren es noch 6 Monate. Ich denke diese 14-16 Monate werden einen einmaligen Rutsch auf 10-12 Monate sehen um damit den Fertigungsvorsprung auf Intel in 2022 mit TSMCs 3nm zu halten. Intels 7nm EUV sollen ja den 5nm TSMC entsprechen und wird irgendwann 2022 auch mal erwartet. In jedem Fall muss AMD den Druck aufrecht erhalten, so dass entweder Intel nicht zu viel Zeit bleibt Features/Performance zu optimieren für ihr erstes EUV Design oder eben schon in 3nm die Antwort mit Zen5 bereit ist.

Forrest Norrod...


Zen 3 7nm+ neue architectur... Tock (gleiche Kernanzahl) (siehe AMD Präsentation zu Milan)
Zen 4 5nm Shrink + Optimisierungen ...Tick (mehr Kerne)

Außer AMD entschließt sich mit Zen3 Edit: zusätzlich zu 7nm+ einen schnellen Shrink auf 5nm zu machen, weil erstens das Design fertig ist und daher schon in Q1/2020 in die Massenproduktion zeitgleich mit Apple starten kann als 5nm-Shrink und zweitens in 5nm mehr Wafer verfügbar sind um die steigende Nachfrage an Chiplets für die großen Modelle bei Server- und TRX-Plattformen zu bedienen. 7nm+ Wafer werden für RDNA2-GPUs und die Konsolen SoCs in großen Stückzahlen benötigt werden. Nur folgerichtig mit dem Highend so schnell wie möglich auf 5nm zu wechseln, auch bei schlechteren Anfangs-Yields.

Linmoum
2019-12-06, 09:16:51
Wird auf Zen3 zwar noch nicht zutreffen, aber da wir die Diskussion bzgl. mehr Kerne hatten, hier eine aktuelle Aussage von Papermaster:

"I don’t see in the mainstream space any imminent barrier, and here's why: It's just a catch-up time for software to leverage the multi-core approach," Papermaster said. "But we're over that hurdle, now more and more applications can take advantage of multi-core and multi-threading.[...]"

"In the near term, I don’t see a saturation point for cores. You have to be very thoughtful when you add cores because you don’t want to add it before the application can take advantage of it. As long as you keep that balance, I think we'll continue to see that trend."
https://www.tomshardware.com/news/amd-cto-mark-papermaster-more-cores-coming-in-the-era-of-a-slowed-moores-law?utm_source=twitter&utm_medium=social&utm_campaign=dlvr.it

Complicated
2019-12-06, 11:44:59
Ein weiterer Punkt, der irgendwie noch keinem in den Sinn gekommen ist. AMD muss mit den Zen Chiplets nicht mehr warten bis DDR5 Plattformen bereit sind. AMD wechselt einfach den IO-Die und verwendet Zen3 oder selbst Zen2 mit DDR5. Man hat sich hier losgelöst vom Rhythmus der Speicherhersteller und AMD kann Zen3- oder Zen4-Chiplets auch jederzeit für AM4 SKUs bringen und dann 6 Monate später auf einer AM5-PLattform andere SKUs mit neuem IO-Die mit selbem Chiplet. Das was fertig, ist fertig und wird verwendet. Im Prinzip haben Sie hier auch die Möglichkeit Verspätungen bei neuen Fertigungen eben mit den bisherigen Chiplets jederzeit auf eine neue Plattform mit zu nehmen - das was Intel gerade sehr umständlich mit seinen 14nm Willow Cove Kernen machen muss. Der Zen 2 IO-Die würde Zen 3 AM4 kompatible machen und wenn AM5 kommt kann man mit neuem IO-Die neue SKUs anbieten für DDR5, wann immer man will. PCIe5 wird im Desktop noch lange keine Rolle spielen und wohl zuerst auf den TRX-Plattformen zum Einsatz kommen nach den Servern. Hier ergeben sich für AMD sehr viele Optionen mit relativ kurzer Reaktionszeit - das könnte alleine von der Lieferbarkeit/Verfügbarkeit für OEMs eine entscheidende Rolle spielen.

robbitop
2019-12-06, 12:45:31
Eine andere Möglichkeit sind kombinierte Speichercontroller. Skylake hatte damals DDR3+4. Angeblich hatte Steamroller (oder war es Carrizo?) einen DDR3+GDDR5 Controller (wurde nie genutzt).

Aber ja die Chiplets machen es für AMD schön flexibel außerhalb der APUs.

Brillus
2019-12-06, 12:51:04
Eine andere Möglichkeit sind kombinierte Speichercontroller. Skylake hatte damals DDR3+4. Angeblich hatte Steamroller (oder war es Carrizo?) einen DDR3+GDDR5 Controller (wurde nie genutzt).

Aber ja die Chiplets machen es für AMD schön flexibel außerhalb der APUs.

Wahrscheinlich Carrizo war zumindest eine APU da bin ich ganz sicher.

Locuza
2019-12-06, 13:45:05
Es war Kaveri (Steamroller) und der GDDR5-Mode wurde auch offiziell von AMD dokumentiert:
https://www.anandtech.com/show/7702/amd-kaveri-docs-reference-quadchannel-memory-interface-gddr5-option

Carrizo (Excavator) hat DDR3 und DDR4 unterstützt.

robbitop
2019-12-06, 13:46:18
Danke für die Aufklärung! :up:

Complicated
2019-12-06, 13:54:48
Das kombinieren ist sicherlich immer eine Option, ist jedoch kein "andere Möglichkeit" IMHO, da auch der kombinierte Speichercontroller nicht mehr in den Chiplets sitzt, seit Zen2. Man könnte theoretisch in den 12nm IO auch DDR4, DDR5 und HBM Speichercontroller verbauen. Der Platz wäre wohl durchaus vorhanden - ich weiss gar nicht wie eng es da zugeht. Hmmm Dieshots des IO wären wohl deutlich interessanter derzeit als der Chiplets. Zumindest kann man hier vermutlich viel einfacher PLatz für Dual-Controller zur Verfügung stellen. Bei der Design-Entscheidung einer CPU wurde das sicherlich bei monolithischen Designs nur ungern verwendet aus Platzgründen.

Edit: Wobei man mit dem flexiblen IO-Die jedes Jahr die Schnittstellen auf den aktuellen Stand bringen kann - warum sollte man es dann noch mit so vielen Optionen voll packen? Man kann ja bei Bedarf einfach eine DDR4 und eine DDR5 oder HBM Version machen. Die IO-Dies kann man so für lohnende Produktgruppen anpassen: Low power, Highend, NextGen, Storage, mobile, HPC
man bekommt wieder Diversifikation im Lineup zu deutlich günstigeren Produktionskosten als zu monolithischen Zeiten. Hier noch die GPU auf einen Chiplet-Die zu bringen wird wohl derzeit AMDs heiliger Gral sein.

huey
2019-12-06, 22:03:36
Hmmm Dieshots des IO wären wohl deutlich interessanter derzeit als der Chiplets. ...

https://www.flickr.com/photos/130561288@N04/48319333477/in/photostream/

Das scheint ja ein IO Dieshot zu sein.

Complicated
2019-12-06, 22:45:25
Ja das kommt hin. Die Strukturen sind hier Spiegelverkehrt identisch für den IO:
https://www.flickr.com/photos/130561288@N04/48258310682/in/photostream/

Auf diesem Bild sind noch mehr Details zu erkennen, wenn auch in Schwarz-Weiss
https://www.flickr.com/photos/130561288@N04/48268745401/in/photostream/

Hier hab ich sogar sogar einen Floorplan gefunden:
https://forum.level1techs.com/t/figuring-out-the-matisse-zen-2-io-die-diagram/145251
https://forum.level1techs.com/uploads/default/original/3X/0/5/05587a80460d444d59dc7d0a41507b3f9905b03f.jpeg

Naja um da noch zusätzlich DDR5 und HBM PHYs drauf zu packen reicht der Platz natürlich nicht. Sollte man das aber unbedingt wollen, wäre mit 30% größerem Die für alles Platz was man sich so wünscht auf dem 12nm Die. Auf dem Package würde sicher ausreichend Platz sein. Nur sehe ich da nicht den ausreichenden Mehrwert. 30% mehr Wafer oder für jede Linie spezifisch angepaßte IO-Dies mit eigener Maske - ich denke mit steigenden Stückzahlen wird der spezifische IO immer lohnender.

Ravenhearth
2019-12-07, 03:52:51
AMD Zen 4 CPUs Rumored On Track For 2021 Release As Early TSMC 5nm Yields Impress (https://hothardware.com/news/amd-zen-4-cpus-on-track-for-2021-tsmc-5nm)

BoMbY
2019-12-07, 12:15:47
Naja um da noch zusätzlich DDR5 und HBM PHYs drauf zu packen reicht der Platz natürlich nicht.

Dafür gibt es ja DDR5/4 Multi-PHYs: https://www.synopsys.com/dw/ipdir.php?ds=dwc_ddr54_phy

HOT
2019-12-07, 13:05:10
AMD Zen 4 CPUs Rumored On Track For 2021 Release As Early TSMC 5nm Yields Impress (https://hothardware.com/news/amd-zen-4-cpus-on-track-for-2021-tsmc-5nm)
Da kann man den Plan vielleicht sogar einhalten.
7nm+ Zen3 Q4 2020
5nm Zen4 Q4 2021
5nm Pro Zen5 Q4 2022
3nm Zen6 Q4 2023

In der Praxis wird sich das sicherlich um 1-2 Q verschieben.

BoMbY
2019-12-07, 14:15:24
Wo kommt eigentlich dieses Q4 Gerücht schon wieder her?

HOT
2019-12-07, 15:02:48
5 Qartale Plan...

robbitop
2019-12-07, 15:13:25
5Q ist aber eine Verschiebung um 1J+1Q ;-) - entsprechend ist es Nachfolge Jahr und Q+1 ;-)
Deine Aufstellung wäre ein 4Q Plan. ;-)

Complicated
2019-12-07, 15:16:48
5 Qartale Plan...
Der auch nur erfunden ist und beim Transit zu 5nm nicht passt. AMD startet die Produktion mit Apple zeitgleich - sinnvoll zu diesem Zeitpunkt sind Zen Chiplets. Bei 7nm waren Sie noch 6 Monate später dran. Zudem der 5nm yield schon schneller als bei 7nm über 50% vermeldet wurde
https://www.overclock3d.net/news/cpu_mainboard/tsmc_s_5nm_yields_reportedly_cross_7nm_amd_hinted_as_a_customer_for_zen_4_s_2021 _launch/1

Our translation of the article says that AMD is "expected" to grab some of TSMC's first wave of 5nm capacity and that AMD's Zen 4 architecture is "almost certain" to use TSMC's 5nm processor.
First Wave ist Q1/2020
https://www.gizchina.com/2019/10/28/tsmcs-5nm-process-trial-production-is-50-complete/
The mass production should start from Q1 2019. This time, it is about a quarter ahead of the normal mid-year mass production. This shows that the 5nm process is making good progress. According to the supply chain, the risk trial production is smoother tha the previous generation. Over time, the yield of the 5nm process will gradually increase, especially during the mass production phase.

TSMC’s 5nm technology capacity has also grown dramatically from 4.5 million wafers per month to over 8 million per month. This is due to the high market demand.
Da sind spätestens Q1/2021 Zen4 Produkte für Server und für TRX da, vielleicht sogar mobile, je nach Entwicklung des Chilpet-Öko-Systems

Knuddelbearli
2019-12-08, 11:30:58
AM5 wird vermutlich erst 2022 kommen, wenn es gut läuft evtl. Ende 2021.
Sind also eher noch 2 Jahre bis dahin.
Abgesehen davon ist AM4 jetzt bewährt, DDR4 Speicher ist günstig und so viel wird der Sprung auf PCIe 5.0 real betrachtet auch wieder nicht bringen.
PCIe 4.0 auszulasten ist jetzt schon relativ schwer. Die Grafikkarten brauchen es nicht und die SSDs sind mit PCIe 4.0 schon schnell genug.
Da von PCIe 5.0 zu profitieren (ohne dass die SSDs anfangen zu kochen) wird sportlich.
DDR5 wird natürlich schon ein Vorteil sein aber zu Beginn bestimmt noch ziemlich teuer.
Insofern denke ich, dass Zen2 und Zen3 schon eine gute Basis sind.
Auf AM5 lieber dann 2023 oder 2024 wechseln mit Zen5(?) und günstigerem DDR5 Speicher.

Und die Sache mit der Anzahl der PCIe Lanes ist eine nette Idee, aber eigentlich genügen die jetzigen PCIe Lanes vollkommen, wenn als 4.0 ausgeführt.


Sorry das ich den alten ausgrabe, aber zumindest für die Southbridge wäre PCI-E 5.0 doch nett oder? die Anforderungen nur dafür sollten auch nicht so hoch sein da immer die selben 2 Chips miteinander verbunden werden, was den Test und verwaltungsaufwand in Grenzen hält.

Berniyh
2019-12-08, 11:45:55
Sorry das ich den alten ausgrabe, aber zumindest für die Southbridge wäre PCI-E 5.0 doch nett oder?
Klar wäre das nett, aber es geht schon auch mit PCIe 3.0 oder 4.0. ;)

Gipsel
2019-12-09, 14:42:37
Was haltet Ihr eigentlich von der gerüchteweisen Steigerung der FP-Performance mit Zen3? Angeblich soll ja nicht nur die Cachebandbreite steigen, sondern die möglichen FLops pro Takt auch noch. Zusätzliche ADD und MUL Pipelines (also drei Paare statt wie jetzt zwei), Ersatz der zwei MUL + zwei ADD durch drei (nonbridged) FMAs (Letzteres wäre weniger anspruchsvoll, aber auch minimal weniger performant) oder Alles Blödsinn?

robbitop
2019-12-09, 19:28:50
Eine Steigerung von FP um die gerüchteweise ~50% spricht jedenfalls für eine weitere FP Unit. Für die Gamer sicherlich völlig nebensächlich aber für viele andere Zwecke in denen AMD agiert sicher sinnvoll.

Denniss
2019-12-09, 19:56:35
Noch mehr rechenpower für die Supercomputer mit Zen3?

Tobalt
2019-12-09, 20:14:49
geht die Tendenz nicht eh Richtung mehr FP ? speziell bei weniger gut optimiertem Zeug?

basix
2019-12-09, 20:16:36
Kommt halt auf den Aufwand an. Für mich hört es als Laie nach überschaubar an.

Zur zusätzlichen Cache Bandbreite: Muss es zwingend für FP sein? Profitiert nicht auch AI-Beschleunigung von Bandbreite?

S940
2019-12-10, 17:41:38
Eine Steigerung von FP um die gerüchteweise ~50% spricht jedenfalls für eine weitere FP Unit. Wieso? Könnte nicht auch der Fall eintreten, dass die bestehenden Rechenwerke mit 3 Loads/Takt besser ausgelastet werden? Insbesondere FMA-Instruktionen, die 3 Loads benötigen, dürften mit den aktuell möglichen 2 Loads nur mit angezogener Handbremse laufen.

robbitop
2019-12-10, 19:57:39
Eine Auslastungssteigerung um 50%? Dann muss die Auslastung vorher fragwürdig gewesen sein. Sowas entwickelt doch keiner mehr in heutiger Zeit.

Gipsel
2019-12-10, 22:23:46
Wieso? Könnte nicht auch der Fall eintreten, dass die bestehenden Rechenwerke mit 3 Loads/Takt besser ausgelastet werden? Insbesondere FMA-Instruktionen, die 3 Loads benötigen, dürften mit den aktuell möglichen 2 Loads nur mit angezogener Handbremse laufen.In vielen wichtigen Fällen (SGEMM/DGEMM als prominentes Beispiel) benötigt man 1 Load pro FMA, der Rest kommt aus Registern. Im Allgemeinfall mit gemischten ADDs und MULs (keine FMAs) benötigt man tendentiell mehr. Also eine Cache-Bandbreitensteigerung (drei Loads pro Takt) könnte dort vielleicht etwas bringen, allerdings ist es nicht sehr häufig, daß die FPU so stark ausgelastet werden kann (Abhängigkeiten und so). Deswegen ja die Frage ob die momentan vier FPU Pipes (2x ADD + 2x MUL) eventuell durch drei native FMA-Pipes ersetzt werden könnten. Benötigt prinzipiell die gleiche Anzahl an Ports für das Registerfile (9R+3W statt 8R+4W nur für die Ausführungseinheiten), sollte aber oft etwas mehr Performance bieten, ohne die Hardwarekomplexität zu weit aufzublähen (3x ADD + 3x MUL ist aufwändiger als 3x FMA, wahrscheinlich ohne außerhalb von corner Cases wesentlich Mehrperformance zu bieten).

gravitationsfeld
2019-12-10, 22:54:21
Das seh ich anders weil der meiste Code eben nicht fuer FMA kompiliert ist. Ausser der Chip hat intern MUL+ADD fusion zu FMA. Das stelle ich mir aber kompliziert vor.

x-force
2019-12-10, 23:21:48
warum compiliert man nicht für mehr als eine architektur und bietet pfade für amd und intel?
es war doch früher auch nicht unüblich 3dnow und mmx extra zu nutzen.

stell ich mir kompilieren zu einfach vor? bietet amd überhaupt einen optimierten compiler für zens?

Setsul
2019-12-10, 23:30:55
@gravitationsfeld:
Ich denke Fusion wird sich keiner antun. Ohne Runden des Zwischenergebnisses kommt man in Teufels Küche wenn die Fusion nicht garantiert ist und jeder Run leicht unterschiedliche Ergebnisse liefert. Selbst wenns garantiert ist liefert der Chip auf einmal andere Ergebnisse als erwartet. Ist relativ egal dass die etwas genauer sind, damit macht man sich keine Freunde. Mit Runden dürfte sich der Latenzvorteil in Grenzen halten. Gerade bei Zen-ähnlichen FPUs wo ein dritter Registeroperand einen anderen Port blockiert aber Bypasses kostenlos sind gewinnt man auch durch die Reduzierung der uops nur selten etwas.

gravitationsfeld
2019-12-11, 00:15:25
Ja, eben. Das ist nicht trivial.

warum compiliert man nicht für mehr als eine architektur und bietet pfade für amd und intel?
Selbst wenn die Compiler das anbieten wuerden - was sie nicht tun - hilft einem das nicht mit existierender Software.

Hammer des Thor
2019-12-11, 02:15:00
Eine Steigerung von FP um die gerüchteweise ~50% spricht jedenfalls für eine weitere FP Unit. Für die Gamer sicherlich völlig nebensächlich aber für viele andere Zwecke in denen AMD agiert sicher sinnvoll.


Wieso das? Ich dachte gerade Spiele nutzen viel Fliesskomma für Grafik, Physik und KI?

gravitationsfeld
2019-12-11, 06:06:18
Spiele-Code ist sehr gemischt, kommt extrem auf das Spiel und selbst auf die Szene an.

Berniyh
2019-12-11, 07:54:31
Selbst wenn die Compiler das anbieten wuerden - was sie nicht tun -
Mit gcc geht das selbstverständlich. Ist halt mehr Aufwand, gerade bei umfangreicher Software.

clang bin ich mir nicht sicher wie umfangreich da die CPU-spezifischen Optimierungen inzwischen sind.

MVSC und icc kenn ich nicht wirklich, aber zumindest bei icc darf man für AMD CPUs natürlich nicht sonderlich viel erwarten. ^^

robbitop
2019-12-11, 10:19:09
Wieso das? Ich dachte gerade Spiele nutzen viel Fliesskomma für Grafik, Physik und KI?

FP ist selten der Flaschenhals in Spielen. Ggf wäre das mehr der Fall, wenn man mehr Physik in die Spiele einbauen würde. Da hat sich bei den meisten AAA Titeln leider seit vielen Jahren nur wenig getan IMO.

Mit heutigen Many Core CPUs und relativ breiten Vector FPUs könnte man ggf ein Stück weiter in die Richtung gehen, in die Ageia damals die Spiele bringen wollte. Mehr Zerstörbarkeit, mehr Interaktion.

Hammer des Thor
2019-12-11, 10:47:00
FP ist selten der Flaschenhals in Spielen. Ggf wäre das mehr der Fall, wenn man mehr Physik in die Spiele einbauen würde. Da hat sich bei den meisten AAA Titeln leider seit vielen Jahren nur wenig getan IMO.

Mit heutigen Many Core CPUs und relativ breiten Vector FPUs könnte man ggf ein Stück weiter in die Richtung gehen, in die Ageia damals die Spiele bringen wollte. Mehr Zerstörbarkeit, mehr Interaktion.

Ähem, Star Citizen baut doch jede Menge Physik ein, die sind sogar dabei die Soundberechnung auf mehrere Kerne/Threads zu verteilen.
Ja, früher z.B. Mafia 1 hatte ne komplexe Fahrphysik, weit fortschrittlicher als Mafia 3. Kann es sein, dass die großen Publisher das weniger machen, da komplexe Physik die Spiele weniger "casual" machen?
Anders rum: Wenn Spiele die Physik der CPU nicht ausreizen können, warum haben viele Games denn Nvidia Physics dass doch gerade dafür ist, weil die CPU nicht stark genug ist bei Physik? Warum solche Effekte nicht von einer starken CPU berechnen lassen u.A. mit AVX(2)?

BoMbY
2019-12-11, 11:12:24
NVidia PhysX ist vor allem Marketing, und größtenteils läuft das auf der CPU. Im Prinzip ist das was man wo am Besten macht immer Ermessenssache. Man kann auf jeden Fall davon ausgehen dass man besser als NVidia PhysX sein kann, wenn man will. Es liegt gar nicht im Interesse von NVidia dass das schnell auf CPUs ist.

robbitop
2019-12-11, 11:27:17
Ähem, Star Citizen baut doch jede Menge Physik ein, die sind sogar dabei die Soundberechnung auf mehrere Kerne/Threads zu verteilen.
Ja, früher z.B. Mafia 1 hatte ne komplexe Fahrphysik, weit fortschrittlicher als Mafia 3. Kann es sein, dass die großen Publisher das weniger machen, da komplexe Physik die Spiele weniger "casual" machen?
Anders rum: Wenn Spiele die Physik der CPU nicht ausreizen können, warum haben viele Games denn Nvidia Physics dass doch gerade dafür ist, weil die CPU nicht stark genug ist bei Physik? Warum solche Effekte nicht von einer starken CPU berechnen lassen u.A. mit AVX(2)?
Oh Star Citizen. Das ewige WIP Beta Spiel. :D
Ich meine schon echte releaste fertige AAA. Und zwar die Masse.

PhysX war suboptimal da die Latenz zwischen GPU und CPU für Gamephysik zu langsam ist. Ging also nur für Effektphysik. Meh. Und dazu noch gibt es dann nur eine propertäre Middleware. Doppel Meh.

Ideal ist es wenn Recheneinheit für Physik den gleichen Adressraum hat wie die CPU und Bandbreite und Latenz zwischen ihnen schön gering ist. Muss also auf einem Die sein. Könnte man mit modernen iGPUs sicherlich machen - IIRC waren da aber nich Limitationen in Bezug auf Bandbreite, Kohäherenz und Latenz vorhanden. Auch müsste man dann in Bezug auf Middleware und API Extrawürste braten. Jetzt wo wir 16 CPU Kerne mit 256 bit FPUs haben, ist so viel Floating Point Leistung über, dass man es einfach nativ auf der CPU machen könnte. Keine Umwege und natürlich keine Probleme mit Kohärenz und Latenz. Und es geht prinzipiell mit jeder Middelware und Engine. Also kein blöder Vendorlock. (zumindest verglichen mit PhysX, für OpenCL unproblematisch)

Gipsel
2019-12-11, 11:30:51
Das seh ich anders weil der meiste Code eben nicht fuer FMA kompiliert ist. Ausser der Chip hat intern MUL+ADD fusion zu FMA. Das stelle ich mir aber kompliziert vor.Interne (und automatisierte) Umwandlung von ADD + MUL Paaren ist tatsächlich eine schlechte Idee, solange man nicht das Zwischenergebnis rundet und somit Identität der Ergebnisse sicherstellen kann. Aber das ist auch gar nicht nötig. Die von mir in den Raum gestellten drei FMA-Pipes können ja natürlich auch normale ADDs und MULs. Sie sind somit schlicht flexibler als dedizierte ADD- und MUL-Pipes. Das war die Idee: Man verliert maximal in seltenen Corner Cases etwas (FPU komplett voll mit 2 MUL und 2 ADD pro Takt), kann dafür aber z.B. auch drei ADDs oder drei MULs pro Takt und gewinnt in den für HPC oft wichtigen Matrixoperationen bestimmt 40% - 50% Peakleistung (3 FMAs pro Takt statt nur zwei). Die Ausführungspipelines werden etwas aufwendiger (aber ein FMA ist jetzt nicht soo viel mehr als ein ADD oder MUL), wobei allerdings die Gesamtanzahl der Registerports nicht geändert werden muß (einer mehr für ein drittes Load pro Takt könnte nicht schaden, aber für die Ausführungseinheiten selber benötigt man nicht mehr [bisher benötigt man 8R+4W für die 4 Pipes, damit sich da nichts in die Quere kommt, für die 3 FMA Pipes benötigte man 9R+3W; ein zusätzliches Paar ADD/MUL-Pipes für den gleichen Peak-Durchsatz läge dann schon bei 12R+6W, was ein enormer Komplexitätssprung wäre]). Insofern wäre eine Umstellung auf 3 FMA-Pipes technisch wohl mit überschaubarem Aufwand umzusetzen, kostet im Consumerbereich wohl kaum Performance (in Corner Cases schon, kann aber in anderen Corner Cases auch +50% bringen) und bei Nutzung von FMA kann man +50% höhere Peakleistung behaupten, um bei 3/4 der Peakleistung von intels Kernen pro Takt bei Nutzung von AVX-512 zu landen (die bisher da aber stark den Takt zurücknehmen).
Das war die Überlegung.

Hammer des Thor
2019-12-11, 11:50:01
Oh Star Citizen. Das ewige WIP Beta Spiel. :D
Ich meine schon echte releaste fertige AAA. Und zwar die Masse.




SC in der Beta wäre toll! Das ist immer noch pre alpha! Aber das ist mein Hauptspiel und wird mein Haupspiel. Auch soll SC heute schon 32 threads nutzen. Demnach interessert mich das viel mehr wie spätere CPUs das unterstützen als Comic-Games ala Fortnite!

w0mbat
2019-12-11, 11:56:11
Kurze Zusammenfassung der aktuellen Spekus:

- 3Q 2020
- 7nm EUV
- Keine Steigerung der Kernanzahl
- "neue" Architektur
- 8C-CCX
- schnellerer cache
- weiterhin AM4

Complicated
2019-12-11, 12:06:23
- gemeinsamer L3 Cache für alle 8 Cores im CCX (32MB, oder mehr), gilt als versehentlich bestätigt durch ein Video von AMD.
- bis zu 64 Kerne
- SMT-2 (kein SMT-4 wie spekuliert)
- SP3 Socket kompatibel
- DDR4
- TDP wie bei Rome

http://www.redgamingtech.com/amd-confirms-zen-3-milan-details-64-cores-smt-2-and-8-cores-per-ccx/

basix
2019-12-11, 12:22:06
- Designfokus = Effizienz
- "High Teens" IPC Steigerung

Complicated
2019-12-11, 12:31:41
Details zu IPC von AMD:
http://www.redgamingtech.com/amd-zen-3-more-info-on-ipc-clock-speeds-am5-follows-am4-exclusive/
Essentially the performance breakdown seems to be about 10 – 12 percent on average for Integer operations, but for applications extremely heavy in Floating Point Operations this figure could be closer to 50 percent. Before anyone starts jumping up and down, the average consumer workload will likely push Integer operations a lot more, but of course, a great number of applications will use a combination of both of these sets of instructions.

I was told that in mixed operations (extensively leveraging both Int and FP, Zen 3 seems to provide about 17 percent IPC gain on average – which is pretty crazy when you think about it.

- 100-200 MHz mehr Takt für Server SKUs Milan
I also did some more digging regarding clock frequency and I’ve now had 3 independent sources confirm that indeed 100-200MHz is what is being seen from early Engineering Sample chips. However, one source has confirmed that this is for the server parts (Milan) for Zen 3, and not necessarily something we’ll see on Ryzen 4000.
Bemerkenswert hierbei ist, dass schon die ES höher takten als die Zen 2 SKUs die lieferbar sind das Zen2 ES. Das ist eigentlich ja nicht üblich bei Engineering Samples und dann auch noch "early"

Edit: Zum Vergleich der 64-Core ES von Rome kam mit 1,4/2.0 GHz und der fertige Epyc 7742 hat 2,25/3,4 GHz bei 225 W TDP
Ich hab das mal angepaßt zum ES als Vergleichsbasis, da ich mir kaum vorstellen kann, dass der 64-Kerner als ES schon bei 2,45 Basistakt liegt. Das Potential wäre dann ja ebenfalls + 600 MHz auf 3 GHz für 64 Kerne - das ist wohl dann doch etwas unrealistisch in der selben TDP.

Setsul
2019-12-11, 13:00:41
Wobei man sagen muss dass alles über 30% näher an 50% als an 10% ist. Bei 17% im Schnitt und generell die "closer to 50%" heißt definitiv weniger als 50%, aber wohl irgendwo im Bereich 3x%, vielleicht 40%, natürlich abhängig vom Programm.
Der INT-Cluster hat sich ja auch etwas verändert, dass der FP-Cluster nicht bis in alle Ewigkeit so wie bei Zen1 bleibt war eigentlich sicher. Dass das so viel bringt und schon bei Zen3 kommt ist natürlich erfreulich.

Ich denke die ES für Zen3 takten 100-200 MHz höher als die ES für Zen2 zur gleichen Zeit in der Entwicklung, so macht man normalerweise diese Vergleiche.

Complicated
2019-12-11, 13:28:52
Ja, ich habe das angepaßt. Wobei der Vergleich der ES dann auch wenig Aussagekraft über die Taktraten der finalen SKUs hat. Sind halt früher etwas höher, was eher für einen schnelleren rampup spricht und ungewiß ist ob es auch am Ende mehr bleiben. Schön wäre es natürlich.

Felixxz2
2019-12-11, 14:39:24
Ideal ist es wenn Recheneinheit für Physik den gleichen Adressraum hat wie die CPU und Bandbreite und Latenz zwischen ihnen schön gering ist. Muss also auf einem Die sein. Könnte man mit modernen iGPUs sicherlich machen - IIRC waren da aber nich Limitationen in Bezug auf Bandbreite, Kohäherenz und Latenz vorhanden.

Wurde IIRC auf PS4 auch schon gemacht für exclusives (hab die Quelle nicht mehr). Geht natürlich nicht bei Games die auch auf dem PC laufen.


@topic
17% IPC Steigerung wär gigantisch, kann ich mir fast garnicht vorstellen. Damit wärs für Intel im Desktop definitiv vorbei.

gravitationsfeld
2019-12-11, 15:54:26
Mit gcc geht das selbstverständlich.
Nein. GCC unterstuetzt fuer eine Architektur zu kompilieren, nicht fuer mehrere auf einmal. Darum ging es.

amdfanuwe
2019-12-11, 16:03:31
Da gliedert man entsprechende Programmteile in Libs aus und compiliert diese der Architektur entsprechend. Zur Laufzeit muß man halt die richtige Lib einbinden.
Je nach Umfang des Programms kann man dann auch direkt angepasste Programmversionen bereitstellen.

gravitationsfeld
2019-12-11, 17:16:58
You don't say.

Es ist trotzdem nicht einfach ein Compiler-Switch. Und deshalb macht sich niemand die Muehe. Lohnt sich einfach nicht separat testen zu muessen wegen 5% Perf auf neueren CPUs.

Screemer
2019-12-11, 17:21:39
Na dann könnt ihr ja in Zukunft nur noch mit gcc und amd path compilieren.

nicht ernst gemeint

robbitop
2019-12-11, 17:26:55
Wurde IIRC auf PS4 auch schon gemacht für exclusives (hab die Quelle nicht mehr). Geht natürlich nicht bei Games die auch auf dem PC laufen.


@topic
17% IPC Steigerung wär gigantisch, kann ich mir fast garnicht vorstellen. Damit wärs für Intel im Desktop definitiv vorbei.
Infamous hat da was gemacht. Das war IIRC aber auch nur Effektphysik (Partikel). Aufgrunddessen, dass das natürlich Rechenleistung für die 3D Berechnung reduziert verzichten sicherlich viele Entwickler darauf.

Berniyh
2019-12-11, 19:20:55
Nein. GCC unterstuetzt fuer eine Architektur zu kompilieren, nicht fuer mehrere auf einmal. Darum ging es.
Ja, aber das mehrfach zu kompilieren ist eben kein großer Act. Das kann man schon machen.

Außer eben für sehr große Projekte die möglicherweise mehrere Stunden oder gar Tage brauchen.

Tobalt
2019-12-11, 20:26:11
ist das Einbildung meinerseits oder bringen breitere kerne mehr Performance als viele kerne ?

falls das so ist, wieso ?

Brillus
2019-12-11, 23:54:17
ist das Einbildung meinerseits oder bringen breitere kerne mehr Performance als viele kerne ?

falls das so ist, wieso ?

Mehrere Kerne müssen explizit vom Programmierer gehandelt werden sprich Last fair verteilen. Bei dickem Kern probiert das die CPU selber, nicht so gut als ein guter Programmier aber besser als ein Fauler.

Mal einfach gesagt, spielt noch mehr rein z.b. das auf einen Kern Parallelität kleinteiliger aufgeteilt werden kann. Da synchronisation immer auch Zeit kostet.

PS: Das es auch anders geht sieht man z.b. an GPUs da ist das Prinzip ganz viele kleine Kerne, hat aber auch damit zu tun das deren Problem leichter Parallelisierbar ist.

danarcho
2019-12-12, 09:23:35
Nein. GCC unterstuetzt fuer eine Architektur zu kompilieren, nicht fuer mehrere auf einmal. Darum ging es.

Also zumindest mit OpenMP device offloading sollte es gehen eine host- und ein oder mehrere device archs festzulegen. Ich denke, SYCL funktioniert ähnlich mit SPIR-V als device 'arch'. Beides produziert dann fat binaries. (Sorry, falls das am Thema vorbei ist, hab nicht alles verfolgt)

LasterCluster
2019-12-12, 11:07:21
@topic
17% IPC Steigerung wär gigantisch, kann ich mir fast garnicht vorstellen. Damit wärs für Intel im Desktop definitiv vorbei.

Intel macht doch was ähnliches mit den .cove Architekturen, siehe Ice Lake. Kostet vermutlich ordentlich Transistoren und ist deswegen eher was für neuere Fertigungen.

Schade ist, dass Zen3 nicht Basis der neuen Konsolen wird und es deswegen weniger Anreize gibt die Floatleistung explizieter für Spiele zu nutzen.

@Compilergedöns
Gibt halt Unterschiede zwischen möglich und praktikabel

robbitop
2019-12-12, 12:09:24
Zen 2 hat doch mit AVX2 256 schon einen beachtlichen Sprung was FP Leistung angeht. Dazu immerhin 8 Kerne >3 GHz. Da kann man mMn schon einiges an Spielphysik mit machen.

Was viele gern vergessen:
Eine Konsole muss zum Marktstart in sehr sehr hohen Stückzahlen verfügbar sein und günstig sein. Damit das geht müssen sämtliche Komponenten lange vorher fertig sein und validiert sein. Und es muss vorproduziert sein.
IP Blöcke entsprechend müssen noch länger vorher eingefroren sein.
Bleeding Edge ist heutzutage kaum noch drin unter den Randbedingungen.
Es sind ausgereifte gut verfügbare Fertigungsprozess als Basis notwendig.

Das war vor 15 Jahren zur Zeit der PS3/X360 noch anders. Da war aber fast alles in Bezug auf Chipdesign und Validierung noch massiv leichter als heute.
Zumal man sich damals noch richtig viel custom IPs geleistet hat. Die GPU IP der X360 wurde nirgendwo anders verbaut. Auch der separate eDRAM Kern mit integrierten ROPs. Cell war zwar nicht 100% PS3 exklusiv aber von der Stückzahl her kann man von quasi exklusiv sprechen.


—————————
Zum Thema breit vs mehr Kerne:

1. Amdahls Law - selbst bei perfekt parallelisierbaren Aufgaben müssen Daten kohährent gehalten werden. Thema Oberhead. Das frisst Leistung.
2. Lässt sich vieles eben nicht beliebig parallelisieren (Physik schon eher, 3D Rendering lässt sich auch hervorragend parallisisieren - aber viele Dinge im Hauptthread von Spielecode sind nicht beliebig parallisierbar)

Entsprechen kommt sofort mehr Leistung heraus wenn man die ILP erhöht (mehr Parallilität aus einem Thread quetschen) und dazu auch den Durchsatz erhöht (breiteres Backend) - damit es nicht zum Flaschenhals wird. Im Prinzip versucht man mit steigender ILP (größeres OOO Windows, größere Instruction Caches, größerer ROB, mehr Decoder etc) und Frequenz alle anderen Flaschenhälse mit zu verbessern (durchschnittliche Wartezeit auf eine Instruction -> Cachehitrate und Latenz auf Caches und RAM), Breite des Backends.

Je nach Codebasis sind dort aber auch Grenzen - denen nähert man sich asymptotisch. Bedeutet, dass immer mehr Logik für jedes Prozent IPC notwenig ist. Logik bedeutet Fläche und Leistungsaufnahme. Und dem wirkt man mit Shrinks entgegen. Irgendwann wird es sich aus Perf/W kaum noch lohnen oder aber zumindest stark stagnieren, weil die Shrinks nicht mehr für viel reichen. Zumal die Dauer zwischen den Shrinks ja auch zunimmt.

Mittelfristig muss man sich bei der SW weiter Gedanken um noch mehr Parallelisierung machen (oder den Coreüberschuss für feine Sachen wie deutlich mehr Physik nutzen).

Felixxz2
2019-12-12, 13:17:34
Intel macht doch was ähnliches mit den .cove Architekturen, siehe Ice Lake. Kostet vermutlich ordentlich Transistoren und ist.....

Deswegen sprach ich von Desktop, da wird es ja auch nächstes Jahr nichts neues von Intel geben!

Man beachte die Geizhals Top100: die erste Intel CPU kommt auf Platz 24, davor 7x AMD....

Zossel
2019-12-12, 18:57:57
Nein. GCC unterstuetzt fuer eine Architektur zu kompilieren, nicht fuer mehrere auf einmal. Darum ging es.

Eigentlich macht man sowas per Makefile, GCC ist kein buildsystem.
Und für Fat Binarys ist der Linker zuständig nicht der Compiler.

Zossel
2019-12-12, 19:00:04
ist das Einbildung meinerseits oder bringen breitere kerne mehr Performance als viele kerne ?

https://i.pinimg.com/236x/1f/19/77/1f19776a41f841a464514d55109c317a--funny-stuff-life-tech.jpg

gravitationsfeld
2019-12-12, 19:29:43
Eigentlich macht man sowas per Makefile, GCC ist kein buildsystem.
Und für Fat Binarys ist der Linker zuständig nicht der Compiler.
Du brauchst mir das garantiert nicht zu erklaeren. Wir haben hier unsere eigenen Build-Tools.

Das spielt alles keine Rolle. Es gibt keine "fat binaries" fuer sowas fuer Windows PCs die die Compiler, Linker oder was auch immer automatisch erzeugen ausser vielleicht mit Intels compiler. Aber den benutzt keiner und verweigert Ryzen den Code eh.

Zossel
2019-12-12, 19:57:51
Du brauchst mir das garantiert nicht zu erklaeren. Wir haben hier unsere eigenen Build-Tools.

Das spielt alles keine Rolle. Es gibt keine "fat binaries" fuer sowas fuer Windows PCs die die Compiler, Linker oder was auch immer automatisch erzeugen ausser vielleicht mit Intels compiler. Aber den benutzt keiner und verweigert Ryzen den Code eh.

Unterstützt der Loader von Windows überhaupt Fat Binarys?

Gipsel
2019-12-13, 00:55:53
Unterstützt der Loader von Windows überhaupt Fat Binarys?Für das OS sieht das immer wie ein ganz normales Binary aus. Da benötigt man natürlich Codeschnipsel, die am Anfang die CPU-Erkennung handhabt und dann im Laufe des Programmes zur jeweils die richtigen Version springt (das passiert feingranularer als das komplette Programm; für einzelne Funktionen oder sogar für einzelne Schleifen können mehrere Versionen generiert werden, wenn die Analyse des Compilers das für lohnenswert hält; führt dazu, daß nicht Alles mehrfach generiert wird, sondern ein Teil allen Versionen gemeinsam ist). Der intel Compiler baut (wenn man das aktiviert) dafür so einen "Scheduler" ein (der mit der CPU-Feature-Erkennung, die zuallererst auf "GenuineIntel" schaut und ansonsten die vorhandenen erweiterten Befehlssätze gepflegt ignoriert) und handhabt das automatisch. Mit anderen Compilern muß man das Alles selber coden (was natürlich kaum einer macht).

iuno
2019-12-14, 15:44:36
Das kann GCC seit Version 6 (ist jetzt auch schon ein paar Jahre alt) alles auch. Oder was genau fehlt dem deiner Ansicht nach?

Mit target_clones gibt man an, welche Architekturen/extensions man bei Optimierungen unterstuetzt haben will und es wird dann eine binary gebaut, wo zur Laufzeit (einmal) die richtige Version der jeweiligen Funktion ausgesucht wird.

Wenn man von Hand z.B. eine AVX2 Version baut, muss man natuerlich den Fallback auch selbst bauen. Klar, ist aufwendiger, aber auch kein groesseres Problem?

Edit: bei LWN ist's schoen dargestellt: https://lwn.net/Articles/691932/

Hammer des Thor
2019-12-14, 16:32:20
Mir ist heute zu Ohren gekommen, dass Ryzen 3000 trotz doppeltem L3 wie Intel pro Kern weniger Transistoren haben als aktuelle Intel. Trotzdem höherer IPC. Wenn man sieht das L2 und L3 an die 80% der Kernfläche machen bei Ryzen 3000 ist durch die 10% höhre Transistordichhte viel mehr Platz als man zu erst denkt. Ausgehend von genauso viel L3 und L2 ist da Ordendlich Platz für deutlich mehr Logik-Transistoren und damit auch Leaks und Spekulationen über deutlich mehr Leistung als bei Zen 2 durchaus realistich!

Der_Korken
2019-12-14, 16:53:13
Das glaube ich nicht. Ein Zen2 Chiplet hat ~3,9 Mrd. Transistoren und der IO-Die auch noch mal ~2,0 Mrd. Zum 8C Coffee Lake scheint es keine offiziellen Zahlen zu geben, aber Google spuckt mir Schätzungen um die 3 Mrd. Transistoren aus, was anhand der Die Size ungefähr passt. Da ist dann aber noch IO und die iGPU drin enthalten, also für Kerne+Cache deutlich unter 3 Mrd. Von der Fläche her sind Zen2-Kerne sicherlich deutlich kleiner, aber hauptsächlich wegen 7nm vs 14nm.

robbitop
2019-12-14, 17:12:47
Mir ist heute zu Ohren gekommen, dass Ryzen 3000 trotz doppeltem L3 wie Intel pro Kern weniger Transistoren haben als aktuelle Intel. Trotzdem höherer IPC. Wenn man sieht das L2 und L3 an die 80% der Kernfläche machen bei Ryzen 3000 ist durch die 10% höhre Transistordichhte viel mehr Platz als man zu erst denkt. Ausgehend von genauso viel L3 und L2 ist da Ordendlich Platz für deutlich mehr Logik-Transistoren und damit auch Leaks und Spekulationen über deutlich mehr Leistung als bei Zen 2 durchaus realistich!
Streng genommen hat Zen 2 (wenn man den Zugriff meint) die gleiche Menge L3 wie der 9900K. In beiden Fällen kann jeder Kern auf 16 MiB L3 zugreifen. Hat aber mit deinem Punkt nichts zu tun.
Transistorzahlen pro Kern sind mir zwar nicht bekannt - aber AMD bekommt deutlich höhere Packdichten bei den Kernen hin wegen der automatisierten HD Libs des Layouters. Bei Intel ist das zu einem gewissen Grad handoptimiert. Vorteil: potenziell mehr Takt / Nachteil: wesentlich Aufwändiger und kostet deutlich mehr Fläche. Dazu kommt ja noch, dass AMD schon eine Prozessgeneration weiter ist. (bzw TSMC)

Insofern kann es gut sein, dass ein Zen 2 Core kleiner als ein SKL Core ist. Das muss aber nicht heissen, dass er weniger Transistoren braucht.
Insbesondere der Cache (man muss ja wegen der CCX ja mehr vorhalten damit man gleich viel pro Kern hat) und die aufwändigere Fabric sollten schon zu einem Mehrverbrauch an Transistoren führen.

Hammer des Thor
2019-12-14, 19:05:55
Streng genommen hat Zen 2 (wenn man den Zugriff meint) die gleiche Menge L3 wie der 9900K. In beiden Fällen kann jeder Kern auf 16 MiB L3 zugreifen. Hat aber mit deinem Punkt nichts zu tun.
Transistorzahlen pro Kern sind mir zwar nicht bekannt - aber AMD bekommt deutlich höhere Packdichten bei den Kernen hin wegen der automatisierten HD Libs des Layouters. Bei Intel ist das zu einem gewissen Grad handoptimiert. Vorteil: potenziell mehr Takt / Nachteil: wesentlich Aufwändiger und kostet deutlich mehr Fläche. Dazu kommt ja noch, dass AMD schon eine Prozessgeneration weiter ist. (bzw TSMC)



Aber nur wenn max 4 Kerne genutzt werden, bei mehr als 4 Kernen hat AMD je nach Verteilung etwas mehr bis doppelt so viel. Ist ja einer der Vorteile von Zen 3 dass nen ganzer 8er Block Direkt-Zugriff hat.
Noch mal gegooglet: TSMC 7nm+ hat ganze 20% höhere Transistorichte. Wer jetzt denkt AMD würde einen Kompromiss aus mehr Transistoren und Takt machen und packt 10% mehr LogigTransistoren rein der hat eine Milchmädchen-Rechung. Bei etwa gleichbleibenden Cachemengen würden rund 80% mehr Logik-Transistoren passen, da könnte AMD für den Kompromiss bis zu 40% mehr Logik-Transitoren einbauen, da würde ne dritte FPU passen denke ich.

Noch mal zu Intel : Intel hat ja noch ne IGPU in den meisten CPUs drin, kann sein dass das daher kommt.

Gipsel
2019-12-15, 10:40:55
Das kann GCC seit Version 6 (ist jetzt auch schon ein paar Jahre alt) alles auch. Oder was genau fehlt dem deiner Ansicht nach?Alles, was nicht einfach als Plugin in Visual Studio x86-Binaries für Windows erzeugen kann, ist quasi nicht existent ;). Meine Erfahrung liegt jetzt schon ein wenig zurück, aber damals war GCC keine Alternative (im Prinzip nur für Cross-Platform-Projekte, wo man dann mit GCC die Linux-Version baut). Ich weiß jetzt nicht, ob irgendjemand ernsthaft MinGW mit MSVS nutzt. Die meisten größeren Studios haben doch angeblich bisher meist einfach den MSVC-Compiler genutzt.
Der Punkt, um den es wohl eigentlich ging ist wohl der:
Man hätte gerne, daß man ohne eine einzige Zeile im Code zu ändern (FMV mit GCC erfordert auch Direktiven im Code, wenn ich das richtig verstehe), einen Satz Compilerswitches (Liste der Befehlssatztargets), die bewirken, daß der Compiler (nach irgendeiner Heuristik) völlig automatisiert für potentielle Performance-Bottlenecks eben zwei oder drei Versionen erzeugt (und die richtige zur Laufzeit ausgewählt wird), also z.B. eine Basis x64-Version mit SSE2, dann eine mit AVX und dann noch eine für AVX2. Damit nimmt man den Großteil der möglichen Vorteile mit, ohne viel Aufwand reinzustecken oder die Binary zu stark aufzublähen (+5% dafür, daß man mit 15 Versionen für jede einzelne Prozessorgeneration anrückt, lohnen normalerweise nicht). Und das gibt es offenbar nicht wirklich (außer ICC exklusiv für intel CPUs, andere bekommen da [ohne gepatchte Binaries] immer den "generic CPU" Pfad).

amdfanuwe
2019-12-15, 15:39:00
Ich sehe das Problem eher als Hausgemacht an. Ich habe vor 20 Jahren Technische Informatik studiert. Wir hatten einen Kurs C++. Da benutzte man an Compilerswitches höchstens mal die Debug Einstellung. Im Job konzentriert man sich auf die Problemlösung und wenns funktioniert ist gut. Zeit zum optimieren gibt es nicht. Ich würde mal sagen, mit den Compilerswitches kennen sich nur weniger als 1% der Programmierer aus. Den wenigsten ist die Problematik der unterschiedlichsten Befehlssätze überhaupt bewußt. Da wird der kleinste gemeinsame Nennner eingestellt und fertig.
Für bestimmte Probleme werden evtl. Bibliotheken verwendet, z.B. die Mathlib von Intel, die optimiert schließlich für die unterschiedlichen Prozessoren. Dass das nur für Intelprozessoren geschieht, steht wohl irgendwo im kleingedruckten, was eh keiner liest. War vor ein paar Jahren auch kein Problem, bei dem geringen Marktanteil AMDs, und fiel somit nicht auf.
An was es also fehlt, ist die Problematik dem Programmierer bewußt zu machen und entsprechende Libraries, die die Features der Prozessoren entsprechend nutzen und dem normal Programmierer die Arbeit abnehmen optimieren zu müssen.

iuno
2019-12-15, 19:59:07
Man hätte gerne, daß man ohne eine einzige Zeile im Code zu ändern (FMV mit GCC erfordert auch Direktiven im Code, wenn ich das richtig verstehe), einen Satz Compilerswitches (Liste der Befehlssatztargets), die bewirken, daß der Compiler (nach irgendeiner Heuristik) völlig automatisiert für potentielle Performance-Bottlenecks eben zwei oder drei Versionen erzeugt (und die richtige zur Laufzeit ausgewählt wird), also z.B. eine Basis x64-Version mit SSE2, dann eine mit AVX und dann noch eine für AVX2.

Wie gesagt, man gibt halt mit target_clones an, fuer was man Versionen haben will. Z.B. aus dem LWM Beispiel eine AVX2 Version und eine fuer Atom. Ja, das braucht es schon. Dann baut man aber mit `gcc -O3 bla.c`, wo z.B. dann auto-vectorization dabei ist und das war's. Man braucht nicht nochmal die Architekturen als Flags anzugeben.

Aber auch das, und die Einwaende von amdfanuwe, kann ich nicht nachvollziehen. Es muss nicht jeder, der irgendeine Zeile Code schreibt, was an den Flags machen. Aber davon mal abgesehen, schadet es auch nicht, wenn man performancekritischen Code schreibt, sich mit solchen Dingen zu befassen. Das waere zumindest auch sinnvoller als viele andere "Optimierungen", die man so vorgelegt bekommt. Im Studium lehrt man das grundsaetzlich eher nicht, da hat sich auch in den 20 Jahren nichts geaendert. Ein grosser Teil ist halt auch einfach nicht performancekritisch, da interessiert es keine Sau.

Ich fange jetzt nicht an zu diskutieren/widersprechen, denn ich habe keine Erfahrung mit MSVC. Ich nehme es auch zur Kenntnis, gesagt wird, der Aufwand sei zu hoch. Aber dass es das nicht gibt, oder es unmoeglich ist, stimmt dann halt einfach nicht.

Berniyh
2019-12-15, 21:55:49
Ich sehe das Problem eher als Hausgemacht an. Ich habe vor 20 Jahren Technische Informatik studiert. Wir hatten einen Kurs C++. Da benutzte man an Compilerswitches höchstens mal die Debug Einstellung. Im Job konzentriert man sich auf die Problemlösung und wenns funktioniert ist gut. Zeit zum optimieren gibt es nicht. Ich würde mal sagen, mit den Compilerswitches kennen sich nur weniger als 1% der Programmierer aus. Den wenigsten ist die Problematik der unterschiedlichsten Befehlssätze überhaupt bewußt. Da wird der kleinste gemeinsame Nennner eingestellt und fertig.
Für bestimmte Probleme werden evtl. Bibliotheken verwendet, z.B. die Mathlib von Intel, die optimiert schließlich für die unterschiedlichen Prozessoren. Dass das nur für Intelprozessoren geschieht, steht wohl irgendwo im kleingedruckten, was eh keiner liest. War vor ein paar Jahren auch kein Problem, bei dem geringen Marktanteil AMDs, und fiel somit nicht auf.
An was es also fehlt, ist die Problematik dem Programmierer bewußt zu machen und entsprechende Libraries, die die Features der Prozessoren entsprechend nutzen und dem normal Programmierer die Arbeit abnehmen optimieren zu müssen.
Die Leute die Programme schreiben für die solche Befehlssätze wirklich wichtig sind informieren sich da auch entsprechend und bauen das dann ein.

Das nicht zu tun wäre in vielen Fällen fahrlässig, da unnötig Ressourcen verschwendet würden.

amdfanuwe
2019-12-16, 02:17:24
Ein grosser Teil ist halt auch einfach nicht performancekritisch, da interessiert es keine Sau.

Die Leute die Programme schreiben für die solche Befehlssätze wirklich wichtig sind informieren sich da auch entsprechend und bauen das dann ein.
Haben wir 4 Kategorien:
1)Wald und Wiesen Software: interessiert keine spezielle Optimierung
2)Semiprofessionelle: es wird eine Lib benutzt, die dummerweise nicht alle Architekturen unterstützt
3)Professionelle: die dann auch nur für ihr System optimieren.
4)Lib Entwickler: arbeiten für eine Firma und berücksichtigen die Konkurrenz nicht ; OpenSource Entwickler oft nur für Linux und nicht so gut wie die Firmen Entwickler, da ihnen entsprechende Dokumente fehlen etc.

Ich war auch mal Idealist. 20 Jahre industrielle Praxis haben den Frust ganz schön hochgetrieben. Dank AMD Aktien muß ich mich jetzt nicht mehr damit rumärgern.

edit @ iuno unten: Profis in Hinblick auf Compilereinstellungen und architekturabhängige Optimierung

iuno
2019-12-16, 08:50:01
Professionell ist hier aber der falsche Ausdruck. Profis gibts in allen 4 genannten Kategorien.

Hammer des Thor
2019-12-16, 11:15:22
Mehrere Kerne müssen explizit vom Programmierer gehandelt werden sprich Last fair verteilen. Bei dickem Kern probiert das die CPU selber, nicht so gut als ein guter Programmier aber besser als ein Fauler.

Mal einfach gesagt, spielt noch mehr rein z.b. das auf einen Kern Parallelität kleinteiliger aufgeteilt werden kann. Da synchronisation immer auch Zeit kostet.

PS: Das es auch anders geht sieht man z.b. an GPUs da ist das Prinzip ganz viele kleine Kerne, hat aber auch damit zu tun das deren Problem leichter Parallelisierbar ist.



Genau dieses selber probieren passiert doch durch die spekulative Sprungvorhersage wie ich geschrieben hab. Da wird auch fehlspekuliert und somit umsonst gerechnet.

Brillus
2019-12-16, 23:33:49
Genau dieses selber probieren passiert doch durch die spekulative Sprungvorhersage wie ich geschrieben hab. Da wird auch fehlspekuliert und somit umsonst gerechnet.

Was hat die antwort mit meonen Posting zu tun?

Hammer des Thor
2019-12-17, 10:49:55
Was hat die antwort mit meonen Posting zu tun?
Warum nicht? Ich meine nur dass eine Parallelität durch Programmierung und Threads effektiver sein dürfte als durch spekulative Sprungvorhersage, da es bei ersteren nicht zu Fehlspekulationen kommt die verworfen werden müssen!

CrazyIvan
2019-12-18, 05:56:16
Du hast damit grundsätzlich recht. Das liegt vor allem daran, dass es sich um zwei grundverschiedene Probleme handelt. Parallelisierung im Code wird dort verwendet, wo ich weiß, dass Aufgabe a und b nebenläufig erledigt werden können, weil sich ihre Ergebnisse gegenseitig nicht beeinflussen. Spekulation findet genau dort Anwendung, wo Parallelisierung eigentlich nicht möglich ist - beispielsweise bei verschiedenen Pfaden eines IF Statements, dessen Eingangsgröße noch nicht bekannt ist. Man kann also letzteres nicht einfach durch ersteres ersetzen.

Zossel
2019-12-18, 06:32:36
Warum nicht? Ich meine nur dass eine Parallelität durch Programmierung und Threads effektiver sein dürfte als durch spekulative Sprungvorhersage, da es bei ersteren nicht zu Fehlspekulationen kommt die verworfen werden müssen!

Für so eine simple Verallgemeinerung sind die Problemstellungen zu vielseitig und zu verschieden.

Piefkee
2019-12-19, 21:54:07
Charlie von Semiaccurate heute im Confernce Call mit Susquehanna:
(Notizen von als dem Call, war frei zugänglich)
- Milan (Zen3) ist seit Monaten im Lab
- selbe mobo, selbe Infrastruktur
- Perfomance ist besser als erwartet
- Die Performance Steigerungen die öffentlich als Gerüchte kolportieren sind zu gering (WHAT?!)
-Zen4 (Genoa) soll 10 Mem-Channel haben (80 Kerne??)

Offtopic:(Intel)
-10nm Yields gering / Icelake SP erst 2021 / Sapphire Rapids erst 2022

Piefkee
2019-12-20, 15:19:24
https://www.reddit.com/r/Amd/comments/ed9qyr/renoir_apu_ryzen_7_4700u_8c8t_2ghz42ghz_pcmark10/

Renoir zeigt sich im Laptop... ach ja un 8 Kerne sind besättigt!

gmb
2019-12-20, 15:27:11
https://www.reddit.com/r/Amd/comments/ed9qyr/renoir_apu_ryzen_7_4700u_8c8t_2ghz42ghz_pcmark10/

Renoir zeigt sich im Laptop... ach ja un 8 Kerne sind besättigt!


Interessant, der R7 4700U wird mit 8 Kerne ohne SMT angegeben. Möglicherweise kopiert AMD hier Intels ehemalige SKU Segmentierung. Dann wären 6/12 für R5 und 8/16 für R9 möglich. Der R9 muss aber nicht zwangsläufig als 15W Variante kommen.

mironicus
2019-12-20, 15:40:15
Damit ist die Dominanz von Intel im Mobilebereich beendet. Die Hersteller können mit Renoir alle Bereiche abdecken von Ultrabook bis Spielenotebook.

Locuza
2019-12-20, 15:50:35
Tiger Lake (10nm++ Willow Cove + Xe Grafik) wird bis zum Quadcore-Bereich wahrscheinlich deutlich besser dastehen, als Renoir.
Daneben wird noch Lakefield (3D stacked Chip hybrid chip) für low power und small area footprint erscheinen.

AMD ist gut positioniert gegenüber 8C Comet Lake, aber das ist eine höhere Leistungsklasse und insgesamt eher Nische.
Daneben könnte noch der zeitliche Faktor für AMD sprechen, aber Intel wird den Markt nach wie dominieren.

Slashman
2019-12-20, 15:55:02
Damit ist die Dominanz von Intel im Mobilebereich beendet. Die Hersteller können mit Renoir alle Bereiche abdecken von Ultrabook bis Spielenotebook.

So einfach ist es nicht, aber ja die Hersteller haben jetzt auch eine andere Möglichkeit... Sie sind nicht mehr auf Intel angewiesen, aber viele normale Menschen verbinden noch immer mit Intel = besser obwohl es nicht so ganz richtig ist...

Piefkee
2019-12-20, 15:57:40
Tiger Lake (10nm++ Willow Cove + Xe Grafik) wird bis zum Quadcore-Bereich wahrscheinlich deutlich besser dastehen, als Renoir.
Daneben wird noch Lakefield (3D stacked Chip hybrid chip) für low power und small area footprint erscheinen.

AMD ist gut positioniert gegenüber 8C Comet Lake, aber das ist eine höhere Leistungsklasse und insgesamt eher Nische.
Daneben könnte noch der zeitliche Faktor für AMD sprechen, aber Intel wird den Markt nach wie dominieren.

Ohne jetzt jemand zu nahkommen zu lassen. Wir sprechen aber hier von einen Produkt dass ich sehr anzweifle wird noch 2020 released. Ich meine Ja Intel wir natürlich ganz groß PR mäßig postulieren das es so ist. Wenn ich mir mal die aktuelle auswahl an 10nm Ice-Lake Notebooks anschaue und dann noch die tolle Verfügbarkeit glaube ich kaum dass 2020 Tiger-Like wirklich in großen Stückzahlen kommt...

KarlKastor
2019-12-20, 16:32:40
Tiger Lake (10nm++ Willow Cove + Xe Grafik) wird bis zum Quadcore-Bereich wahrscheinlich deutlich besser dastehen, als Renoir.
Daneben wird noch Lakefield (3D stacked Chip hybrid chip) für low power und small area footprint erscheinen.

AMD ist gut positioniert gegenüber 8C Comet Lake, aber das ist eine höhere Leistungsklasse und insgesamt eher Nische.
Daneben könnte noch der zeitliche Faktor für AMD sprechen, aber Intel wird den Markt nach wie dominieren.

Was macht dich da so sicher? Picasso steht schon gar nicht so schlecht da. Da fehlt nur noch ein bisschen Arbeit im idle Verbrauch. Unter Last wird Renoir dank Zen 2 und 7nm gut aussehen. Und die GPU wird mit LPDDR4x auch einen großen Schritt machen.

Tiger Lake muss gegenüber Ice lake schon gut was an Effizienz unter Last drauflegen.
Ich sehe das eher offen, wer da besser dastehen wird.

KarlKastor
2019-12-20, 16:34:23
Ohne jetzt jemand zu nahkommen zu lassen. Wir sprechen aber hier von einen Produkt dass ich sehr anzweifle wird noch 2020 released. Ich meine Ja Intel wir natürlich ganz groß PR mäßig postulieren das es so ist. Wenn ich mir mal die aktuelle auswahl an 10nm Ice-Lake Notebooks anschaue und dann noch die tolle Verfügbarkeit glaube ich kaum dass 2020 Tiger-Like wirklich in großen Stückzahlen kommt...

Was spricht gegen Tiger Lake U in 2020? Ich habe bisher nichts gelesen, was dem hinderlich sein könnte. Desktop brauchen wir nicht drüber reden, aber mobile?

robbitop
2019-12-20, 17:01:11
https://www.reddit.com/r/Amd/comments/ed9qyr/renoir_apu_ryzen_7_4700u_8c8t_2ghz42ghz_pcmark10/

Renoir zeigt sich im Laptop... ach ja un 8 Kerne sind besättigt!
8C - habe ich schon vor Ewigkeiten gesagt. Wollte immer keiner glauben. :D
Ist aber auch sinnvoll und logisch. Für low cost und/oder low tdp kann man ja Kerne abschalten.

mboeller
2019-12-20, 17:15:29
Charlie von Semiaccurate heute im Confernce Call mit Susquehanna:

link please


(Notizen von als dem Call, war frei zugänglich)
- Milan (Zen3) ist seit Monaten im Lab
- selbe mobo, selbe Infrastruktur
- Perfomance ist besser als erwartet
- Die Performance Steigerungen die öffentlich als Gerüchte kolportieren sind zu gering (WHAT?!)


WTF! >17% Steigerung ... wow!

SKYNET
2019-12-20, 17:19:53
Tiger Lake (10nm++ Willow Cove + Xe Grafik) wird bis zum Quadcore-Bereich wahrscheinlich deutlich besser dastehen, als Renoir.
Daneben wird noch Lakefield (3D stacked Chip hybrid chip) für low power und small area footprint erscheinen.

AMD ist gut positioniert gegenüber 8C Comet Lake, aber das ist eine höhere Leistungsklasse und insgesamt eher Nische.
Daneben könnte noch der zeitliche Faktor für AMD sprechen, aber Intel wird den Markt nach wie dominieren.



https://www.computerbase.de/2019-12/amd-picasso-intel-ice-lake-comet-lake-test/2/#diagramm-f1-2019

man beachte den modus leise... Vega10 ist mit 500MHz und 2400er speicher, gleich schnell wie intels konkurrenzprodukt mit 700MHz und 3733er speicher X-D

pro-takt leistung ist also unterirdisch bei intel.

vega13 mit schnelleren speicher wird also intels neue grafik -mal wieder / wie immer- zerreissen ;D

Linmoum
2019-12-20, 17:21:01
Ich bin gespannt, ob sie noch einen R9 oberhalb mit SMT platzieren. Mit Navi wären das die perfekten APUs, wobei es ja selbst mit Vega reicht/reichen wird, Intel mühelos hinter sich zu lassen.

Sollte man die Diskussion aber nicht eher in den Zen2-Thread verschieben? Renoir hat ja nix mit Zen3 zu tun.

Locuza
2019-12-20, 17:22:47
Ohne jetzt jemand zu nahkommen zu lassen. Wir sprechen aber hier von einen Produkt dass ich sehr anzweifle wird noch 2020 released. Ich meine Ja Intel wir natürlich ganz groß PR mäßig postulieren das es so ist. Wenn ich mir mal die aktuelle auswahl an 10nm Ice-Lake Notebooks anschaue und dann noch die tolle Verfügbarkeit glaube ich kaum dass 2020 Tiger-Like wirklich in großen Stückzahlen kommt...
Man kann mehrere Ice Lake Notebooks aktuell kaufen, ohne auf eine Lieferung warten zu müssen.
Surface 7, Surface Laptop 3, die meisten Modelle mit Ice Lake sind verfügbar und direkt lieferbar.
Acer und Lenovo Modelle ebenso:
https://www.amazon.de/Acer-Swift-3-SF314/s?k=Acer+Swift+3+%28SF314%29
https://www.amazon.de/s?k=Lenovo+1065+G7&__mk_de_DE=%C3%85M%C3%85%C5%BD%C3%95%C3%91&ref=nb_sb_noss

https://pics.computerbase.de/8/7/4/9/3/2-1080.48bed4a1.jpg
Geht es nach der alten Roadmap ist das Produktionsvolumen von Ice Lake beschränkt, dennoch gibt es "echtes" Marktvolumen dahinter und zeitlich hat es Intel das Ganze mal wirklich auf die Kette bekommen.
Mit Tiger Lake und 10nm++ sollte die Situation zumindest nicht schlechter dastehen was die Fertigung angeht.
Ein Problem ist möglicherweise das auch noch andere Produkte in 10nm gefertigt werden und Intel sich entscheiden muss, wie viel von was genau vom Band läuft.
Comet Lake parallel dazu ist natürlich auch ein eindeutiges Zeichen dafür, dass die 10nm-Produkte nach wie vor nicht ausreichen werden, um den ganzen Markt zu beliefern, aber ich habe Zweifel daran, ob das Intel weh tun wird und AMD deswegen eine große Chance hat, denn auch AMD hat ein begrenztes Volumen was sie sich buchen können und wie viele Chips sie an den Markt liefern könnten.

Was macht dich da so sicher? Picasso steht schon gar nicht so schlecht da. Da fehlt nur noch ein bisschen Arbeit im idle Verbrauch. Unter Last wird Renoir dank Zen 2 und 7nm gut aussehen. Und die GPU wird mit LPDDR4x auch einen großen Schritt machen.

Tiger Lake muss gegenüber Ice lake schon gut was an Effizienz unter Last drauflegen.
Ich sehe das eher offen, wer da besser dastehen wird.
Picasso ist schon arg meh von der Effizienz, Renoir wird hoffentlich deutlich besser dastehen, aber mit VCN2.0 und Vega bin ich da deutlich weniger euphorisch.
Die CUs nach aktuellen Einträgen liegen bei maximal 13, vielleicht gibt es mehr, 15, aber das wird gegenüber Tiger Lake nicht einfach.
Gen11 ist ungefähr auf einem Niveau mit Vega8/11, Xe wird eine deutlich bessere GPU-Architektur sein und Intel erhöht die Recheneinheiten von 64 auf 96 (+50%) für Tiger Lake.
Der wird auch noch LPDDR5 anbieten, wenn man es ganz Premium haben möchte, wobei man natürlich abwarten muss, wie arg der LP-Standard von OEMs adaptiert wird, was ebenso für LPDDR4(X) gilt.
Sunny Cove bietet schon ~18% mehr Perf per Clock, als Zen2 und Skylake, Willow Cove wird noch einmal drauflegen und dank 10nm++ wird es bezüglich der Taktraten auch besser aussehen und potentiell auch bei der Effizienz.

gmb
2019-12-20, 18:01:42
Ohne jetzt jemand zu nahkommen zu lassen. Wir sprechen aber hier von einen Produkt dass ich sehr anzweifle wird noch 2020 released. Ich meine Ja Intel wir natürlich ganz groß PR mäßig postulieren das es so ist. Wenn ich mir mal die aktuelle auswahl an 10nm Ice-Lake Notebooks anschaue und dann noch die tolle Verfügbarkeit glaube ich kaum dass 2020 Tiger-Like wirklich in großen Stückzahlen kommt...


Dann schau dir mal die Verfügbarkeit bei AMD an wenn sie eine neue mobile Plattform auf den Markt bringen. Da ist nicht viel los die ersten paar Monate, da sollte man als AMD Anhänger jetzt nicht die großen Töne spucken, sondern auch erstmal abwarten. Was für Intel low volume ist mit Icelake, wäre für AMD richtig gut keine 5 Monate nach launch. Dass Icelake nicht in großer Masse verfügbar sein wird (für Intel Verhältnisse), ist nicht Neues, genau das soll sich mit Tigerlake ändern.

Und dass Tigerlake nicht 2020 kommt, ist exklusives Wunschdenken einiger AMD Anhänger. Warum ihr gleich wieder rumspinnen müsst, beibt doch mal seriös zur Abwechslung.

An Renoir ist auch nicht alles top. Ich halte es für einen absoluten Fail, im Jahr 2020 immer noch auf die alte Vega zu setzen. Hier muss man abwarten, was AMD rausholen kann mit 7nm gegenüber Picasso. Bei Intel weiß man, dass sie mit der Gen12 GT2 eine Leistungsverdopplung anpeilen.


Was spricht gegen Tiger Lake U in 2020? Ich habe bisher nichts gelesen, was dem hinderlich sein könnte. Desktop brauchen wir nicht drüber reden, aber mobile?


Im Moment überhaupt nichts. Das wird sich hier jetzt (und nur hier) eingeredet.

https://www.computerbase.de/2019-12/amd-picasso-intel-ice-lake-comet-lake-test/2/#diagramm-f1-2019

man beachte den modus leise... Vega10 ist mit 500MHz und 2400er speicher, gleich schnell wie intels konkurrenzprodukt mit 700MHz und 3733er speicher X-D

pro-takt leistung ist also unterirdisch bei intel.

vega13 mit schnelleren speicher wird also intels neue grafik -mal wieder / wie immer- zerreissen ;D


Pro Takt Leistung einer GPU ohne die Rechenwerke und Größe mit einzubeziehen, ja macht Sinn. Vega 10 mit 500 Mhz und Gen11 GT2 mit 700 Mhz sind bei der Rechenleistung sehr ähnlich. Du kannst nur 2 Sachen draus ziehen. Entweder investiert Intel weniger GPU Fläche bei der Gen11 GT2, also weniger Einheiten, oder sie investieren gleich viel oder mehr und die Flächeneffizienz ist geringer. Und der LPDDR4 bringt bei der Gen11 GT2 nicht viel. 10% in Tests, aber auch nicht immer, das wird gerne überbewertet.

Piefkee
2019-12-20, 21:29:52
link please



WTF! >17% Steigerung ... wow!

Gibt keinen link war ein Call...
Auf Reddit gibts ne zusammenfassung /r/AMD_Stock

Brillus
2019-12-20, 21:49:08
Dann schau dir mal die Verfügbarkeit bei AMD an wenn sie eine neue mobile Plattform auf den Markt bringen. Da ist nicht viel los die ersten paar Monate, da sollte man als AMD Anhänger jetzt nicht die großen Töne spucken, sondern auch erstmal abwarten. Was für Intel low volume ist mit Icelake, wäre für AMD richtig gut keine 5 Monate nach launch. Dass Icelake nicht in großer Masse verfügbar sein wird (für Intel Verhältnisse), ist nicht Neues, genau das soll sich mit Tigerlake ändern.

Und dass Tigerlake nicht 2020 kommt, ist exklusives Wunschdenken einiger AMD Anhänger. Warum ihr gleich wieder rumspinnen müsst, beibt doch mal seriös zur Abwechslung.

Vielleicht solltest du mal mit dem rumspinnen aufhören, also ich hatte meine Picasso Lapi, gehabt im Launchmonat (und ca 4 Tage nachdem ich ihn bestellt habe hatte erstnoch Test abgewartet von ihm und 2-3 anderen Modellen die in der Nähern Auswahl standen.)

mboeller
2019-12-20, 21:56:11
Gibt keinen link war ein Call...
Auf Reddit gibts ne zusammenfassung /r/AMD_Stock

danke, gefunden:

https://www.reddit.com/r/AMD_Stock/comments/eczmzx/susquehanna_holds_its_second_chat_with_charlie/

BoMbY
2019-12-20, 21:58:02
Ja, die Verfügbarkeit ist da prinzipiell gar nicht schlecht. Nicht ohne Grund werden die Desktop-SKUs ja erst Monate später veröffentlicht. Natürlich wird sich AMD nicht die Lager bis unter das Dach voll machen, und die Lead-Time ist relativ hoch - da kann es immer schon mal ein oder zwei Monate dauern bis man das richtige Level gefunden hat.

gmb
2019-12-21, 12:12:05
Vielleicht solltest du mal mit dem rumspinnen aufhören, also ich hatte meine Picasso Lapi, gehabt im Launchmonat (und ca 4 Tage nachdem ich ihn bestellt habe hatte erstnoch Test abgewartet von ihm und 2-3 anderen Modellen die in der Nähern Auswahl standen.)


Das sind wieder nur Nebelkerzen, wie so oft. AMD hat im mobilen Sektor in den ersten paar Monaten immer ein sehr sehr niedriges Volumen gehabt (prinzipiell generell). Raven Ridge war ein absoluter Flop die ersten 3-5 Monate, extra für dich rausgesucht:


Der Witz daran ist noch, dass man für den Schrott 949€ hinlegen muss. Es bleibt aber auch festzuhalten, dass jetzt bald 4 Monate nach Raven Ridge Launch das Angebot eine Lachnummer ist. Es sind laut geizhals nur 4 Geräte (mit unterschiedlichen Konfigurationen) verfügbar. Sieht also genauso dünn aus wie die Jahre zuvor.


Dagegen war Icelake nach 4 Monaten high volume, also erzähl kein Stuss. Die Verfügbarkeit bei Picasso war besser, aber das war auch nur ein leichtes update.

CrazyIvan
2019-12-21, 16:24:40
Das lag doch viel mehr daran, dass die OEMs sehr vorsichtig waren. RR wurde zu weiten Teilen links liegen gelassen. Picasso hat bei den OEMs bereits deutlich mehr Anklang gefunden. Und wenn Renoir wirklich alle Schwächen des Vorgängers (idle Verbrauch, HW-Video-Decryption) beseitigt, dann dürfte mit 8C/16T auch im Mobile Bereich ganz schön der Punk abgehen.

Leonidas
2019-12-27, 07:49:23
Charlie von Semiaccurate heute im Confernce Call mit Susquehanna:
(Notizen von als dem Call, war frei zugänglich)
-Zen4 (Genoa) soll 10 Mem-Channel haben (80 Kerne??)


Hast Du das selber so notiert bzw. vernommen? Denn in den Aufzeichnungen bei Reddit finde ich hierzu nichts.

HOT
2019-12-27, 09:28:11
Würde ja ganz einfach 10 Kerne CCDs bedeuten bei Zen4, was jetzt alles andere als Unwahrscheinlich ist...

Hammer des Thor
2019-12-27, 10:34:28
Wieso? Die RAMs werden eh vom IO Die angesprochen und damit unabhängig der Kernzahl. Kann mir auch weiterhin 8 Kern CCDs vorstellen nur bis zu 3 im Mainstream davon und bis zu 12 im Server. Da DDR5 schneller ist ist eine 1 zu 1 Erhöhung der RAM Channel im Server auch nicht nötig denke ich.
Da die wegen 5 nm kleiner sind sollten 3 nebeneinder passen auf AM5 und auch für Mittelklasse und unterer Mittelklasse müssen keine neuen chiplets entwickelt werden dann. Von 10 Kernen 4 zu deaktivieren für nen 6 Kerner wäre m.E Verschwendung!

robbitop
2019-12-27, 10:59:01
Die CCX immer größer zu machen wird vermutlich den Vorteil der CCXs kosten. Zumindest ihn schmälern. Latenz innerhalb des CCX.
Es ist nunmal so dass Latenz und Skalierbarkeit diametrale Kriterien sind.
CCX waren ein Kompromiss, der Skalierbarkeit erlaubte und zumindest zT tolle Latenzen bot. Die immer größer zu machen führt am Ende dazu, dass man sie abschaffen kann und am Ende ein ähnliches Ergebnis hat wir Intel mit ihrem Mesh.

Windi
2019-12-27, 10:59:44
Bei 10 Mem-Channel würde ich ja eher 10 Chiplets erwarten. Solange AMD beim 1:1 Verhältnis bleibt. Wenn man nun die CCX auf 8 Kerne vergrößert, dann müssten sie sich auch keinen Speicherkontroller mehr teilen.



Wenn es aber stimmt, das man bei der APU auf 8 Kerne geht, dann bräuchte man eigentlich keine 8C Chiplets mehr, man könnte wieder zwei CCX verbauen und dann gleich 16 Kerne haben.
Keine Ahnung, welche Variante mehr Vorteile hat.

KarlKastor
2019-12-27, 11:06:29
So ein 8 Kern Chiplet in 5 nm wäre schön verdammt winzig.
Weiß nicht ob dass noch wirklich effizient ist.
Allerdings ist das die logische Größe, wenn man das Chiplet auch im Desktop einsetzen will. 16 Ker e als Minimum wäre schön etwas viel.

basix
2019-12-27, 11:36:39
Ich würde ja eher auf ein CCD mit 10-12C in 5nm tippen. Zusammen mit vergrössertem Cache und vermutlich auch Core ergäbe das in etwa die selbe Chiplet Grösse wie heute (1.8x Flächenscaling 5nm vs. 7nm). Wäre evtl. auch innerhalb des Power Budgets machbar, wenn sie das Design auf Energieeffizienz trimmen, was bei Zen 3 ja schon passieren soll (+25...50% Cores bei gleichen Taktraten wie heute).

Das schöne am ganzen: Selbe High-Level Architektur wie heute (2x CCD bei Desktop, 8x CCD bei EPYC). Das schont Entwicklungsressourcen und "leveraged" bestehende Software-Optimierungen.

Und wieso 10x Speicherkanäle? Mit DDR5 hat man auf einen Schlag verdoppelte Bandbreite. Die Prozessorleistung wird sicher aber eher nicht verdoppeln. Deswegen sollten 8x Speicherkanäle genug sein.

reaperrr
2019-12-27, 12:40:18
@basix: DDR5 wird a) nicht zwangsläufig gleich mit doppeltem Takt starten, vor allem aber b) wird der höhere Takt (btw bei niedrigerer Spannung) in erster Linie durch deutlich mehr Latenz erkauft.
In Anwendungen, in denen es nicht allein auf reine Bandbreite, sondern auch Latenz ankommt, wird DDR5 meilenweit entfernt sein von einer effektiven Verdoppelung der Speicherperformance, selbst bei doppeltem Takt.

2 zusätzliche MemChannels machen daher schon Sinn, reichen aber auch.
Ich erwarte, dass AMD mit Zen4 bei 8C-CCDs bleibt, aber davon 12 verbaut für 96 Kerne.
25% mehr Bandbreite durch 2 zusätzliche Channels und weitere ~+25% mehr effektive Speicherperformance durch DDR5 reichen dafür definitiv.

Außerdem wird irgendwann die Variante kommen, dass zusätzlich auch noch einige HBM-Chips auf dem Package verbaut werden (ob nun neben oder auf dem I/O-Die wird man sehen).
Wurde schon für Zen3 spekuliert und früher mal für Ice Lake. Kann sein, dass es mangels Ausgereiftheit und/oder Nachfrage verschoben wurde, aber da man aus Platzgründen nur noch begrenzt Luft für mehr DDR-Channels hat und die Kernzahlen weiter schneller steigen werden als die DDR-Speicherbandbreite, wird es irgendwann etwas in der Richtung geben (müssen).

amdfanuwe
2019-12-27, 13:33:41
Ich erwarte, dass AMD mit Zen4 bei 8C-CCDs bleibt, aber davon 12 verbaut für 96 Kerne.

Wenn dann noch der I/O in 3 Chips aufgeteilt wird sind wir beim herumgeisterndem 15 Chiplet Design.
IF-Switch in 5nm und 2 * PHY Chiplets in 12nm für je 64 PCIe und 5 Channel Mem.
Durch die kleineren Kontakte des 5nm IF-Switches sollte dann auch der interne Datenverkehr zwischen den Chiplets effizienter ablaufen können.

Leonidas
2019-12-27, 13:45:44
Mit DDR5 hat man auf einen Schlag verdoppelte Bandbreite.


Ganz sicher nicht. Das wird wie alle neuen Speichernormen langsam starten und erst perspektivisch 3-4 Jahre später dann die doppelte Bandbreite erreichen.

HPVD
2019-12-27, 13:52:43
Schaut man sich besonders im Serverbereich
die Entwicklung von verfügbarer Speicherbandbreite
(Memory Channel + Memory Standard + Memory Frequenz)
zur Gesamtleistung einer CPU
(Entwicklung Anzahl Kerne + Entwicklung IPC (+ Entwicklung Frequenz))
an,
so ist EPYC 2 mit 64 Kernen episch schlecht mit Speicherbandbreite versorgt.

=> da macht es imho absolut Sinn nachzulegen und neben DDR5 auch 10 Memory Channel einzuführen,
ganz besonders da
- ja auch die Kerne Zahl bei Epyc 4 weiter steigen wird (wie oben bereits skizziert hin zu 80+)
und
- die Plattfom (und damit die Anzahl der Speicherkanäle) wieder 2-3 CPU-Generationen (mit steigenden Kerneanzahlen, IPC (und Frequenzen)) reichen muss...

eine wichtige Frage dabei ist aber: ist auf den Boards genug Platz dafür?

BoMbY
2019-12-27, 14:03:43
Möglicherweise ein Teil der IPC-Gewinne?

https://i.imgur.com/MxIGMDh.png

Patent #20190391813: LOW LATENCY SYNCHRONIZATION FOR OPERATION CACHE AND INSTRUCTION CACHE FETCHING AND DECODING INSTRUCTIONS (http://www.freepatentsonline.com/20190391813.pdf)

Wurde schon Mitte 2018 angemeldet, aber jetzt erst veröffentlicht.

HPVD
2019-12-27, 14:08:20
Ganz sicher nicht. Das wird wie alle neuen Speichernormen langsam starten und erst perspektivisch 3-4 Jahre später dann die doppelte Bandbreite erreichen.

ganz sicher bin ich mir nicht. Es könnte evtl schon passieren, da mit DDR5 auch erstmals die Effizienz deutlich steigt. Gab da glaub ich bei annadtech nen Artikel zu (reiche ich nach).

Es könnte so etwas werden (Serverbereich):

Typ | Effektiver Takt | "Effizienz" | Bandbreite pro Kanal
DDR4 | 3200 | 100% | 25,60
DDR5 | 4800 | 135% | 51,84

damit wärs +100%

edit:

Micron schreibt dazu:
When comparing DDR4 and DDR5 bandwidths at DDR4’s maximum data rate, 3200MT/s, a system-level simulation shows DDR5 has a 1.36-times increase in effective bandwidth. This comparison showcases some of the overall design improvements introduced with DDR5. Increasing to the 4800MT/s data rate expected to be available at DDR5’s launch the potential increase in effective bandwidth jumps to 1.87-times, and that’s just for starters!

https://www.micron.com/about/blog/2019/june/ddr5-the-next-step-in-system-level-performance

mboeller
2019-12-27, 14:19:52
meinst du das hier:

https://www.techpowerup.com/248656/cadence-micron-update-on-ddr5-still-on-track-1-36x-performance-increase-over-ddr4-at-same-data-rate


Cadence says that while comparing DDR4 3200 vs DDR5 3200, there is already an increase in bandwidth of 1.36X - yes, at the same data rate. Add in the frequency increase (and consider the density increase as well), and there's a 1.87x increase in performance when comparing DDR4 3200 to DDR5 4800.


Originalquelle:
https://community.cadence.com/cadence_blogs_8/b/breakfast-bytes/posts/oip-ddr5

fondness
2019-12-27, 14:37:39
Die CCX immer größer zu machen wird vermutlich den Vorteil der CCXs kosten. Zumindest ihn schmälern. Latenz innerhalb des CCX.
Es ist nunmal so dass Latenz und Skalierbarkeit diametrale Kriterien sind.
CCX waren ein Kompromiss, der Skalierbarkeit erlaubte und zumindest zT tolle Latenzen bot. Die immer größer zu machen führt am Ende dazu, dass man sie abschaffen kann und am Ende ein ähnliches Ergebnis hat wir Intel mit ihrem Mesh.

Ähm, wie kommst du darauf? Intel hat jeden Kern am Mesh hängen, die CCX größer zu machen verhindert genau das, nämlich dass die Interconnect zu komplex, stromhungrig und latenzschwach wird. Da man durch größere CCX natürlich die Fabric entlastet.

basix
2019-12-27, 16:41:24
Danke @ HPVD und mboeller, ihr habt das schon erklärt was ich jetzt antworten wollte :)

DDR5 soll mehr Bandbreite pro Transfer haben. Wie das genau funktioniert? Weiss ich nicht genau. Aber ich hatte bei meiner Aussage zu "doppelte Bandbreite" genau das im Hinterkopf.

Schaut man sich besonders im Serverbereich
die Entwicklung von verfügbarer Speicherbandbreite
(Memory Channel + Memory Standard + Memory Frequenz)
zur Gesamtleistung einer CPU
(Entwicklung Anzahl Kerne + Entwicklung IPC (+ Entwicklung Frequenz))
an,
so ist EPYC 2 mit 64 Kernen episch schlecht mit Speicherbandbreite versorgt.

=> da macht es imho absolut Sinn nachzulegen und neben DDR5 auch 10 Memory Channel einzuführen,
ganz besonders da
- ja auch die Kerne Zahl bei Epyc 4 weiter steigen wird (wie oben bereits skizziert hin zu 80+)
und
- die Plattfom (und damit die Anzahl der Speicherkanäle) wieder 2-3 CPU-Generationen (mit steigenden Kerneanzahlen, IPC (und Frequenzen)) reichen muss...

eine wichtige Frage dabei ist aber: ist auf den Boards genug Platz dafür?

Das ist ein valider Punkt. Aber wo limitiert heute die Speicherbandbreite? In >90% der Fälle macht sie es ja nicht (zumindest nicht was ich gesehen habe auf Phoronix usw.). Kommen 8C CCDs und nochmals vergrösserter L3$ dazu, kann man die DRAM-Pressure mit stärkerem Prefetching abfangen.

Ähm, wie kommst du darauf? Intel hat jeden Kern am Mesh hängen, die CCX größer zu machen verhindert genau das, nämlich dass die Interconnect zu komplex, stromhungrig und latenzschwach wird. Da man durch größere CCX natürlich die Fabric entlastet.

Man muss auch die Cores innerhalb des CCX "meshen". Mit 4 Cores ist das sehr einfach mittel direkten Verbindungen (6 Stück) und die Latenz ist optimal. Bei mehr Cores steigt die Anzahl direkter Verbindungen exponentiell und ist deswegen nicht gangbar. Aber es gibt noch andere "Netzwerk Topologien" wie Butterfly usw. welche hier besser passen und zusätzlich die Latenz gering halten (<= 2 Hops bei bis zu 16 Kernen pro CCX).

SKYNET
2019-12-27, 18:43:49
Ganz sicher nicht. Das wird wie alle neuen Speichernormen langsam starten und erst perspektivisch 3-4 Jahre später dann die doppelte Bandbreite erreichen.

6400er speicher ist schon in jedec spezifiziert für den start... also das doppelte wie 3200er DDR4 :)

HPVD
2019-12-27, 18:48:23
...
Aber wo limitiert heute die Speicherbandbreite?

Im HPC Bereich häufiger.

Standard Beispiel bei dem regelmäßig beachtliche Rechenleistungen genutzt werden (große Cluster mit teilweilweise 1000+ Prozessoren):
alles was mit der Simulation der Strömung von Flüssigkeiten- oder Gasen zu tun hat und mittels CFD (Computational Fluid Dynamics) berechnet wird.
u.a. "Aerodynamik" von Fahrzeugen, Flugzeugen, Umströmung von Hochhäusern, Klima-Simualtion in Innenräumen/Gebäuden/Fahrzeugen (HVAC), Schiffumströmungen oberhalb (Wind) und unter Wasserlinie (Wasser), Entwicklung von Windkraftanlagen und Standortanalysen etc.

gmb
2019-12-27, 22:25:52
6400er speicher ist schon in jedec spezifiziert für den start... also das doppelte wie 3200er DDR4 :)


Das hat nichts zu sagen. DDR4-3200 war auch anfangs im Jahre 2012 schon spezifiziert (https://www.computerbase.de/2012-09/jedec-veroeffentlicht-spezifikationen-fuer-ddr4-standard/).

HPVD
2019-12-27, 23:15:54
noch als (letzte) Ergänzung zu dem DDR5 Thema:

Hier gibts es noch etwas technischen background und noch mal die Bestätigung von Faktor 1,87 im Vergleich zu DDR4 (3200) bereits zum Start:

Even when comparing a single-rank DDR5 module to a DDR4 dual-rank at 3200MT/s, we see a 1.28x performance gain! This is an apples-to-apples comparison for data rate, but at introductory data rates of 4800MT/s, we see a gain of up to 1.87x

https://www.micron.com/about/blog/2019/november/ddr5-the-next-step-in-system-level-performance-part-ii

Leonidas
2019-12-28, 05:18:51
6400er speicher ist schon in jedec spezifiziert für den start... also das doppelte wie 3200er DDR4 :)


Genau das meinte ich. Diese Verdopplung war immer auch schon bei DDR2, DDR3, DDR4 (fast) vom Start weg spezifiziert oder in jedem Fall in fester Planung. Aber sie stand nie vom Start weg zur Verfügung. Das wird auch hier nicht passieren.

basix
2019-12-28, 11:51:18
Genau das meinte ich. Diese Verdopplung war immer auch schon bei DDR2, DDR3, DDR4 (fast) vom Start weg spezifiziert oder in jedem Fall in fester Planung. Aber sie stand nie vom Start weg zur Verfügung. Das wird auch hier nicht passieren.

Die Verdopplung der Frequenzen ja wohl nicht. Aber 4800er wird breit verfügbar sein, zum Teil sicher auch 5333er. Mit der erhöhten Effizienz von DDR5 sind wir bei der Verdopplung. Ob jetzt 1.9x oder 2.0x kann glaube ich vernachlässigt werden ;)

Aber wir betreiben hier Erbsenklauberei. Dass CPUs mehr Bandbreite vertragen könnten ist klar. Aber ausserhalb von HPC? Für viele Anwendungsgebiete ist Latenz und Datenlokalität aber entscheidender. Und hier wird der zusammengelegte und evtl. vergrösserte Cache helfen. Und das auch bei Zen 4. Zudem kann mit grösseren Caches Bandbreite gespart werden. Deswegen erachte ich das wichtiger als 10x Speicherkanäle. Aber so viele Kanäle könnten helfen, wenn man wieder 3x Genereationen im selben Sockel betreiben will.

Bei HPC kommt dann die Frontier Architekur mit 1x EPYC und 4x GPU. Da kann man dann die Bandbreite via massig HBM generieren.

Edit:
Ich habe noch die Info von Micron gelesen. Macht man SR vs. SR oder DR vs. DR bei 4800 MT/s liegt man bei 2.0x verglichen mit 3200 MT/s. Was ich nicht genau sagen kann: Einfluss von Timings?

Leonidas
2019-12-28, 12:07:46
Die Verdopplung der Frequenzen ja wohl nicht. Aber 4800er wird breit verfügbar sein, zum Teil sicher auch 5333er. Mit der erhöhten Effizienz von DDR5 sind wir bei der Verdopplung. Ob jetzt 1.9x oder 2.0x kann glaube ich vernachlässigt werden ;)


Natürlich. Wenn DDR5/4800 vom Start weg (zu vernünftigen Preisen) verfügbar ist, dann ist es ein gehöriger Sprung, der auf jeden Fall deutlich größer ist als seinerzeit bei der Einführung von DDR2, DDR3 & DDR4.

Die Fragen sind somit also:
- Kommt DDR5/4800 (oder auch DDR5/5333) vom Start weg?
- Sind deren Preislagen vernünftig - oder gibt es die nur mit hohem Aufschlag?

BoMbY
2019-12-28, 13:11:19
Btw. ich hab eine unabhängige Bestätigung dafür gefunden dass die Zen3-Architektur (bzw. Milan) den Codenamen "Genesis" trägt.

Der Name wurde vermutlich von Komachi (https://www.reddit.com/r/Amd/comments/efv8ga/比屋定さんの戯れ言komachi_on_twitter_this_is_the_codename/) zum ersten Mal erwähnt - und da wird auch Floyd erwähnt, was dann vermutlich Zen4/Genoa (https://www.reddit.com/r/Amd/comments/efv8ga/%E6%AF%94%E5%B1%8B%E5%AE%9A%E3%81%95%E3%82%93%E3%81%AE%E6%88%AF%E3%82%8C%E8%A8%8 0komachi_on_twitter_this_is_the_codename/fc2xlfn/?st=k4pjkscp&sh=7286e683) ist:


Genesis and Floyd are likely EPYC parts, continuing the classic rock theme:

[Led] Zeppelin - [Jefferson] Starship - Genesis - [Pink] Floyd.

SKYNET
2019-12-28, 13:27:41
Genau das meinte ich. Diese Verdopplung war immer auch schon bei DDR2, DDR3, DDR4 (fast) vom Start weg spezifiziert oder in jedem Fall in fester Planung. Aber sie stand nie vom Start weg zur Verfügung. Das wird auch hier nicht passieren.


hynix hat doch schon fertig ;)
https://www.anandtech.com/show/13999/sk-hynix-details-its-ddr56400-dram-chip

mboeller
2019-12-28, 13:41:00
Die Verdopplung der Frequenzen ja wohl nicht. Aber 4800er wird breit verfügbar sein, zum Teil sicher auch 5333er. Mit der erhöhten Effizienz von DDR5 sind wir bei der Verdopplung. Ob jetzt 1.9x oder 2.0x kann glaube ich vernachlässigt werden ;)



https://www.micron.com/-/media/client/global/documents/products/white-paper/ddr5_more_than_a_generational_update_wp.pdf?la=en

8 Kanal DDR4/3200: 134,3 GB/sec
8 Kanal DDR5/3200: 182,5 GB/sec

Theoretisch wären es 204,8 GB/sec

134,3/204,8 = 0,655
182,5/204,8 = 0,891

Das sind dann wieder die +36% gegenüber DDR4

8 Kanal DDR5/4800: 250,9 GB/sec

Das sind dann die +87% gegenüber DDR4/3200

Dh. bei +50% (4800/3200) sind es dann doch nicht 1,36x1,5 = 2,04-fache Bandbreite sondern nur 1,87-fache Bandbreite

Isen
2019-12-28, 13:43:59
Bei DDR5 steht doch die Fertigung vor Einführung. Bei DDR4 kam das doch erst hinterher und eine Fertigung(Werk) hat es doch zusätzlich zerrissen? Irgendwas war ja da.
Denke auch, dass es zum Start hin direkt los geht, wo es bei DDR4 wegen Fertigung noch nicht möglich war. Preise werden hierbei aber gesalzen sein und man wird alleine deswegen auf die 4800 zurückgreifen und auf 5333 mit scharfen Timings Hiefen :D

basix
2019-12-28, 13:58:53
Die Hynix 6400er sind mit 1.1V spezifiziert. Wenn man da 1.2-1.3V für die OC Module rechnet, geht auch mehr.

SKYNET
2019-12-28, 15:17:41
Pro Takt Leistung einer GPU ohne die Rechenwerke und Größe mit einzubeziehen, ja macht Sinn. Vega 10 mit 500 Mhz und Gen11 GT2 mit 700 Mhz sind bei der Rechenleistung sehr ähnlich. Du kannst nur 2 Sachen draus ziehen. Entweder investiert Intel weniger GPU Fläche bei der Gen11 GT2, also weniger Einheiten, oder sie investieren gleich viel oder mehr und die Flächeneffizienz ist geringer. Und der LPDDR4 bringt bei der Gen11 GT2 nicht viel. 10% in Tests, aber auch nicht immer, das wird gerne überbewertet.

von 2666 --> 3200 bei meinem i3 6100 sinds schon 10%, und der ist sicherlich deutlich weniger bandbreiten limitiert als die neueste IGP gen von intel ;)

SKYNET
2019-12-28, 15:20:29
Die Hynix 6400er sind mit 1.1V spezifiziert. Wenn man da 1.2-1.3V für die OC Module rechnet, geht auch mehr.

denke g.skill wird da am start grad 7200er präsentieren... und das ist dann nen save setting, mit manuellen OC werden wir wohl ziemlich zügig 8000+ sehen.

hoffe ja inständig das der IMC bei zen4 das im 1:1 mode mitmacht.

basix
2019-12-28, 15:31:20
denke g.skill wird da am start grad 7200er präsentieren... und das ist dann nen save setting, mit manuellen OC werden wir wohl ziemlich zügig 8000+ sehen.

hoffe ja inständig das der IMC bei zen4 das im 1:1 mode mitmacht.

Hmm, 1:1 wäre krass. Ich denke aber eher sie gehen in die Breite und haben standardmässig 1:2 --> Energieffizienz ist King.

Solange die Latenzen nicht drunter leiden (effektiver Takt ist gleich wie heute) ist ja nicht so schlimm. Lieber tiefere Taktraten fahren und anderweitig die Latenzen optimieren.

robbitop
2019-12-28, 19:28:23
Ähm, wie kommst du darauf? Intel hat jeden Kern am Mesh hängen, die CCX größer zu machen verhindert genau das, nämlich dass die Interconnect zu komplex, stromhungrig und latenzschwach wird. Da man durch größere CCX natürlich die Fabric entlastet.
Ich meine ccx intern. Dort waren es bis dato 4 Kerne. Es werden zu Zen 3 ja 8. Das ist im CCX so schnell, weil man bis zu einer gewissen Teilnehmeranzahl alles mit allem direkt anbinden kann. Die Komplexität nimmt aber mit einer Potenzfunktion (in Abhängigkeit der Teilnehmeranzahl). Entsprechend wird das schnell nicht mehr handelbar und man muss eine Auf eine Direktverbindung verzichten. Das kostet intra ccx Latenz. Die CCX sind der Kompromiss den AMD geschlossen hat um die Latenz trotz Skalierbarkeit zumindest partiell niedrig zu halten (L3 und zwischen 4 Cores innerhalb eines CCX). Genau den Ansatz kompromitiert man wenn man den CCX wachsen lassen will. Das ist keine schwarz/weiß Sache. Es gibt sicherlich für 8 Teilnehmer noch gute potenzielle Verbindungstopologien für ein CCX die ok sind - aber ich fresse einen Besen, wenn die L3 Latenz bei einem 8 Kern CCX nicht zunimmt. There is no lunch for free (kein Vorteil ohne Nachteil). Im Gegenzug bekommt man eine bessere Hitrate des L3 (weil größer) und ggf eine Reduktion der Latenz über die IF weil weniger Komplexität. Wenn man das tut, dann wird es unterm Strich besser sein. Jedoch wollte ich darauf hinweisen, dass einfach nur ein Erhöhen einer Größe nicht automagisch nur Vorteile erzeugt. Man liest dazu viel zu oft ein sorgloses „ach dann erhöht man einfach Größe XYZ“ ohne dass dabei bedacht wird, dass andere Randbedingungen dadurch Nachteile haben und genau untersucht sein muss, ob das Gesamtergebnis dann noch signifikant besser wird.
Wenn es so einfach wäre, was aufzublasen (im Sinne davon, dass dann einfach alles nur besser wird), hätte man nicht mit 4er CCX angefangen. :)

Leonidas
2019-12-29, 05:00:14
:up:

Ich nehme hier wieder einmal sehr viele interessante Anregungen mit.

Knuddelbearli
2019-12-29, 18:04:05
Ganz sicher nicht. Das wird wie alle neuen Speichernormen langsam starten und erst perspektivisch 3-4 Jahre später dann die doppelte Bandbreite erreichen.


Speicherbandbreite wird verdoppelt werden, aber gegenüber dem womit ddr4 angefangen hat wie immer.
ddr2 ging bis 1066 ddr3 dann von 800 bis 2133 4 ging dann bei 1600 los, immer genau eine Verdoppelung, ist auch logisch wenn man den technologischen Hintergrund kennt, da die Frequenz am ende immer gleich bleibt

also bei 3200 wirds losgehen und recht schnell welche mit um die 4000 geben die kaum teurer sind.