AMD - EPYC (32 Kern Server CPU, Naples) [Archiv] - Seite 2

FlashBFE

2017-11-01, 15:55:51

Oder den Interposer als aktives Element nutzen. Soc, i/o oder sich l4 liese sich dort sicherlich effizient unterbringen. Den damit gesparten Platz kann man für mehr Kerne, breitere Anbindung etc. nutzen. Ich weiß nicht, wie der Interposer hergestellt wird, aber ich vermute, bei der Größe und dem Preis wird es nur ein billiger multikristalliner Chip mit ziemlich groben Leiterbahnen sein. Nichts, was für Transistoren geeignet wäre bzw. was alleine wegen seiner Größe nicht kosteneffizient durch die Lithografie durchgehen würde. Ich denke, ein Speicherchip auf dem Interposer wäre die sicherste Wette, wenn überhaupt was am aktuellen Prinzip geändert wird.

Screemer

2017-11-01, 18:28:06

Man kann durchaus auch aktive Interposer fertigen und kann entsprechend „alte“ Prozesse nutzen. Soweit ich mich erinnere fällt der VEGA-Interposer wie auch schon der von fury bei umc und ase in 40nm vom Band. Da liese sich sicherlich noch das ein oder andere Stück hinein verlagern. Caches sind sicherlich Zukunftsmusik. Dibge wie io, imc und bei socs mit integrierter gpu sogar Dinge wie vce und andere dsps kann ich mir schon für die nächste gen vorstellen.

www.umc.com/english/news/2015/20150720.asp

BoMbY

2017-11-01, 19:26:48

Also wenn ich Summit Ridge CCX um 50% in der Fläche reduziere (das sollte doch "twice the area scaling than the previous 14nm FinFET technology" bedeuten, oder?), und den Cache verdoppele, dann komme ich ungefähr auf diese Größe (4x maßstabsgetreu platziert auf einem Summit Ridge):

https://i.imgur.com/W7IO7Avh.jpg

Das wäre dann 4x CCX mit 4c/8t und 16 MB L3, auf einem 4x SP3 MCM käme man dann auf die Werte von Cannard.

Edit: Und noch einmal Reduzierung auf 70% der Größe, was etwa 50% der mm²-Fläche (und nicht 50% der Dichte) entsprechen sollte:

https://i.imgur.com/AFeuj4th.jpg

Edit: Beim zweites Bild auch mal den I/O-Kram auf 70% angepasst - dürfte also eigentlich alles auf 200 mm² passen in 7LP.

Edit2: Passt nicht 100%, aber fast:

https://i.imgur.com/6eK2zIhh.jpg (https://i.imgur.com/6eK2zIh.jpg)

robbitop

2017-11-01, 20:29:03

Ui der „Willhaben-Reflex“ meldet sich. X-D

basix

2017-11-05, 17:29:40

16 Haswell+ Kerne @ 95W hören sich gut an ;) Im Desktop würde ich aber nur 12C und dafür höhere Taktraten erwarten

S940

2017-11-07, 22:12:04

Wie bei IBM 1-T-SRAM bzw eDRAM? Wäre das nicht eher etwas für den L4?
Hinge vom Takt ab ... wenn AMD z.B. den L3 an den niedrigen Speichertakt koppeln würde, wäre SRAM Perlen vor Säue ... stattdessen könnte man dann platzsparendes eDram nehmen. Die gesparte Fläche könnte man dann in mehr L1/L2 investieren, das wäre mit 4fach SMT ebenfalls nicht verkehrt.

Ob das dann den IPC-Nachteil des Niedrigtakt-L3s aufwiegen würde, wäre allerdings die große Frage. Naja, wenn der L3 dann auch noch etwas größer ausfiele, könnte es Pi*Daumen klappen.

basix

2017-11-12, 13:22:23

Ob das dann den IPC-Nachteil des Niedrigtakt-L3s aufwiegen würde, wäre allerdings die große Frage. Naja, wenn der L3 dann auch noch etwas größer ausfiele, könnte es Pi*Daumen klappen.

Wenn es nur einen Nachteil aufwiegt, kann man es gleich sein lassen. Dann lieber einen zusätzlichen L4. Am besten gleich CPU global und nicht per CCX. Das letztere beisst sich dann aber mit dem Infinity Fabric Verbund der einzelnen CCX (Cache Coherency etc.). Aber vielleicht kann man das auch irgendwie lösen.

YfOrU

2017-11-12, 13:29:34

Grundsätzlich ja denn alternativ könnte AMD mittelfristig auch etwas wie ARMs DynamIQ Shared Unit einführen: http://hexus.net/media/uploaded/2017/5/822c4863-342f-4062-878f-1a87afae219a.png
bzw: http://hexus.net/tech/news/cpu/106267-arm-cortex-a75-cortex-a55-examined/

Also ein gemeinsamer L3 welcher sowohl mit den einzelnen CPU Clustern als auch der IF verbunden ist.

basix

2017-11-14, 22:22:28

Hmm, wenn ich mir das recht überlege, könnte das ein Weg sein um zwei CCX näher zu koppeln, ohne das eigentliche 4C CCX Design Konzept umzustürzen. So ein 《Quasi 8C CCX》oder gar 《Quasi 16C CCX》wäre recht nice. Nachteil der ganzen Sache ist natürlich, dass man mehr Cache braucht. Der zuätzliche Cache kann aber auch ein Vorteil in gewissen Lastszenarien sein (habe ich da Spiele gehört? ;))

fondness

2017-11-22, 17:32:57

AMD EPYC™ Processor Powers New HPE Gen10 Server to World Records in SPEC CPU® Benchmarks

AMD (NASDAQ:AMD) today announced that the new Hewlett Packard Enterprise (HPE) ProLiant DL385 Gen10 server, powered by AMD EPYC™ processors set world records in both SPECrate®2017_fp_base and SPECfp®_rate2006. The secure and flexible 2P 2U HPE ProLiant DL385 Gen10 Server joins the HPE Cloudline CL3150 server in featuring AMD EPYC processors. With designs ranging from 8-core to 32-core, AMD EPYC delivers industry-leading memory bandwidth across the HPE line-up, with eight channels of memory and unprecedented support for integrated, high-speed I/O with 128 lanes of PCIe® 3 on every EPYC processor.

An AMD EPYC model 7601-based HPE DL385 Gen10 system scored 257 on SPECrate®2017_fp_base, higher than any other two socket system score published by SPEC®.

An AMD EPYC model 7601-based HPE DL385 Gen10 system scored 1980 on SPECfp®_rate2006, higher than any other two socket system score published by SPEC®.

“The HPE DL385 positions the AMD EPYC processor right in the heart of the high-volume market where dual-socket servers are frequently deployed by service providers, large enterprises and small-to-medium size businesses,” said Matt Eastwood, senior vice president, enterprise, datacenter and cloud infrastructure, IDC. “With its combination of high-performance cores, memory bandwidth and PCIe connectivity options it is an attractive choice to address a wide range of business applications and workloads.”

http://ir.amd.com/phoenix.zhtml?c=74093&p=irol-newsArticle&ID=2317921

Ein Weltrekord in SPEC_fp ist sehr relevant und dürfte dem Ansehen von EPYC sehr gut tun.

basix

2017-11-22, 20:22:54

Jetzt müssen die nur noch richtig am Markt ankommen. Ich hoffe Epyc 2 schlägt dann voll durch.

Grendizer

2017-11-22, 22:05:27

Jetzt müssen die nur noch richtig am Markt ankommen. Ich hoffe Epyc 2 schlägt dann voll durch.

Bin mal gespannt was ein HP 385, 512 Gb/1Tb Speicher mit 2xEpyc 7601 + FC Adaptern dann beim Händler unseres Vertrauens kosten wird. Kann ich mir sehr gut für einen VMWare Host vorstellen und wäre bei den zusätzlichen Lizenzkosten für VMware und Veeam (da nur 2 CPUs !) relativ günstig.

LadyWhirlwind

2017-11-22, 23:43:05

Bin mal gespannt was ein HP 385, 512 Gb/1Tb Speicher mit 2xEpyc 7601 + FC Adaptern dann beim Händler unseres Vertrauens kosten wird. Kann ich mir sehr gut für einen VMWare Host vorstellen und wäre bei den zusätzlichen Lizenzkosten für VMware und Veeam (da nur 2 CPUs !) relativ günstig.
In 2 Jahren zahlt man pro Core und nicht mehr pro Socket... Die sind ja nicht blöd...

Birdman

2017-11-23, 12:22:13

In 2 Jahren zahlt man pro Core und nicht mehr pro Socket... Die sind ja nicht blöd...
Bin mir da bei VMWare nicht sicher, denn die haben das vor ~3 Jahren schon mal versucht (damals aber nicht nur pro Core, sondern auch noch aufs RAM limitiert! :freak:) und sind nach nicht mal einem Jahr wieder zurückgerudert, da viel zu viele Kunden deswegen erzürnt waren und auch abgesprungen sind.

deekey777

2017-12-05, 15:14:54

Win:
https://www.anandtech.com/show/12116/amd-and-microsoft-announce-azure-vms-with-32core-epyc-cpus

Microsoft is the first cloud container provider to formally announce a new range of VMs based on the AMD EPYC platform. These VMs will be called the Lv2 Series, varying from 8 cores to 64 cores, and offering substantial DRAM and storage capabilities

basix

2017-12-23, 10:22:13

Zu der 256MB L3 Geschichte für den 64C EPYC: Ich würde behaupten, das sind wie heute 2MB / Core und somit 128MB L3$ und pro DIE 32MB L4$. Das würde für mich viel mehr Sinn machen. Den L4$ kann man gleich dazu verwenden, die einzelnen CCX untereinander zu verbinden (siehe DynamicIQ) und die Speicherlatenz tief zu halten.

Und zur Info: Der neueste Samsung DDR4 hat einen Density von 0.189 Gbit/mm2. Intel hatte mit ihrem eDRAM 0.0175 Gbit/mm2 und der 1GBit Chip für Iris Pro war 77mm2 gross @ 22nm. Nimmt man die Zahlen von Samsung zu Grunde, wären das 6mm2 für 128 MB. Aber eDRAM benötigt ein wenig mehr Platz als normaler RAM, oder? eDRAM ist soweit ich weiss 3T1D vom Design her.

Legt man den L4$ als eDRAM aus und nimmt die Zahlen von Intel als Grundlage, denke ich sollten die 32MB in ca. 5mm2 @ 7nm benötigen. Für mich ein sehr geringer Flächenbedarf, wenn man die potentiellen Vorteile betrachtet. Für eine APU wären nochmals mehr natürlich super.

robbitop

2017-12-23, 11:18:12

basix

2017-12-23, 11:34:43

Bei 2 CCX ist die momentane Lösung OK, keine Frage. Nur was passiert, wenn man den Core Count erhhöht? Ein 6C oder 8C CCX wäre nice, macht aber das L3$ Routing innerhalb des CCX schnell sehr viel aufwändiger, ausser man geht innerhalb eines CCX auf einen Ringbus. Bleibt man bei einem 4C CCX Design, könnte man das bei 16C per IF übers Kreuz verbinden (max. 1x HOP zu jedem anderen CCX). Das wäre evtl. noch OK, das stimmt.

Bei Latenz meine ich die durchschnittliche Latenz bei Speicherzugriffen. Und die wird nunmal bei mehr Cache tendenziell sinken, vor allem wenn man länger nicht den Umweg auf den DRAM machen muss. Spiele sind da ja das Paradebeispiel. Und genau da hat Ryzen momentan Schwächen gegenüber vergleichbaren Intel Modellen. Zudem hat man pro CPU dann 1x globalen L4$, von wo danach in der Speicherhierarchie der DRAM-Controller dran hängt. Momentan hat man den LLC aufgrund der CCX-Architektur zweigeteilt. Aus meiner Sicht ist ein einziger gemeinsamer LLC Architektur- und Softwaremässig einfacher zu handeln. Aber da bin ich nur ein Laie.

Complicated

2017-12-23, 12:03:10

Und was machst du wenn du GPUs in den Node einfügst? Da ist nichts mit Softwaremäßig leichter zu handeln.

Der_Korken

2017-12-23, 12:40:27

Zu der 256MB L3 Geschichte für den 64C EPYC: Ich würde behaupten, das sind wie heute 2MB / Core und somit 128MB L3$ und pro DIE 32MB L4$.

Ich fände es etwas komisch, weil man dann 32MB L3$ und 32MB L4$ pro Die hätte. Normalerweise nimmt die nächstgrößere Cache-Stufe um Faktor 4-8 zu.

robbitop

2017-12-23, 14:17:54

Bei Latenz meine ich die durchschnittliche Latenz bei Speicherzugriffen. Und die wird nunmal bei mehr Cache tendenziell sinken, vor allem wenn man länger nicht den Umweg auf den DRAM machen muss. Spiele sind da ja das Paradebeispiel. Und genau da hat Ryzen momentan Schwächen gegenüber vergleichbaren Intel Modellen. Zudem hat man pro CPU dann 1x globalen L4$, von wo danach in der Speicherhierarchie der DRAM-Controller dran hängt. Momentan hat man den LLC aufgrund der CCX-Architektur zweigeteilt. Aus meiner Sicht ist ein einziger gemeinsamer LLC Architektur- und Softwaremässig einfacher zu handeln. Aber da bin ich nur ein Laie.
Das trifft ja nur zu, wenn das Gesuchte im Cache liegt. Je größer der Cache, desto größer die Hitrate.

ndrs

2017-12-23, 21:52:00

Normalerweise nimmt die nächstgrößere Cache-Stufe um Faktor 4-8 zu.
Die Bulldozer-CPUs hatten die gleiche Menge L2 und L3$.

dildo4u

2018-02-03, 15:22:54

Der Marketing Push bei Dell beginnt.

48A0hB4d3ls

danarcho

2018-02-03, 21:29:22

Bei Latenz meine ich die durchschnittliche Latenz bei Speicherzugriffen. Und die wird nunmal bei mehr Cache tendenziell sinken, vor allem wenn man länger nicht den Umweg auf den DRAM machen muss. Spiele sind da ja das Paradebeispiel. Und genau da hat Ryzen momentan Schwächen gegenüber vergleichbaren Intel Modellen. Zudem hat man pro CPU dann 1x globalen L4$, von wo danach in der Speicherhierarchie der DRAM-Controller dran hängt. Momentan hat man den LLC aufgrund der CCX-Architektur zweigeteilt. Aus meiner Sicht ist ein einziger gemeinsamer LLC Architektur- und Softwaremässig einfacher zu handeln. Aber da bin ich nur ein Laie.
Wenn man einen Cache größer macht, erhöht sich die Latenz (zum Cache) und wenn ein Cache mehrere Ports haben soll, erhöht sich die Komplexität exponentiell (sprich: Die-Size), deshalb die Unterteilung in Slices mit jeweils einem Read- und Write-Port.

dildo4u

2018-02-06, 16:07:04

Pirx

2018-02-06, 16:16:06

wäre mal langsam interesant, wie sich die Meltdown-Problematik nun wirklich performanceseitig bei diversen Servern auswirkt

HOT

2018-02-06, 16:31:31

Nicht jeder Prozess kann eDRAM oder 1t sram. Leider. Leider die wenigsten. Ist oft der Grund, warum man extra dies nimmt. Siehe auch in allen möglichen Spielkonsolen von vor 10 Jahren. PS2, Dreamcast, N64, Gamecube, x360 etc. Hatten alle edram iirc als separaten die.

Wäre, wenn es so einfach ginge, ein no brainer. I7 5775c zeigte ja wie irre viel ein L4 bringt.

Wozu braucht man einen Cache, um ccx miteiander zu verbinden, wenn man ein entsprechendes fabric hat? Wie soll das die Latenz senken?
Momeeeent, irre viel bringt der bei stark I/O-lastigen Sachen wir Games. Bei den durchschnittlichen Anwendungstests bringt Broadwell kaum mehr als Haswell. Sollten die L3-Caches wachsen erledigt sich das Problem von alleine. Ich denke, dass klassischer L3$ mit kleiner werdenden Prozessen effektiver ist als solche Konstrukte wie eDRAM oder extra L4-Dies.

BoMbY

2018-02-07, 16:48:17

FlashBFE

2018-02-07, 17:10:44

Neue Benches von AMD gegen aktuelle Xeons.

http://abload.de/img/4-1080.2539053953tuptg.png

http://abload.de/img/5-1080.7144711763uq0f.png

https://www.computerbase.de/2018-02/amd-epyc-dell-emc-poweredge/

Sind auch irgendwo schon die Folien mit den Fußnoten aufgetaucht? So lange man nicht weiß, was genau gebencht wurde, kann das alles oder nichts heißen. Die Balkenlängen machen jedenfalls Eindruck. ;)

Brillus

2018-02-07, 17:15:14

BoMbY

2018-02-07, 17:20:08

VGA ist optional via IPMI 2.0 Modul. Und so wie es aussieht wird es Epyc Embedded in dem Package auch mit zwei Summit Ridge Modulen geben (siehe DIMM-Lötpunkte auf der linken Seite).

dildo4u

2018-02-07, 17:21:54

Sind auch irgendwo schon die Folien mit den Fußnoten aufgetaucht? So lange man nicht weiß, was genau gebencht wurde, kann das alles oder nichts heißen. Die Balkenlängen machen jedenfalls Eindruck. ;)

Auf der Folie steht SPECrate® 2017 Integer.

https://www.spec.org/cpu2017/press/release.html

davidzo

2018-02-09, 15:48:25

Snowy Owl (https://twitter.com/momomo_us/status/961081964106141696):

https://pbs.twimg.com/media/DVZy8mRW4AAXLMU.jpg:orig

Edit: Da er so nett war seine Quelle zu nennen, geht das natürlich auch größer:

https://i.imgur.com/N0Xei1e.jpg

Edit2: Und wo wir schon dabei sind auch gleich der Anwendungszweck:

https://i.imgur.com/kYuUNCW.jpg

woot, IPMI optional per Modul? :freak:
wusste gar nicht dass es den mini-PCI slot noch gibt, den habe ich vor 10 Jahren das letzte mal gesehen... edit: ist auch sodimm, nicht mini pcie: noch proprietärer, noch größer, noch mehr platzverschwendung.

Das klingt nach Kostenersparnis. Seitdem die Xeon-D mini ITX boards und selbst die Atom basierten 4 core avoton boards eine ATS2400 IPMI Grafik onboard haben erwarte ich das eigentlich schon bei der minimal-Ausstattung eines EPYC boards. Zumal sich das board ohne Grafikkarte sowieso nicht in betrieb nehmen lässt...
Als Systemintegrator ist mir das zu wenig integriert. Das ist so als wenn ich in den late 2000ern ein Serverboard ohne NIC angeboten hätte und den Kunden stattdessen empfehle doch PCI-Karten zu verwenden.

grauenvoll

2018-03-01, 10:08:50

Mit Epyc wird AMD noch einen langen Atem brauchen. Die Aussage, die im Vorfeld oft zu hören war, das professionelle Umfeld sehne sich nach einer Alternative zu Intel, ist nichts mehr als leeres Gefasel. Epyc verkauft sich sehr bescheiden und Hersteller haben auch in naher Zukunft wenig Interesse die Plattform großartig auszurollen. Es sind meist nicht mehr als ein paar Gehversuche. Lieber sucht man gerne nach Gründen um die Zurückhaltung zurechtfertigen.

https://www.computerbase.de/2018-02/dell-amd-ryzen-epyc-workloads/

MadPenguin

2018-03-01, 10:45:22

Mit Epyc wird AMD noch einen langen Atem brauchen. Die Aussage, die im Vorfeld oft zu hören war, das professionelle Umfeld sehne sich nach einer Alternative zu Intel, ist nichts mehr als leeres Gefasel. Epyc verkauft sich sehr bescheiden und Hersteller haben auch in naher Zukunft wenig Interesse die Plattform großartig auszurollen. Es sind meist nicht mehr als ein paar Gehversuche. Lieber sucht man gerne nach Gründen um die Zurückhaltung zurechtfertigen.

https://www.computerbase.de/2018-02/dell-amd-ryzen-epyc-workloads/

Dieser Typ hat 20 Jahre lang für Intel gearbeitet und Dell war und ist Intels S&M Sklavin. Was hast du denn erwartet?

Edit: hatten wir das Thema nicht schon einmal??

https://www.linkedin.com/in/johnroese/de

tm0975

2018-03-01, 11:08:48

letztendlich entscheiden die kunden. wir werden epyc-server kaufen.

Birdman

2018-03-01, 11:37:46

Mit Epyc wird AMD noch einen langen Atem brauchen. Die Aussage, die im Vorfeld oft zu hören war, das professionelle Umfeld sehne sich nach einer Alternative zu Intel, ist nichts mehr als leeres Gefasel./[/url]
Das liegt einzig und allein an AMD.
Wenn z.B. SuperMicro im Juni 2017!!!!! entsprechende Serversysteme ankündigt, diese aber bis heute nicht liefern kann, dann muss man sich nicht wundern dass sich die Marktverhältnisse rein gar nicht verändern.
Einen grösseren Paperlaunch als Epyc hat die Welt noch nicht gesehen...

Gerade SuperMicro ist hier ein Paradebeispiel.
Im direkten Vergleich zur "Xeon Scalable" Plattform welche etwa zur gleichen Zeit gelauncht wurde, bieten man zum einen nur vielleicht 10% der Anzahl an verschiedenen Systemen an.
Und von diesen 10% sind dann die Hälfte bis heute gar nicht lieferbar und die andere hat Lead Times um die 6-12 Wochen. (wir warten selber noch auf ein Epyc TestSystem das wir im Dezember 2017 bestellt haben)

Die Intel Kisten kann man seit August 2017 im grossen Stil besorgen und wenn AMD nicht lieferbar ist, beisst man eben selbst post-Meltdown noch in den sauren Intel Apfel.

tm0975

2018-03-01, 11:54:08

etwas ist ja zumindest lieferbar.

https://geizhals.de/?cat=mb940&xf=644_Sockel+SP3

Loeschzwerg

2018-03-01, 12:12:14

Ein Tropfen auf dem heißen Stein.

Letztendlich dient EPYC in der jetzigen Form erst mal nur dazu den Fuß wieder in die Türe zu bekommen, der Rest folgt dann mit den kommenden Generationen (hoffe ich).

Dieser Typ hat 20 Jahre lang für Intel gearbeitet und Dell war und ist Intels S&M Sklavin. Was hast du denn erwartet?

Dann hätte Dell auch gar nichts bringen können ^^ Aber oh Wunder, man hat doch etwas im Angebot ;)

grauenvoll

2018-03-01, 13:18:59

Das liegt einzig und allein an AMD.
Wenn z.B. SuperMicro im Juni 2017!!!!! entsprechende Serversysteme ankündigt, diese aber bis heute nicht liefern kann, dann muss man sich nicht wundern dass sich die Marktverhältnisse rein gar nicht verändern.
Einen grösseren Paperlaunch als Epyc hat die Welt noch nicht gesehen...

Ich gehe davon aus, Supermicro hat weitere Modelle auf Eis gelegt, weil die Nachfrage so dünn ist. Die meisten Kunden setzen lieber auf bewährtes, statt ein Risiko einzugehen. Der Markt wird sich nur sehr langsam ändern. Die Kunden lassen erst mal anderen den Vortritt. Auch bei Dell wird man die Situation schon richtig einschätzen. AMD wird hier definitiv einen sehr langen Atem brauchen.

Loeschzwerg

2018-03-01, 13:59:41

Die meisten Kunden setzen lieber auf bewährtes, statt ein Risiko einzugehen.

Machen OEMs genauso, denn der Preiskampf bei den normalen/einfacheren Servern ist mittlerweile auch extrem geworden, da gibt keiner unnötig Geld in der Entwicklung aus.

Skysnake

2018-06-27, 19:32:31

Also bezüglich den 32+ 2 links gibt es mit Naples wohl etwas Neues.

AMD wollte sich leider nicht dazu äußern. Auch nicht zu wafl. Naja, sooo lange ist es ja nicht mehr hin

Unicous

2018-09-07, 23:00:54

;D

Intel can’t supply 14nm Xeons, HPE directly recommends AMD Epyc (https://www.semiaccurate.com/2018/09/07/intel-cant-supply-14nm-xeons-hpe-directly-recommends-amd-epyc/)

https://www.semiaccurate.com/assets/uploads/2018/09/HPE_Xeon_supply_page_2-617x657.jpg

iuno

2018-09-09, 00:58:50

Ist vielleicht halb OT aber hat schon jemand Erfahrung mit irgendwelchen Hostinganbietern gemacht, die schon Epyc im Einsatz haben?
Theoretisch sollte man ja z.B. V-Server deutlich guenstiger bekommen koennen, weil man dank Epyc viel effizienter Instanzen aufsetzen kann.

Locuza

2018-09-15, 00:47:13

Laut bisschen Twitter-Gewussel wird Rome eine 8+1 Konfiguration darstellen.
AdoredTV hat jetzt über seine Quellen darüber ein Video gemacht, aber Twitter Leute meinten es gibt mehrere Quellen die darauf hingedeutet haben und eine davon stellt scheinbar auch Charlie/Semi Accurate dar, welcher einen Rome Artikel hinter einer Paywall geschrieben hat:
https://www.youtube.com/watch?v=KVXDOWy4vTU
https://semiaccurate.com/2018/07/17/amds-rome-is-going-to-be-a-monster-cpu/

Das Gerücht lautet das AMD 8 Chips für die CPUs auf einem Package verwenden wird, mit jeweils 8 Kernen wie bisher, welche unter 7nm gefertigt werden + 1 uncore Chip welcher in 14nm gefertigt werden soll.

Adored erwähnt noch eine Menge anderer Sachen, wie das bei Milan (Zen3) alles in 7nm gefertigt werden soll oder das Zen2 auch wieder ein neues Redesign vom Kern darstellen soll, NUMA soll abgeschafft werden und 32 DIMMs pro Sockel unterstützen und es soll angeblich auch Pläne für 4-Sockel-Systeme geben, wobei möglicherweise erst nach Zen2.
Und laut einer Quelle die im Februar im die Informationen zugeschoben hat, bis scheinbar unabhängige andere mehrere Dinge ebenso bestätigt haben, soll Romes Produktion in Q1 2019 erfolgen mit Massenverfügbarkeit in Q3, wobei das AMD ähnlich wie Vega20 vorziehen könnte.

PS: Don't shoot the messenger. ;D

Unicous

2018-09-15, 01:19:41

Womit hat sich eigentlich Adored überhaupt irgendeine Art von Kredibilität erarbeitet?:confused:

Selbst wenn das alles stimmen sollte sind das mMn nicht "seine" Quellen sondern wie bei WTF-Tech zusammengeklaubte Gerüchte.

Ich wüsste nicht, wann sich irgendwann mal eine Prophezeiung von dem Typen erfüllt hat und dennoch wird sein endloses Gesabbel immer wieder verlinkt. Wenn er behauptet die Info wäre durch den Artikel von Semi Accurate "bestätigt" denke ich ja eher jemand hat ihm das zugesteckt oder er hat Geld für den Artikel bezahlt.:wink:

Jedenfalls hört sich das auf den ersten Blick sehr aufwändig und damit teuer und ineffizient an. Im Übrigen habe ich das auch irgendwo schon mal gelesen. Entweder wurde es hier im Forum schon besprochen oder z.B. bei Anandtech oder Twitter?

Hmm, ich glaube es war Twitter. Ich schaue mal ob ich was finde.

Hier spricht z.B. ein gewisser "Charlie":freak: (aber nicht der Charlie) über das Gerücht:

https://twitter.com/ghost_motley/status/1034748740891029504

Also meiner Meinung nach ist das vollkommener Quatsch, aber vllt. liege ich auch falsch. ¯\_(ツ)_/¯

Hier gibt es noch einen Spassvogel der das "behauptet":

https://twitter.com/barba_toss/status/1032284475680608256

Und man weiß nicht ob er es ernst meint oder nur Müll erzählt. Wenn ich mir seinen Twitter handle näher angucke tendiere ich sehr deutlich zu Letzerem. ;)

robbitop

2018-09-15, 05:50:14

y33h@ hatte auch mal solche Andeutungen gemacht. Gleiche Kernzahl aber mehr Cache und Takt sagte er iirc.

Locuza

2018-09-15, 11:32:04

Bei einer Twitter-Diskussion habe ich das mit 8+1 mitbekommen, wo juanrga meinte das es drei Leaks gäbe die es bestätigen, wo bei einer Nachfrage ein anderer meinte, dass einer der Quellen hinter einer Paywall steckt.

AdoredTV hat nun ein Video gemacht und mir ist nur aufgefallen, dass es auch um die 8+1 Konfiguration geht und laut AdoredTV hat er die Informationen im Februar zugespielt bekommen, aber zuerst nichts gesagt, bis laut ihm andere scheinbar unabhängige Quellen in die gleiche Richtung gedeutet haben.

Ich selber entziehe mich einer konkreten Position, wir haben nun sehr viel unterschiedliches Zeug zu Zen2 gehört, zuerst über Starship mit 48 Cores was die Spekulation von 4x12 Cores angefeuert hat, zu 16 cores per die bei Rome bzw. angeblich soll es eine Verwechslung mit Milan/Zen3 darstellen.
Jetzt wurde ab und zu, man kann es auch nur als Echochamber ansehen, eine 8+1 Konfiguration wiederholt, die nach wie vor 8 Kerne pro die vorsehen.

Loeschzwerg

2018-09-15, 11:39:25

Acht CPU DIEs auf einem Träger? Ich dachte EPYC auf ZEN2 Basis bleibt kompatibel zu den bisherigen SP3 Plattformen. Wie soll das dann mit den Speicherkanälen zusammenpassen? Es würde zwar funktionieren, aber die Lastverteilung wäre natürlich nicht optimal.

Sehr fragwürdig die Geschichte.

robbitop

2018-09-15, 11:57:00

Na wenn es einen Die gibt, der es entsprechend so routet, wie die Pins verteilt sind, gibge das schon, oder? Erhöht aber sicherlich eher die Latenz.

Loeschzwerg

2018-09-15, 12:06:06

Klar geht das, aber je nach Workload bekommst du eben einen Flaschenhals. Aber evtl. gibt es hier entscheidende Verbesserungen bei ZEN2.

S940

2018-09-15, 17:12:26

Klar geht das, aber je nach Workload bekommst du eben einen Flaschenhals.

Bei Single-Thread Anwendungen ja, aber bei multithread ermöglichen Speicherlatenzen des einen Threads, dem anderen die Weiterarbeit.
Vielleicht gibts bei Zen2 ja auch 4fach-SMT.

Witzigerweise gibts aber heute schon AMD-CPus mit nur 1Dimm/Die, aber nicht im Serverbereich, sondern im HPDesktop in Form des Threadripper 2990X.

So oder so: Mit größeren L3-Caches und nem kleinem Nachschlag bei der unterstützten DDR4-Frequenz, ist das für das High-End-Serverdesign mit maximaler Kernanzahl überhaupt nicht unwahrscheinlich.

Außerdem kann man weiterspekulieren. Möglicherweise stimmt das mit der Anzahl von 8+1 Dies, aber das Extradie ist kein Chipsatzdie, sondern ein L4-Cache.

Ein Chipsatzdie bei den Servern zu integrieren, klingt ziemlich schräg, schließlich hat schon jedes einzelne Die ne Menge I/O für den Desktop-Einsatz. Die 4 Dies im aktuellen Epyc liefern bereits I/O satt.

Wenn man jetzt sogar 8 Stück davon hätte, braucht man garantiert keinen Chipsatz mehr. Außerdem soll das Ganze ja kompatibel zum SP3 sein.

Mangel76

2018-09-15, 17:21:20

Außerdem kann man weiterspekulieren. Möglicherweise stimmt das mit der Anzahl von 8+1 Dies, aber das Extradie ist kein Chipsatzdie, sondern ein L4-Cache.

Ein Chipsatzdie bei den Servern zu integrieren, klingt ziemlich schräg, schließlich hat schon jedes einzelne Die ne Menge I/O für den Desktop-Einsatz. Die 4 Dies im aktuellen Epyc liefern bereits I/O satt.

Wenn man jetzt sogar 8 Stück davon hätte, braucht man garantiert keinen Chipsatz mehr. Außerdem soll das Ganze ja kompatibel zum SP3 sein.

Wäre es nicht auch möglich, den IO-Kram in einen eigenen Die auszulagern? Dann wären solche Verrenkungen wie bei Threadripper nicht mehr nötig. Einfach den 8-Kanal-IO-Die gegen einen mit 4 Kanälen
tauschen? Oder steigt dadurch die Latenz zu sehr?

Unicous

2018-09-15, 18:01:56

@S940

Das mit einem großen 'Off-Die on Package' Cache wäre in der Tat interessant.:uponder:

@Mangel76

Der Ansatz von Zen war simpel, flexibel und effizient zu sein. Man hat 4 relativ kleine Dies die über ein Fabric auf dem Package kommunizieren können.

Das ganze auf einen Die auszulagern hört sich erst einmal interessant an. Aber meiner Meinung nach steigt dadurch wie du bereits sagtest die Latenz und Komplexität weiter an. Man ist auf den I/O Chip angewiesen da in dem CPU-Chip ja so gut wie nichts mehr ist und die Flexibilität die man vorher hatte ist nicht mehr vorhanden. Klar, man kann die Redundanz dadurch verringern. Aber Redundanz ist besonders im Semiconductor-Bereich nicht immer schlecht.

Als Gedankenspiel könnte ich mir auch vorstellen, dass der Chip als Schnittstelle für xGMI fungiert, aber auch dann leidet die Flexibilität der gesamten Plattform. Und dann stellt sich mir die Frage ob der Sockel dafür ausgelegt ist.

S940

2018-09-15, 18:16:00

Wäre es nicht auch möglich, den IO-Kram in einen eigenen Die auszulagern? Dann wären solche Verrenkungen wie bei Threadripper nicht mehr nötig. Einfach den 8-Kanal-IO-Die gegen einen mit 4 Kanälen
tauschen? Oder steigt dadurch die Latenz zu sehr?
Du verwechselst jetzt I/O mit RAM. RAM ist extra I/O ist nur PCIe, USB, Sata und sonstiges.

Bei der Idee wäre aber auch nichts gewonnen, denn wenn Du jedes Die weiterhin mit der gleichen Bandbreite anbinden wolltest, müsste das genauso viele Leitungen werden, wie aktuell fürs Ram draufgehen. Sparen könnte man sich den DRAM-Kontroller, aber das wäre dann das schon angesprochene Thema Latenz.

Ansonsten ne weitere Idee für das Extradie:
Sinn würde auch ein direkt am Hypertransport Infinity Fabric hängender HPC-Anschluss machen, z.B. ein Infinibandchip. Latenzen sind dort wichtig und wenn das Die mit dem on-Package-Takt liefe, womöglich schon wieder was gewonnen.

(del)

2018-09-15, 18:26:17

Witzigerweise gibts aber heute schon AMD-CPus mit nur 1Dimm/Die, aber nicht im Serverbereich, sondern im HPDesktop in Form des Threadripper 2990X.

Das wäre ja schön wenn dem so wäre.
Der 2990WX hat 2 Dies mit je 2 Speicherkanälen. Die anderen 2 Dies haben keinen direkten Speicherzugriff sondern sind auf Infinity Fabric angewiesen.

Der_Korken

2018-09-15, 19:39:28

Bei Single-Thread Anwendungen ja, aber bei multithread ermöglichen Speicherlatenzen des einen Threads, dem anderen die Weiterarbeit.
Vielleicht gibts bei Zen2 ja auch 4fach-SMT.

Kann 4fach SMT überhaupt nennenswert was bringen, wenn bereits 2fach SMT weit von 100% Mehrleistung entfernt ist? Wenn es bei 2 Threads auf einem Kern immer noch Wartezeiten gibt, wo weitere Threads abgearbeitet werden könnten, dann hätte doch der zweite Thread schon die Leistung des Kerns (oder genauer gesagt den Instruktionendurchsatz) verdoppeln müssen oder sehe ich das falsch?

robbitop

2018-09-15, 22:05:10

Für smt4 müsste man alles deutlich breiter machen. Decoder, Backend, Caches. Ob AMD so tiefe Änderungen durchführen will? Klingt mir fast nach einem neuen Design.

Der_Korken

2018-09-15, 22:37:15

Ich hatte hier schon mal gefragt, ob es denkbar wäre, dass man Cores einfach so verbreitert. Tenor war damals, dass man damit massiv weniger Takt und/oder schlechtere Latenzen (oder einen exorbitanten Verbrauch) bekommt, weil der Mehraufwand nicht linear, sondern quadratisch und bei speziellen Sachen sogar exponentiell steigt. Da fände ich es schon komisch, wenn AMD plötzlich einen solchen Weg einschlagen würde, nachdem man soviel Arbeit in Zen gesteckt hat, damit die ST-Leistung wieder konkurrenzfähig wird.

MR2

2018-09-16, 08:40:51

https://www.chiphell.com/thread-1909421-1-2.html

Rome im cinebench 12500 Punkte

https://wccftech.com/amd-epyc-rome-7nm-64-core-cpu-performance-benchmark-leak/

fondness

2018-09-16, 11:47:36

Das wäre mehr als doppelt so schnell wie ein aktueller EPYC Naples mit 32C/64T.

basix

2018-09-16, 12:02:30

Das wäre mehr als doppelt so schnell wie ein aktueller EPYC Naples mit 32C/64T.

Aufgrund 7nm und 64C wäre das auch zu erwarten.

mironicus

2018-09-16, 12:27:54

Das heißt wohl das AMD einen nativen 16 Kerner pro Die in 7 nm bringen wird. 2019 haben wir dann wohl auch einen nativen 16 Kerner für AM4+ inkl. PCIE 4.0. Intel gerät für die nächsten 2-3 Jahre ins Hintertreffen. Ich hoffe AMD bringt dann auch noch stromsparende 8 Kerner in 7 nm für Laptops um auch da Intel das Wasser abzugraben.

Scorpius

2018-09-16, 12:43:37

https://www.chiphell.com/thread-1909421-1-2.html

Rome im cinebench 12500 Punkte

https://wccftech.com/amd-epyc-rome-7nm-64-core-cpu-performance-benchmark-leak/

War da nicht mal was, dass der Cinebench bei zuvielen Kernen fürn Eimer ist ?
Weil der Bench läuft ja bei 32 Kernen und erst recht bei 64 Kernen so schnell durch, dass jede Kleinigkeit die dazwischenfunkt die Punktzahl massiv beeinflussen kann.

MSABK

2018-09-16, 12:45:09

Linmoum

2018-09-16, 12:51:14

Ja, für Zen3 sollte das auch noch gelten.

Th3o

2018-09-16, 14:03:21

Interessant wäre die Leistung eines einzelnen Kernes.

Unicous

2018-09-16, 14:23:28

Chiphell war in letzer Zeit mehr Getrolle als echte leaks. Ich wäre da eher vorsichtig. Ein Eng Sample eines Epyc 1 Chips kann man leicht auftreiben und Cinebench noch einfacher manipulieren/photoshoppen.

https://i.ebayimg.com/00/s/MTIwMFgxNjAw/z/AosAAOSw7qtbc53R/$_57.jpg

Warum die Leute zufällig immer dann Kartoffelkameras zur Hand haben und man z.B. nicht erkennen kann wann der Chip produziert wurde wird wohl auf ewig ein Geheimnis bleiben.:wink:

basix

2018-09-16, 14:25:09

Rechnet es man ganz einfach ergäbe 12'500 / 64 = 195 Punkte. Was wir halt nicht ganz genau wissen ist, was SMT noch bringt. Da man von 10-15% IPC sprach und SMT in CB15 bei Ryzen etwa +40% bringt, wären es etwa 3.0 GHz @ 64C. Hört sich für mich realistisch an. Bei Anwendungen mit Last auf wenigen Kernen: Keine Ahnung, wie dort das Boost Verhalten sein wird.

Bei so grossen Kernzahlen ist aber die Einzelkernleistung eh nicht im Vordergrund.

Th3o

2018-09-16, 14:39:20

Warum nicht? Wenn auf jedem Kern z.B eine VM läuft.

Sven77

2018-09-16, 15:34:19

Warum nicht? Wenn auf jedem Kern z.B eine VM läuft.

So funktioniert moderne Virtualisierung nicht

Kriton

2018-09-16, 16:35:27

Auf Intel aus Sicherheitsgründen jetzt schon... SCNR :weg:

https://www.heise.de/security/meldung/Spectre-NG-Foreshadow-gefaehrdet-Intel-Prozessoren-4137209.html

Spectre-NG: "Foreshadow"

Einige der Angriffsmöglichkeiten setzen voraus, dass die Malware auf demselben CPU-Kern läuft wie die angegriffene VM oder SGX-Enklave. Daraus lässt sich schließen, dass Systeme sicherer sind, die jeder VM genau einen oder mehrere "ganze" physische Kerne zuordnen. Möglicherweise ist das auch der Grund, weshalb die OpenBSD-Entwickler derzeit Hyper-Threading standardmäßig abschalten.

S940

2018-09-16, 18:55:31

Das wäre ja schön wenn dem so wäre.
Der 2990WX hat 2 Dies mit je 2 Speicherkanälen. Die anderen 2 Dies haben keinen direkten Speicherzugriff sondern sind auf Infinity Fabric angewiesen.
Na das ist ja noch schlimmer - aber gut, vermutlich die Gamerlösung, so haben wenigstens 2 Dies die volle Bandbreite und die "überflüssigen" Kerne kann man wieder schlafen legen.

Kann 4fach SMT überhaupt nennenswert was bringen, wenn bereits 2fach SMT weit von 100% Mehrleistung entfernt ist? Wenn es bei 2 Threads auf einem Kern immer noch Wartezeiten gibt, wo weitere Threads abgearbeitet werden könnten, dann hätte doch der zweite Thread schon die Leistung des Kerns (oder genauer gesagt den Instruktionendurchsatz) verdoppeln müssen oder sehe ich das falsch?Hauptproblem ist die Speicherlatenz. Rechne mal aus, wie viele CPU-Takte vergehen, bis die Antwort der RAM-Module eingetroffen ist. Natürlich hat man dafür die verschiedenen Cache-Stufen, aber die helfen halt auch nicht immer. Anders gesagt: Solange die Speicherbandbreite noch nicht ausgelastet ist, besteht die Chance mit mehr Threads mehr Leistung abarbeiten zu können.
Für smt4 müsste man alles deutlich breiter machen. Decoder, Backend, Caches. Ob AMD so tiefe Änderungen durchführen will? Klingt mir fast nach einem neuen Design.
Wo hast Du das her, dass man für SMT alles breiter machen müsste? Das wäre sicher verkehrt, aber "müssen" tut man überhaupt nichts. Schau Dir die Oracle/Sparc-Chips an, die laufen mit 8fach SMT und sind überhaupt nicht "breit". Bei der letzten Generation hat man von 2isse auf 4issue "verbreitert" und den L1D-Cache von 16 auf 32kB verdoppelt .. ein Zen ist da jetzt schon besser und wir diskutieren hier nur SMT4 nicht SMT8.

Nett wäre sicher ein 64kB großer L1-D-Cache. In 7nm sollte man sich den ohne Weiteres leisten können und K8/K10 hatten das auch schon. Von daher wär das eine Sache, die ich erwarten würde und auch SMT4 helfen würde.

Natürlich ist klar, dass man mit 4fachem SMT keine neuen Single-Thread Benchmarkrekorde aufstellen würde, das sollte aber von vornherein klar sein.

Skysnake

2018-09-16, 19:33:25

Zen Istanbul aber nicht wie Oracle sparc oder auch die Power für Datenbanken etc konzipiert wo die Threads ständig auf den RAM oder gar die Platten warten.

robbitop

2018-09-16, 20:09:05

Die POWER Kerne mit smt4 sind halt viel breiter. Zen ist zwar nicht schmal - aber der Mehrgewinn bei smt4 ggü smt2 ist so wie es ist sicherlich nicht unbedingt riesig.

S940

2018-09-16, 22:05:49

Zen Ist aber nicht wie Oracle sparc oder auch die Power für Datenbanken etc konzipiert wo die Threads ständig auf den RAM oder gar die Platten warten.
Willst Du damit also behaupten, dass ein Zen nicht als Datenbankserver verwendbar sei? ;)

Die POWER Kerne mit smt4 sind halt viel breiter. Zen ist zwar nicht schmal - aber der Mehrgewinn bei smt4 ggü smt2 ist so wie es ist sicherlich nicht unbedingt riesig.Ne riesig ist der Vorteil sicher nicht, aber in ein paar Apps könnte er schon was bringen. Power9 ist auch nicht "viel breiter". IBM hat dort 11 Execution Units, AMD hat 10. Rechnet man die eher kuriose Dezimalsystem-Unit bei IBM raus, herrschte Gleichstand und IBMs L1-Instruktionscache ist nur halb so groß.

Birdman

2018-09-16, 22:16:49

Willst Du damit also behaupten, dass ein Zen nicht als Datenbankserver verwendbar sei? ;)
Es gibt bessere.

Skysnake

2018-09-16, 22:26:51

Willst Du damit also behaupten, dass ein Zen nicht als Datenbankserver verwendbar sei? ;)

Doch schon, aber für data warehouse gibt es besseres. Power und sparc können halt sehr viel Speicher verwalten, gerade mit den fetten multisocket Systemen. Da kommt auch epyc NICHT mal ansatzweise ran.

Und die können halt sehr viele Threads bearbeiten, weil sie eben davon ausgehen dass die Threads oft auf IO warten müssen, aber wenn sie ausgeführt werden können sollen sie das so schnell wie möglich.

Das ist bei x86 nicht ganz so der Fall
Da geht man eher davon aus das die Threads meist laufen können

Eldoran

2018-09-17, 03:11:30

Bisher sind Details zur Implementierung bestenfalls Hörensagen. Auch wenn ich den Artikel von Semiaccurate mangels Abo nicht gelesen habe, so geht Charlie wohl von mindestens 8 Dies auf einem Interposer aus (das hat er vor ein paar Tagen ziemlich klar auf Twitter erwähnt). Die Begründung war, dass selbst mit dem Interposer 8 kleine Dies billiger als 4 doppelt so grosse wie beim aktuellen Epyc.
Selbst wenn das zutreffen sollte, glaube ich nicht an ein externes Chipsatzdie. Ich glaube nicht, dass die Latenz eines Compute Dies (wie beim aktuellen 32C Threadripper) höher wäre als über das externe Chipsatzdie, man würde vielmehr die niedrigeren Latenzen bei den direkt angebundenen aufgeben. Weiters macht so etwas ohnehin nur Sinn, wenn man ein davon völlig abweichendes Design für das Consumersegment hat. Wenn das ganze also in etwa das bisherige Design in 7nm darstellt wäre weiterhin ein weitgehend identisches Design auch für Consumer verwendbar und nebenbei könnten so weiterhin kleinere Modelle angeboten werden - so wie bei Threadripper wären dann vermutlich erst die über 32C hinausgehenden Modelle wirklich mit aktiven 8 Dies bestückt. Und wie man ebenfalls beim Threadripper gesehen hat - wenn die gesamte IO über die direkt angebundenen dies läuft, ist das auch zur bisherigen kleineren Konfiguration kompatibel.

basix

2018-09-17, 07:57:16

Gut, über den Base-DIE könnte die NUMA Geschichte entschärft werden. Alle CCX benötigen die selbe Anzahl Hops zu jedem Speichermodul. Das wäre sehr nice. Ausserdem wäre eine schöne 4-Sockel Architektur möglich, wo man zu jedem anderen Sockel nur einen Hop braucht. Somit von allen CCX zu einem anderen CCX nur 3 Hops. Ganz genial würde es, wenn das CCX auf 8C anwächst.

Ausserdem spart man sich das tote Silizium auf jedem Processing DIE.

Für Desktop könnte man entweder dann doch ein Single DIE auflegen oder eine abgespeckte Variante des Base DIE. Bspw. nur 2-4x Links, wo man wahlweise CPU oder GPU anbinden kann.

Edit:
Bei EPYC sind die Offchip xGMI Leistungsfresser. Kann man hier die Anzahl Transfers reduzieren hilft das für die Energieeffizienz.

Savay

2018-09-17, 14:49:37

Na das ist ja noch schlimmer - aber gut, vermutlich die Gamerlösung, so haben wenigstens 2 Dies die volle Bandbreite und die "überflüssigen" Kerne kann man wieder schlafen legen.

Nicht nur die Gamerlösung...das Ding soll ja für Content Creation sein...und sowas wie LR reagiert bspw. ziemlich sensibel auf die Bandbreite...und viel weniger auf die Latenz und ab nem gewissen Punkt auch noch weniger auf die Threads.

Das hängt ja wirklich sehr vom Workload ab...insofern ist das IMHO für den angedachten Zweck einer Threadripper CPU nicht "schlimmer" sondern tatsächlich der "bessere" Kompromiss.

Locuza

2018-10-31, 03:46:32

Das US-Department of Energy hat einen Deal für NERSC-9 öffentlich gemacht, wo Cray ihre Shasta-Plattform verwenden wird.
Für NERSC sollen als Komponenten EYPC CPUs von AMD und GPUs von Nvidia zum Einsatz kommen:
https://www.hpcwire.com/2018/10/30/cray-unveils-shasta-lands-nersc-9-contract/

Aussagen auf Twitter deuten darauf hin, dass es sich dabei nicht um Rome(Zen2) handelt, sondern um Milan(Zen3):
NERSC-9 is not Rome
https://twitter.com/glennklockwood/status/1057302417606303745

danarcho

2018-10-31, 09:32:59

Wo hast Du das her, dass man für SMT alles breiter machen müsste? Das wäre sicher verkehrt, aber "müssen" tut man überhaupt nichts. Schau Dir die Oracle/Sparc-Chips an, die laufen mit 8fach SMT und sind überhaupt nicht "breit". Bei der letzten Generation hat man von 2isse auf 4issue "verbreitert" und den L1D-Cache von 16 auf 32kB verdoppelt .. ein Zen ist da jetzt schon besser und wir diskutieren hier nur SMT4 nicht SMT8.

Nett wäre sicher ein 64kB großer L1-D-Cache. In 7nm sollte man sich den ohne Weiteres leisten können und K8/K10 hatten das auch schon. Von daher wär das eine Sache, die ich erwarten würde und auch SMT4 helfen würde.

Natürlich ist klar, dass man mit 4fachem SMT keine neuen Single-Thread Benchmarkrekorde aufstellen würde, das sollte aber von vornherein klar sein.
Das Problem ist, dass a) größere Caches langsamer sind und b) mehr Threads auf dem gleichen Core schnell zu trashing führen. Beides zusammen bedeutet, dass du smt4 oder mehr kaum ohne starken impact auf die single-thread performance hinbekommst. smt2 ist hier schon ein tradeoff, aber da ist der Nutzen halt noch recht groß.

Mangel76

2018-11-06, 22:30:29

Ravenhearth

2018-11-13, 23:36:45

AMD Epyc 7371: Hochfrequenz-CPU mit 32 Threads für Spezialfälle (https://www.computerbase.de/2018-11/amd-epyc-7371-cpu/)
AMD nennt als Einsatzgebiete unter anderem electronic design automation, high-frequency trading and HPC. Gegenüber dem Epyc 7351 legt das neue Modell Epyc 7371 deutlich zu: Statt 2,4 GHz Basistakt sind es 3,1 GHz, der Boost für alle 16 Kerne liegt bei 3,6 GHz, Anwendungen mit Last auf maximal der Hälfte der Kerne können mit 3,8 GHz Takt bearbeitet werden. Hier bietet der Epyc 7351 lediglich 2,9 GHz – ein Taktplus von 900 MHz.

Locuza

2018-11-14, 13:38:52

Skysnake

2018-11-14, 21:11:35

Hmm warum steht da jetzt slingshot dabei? Wird das etwa direkt angebunden wie damals über HT?

BoMbY

2018-11-14, 21:15:38

Die Frage ist doch was Slingshot technisch überhaupt ist? Könnte einfach deren spezifische Implementierung von CCIX sein, oder Gen-Z, bzw. deren Software die da drüber liegt.

Skysnake

2018-11-14, 21:26:49

Slingshot ist der aries Nachfolger von Cray.

Habe inzwischen aber gesehen das auf den Folien CPU nodes und GPU nodes steht. Hat also mit der CPU nicht zwingend etwas zu tun. Pcie 4 reicht als Anbindung

Sunrise

2018-11-14, 21:56:50

Zen 3 bzw. Milan wurde jetzt für Perlmutter bestätigt.
Die Vorabinformationen halten sich sehr an den Eckdaten, von Zen 2 bzw. Rome, auch bei der SIMD-Unit wird nur AVX2 (256-Bit) genannt, wobei möglicherweise auch AVX512 mit 256-Bit implementiert werden könnte.
https://cdn.wccftech.com/wp-content/uploads/2018/11/AMD-EPYC-Milan-and-NVIDIA-Volta-Next-Perlmutter-Supercomputer_2.jpg

Zu "Volta-Next" gibt es auch ein Foto in der Quelle:
https://wccftech.com/amd-epyc-milan-and-nvidia-volta-next-perlmutter-supercomputer/
Danke, hatte sich ja abgezeichnet.

Auf 7nm+ nimmt man wohl vor allem die Effizienzsteigerung gerne mit, was mit der potentiellen Flächenersparnis passiert, steht wohl noch in den Sternen. Eventuell sehen wir ja sogar mehr Takt, da die Kernanzahl wohl konstant bleiben wird.

Die Inhalte der Folien sind bewusst quasi-Kopien der Vorgängergeneration, da lässt man sich natürlich noch nicht in die Karten schauen.

YfOrU

2019-02-20, 14:47:57

AMD EPYC 3201 8-Core Benchmarks Review and Milestone (BGA SoC, 30W)
https://www.servethehome.com/amd-epyc-3201-8-core-benchmarks-review-and-milestone/

Hat sich ganz schön hingezogen bis Snowy Owl "fertig" wurde. Hoffentlich kommen in absehbarer Zeit ein paar mehr Boards und evtl. auch NAS Systeme auf den Markt. Performance, Power und Feature Set sehen im Vergleich zu Atom und Xeon-D richtig gut aus. Find ich persönlich schon etwas schade das die Plattform hinten angestellt wurde denn Zeppelin ist als SoC dafür einfach prädestiniert.

Pirx

2019-02-23, 10:29:31

typisch AMD, "Launch" war laut Wikichip vor genau einem Jahr

dildo4u

2019-06-17, 19:46:41

FlashBFE

2019-06-18, 13:16:21

AMD Epyc 7452: Rome-CPU mit 32 Kernen und 2,35 GHz gesichtet

https://www.computerbase.de/2019-06/amd-epyc-7452-rome-cpu-32-kerne-benchmark/

Wissen wir die Preise oder warum hat man den Intel zum Vergleich genommen?
Intels Platinum-Serie ist preislich völlig abgehoben, von daher kann man schon davon ausgehen, dass AMD im Preisbereich der Gold-Serie bleibt.

Die Steigerungsraten sind ja enorm. Da merkt man aber auch, dass EPYC Zen+ ausgelassen hat, sonst wäre der Sprung nicht ganz so groß.

Unicous

2019-06-18, 18:28:44

Zwei neue Supercomputer, einer garantiert auf Naples Basis der andere höchstwahrscheinlich:

The CS500 was selected for its superior price-performance, scalability and functionality – surpassing all other solutions in an open tender. Cray’s price/performance matrix appealed to SCELSE, and the core count of the system will contain more than 12,000 AMD EPYC™ processor cores.

The first phase of the system has been delivered and put into production in June 2019.
http://investors.cray.com/phoenix.zhtml?c=98390&p=irol-newsArticle&ID=2401651

NEC will deliver and deploy a direct-liquid cooled HPC solution comprising 2,300 Gigabyte compute nodes based on the AMD EPYC™ 7601 processor, totaling up to 147,200 cores within a budget of more than 20 million Euros. The new DLR cluster will be hosted and administrated by the Center for Information Services and High Performance Computing (ZIH) at the new Datacenter of the Technische Universität Dresden (TU Dresden), according to the strategic scientific co-operation between NEC and DLR.

https://www.nec.com/en/press/201906/global_20190618_02.html