Archiv verlassen und diese Seite im Standarddesign anzeigen : AMD/ATI - CDNA3 APU, 4 x MCM mit Zen 4, Instinct MI300, HBM3
vinacis_vivids
2021-09-08, 10:36:45
https://wccftech.com/amd-instinct-mi300-could-feature-quad-mcm-gpus-based-on-cdna-3-architecture/
Aktuell spekulative Daten:
- Verkaufsname: AMD Instinct MI300
- 2 und/oder 4 Chip MCM
- 440CUs / 480CUs?
- 28.160SP / 30.720SP
- Codename: ???
- Prozess: 5nm ?
- Full-Rate FP64
- Launchdatum: Ende 2022?
- Cachesystem?
- Infinity Fabrik?
- Taktraten?
https://abload.de/img/cdna3bek6d.jpg
https://www.pcgameshardware.de/RAM-Hardware-154108/News/HBM3-Neuer-Speicher-665-GB-s-per-Stack-fuer-HPC-1373625/
https://www.pcwelt.de/news/HBM3-Rambus-verspricht-ueber-1-TB-pro-Sekunde-11081536.html
- 128 GB / 256 GB HBM3 Speicher ?
- 665 GB/s bis 1 TB/s pro Stack
- 2,66 TB/s - 4 TB/s Bandbreite ?
Wir kommen der Simulation der Welt immer näher :D
Statt GPU also eine APU?
https://videocardz.com/newz/amd-instinct-mi300-accelerator-might-have-an-exascale-apu-mode
Shaderordung:
4 Chips a 128CUs ergeben max. 512CUs. Um die Ausbeute zu maximieren, müssen defekte CUs ausgeschaltet werden.
Die verwendbare Anzahl der CUs sind dann 110 oder 120CUs pro Chip, bei 4 Chips dann 440 oder 480CUs.
Geht man davon aus dass der cut wie bei Acturius MI100, dann sind es 120CUs pro Chip von physisch vorhandenen 128CUs.
Um die Ausbeute weiter zu erhöhen, kann der salvage-cut auch höher ausfallen und 110CUs pro Chiplet bedeuten.
Fitte Grüße v_v
Linmoum
2021-09-16, 21:15:40
There's a server socket called "SH5" that features CPU with CPUID 0xA80F00... called "MI300"
https://mobile.twitter.com/ExecuFix/status/1438564239933853698
Wer will schon eine BFGPU, wenn man eine BFAPU haben kann? :D
basix
2021-09-16, 21:32:38
Notiz am Rande: 220 & 440 CUs sind blödsinn. Wenn dann sind es 224 & 448 CUs. Bei 2 oder 4 Chips mit je 128 CUs knippst man somit je 16 CUs weg.
konkretor
2021-09-17, 10:40:44
https://videocardz.com/newz/amd-instinct-mi300-accelerator-might-have-an-exascale-apu-mode
Linmoum
2022-06-09, 22:46:27
3D-Stacking, noice. :D
https://i.gyazo.com/faeae1cb6fdd134a67e123a9b96f3129.jpg
https://i.gyazo.com/a00f79fd4a70cc4824b9ada990173371.png
amdfanuwe
2022-06-10, 01:44:22
3D-Stacking, noice. :D
Und dann noch als APU
mboeller
2022-06-10, 10:42:53
https://images.anandtech.com/doci/17445/CDNA3_678x452.jpg
sind das 4 Die?
Also GPU und CPU bunt zusammengewürfelt ;)
0(?) bzw. 1-2 CPU + 2-3 (4?) GPU Module
https://images.anandtech.com/doci/17445/2022-06-09%2013_46_36.jpg
unified memory für CPU und GPU
amdfanuwe
2022-06-10, 11:02:23
sind das 4 Die?
Also GPU und CPU bunt zusammengewürfelt ;)
Sieht so aus. Wird so aber wohl nicht 1:1 umgesetzt. Da fehlt noch der I/O.
Hat aber seinen Charme für manche Aufgaben, wenn man das in einen EPYC Sockel stecken kann. Ich denke mal, dass es auch nicht bei CPU und GPU Chiplets bleibt, da sind durchaus noch FPGA oder spezielle AI Chiplets denkbar.
Würde mir ähnliches für den Desktop wünschen: Kleines sparsames Board mit APU und zum Gamen hat die AIB GPU ihre eigenen CPU Kerne und einen schnellen m2 Slot.
Könnte jede Möhre zum Gamingsystem aufgerüstet werden.
davidzo
2022-06-10, 13:19:08
Da träumen wir sei der Übernahme ATIs durch AMD von 2006 von einer großen APU mit schneller CPU, fetten aber effizienten GPU kombiniert mit unified memory on-package. Das würde im Notebook alles dominieren und sogar den midrange Desktop sehr effizient bedienen können.
Und was ist dann mehr als 15Jahre später die erste APU mit high-performance Anspruch und on-package memory? Eine Server-CPU :rolleyes:
Das klingt alles deutlich sinnvoller als das was Intel mit HBM bei Sapphire Rapids und Emerald rapids macht.
Die hohe Bandbreite von HBM kann man in einer CPU eigentlich nur mit massiv vektorisiertem Code überhaupt auslasten. Für AI sind AVX512 VNNI und Bfloat16 aber nur Krücken. Die sind weder so flexibel wie eine GPU, noch energieeffizient. Trotzdem braucht man auch general purpose compute für AI Modelle, deep learning, training, tensorflow.
Deshalb baut Tenstorrent ja bisher Arm Cores und in Zukunft RISC-V CPU Cores mit in ihre AI chips ein und nvidia baut in ganz anderem Maßstab an ihren Grace CPUs mit NVLink. Das sind CPUs die gar nicht soviele Cores und hohe IPC brauchen, sondern vor allem will man eine möglichst hohe Bandbreite zum memory pool der GPU.
Da sehe ich AMD mit unified memory, 3d stacking mit on Infinity Cache on DIE, on package HBM wahrscheinlich noch off package DDR5 von der Hardwareseite im Vorteil. Weder Grace Hopper ist so elegant, noch sapphire Rapids + Ponte Vecchio, auch wenn die wohl beide etwas früher dran sind. Tenstorrent bedient einen leicht anderen Markt, mit 75W add-in Karten für edge deployment und Clustern aus hunderten chips und ethernet.
Bisher hat AMD sich mit CDNA ja eher auf DP Leistung konzentriert und den AI-Markt weitgehend aufgegeben. Nvidia hat einfach den leichtesten Einstieg in die Software und sich mit features wie sparsity auch sehr auf mixed precision workloads konzentriert wo AMD mit CDNA1+2 schlechte Karten hat.
Zumindest hardwareseitig hat AMD mit CDNA3 dann wohl gute Vorraussetzungen auf einen erneuten Angriff auf den AI Accelerator Markt. Mal sehen ob es diesmal besser klappt.
vinacis_vivids
2022-06-11, 12:37:44
Die steigende Komplexität bei den Math-Execution (fp64, fp32, fp16, fp8, int4 usw.) zwingt AMD quasi dazu eine SoC-APU zu designen, die Leistungsmäßig überragend und dennoch bezahlbar ist. Der command Prozessor innerhalb der GPU wäre sonst eh zu stark angewachsen, da kann man mit etwas zusätzlichen Aufwand auch gleich ne iCPU daraus bauen.
Man muss bedenken, dass NV auf 21 Mrd. $ Cashreserven sitzt und AMD nur magere 3 Mrd. $ Cashreserven hat und somit bei TSMC in fortschrittlichen Nodes nur geringe Kapazitäten bekommt (neben Apple). Das Design muss daher deutlich besser sein als bei der Konkurrenz trotz Rückstand bei der Node, was es glücklicherweise auch ist.
An der Front sehe ich jetzt auch kaum Konkurrenz für TSMC, außer Samsung macht plötzlich einen Quantensprung. 7nm, 5nm, 3nm spielt sich alles bei TSMC ab.
Es gibt ja schon einen kleinen Ausflug von AMD zu Samsung 4nm (Exynos 2200), allerdings hat Samsung zu viele Probleme Leistung auf die Straße zu bringen.
Was unified Memory angeht, sehe ich genauso wie du, da ist AMD top-notch, das wird natürlich innerhalb der APU komplett ausgenutzt. Die Neuerungen der Server-APU sickert normalerweise eine Generation später auch ins Desktop durch. Auch Konsolen werden davon massiv profitieren.
Linmoum
2022-06-22, 09:30:58
Bisher war nur bekannt, dass El Capitan "EPYC CPUs" und "Instinct GPUs" nutzen würde. Warum also einzeln, wenn auch eine APU geht? Bei El Capitan kommt jetzt offiziell Mi300 zum Einsatz.
https://www.hpcwire.com/2022/06/21/amds-mi300-apus-to-power-exascale-el-capitan-supercomputer/
fondness
2022-06-22, 09:42:48
it’s a 3D chiplet design with AMD CDNA3 GPUs, Zen 4 CPUs, cache memory and HBM chiplets.”
“I can’t give you all the specs, but [El Capitan] is at least 10× greater than Sierra performance on average figures of merit,” said Quinn. “Theoretical peak is two double-precision exaflops, [and we’ll] keep it under 40 megawatts—same reason as Oak Ridge, the operating cost.”
Könnte man mal bitte den Thread-Titel anpassen? Wir reden hier von einer HPC-APU mit unified memory, keiner GPU.
Berniyh
2022-06-22, 09:48:24
Eine GPU ist es schon seit CDNA1 nicht mehr. ;)
Gipsel
2022-06-22, 10:10:55
Könnte man mal bitte den Thread-Titel anpassen?Besser?
basix
2022-06-29, 14:30:25
Ich hatte früher mal zu CDNA3 ein paar Grafiken gezeichnet und nun mit der Zen 4 CPU ergänzt. Fun Fact: Die Ergänzung um das CPU Chiplet war die einzige Änderung an den Grafiken :)
Fazit:
Die Integration der CPU in den Accelerator hat viele Vorteile und macht auch die Architektur & Skalierung des Netzwerks einfacher. Ich habe hier noch die Annahme getroffen, dass man mit dem selben CDNA3 Base Die gleich noch einen Infinity Fabric Switch realisieren kann (Speku!). Dazu werden die CDNA3-GPU Chiplets gegen DPU oder FPGA (Xilinx) Chiplets ausgetauscht und an die bestehenden HBM und Interconnect PHY werden Infinity Fabric PHY drandgeflanscht. Dadurch lässt sich ein sehr breite Skalierung mit minimalem Aufwand erreichen (siehe Grafik zum HPC Rack). Das ist jetzt nur eine mögliche Topologie, man kann natürlich auch sowas wie Nvidia mit NVLink Switch realisieren, wo man mit Hopper nun bis zu 256 GPUs zu einem Cluster verbindet. Im Falle von AMD und meinem untenstehenden Konzept wären es bei Nvida alike Topologie dann ebenfalls 256x MI300 Beschleuniger im Verbund (ausgehend von 48 IF-Fabric Lanes auf einem IF-Fabric-Switch und HPC Compute Blade Variante 2). Dafür benötigt man dann aber irgendwo dann zusätzlich mindestens 22x IF-Fabric Switches auf einer zweiten Netzwerk Ebene (1024x Lanes / 48).
Einziger Nachteil, den ich gerade sehe: HBM only. Die Speicherkapazität ist dann etwas gering.
Was könnte man machen:
- Ich vermute, dass MI300 neben HBM auch noch 8x (LP)DDR5-Channels mitbringt
- Im Falle eines OAM Accelerators könnte man noch zusätzlich bis zu 256 GByte LPDDR5 Speicher pro MI100 erreichen (oder wenn kein Platz halt weglassen)
- Im Falle eines gesockelten Chips: 4 TByte max.?
Da man nun prinzipiell 4x CPUs anstatt 1x CPU pro Node hat: Die Speicherbandbreite im System steigt ebenfalls enorm, da nun 32x DDR5-5200(?) anstatt 8x DDR4-3200 (Trento) Speicherkanäle pro Node.
Edit:
Im Falle eines x8 GPU Nodes mit jeweils 2x "parallelen" IF-Switches wären es dann sogar 64x Speicherkanäle pro Node und Compute Blade. Verglichen mit Frontier wären das pro Node 4x CPU Cores, ~4x GPU Cores (Speku), 4x DDR5 Bandwidth und 4-8x DDR5 Capacity - bei aber nur noch 1x anstatt 2x Nodes pro Compute Blade.
vinacis_vivids
2022-09-29, 00:38:33
Ab CDNA3 wird das GCD gestapelt.
https://abload.de/img/9-1080.37907b0eh1cxl.jpg
dargo
2022-11-10, 17:58:19
Steve zerlegt eine 25.000$ Instinct™ MI210.
4r_SwjYogQE
amdfanuwe
2023-01-05, 07:59:46
82173
9 x 5nm Chiplet stacked auf 4 x 6nm Base Dies umgeben von 8? x HBM.
Mal gespannt, wie das aufgeht.
24 CPU Cores deuten auf 3 CPU Chiplets hin, bleiben 6 GPU Chiplets.
Ich vermute mal:
3 Base Chiplets stacked mit je 1xCPU+2XGPU,
1 Base Chiplet für PCI und sonstigen I/O.
Base Chiplets jeweils mit ordentlich IF-Cache
82174
Bei den GPU Chiplets stellt sich mir noch die Frage, ob das nur SE Engines sind und der Controler sitzt im Base Die oder ob der Controler mit auf dem GPU Chiplet sitzt? Wieviel SE, wieviel Shader pro Chiplet?
Gibt noch viele Fragezeichen.
CrazyIvan
2023-01-05, 09:22:18
@amdfanuwe
Dein Layout macht durchaus mehr Sinn, als ein im AT-Forum gepostetes:
https://forums.anandtech.com/threads/rdna4-cdna3-architectures-thread.2602668/post-40923893
Ich war mal so frei, Deins mit Quellenangabe dort zu posten.
paar links mit nur wenig mehr Infos
https://www.servethehome.com/amd-instinct-mi300-breaks-cover-at-ces-2023/
https://www.hardwareluxx.de/index.php/news/hardware/grafikkarten/60162-128-gb-hbm3-und-146-milliarden-transistoren-amd-stellt-instinct-mi300-beschleuniger-vor.html
https://wccftech.com/amd-instinct-mi300-cdna-3-accelerator-specs-confirmed-24-zen-4-cpu-cores-146-billion-transistors-128-gb-hbm3-up-to-8x-faster-than-mi250x/
amdfanuwe
2023-01-05, 13:02:34
Ich war mal so frei, Deins mit Quellenangabe dort zu posten.
Ist OK.
Hatte vorher nur die Präsentation gesehen.
Wenn man das Hintergrund Bild in Betracht zieht, könnte es eher so aussehen:
82175
Die Base Dies zu meiner vorherigen Annahme gedreht.
Würde mal annehmen, die Base Dies werden erst mit den Stacks versehen und dann die guten in einem FanOut Package wie bei N31 verarbeitet.
Reicht FanOut Package auch für HBM?
CrazyIvan
2023-01-05, 16:07:32
Es gibt im Slide Deck ein noch besseres Bild:
82182
Unten rechts scheinen die CPU Cores auf insgesamt 3 Dies in der Aufteilung 16+2*4 verteilt zu sein. Man verwendet also nicht das normale CCD. Wie es zu der Aufteilung kommt, ist mir schleierhaft.
CrazyIvan
2023-01-05, 16:13:28
Achja: Für HBM dürfte wohl EFB oder InFO-LSI das Mittel der Wahl sein. InFO-R hat vermutlich nicht die nötige Dichte für derart viel Bandbreite. Die Verbindung zwischen Base-Die und Compute Dies könnte sogar SoIC sein.
Gipsel
2023-01-05, 16:45:12
Es gibt im Slide Deck ein noch besseres Bild:
82182
Unten rechts scheinen die CPU Cores auf insgesamt 3 Dies in der Aufteilung 16+2*4 verteilt zu sein. Man verwendet also nicht das normale CCD. Wie es zu der Aufteilung kommt, ist mir schleierhaft.Das ist kein echtes Bild. Da wurden ein paar Blöcke in Photoshop zusammengeschoben. Die scheinbaren "Cache-Bereiche" im CPU-Bereich rechts unten sind jeweils skalierte identische Kopien mit etwas abgeänderter Meta-Struktur (die aufgeprägte Blockstruktur). Das wäre in einem echten Foto unmöglich. Insofern bin ich nicht sicher, ob die dort abgebildete Struktur (die auf 16 Kerne hindeuten würde) überhaupt echt ist, da AMD ja von 24 Kernen gesprochen hat, oder?
amdfanuwe
2023-01-05, 17:15:40
Sind da rechts unten überhaupt CPU Cores?
ZEN4 Core ist 3,84mm² klein.
82183
Könnten das nicht auch die Rechtecke zwischen den Shadern sein?
L3 im Base Die.
Rechts unten nichts gestacked, nur ein I/O Die?
CrazyIvan
2023-01-05, 17:21:51
@Gipsel
Ja, das hatte ich mir auch schon gedacht - wird wohl mit der Realität wenig zu tun haben. Bei THG gibt es weitere Bilder. Aber auch auf denen ist rein gar nix zu erkennen, weil vermutlich Structural Silicon drüber ist.
https://www.tomshardware.com/news/amd-instinct-mi300-data-center-apu-pictured-up-close-15-chiplets-146-billion-transistors
Aber dass die CPU rechts unten ist, würde ich aufgrund des Bildes trotzdem annehmen.
Nightspider
2023-01-09, 17:16:27
Wie groß ist eigentlich der Bedarf an solchen Big APUs?
Gibt es viele Anwendungen, wo es Vorteile bringt, CPU und GPU auf einem Package zu haben?
Oder müssen die Anwendungen erst dafür programmiert werden?
Wird das eher so ein AI / Machine Learning Ding?
Also das CPU-Tile sieht aus wie ein natives 16C-Tile mit riesigen Caches und einer veränderten Topologie - oder es besteht eigentlich aus 3 Tiles.
davidzo
2023-01-09, 18:18:49
Sieht nach entweder 16Kernen oder 32Kernen. Offiziell sind es aber 24C. Danach sieht es aber echt nicht aus, passt auch nicht zu bergamo.
Was wenn AMD tiefstapelt, so wie damals wo man den den 3900X zuerst gelauncht hat und den 32kerner dann später nachschiebt wie den 3950X?
Was meint ihr, ist der Socket SH-5 Kompatibel zu SP-5, oder nutzt man nur mechanisch die gleiche mountinghardware aber elektrisch eine völlig andere Belegung?
Wird Mi-300 auch DDR5 Speicherkanäle haben und wenn ja wieviele, oder wird das eine HBM-Only Apu?
Nvidias Grace-Hopper hat immerhin LPDDR5 und damit einen Power- und Formfaktor-vorteil bei gleichzeitig immer noch sehr hohe Bandbreite.
Das SP5 i/p Die mit 12 Ch ist ja riesig groß und ich sehe auf den veröffentlichten Bildern keine Speicherinterfaces. Die könnten natürlich auch im Basedie sein. Wenn die schmalen streifen oben und unten 4x DDR5 Channels sind, wo sind dann die PCIe Lanes? Wird es PCIe Lanes geben wie bei SP-5, oder weniger?
Wenn der CPU-DIE genau das gleiche Format hat wie die GPU-DIEs, dann wären doch auch andere Kombinationen denkbar, z.B. 48Core + 6x GPU oder
Die Package Shots von THG sehen auf jeden Fall deutlich anders aus als das Rendering im SP-5 Socket aus den Folien.
https://www.tomshardware.com/news/amd-instinct-mi300-data-center-apu-pictured-up-close-15-chiplets-146-billion-transistors
The computing portion of the chip consists of nine 5nm chiplets that are either CPU or GPU cores, but AMD hasn't given us details on how many of each are employed. Zen 4 cores are typically deployed as eight-core dies, so we could be looking at three CPU dies and six GPU dies.
Those nine dies are 3D-stacked atop four 6nm base dies that are not merely passive interposers - we're told these dies are active and handle I/O and various other functions.
- Und die 9 Compute Chiplets kann ich auch nirgendwo erkennen. Ich sehe auf Anhieb nur 4x.
- Auch das angebliche "structural silicon" zwischen dem HBM macht für mich keinen Sinn. Wieso sollte man das aus quadraten zusammen setzen und nicht aus einem länglichen slab? Und wieso sollte das structural silicon überstehen, wenn es ausreicht dass es mit dem HBM abschließt?
Fragen über Fragen
CrazyIvan
2023-01-09, 21:47:32
Ja, MI300 ist womöglich das faszinierendste Stück Hardware des Jahres.
Im AT Forum hat jemand noch eine interessante Theorie zur Aufteilung inkl Annotation.
https://forums.anandtech.com/threads/speculation-zen-4-epyc-4-genoa-ryzen-7000-etc.2571425/post-40925500
Ich muss sagen, dass mir die Recht gut gefällt. Ich war nur selbst nicht auf die Idee gekommen, dass die Zen4 so dezentral ausgeführt sein könnten.
Aber wie Gipsel schon sagte ist relativ viel Fiction und relativ wenig Realität in diesem "Die-Shot". Also weiterhin sehr hohe Unsicherheitsfaktoren.
Edit: Aber an die Memory controller zwischen den HBM stacks mag ich nicht glauben. Die breitesten Datenströme über zwei Brücken zu leiten, erscheint mir nicht intuitiv schlüssig.
mksn7
2023-01-10, 10:11:56
Allein im letzten halben Jahr war ich an drei Applikationen beteiligt, die von MI300 massiv profitieren würden. Ich sehe etwa 3 Kategorien von Vorteilen:
1. Viel Cache
Die eine Applikation betreibt extremes cache blocking, und wird durch die große Menge an cache überhaupt erst auf GPUs profitabel. Bisher ist die nur für CPUs implementiert. Wir kaufen uns jetzt schonmal eine Gaming GPU, mit den 128MB I$ von RDNA2 lohnt sich vielleicht schon.
2. Weniger Entwicklungsaufwand durch gemeinsamen Speicher
Bei den anderen beiden Applikationen geht es einfach ganz klassisch um eine CPU-GPU Portierung. Man fängt bei einem CPU code an, und portiert den größten hotspot. Leider wird der speedup durch die nötigen memory transfers deutlich reduziert. Man müsste noch deutlich mehr (meist alles innerhalb einer Iteration) von der Applikation portieren, damit die Daten länger auf der GPU bleiben können. Mit gemeinsamen Speicher ist es nicht so schlimm, wenn nicht 100% auf GPU portiert ist.
3. Feingranulare Zusammenarbeit CPU/GPU
Da hab ich ehrlich gesagt kein Beispiel dafür, und das ist auch so ein Fall, das finden alle geil, aber niemand weiß so recht ein Beispiel wo es wirklich was hilft. Die HPC community hat die letzten 15 Jahre um das bestehende System drum herum programmiert, so dass eigentlich alles drauf ausgelegt in möglichst großen, statischen Blöcken abzuarbeiten. GPU seitiges dynamic parallelism, das NVIDIA vor vielen Jahren schon in CUDA eingeführt hat, hab ich noch nie in echt gesehen. Es ist halt nicht wie in Spielen, wo keiner weiß was im nächsten frame passiert. Meistens weiß man ganz genau was in den nächsten 1000 Zeitschritten passieren wird. Wenn die Möglichkeiten in der hardware da sind, ergeben sich vielleicht auch dass die Applikationen mehr adaptiv (z.B. mesh refinement) und dynamisch machen.
Hilft aber leider alles nichts, wenn die Software nicht endlich mal stabiler (im Sinne von konsistent, es ändert sich immer mal wieder Pfade, Namen von executables, compiler optionen, und welcher von den ca. 5 compilern die AMD so unterhält jetzt gerade der Richtige ist) wird und sie ein paar Fortschritte bei ihrer uralten Architektur (zwischen dem allerersten GCN von vor 10 Jahren und CDNA2 hat sich leider weniger geändert als man hoffen würde) machen.
amdfanuwe
2023-01-10, 12:42:14
Edit: Aber an die Memory controller zwischen den HBM stacks mag ich nicht glauben. Die breitesten Datenströme über zwei Brücken zu leiten, erscheint mir nicht intuitiv schlüssig.
Macht man bei RDNA3 im Prinzip doch auch.
Kann mir schon vorstellen, dass die Leistungstransitoren für DDR RAM und etwas Logik ausgegliedert sind. Ohne IF$. Ist man auch flexibler für andere Speichersorten.
Zudem sind es nicht die breitesten Datenströme. Wenn da nur ein Speicherkanal dranhängt braucht es da nicht mehr wie beim normalem IF bei EPYC oder RYZEN.
Also im Prinzip nur Treiberbausteine für DDR.
Gipsel
2023-01-10, 13:30:29
Ja, MI300 ist womöglich das faszinierendste Stück Hardware des Jahres.
Im AT Forum hat jemand noch eine interessante Theorie zur Aufteilung inkl Annotation.
https://forums.anandtech.com/threads/speculation-zen-4-epyc-4-genoa-ryzen-7000-etc.2571425/post-40925500
Ich muss sagen, dass mir die Recht gut gefällt. Ich war nur selbst nicht auf die Idee gekommen, dass die Zen4 so dezentral ausgeführt sein könnten.
Aber wie Gipsel schon sagte ist relativ viel Fiction und relativ wenig Realität in diesem "Die-Shot". Also weiterhin sehr hohe Unsicherheitsfaktoren.
Edit: Aber an die Memory controller zwischen den HBM stacks mag ich nicht glauben. Die breitesten Datenströme über zwei Brücken zu leiten, erscheint mir nicht intuitiv schlüssig.
Mal zum Vergleich, so sieht der Chip in echt aus (leider nicht abgeschliffen):
https://cdn.mos.cms.futurecdn.net/B8mAVs4Ei3jh5TGrmjJarE-970-80.jpg.webp
Man sieht doch schon Unterschiede zum "Photoshop-Modell". Und mal eine andere Idee, da die Dies in den 4 Quadranten quasi identisch erscheinen, vielleicht sitzen in jedem davon 6 CPU-Kerne (physisch vielleicht 8 vorhanden, aber je 2 deaktiviert)?
basix
2023-01-10, 14:33:28
Und mal eine andere Idee, da die Dies in den 4 Quadranten quasi identisch erscheinen, vielleicht sitzen in jedem davon 6 CPU-Kerne (physisch vielleicht 8 vorhanden, aber je 2 deaktiviert)?
Sowas habe ich mir auch gedacht.
BavarianRealist
2023-01-10, 15:16:13
Und mal eine andere Idee, da die Dies in den 4 Quadranten quasi identisch erscheinen, vielleicht sitzen in jedem davon 6 CPU-Kerne (physisch vielleicht 8 vorhanden, aber je 2 deaktiviert)?
Das liegt eigentlich nahe, da man dann nur ein Die entwickeln bräuchte was in 5nm sehr viel Kosten erspart. Zudem wäre dann eine symmetrischere Verteilung von CPU zu GPU vorhanden, was für mich mehr Sinn ergäbe. Zuletzt könnte man hiermit auch noch einfacher skalieren, indem man die Anzahl der Dice variiert. Zuletzt wäre es schon sehr schwierig, wenn ein CPU- und GPU-Die genau auf die gleichen Maße kommen müssten.
amdfanuwe
2023-01-10, 15:21:41
Ist doch Unsinn 2 Cores zu deaktivieren.
Das sind Chiplets in 5nm und die sind gestacked.
Gipsel
2023-01-10, 15:34:25
Ist doch Unsinn 2 Cores zu deaktivieren.
Das sind Chiplets in 5nm und die sind gestacked.Aber wie genau? Sollen die CPU-Kerne dann in den Interconnect-/Cache-Dies unter den GPU-Dies sitzen? Oder vermutetst Du, daß die sichtbaren 4 größeren Siliziumstückchen nur "structural silicon" ist und sich erst darunter die einzelnen CPU-Chiplets und GPU-Dies verstecken? Warum sollte man das so machen? Es klingt aus Kühlungssicht sinnvoller, wenn die größten Stromfresser direkt oben liegen.
Und wer weiß, eventuell kommt ja noch ein MI300X mit >400W und allen 32 Kernen aktiv ;). Im Prinzip soll ja möglichst viel auf der GPU rechnen. Wenn das Problem wirklich viele CPU-Kerne benötigt, läßt man das auf CPU-only-Knoten laufen. Falls AMD wirklich 4 relativ große 5nm Zen4-CDNA3-Kombi-Dies verbaut hat (gestackt auf Interconnect-, Cache- und IO-Dies), bietet sich die Teildeaktivierung der CPUs zur Yield-Erhöhung an. Der CDNA-Teil hat doch sehr wahrscheinlich auch nicht alle CUs aktiv.
amdfanuwe
2023-01-10, 15:58:46
Könnte ebenso ein Base Die für 3 x 8C CPU Chiplet ausgelegt sein und die anderen Base Dies mit jeweils 2 GPU Chiplets.
Das muss nicht über alle 4 Base Dies symmetrisch sein.
Eventuell steckt in den Base Dies für GPU auch noch der Controler und auf den Chiplets sind nur die Shader.
Also je nach Chiplet Typ unterschiedliche Base Dies.
Die müssen auch nicht exakt gleich groß sein, wir sehen ja nur die Vergussmasse.
Wesentlich bei dem ganzen ist eigentlich, dass CPU Kerne und GPU auf einen gemeinsame Speicher zugreifen.
Bisher hat man CPU mit eigenem RAM und mehrere GPUs über PCIe mit eigenem RAM angebunden.
Bei MI300 bringt AMD das auf einem Chip mit kohärentem gemeinsamen Speicher.
Wie genau das AMD gelöst hat, werden wir sehen. Bisher gibt es zu viele Möglichkeiten um das aufzulösen.
Gipsel
2023-01-10, 16:06:58
Könnte ebenso ein Base Die für 3 x 8C CPU Chiplet ausgelegt sein und die anderen Base Dies mit jeweils 2 GPU Chiplets.
Das muss nicht über alle 4 Base Dies symmetrisch sein.
Eventuell steckt in den Base Dies für GPU auch noch der Controler und auf den Chiplets sind nur die Shader.
Also je nach Chiplet Typ unterschiedliche Base Dies.
Die müssen auch nicht exakt gleich groß sein, wir sehen ja nur die Vergussmasse.Nein, man sieht durchaus das Silizium (die dunkler erscheinenden Flächen in dem von mir gepostetem Foto ist tatsächlich Silizium).
Ich akzeptiere das Argument, daß Lisa Su gesagt hat, daß es insgesamt 13 Dies gibt (4x 6nm und 9x 5nm). Also wenn Sie sich da nicht versprochen hat, sitzen entweder die vier 6nm Interconnect-/Cache-Dies oben (was ich eher seltsam finden würde und Lisa sagte eigentlich auch, daß 5nm Dies auf den 6nm sitzen) oder die 4 großen Dies sind tatsächlich structural silicon und decken die eigentlichen Chiplets darunter ab. Das klingt aus Kühlungssicht vielleicht erstmal kontraproduktiv, allerdings hat AMD das bei Milan-X wohl auch so gemacht (vermutlich aus Gründen der Haltbarkeit), also keine Ahnung.
https://cdn.mos.cms.futurecdn.net/uZ3a9tWa7qtfojQtEDUDSX-970-80.png.webp
blau: CPU-Chiplet
rot: Cache Chiplet
grün: totes Silizium zum Höhenausgleich
grau: Abdeckung aus Silizium
amdfanuwe
2023-01-10, 16:45:17
Nein, man sieht durchaus das Silizium
Ja, sorry, Vergussmasse war der falsche Ausdruck.
Ich meinte das support silicon.
Wir sehen ja auch nur den ganzen Chip bestehend aus Base Die mit irgendwas gestacked, da ist ja nichts abgeschliffen.
Also so wie bei den Chiplets mit 3D Cache.
so lange AMD nicht mit mehr Infos raus rückt oder jemand ein Sample aufschleift, können wir weiter raten.
9 x 5nm Chiplets lassen sich halt irgendwie schlecht auf 4 Base Dies aufteilen.
Daher meine Meinung, dass sich unter den 4 gleich aussehenden Chiplets durchaus unterschiedliches verbirgt.
Ob das jetzt 3 2xGPU Konstrukte + 1 3xCPU Konstrukt oder
3 (1xCPU + 2xGPU) Konstrukt + einem Base Die ohne Compute Stack ist...
wir werden es sehen.
Edit:
Mich beschäftigt eher, ob das ein reiner Accelerator wird oder ob das ein eigenständiges System ist.
Da gäbe es dann andere Anforderungen an PCIe und Memmory Channels.
82247
Als Beschleuniger eingesetzt hat man dann noch eine CPU im System mit einem Haufen RAM und die sich um die PCIe Anbindung im restlichem System kümmert.
Edit 2:
MI 300 als Beschleuniger könnte dann so aussehen
82249
und die 8 kleinen Chips zwischen den HBM Stacks sind die IF Link Treiber für die Verbindung zu den anderen Karten.
CrazyIvan
2023-01-10, 17:17:04
Macht man bei RDNA3 im Prinzip doch auch.
Kann mir schon vorstellen, dass die Leistungstransitoren für DDR RAM und etwas Logik ausgegliedert sind. Ohne IF$. Ist man auch flexibler für andere Speichersorten.
Zudem sind es nicht die breitesten Datenströme. Wenn da nur ein Speicherkanal dranhängt braucht es da nicht mehr wie beim normalem IF bei EPYC oder RYZEN.
Also im Prinzip nur Treiberbausteine für DDR.
Dass Du Dich da mal nicht täuschst: 1 HBM-Stack benötigt 820GByte/s - das ist in etwa so viel wie die MCD bei Navi31 und Faktor 10 mehr als bei Zen4.
Gegen die These der ausgelagerten Memory Controller spricht IMHO, dass der Pfad folgendermaßen aussähe:
HBM --InFO-R--> MC --InFO-R--> Base-Die. Die zweite Strecke wird nicht wenig Energie kosten.
Dafür spricht, wie Du schon schreibst, dass man modular die Speichersorte austauschen kann.
CrazyIvan
2023-01-10, 17:25:16
Mal zum Vergleich, so sieht der Chip in echt aus (leider nicht abgeschliffen):
https://cdn.mos.cms.futurecdn.net/B8mAVs4Ei3jh5TGrmjJarE-970-80.jpg.webp
Man sieht doch schon Unterschiede zum "Photoshop-Modell". Und mal eine andere Idee, da die Dies in den 4 Quadranten quasi identisch erscheinen, vielleicht sitzen in jedem davon 6 CPU-Kerne (physisch vielleicht 8 vorhanden, aber je 2 deaktiviert)?
Die vier "Dies" in der Mitte sind mit hoher Sicherheit Support Silicon, welches exakt die Abmessungen der Base-Dies besitzt. Die eigentlichen Chiplets befinden sich darunter - und zwar in Summe 9:
6 Compute-Chiplets, wovon jeweils 2 auf einem Base-Die sitzen
Und noch einmal drei von unbekanntem Typ, die auf dem 4. Base-Die sitzen.
Also ob die drei Chiplets unten rechts nun wirklich AI/adaptive sind, will ich nicht beurteilen. Das kann vermutlich heute niemand sagen. Aber die 4 Zen4-Kerne pro Compute-Die und die grundsätzliche Aufteilung der genau 9 Chiplets scheint mir schon plausibel.
82250
amdfanuwe
2023-01-10, 17:51:33
Dass Du Dich da mal nicht täuschst: 1 HBM-Stack benötigt 820GByte/s -
War nicht davon ausgegangen, dass da HBM dranhängt.
Dachte da noch an DDR5 Interface.
Mittlerweile denke ich an IF Links für die Kopplung mehrere MI300 und an Server CPU.
mksn7
2023-01-10, 18:03:53
Ich denke eher dass ein MI300 ein Node ist, vielleicht als Dual Socket zwei pro Node. Wenn man da noch extra eine Host CPU verbaut, dann wirds unnötig kompliziert welche CPU Kerne welche und wo sind.
CrazyIvan
2023-01-10, 18:17:14
Ich denke eher dass ein MI300 ein Node ist, vielleicht als Dual Socket zwei pro Node. Wenn man da noch extra eine Host CPU verbaut, dann wirds unnötig kompliziert welche CPU Kerne welche und wo sind.
Denke ich auch. Soll angeblich auch mit ausschließlich HBM Bestückung booten können - genau so wie SPR.
amdfanuwe
2023-01-10, 18:19:10
Aber die 4 Zen4-Kerne pro Compute-Die und die grundsätzliche Aufteilung der genau 9 Chiplets scheint mir schon plausibel.
Können ja abstimmen
82251
Ich denke eher dass ein MI300 ein Node ist, vielleicht als Dual Socket zwei pro Node. Wenn man da noch extra eine Host CPU verbaut, dann wirds unnötig kompliziert welche CPU Kerne welche und wo sind.
Hat etwas für sich, dann braucht MI300 aber auch entsprechend PCIe und DDR5 Speicher Interface.
Der Gedanke als Beschleuniger, Ein Rack mit 2x EPYC + 8x MI300, hat aber auch etwas faszinierendes.
Enorme Rechnerpower auf kleinem Raum.
CrazyIvan
2023-01-10, 18:58:51
Können ja abstimmen
82251
Das ist gerade das faszinierende - aktuell ist da noch viel Phantasie drin. Auch das Packaging:
HBM to Base-Die InFO-R? (Bandbreite reicht, Energieeffizienz okay)
Base-Die to Base-Die EFB? Apple hat bei M1 Ultra 2,5TByte/s - so als Vergleich. MI300 benötigt wohl eher mehr. Das wird ohne Brücke eng.
Chiplet to Base-Die SoIC? Das wäre die High-End Lösung, oder aber overblown?
Der Gedanke als Beschleuniger, Ein Rack mit 2x EPYC + 8x MI300, hat aber auch etwas faszinierendes.
Enorme Rechnerpower auf kleinem Raum.
Bin bei den Anwendungsgebieten kein Experte, aber ich glaube eher nicht, dass MI300 großartig mit EPYC gepaart wird. Genau dafür sollten die integrierten Kerne doch da sein.
amdfanuwe
2023-01-10, 20:23:38
Bin bei den Anwendungsgebieten kein Experte, aber ich glaube eher nicht, dass MI300 großartig mit EPYC gepaart wird. Genau dafür sollten die integrierten Kerne doch da sein.
Ich auch nicht.
Macht für mich aber Sinn, das mit EPYC zu paaren.
EPYC kümmert sich um die System Kommunikation und die MI300 Kerne können sich ganz auf das Compute Problem konzentrieren.
Praktisch wäre MI300 dann eine MI200 mit zusätzlichen CPU Cores ( und anderen Kleinigkeiten). Das ganze dann eben auch effizienter, da die Kommunikation zwischen CPU Kernen und GPU on-Die abläuft und nicht mehr über PCIe.
mboeller
2023-01-11, 11:29:24
Gibt es viele Anwendungen, wo es Vorteile bringt, CPU und GPU auf einem Package zu haben?
bei RT bringt es anscheinend was:
https://www.researchgate.net/publication/343359985_APU_Performance_Evaluation_for_Accelerating_Computationally_Expensive_ Workloads
... IMHO überraschenderweise
robbitop
2023-01-12, 08:21:33
Hätte es nicht entscheidende thermische Nachteile wenn die Chiplets mit höher Energiedichte (GPU, CPU) unter structural silicon vergraben sind? Wäre es nicht am sinnvollsten, diese ganz oben zu haben?
Außerdem: sind MCDs bereits ausgeschlossen? Immerhin produziert man die für RDNA3 SKUs und sie sind angeblich stackbar. So hat man gleich IF$. ggf. können die von Anfang an ja auch HBM.
Zossel
2023-01-12, 08:39:10
Hätte es nicht entscheidende thermische Nachteile wenn die Chiplets mit höher Energiedichte (GPU, CPU) unter structural silicon vergraben sind? Wäre es nicht am sinnvollsten, diese ganz oben zu haben?
Außerdem: sind MCDs bereits ausgeschlossen? Immerhin produziert man die für RDNA3 SKUs und sie sind angeblich stackbar. So hat man gleich IF$. ggf. können die von Anfang an ja auch HBM.
Resultieren denn "entscheidende thermische Nachteile" in entsprechenden Performance Nachteilen?
Vgl. hierzu die Low-Power Zen4 Versionen, die wesentlich weniger Strom verbrauchen aber nur wenig langsamer sind, außerdem ist das Server-Zeug und nicht zum spielen gedacht wo Zuverlässigkeit keine Rolle spielt.
robbitop
2023-01-12, 09:03:00
Naja man ist mit höherem thermischen Widerstand halt eingeschränkt was höhere Betriebspunkte angeht. Außerdem haben höhere Temperaturen auch direkt einen Einfluss auf die Leistungsaufnahme. Ich kann mir gut vorstellen, dass wir hier potenziell von mehreren 10K an Temperaturdifferenz sprechen (abhängig vom Betriebspunkt).
CrazyIvan
2023-01-12, 10:45:31
In meinen Augen ist structural silicon eine Fertigungshilfe, um die Defektrate beim Aufbringen von WLP und der Kühlermontage zu reduzieren. Das wird uns vermutlich in Zukunft sehr oft begegnen - vielleicht auch bei MTL und PVC (Bilder vom letzteren sind bisher ohne).
amdfanuwe
2023-01-18, 00:28:25
MI 300 lässt mir keine Ruhe. Zum Glück kann man hier spekulieren.
82360
Vor allem frage ich mich, was sich in den Base Dies verbirgt.
Im Vergleich zum MI250 und Genoa sieht man wie groß die sind.
82361
Aldeberan ist 724mm² pro Chip und der Genoa I/O ist ~400mm².
Da komm ich auf 4 x ~400mm² für die Base Dies auf MI300.
Meine Spekulation:
Es ist nur das INFO Package mit Base Die und gestackten Chiplets so groß.
Das eigentliche Base Die könnte also auch wesentlich kleiner sein.
Zudem könnten die Chiplets auch durch INFO-POP mit dem Base Die verbinden sein. Es wären beim Base Die nicht unbedingt TSVs nötig, was die ganze Sache billiger macht.
Ich stell mir das so vor:
82362
Die Chiplets werden auf einen INFO Zwischenlayer gesetzt wodurch ihre Kontakte um das Base Die herum geleitet werden.
Da könnte ich mir vorstellen, dass normale ZEN4 Chiplets zum Einsatz kommen. Über das IF-Interface werden diese mit dem Base Die kontaktiert, die Spannungsversorgung kommt über den Träger.
Ähnlich könnte mit den GPU Chiplets verfahren werden.
Wäre billiges 3D Stacking. Allerdings ist bei den GPU Chiplets mehr Bandbreite nötig, weshalb AMD da doch zum Metal on Metal Stacking greift, wie bei den Cache Chiplets für ZEN.
Für mich folgt: Die Base Chiplets sind kleiner 400mm², die Base Chiplets sind unterschiedlich und ihrer Chipletlast entsprechend angepasst, beim Stacking gibt es mehrere Möglichkeiten diese zu stapeln.
Gemeinsam ist den Base Dies eine schnelle Kommunikation untereinander, Bereitstellung des Speicher Interfaces, IF$ bei Bedarf, gemeinsamer kohärenter Speicher und I/O Mapping für alle Compute Chiplets.
Für AMD ist MI300 das eine Technologiedemonstration für ein schnelles verteiltes Frontend on Chip.
Unter Backend verstehe ich die Compute Chiplets.
Vielleicht hat AMD auch schon den Programmabel Network on Chip von Xilinx implementiert?
82363
MI300 zeigt nur CDNA und CPU Chiplets, aber im Prinzip sind die ja austauschbar. AMD wird da auch noch RDNA, FPGA, AI, DSP IP, DDR5 , HBM, PCIe5, CXL Interfaces anbieten und man sieht ja, was Xilinx für das I/O noch in Petto hat.
Zudem kann ein Kunde einen eigenen Chip liefern, den AMD dann in dem Package verbauen kann. Da dürfte doch kaum ein Wunsch offen bleiben für einen Traumchip, solange der nicht CUDA kompatibel sein soll.
--------------------
Bei den GPU Chiplets gehe ich von ~200mm² mit 40 CDNA CUs aus.
Das ergäbe mit 6 GPU Chiplets 240 CUs. Etwas mehr als MI250 mit 220 CU.
Dafür etwas höher getaktet und billiger herzustellen.
Bei den CPU Chiplets gehe ich von normalen ZEN 4 Chiplets aus.
Überhaupt erinnert mich MI300 an eine MI250 Quad GPU Topologie on Chip.
82364
Natürlich mit weniger GPU CUs, dafür wesentlich schnelleren und sparsameren Verbindungen zwischen den Komponenten.
---------------------
Schlusswort, was kommt als nächstes?
Ich nehme an, AMD könnte auch 4 CPU Chiplets in einem Package unterbringen.
Gäbe doch eine nette SP5 kompatible EPYC CPU mit 16 ZEN 4 Chiplets mit stacked Cache und HBM on Package. Also 128 ZEN4 Kerne oder 256 ZEN4c?
Oder den HBM weglassen und 6 Packages verbauen?
Gäbe dann 192 ZEN4 Kerne bzw. 384 ZEN4c Kerne. Wohl eher erst mit ZEN 5, wird sonst zu heiß.
Ebenso könnten 4 GPU Packages mit dann 320 CUs verbaut werden, als Nachfolger der MI250.
Xilinx packt bei Versal schon einiges auf den Chip. Bei dem MI300 Aufbau könnte sich Xilinx da auch ordentlich austoben.
Genügend Kontakte sind ja vorhanden und durch die Chiplet Technik kann man ein weites Feld an verschiedenen Kombinationen aus I/O, Speicheranbindung, CPU, GPU, AI DSP etc. kostengünstig abdecken. Gibt gute Gewinnmarge.
Wenn MI300 funktioniert, kann man das ganze nach unten skalieren, 2 Packages für die Siena Platform bzw. Threadripper, Single Package für Custom Chips.
Single Package mit 16 CPU Cores und 40CU GPU mit 32GB HBM wäre auch ganz nett, wird aber wohl zu teuer.
Da wird man für Desktop und Notebook wohl noch bei herkömmlicher Technik bleiben.
mksn7
2023-01-24, 16:21:25
Ich hab ein github repository mit einer losen Sammlung an GPU micro benchmarks. Ich hab jetzt auch mal ein paar Ergebnisse von H100 und MI210 hinzugefügt.
https://github.com/te42kyfo/gpu-benches/
(Ich weiß, viel Text, aber es gibt auch Bilder :wink:)
Da sieht man mal recht drastisch, wie popelig der L1 cache bei CDNA ist im Vergleich zudem was NVIDIA verbaut. Hoffentlich tut sich da mal was bei MI300 ;(.
vinacis_vivids
2023-01-24, 16:52:24
Danke, aber was ist mit dem MI250X ?
MI210 kostet ja nur einen Bruchteil von H100 und ist wirtschaftlich gar nicht vergleichbar.
H100 ~ 35k €
MI210 ~ 10k €
AMD Beratungsleistung bei mir ist kostenlos.
mksn7
2023-01-24, 17:19:55
Danke, aber was ist mit dem MI250X ?
MI210 kostet ja nur einen Bruchteil von H100 und ist wirtschaftlich gar nicht vergleichbar.
H100 ~ 35k €
MI210 ~ 10k €
AMD Beratungsleistung bei mir ist kostenlos.
Warum ich keine MI250 gemessen hab? Weil Systeme damit absurd teuer sind.
Die PCIe H100 kostet 'nur' 26k. Ich hatte nur auf die PCIe Variante Zugriff, davon sind auch die Messungen.
Die größere Konkurrenz bei Preis/Leistung sind wahrscheinlich sowieso eher die A100s.
basix
2023-05-24, 00:29:58
Ein paar neue MI300 Infos:
Falls es dafür einen separaten Thread gibt, sorry: Neue Infos zu MI300
https://www.tomshardware.com/news/new-amd-instinct-mi300-details-emerge-debuts-in-2-exaflop-el-capitan-supercomputer
Bestätigungen:
Die Base Dies enthalten Infinity Caches (Größe unbekannt)
Das Segment unten rechts ist wirklich der CPU Teil.
Was ich mir noch überlegt habe:
Hat MI300 auch DDR5 Interfaces? Sockel SH5 soll gleich gross wie SP5 von EPYC sein. Ist das allenfalls sogar kompatibel? Dann könnte man das als Drop-In in ein Server-Board knallen und entsprechend bestehende Infrastruktur leveragen. Oder auf einem OAM Modul oder einer PCIe-Karte z.B. 8x LPDDR5X Bausteine wie bei Nvidias Grace-CPU verbauen. Laut Nvidias Whitepaper zum Grace Superchip ist LPDDR5X pro Gigabyte ~3x günstiger als HBM. Verbaut man bei MI300 128GByte HBM3 und 512GByte LPDDR5X, wären die Kosten für die gesamten 640 GByte ~47% von dem, als wenn man die selbe Menge HBM3 verbauen würde wenn man denn technisch könnte. Und es würde die Speichermengen-Limitierung aufgrund HBM stark abschwächen.
amdfanuwe
2023-05-24, 01:22:26
Hat MI300 auch DDR5 Interfaces? Sockel SH5 soll gleich gross wie SP5 von EPYC sein. Ist das allenfalls sogar kompatibel?
Alles machbar. Je nach Bedarf unterschiedliche Pinbelegung.
96 Core ZEN4 mit HBM könnte ich mir gut vorstellen.
Dann könnte man das als Drop-In in ein Server-Board knallen und entsprechend bestehende Infrastruktur leveragen.
Sind nur 24 Core + MI250 Class CDNA mit AI Optimierungen.
Macht das Sinn?
Bin mal gespannt, mit welcher Technik gestacked wird, wie die Base Dies verbunden werden und wie HBM angebunden wird.
basix
2023-05-24, 07:46:10
96 Core ZEN4 mit HBM könnte ich mir gut vorstellen
...
Sind nur 24 Core + MI250 Class CDNA mit AI Optimierungen.
Macht das Sinn?
Du gibst dir die Antwort doch schon selbst ;)
Und bei Bedarf ist 1-2 der vier Quadranten mit Accelerators ausgestattet (CDNA, FPGA, ML-Engine), je nach Anwendungsprofil.
vinacis_vivids
2023-05-24, 11:34:33
Wem 26k oder 100k zu teuer sind:
AMD Instinct MI50 ist erschwinglich geworden, auch für den Hobby-Wissenschaftler:
Vega20 GLXT
3840 Shader
32GB ECC HBM
4096bit SI
1024 GB/s
6,7 Tflops fp64!
13,4 Tflops fp32
26,8 Tflops fp16
Ist unter 1k € angekommen.
Vier stück zusammen wären 26,8 Tflops fp64.
Sehr sehr ordentliche Leistungsfähigkeit das Geld.
Hier spekulieren auch welche/einer? zu MI300/El Capitan: https://www.nextplatform.com/2023/05/08/ai-hype-will-drive-datacenter-gpu-prices-sky-high/
basix
2023-05-26, 08:42:59
Ponte Vecchio in Aurora ist schwächer als gedacht:
60k+ GPUs werden verbaut. In den Intel Folien steht 52 TFLOPS pro GPU. Erbäbe >3 ExaFLOPS und wäre ziemlich stark. Das ist aber nicht korrekt. Anscheinend bekommt Aurora eine Version mit nur 31.5 TFLOPS.
What Argonne is actually getting is a Ponte Vecchio GPU rated at 31.5 teraflops, which is 61 percent of the peak performance of a standalone GPU, which means Aurora is only delivering just a hair over 2 exaflops of peak double precision floating point oomph. Intel has been clearly adding node counts to get above that 2 exaflops peak, and is not going to be adding one node more.
https://www.nextplatform.com/2023/05/23/aurora-rising-a-massive-machine-for-hpc-and-ai/
Shink
2023-05-26, 09:28:27
Wem 26k oder 100k zu teuer sind:
AMD Instinct MI50 ist erschwinglich geworden, auch für den Hobby-Wissenschaftler:
Vega20 GLXT
3840 Shader
32GB ECC HBM
4096bit SI
1024 GB/s
6,7 Tflops fp64!
13,4 Tflops fp32
26,8 Tflops fp16
Ist unter 1k € angekommen.
Sorry für die inkompetente Frage aber:
Wenn ich das in einen Linux-PC einbaue und einen Monitor an den MiniDP schließe... hab ich dann eine Radeon VII mit doppeltem VRAM oder geht das einfach nicht?
vinacis_vivids
2023-05-26, 10:17:31
Sorry für die inkompetente Frage aber:
Wenn ich das in einen Linux-PC einbaue und einen Monitor an den MiniDP schließe... hab ich dann eine Radeon VII mit doppeltem VRAM oder geht das einfach nicht?
Klar geht das. Es gibt ja offizielle Treiber für Ubuntu 20.04.
Die MI50 kann alles was die Radeon VII kann und noch etwas mehr (fp64, ECC, 32GB).
Die 32GB ECC und 1,2TB/s werden für fp64 auch dringend benötigt, weil da so viele Daten anfallen und Fehler korrigiert werden.
Mini Diplay Port 1.4a ist nur mechanisch kleiner, elektrisch ist es DP 1.4.
Ist somit limiterit auf 7680 x 4320 x 60hz x 10bit oder 3840 x 2160 x 120hz x 10bit (wie bspw. die RTX4090).
Achill
2023-05-26, 11:40:16
Sorry für die inkompetente Frage aber:
Wenn ich das in einen Linux-PC einbaue und einen Monitor an den MiniDP schließe... hab ich dann eine Radeon VII mit doppeltem VRAM oder geht das einfach nicht?
Die MI50 hat erstmal keinen eigen Ausgang für Displays, nur um kein Missverständnis aufkommen zu lassen. Wenn du von einen Anschluss auf deinen Mainboard sprichst, dann brauchst du auf diesen eine CPU die eine iGPU beinhaltet und diese muss dann aktiv sein. Ausgabe von Bild/Terminal oder Rendering macht die iGPU. Die MI50 wird nur fürs Compute genutzt aber kann nicht für Grafik/Spiele genutzt oder mit einer iGPU dafür kombiniert werden (nur um sicher zu gehen).
Darüber hinaus hat die MI50 (32GB) (https://www.amd.com/en/products/professional-graphics/instinct-mi50-32gb) auch keine eigene Lüfter, man muss also für seinen eigenen Luftstrom sorgen oder ein Getto-Mod ähnlich wie bei der Radeon VII (https://www.computerbase.de/forum/threads/radeon-vii-ghetto-mod-wasserkuehlung-etc-erfahrungen.1857803/) machen, wobei die Lüfter dann immer noch nicht von der MI50 gesteuert werden. Für die Lüftersteuerung muss man dann sich etwas eigenes suchen, im Idealfall mit temp. Sensor den man am Kühlkörper anbringen kann und damit dann die Lüfter steuert.
Die https://aquacomputer.de/aquaero-5.html HW kann man dafür nutzen, es gibt nur kein Linux Support und man bräuchte eine Win VM um die Konfiguration anzupassen und zu speichern. Ich selbst nutzt eine Aquaero 6 Pro um aktuell meine Lüfter zu steuern und kann auch wieder zu einer Wasserkühlung zurück, hatte da aber bisher noch nicht wieder das Bedürfnis zu.
Shink
2023-05-26, 12:47:52
Die MI50 hat erstmal keinen eigen Ausgang für Displays, nur um kein Missverständnis aufkommen zu lassen.
Ich denke schon (rechts unten).
https://gzhls.at/i/32/60/2623260-l0.jpg
Achill
2023-05-26, 14:22:31
Ich denke schon (rechts unten).
https://gzhls.at/i/32/60/2623260-l0.jpg
Ok, gibt wohl eine Variante mit mDP (https://geizhals.eu/amd-radeon-instinct-mi50-100-506194-a2623260.html) - wird bei amd.com nicht gelistet. Solange man priv. Person bestellt, kann man ja zurück schicken, den Luftstrom für den Passiv-Kühler muss man natürlich trotzdem noch lösen.
vinacis_vivids
2023-05-26, 18:27:27
Es sind beide MI50-Varianten im Umlauf. Eine hat 16GB und die andere hat 32GB.
vinacis_vivids
2023-05-27, 10:04:40
AI-Krieg hat begonnen :
AMD baut drei Varianten des MI300
MI300X - Topmodell - GPU
304 CUs in 8 Chiplets (38 X 8)
128GB / optional 192GB HBM3 RAM
MI300A - Topmodell - APU
228CUs in 6 Chiplets (38 X 6)
24 CPU Cores Zen5 (8 x 3)
128GB HBM3 RAM
MI300C - CPU
96 Genua Cores
128GB HBM3 RAM
https://youtu.be/L2KM-E9Ne84
AMD springt voll auf den AI-Zug.
basix
2023-05-27, 12:24:41
Dass es noch andere Ausgestaltungen von MI300 geben wird, war ja schon lange klar. Ist die Frage, wann das Zeugs ausserhalb von Supercomputern verfügbar sein wird. Hoffe möglichst bald (siehe Nvidias Quartalsaussichten).
Und ich hoffe, dass MI300 noch 8-12x DDR5/LPDDR5 Channel im Petto hat, was die Schlagkrätigkeit von MI300 nochmals deutlich steigern sollte. Siehe hier: https://www.forum-3dcenter.org/vbulletin/showthread.php?p=13312378#post13312378
vinacis_vivids
2023-05-27, 13:04:03
RX MI300 XTX als Grafikkarte wäre geil:
64GB VRAM
152CUs
3,0Ghz+
~116,7 Tflops fp32
von 96CU (RDNA3) auf 304CU (CDNA3) sind grob eine Verdreifachung. Lässt man fp64 bei den Gaming weg und halbiert den Speicher auf 64GB VRAM, ließe sich eine Premiumkarte fertigen.
Die GCD sind ja recht klein und versprechen eine hohe Ausbeute. Bei einer 4er GCD käme man auf 152CU, was eine Steigerung von +58%. Gerüchte bei RDNA4 sprechen von +60-70% Leistungssprung, die damit begründet sind. 3,0Ghz+ sind ja mehr als 2,6Ghz+, Was AMD derzeit baut (RDNA3).
Damit wird auch die 8K Auflösung beim Gaming greifbar.
AffenJack
2023-05-27, 13:11:54
@basix
So bald würde ich nicht erwarten, dass MI300 kommt. Am Anfang wird alles in El Capitan gehen, da man da schon zu spät ist. Sobald das passiert noch 1-2 Quartale. Ich würde auf Ende Q4 oder Anfang Q1 schätzen. Zumindest erwarte ich eine Auswirkung auf Quartalszahlen abseits von El Capitan erst in Q1 24.
Wird also stark davon abhängen, ob das ein genereller Trend zu massiv mehr Investitionen ist oder nur ein kurzfristiges Erschrecken wegen Chatgpt.
Außerdem die Frage, ob es genug Kapazitäten beim Packaging und HBM3 gibt. Nvidia dürfte gerade mal den kompletten Markt aufgekauft haben und doppelte, wenn nicht noch mehr Packaging Kapazitäten mit CoWos gebucht haben, als auch HBM3. Anders ist deren Prognose nicht zu erklären. Sind das beim Packaging konkurierende Kapazitäten mit MI300? Das ist die Frage.
Beim HBM definitiv. Die komplette Lieferkette dürfte da völlig von der Rolle sein, wenn der größte Player plötzlich solche Sprünge im Bedarf macht. Wafer sind ja weniger das Problem.
basix
2023-05-27, 13:21:42
@vinacis_vivids:
RDNA4 sehe ich momentan nicht mit einem so aufwändigen Aufbau wie bei CDNA3. Wäre mMn zu teuer für Consumer.
Irgendwann mal vielleicht schon. Wer weiss.
amdfanuwe
2023-05-27, 14:40:18
MI300X - Topmodell - GPU
304 CUs in 8 Chiplets (38 X 8)
128GB / optional 192GB HBM3 RAM
Wie Basix schon schrieb, da haben ich auch schon vor einem halbem Jahr drüber spekuliert.
Und wie kommt der auf 38 CU pro Chiplet?
Erscheint mir unsinnig. Das werden kleine ~160mm² Chiplets mit 40CU sein.
Da sollte zum einem der Yield schon mal ganz gut sein, zum anderem kann AMD entsprechend vorher selektieren. Salvage Varianten können bei kleineren Instinct Varianten verbaut werden.
Da besteht keine Notwendig generell eine CU abzuschalten.
fondness
2023-05-27, 14:49:21
Außerdem die Frage, ob es genug Kapazitäten beim Packaging und HBM3 gibt. Nvidia dürfte gerade mal den kompletten Markt aufgekauft haben und doppelte, wenn nicht noch mehr Packaging Kapazitäten mit CoWos gebucht haben, als auch HBM3. Anders ist deren Prognose nicht zu erklären. Sind das beim Packaging konkurierende Kapazitäten mit MI300? Das ist die Frage.
Beim HBM definitiv. Die komplette Lieferkette dürfte da völlig von der Rolle sein, wenn der größte Player plötzlich solche Sprünge im Bedarf macht. Wafer sind ja weniger das Problem.
Zum Glück weiß AMD nicht erst seit gestern, dass sie sowas wie MI300 in der Pipeline haben. Solche Kapazitäten werden langfristig gebucht.
AffenJack
2023-05-27, 20:39:50
Zum Glück weiß AMD nicht erst seit gestern, dass sie sowas wie MI300 in der Pipeline haben. Solche Kapazitäten werden langfristig gebucht.
Wenn sich AMD mit 300, 400 Mio $ Umsatz pro Quartal zufrieden stellt mit MI300, während Nvidia 8 Mrd $ macht mögen die Kapazitäten ausreichen, die man gebucht hat. Ansonsten muss AMD genauso wie Nvidia gucken, was man kurzfristig alles noch dazu buchen kann.
basix
2023-05-28, 09:50:24
Und wie kommt der auf 38 CU pro Chiplet?
Erscheint mir unsinnig. Das werden kleine ~160mm² Chiplets mit 40CU sein.
Da sollte zum einem der Yield schon mal ganz gut sein, zum anderem kann AMD entsprechend vorher selektieren. Salvage Varianten können bei kleineren Instinct Varianten verbaut werden.
Da besteht keine Notwendig generell eine CU abzuschalten.
38 CU machen schon Sinn: 40 CU auf dem Chiplet, auf der SKU werden aber 38 CU Salvage verbaut. Einen Vollausbau zu verbauen macht wegen den letzten 5% Performance wenig Sinn. Vermutlich sind es sogar weniger Mehrperformance als das, da Abschaltung von defekten und schlecht taktenden CU (Yield inkludiert auch Taktziele) und Ausschöpfung des TDP Limits.
Klar könnte man Salvage nur bei kleineren SKUs verbauen, doch die gibt es wohl noch eine Weile lang nicht.
amdfanuwe
2023-05-28, 13:37:28
da Abschaltung von defekten und schlecht taktenden CU (Yield inkludiert auch Taktziele) und Ausschöpfung des TDP Limits.
Klar, predige ich ja auch seit Jahren.
Da es aber mehrere Produkte mit diesem Chiplet gibt, kann AMD gut differenzieren.
Bei der MI200er Serie sind es:
-MI210 4SE x 26CU = 104CU
-MI250 2 x 4SE x 26CU = 208CU
-MI250X 4SE x 27CU + 4SE x 28CU = 220CU
Bei MI300 kommen noch APU Varianten hinzu.
Bei 1SE x 40CU pro Chiplet reichte es auch nur eine CU abzuschalten um auf bessere Takraten zu kommen.
Also ich denke, da ist alles offen. Der Yield sollte auf jeden Fall sehr gut sein.
vinacis_vivids
2023-06-07, 12:01:53
https://hackmd.io/@myelintekdoc/HkhMoxllK
AMD MI100 32GB vs NV A100 32GB vs NV V100 80GB
Resnet50 1.5 fp16-Präzision
AMD MI100 32GB: ~1600 bilder pro s
CDNA - Acturus XL 120CU
Preis: ~2900€
NV V100 32GB: ~1375 bilder pro s
Volta 80SM
Preis: ~7000€
NV A100 80GB: ~2638 bilder pro s
Ampere - 108SM
Preis: ~17.000€
4X MI100 32GB: ~6400 bilder pro s
Preis: ~11.600€
AMD MI100 32GB ist stärker und besser als NV V100 32GB.
Gegen die NV A100 80GB zieht MI100 32GB den Kürzeren, weil VRAM früher ausgeht.
Preis-Leistung ist AMD MI100 32GB top of the notch für ML fp16.
Vielleicht können Interessierte ja auch hier ML fp16 Performance testen.
mksn7
2023-06-07, 13:29:07
[...]
Preis-Leistung ist AMD MI100 32GB top of the notch für ML fp16.
Vielleicht können Interessierte ja auch hier ML fp16 Performance testen.
Und, hast du auch eingerechnet dass du für die vierfache Zahl an PCIe Karten auch viel mehr Hostsysteme brauchst? Die sind auch echt teuer!
Dann hat AMD ja auch eine Antwort auf Intel's Xeon Max HBM CPUs. Das bekommen sie bestimmt auch besser hin als Intel, die werden die 1TB/s nur knapp auslasten können. Bei single core Bandbreite ist AMD dramatisch besser als Intel, da müssen sie sich nicht so viel Sorgen machen ob sie nicht aus Versehen zuviel Bandbreite verbauen.
basix
2023-06-07, 14:04:40
Aber: Ohne zusätzliche DDR5-Channels wäre das ein wenig spassfrei bei MI300 (verglichen mit Xeon Max HBM). Hoffe sie zeigen in einer Woche auch was dazu.
mksn7
2023-06-07, 17:50:33
Aber: Ohne zusätzliche DDR5-Channels wäre das ein wenig spassfrei bei MI300 (verglichen mit Xeon Max HBM). Hoffe sie zeigen in einer Woche auch was dazu.
Stimmt, wäre sonst eher ein Nischenprodukt. Diese Konfiguration ist sicherlich nicht der Fokus des ganzen Projekts, aber ist halt technisch auch möglich.
basix
2023-06-07, 18:12:54
Ich sehe keine Punkte, die gegen eine DDR5 Integration in die Base-Tiles spricht. MI300 weist andere Notches für die Sockelcodierung auf (SH5 != SP5), auf die bestehenden Server Boards passt es also nicht. Doch weiso macht man überhaupt den Aufwand mit dem fast identischen Package, wenn man es nicht auch als Standalone Lösung mit DDR5 verwenden will, inkl. möglichst hoher Ausnutzung der restlichen Infrastruktur (Server Mainboards wenn SH5 und SP5 pinkompatibel sind, Kühlungdesigns, ...)? Wenn AMD also keine DDR5-Channels im Silizium verbaut hat: OMG! So viel Potential liegen gelassen. Die Leute bei AMD sind aber nicht auf den Kopf gefallen ;)
amdfanuwe
2023-06-07, 19:49:02
Ich denke, es geht Richtung CXL.
Compared to a DDR5 interface with 380 pins providing 32GB/s bandwidth, a CXL memory controller can provide the same or higher bandwidth utilizing x8 or x16 CXL lanes to provide 32GB/s or 64GB/s bandwidth, respectively. CXL serial-attached memory can be used to alleviate the bandwidth constraints of today’s solutions.
https://www.computeexpresslink.org/post/the-benefits-of-serial-attached-memory-with-compute-express-link
Anstatt 2 Nodes mit je 4 MI250 + 2 EPYC passen dann 4 Nodes a 4 MI300 in einen Blade. Leistung per Blade verdoppelt
84175
84180
Zossel
2023-06-07, 20:31:57
Ich denke, es geht Richtung CXL.
CXL ist ja im wesentlichen ein aufgebohrtes Protokoll was auf auf der Physik von PCIe gesprochen wird. Wie sind da eigentlich die Latenzen? Vergleichbar zu dem was man in Multi-Sockel Systemen hat?
amdfanuwe
2023-06-07, 23:12:15
Wie sind denn die Latenzen in einem HPC System mit mehreren 1000 Sockeln wenn die erste CPU auf die Daten der letzten CPU zugreifen muss?
Zossel
2023-06-08, 00:09:20
Wie sind denn die Latenzen in einem HPC System mit mehreren 1000 Sockeln wenn die erste CPU auf die Daten der letzten CPU zugreifen muss?
Gibt es so was mit einem einheitlichen virtuellen Adressraum und gleichzeitigem kohärenten Speicher?
amdfanuwe
2023-06-08, 00:34:05
:-) Wir sehen, da wo CXL ins Spiel kommt geht es um anderes als Latenz.
basix
2023-06-08, 10:39:24
Anstatt 2 Nodes mit je 4 MI250 + 2 EPYC passen dann 4 Nodes a 4 MI300 in einen Blade. Leistung per Blade verdoppelt
16x MI300 pro Blade ist ziemlich unwahrscheinlich. Die El Capitan Blades haben wie Frontier nur 8x Accelerators verbaut. 900W pro MI300 und die andere Bauform limitieren hier allenfalls etwas. 8*MI250X + 2*EPYC ziehen 5-5.5kW. 8x MI300 liegen bereits bei 7kW und bei 16x MI300 und fast 15kW pro Blade leitet man die Kerschmelze ein ;)
Dann noch die Netzwerkanbindund, die man verdoppeln müsste. Wird platzmäsdig eng.
Evtl. sehen wir mehr GPUs pro Blade, wenn AMD mal einen IF-Switch analog wie NVSwitch einführt.
amdfanuwe
2023-06-08, 11:19:59
bei 16x MI300 und fast 15kW pro Blade leitet man die Kerschmelze ein ;)
Mal gespannt, wie sich das auflöst. 900W Peak wäre schon heftig.
mksn7
2023-06-08, 11:20:43
Wie sind denn die Latenzen in einem HPC System mit mehreren 1000 Sockeln wenn die erste CPU auf die Daten der letzten CPU zugreifen muss? Gibt es so was mit einem einheitlichen virtuellen Adressraum und gleichzeitigem kohärenten Speicher?
Man hört immer mal wieder dass jemand solche rießigen shared memory system baut für sehr spezifische Zwecke, aber das sind völlige Nischensysteme. Ich weiß nicht wie lange das her ist, und ob es sowas mit einigermaßen aktuellen CPUs gibt.
Das sind dann üblicherweiße eben keine HPC Systeme, weil in dieser Welt die codes mit distributed memory umgehen können.
basix
2023-06-08, 13:04:06
Mal gespannt, wie sich das auflöst. 900W Peak wäre schon heftig.
800-900W sind im Gespräch ;)
Skysnake
2023-06-08, 15:08:27
1kW sind sicherlich nicht die Grenze. Die nächsten Jahre werden spannend.
Skysnake
2023-06-08, 15:12:20
Man hört immer mal wieder dass jemand solche rießigen shared memory system baut für sehr spezifische Zwecke, aber das sind völlige Nischensysteme. Ich weiß nicht wie lange das her ist, und ob es sowas mit einigermaßen aktuellen CPUs gibt.
Das sind dann üblicherweiße eben keine HPC Systeme, weil in dieser Welt die codes mit distributed memory umgehen können.
Genau, shared Memory war/ist bei ca 1000 Sockeln Schluss.
Es gab die SGI NUMALink Maschinen am oberen Limit.
Aktuell sind meines Wissens nach die Power 10 Mit bis zu 16 Nodes glaub die größten shared Memory Systeme die man so kaufen kann.
Die Software hat sich halt auch entwickelt.
MPI oder PGAS Sprachen ermöglichen halt auch Cluster Systeme die man auch nich viel weiter skalieren kann. 1000 Sockel sind da nicht viel. Das haben selbst kleine bis mittlere Systeme.
Skysnake
2023-06-08, 15:13:33
Gibt es so was mit einem einheitlichen virtuellen Adressraum und gleichzeitigem kohärenten Speicher?
Man hat einen Globalen Adressraum aber keine Kohärenz.
Die Latenz bewegt sich bei 1-5us
amdfanuwe
2023-06-08, 15:20:27
800-900W sind im Gespräch ;)
Ja, berechnet sich aus MI250X 560W Peak und den Angaben 8x AI Performence MI250X -> MI300 sowie 5x AI performance / Watt.
560W/5*8 = 896W
Kann sich aber auch anders auflösen:
84190
MI250 ist auf FP64 (95,7 TFLOPs)Performance ausgelegt.
Int8, Int4 (383 TOPs) sowie FP16 und bfloat16 (383 TFLOPs) deuten auf Nutzung von 16Bit als kleinste Nutzungseinheit hin.
Ich denke, die 8x AI Performance ergibt sich aus Erweiterung der Recheneinheiten für 4-Bit Operationen sowie Dual Issue Ausbau.
Dann sind wir bei 8 x Int4 Performance.
Bei 500W bzw. 560W Peak erreicht MI300 5x383= 1915 TOPs INT4 AI Performance.
Wie hoch letztendlich der Takt und der Verbrauch werden lässt sich noch nicht sagen.
basix
2023-06-08, 19:08:53
Auf AMD Folien steht explizit FLOPS. Und es wird mit FP8 mit 2x Sparsity gerechnet ;) Siehe Fussnote MI300-04:
https://www.nextplatform.com/2023/05/08/ai-hype-will-drive-datacenter-gpu-prices-sky-high/
http://www.nextplatform.com/wp-content/uploads/2023/05/amd-mi300-claims.jpg
"Delivered FLOPS":
MI250X = 306.4 TFLOPS (FP16)
MI300A = 2507 TFLOPS (FP8 + Structural Sparsity)
Bei MI300A wird das also auf eine Rohleistung von ca. 3000...3200 TFLOPS FP8 inkl. 2x Sparsity hinauslaufen. H100 liefert bei selben Bedingungen 3958 TFLOPS. MI300 mit 4x GPU Tiles würde aber wohl bei ebenfalls 4000 TFLOPS landen.
Ach ja, dort steht ja sogar 850W für MI300A in den Fussnoten ;)
amdfanuwe
2023-06-08, 19:33:54
Danke, die hatte ich noch nicht gesehen.
amdfanuwe
2023-06-08, 20:02:21
sorry, war Unsinn.
amdfanuwe
2023-06-12, 20:12:03
Von Semianalysis gibt es einen neuen Artikel zu MI300
https://www.semianalysis.com/p/amd-mi300-taming-the-hype-ai-performance?utm_source=substack&utm_medium=email
Zum Base Die:
This is a chiplet called Elk Range and is ~370mm2 in size manufactured on TSMC’s N6 process technology. The chip houses 2 HBM memory controllers, 64MB of Memory Attached Last Level (MALL) Infinity Cache, 3 of the latest generation video decode engines, 36 lanes of xGMI/PCIe/CXL, as well as AMD’s network on chip (NOC).
Für das was da aufgezählt ist, erscheinen mir 370mm² ziemlich viel.
anscheinend keine DDR5-Controller?
basix
2023-06-12, 22:00:37
anscheinend keine DDR5-Controller?
Vielleicht wissen sie das nur noch nicht ;)
Alternative: CXL Attached Memory
https://www.servethehome.com/compute-express-link-cxl-latency-how-much-is-added-at-hc34/
https://www.servethehome.com/wp-content/uploads/2022/08/HC34-Compute-Express-Link-CXL-Stack-Latencies-Cover.jpg
Unterschied:
170-250ns anstatt 80-140ns Latenz. Je nach System und bei GPU / CDNA only ist das gut genug. Für eine CPU ist es relativ viel.
vinacis_vivids
2023-06-12, 22:04:31
Die 38CU pro Chiplet von AdoredTV haben sich bestätigt inkl. der 40CU physisch vorhandenen.
8 X 38CU = 304CU für MI300 GPU
6 X 38CU = 228CU + 24CPU-C für MI300A APU
192 CPU-Cores für MI300C
@Pirx
Wozu DDR5 wenn man bereits ~5,7 TB/s durch HBM hat?
DDR5 6000 Octa-Channel bringt 280GB/s lesen und 205GB/s schreiben. Da ist HBM eine ganz ganz andere Liga. Selbst die erhöhte Kapazität von DDR5 6000 im Octa-Channel mit 64GB Modulen bei 512GB RAM bringt nicht viel, wenn viel Bandbreite statt nur Kapazität gebraucht wird.
Desktop DDR5 6000 Dual Channel sind wir bei ~81GB/s lesen und 55,6GB/s schreiben. Das ist recht mickrig im Vergleich zum MI300.
fondness
2023-06-12, 22:10:49
Auf AMD Folien steht explizit FLOPS. Und es wird mit FP8 mit 2x Sparsity gerechnet ;) Siehe Fussnote MI300-04:
https://www.nextplatform.com/2023/05/08/ai-hype-will-drive-datacenter-gpu-prices-sky-high/
http://www.nextplatform.com/wp-content/uploads/2023/05/amd-mi300-claims.jpg
"Delivered FLOPS":
MI250X = 306.4 TFLOPS (FP16)
MI300A = 2507 TFLOPS (FP8 + Structural Sparsity)
Bei MI300A wird das also auf eine Rohleistung von ca. 3000...3200 TFLOPS FP8 inkl. 2x Sparsity hinauslaufen. H100 liefert bei selben Bedingungen 3958 TFLOPS. MI300 mit 4x GPU Tiles würde aber wohl bei ebenfalls 4000 TFLOPS landen.
Ach ja, dort steht ja sogar 850W für MI300A in den Fussnoten ;)
Finde ich relativ schwach dafür, dass H100 ein Single die ist und AMD hier ein absolutes Monster baut.
amdfanuwe
2023-06-13, 00:03:41
Finde ich relativ schwach dafür, dass H100 ein Single die ist und AMD hier ein absolutes Monster baut.
Und das Single Die ist kein Monster und verbrät bis zu 700W?
Ohne Sparsity bringt H100 auch nur 2000 TFLOPs FP8.
What is dense and sparse features?
The features of a dataset can be sparse or dense. If the data stored for a particular feature contains mostly zeroes, it is referred to as a sparse feature. If the feature is populated mostly with non-zero values, it is dense. Most machine learning algorithms are developed for dense features.
Also mal sehen, wie die 2500 TFLOPs FP8 bei MI300 zu verstehen sind.
Ich denke, die schenken sich beide nichts und es kommt auf den Anwendungsfall an, wer die Nase vorn hat.
(Softwaremäßig sowieso Nvidia mit CUDA)
amdfanuwe
2023-06-13, 00:22:29
Die 38CU pro Chiplet von AdoredTV haben sich bestätigt inkl. der 40CU physisch vorhandenen.
Als bestätigt seh ich das erst, wenn es offiziell von AMD die Spezifikationen gibt.
Die 40CU konnte man schon von den Bildern abzählen.
Bei kleinen Chiplets ist der Yield gut und bei mehreren Modellen kann AMD auch gut selektieren. Wegen ein paar MHz mehr 2 CU abschalten? Ob es das bringt?
basix
2023-06-13, 06:47:24
Also mal sehen, wie die 2500 TFLOPs FP8 bei MI300 zu verstehen sind.
Ich denke, die schenken sich beide nichts und es kommt auf den Anwendungsfall an, wer die Nase vorn hat.
(Softwaremäßig sowieso Nvidia mit CUDA)
MI300 hat anscheinend ~80% der Rohleistung von H100. Die 3x MALL (256MB vs. 80\96MB) und die +1.7x HBM-Bandbreite werden bei vielen AI Workloads aber helfen, die Leistung besser auf den Boden zu bringen.
fondness
2023-06-13, 18:05:42
Um 19 Uhr sollte was kommen
https://www.youtube.com/live/l3pe_qx95E0?feature=share
fondness
2023-06-13, 20:22:51
MI300X wurde offiziell vorgestellt, mit 2 zusätzlichen gpu Chiplets und 192 GB hbm3. 153 Milliarden Transistoren. AMD scheint CPU und gpu Chiplets völlig frei austauschen zu können.
AMD Instinct Plattform mit 8x MI300X. Q4 verfügbar, sampling Anfang Q3. MI300A sampling Anfang Q2.
Troyan
2023-06-13, 20:33:47
Fünf Minuten für CDNA3. Machen die gerade Pause?! Habe ich die Specs verpasst?!
Als einzige Indikation zur Performance das absurd langsame Falcon-40b LLM zu nehmen ist vielleicht nicht die beste Idee gewesen.
Und die Software-Seite war zwar mehr als nichts, aber auch nicht besonders überzeugend. Einfach "proven" auf die Folien zu schreiben überzeugt nicht, wenn man mal den Issue tracker von rocm auf macht.
mocad_tom
2023-06-13, 21:42:30
dem ganzen soc (MI300X) so viel memory-BW zu geben, dann aber nur so wenig interconnect-BW(896gbit/s) zu geben ist nicht besonders klug.
Bei gaudi2, was ein viel schwächerer chip ist, packt man 2400gbit/s interconnect-BW rein, dafür hat man bei 64Gaudi2 einen scaling factor von 92% (also 8 nodes mit je 8 Gaudi2).
Amd hat heute gezeigt, dass sie etwas in einer GPU laufen lassen können.
Ich habe mich 2021 bei der Vorstellung von Ponte Vecchio immer gefragt, wieso Intel so auf den Interconnects in PV und in Gaudi rumreiten.
Gleiche mit Hopper - der proprietäre NVLink ist der Enabler.
Aurora soll AI training machen, bei Frontier kein Wort darüber.
basix
2023-06-13, 21:47:28
Du hast dich verrechnet ;)
Gaudi 2 HL-225H = 24 * 100 Gbit/s = 300GByte/s
AMD MI300X: 896 GByte/s
davidzo
2023-06-13, 22:37:33
Was ist denn mit den 4.3TB/s aus dem Semianalysis Artikel gemeint? Das soll doch angeblich die Bandbreite innerhalb des Package sein? Oder sind es nun doch nur 900gb/s zwischen den chiplets?
Das ganze wirkt erinnert ein bisschen an Aldebaran, nur sind es diesmal nicht 2x GPUs auf einem package sondern 6x oder gar 8x. Hoffen wir mal dass auch die Bandbreite gestiegen ist, sonst wird das schwer das so zu programmieren dass es gut skaliert.
Grace Hopper hat auch 900gb/s zwischen GPU und CPU.
Zossel
2023-06-14, 07:01:07
Was für Zugriffs-pattern hat den typisches AI-Zeug?
mocad_tom
2023-06-14, 11:54:16
Vieles von dem gesummse was NVidia auch auf ihren Marketing-Folien rausposaunen sind teils Fantasie-Nummern.
Bei Nvidia werden aus 6,25Gbyte unidirektional dann am Ende 12,5GByte "kumuliert"(spüren die sich überhaupt noch).
Im Endeffekt kann AMD nur etwas bauen, was in der OAM-Spec 2.0 steht(ab Seite 55 wird es interessant):
https://www.opencompute.org/documents/oai-oam-base-specification-r2-0-v0-75-2-pdf
Und in der Spec können sie nicht mehr noch mehr Leiterbahnen auf das Board setzen, sondern müssen mit Optics untereinander zusätzlich vernetzen. In den Leiterbahnen geht nur QSFP-DD
Hier in diesem Beitrag:
Unter der Überschrift "Revving Up Transformer Engine"
https://blogs.nvidia.com/blog/2022/03/22/h100-transformer-engine/
Hier tritt A100 fast auf der Stelle, bei der Verwendung von 8000 GPU und H100 bleibt effizient.
Deshalb ist der eine Kostenpunkt das Beschaffen der GPU und der andere Kostenpunkt das Beschaffen von Netzwerkswitches (oder etwas proprietäres -> NVSwitch).
Bei Habana Gaudi2 gibt es Zahlen bis 128 Nodes und da ist man bei einer Effizienz von 82%.
https://aws.amazon.com/de/blogs/machine-learning/accelerate-pytorch-with-deepspeed-to-train-large-language-models-with-intel-habana-gaudi-based-dl1-ec2-instances/
Man will mit Aurora 1000 Milliarden Parameter trainieren - und man dreht aber nicht an der Rohperformance sondern an der Interconnect-Performance auf der GPU-Seite.
Und dann muss man viel optimieren.
Aus der Habana-Erfahrung heraus hat Intel Link-Chips, die RoCEv2 können und dann hängt man diese Chips an Switches, die das auch beherrschen.
Und die NVLinks haben unidirektional viel Schmackes sind dann aber auf richtig starke proprietäre Switches angewiesen.
Habana könnte z.B. auch ein Broadcast an mehrere Teilnehmer gleichzeitg machen (ich weiß nur nicht, ob das bei Deepspeed einen Vorteil bringen würde).
davidzo
2023-06-14, 12:37:01
Hm, 8x Mi250X Leistung im Training dürfte auf 3Pflops Int8/FP8 hinauslaufen. Mi250X hatte ja eine besondere Schwäche bei low precision, also tippe ich dass das AMD Marketing FP8 gemeint hat. Das könnte eine Vervierfachung der FP8/Int8 Leistung sein plus 1,37x CUs und 1,45x Takt.
H100 hat hier allerdings schon 4Pflops und den gibt es auch mit 8fach Carrier boards. Ponte Vecchio hat nur 1.6Pflops FP8/Int8, dafür aber viel mehr cache und Off-Chip Bandbreite. Mi-300 scheint dazwischen zu liegen.
Nvidia scheint die Speichermenge zur Marktsegmentierung zu benutzen. Indem man den Speicher knapp hält lässt man sich Hintertüren für Aufpreise und den Nachfolger auf. Ganz ähnlich wie im Desktop übrigens. Ich kenne einige LLM Forscher und da sind die 3060 und 3090 die beliebtesten Karten, nicht die neuen 4000er Mit den hohen Marktanteilen kann Nvidia sich das auch leisten, nicht aber Intel und AMD.
Mi-300A verstehe ich. Man bekommt in einem Node 192 CPU-Kerne mit 1TB unified HBM2e Memory und 500-600 Tflop/s DP Leistung. Intel bekommt im selben Format (Aurora nodes) lediglich 120 Kerne, 6x GPUs mit 768gb+128gb non unified memory und ca. 300Tflop DP hin, bei vermutlich ähnlichem Verbrauch und schafft es weiterhin nicht zu liefern. Nvidia ist bei HPC fast um eine ganze Generation abgehängt. Der Grace Hopper superchip erreicht mit seinem riesigen Package/PCB nicht annähernd vergleichbare density bei nur 2x GPU+CPU nodes pro Rack, mit 2x 1KW nicht die Effizienz und hat keinen einheitlichen memory pool und verliert mit 30Tflops ohne Tensorcores (60 mit) auch den DP-Leistungsvergleich pro GPU deutlich.
Aber Mi300X sieht mir nicht nach einem ausreichenden Vorsprung gegenüber Hopper aus als dass die LLM-Leute den Vendor wechseln würden. Müsste also billiger sein oder besser lieferbar. Aber wenn die erst Ende des Jahres in Produktion gehen, dann kann man sich auch in die Hopper Warteliste einreihen.
basix
2023-06-14, 13:11:22
Aber Mi300X sieht mir nicht nach einem ausreichenden Vorsprung gegenüber Hopper aus als das die LLM-Leute den Vendor wechseln würden. Müsste also billiger sein oder besser lieferbar. Aber wenn die erst Ende des Jahres in Produktion gehen, dann kann man sich auch in die Hopper Warteliste einreihen.
Die H100 Warteliste beträgt anscheinend 40 Wochen. Kann AMD liefern, wäre das bereits ein grosser Bonuspunkt. Und liefert man annhähernd vergleichbare Performance (HW + SW) dann sehe ich keinen Grund, wieso das grössere Player nicht mit AMD versuchen sollten.
y33H@
2023-06-14, 13:18:00
Lead Time sind 30-40 Wochen, kommt halt drauf an ^^
davidzo
2023-06-14, 13:30:46
Die H100 Warteliste beträgt anscheinend 40 Wochen. Kann AMD liefern, wäre das bereits ein grosser Bonuspunkt. Und liefert man annhähernd vergleichbare Performance (HW + SW) dann sehe ich keinen Grund, wieso das grössere Player nicht mit AMD versuchen sollten.
AMD liefert aktuell schon erste Mi-300A, aber anscheinend auch nur an HPC-Partner bzw. Großkunden (El Capitan?). Der für AI interessantere Mi-300X soll erst Ende des Jahres in Produktion gehen. Vermutlich weil die Packaging- Fertigungsstraße noch für Mi-300A gebraucht wird. Das klingt sehr nach Verfügbarkeit erst in Q1-2, vorrausgesetzt alles läuft glatt bei AMD und es gibt keine unvorhergesehenen Verzögerungen. Das wäre also nicht besser als auf Hopper zu warten, in Q2-3 hat man dann garantiert welche wenn man jetzt bestellt.
basix
2023-06-14, 15:51:34
MI300X ist anscheinend +1Q später als MI300A dran. Und AMD kann das Spiel hinsichtlich zuerst Belieferung von HPC, Grosskunden/Hyperscaler auch mit MI300X spielen. 15-20w wären hier <30-40w bei H100. Für eine öffentliche Verfügbarkeit reicht das natürlich noch lange nicht
Du, wäre AMD 1-2Q früher dran mit MI300 wäre das natürlich deutlich besser. Nvidia hat hier richtiges Glück, dass H100 & Grace vor kurzem in HVM gingen.
fondness
2023-12-06, 17:58:03
Heute um 19 Uhr wird die MI300 höchstwahrscheinlich vorgestellt:
https://www.youtube.com/watch?v=tfSZqjxsr0M
Seh ich das richtig? MI300A verwendet 3 ganz stinknormale Zen4-CCDs?
Edit: steht im Foliensatz schwarz auf weiss, es ist ein stinknormales Zen4 CCD. Die können ernsthaft auf das IOD gestapelt werden.
Auch geil, einen kleinen 5nm und einen etwas größeren 6nm-Chip entwickeln und so ein Monster daraus bauen...
fondness
2023-12-06, 21:50:58
Das ding ist schlicht revolutionär
https://www.computerbase.de/2023-12/amd-mi300a-mi300x/
basix
2023-12-06, 22:29:48
Das IOD ist wirklich interessant. Ist das selbe für CPUs wie auch die CDNA Chiplets. Einfach mit mehreren "Andock-Punkten" für die jeweils passenden TSVs.
Edit:
Sehr interessant. AMD öffnet Infinity Fabric "to innovators and strategic partners"
https://youtu.be/tfSZqjxsr0M?t=5255
153 Milliarden Transistoren für die MI300X ....
amdfanuwe
2023-12-07, 00:53:43
256MB = 4x64MB finde ich nun nicht sehr viel.
Sind pro MC grad mal 2MB bzw. pro HBM 32MB.
Da frag ich mich, warum ein Base Die 377mm² groß ist.
Das 64MB V-Cache Chiplet beim X3D misst ~40mm².
Die HBM Interfaces sind nicht die größten und 16PCIe + 16 Infinity Fabrik Links sollten auch nicht den meisten Platz beanspruchen.
Wenn man sich da ansieht, was im ~400mm² EPYC IOD untergebracht ist...
Wäre jetzt mal interessant zu erfahren, wie gut der Yield durch das Hybrid Bonding ausfällt und wie die Kosten im Vergleich zu Fan-Out Package (N31/N32) und IF on Package (EPYC) sind.
vinacis_vivids
2023-12-07, 04:13:57
Zwei Dinger von Denen am Desktop würden mich glatt glücklich machen.
Eine MI300X-Karte mit GPU-Cores zum Zocken und die MI300A für Compute, KI usw. Eigentlich darf es nicht sein, dass der Abstand vom PC zu HPC so groß ist wenn man RDNA3 und CDNA3 vergleicht.
Die ganze CDNA3 Technologie sollte AMD auch fürs Gaming freischalten.
auch brutale FP32 und FP64-Leistung, doppelt so viel wie GH200
Interessant wäre, ob und wann/wie sehr der gemeinsame Speicher von CPU/GPU bei MI300A in der Praxis Vorteile bringt.
Loeschzwerg
2023-12-07, 07:54:39
Ein abartig geiler Hardware-Porno den AMD hier präsentiert hat =) Jetzt bin ich nur gespannt ob sich auch verstärkt an der Softwarelandschaft etwas tut, denn CUDA ist gefühlt allgegenwärtig.
CrazyIvan
2023-12-07, 08:27:14
Schade ist eigentlich nur, dass man genau so wie nV auf einen gigantischen CoWoS Interposer setzt und damit am selben Kapazitäts-Tropf hängt.
Angeblich wurde ursprünglich mit EFB oder InFO-RDL geplant. Anscheinend bekam man aber die unterschiedlichen thermischen Ausdehnungseigenschaften wohl nicht in den Griff. Das wäre auch aus Kostensicht sicher ein großer Wurf gewesen.
robbitop
2023-12-07, 09:15:15
Wahnsinn! Ich sehe mit dem Packaging auch Konfiguration für GPUs und CPUs.
Dank der hohen Nachfrage und wie gut MI300 aussieht wird AMD sicherlich gute Chancen haben ein ordentliches Stück vom lukrativen AI Kuchen abzubekommen.
Wenn AMD immer schön dran bleibt und iterativ nachlegt, kann AMD ihren Erfolg (der ja mit Zen angefangen hat nach einer langen Dürreperiode) wohl festigen. Bedeutet: hohe Chance für länger fristig ausbleibendes Monopol in den anderen Sparten. :)
Schade ist eigentlich nur, dass man genau so wie nV auf einen gigantischen CoWoS Interposer setzt und damit am selben Kapazitäts-Tropf hängt.
Angeblich wurde ursprünglich mit EFB oder InFO-RDL geplant. Anscheinend bekam man aber die unterschiedlichen thermischen Ausdehnungseigenschaften wohl nicht in den Griff. Das wäre auch aus Kostensicht sicher ein großer Wurf gewesen.
Ggf. ist das noch die notwendige Schlüsseltechnologie um so eine Konfiguration in den Mainstream Markt (CPU/GPU) zu bringen. Bei HPC kann man es sich auch so leisten ^^
Andererseits: sind SI Interposer denn noch so teuer? Die können ja auf relativ alten/günstigen Prozessen gebaut werden. Geht ja nur um Interconnect.
Pfuscher
2023-12-07, 09:56:33
Wie sieht ihr die Mi300 eingeordnet zu H100, H200, B100?
Wenn man das jeweilige Release Datum beachtet?
robbitop
2023-12-07, 10:26:12
Zumindest ist man damit anscheinend konkurrenzfähig. H200 (ist ja noch relativ frisch) scheint ähnlich stark zu sein und H100 besiegt man. Ich bin ehrlich gesagt positiv überrascht.
AffenJack
2023-12-07, 10:44:02
Beeindruckend von der Technologie, dem Zusammenschluss und Packaging. Auch sehr flexibel.
Benchmarks extrem gemischt. Z.B OpenFoam extrem gut, Rest HPC angesichts der Rohleistung, Banbreite und Cache enttäuschend, dass man in Gromacs und HPCG sich nicht deutlich von H100 absetzen kann. Training ist mittelmäßig, dass man im Best Case gerade so an H100 rankommt. Ai sieht Inference gut aus, aber an sich auch schwierig einzuschätzen, weil immer viel Cherrypicked ist und man nicht weiß, wieviel dann an dem Zuwachs der Bandbreite und größeren RAM bedingt ist und an der Auswahl, wo das vielleicht der Hauptausschlagspunkt ist. Da wird es gegen H200 dann interessant.
Ich würde schätzen, man liegt insgesamt etwa auf H200 Level. Architektonisch muss man da mit der nächsten Gen einiges bringen, weil man massiv hinten liegt. Man erschlägt es diese Gen mit der 2fachen Menge an Silizium und innovativen Packagingtechnologie. Semianalysis schätzt die Produktionskosten auch auf 2xHopper.
Zu B100 weiß man nix, bringt daher nix dazu zu spekulieren. Desto mehr Nvidia auf Chiplets/Packagingentwicklung gegangen ist, desto größer wird der Abstand zu AMD werden, falls man ähnlich große Chipflächen benutzt.
Troyan
2023-12-07, 10:54:56
Also Inference ist doch mehr als eindeutig. MI300X ist laut AMD 1,2x schneller als H100 in Llama 70B. nVidia gibt für H200 1,9x mehr Leistung gegenüber H100 an.
Blackwell ist auch schon klar. nVidia hat doch ihre Erwartungshaltung vor ein paar Wochen präsentiert:
https://www.nvidia.com/content/nvidiaGDC/us/en_US/data-center/h200/_jcr_content/root/responsivegrid/nv_container_295843192/nv_image.coreimg.svg/1699701486334/performance-gains-chart.svg
fondness
2023-12-07, 11:09:15
Beeindruckend von der Technologie, dem Zusammenschluss und Packaging. Auch sehr flexibel.
Benchmarks extrem gemischt. Z.B OpenFoam extrem gut, Rest HPC angesichts der Rohleistung, Banbreite und Cache enttäuschend, dass man in Gromacs und HPCG sich nicht deutlich von H100 absetzen kann. Training ist mittelmäßig, dass man im Best Case gerade so an H100 rankommt. Ai sieht Inference gut aus, aber an sich auch schwierig einzuschätzen, weil immer viel Cherrypicked ist und man nicht weiß, wieviel dann an dem Zuwachs der Bandbreite und größeren RAM bedingt ist und an der Auswahl, wo das vielleicht der Hauptausschlagspunkt ist. Da wird es gegen H200 dann interessant.
Ich würde schätzen, man liegt insgesamt etwa auf H200 Level. Architektonisch muss man da mit der nächsten Gen einiges bringen, weil man massiv hinten liegt. Man erschlägt es diese Gen mit der 2fachen Menge an Silizium und innovativen Packagingtechnologie. Semianalysis schätzt die Produktionskosten auch auf 2xHopper.
Zu B100 weiß man nix, bringt daher nix dazu zu spekulieren. Desto mehr Nvidia auf Chiplets/Packagingentwicklung gegangen ist, desto größer wird der Abstand zu AMD werden, falls man ähnlich große Chipflächen benutzt.
Ziemlich einseitige Betrachtung. Das Ding liefert mal eben die doppelte(!) FP32 & FP64 Leistung (bei der selben TDP). Das kostet massiv Transistoren und ist für AI nicht relevant sondern nur für HPC.
Bei AI war AMD bisher im nirgendwo, hier ist man zumindest mal konkurrenzfähig. Zudem ist man technologisch überlegen, OpenFoam zeigt vermutlich ansatzweise was möglich ist mit echtem unified memory. Viele andere Anwendungen bedürfen hier sicherlich einer Anpassung um ähnliche Effekte zu zeigen.
amdfanuwe
2023-12-07, 11:14:47
Seh ich so: Mit MI300 hat AMD erst mal einen dicken Fuß in der Tür. Muss sich jetzt zeigen, ob sie die Versprechen erfüllt, Lieferbarkeit und Haltbarkeit vorhanden sind.
CDNA 3 sieht für mich nach einem HPC Chip aus, dem man noch ein paar Datentypen für AI beigebracht hat.
Wesentlich scheint mir aber die Plattform zu sein. Da scheint mir MI300 der erste Wurf ähnlich damals ZEN2 ROME zu sein.
Was hindert AMD nun daran, auf AI optimierte (NPU) Chiplets auf die Base Dies zu setzen oder Kunden Chiplets?
Diese Flexibilität, dieses "LEGO" System, muss Nvidia erstmal erreichen.
Ob es für AMD aufgeht? Wir werden es sehen.
Troyan
2023-12-07, 11:15:35
Ziemlich einseitige Betrachtung. Das Ding liefert mal eben die doppelte(!) FP32 & FP64 Leistung (bei der selben TDP). Das kostet massiv Transistoren und ist für AI nicht relevant sondern nur für HPC.
Es liefert 20% Mehrleistung gegenüber H100:
https://pics.computerbase.de/1/1/0/2/8/6-068e2d536c72f847/31-2160.4527e721.png
fondness
2023-12-07, 11:20:05
Es liefert 20% Mehrleistung gegenüber H100:
https://pics.computerbase.de/1/1/0/2/8/6-068e2d536c72f847/31-2160.4527e721.png
Erstens ist das die MI300A-APU inkl CPU @ nur 550W. Die MI300X hat wesentlich mehr Compute-Power, besondern mit 750W. Zweitens weiß niemand was da jetzt konkret limitiert.
AffenJack
2023-12-07, 11:20:50
Ziemlich einseitige Betrachtung. Das Ding liefert mal eben die doppelte(!) FP32 & FP64 Leistung (bei der selben TDP). Das kostet massiv Transistoren und ist für AI nicht relevant sondern nur für HPC.
Bei AI war AMD bisher im nirgendwo, hier ist man zumindest mal konkurrenzfähig. Zudem ist man technologisch überlegen, OpenFoam zeigt vermutlich ansatzweise was möglich ist mit echtem unified memory. Viele andere Anwednungen bedürfen hier sicherlich einer Anpassung um ähnliche Effekte zu zeigen.
Doppelte theorethische FP64 interessiert niemanden, wenn sie sogut wie nie nutzbar ist. Man zeigt mit OpenFoam ein Beispiel, wo das geht. Aber ebenso drei Beispiele wo kaum was davon ankommt. Mi250X war angeblich auch schon schneller in FP64 als H100, nun haben wir die hier drei Benches mit gerade mal 1,1-1,2x der Performance von H100 bei Mi300A, was praktisch bedeutet, dass Mit250X deutlich langsamer war.
mksn7
2023-12-07, 11:21:37
Wenn man den simplen CU/SM Vergleich macht, dann ist ein MI300X mit 304 CUs doppelt so groß wie ein H200 mit 132 SMs. Dafür gibt es dann noch etwas mehr Speicherbandbreite.
Bei der Rohleistung nicht besser zu sein, wäre schon schlecht. Die 256 MB Cache sind nett! Bringt aber nur was, wenn die Bandbreite im Vergleich zum DRAM auch tatsächlich signifikant höher ist. Eine Methode, an der ich gerade arbeite, die mit viel cache auf GPUs überhaupt erst sinnvoll ist, braucht aber auch einen möglichst kleinen kernel startup overhead bzw. schnelle thread synchronisation. Ich hoffe das haben sie richtig hinbekommen, sonst bringt uns der cache nichts.
Am meisten gespannt bin ich auf die Architekturänderungen in den CUs. Das wenige was genannt wurde, lässt doch auf Änderungen schließen. Der L1 cache wurde verdoppelt, von extrem kümmerlichen 16kB auf kümmerliche 32kB. Das ist immer noch viel zu wenig, aber wenigstens haben sie den jetzt endlich mal angefasst, vorher haben sie seit dem Ur GCN von 2011 nix mehr dran gemacht. Insbesondere die Tatsache, dass es nur für 4 Byte loads (single precision) einen fast path für address generation gibt und 8 Byte loads (also double precision oder float2) immer durch die TMU müssen, die maximal 4 lanes pro Takt bearbeiten kann und damit den Durchsatz auf 32B/Takt begrenzt, ist total lächerlich. Der L1 kann eigentlich 64B/Takt, aber nicht für double precision, da geht nur 32B/Takt. Total lächerlich für so ein DP Monster das sie mit der MI250 gebaut haben. Im Vergleich: Seit Volta gibt es bei NVIDIA 128B/Takt. Auf den Folien steht nebulös: "optimized for Byte/Flop". Ja hoffentlich! Für was denn sonst? Wenn da keine L1 cache Durchsatzerhöhung bei rumkommt, krieg ich echt die Krise.
Weiterhin spannend ist das was sie da als das neue dual issue für INT/FP32 angegeben haben. Das kann ja nicht packed FP32 sein, weil das gab es bei MI210 auch schon. Ich frage mich, wie sie das in das scheduling von GCN reinbekommen haben. Deutet ja an, dass sie da auch mal was verändert haben.
CrazyIvan
2023-12-07, 11:24:02
Wahnsinn! Ich sehe mit dem Packaging auch Konfiguration für GPUs und CPUs.
Dank der hohen Nachfrage und wie gut MI300 aussieht wird AMD sicherlich gute Chancen haben ein ordentliches Stück vom lukrativen AI Kuchen abzubekommen.
Wenn AMD immer schön dran bleibt und iterativ nachlegt, kann AMD ihren Erfolg (der ja mit Zen angefangen hat nach einer langen Dürreperiode) wohl festigen. Bedeutet: hohe Chance für länger fristig ausbleibendes Monopol in den anderen Sparten. :)
Ggf. ist das noch die notwendige Schlüsseltechnologie um so eine Konfiguration in den Mainstream Markt (CPU/GPU) zu bringen. Bei HPC kann man es sich auch so leisten ^^
Andererseits: sind SI Interposer denn noch so teuer? Die können ja auf relativ alten/günstigen Prozessen gebaut werden. Geht ja nur um Interconnect.
Teuer wird Interposer selbst nicht sein, aber die Packaging Kapazitäten sind vor allem bei der Größe wohl sehr knapp - hatte TSMC ja auch selbst kürzlich bestätigt.
Und Packaging-Yield ist bei wo vielen Chiplets bestimmt auch ein Thema, da alles in einem Rutsch passen muss.
fondness
2023-12-07, 11:29:36
Doppelte theorethische FP64 interessiert niemanden, wenn sie sogut wie nie nutzbar ist. Man zeigt mit OpenFoam ein Beispiel, wo das geht. Aber ebenso drei Beispiele wo kaum was davon ankommt. Mi250X war angeblich auch schon schneller in FP64 als H100, nun haben wir die hier drei Benches mit gerade mal 1,1-1,2x der Performance von H100 bei Mi300A, was praktisch bedeutet, dass Mit250X deutlich langsamer war.
Bei OpenFoam ist man weit über der theoretischen Mehrleistung. Hier ist also bei Nvidia die "Leistung so gut wie nie nutzbar" um bei deinem Jargon zu bleiben. Ansonsten kann bei den benchs alles mögliche limitieren, es muss nicht immer die Rechenleistung sein. Ebenso ist bekannt, wie viel man bei solchen Benchs über die Software holen kann und das Ding ist noch nichtmal am Markt, da geht also mit Sicherheit noch einiges.
robbitop
2023-12-07, 11:30:05
Aber das würde beides ja auch gelten für COWOS / INFO-LSI / EMIB oder?
Unterschied ist, dass man mehr Silizium für die Interposervariante benötigt - wo ein großer Teil bei erstem nur organisches Substrat wäre.
Das Gute an der jetzigen AI Situation ist: Die Nachfrage ist viel größer als das Angebot. Entsprechend wird wahrscheinlich alles, was produziert wird, auch verkauft. Und das zu einem guten Preis. Man muss sich über die nächsten Iterationen Mühe geben, dass das dann nicht der Hauptgrund für die Käufer bleibt. Denn irgendwann wird der Markt es schon Regeln, dass Angebot und Nachfrage sich wieder einpegeln und dann steht man wieder im regulären Wettbewerb.
Troyan
2023-12-07, 11:40:27
Bei OpenFoam ist man weit über der theoretischen Mehrleistung. Hier ist also bei Nvidia die "Leistung so gut wie nie nutzbar" um bei deinem Jargon zu bleiben. Ansonsten kann bei den benchs alles mögliche limitieren, es muss nicht immer die Rechenleistung sein. Ebenso ist bekannt, wie viel man bei solchen Benchs über die Software holen kann und das Ding ist noch nichtmal am Markt, da geht also mit Sicherheit noch einiges.
AMD vergleicht MI300A gegenüber H100. Grace-Hopper wird Lichtjahre schneller als MI300A sein.
Selbst nVidia gibt massive Leistungssteigerungen gegenüber H100 mit GH200 an:
https://developer-blogs.nvidia.com/wp-content/uploads/2023/05/performance-comparisons-giant-memory-ai-model-workloads.png
mksn7
2023-12-07, 11:44:52
Es gibt wohl auch neue Instruktionen. Das müsste ja eigentlich alles in den LLVM patches schon sichtbar sein, aber hier mal als Vergleich was der Effekt ist:
godbolt (https://godbolt.org/#z:OYLghAFBqd5QCxAYwPYBMCmBRdBLAF1QCcAaPECAMzwBtMA7AQwFtMQByARg9KtQYEAysib0QXACx 8BBAKoBnTAAUAHpwAMvAFYTStJg1DIAruiakl9ZATwDKjdAGFUtEywYgAzF1KOAMngMmABy7gBGmMTeA JykAA6oCoR2DC5uHt6%2Bicm2AoHBYSyR0V5xVpg2qUIETMQE6e6ePpaY1nkMNXUEBaERUbGWtfWNmS0 Kwz1BfcUDZQCUlqgmxMjsHGgMEwDUQQTbNLQEUQD6yQBemNsApF4AIttetwBC1xoAgttf3z%2B/f9%2BbHZ7bbIE5BE7xU4EBDETBMdA3e7bLgvN6ff4YjGA/bA1QQqEwuEI24PFFeV4fTFU37Y3aCOnxEwEE7IBCGYK0BSIh4ANkkqMp1KFtOBywIjOZrPZbS5JO2fIF 6KFVJF9PCtFQyAA1uducjFcrqar9gB3PDoaF6yQaGI8g2GzHG7YITB4YAIfZy622%2B0O/608KoVzbExKM5s2HEpFUMRKX1%2BmkCHaB4OhzAALSiqD1BGIJkw8aFmFUx2IDBuACYK05rlXticTsAN eExA3tgA3VDm%2BsnAwmBisk6B/voBQNiAVgCsPPmaL9WqiHOoGqYBAAVNsosQSKQDiv19tgiWTlud3OExeflR9xuTa73QQFPMbgB2CnvNG fj7nw3AgCeerqpqWoAJLoKoAB0qjbBuQHanceAsFBlbPNs0KwvCYGQaohbUriGiARq2pYRBAGwURWoIU hAEoWhhKYeBpG4VSwKgkEBFynBoGMbq5HAVREG6rR6FEiR5yKl%2BSrKngVDbBAqgERueKQsQJwifCiL YHKZoWggr41i%2BTjbABtxaUiLpuh6%2BnXIZP4JmxDCKSCYIMPiqnqVGZkPEEEosmyDAck%2BdlCrCB ArAwEmCoa16oKuHZiNck7PA5blqfR6CJXciXPMpBIYRlk5ZeSwXUvwxByaxeoaC8IKIkZKUqWl%2BU1c gtavBWzyzlFyplRV9J4NBcrVeSuyDV4Rm5e56U1QNbVtV1Ul%2Bu2CVJa1hXZbNhVVRBGhUBJFZePExB MMALBMCGDDbrQtD6t1Qq9RArEnGKVUtc9TJ1dsYq%2BVKAUym9YpzR1z42e%2BJVUg9lVDS1n0NXlRIt UDnWvu%2Bl50vsDl6g5Tlw1N%2BW0a1xXfgdR0nWdF1XbQ4M9SQfX7Nor0jQztxGYcpZnHglw1doSMg2 %2Bn4k8dp3nf2lPU/dtOPf1jOoXgn1s6cFwFiNeC8yj4sOjFcUmsxCYa4aJp6nelmPtloIvRuPlMn50qcjBBx0OzSv2wrqnO3 Nd1o0aLku47iuc1cG6uxzly0XLQd%2B27Ae0Tz61E4t1K1odQvk6LrhU57F6Q/1Y0PMNstjRNqUeTNOEdfN6uZwmuJ6gp9uTU1RJhzh8de98Wv7KeqnLTdcpd2b737BuEA6dCbUVs%2Bw8 WQ%2B48g%2BXVdtwm8lh5PcnTx6s%2B0SZHXbLHRWo4vPdm5lG04Vtc1Il3Jw9/bOut4vNlZQvicvk/CeGo/%2Bu/J/z9/D/7%2BYmzhjGWtUWbOXBI1EuI1Wrl2BpXABGIgGjRAQNT6DcoEFzVqDL%2BGIa5yjrkpYu6Vm66yFE9IIW MXI4xckQ/GbUQSKgAPSMJkhAI%2Bq0T5JU2g8EkcouAHQWn6I8zJ%2B6rR9sPUeCBN5T3vFZehE8UI4MNNBGRJtN7 0L/JlPU7DkqcOeNw0h/x/5%2BmMQ6f%2BHBFi0E4JOXgngOBaFIKgTgTg5B3E%2BDWWBqEFDLFWFcJOPBSAEE0BYxYWoQAVgABwQS 4DyCsGgpyTgiQdGIiSKz6E4JIWxwTHGcF4AoEAGhAnBMWHAWAMBEAoFQCweIdAojkEoGgaptTogIDwPE ZABgjAAFptzIBYF0ycGgXwaEKa7fJEBwjZPCEEOof5OABOmcwYgf4ADy4RtCVCCdwXgjS2CCBWQwWgcz 7G8CwOEEwwAnBiE5PM05mAzpGHECc0g%2BBYRVHbJgfJzziyVCZOsAJew2jZNoHgcIx1lkuCwNk3MiFb mLGvCdBQAA1PAmATQrMhHYgJ/BBAiDEOwKQMhBCKBUOoZ5ug0mdOMGYCwILwj5MgIsVA8QOhfK6V01AVAtboC6XUVkJJgBUFUDEa02wuk ACV4hMAUAoXlzAjnJAUCSBcZY2g9M%2BT4tYXTQwnUwLwVAHziDEHNJ8%2BAiwKhVHsBARwoxPC%2BAC NMIoJQ9A5BSAIW1LqkhuoYL0J1AxfAWo6F0EYrgmh6EDdUSYvr%2BjRADZMD1cbujRtmLG81mqCWWOsV k55TiOAgipdsXp/TJwQRfDtOSuBCC038fMXgWytDzEWC6eEAwIChO8F4CCiSuBlD5BoQZGgeQ2nSRwTJpAWAgBfCWnkXBJz ThfDELgXANDWknKQOxDjc15IKUUk5JTykQCQN9Jk9SICNJqfQYgIRWDrA6YYYAhbNTFtLTtXgmB8BEGN egPQOLhCiHEIS39JK1DZIpaQE0x14hwpHTY9d2Tc0rKZBKL6sk71GEfX0gZL6CIQBcE0y9lYvATzrcUp tRJW2ZtHbwCdFZJAQS8BEyQkgiMaAiRElJIrbRwZzbkywO760hNIGEisZavA2hXWxnkk4Yi0f4ZSzgXh s2bt4wJ/d8BD2VPw3UigZ6qkXoGK09pVKelPoGUMkZfBI7jMmc8xZszbmkDs8stZGybAOd2YwAgByjnZLORcq510 vkBKwA8ps6wHGvM2XgD5XyHE/NMMcBzgKrHPLpeCv8kLwt1uNRO7Z8KDDAGRai9FmKHO/rxQB6QQGlAgfJXoKlKAaX6FBQyttjiWWpDZRyrlK4eV8qkfcQVwqNDnQlVKmVcqxB/kVcqxcarYTeJWFqnVwA9WOMNV%2B01jLWjtFSA4BgzhQ2ZGXX4A7ybnVLukK6joCbCnXdSOd/1hKI0CGDQ0I7drCkvc6FGx1MaJDPfjR9iQX3fuFH%2B5dtNS2M0waU/qzg%2Bb70YefWWnDlbP2Ea4LW3dDayMtuiG14TJaXwRK4DEF8InScxFY0RkdY6N3w44NuwpqnSClIqee 5pp7OeXpAAwdsyBkD8K8CYXwYzKA2YcU545CyZnOfWZs9zVS9lecOcciLmBzmXOuUFu5oWnkRbwG82wM Xsnxb%2BUlwQQLUugvS5l6FOXoMIsKyitFGLGBldkBVglVXZDAbJQ43QXh9D3sa%2BYZr9KzXtdZZwXl qwBt3AUCwE4ETN0bZNa181bQotWptcD%2B1Z2/sps9bkVICaEheo6I92NO2c8/e6OX77b3q/hqBxkO1Qwk1F4u1D3xEhKOwYZzkvNIQkVOCMvw%2Bj0SK0furQdLHJG91s6QFgdseA1jc708069bBOCj/H8iCsU/guYDX2sTgQh3hCCEHJJPKeNDY/fVWr9P6vf/p90S%2BQNWA86G8LXy1ng1qB25eDq4Oxe2QleZe%2BeFepe%2BQ3e/q/%2BQabeYaAa2eABze8BNeEwDe0B2B9QLeWOgSsIro36D%2BsO3GymHAdwp%2B6%2BVwrud45U%2B%2BE %2BR%2BnaXAM%2Bz%2BmOu4eG%2Bm5UScXg2OqmeOWABO7aXAUSL4kgPIKSImUhL4L4XAU6dOcOw%2Bz OOOgmKWFYyhW6ahjapAhqyQ9gkgQAA%3D)
In rocm 5.7 gibt es schon ein gfx940 target, das für MI300 ist. In dem Link (ich hoffe man sieht das noch genauso wie bei mir) ist ein simpler convolution kernel code, und der compiler output für gfx90a (M210/CDNA2), gfx940 (MI300/CDNA3) und sm_80 (A100) zu sehen.
gfx940 hat eine v_lshl_add_u64 Instruktion, die ein shift und add kombiniert.
Merke: alles was nicht eine skalare Operation oder ein global load ist, hätte auch ein v_fmac sein können und ist damit ein verschwendeter Takt. Daher freue ich mich über kompaktere Addressberechnungen, weil da war AMD schon immer schlechter als NVIDIA.
Ich zähle 49 zu 28 zu 11 vektor address/loop instructions, für gfx90a, gfx940 und sm_80. NVIDIA spart sich da viele explizite Berechnungen über offsets in den load instructions. Das kann die GCN ISA prinzipiell auch, aber der compiler machts irgendwie nicht.
mksn7
2023-12-07, 11:49:48
AMD vergleicht MI300A gegenüber H100. Grace-Hopper wird Lichtjahre schneller als MI300A sein.
Selbst nVidia gibt massive Leistungssteigerungen gegenüber H100 mit GH200 an:
https://developer-blogs.nvidia.com/wp-content/uploads/2023/05/performance-comparisons-giant-memory-ai-model-workloads.png
Da werden aber auch ganze Systeme verglichen (insbesondere mit dem NVLINK switch), also kann man jetzt auf keinen Fall hingehen und in den AMD Folien einfach noch den Balken der NVIDIA Folie mit dazumalen, normiert auf die H100 Balken.
Beide Folien sind relativ nutzlos, da extremes cherry picking. AMD muss ja auch gar nicht besser sein. Nur nicht allzu viel schlechter, bei NVIDIA's Preisen und der Nachfrage kann man trotzdem noch einiges zu guter Marge verkaufen.
Troyan
2023-12-07, 12:05:03
Da werden aber auch ganze Systeme verglichen (insbesondere mit dem NVLINK switch), also kann man jetzt auf keinen Fall hingehen und in den AMD Folien einfach noch den Balken der NVIDIA Folie mit dazumalen, normiert auf die H100 Balken.
Beide Folien sind relativ nutzlos, da extremes cherry picking. AMD muss ja auch gar nicht besser sein. Nur nicht allzu viel schlechter, bei NVIDIA's Preisen und der Nachfrage kann man trotzdem noch einiges zu guter Marge verkaufen.
AMD gibt nur die 2x Effizienz zu GH200 bei theoretischer Leistung an, ist aber angeblich 4x schneller in diesem einen Test. Offensichtlich ist die Leistungssteigerung nicht GPU relevant.
nVidia hat aber selbst zu OpenFOAM was geschrieben - Seite 29f:
https://resources.nvidia.com/en-us-dgx-gh200/nvidia-dgx-gh200-blog-1
Das ist zu 85% ein CPU-Benchmark. Also ziemlich offensichtlich, dass MI300A hier einen massiven Vorteil gegenüber H100 hat.
Gipsel
2023-12-07, 13:05:02
Selbst nVidia gibt massive Leistungssteigerungen gegenüber H100 mit GH200 an:
https://developer-blogs.nvidia.com/wp-content/uploads/2023/05/performance-comparisons-giant-memory-ai-model-workloads.pngSind das nicht quasi Benchmarks für das verwendete Netzwerk, da die dort benutzten Datensätze viel zu groß sind, um in den RAM einer Node zu passen (siehe Titel der Folie)?
Edit:
Das war ja auch ein Argument von AMD für den MI300X. Der hat 2,4 mal so viel RAM im Vergleich zu GH100, weswegen größere Datensätze in den RAM passen (und damit ohne Einbußen ja nach verwendetem Netzwerk laufen).
Troyan
2023-12-07, 13:27:23
Es geht mir darum zu zeigen, dass dieser Vergleich zwischen H100 und MI300A einfach nur Fake ist. nVidia kann das selbe mit GH200 und MI300X machen.
Wobei, eigentlich ist es sogar fair GH200 mit MI300X zu vergleichen. In beiden Produkten steigt ein ähnlicher Aufwand. :eek:
Gipsel
2023-12-07, 13:47:08
Es geht mir darum zu zeigen, dass dieser Vergleich zwischen H100 und MI300A einfach nur Fake ist. nVidia kann das selbe mit GH200 und MI300X machen.
Wobei, eigentlich ist es sogar fair GH200 mit MI300X zu vergleichen. In beiden Produkten steigt ein ähnlicher Aufwand. :eek:AMDs Vergleich fand mit echter vorhandener Software mit von nVidia offiziell präsentierten Performancezahlen (zumindest die von Dir gepostete Folie) statt. Die Benchmarks liefen in dem Fall auch nur auf einer GPU, isoliert also die Performance der GPU vom Rest des Systems/dem Netzwerk. Deine nV-Folie war dagegen quasi ein Netzwerkbenchmark.
Hat AMD Cherrypicking betrieben? Vielleicht. Das werden spätere Benchmarks von unabhängiger Seite zeigen. Bei Deiner Folie weiß ich dagegen sicher, daß es extremes Cherrypicking ist, weil dort die GPU-Performance von H100 bestimmt nicht der limitierende Faktor war (sondern RAM-Größe und Netzwerkperformance). Ist RAM-Größe und Netzwerk wichtig für einen HPC-Cluster? Sicher! Kann man MI300-basierte Systeme (die ja auch nicht umsonst mit mehr RAM als GH100 starten) auch mit schnellen Netzwerklösungen ausgestattet werden? Das will ich doch meinen. Womit wird El Capitan (projektiert mit 2 Exaflops [gemessen im Benchmark, nicht theoretischer Peak]) gleich noch mal gebaut? Glaubst Du, die wissen, was die da bauen?
Solang Nvidia über viele Monate ausgebucht ist auch nach mehren Preiserhöhungen, ist nicht so wichtig ob es der Aufwand beim AMD fürs Ergebnis zu im Vergleich mit Nvidia höher ist.
Wenn das Ergebnis in Realität grob passt und AMD früher liefern kann, wird es Käufer geben. Und dabei ist die Funktionsfähigkeit der Software sogar wichtiger als die genaue Performance.
Zossel
2023-12-07, 15:26:27
Solang Nvidia über viele Monate ausgebucht ist auch nach mehren Preiserhöhungen, ist nicht so wichtig ob es der Aufwand beim AMD fürs Ergebnis zu im Vergleich mit Nvidia höher ist.
Wenn das Ergebnis in Realität grob passt und AMD früher liefern kann, wird es Käufer geben. Und dabei ist die Funktionsfähigkeit der Software sogar wichtiger als die genaue Performance.
Und es wird sicherlich die ein oder andere Softwareanpassung an den Kram von AMD geben, weil die Kunden Druck haben.
vinacis_vivids
2023-12-07, 15:47:02
Ich denke AMD hat Nvidia bereits in einigen wesentlichen Teilen überholt im Bereich KI und HPC. Der Schlag gegen Intel im Server-Bereich saß auch tief, so dass die Blauen es gar nicht bemerkt haben, und so ergeht es den Grünen im HPC Bereich.
Für Firmenkunden dauert der Switch sicherlich länger, weil viele, oder die allermeisten am Alten festhalten wollen. Der Softwareswitch von NV auf AMD ist für viele sehr schmerzhaft, weil das Wissen, was du Jahrzehnte aufgebaut hast (CUDA) nun überholt ist und bedeutend besseres auf dem Markt ist mit den MI300 - Varianten.
fondness
2023-12-07, 21:16:22
Microsoft lässt Nvidia im Regen stehen - AMD kann feiern
Microsoft beschert dem Chip-Anbieter AMD jetzt lukrative Aufträge. Die Redmonder kündigten an, größere Mengen des Instinct MI300X kaufen zu wollen. Auch andere stehen bereits in den Startlöchern. Für Nvidia bedeutet dies einen durchaus spürbaren Schlag.
https://m.winfuture.de/news/140003
Linmoum
2023-12-07, 22:02:33
Und welchen Schlag bekommt Nvidia davon? Die können sich vor Nachfrage kaum retten, selbst der Wegfall von China wird daran kurzfristig bekanntermaßen rein gar nichts ändern, weil der Rest der Welt schon Schlange steht um das abzunehmen.
Microsoft greift zu AMD, weil AMD liefern kann. Wenn du von Nvidia was willst, musst du vermutlich erst einmal ein Jahr warten und Glück haben.
Langlay
2023-12-07, 22:18:58
Und welchen Schlag bekommt Nvidia davon?
https://i.imgur.com/GBNQj40.png
https://www.reuters.com/technology/amd-forecasts-45-billion-ai-chip-market-this-year-2023-12-06/
AMD einige Vorhersage ist das sie in ganzen Jahr 2024 soviel Umsatz damit machen wie Nvidia aktuell in einem guten Monat.
y33H@
2023-12-07, 22:24:39
Microsoft lässt Nvidia im Regen stehen - AMD kann feiern
So ein Unfug, erst vor drei Wochen hat Microsoft für Azure neue Instanzen mit Nvidia H200 angekündigt ...
Achill
2023-12-07, 23:27:03
So ein Unfug, erst vor drei Wochen hat Microsoft für Azure neue Instanzen mit Nvidia H200 angekündigt ...
Das muss sich gar nicht ausschließen, faktisch kauft man sich in der Cloud die Dienste/Instanzen ein die zum eigenen Stack / Budget passen. MS muss neben der NV Lösung nun nur auch die AMD Lösung anbieten, die Kunden können das entsprechend ihrer Projekte und Lösungen selbst entscheiden.
Btw. - ich habe auf der Seite von MS Azure mal gesucht, es scheint fast so, als ob die ML Lösung von MS Vendor-Neutral ist (Im GitHub Beispiel von MS kommt kein Cuda vor). Wenn dem so ist, dann kann MS die für sich beste Lösung hinstellen ...
Und bezüglich Ankündigungen, egal von wem, solange da nicht konkret etwas gesagt/gekauft wird (wegen Marktmanipulation), kann es auch einfach Verhandungstaktik sein, um Preise bei AMD oder NV zu drücken.
Zossel
2023-12-08, 00:43:54
https://i.imgur.com/GBNQj40.png
https://www.reuters.com/technology/amd-forecasts-45-billion-ai-chip-market-this-year-2023-12-06/
AMD einige Vorhersage ist das sie in ganzen Jahr 2024 soviel Umsatz damit machen wie Nvidia aktuell in einem guten Monat.
Warum pasted du ascii-text als Grafik?
Langlay
2023-12-08, 00:48:33
Warum pasted du ascii-text als Grafik?
Weil das für mich bequem ist, sind mit dem Screenshottool 1 Taste und 2 Klicks und das ich hab den Bildlink im Zwischenspeicher.. Ist davon ab eh nur Kontext zu meiner Aussage und nicht die Weltformel.
robbitop
2023-12-08, 06:57:15
Ja im Moment ist genug Nachfrage für alle da. Alles was produziert wird, kann mit hohen Margen verkauft werden. Und bis dato bleibt Nvidia in dem Markt der Marktführer. Aber MI300 verschafft AMD jetzt auch die Möglichkeit für ein ordentliches Stück vom Kuchen. Aber man muss dran bleiben.
vinacis_vivids
2023-12-08, 08:15:42
Die Firmen, die fp64 brauchen , also Wissenschaftler inkl. staatliche Einrichtungen werden nach und nach alle auf AMD aufrüsten. Auch weil die Effizienz einfach besser ist als alle anderen.
Das Feld hat AMD fest im Griff.
Nur im KI-Training mit geringer Präzision hat NV durch die geschlossenen Tensor-cores noch einen Software-Vorsprung (Bibliotheken usw.). Und eben die alten Cuda-Ingenieure, die sich nicht weiterbilden wollen.
Der Rest steigt langsam auf den AMD-Zug. Su hat vermutlich noch bessere Karten als Huang, auch weil AMD EPYC-CPUs in Synthese mit AMD-MI300 das deutlich bessere Paket liefert.
fondness
2023-12-08, 09:39:11
Und welchen Schlag bekommt Nvidia davon? Die können sich vor Nachfrage kaum retten, selbst der Wegfall von China wird daran kurzfristig bekanntermaßen rein gar nichts ändern, weil der Rest der Welt schon Schlange steht um das abzunehmen.
Microsoft greift zu AMD, weil AMD liefern kann. Wenn du von Nvidia was willst, musst du vermutlich erst einmal ein Jahr warten und Glück haben.
Dieser Markt war für AMD bis dato nicht existent. Jede GPU die sie da verkaufen ist zusätzlicher Umsatz und Gewinn. Nvidia bekommt zum ersten mal Konkurrenz, bleibt aber natürlich Marktführer. Spannend wird es eh erst wenn wir nicht mehr an dem Punkt sind wo man alles verkaufen kann was man liefern kann, auch AMD ist natürlich durch die Lieferkapazität limitiert. Sie haben ja sogar RDNA4 gecancelt um möglichst viel MI300 liefern zu können.
amdfanuwe
2023-12-08, 09:46:54
Die Firmen, die fp64 brauchen ,
Mal abwarten, wie das Rennen in der nächsten Generation weitergeht, wenn die auf reines Training oder Inferenz optimierten Chips kommen.
Ich denke, da ist AMD schon fleißig dabei entsprechende Chiplets zu entwickeln für eine MI300 NPU.
AMD macht ja auch ganz schön TamTam im Clientbereich mit Ryzen AI beim 8040.Mal sehen, wie Intel mit Meteor Lake kontern kann.
Pi mal Daumen ist die AIE beim 8040 ~6-7mm² groß in 4nm und gut für 16 TOPS.
Was holt man da aus einem 80mm² Chiplet raus?
Für den Desktop gab es ja auch schon einen Hinweis mit 5700 NPU. M.M. nach ein Testballon.
Würde mich nicht wundern, wenn die nächsten 6 Monate 7/8000er ZEN4 NPUs kommen.
Das NPU Chiplet könnte man auch bei EPYC und TR verbauen, z.B, 3CPU + 9NPU Chiplets. Nicht so leistungsfähig wie MI300A, dafür sparsamer und vergleichsweise sau billig in der Produktion.
Also ich freu mich auf ein spannendes 2024.
basix
2023-12-08, 11:15:03
NPU Stacked auf den V-Cache wäre für mich DAS Feature. MI300C mit 96C, 12x V-Cache + 12x NPU stacked. Mit deinen Flächenangaben käme wohl ~100 TOPS pro NPU raus. Oder max. 1200 TOPS pro EPYC / MI300C Maximalausbau. Und daneben ist es noch eine sehr performante 96C HPC CPU.
Die MI300 CDNA Chiplets kann man natürlich auch gegen AI-Accelerators ersetzen. Man verliert aber einen Grossteil der Flexibilität beim Einsatz. Das ist dann mehr oder minder ein reiner Inferencing-Accelerator.
Zu Takt von MI300: Das Ding hat anscheinend einen Peak-Clock von 2.1 GHz. Nicht schlecht.
Wir sind mittem im Boom. Wenn da 20% mehr Leistung kommt, wird denen das aus den Händen gerissen, so einfach ist das. Wenn AMD keine NV-Umsätze erwartet liegt das an der beschränkten Produktionskapazität im Packaging. AMD wird da so beschränkt sein in der Kapazität, dass die nur die großen befriedigen können und du als kleiner Krauter da keine Chance hast so ein Ding zu kaufen meiner Einschätzung nach.
Software ist ja eh im Fluss und viel in Entwicklung derzeit, von daher wird das auch kaum ein Hindernis sein. Das beschert NV Vorteile, aber wir haben hier ja keine eingefahrenen Strukturen.
basix
2023-12-08, 11:27:36
Die 256 MB Cache sind nett! Bringt aber nur was, wenn die Bandbreite im Vergleich zum DRAM auch tatsächlich signifikant höher ist.
Ist 17 TB/s, also ca. 3x höher als die HBM-Bandbreite.
amdfanuwe
2023-12-08, 12:01:21
NPU Stacked auf den V-Cache wäre für mich DAS Feature. MI300C mit 96C, 12x V-Cache + 12x NPU stacked.
...
Die MI300 CDNA Chiplets kann man natürlich auch gegen AI-Accelerators ersetzen. Man verliert aber einen Grossteil der Flexibilität beim Einsatz. Das ist dann mehr oder minder ein reiner Inferencing-Accelerator.
Nochmals gestacked würde wohl die TDP sprengen.
Flexibilität oder spezialisiert ist eine Sache der Stückzahl.
Sobald es sich für einen spezialisierten Chip rechnet, wird es gemacht.
Da zählt jeder Cent in der Industrie.
Bisher war für HPC eben FP64 gefragt. Jetzt gibt es durch AI zusätzliche Anwendungen. Da wird auch in den Produkten weiter diversifiziert.
----------
Was hieltet ihr von einem 7800 X3D NPU, also 8 Core X3D CPU + einem NPU Chiplet. Könnte das dür Gaming interessant werden bzw. für Gamer, die auch ihre Bildbearbeitung etc. mit dem Rechner machen?
Gipsel
2023-12-08, 12:40:18
Was hieltet ihr von einem 7800 X3D NPU, also 8 Core X3D CPU + einem NPU Chiplet. Könnte das dür Gaming interessant werden bzw. für Gamer, die auch ihre Bildbearbeitung etc. mit dem Rechner machen?Vielleicht in zwei Jahren, noch ist sowas zu früh. Es gibt doch quasi noch gar keine Software für die Nutzung der NPUs für sowas (dafür aber ein etabliertes Ökosystem zur Nutzung von GPUs).
The_Invisible
2023-12-08, 14:25:03
Was hieltet ihr von einem 7800 X3D NPU, also 8 Core X3D CPU + einem NPU Chiplet. Könnte das dür Gaming interessant werden bzw. für Gamer, die auch ihre Bildbearbeitung etc. mit dem Rechner machen?
Gamer haben sowieso eine fettere GPU, wenn eher für Office CPUs die mit onboard Grafik herumgurken
basix
2023-12-08, 15:06:26
Bei Ryzen und Consumer Use Cases würde ich die NPU im (monolithischen) IOD platzieren. Das muss nicht auf die CPU gestacked werden. Und für viele andere Fälle hätte man noch die GPU als Sparring-Partner.
Stacked NPU bei CPUs sehe ich primär bei Server-Anwendungen als Einsatzgebiet. Aber mal schauen was dieser "5700 NPU" genau bringen wird.
Edit:
Technische Daten & CDNA3 Whitepaper
https://www.amd.com/en/technologies/cdna.html
https://www.amd.com/en/products/accelerators/instinct/mi300/mi300x.html
https://www.amd.com/en/products/accelerators/instinct/mi300/platform.html
https://www.amd.com/en/products/accelerators/instinct/mi300/mi300a.html
https://www.amd.com/content/dam/amd/en/documents/instinct-tech-docs/white-papers/amd-cdna-3-white-paper.pdf
fondness
2023-12-10, 10:01:48
Das Whitepaper ist ganz interessant. Man kann entweder 2 EPYC mit bis zu 8 Instinct MI300X paaren, oder bis zu 4 Instinct MI300A APUs, wo man dann weitere 4 PCIe x16 hat für bis zu 4 Instinct 300X oder anderes Zeug.
https://i.postimg.cc/wBGg5nH7/MI300-Arch1.png (https://postimg.cc/8FM2NK7S)
https://i.postimg.cc/mkx4JMP4/MI300-Arch2.png (https://postimg.cc/471jhYv2)
AffenJack
2023-12-10, 13:37:54
Das Whitepaper ist ganz interessant. Man kann entweder 2 EPYC mit bis zu 8 Instinct MI300X paaren, oder bis zu 4 Instinct MI300A APUs, wo man dann weitere 4 PCIe x16 hat für bis zu 4 Instinct 300X oder anderes Zeug.
https://i.postimg.cc/wBGg5nH7/MI300-Arch1.png (https://postimg.cc/8FM2NK7S)
https://i.postimg.cc/mkx4JMP4/MI300-Arch2.png (https://postimg.cc/471jhYv2)
Die Verbindung der Chips ist auch das aller wichtigste, was mit MI300 passiert ist. Mi250X war da einfach sehr suboptimal gebaut. Mit MI300 hat man jetzt schonmal ne Lösung zur schneller Verbindung von 8 GPUs per Infinity Fabric.
Reicht aber immer noch nicht, da Nvlink als Switch das einfach viel größer skaliert (bis 256 GPUs?) und deshalb wird Nvidia auch nächstes Jahr auch weiterhin bei Google, MS, Meta die größten Systeme stellen, da deren AI Modelle auch immer größer werden.
Aber gerade da kam die in meinen Augen allergrößte Nachricht der Präsentation mit der Öffnung und Kooperation von Infinity Fabric mit Broadcom usw. Das ist in den Medien eher untergegangen, dabei ist das für Nvidia eine viel größere Gefahr als dieser gesamte Chip und wird auch für AMDs Zukunft in Sachen AI eine sehr große Bedeutung haben.
fondness
2023-12-10, 14:35:36
Die Verbindung der Chips ist auch das aller wichtigste, was mit MI300 passiert ist. Mi250X war da einfach sehr suboptimal gebaut. Mit MI300 hat man jetzt schonmal ne Lösung zur schneller Verbindung von 8 GPUs per Infinity Fabric.
Reicht aber immer noch nicht, da Nvlink als Switch das einfach viel größer skaliert (bis 256 GPUs?) und deshalb wird Nvidia auch nächstes Jahr auch weiterhin bei Google, MS, Meta die größten Systeme stellen, da deren AI Modelle auch immer größer werden.
Aber gerade da kam die in meinen Augen allergrößte Nachricht der Präsentation mit der Öffnung und Kooperation von Infinity Fabric mit Broadcom usw. Das ist in den Medien eher untergegangen, dabei ist das für Nvidia eine viel größere Gefahr als dieser gesamte Chip und wird auch für AMDs Zukunft in Sachen AI eine sehr große Bedeutung haben.
Naja, der schnellste Supercomputer der Welt verwendet MI250X, verbunden über Infinity Band. Für gewisse Aufgaben mag der Speed zu gering sein, aber es ist offensichtlich nicht so, dass es nicht möglich oder unbrauchbar ist. Aber ja korrekt, Broadcom hat bestätigt, dass ihre next-gen switches support für AMDs Infinity Fabric bekommen werden um eine Alternative zu NVLink (ehemals Mellanox) zu bieten. AMDs Glück ist, dass niemand in der Industrie glücklich ist mit Nvidia Abschottungspolitik.
Gipsel
2023-12-10, 15:57:59
Naja, der schnellste Supercomputer der Welt verwendet MI250X, verbunden über Infinity Band.Frontier benutzt Slingshot, genau wie El Capitan, kein InfiniBand.
Wie das weiterentwickelt werden soll (auch in Kooperation zwischen verschiedenen Netzwerkfirmen), haben die doch bei der Präsentation angesprochen.
Die InfiniBand-Komponenten kommen von Mellanox (jetzt nVidia). Da ist schon klar, daß AMD (und Andere) an Alternativen interessiert sind.
...Architektonisch muss man da mit der nächsten Gen einiges bringen, weil man massiv hinten liegt. Man erschlägt es diese Gen mit der 2fachen Menge an Silizium und innovativen Packagingtechnologie. Semianalysis schätzt die Produktionskosten auch auf 2xHopper...
Hmm, wobei es da auch gegensätzliche Argumente gibt https://www.reddit.com/r/AMD_Stock/comments/18es0ks/amd_can_get_65_more_mi300x_from_the_same_5nm
AffenJack
2023-12-11, 09:23:00
Hmm, wobei es da auch gegensätzliche Argumente gibt https://www.reddit.com/r/AMD_Stock/comments/18es0ks/amd_can_get_65_more_mi300x_from_the_same_5nm
Von Personen, die nicht einbeziehen, dass 1/8 jedes H100 abgeschaltetet sind, keine Ahnung von Packaging Yield, Packaging Kosten haben. Den Rest des Chips nicht einbeziehen...
Ich bleibe da bei Semianalysis. Er ist der einzige Industrieinsider von dem wir Werte haben. Wie er darauf kommt wissen leider nur seine Subscriber, aber seine Aussagen haben doch deutlich mehr Gewicht als von Leuten ohne Ahnung.
Zossel
2023-12-11, 09:28:16
Frontier benutzt Slingshot, genau wie El Capitan, kein InfiniBand.
Wie das weiterentwickelt werden soll (auch in Kooperation zwischen verschiedenen Netzwerkfirmen), haben die doch bei der Präsentation angesprochen.
Die InfiniBand-Komponenten kommen von Mellanox (jetzt nVidia). Da ist schon klar, daß AMD (und Andere) an Alternativen interessiert sind.
IMHO bastelt Broadcom zusammen mit AMD schon länger an Slingshot.
amdfanuwe
2023-12-11, 12:18:14
Ich bleibe da bei Semianalysis.
Denk ich auch. Das Stacked Packaging von IOD+mehrere gedünnte Compute Dies mit Spacer silicon ist schon recht komplex und arbeitsintensiv.
Spielt aber auch keine Rolle. Selbst bei Produktionskosten ~$1000 bleiben noch genug Gewinn übrig wenns für >$20000 verkauft wird.
Zossel
2023-12-12, 19:31:19
Slingshot scheint jetzt Ultra Ethernet zu werden:
https://www.servethehome.com/next-gen-broadcom-pcie-switches-to-support-amd-infinity-fabric-xgmi-to-counter-nvidia-nvlink/
Ich bin gespannt wie das laufen soll:
Invent new magic15 that will finally solve fabric-wide congestion challenges because “None of the current algorithms meet all the needs of a transport protocol optimized for AI.16”
https://blog.ipspace.net/2023/10/ultra-ethernet.html
mocad_tom
2023-12-13, 12:12:55
Zu der Diskussion
"Hopper H100 ist monolithic und deshalb viel Ausschuss"
vs
"Instinct MI300X ist gestapelt -> bessere Yield-Rate aber mehr Aufwand bei Packaging"
In dieser Rechnung fließt halt nicht mit ein, dass jeder Kontakt-Punkt, wo von einem Die zu einem anderen Die Bits übergeben werden müssen - hierfür wird Energie benötigt.
Und diese Kontaktpunkte benötigen so und so viele PicoJoule pro Bits.
Kannst du On-Die bleiben hast du hier einfach nur eine lange Leitung im Die selber.
Schaut euch Sapphire Rapids XCC vs Sapphire Rapids MCC an (das gleiche in grün).
Dann ist auch die Frage, wie viele PCIe devices ein Instinct MI300X aufmacht.
Ein MI250 sind zwei PCIe devices.
https://www.nextplatform.com/2022/05/30/frontier-step-by-step-over-decades-to-exascale/
Im Nextplatform Artikel - zeimlich in der Mitte das Blockschaltbild zu einem Frontier Node.
Ein MI250 sind 2 PCIe-Devices.
Ist das beim Instinct MI300X wieder so -> wie sprechen die den Memory-Controller an - gibt es einen zentralen oder zwei getrennte Memory-Controller?
Für den Entwickler ist ein Hopper H100 ein großer Memory-Controller und ein großes PCIe-Device. Und das ist das herausragende bei Monolithic.
Mit Monolithic einher geht die Energieeffizienz - und dort liegt der Hase im Pfeffer.
AMD schmeisst in Summe mehr Transistoren auf das Problem - Taktet es niedriger und kommt dann wieder bei ähnlichen performance Werten raus.
Zossel
2023-12-13, 13:23:00
Zu der Diskussion
"Hopper H100 ist monolithic und deshalb viel Ausschuss"
vs
"Instinct MI300X ist gestapelt -> bessere Yield-Rate aber mehr Aufwand bei Packaging"
In dieser Rechnung fließt halt nicht mit ein, dass jeder Kontakt-Punkt, wo von einem Die zu einem anderen Die Bits übergeben werden müssen - hierfür wird Energie benötigt.
Und diese Kontaktpunkte benötigen so und so viele PicoJoule pro Bits.
Das Thema gab es hier schon, damals beim ersten 3D-Cache.
Diese Art des stackings verbraucht nicht sonderlich mehr Strom als Verbindungen auf einem einzigen Die.
Teilweise spart das auch Leitungslänge weil man in drei Dimensionen kürzere Wege haben kann.
Ich werde die Postings dazu *nicht* raussuchen.
Für den Entwickler ist ein Hopper H100 ein großer Memory-Controller und ein großes PCIe-Device. Und das ist das herausragende bei Monolithic.
Mit Monolithic einher geht die Energieeffizienz - und dort liegt der Hase im Pfeffer.
Das Ding mit CPU und GPU drauf ist kohärent, da braucht sich der Entwickler gar nicht mit den nicht-kohärenten Eigenschaften (memcpy und Cacheflush) von PCI-Devices rumärgern.
robbitop
2023-12-13, 13:29:10
Beim VCache ist es nicht so teuer, wegen 3D Stacking und weil die Leitungslänge so kurz ist (man geht ja nur einen Bruchteil eines mm in die Höhe). Bei 2,5D hast du auch das moderne Packaging (was den Nachteil des off chip traffics reduziert) aber dennoch die Leitungslänge. Aber grundsätzlich hast du Recht. Die Kosten für Offchip communication werden immer geringer mit immer modereneren Packagingverfahren.
Bei Meteorlake sind die offenbar so gering, dass man chiplets für eine mobile APU (heißt das bei Intel auch APU? ^^) nutzt. Andererseits gibt es bei einer APU auch nicht so viel communication wie bei einem HPC Konstrukt.
Zossel
2023-12-13, 13:40:41
Beim VCache ist es nicht so teuer, wegen 3D Stacking und weil die Leitungslänge so kurz ist (man geht ja nur einen Bruchteil eines mm in die Höhe). Bei 2,5D hast du auch das moderne Packaging (was den Nachteil des off chip traffics reduziert) aber dennoch die Leitungslänge. Aber grundsätzlich hast du Recht. Die Kosten für Offchip communication werden immer geringer mit immer modereneren Packagingverfahren.
Die Leitungen zwischen den Dies sind wahrscheinlich auch die Leitungen die bei einem Monolith lang wären.
mksn7
2023-12-13, 14:49:07
Zu der Diskussion
Dann ist auch die Frage, wie viele PCIe devices ein Instinct MI300X aufmacht.
Ein MI250 sind zwei PCIe devices.
https://www.nextplatform.com/2022/05/30/frontier-step-by-step-over-decades-to-exascale/
Im Nextplatform Artikel - zeimlich in der Mitte das Blockschaltbild zu einem Frontier Node.
Ein MI250 sind 2 PCIe-Devices.
Ist das beim Instinct MI300X wieder so -> wie sprechen die den Memory-Controller an - gibt es einen zentralen oder zwei getrennte Memory-Controller?
Für den Entwickler ist ein Hopper H100 ein großer Memory-Controller und ein großes PCIe-Device. Und das ist das herausragende bei Monolithic.
Mit Monolithic einher geht die Energieeffizienz - und dort liegt der Hase im Pfeffer.
AMD schmeisst in Summe mehr Transistoren auf das Problem - Taktet es niedriger und kommt dann wieder bei ähnlichen performance Werten raus.
Beide Modi sind möglich. Die 8 GPU dies bei der MI300x können als 8,4,2 oder eine GPU angesprochen werden.
Die Speichercontroller und die dazugehörigen caches sind in vier separaten dies, und die Latenzen von Speicherzugriffen sind daher schon etwas non uniform, aber das ist bei CPUs ja schon lange Standard. Deswegen kann auch NPS4, mit 4 separaten NUMA domains verwendet werden, und dann wird first touch allokoert. Ich vermute aber dass NPS1 nötig ist um als eine große GPU zu programmieren.
mocad_tom
2023-12-13, 15:30:34
@Zossel
Das diese Kontakt-Punkte nicht "saufen" kann ich so nicht stehen lassen.
Man hat beim 3D-V-Cache halt den Vorteil, dass eine Anfrage über den Memory-Controller sich sehr viel mehr genehmigt als die Anfrage hin zum V-Cache.
Ausserdem sind die Cache-Register für MOESI direkt im Haupt-Die und nur die eigentlichen Speicherzellen/Cache-Lines sind ausgelagert.
Im Gegensatz dazu muss man bei Instinct MI300X direkt mehr durchkommunizieren.
Warum meint ihr ist der Schritt von Radeon 6900(Monolithic) auf Radeon 7900 (CoWoS) so mittelprickelnd gewesen?
https://hothardware.com/photo-gallery/article/3255?image=big_amd-radeon-rx-7900-xtx-chiplet-die.jpg&tag=popup
> Die Leitungen zwischen den Dies sind wahrscheinlich auch die
> Leitungen die bei einem Monolith lang wären.
Von der Länge her ja - aber wenn ich im Silizium bleibe, habe ich niedrigere Widerstände und damit weniger PicoJoule pro Bit.
https://twitter.com/chiakokhua/status/1504280639255695360
chiakokhua auf Twitter hat mal den Energieverbauch für Sapphire Rapids für EMIB durchgerechnet:
Einmal so:
>Just to follow-up, we now know from ISSC'2022 disclosure that the MDF clocks at 2X
>mesh clock of 5 GT/s.
>Using your original estimate of 2*(8932+6120) EMIB bumps at 0.5pJ/bit,
>worst-case power burn = 2*(8932+6120) * 5*10^9 bits/s * 0.5*10^-12 J/bit = 75.26W.
Und einmal so:
>But the same slide also says 10TB/s aggregate bandwidth across a total of 20 D2D crossings.
>This implies power burn = 10*10^12*8 bit/s * 0.5*10^-12 J/bit = 40W.
(ich wollte den tweet selber schon lange mal wieder raussuchen - weil es ist eigentlich so cool durchgerechnet)
robbitop
2023-12-13, 16:40:15
Im dem Beispiel steht aber nicht was on chip Kommunikation gekostet hätte (was man davon abziehen muss). Oder ist das der reine Zusatzverbrauch zwischen den chiplets der on top kommt?
N31/32 nutzen „nur“ CoWoS-R. Die Kontakte laufen über traces auf dem organischen Träger. Sicherlich deutlich energieeffizienter als bisherige MCM Verbindungen aber kein Vergleich zu Info_lsi/cowos-l/emib soweit ich weiß.
Apple hat mit der Ultra Serie auch ziemlich energieeffizient 2x GPUs zu einer zusammengestitcht und MTL macht das auch. Da ist schon einiges passiert. Aber: ja on chip ist noch effizienter. Aber der Vorteil schrumpft
mocad_tom
2023-12-13, 18:19:15
schon lustig, dass apple immer mühelos über die grenzen der physik drüberhüpft und keiner dies aber objektiv nachprüfen kann.
fakt ist aber, dass die gestitchten m2 mehr verbrauchen und bei jobs, die mehr kommunikation benötigen schwach skalieren.
ich finde die abstufung was man näher am mesh haben soll bei sierra forest recht interessant.
sierra forest hat memory controller on die und pcie io über emib dran.
graviton 4 hat memory controller nah dran vermutlich über cowos.
graviton 4 hat pcie durch das substrat hindurch.
also analoge priorisierung bei graviton4 und bei sierra forest(wobei sierra nochmal picojoule sensibler ausgelegt ist).
in der verbrauchsrechnung stecken nur die EMIB treiberbausteine plus leitungen drin.
und längenmässig wird man im emib keine weiten strecken gehen.
basix
2023-12-13, 21:08:45
Ein MI250 sind 2 PCIe-Devices.
Ist das beim Instinct MI300X wieder so -> wie sprechen die den Memory-Controller an - gibt es einen zentralen oder zwei getrennte Memory-Controller?
MI300X sieht nach aussen wie eine monolithische GPU aus. Man kann sie aber in bis zu 8x "Virtual GPUs" unterteilen, ähnlich wie bei Nvidias MIG auf H100.
Zossel
2023-12-13, 21:11:32
@Zossel
Das diese Kontakt-Punkte nicht "saufen" kann ich so nicht stehen lassen.
Vertraust du mir nicht?
Ich habe auch nicht im Konjunktiv formuliert, was ich im Regelfall tue wenn ich mir nicht sicher bin.
Gipsel
2023-12-14, 15:03:54
AMDs hybrid bonding Gen1 Kontakte (die mit 9µm pitch) brauchen ~0,05pJ/bit (Gen2 mit 5µm Pitch verzögert sich wohl noch etwas, aber intel gurkt ja noch mit 50µm Pitch rum). 1Tbit/s (>100GB/s Bandbreite) über solche Verbindungen kosten also nur 50mW extra (und wie schon von Anderen angemerkt, kann man bei 3D-Stacking potentiell Leitungslänge sparen). Bei 1TB/s nähert man sich dann einem halben Watt. Das ist deutlich besser als andere Verbindungstechnologien. Die Anbindung der MCDs von N31/32 säuft 0,7pJ/Bit oder sowas, wenn ich mich richtig erinnere. Das ist Faktor 14 mehr. Das ist kaum zu vergleichen.
Zossel
2023-12-14, 17:42:15
BTW: Bestehen die heutigen Chatbots mit KI eigentlich den Turing-Test?
amdfanuwe
2023-12-14, 18:47:33
Frag 10 mal hintereinander das gleiche. Ein Mensch flippt aus, die KI antwortet immer gleich. Test nicht bestanden. Zumindest war das letztens noch bei ChatGPT.
AffenJack
2023-12-14, 19:06:34
Frag 10 mal hintereinander das gleiche. Ein Mensch flippt aus, die KI antwortet immer gleich. Test nicht bestanden. Zumindest war das letztens noch bei ChatGPT.
Das liegt aber auch daran, dass die KI darauf trainiert ist dem Menschen als Chatbot zu helfen. Ich bin überzeugt, dass du ne KI heutzutage so trainieren könntest, dass die deutlich menschlicher reagiert, wenn du nur wolltest.
amdfanuwe
2023-12-14, 19:39:31
Klar, wird auch dran gearbeitet.
Der wesentliche Unterschied besteht halt darin, dass eine KI nicht ermüdet. Zudem werden zumeist einmal trainierte Netze eingesetzt, die auf den gleichen Input immer den gleichen Output erzeugen.
Beim Mensch "ermüden" die Neuronen, ihnen geht die Chemie aus, und andere Neuronen machen weiter. Der gleiche Input erzeugt also nach kurzer Zeit einen Unterschiedlichen Output. Zudem wird bei jeder Aktivierung eines Neurons die Verbindung trainiert, Neuronen sterben ab etc. Also ein dauernder Lernprozess mit neuer Gewichtung der Verbindungen.
Man sollte sich schon überlegen, was man möchte: Eine KI, die nach einem Training reproduzierbar arbeitet oder eine dauerhaft lernfähige KI bei der man nicht mehr weiß was sie ausheckt, wie es beim Menschen der Fall ist.
mocad_tom
2023-12-14, 22:33:11
Von 0.05pJ per bit spricht AMD in keinem Slide.
Du greifst eine Zahl auf, die Besi in seinen Slides verbreitet.
Besi ist ein Bonding-Maschinen-Hersteller hat aber mit den Prozessschritten direkt am Wafer nichts zu tun.
AMD vergleicht im Hotchips33 Vortrag seine 9µm pitch Cu-to-Cu-Bonding-Technologie mit der 55µm pitch Microbumps-Technologie von Intel.
Und kommt dabei auf einen 3 mal niedrigeren Energieverbrauch.
Mit 0.5pJ/Bit geteilt durch 3 sind wir bei 0.1666pJ/Bit und nicht bei den von dir genannten 0.05pJ/Bit.
Hier der zugehörige Hotchips Vortrag
https://youtu.be/csAPSw11INU?feature=shared&t=3259
Microbumps sind größer, dadurch benötigt man mehr Energie beim Umladen.
Gleichzeitig wird man sehen müssen wie Cu-to-Cu-direct-Bonding sich über die Lebensdauer hinweg verhält. Das Molding-Verfahren "verlötet" die Flächen ja nicht direkt miteinander.
Xperi hat hierzu ein Paper, wo es um Widerstandsveränderungen über die Laufzeit hinweg geht.
Und es geht ja auch nicht um Datenübertragung alleine sondern ca. 30 bis 40% eines Dies besteht aus der Stromversorgung. Hier den Querschnitt kleiner machen erhöht einfach nur den Widerstand. Im Hotchips33 Vortrag geht es um die Datenleitungen. Die Stromversorgung, damit der V-Cache Strom bekommt wird hier nicht angesprochen.
Interessant wird auch die thermische Ausdehnung beim GPU-Die von Instinct.
Bisher wurde ein relativ homogenes Gebilde(V-Cache) oben draufgesetzt. Die GPU hat Hotspots und damit unterschiedlich starke Ausdehnungsprozesse an unterschiedlichen Punkten(auch in der Höhe).
Zossel
2023-12-14, 23:29:08
Microbumps sind größer, dadurch benötigt man mehr Energie beim Umladen.
Gleichzeitig wird man sehen müssen wie Cu-to-Cu-direct-Bonding sich über die Lebensdauer hinweg verhält. Das Molding-Verfahren "verlötet" die Flächen ja nicht direkt miteinander.
Xperi hat hierzu ein Paper, wo es um Widerstandsveränderungen über die Laufzeit hinweg geht.
Entstanden die Verbindungen nicht durch so extrem glatte Oberflächen das sich die Kristallgitter miteinander verbinden? Allerdings fällt mit der Name dafür gerade nicht ein.
Bei normalen Schlossern gibt es das auch, da ansteht die Verbindung allerdings durch Druck durch Abkühlung und die daraus folgende Schrumpfung des einen Teils.
Achill
2023-12-15, 00:35:25
Entstanden die Verbindungen nicht durch so extrem glatte Oberflächen das sich die Kristallgitter miteinander verbinden? Allerdings fällt mit der Name dafür gerade nicht ein.
[..]
Van-der-Waals-Kräfte (Waals forces)?
Gipsel
2023-12-15, 09:17:45
Von 0.05pJ per bit spricht AMD in keinem Slide.
Du greifst eine Zahl auf, die Besi in seinen Slides verbreitet.
Besi ist ein Bonding-Maschinen-Hersteller hat aber mit den Prozessschritten direkt am Wafer nichts zu tun.Und der Hersteller weiß sicher mehr darüber als Du. ;)
Zudem kursiert die Zahl überall in der Industrie. Ich glaube auch intel hat die für ihre 10µ-Pitch hybrid bonding Variante genannt.
AMD vergleicht im Hotchips33 Vortrag seine 9µm pitch Cu-to-Cu-Bonding-Technologie mit der 55µm pitch Microbumps-Technologie von Intel.
Und kommt dabei auf einen 3 mal niedrigeren Energieverbrauch.Die genaue Angabe war >Faktor 3 bessere Energieeffizienz für den Interconnect bei gleichzeitig Faktor 15 höherer Dichte (also nur 6,7% der Größe). Bist Du also sicher, daß das nur die Kontakte vergleicht oder hängt da noch mehr dran? Die Kapazität sinkt auf etwa 1/5. Der Widerstand hängt stark von der genauen Implementation des Interface ab (wie viele Kontakte will man insgesamt benutzen, also wie viel Fläche will ich sparen vs. Widerstand). Die Widerstandsdichte (in Ohm/mm²) sinkt auf ~1/10 im Vergleich zu µBumps.
Microbumps sind größer, dadurch benötigt man mehr Energie beim Umladen.
Gleichzeitig wird man sehen müssen wie Cu-to-Cu-direct-Bonding sich über die Lebensdauer hinweg verhält. Das Molding-Verfahren "verlötet" die Flächen ja nicht direkt miteinander.Das Molding passiert nach dem Bonding, um das etwas zu schützen. AMD (und deren Assembly-Fabs) werden das schon in entsprechende Klimakammern gesteckt und etlichen tausend Zyklen ausgesetzt haben, bevor das auf den Markt kam. Bisher ist mir nichts von erhöhten Ausfallraten der X3D-Ryzens oder Genoa-X Epycs bekannt.
Und es geht ja auch nicht um Datenübertragung alleine sondern ca. 30 bis 40% eines Dies besteht aus der Stromversorgung. Hier den Querschnitt kleiner machen erhöht einfach nur den Widerstand. Im Hotchips33 Vortrag geht es um die Datenleitungen. Die Stromversorgung, damit der V-Cache Strom bekommt wird hier nicht angesprochen.Siehe oben, die Widerstandsdichte sinkt auf ein Zehntel. Das wird also deutlich besser. Man kann den gleichen Strom durch ein Zehntel der Fläche leiten (bei konstantem Widerstand, die Verlustdichte steigt dann natürlich). Aber man muß ja nicht den vollen Flächenvorteil mitnehmen (wie das AMD beim VCache-Die getan hat, die >Faktor 15 Density entsprechen dem vollen theoretisch möglichen Vorteil durch den kleineren Pitch 36µm=>9µm [Faktor 16 Dichte]). Kurz: Lötzinn ist Scheiße für den Widerstand, direct Copper-Copper Bonding deutlich besser. ;)
basix
2023-12-15, 09:27:23
Zu den 0.05pJ/bit: Hier steht es schwarz auf weiss -> 0.02...0.04 pJ/bit
https://www.eetimes.com/1383768-2/
https://www.eetimes.com/wp-content/uploads/TSMC-chiplet-interface-options-comparison.jpg?w=640&resize=640%2C179
Van-der-Waals-Kräfte (Waals forces)?
Glaube ich auch. Ist schlussendlich eine Art Kaltverschweissen der zwei Oberflächen.
Gipsel
2023-12-15, 09:29:21
Entstanden die Verbindungen nicht durch so extrem glatte Oberflächen das sich die Kristallgitter miteinander verbinden? Allerdings fällt mit der Name dafür gerade nicht ein.
Bei normalen Schlossern gibt es das auch, da ansteht die Verbindung allerdings durch Druck durch Abkühlung und die daraus folgende Schrumpfung des einen Teils.
Van-der-Waals-Kräfte (Waals forces)?
Dieses Aneinanderfügen sehr glatter Oberflächen nennt man das auf deutsch Ansprengen. ;)
Wenn sich die Kristallgitter verbinden, sind mehr als van-der-Waals-Kräfte involviert (kovalente oder Metallbindungen) und dann kommt das zur Kaltverschweißung.
Zossel
2023-12-15, 09:37:56
Das Molding passiert nach dem Bonding, um das etwas zu schützen. AMD (und deren Assembly-Fabs) werden das schon in entsprechende Klimakammern gesteckt und etlichen tausend Zyklen ausgesetzt haben, bevor das auf den Markt kam. Bisher ist mir nichts von erhöhten Ausfallraten der X3D-Ryzens oder Genoa-X Epycs bekannt.
Und ich will auf gar keinen Fall wissen was irgendwelche völlig ahnungslosen Gamer mit den ganzen CPUs mit 3D-Cache alles angestellt haben.
Einen besseren Stresstest als irgendwas in Massen an völlig ahnungslose Gamer zu verhökern kann ich mir nicht vorstellen. :-)
Der_Korken
2023-12-15, 10:00:32
Einen besseren Stresstest als irgendwas in Massen an völlig ahnungslose Gamer zu verhökern kann ich mir nicht vorstellen. :-)
Wobei man hierzu noch anmerken sollte, dass AMD die Zügel bei den 3D-Modellen stark angezogen hat: Keine Takterhöhung über den nominalen Boost und Spannung hard capped bei 1,35V statt wie sonst 1,5V (5800X3D). Wird sicherlich einen Grund gehabt haben.
mocad_tom
2023-12-15, 11:01:43
Muss man Basics erklären?
Widerstände errechnen sich aus dem Querschnitt des Leiters, Leiterlänge und dem verwendeten Material.
Das gilt auch im Kleinstbereich.
https://www.anandtech.com/show/15877/intel-hybrid-cpu-lakefield-all-you-need-to-know/3
Hier ist das Base-Die von Lakefield.
Der Punkt "Magnetic Coupling from TSVs"
Here’s a more complex image from a presentation earlier this year. It shows that Intel is using two types of connection from the bottom die to the top die: signal (data) connections and power connections. Intel didn’t tell us exactly how many connections are made between the two die, stating it was proprietary information, but I’m sure we will find out in due course when someone decides to put the chip in some acid and find out properly.
Und zurück zum Ryzen. Fritzchens Fritz hat mal den Ryzen Die nochmal rausgeholt und die TSVs gesucht, die den V-Cache mit Strom versorgen. Ich findes es nur nicht mehr.
Andreas Schilling
https://twitter.com/aschilling/status/1399664821717569542
Hans de Vries
https://twitter.com/HansDeVriesNL/status/1400027736199081989
(ja der Hans de Vries - die Älteren kennen ihn von der sauguten Athlon 64 Analyse)
https://twitter.com/HansDeVriesNL/status/1400029198018830337
(ich freue mich gerade so, dass ich die tweets wieder so finde, eine Zeitlang war twitter-suche einfach bloß kaputt)
basix
2023-12-15, 12:28:09
Was willst du uns genau mit deinem Post sagen?
Wir waren bei pJ/bit und du kommst mit Querschnitten, Leiterlänge und Widerständen? :confused:
Nur als Notiz:
pJ/bit hat bereits alles inkludiert: Leiterlänge, Widerstände, Kapazitäten, Frequenzen, ...
Wobei man hierzu noch anmerken sollte, dass AMD die Zügel bei den 3D-Modellen stark angezogen hat: Keine Takterhöhung über den nominalen Boost und Spannung hard capped bei 1,35V statt wie sonst 1,5V (5800X3D). Wird sicherlich einen Grund gehabt haben.
Das kann an elektrischen und thermischen Limits liegen (Power / Current Density). Das hat vermutlich eher mit dem zu tun als "grundsätzlich nicht zuverlässigen SoIC Verbindungen".
Gipsel
2023-12-15, 12:57:21
Muss man Basics erklären?
Widerstände errechnen sich aus dem Querschnitt des Leiters, Leiterlänge und dem verwendeten Material.
Das gilt auch im Kleinstbereich.Bei AMDs Gen1 Hybrid bonding (9µm Pitch, Gen2 hat 5µm Pitch) passen 16x mehr Kontakte auf die gleiche Fläche als mit 36µm Pitch Microbumps (intel nutzt bisher eher noch größeren Pitch, iirc). Jeder hybrid bonding Kontakt hängt an einer TSV. Laut intels Präsentation hängt bei denen jeder Signalkontakt an einer TSV, jeder Stromkontakt an 4 TSVs (Letzteres ist prinzipiell variabel, aber für größere Stromflüsse will man das vermutlich so haben). Aber auch dort münden alle 4 TSVs in einem einzigen µBump aus Lötzinn. Und dieses leitet nun mal prinzipiell viel schlechter den Strom als Kupfer (beim Hybridbonding hat man einen direkten Kupfer=>Kupfer-Kontakt ohne Lötzinn). Und über allem hat man beim Hybrid bonding nun mal schlicht mindestens 16 mal so viele Kontakte pro Fläche (mit Gen2 hybrid bonding sind es schon 50x so viele gegenüber 36µm Pitch [gegen 50µm Pitch wäre es Faktor 100]), die Stromfluß ermöglichen. Dies überkompensiert alle anderen möglichen Effekte. Die erzielbaren Stromdichten (also pro pro genutzter Kontaktfläche) sind schlicht beträchtlich höher als mit µBumps (etwa Faktor 10 mit heutiger Technik).
Gipsel
2023-12-15, 13:04:16
Das kann an elektrischen und thermischen Limits liegen (Power / Current Density). Das hat vermutlich eher mit dem zu tun als "grundsätzlich nicht zuverlässigen SoIC Verbindungen".Bevor sowas auf den Markt kommt, stecken die ein paar Engineering Samples in Klimakammern und betreiben die unter maximal ungünstigen Bedingungen: sehr kalt, sehr warm, ständig wechselnde Temperaturen, on/off mit sehr vielen Zyklen (kurz aufwärmen, wieder abkühlen, wiederholen). Wenn man das ein paar Monate macht, kann man extrapolieren, wie lange so ein Teil unter normalen Betriebsbedingungen ohne Ausfall vermutlich überleben wird. Da die Technik noch relativ neu ist (und es vermutlich noch keine Testreihen über Jahre gibt), wäre die naheliegende Vermutung, daß AMD da etwas konservativer rangegangen sein wird. Mit den eingeschränkten Parametern sind sie sich sicher, daß das keine negativen Auswirkungen für die Lebensdauer hat. Man wird sehen, ob das bei zukünftigen Modellen (wo dann mehr Erfahrung und längere Tests einfließen) schrittweise gelockert wird.
Insgesamt ist sowas ein übliches Vorgehen.
Zossel
2023-12-15, 13:08:37
Was willst du uns genau mit deinem Post sagen?
Wahrscheinlich traut er einfach dem Braten nicht, möglicherweise weil mehr über Design-Constrains geredet wird die es auch bei Monolithen gibt.
mocad_tom
2023-12-15, 13:26:49
Aber da wird doch der Braten dann so interessant:
https://twitter.com/tim_zaman/status/1671661718794309632
https://twitter.com/tim_zaman/status/1671674711225536513
Tim Zaman:
I find this avenue so interesting, and super relevant bc eg A100s have a mean time to failure of 1:10k hrs. Would be nice to share findings here with community. Eg what environmental factors/settings contribute to this time to failure.
AI ist vom Abtragen vom Material her so fordernd wie Bitcoin Mining.
Er hat aber nicht gesagt, ob nach 416 Tagen die Karte tot ist oder sie nach 416 neugestartet werden muss.
Gipsel
2023-12-15, 13:44:26
Er hat aber nicht gesagt, ob nach 416 Tagen die Karte tot ist oder sie nach 416 neugestartet werden muss.Und falls die Karte tot wäre, ob es der Chip ist, der Speicher, die VRMs, irgendwelche Kondensatoren oder oder oder. Kurz: Es fehlen fast alle relevanten Informationen, um das einordnen zu können.
mocad_tom
2023-12-15, 14:16:33
Naja sorry aber diese Angaben habe ich jetzt von mehreren unabhängigen Seiten gehört.
Mit Mining kann man seine Karte nach einer Zeit schrotten und mit LLM-Training kann man auch ziemlich forderndes Zeug machen - die Bibliotheken sind gut optimiert.
Training von GPT4 lief 4 Monate auf 25.000 A100
https://twitter.com/ProfMatsuoka/status/1645710284957552640
Und es muss anders designed werden, damit sie das in dieser Intensität so durchhalten(vgl Mining).
Matsuoka hat so um den 11. April ein paar Hammer Sachen rausposaunt.
Gipsel
2023-12-15, 14:29:36
Naja sorry aber diese Angaben habe ich jetzt von mehreren unabhängigen Seiten gehört.
Mit Mining kann man seine Karte nach einer Zeit schrotten und mit LLM-Training kann man auch ziemlich forderndes Zeug machen - die Bibliotheken sind gut optimiert.
Training von GPT4 lief 4 Monate auf 25.000 A100
https://twitter.com/ProfMatsuoka/status/1645710284957552640
Und es muss anders designed werden, damit sie das in dieser Intensität so durchhalten(vgl Mining).
Matsuoka hat so um den 11. April ein paar Hammer Sachen rausposaunt.Wir kommen vom Thema ab.
Aber bei so großen Clustern hat man die Zuverlässigkeit der Nodes schon länger im Blick. Auch die CPUs schmieren ja ab und zu mal ab. Bei großen Clustern fällt jeden Tag irgendwas aus (bei großen Clustern war die MTBF schon vor Jahren nur noch ein paar Stunden). Dort sind mehrere Leute damit beschäftigt, ständig die ausgefallenen Komponenten zu fixen bzw. zu ersetzen. Die Dinger werden einem nicht hingestellt mit der Erwartung, daß die dann jahrelang ohne irgendeinen Hardwaredefekt durchlaufen. Das ist ein bekanntes Problem. Und das GPT4-Training über 4 Monate auf 25000 GPUs lief zu hundert Prozent auch nicht ohne Defekte ab. Und das ging ja offensichtlich auch. ;)
Aber deswegen gibt es mehrere Strategien (zusätzlich zum ständigen Reparieren), mit solchen Ausfällen umzugehen. Naheliegende wären z.B. folgende:
Man läßt mehrere Jobs parallel auf Teilen des Clusters laufen (die großen Cluster laufen oft nur für den HPC-Benchmark als eine einzige Maschine). Gibt irgendwo irgendetwas auf, ist nur einer der Jobs betroffen. Außerdem wird bei einem festgestellten Defekt die Node automatisch aus dem Scheduling rausgenommen, die erhält dann bis zur Reparatur keine neue Arbeit mehr (während die Nachbarnodes weiterlaufen).
Man unterteilt seine Jobs in mehrere Abschnitte und erstellt dann jeweils Snapshots. Schmiert es dann irgendwo ab, kann man vom Snapshot neu starten.
Man stattet seinen Algorithmus mit Redundanz aus und kann so direkt eine ausgefallene Node kompensieren.
Achill
2023-12-15, 14:45:58
Noch zum OT .. ein Ausfall ist wenigstens ein eindeutiger Zustand. Viel schwerer Auffindbar sind Defekte die zu Fehlern in der Berechnung aber keinen Ausfall / Absturz führen.
Hatte dazu schon vor einer ganzen Weile ein Artikel zu Google und CPU Defect detection gelesen. Hab nur noch das Paper + Projekt dazu gefunden: https://github.com/google/silifuzz/blob/main/paper/silifuzz.pdf
=> Bei GPUs wird es ähnlich gelagerte Herausforderungen geben ...
basix
2023-12-15, 15:08:05
Bevor sowas auf den Markt kommt, stecken die ein paar Engineering Samples in Klimakammern und betreiben die unter maximal ungünstigen Bedingungen: sehr kalt, sehr warm, ständig wechselnde Temperaturen, on/off mit sehr vielen Zyklen (kurz aufwärmen, wieder abkühlen, wiederholen). Wenn man das ein paar Monate macht, kann man extrapolieren, wie lange so ein Teil unter normalen Betriebsbedingungen ohne Ausfall vermutlich überleben wird.
Klar, das macht man bei seriösem R&D so ;)
Da die Technik noch relativ neu ist (und es vermutlich noch keine Testreihen über Jahre gibt), wäre die naheliegende Vermutung, daß AMD da etwas konservativer rangegangen sein wird. Mit den eingeschränkten Parametern sind sie sich sicher, daß das keine negativen Auswirkungen für die Lebensdauer hat. Man wird sehen, ob das bei zukünftigen Modellen (wo dann mehr Erfahrung und längere Tests einfließen) schrittweise gelockert wird.
Neben harten technischen Limits einen Sicherheitsfaktor einzubauen ist nie verkehrt. Insbesondere wenn es neu ist. Und die paar V-Cache CPU Defekte mit zu hoher SoC Spannung haben gezeigt, dass es zu zerstörten CPUs führen kann, wenn man einige Parameter nicht limitiert.
fondness
2023-12-15, 19:41:13
Noch deutlicher geht's nicht:
Intel-CEO: "Die ganze Branche will CUDA loswerden"
Laut Intels CEO Pat Gelsinger arbeitet die KI-Branche derzeit daran, sich von Nvidias proprietärer CUDA-Schnittstelle zu lösen. Diese soll durch offene Lösungen ersetzt werden.
https://www.pcgameshardware.de/Kuenstliche-Intelligenz-Hardware-279517/News/Intel-CEO-Branche-will-CUDA-loswerden-1436346/
Linmoum
2023-12-15, 20:16:51
Hat Pat das im Rückspiegel gesehen?
boxleitnerb
2023-12-15, 20:22:36
Jeder will was von Nvidia‘s Kuchen - natürlich sagt er das.
Die Nummer eins wird immer von den anderen angegriffen, was anderes wäre nicht normal.
Denniss
2023-12-15, 20:23:59
Er möchte halt auch was vom Kuchen. Eine offene Schnittstelle die von vielen Herstellern unterstützt wird ist meist besser als etwas proprietäres.
Zossel
2023-12-16, 17:48:42
Noch deutlicher geht's nicht:
Intel-CEO: "Die ganze Branche will CUDA loswerden"
Laut Intels CEO Pat Gelsinger arbeitet die KI-Branche derzeit daran, sich von Nvidias proprietärer CUDA-Schnittstelle zu lösen. Diese soll durch offene Lösungen ersetzt werden.
Sagt der CEO der auf X64 sitzt, wird da der Bock zum Gärtner?
Lederjacke würde vielleicht auch gerne X64 selber bauen.
basix
2023-12-16, 20:16:09
Was hat CUDA mit x64 & x86 zu tun? CUDA ist primär eine GPU SW-Bibliothek. Oder ist CUDA neuerdings auch auf CPUs lauffähig?
mocad_tom
2023-12-16, 23:05:02
https://community.amd.com/t5/instinct-accelerators/competitive-performance-claims-and-industry-leading-inference/ba-p/652304
2P Intel Xeon Platinum 8480C CPU server with 8x AMD Instinct™ MI300X (192GB, 750W) GPUs, ROCm® 6.0 pre-release, PyTorch 2.2.0 pre-release, vLLM for ROCm, using FP16 Ubuntu® 22.04.3 vs. An Nvidia DGX H100 with 2x Intel Xeon Platinum 8480CL Processors, 8x Nvidia H100 (80GB, 700W) GPUs, CUDA 12.2.2, PyTorch 2.1.0, TensorRT-LLM v.0.6.1, using FP16, Ubuntu 22.04.3.
Wieso konfiguriert AMD ein Xeon-System rein?
Auch für das Instinct MI300X-System?
Gipsel
2023-12-16, 23:14:26
https://community.amd.com/t5/instinct-accelerators/competitive-performance-claims-and-industry-leading-inference/ba-p/652304
Wieso konfiguriert AMD ein Xeon-System rein?
Auch für das Instinct MI300X-System?Weil das Vergleichssystem von nV mit Xeons ausgestattet war und man sich nicht vorwerfen lassen wollte, ein schnellerer Epyc hätte die Resultate zu AMDs Gunsten verzerrt, hat man ein System mit quasi identischer CPU gewählt. Nur so als Vermutung.
Linmoum
2023-12-16, 23:33:51
Wenn sie dann am Ende trotzdem völlig witzlose Benchmarks anstellen, ist das auch völlig egal.
Gipsel
2023-12-16, 23:37:30
Wenn sie dann am Ende trotzdem völlig witzlose Benchmarks anstellen, ist das auch völlig egal.Die Leute, die die Teile am Ende kaufen, sind sicher in der Lage, Testsysteme vorab zu benchmarken.
Die Präsentationen sind eher Marketing für die breitere Öffentlichkeit. Und ob es am Ende "völlig witzlose Benchmarks" waren, liegt sicher auch im Auge des Betrachters.
TheGood
2023-12-17, 08:09:37
Hat Pat das im Rückspiegel gesehen?
ER hat die Realtität erkannt und keine Firma lässt sich gerne abzocken und aktuell macht das NVIDIA mit allen Ihren Kunden. Sieht man ja an den geschäftsergebnissen.
Wenn Die kunden in dem Bereich potential sehen geld zu sparen und da ist das potential riesig (verweis auf Nvidias geschäftszahlen) dann nutzen die das auch ;)
Natürlich will er auch was vom Kuchen abhaben, ist ja logisch. Aber man darf nicht vergessen, dass er genau mit den Kunden in Kontakt steht.
DrFreaK666
2023-12-17, 08:17:51
ER hat die Realtität erkannt...
Dann sollen sie AMD bei ROCm unterstützen. Oder was bringt es wenn man wieder was eigenes auf den Mark wirft?
fondness
2023-12-17, 08:35:49
AMD hat auf die Aussagen von Nvidia reagiert, dass man angeblich falsche zahlen geliefert hat:
Nvidia published a set of benchmarks comparing the performance of H100 compared to the AMD Instinct MI300X accelerator in a select set of inferencing workloads.
The new benchmarks:
- Used TensorRT-LLM on H100 instead of vLLM used in AMD benchmarks
- Compared performance of FP16 datatype on AMD Instinct MI300X GPUs to FP8 datatype on H100
- Inverted the AMD published performance data from relative latency numbers to absolute throughput
We are at a stage in our product ramp where we are consistently identifying new paths to unlock performance with our ROCM software and AMD Instinct MI300 accelerators. The data that was presented in our launch event was recorded in November. We have made a lot of progress since we recorded data in November that we used at our launch event and are delighted to share our latest results highlighting these gains
https://community.amd.com/t5/instinct-accelerators/competitive-performance-claims-and-industry-leading-inference/ba-p/652304
Die neue Werte sehen AMD noch weiter vorne.
Dazu ein wie ich finde treffender Kommentar von Patrick Moorhead:
AMD’s take on Nvidia’s take on AMD’s take on H100 versus MI300X AI performance……
Wherever you land on 8bit versus 16bit, tokens in versus tokens out, I believe what all this demonstrates is that @AMD has a competitive GAI offering.
In the >25 years I have known @Nvidia, starting at Compaq in the mid 90’s, the company never responds unless there’s a real threat.
Competitive game theory would say never punch “down” (ie high share versus low share, big company versus smaller company) else give the company attention and credence. This public battle benefits AMD more than it does Nvidia. Out of the other side of my mouth, I do respect Nvidia standing ground if it believes AMD claims are inaccurate.
Competition is good. It increases innovation, lowers prices, and democratizes AI. This back and forth is good for competition.
Let the games commence….
The wild part is that if the DC AI accelerator market (GPU+ASIC) market is truly $300-400B in 2024, both companies will kill it. Then there’s Intel in 2025….
https://twitter.com/PatrickMoorhead/status/1736062631742521459?t=pmCtvy0ANSsacjleFjcmzA&s=19
Linmoum
2023-12-17, 09:11:59
Dann sollte AMD vielleicht auch mal - wie es Nvidia transparent getan hat - die konkret genutzten command lines öffentlich machen. Ansonsten ist das gerade nichts anderes als Kindergarten.
Zossel
2023-12-17, 09:31:00
Was hat CUDA mit x64 & x86 zu tun? CUDA ist primär eine GPU SW-Bibliothek. Oder ist CUDA neuerdings auch auf CPUs lauffähig?
Beides ist proprietär.
Zossel
2023-12-17, 09:56:04
Dann sollte AMD vielleicht auch mal - wie es Nvidia transparent getan hat - die konkret genutzten command lines öffentlich machen. Ansonsten ist das gerade nichts anderes als Kindergarten.
Das AMD und NV sich mit mit Benchmarks buffen und diese tunen ist Botschaft genug.
Und das es gelingt stromsaufende Logic-Dies mit stromsparenden Interconnects oben auf andere Dies zu kleben ist ein gute Botschaft.
DrFreaK666
2023-12-17, 10:07:17
Beides ist proprietär.
X64 gibt's aber nicht nur von Intel
fondness
2023-12-17, 10:35:10
Der AMD ROCm 6.0 Source Code ist mittlerweile auch verfügbar
https://rocm.docs.amd.com/en/latest/
basix
2023-12-17, 11:21:04
AMD hat auf die Aussagen von Nvidia reagiert, dass man angeblich falsche zahlen geliefert hat:
Sie sagen nicht dass AMD "falsche Zahlen" veröffentlicht hat, sondern dass H100 je nach verwendeter Engine mehr leisten kann (wenn man TensorRT-LLM nimmt). Das ist ein kleiner aber feiner Unterschied ;)
AMD erklärt in ihrem Statement dann, wieso sie vLLM für beide verwendet haben und legt mit neuen Daten nach. So muss das sein.
Die neue Werte sehen AMD noch weiter vorne.
Ja, das sieht wirklich stark aus. Wenn AMD selbst Nvidias eigen-optimierte Messresultate schlagen kann, sagt das einiges.
mocad_tom
2023-12-17, 12:04:59
@ "x64 ist proprietär"
Antwort: ARM ist auch proprietär und man möchte sich deshalb in letzter Zeit auch nochmals diverser aufstellen und pushed deshalb RISC-V. Man hat ja in IPU/DPU/SmartNIC verstärkt ARM Prozessoren reingebaut und möchte nun eher in Richtung RISC-V
@ "Diese Benchmarks sind doch eh bloß Marketinggezappel und mit EPYC wird Instinct nochmal schneller"
Moment.
Man muss unterscheiden nach welchem Markt streckt man die Hand aus.
Hier geht es um Inferencing(und nicht um Training).
Inferencing ist der größere Markt vs Training.
Und der Markt ist jetzt wirklich so groß, dass man wieder dazu übergeht jeweils eigene Hardware für Inferencing und Training bauen kann (das ganze passiert in Wellen, mal separate HW für Inferencing & Training, dann wieder gleiche HW, dann wieder separate, dann wieder gemeinsam).
Und beim ersten Event von AMD hieß es noch, dass MI300!A! der große Übergewinner bei Inferencing wird und beim nvidia Event hieß es noch, dass GH100 der große Übergewinner wird.
Es wäre doch ein leichtes zu sagen:
"AMD hat hier eine bescheuerte Konfig gewählt unser GH100 ist viel stärker."
Oder
"AMD wählt eine EPYC+Insinct-Konfig und eine Sapphire Rapids+H100-Konfig"
Oder
"AMD wählt Instinct MI300A vs Sapphire Rapids+H100"
Tatsache ist aber - der aktuelle KÖNIGSMACHER ist Sapphire Rapids auf einem Dual-Sockel-Board und in diesem Board stecken 8 Instinct oder 8 H100.
https://techcommunity.microsoft.com/t5/azure-high-performance-computing/azure-announces-new-ai-optimized-vm-series-featuring-amd-s/ba-p/3980770
Warum steckt im Azure-Image mit Instinct MI300X ein Sapphire Rapids?
-----------
https://www.top500.org/system/180236/
Wenn GH100 anscheinend so stark sein soll, warum stellt sich dann Microsoft ein Sapphire Rapids System mit H100 hin(hier diese Maschine ist für Training)?
Wir hatten jetzt diese kambrische Explosion - aber gleichzeitig geht es jetzt los, dass sich die Nahrungsketten auslichten.
Und ja Instinct MI300X ist bei der Größe dieser Modelle für inferencing eine saugeile Option.
Aber wenn du nicht so anspruchsvoll bist und aufs Geld aufpassen musst, dann kann man auch auf einer 4090 Inferencing machen(deshalb diese Umlötarbeiten in China).
Die eigentliche Königsdisziplin ist Training.
Und hier Deepspeed und ZeRO und in diesen Frameworks steckt gleich ein Scale-Out-Ansatz drin.
Und hier werden die Netzwerk-Fähigkeiten von H100 wichtig.
Und hier ist der einzige Mitkonkurrent Gaudi 2.
Nur Gaudi 2 , H100 und A100 (und noch die Google TPU v5, aber die haben jetzt schon lange nicht mehr mitgeteilt, wie gut sie eigentlich sind) können Deepspeed performant laufen lassen.
Und damit ergibt sich folgende Aufteilung des Marktes:
Inferencing:
kleine preemptive Modelle - auf Sapphire Rapids mit AMX
mittelgroße Modelle - auf 4090
große Modelle auf 8 Instinct oder 8 H100
Training:
10.000 Nodes -> jeder Node hat 2 Sapphire Rapids und 8 H100 und darauf läuft Deepspeed
Jeder große Militärapparat (USA, China, Russland), die 20 größten IT-Firmen, jeder große Geheimdienst mag derzeit eine eigene Maschine für !AI-TRAINING!.
Wenn du jemandem eine AI-Maschine für Training schlüsselfertig im Sommer 2024 auf den Hof stellen kannst, dann hast du einen unterzeichneten Auftrag in deiner Aktentasche.
Und es schaut für mich danach aus, als wäre das Abkündigen des hybriden Falcon Shores (CPU+GPU) ein Paukenschlag gewesen. ALLE HABEN GERAUNT. Aber tatsächlich sieht man heute, wohin sich die Nahrungsketten auslichten.
Man muss sich die Frage stellen, was ist im I/O-Die von EPYC kaputt, warum spielt EPYC hier nicht mit?
(ihr könnt mir hier sehr schnell den Wind aus den Segeln nehmen und mir eine Azure-Maschine + EPYC + Instinct MI300X zeigen)
basix
2023-12-17, 12:25:07
Ich glaube bei Sapphire Rapids sind die eingebauten Networking Accelerators der springende Punkt. Bei ServeTheHome gibt es Benchmarks dazu.
ML/AI ist auch ein Networking Thema und da kann SPR einige sehr interessante Dinge, die EPYC nicht kann.
Der AMD ROCm 6.0 Source Code ist mittlerweile auch verfügbar
https://rocm.docs.amd.com/en/latest/
Die Witzbolde. Bei den Beschreibungen zu GPU Architekturen ist alles dabei ausser CDNA3.
6.0.0 scheint aber bereits am "2023-10-24" in den Release Notes aufzutauchen.
mboeller
2024-01-03, 19:35:19
was'n Bandbreitenmonster:
https://chipsandcheese.com/2023/12/17/amds-cdna-3-compute-architecture/
robbitop
2024-01-03, 20:19:33
Sehr positiv das assessment zu CDNA3.
davidzo
2024-01-03, 22:47:23
Auch wenn die Abstammung völlig anders ist gibt es doch etliche parallelen zu RDNA2 und 3 bei der higher level Cache Hierachie und dem Bandbreite zu Compute Verhältnis.
Wenn man CDNA3 vom i/o DIE Level aus betrachtet bekommt man auf folgende Verhältnisse:
- 76CU (2x XCD)
- 2x 4MB L2 mit 2x 4.3tb/s
- 64MB IFcache mit 4,25TB/s
- 2 Stack HBM3 mit 1,33TB/s
N31:
- 96CU (single GCD)
- 6MB L2 mit 7.2TB/s
- 6x16MB / 96MB IFcache mit 5.7TB/s
- 384bit GDDR6 mit 960Gb/s
N21:
- 80CU
- 4mb L2 mit 4.1Tb/s
- 128MB IFcache mit 2,1TB/s
- 256bit GDDR6 mit 512gb/s
Mi 210X (single DIE CDNA2):
- 110CU
- 8MB L2 mit 6,9TB/s
- 4 Stack HBM2E mit 1.6TB/s
Es ist imo klarer bei mi-300x von 4x 64MB IFcache zu sprechen als von 1x 256mb, da die gesamten 17TB/s gar nicht einzeln zur Verfügung stehen und die Crossbar eben nur 2,7TB/s hat.
mksn7
2024-01-04, 12:13:09
Das stimmt. Für die Speicherbandbreite wäre es wohl ok wenn es keine Lokalität gibt (wie z.B. im NPS1 mode, wenn über die channels interleaved wird), aber wenn man die I$ cache Bandbreite ausnutzen möchte, muss die Lokalität irgendwie gesteigert werden, und das geht vermutlich nur in den modes mit NUMA.
davidzo
2024-01-04, 15:20:44
Sehr interessant finde ich dass die Bandbreite zwischen den I/O DIEs deutlich weniger Bandbreite hat als das high performance Fanout welches man für N31 entwickelt hat.
In den N31 Folien spricht AMD von 9.2TB/s Infinity Link Bandbreite, 5.3TB/s über das high Performance fanout zwischen den MCDs aber 5,7TB/s L3 Cache Bandbreite.
Bei CDNA3 sind das zwischen den i/o DIEs jetzt plötzlich nur noch 1.2TB/s und 1.5TB/s.
Also entweder man ist man für CDNA3 wieder zurückgerudert weil das bei N31 eben doch mehr Power gekostet hat als man dachte, oder die Angabe bei N31 ist einfach nicht vergleichbar. Das könnte z.B. auch beschönigend gewesen sein indem man einfach die IF Bandbreite der 6x MCDs untereinander addiert hat, dafür bräuchte man nichtmal 1TB/s in der Crossbar zwischen den 6x MCDs.
Achill
2024-01-04, 16:21:57
Das stimmt. Für die Speicherbandbreite wäre es wohl ok wenn es keine Lokalität gibt (wie z.B. im NPS1 mode, wenn über die channels interleaved wird), aber wenn man die I$ cache Bandbreite ausnutzen möchte, muss die Lokalität irgendwie gesteigert werden, und das geht vermutlich nur in den modes mit NUMA.
Ich verstehe dies nicht ganz, evtl. werden die falschen Begriffe genutzt? Man spricht doch von Daten Lokalität, wenn die Daten für eine Operation beieinander liegen und im besten Fall in eine Cache-Line passen und damit optimal Abgerufen werden können. Wenn wir jetzt mehrere Cache-Partitionen haben, die dediziert angebunden sind (RDNA3, CDNA3), dann muss imho bei paralleler Berechnung auf mehrerer Threads die Daten gleichmäßig über die Cache-Partitionen verteilt werden um dann max. Bandbreite zu erreichen.
Hab in den Bereich der Optimierung aber noch nie viel gearbeitet, also nur ein "Bauchgefühl" ...
mksn7
2024-01-04, 16:47:27
Da hast du Recht, was du beschreibts wäre spatial locality nach Stallings.
Jede Speicheraddresse liegt in einem bestimmten IF$ slice. Wenn die Speicheraddressen interleaved sind über die memory controller und damit auch über die IF$, und gleichzeitig die threads mehr oder weniger zufällig verteilt sind, dann greift ein thread durchschnittlich auf alle IF$ gleich viel zu, wodurch es viel traffic über die chip Verbindungen braucht. Das würde ich als wenig Lokalität beschreiben.
Mehr Lokalität wäre wenn die threads auf dem XCD laufen wo die Daten sind die sie benötigen (oder die Daten dort allokiert werden wo die threads laufen), dann gibt es mehr Zugriffe auf den eigenen IF$, und weniger cross chip traffic.
Das wäre zum Beispiel mittels der NUMA modes erreichbar. Da gibt es sogar first touch wie bei den CPUs, d.h. Speicherseiten dort allokiert werden wo sie das erste mal beschrieben werden.
amdfanuwe
2024-01-04, 16:55:32
In den N31 Folien spricht AMD von 9.2TB/s Infinity Link Bandbreite, 5.3TB/s über das high Performance fanout zwischen den MCDs aber 5,7TB/s L3 Cache Bandbreite.
Du meinst das hier:
86583
Es sind 9,2Gb/s pro Lane angegeben, nicht TB/s.
Müsste aber korrekt 9,2GByte/s sein, also 73,6Gb/s. PCIe 5.0 bietet ~32GT/s -> ~4GByte/s pro Lane. Da werden die IF-Links nicht langsamer sein.
Und es sind gesamt 5,3TB/s für alle MCDs zusammen.
Daraus ergibt sich 5300GB/s / 6 MCDs / 9,2GB/s = ~96 Lanes pro MCD.
Wenn man im Bild nachzählt, könnte das passen.
Zossel
2024-01-04, 17:08:47
Jede Speicheraddresse liegt in einem bestimmten IF$ slice. Wenn die Speicheraddressen interleaved sind über die memory controller und damit auch über die IF$, und gleichzeitig die threads mehr oder weniger zufällig verteilt sind, dann greift ein thread durchschnittlich auf alle IF$ gleich viel zu, wodurch es viel traffic über die chip Verbindungen braucht. Das würde ich als wenig Lokalität beschreiben.
Die Zugriffe werden sicherlich nicht auf physikalische Adressen zugreifen sondern auf virtuelle Adressen.
mksn7
2024-01-04, 17:56:17
Die Zugriffe werden sicherlich nicht auf physikalische Adressen zugreifen sondern auf virtuelle Adressen.
Ja, und? Das page mapping ändert nichts daran dass die benötigten Daten irgendwo liegen. In dem Szenario was ich hier beschreibe, also ein NUMA node pro Socket (NPS1) und Programmierung als eine große GPU, gibt es im Allgemeinen keine Zuordnung wo ein thread läuft und wo die Speicherseite auf die der thread zugreift hingemapped wird.
Nur in den modi mit mehr NUMA nodes und bei Progammierung als mehrere separate GPUs kann man Kontrolle ausüben, dass das page mapping so gemacht wird dass Daten in dem NUMA node allokiert werden wo sie verwendet werden.
Die NUMA modes und die GPU modes können unabhängig voneinander eingestellt werden, aber "the memory partitioning must be equal to or smaller than the number of GPU partitions.", also NPS1 und 8 GPUs geht, aber nicht NPS8 und 1 GPU, sonst hätte manche NUMA domain auch keine GPU und first touch macht keinen Sinn.
vBulletin®, Copyright ©2000-2025, Jelsoft Enterprises Ltd.