PDA

Archiv verlassen und diese Seite im Standarddesign anzeigen : AMD/ATI - CDNA3 APU, 4 x MCM mit Zen 4, Instinct MI300, HBM3


Seiten : 1 [2]

basix
2024-01-05, 11:11:02
Laut CDNA3 Whitepaper:
- Physikalische Speicheradressen sind nicht interleaved
- Virtuelle Speicheradressen: "Interleaved between HBM stacks: switch stack every 4KiB through physical memory space"
https://www.amd.com/content/dam/amd/en/documents/instinct-tech-docs/white-papers/amd-cdna-3-white-paper.pdf

mocad_tom
2024-01-31, 14:48:22
https://www.fool.com/earnings/call-transcripts/2024/01/31/advanced-micro-devices-amd-q4-2023-earnings-call-t/

Was man so im Conference Call hört ist sehr vielversprechend.

Die MI300A laufen ganz okay.
Die MI300X übertreffen die Erwartungen.

Microsoft hat sich MI300X Instanzen hingezimmert für Inferencing.
Und Microsoft vermietet diese Instanzen auch.

Für Inferencing hat AMD ein wirklich wirklich starkes Produkt und übertrifft dort auch die Leistung von Hopper.

Königsdisziplin ist halt !Training! mit Zero Redundancy Optimizer und Deepspeed.

Und dort liegt die Gelddruckmaschine.

Gibt ja auch einen Grund, warum das "normale Datacenter Business" gerade etwas schwächelt.

Dahinter versteckt sich die Theorie des einen Geldbeutels.
Geld das ich an einer Stelle ausgebe, kann ich nicht an einer anderen Stelle ausgeben.

In den Datacenters dieser Welt wird gerade Geld für AI ausgegeben, aber die normalen "CPU-Racks" werden in ihrer Lebenszeit verlängert.

Gipsel
2024-01-31, 16:44:58
Du meinst das hier:
86583

Es sind 9,2Gb/s pro Lane angegeben, nicht TB/s.
Müsste aber korrekt 9,2GByte/s sein, also 73,6Gb/s. PCIe 5.0 bietet ~32GT/s -> ~4GByte/s pro Lane. Da werden die IF-Links nicht langsamer sein.
Und es sind gesamt 5,3TB/s für alle MCDs zusammen.

Daraus ergibt sich 5300GB/s / 6 MCDs / 9,2GB/s = ~96 Lanes pro MCD.
Wenn man im Bild nachzählt, könnte das passen.Das Bild ist abgeschnitten. Es gibt 512bit pro GCD MCD. Je nachdem, welcher Beschreibung man traut, sogar full duplex (also 2x 512bit pro GCD MCD und damit 3,5 TB/s pro Richtung oder 7 TB/s insgesamt bei 6 MCDs). Die 5,3TB/s ist dann die maximale akkumulierte Bandbreite der Caches selber.

Nightspider
2024-01-31, 17:05:58
Mal eine Frage:

Die CCDs sind gedreht in MI300 verbaut oder? Also die Transistoren liegen oben, weil die VIAs zum Cache jetzt nach unten führen, richtig?

Wie sind die ganzen anderen normalen Verbindungen gelegt Verstehe ich noch nicht.

https://cdn-ak.f.st-hatena.com/images/fotolife/V/Vengineer/20231215/20231215083958.png

amdfanuwe
2024-01-31, 17:11:05
Es gibt 512bit pro GCD.
512 / 6 = 85,3 pro MCD. Passt doch.

Gipsel
2024-01-31, 17:37:39
512 / 6 = 85,3 pro MCD. Passt doch.
Es waren natürlich MCDs gemeint, keine GCDs. Da liegen also mehrere tausend Bitlines in der Summe, nicht nur ein paar hundert. Dann paßt das auch mit den Gbit/s.

Gipsel
2024-01-31, 17:41:02
Mal eine Frage:
Die CCDs sind gedreht in MI300 verbaut oder? Also die Transistoren liegen oben, weil die VIAs zum Cache jetzt nach unten führen, richtig?Nein, die haben die normale Orientierung, das Ding hat ja kein VCache (und falls man das noch einbauen wollte, würde der über den CCDs liegen). Die Kerne haben ganz normal die auf den CCDs integrierten 32MB L3. Der "memory attached last level cache" / InfinityCache liegt unten. Daß ist in etwa so, als wenn AMD bei den CPUs im IO-Die einen Cache mit dem Memorycontroller koppeln würde.

Nightspider
2024-01-31, 17:43:54
Achso, klar, logisch. Danke dir.

basix
2024-01-31, 18:18:43
https://www.fool.com/earnings/call-transcripts/2024/01/31/advanced-micro-devices-amd-q4-2023-earnings-call-t/

Was man so im Conference Call hört ist sehr vielversprechend.

Die MI300A laufen ganz okay.
Die MI300X übertreffen die Erwartungen.

Microsoft hat sich MI300X Instanzen hingezimmert für Inferencing.
Und Microsoft vermietet diese Instanzen auch.

Für Inferencing hat AMD ein wirklich wirklich starkes Produkt und übertrifft dort auch die Leistung von Hopper.

Königsdisziplin ist halt !Training! mit Zero Redundancy Optimizer und Deepspeed.

Und dort liegt die Gelddruckmaschine.

Gibt ja auch einen Grund, warum das "normale Datacenter Business" gerade etwas schwächelt.

Dahinter versteckt sich die Theorie des einen Geldbeutels.
Geld das ich an einer Stelle ausgebe, kann ich nicht an einer anderen Stelle ausgeben.

In den Datacenters dieser Welt wird gerade Geld für AI ausgegeben, aber die normalen "CPU-Racks" werden in ihrer Lebenszeit verlängert.

Aus dem Transcript:
Looking ahead, our prior guidance was for Data Center GPU revenue to be flattish from Q4 to Q1 and exceed $2 billion for 2024. Based on the strong customer pool and expanded engagements, we now expect Data Center GPU revenue to grow sequentially in the first quarter and exceed $3.5 billion in 2024. We have also made significant progress with our supply chain partners and have secured additional capacity to support upside demand.
Schön für AMD. Verglichen mit Nvidias Einnahmen aber immer noch klein.

amdfanuwe
2024-01-31, 18:52:26
Mal eine Frage:

Die CCDs sind gedreht in MI300 verbaut oder?
Seh ich nicht so.
Hab mal eingezeichnet, wie ich das sehe:
86945

Also nicht "gedreht".
Anstelle der Balls ist beim Top Die eine Verbindungsschicht für das Hybrid Bonding aufgetragen.

amdfanuwe
2024-01-31, 19:40:49
Dann paßt das auch mit den Gbit/s.
Habe mich wohl von PCIe Bandbreite verwirren lassen.
PCIe 5.0 schafft 32Gb/s pro Lane über das Board.
Da sehen die 9,2Gb/s über High Performance Fanout ziemlich läppisch aus.
Andererseits gibt es bei HBM 2e auch nur 3,2 Gb/s, HBM 3 6,4Gb/s pro Lane bei jeweils 1024 Lanes.
Bei MI300 wird der HBM mit 5,2GHz getaktet und erreicht damit eine Bandbreite von 8 x 1024Lanes x 5,2GHz =~5,3TB/s.
https://www.amd.com/de/products/accelerators/instinct/mi300/mi300x.html
Also eben so viel wie N31.
N31 taktet mit 9,2Gb/s höher und hat 6 MCD.
5300GB/s x 8bit/Byte / 9,2Gb/s = 4608 Lanes
4608 Lanes / 6MCD = 768 Lanes/MCD

Passt das so?

Zossel
2024-02-12, 15:09:36
Ich pack das mal hier rein, jedenfalls gibt es auch Bedarf an Rechenzeit füt Non-KI:Dafür buchten sie sechs Monate Rechenzeit auf dem niederländischen nationalen Supercomputer Snellius.https://www.heise.de/news/Meeresforscher-Golfstrom-auf-dem-Weg-zum-Kipppunkt-9625816.html

Zossel
2024-02-12, 15:18:04
Spannend:While there have been efforts by AMD over the years to make it easier to port codebases targeting NVIDIA's CUDA API to run atop HIP/ROCm, it still requires work on the part of developers. The tooling has improved such as with HIPIFY to help in auto-generating but it isn't any simple, instant, and guaranteed solution -- especially if striving for optimal performance. Over the past two years AMD has quietly been funding an effort though to bring binary compatibility so that many NVIDIA CUDA applications could run atop the AMD ROCm stack at the library level -- a drop-in replacement without the need to adapt source code. In practice for many real-world workloads, it's a solution for end-users to run CUDA-enabled software without any developer intervention. Here is more information on this "skunkworks" project that is now available as open-source along with some of my own testing and performance benchmarks of this CUDA implementation built for Radeon GPUs.https://www.phoronix.com/review/radeon-cuda-zluda

P.S.: Was ist "skunkworks": https://de.wikipedia.org/wiki/Lockheed_Advanced_Development_Programs

basix
2024-02-12, 21:25:14
Coole Sache und für AMD sicher wertvoll. Anscheinend hat AMD das Funding aber eingestellt.

MI300X Benchmarks:
https://www.evp.cloud/post/diving-deeper-insights-from-our-llm-inference-testing
https://www.evp.cloud/post/diving-deeper-insights-from-our-llm-inference-testing-part-2

Zossel
2024-03-06, 19:14:55
AMD erweitert sein Portfolio:

https://www.servethehome.com/amd-infinity-fabric-afl-scale-up-competitor-to-nvidia-nvlink-coming-to-broadcom-switches-in-pcie-gen7/

basix
2024-03-06, 22:14:44
Ich habe gehofft, AFL schon früher in Produkten zu sehen. Idealerweise mit MI400. PCIe 7.0 ist noch weit weg. Aber allenfalls sieht es bei den Ethernet Switches besser aus.

dildo4u
2024-04-24, 07:55:15
Lenovo hat jetzt neue Server mit EPYC 9004 + 8X MI300X oder H100.

https://lenovopress.lenovo.com/lp1910-thinksystem-sr685a-v3-server?orgRef=https%253A%252F%252Fwww.computerbase.de%252F2024-04%252Flenovo-thinksystem-sr685a-v3-wenn-genoa-mit-8-mi300x-51-tb-und-titan-netzteilen-kuschelt%252F

fondness
2024-04-24, 08:26:40
MI350 kommt angeblich im Q2 mit HBM3e
http://m.viva100.com/view.php?key=20240423010007552

Tarkin
2024-04-24, 08:30:15
MI350 kommt angeblich im Q2 mit HBM3e
http://m.viva100.com/view.php?key=20240423010007552

unerwartet früh! very nice :)

amdfanuwe
2024-04-24, 09:12:45
Haben wohl einen Vertrag mit Samsung. Aber welche GPUs AMD dafür liefert???
https://twitter.com/harukaze5719/status/1782957160361754723?t=Am18GiHFhttCyFxCWLlD7Q&s=19

basix
2024-04-24, 10:21:39
MI300 ist doch am naheliegensten? Gamer GPUs werden es eher nicht sein.

fondness
2024-04-24, 10:52:00
unerwartet früh! very nice :)

Naja erstmal nur Vorstellung, kann dann genausogut Verfügbarkeit im Q4 bedeuten.

MI300 ist doch am naheliegensten? Gamer GPUs werden es eher nicht sein.

Gibt eh nichts anderes mit HBM, also sicher MI300. 3 Milliarden USD nur für HBM von Samsung ist übrigens eine ganze Menge, da dürfte die >3,5 Milliarden Umsatz mit MI300 von Lisa wohl leicht untertreiben sein. ;)

basix
2024-04-24, 11:42:30
Die 3bn$ für HBM müssen nicht exklusiv für MI300 sein. Steht ja nichts von der Timeline. Evtl. ist auch MI400 in diesem Deal dabei (also HBM für MI400).

Tarkin
2024-04-24, 11:46:46
Naja erstmal nur Vorstellung, kann dann genausogut Verfügbarkeit im Q4 bedeuten.



Gibt eh nichts anderes mit HBM, also sicher MI300. 3 Milliarden USD nur für HBM von Samsung ist übrigens eine ganze Menge, da dürfte die >3,5 Milliarden Umsatz mit MI300 von Lisa wohl leicht untertreiben sein. ;)

Preisfrage... was kostet 1 GB HBM3E?

fondness
2024-04-24, 12:08:42
Die 3bn$ für HBM müssen nicht exklusiv für MI300 sein. Steht ja nichts von der Timeline. Evtl. ist auch MI400 in diesem Deal dabei (also HBM für MI400).

Stimmt. Trotzdem, eine MI300 (und wohl auch MI400) wird um ~20K verkauft. Selbst wenn man davon ausgeht, dass der HBM im Einkauf pro GPU $2000 kostet (was sicher übertrieben ist), wären das 30 Milliarden $ Umsatz. Zudem ist nicht mal gesagt, dass AMD nur Samsung HBM kauft.

basix
2024-04-24, 13:54:58
Stimmt. Trotzdem, eine MI300 (und wohl auch MI400) wird um ~20K verkauft. Selbst wenn man davon ausgeht, dass der HBM im Einkauf pro GPU $2000 kostet (was sicher übertrieben ist), wären das 30 Milliarden $ Umsatz. Zudem ist nicht mal gesagt, dass AMD nur Samsung HBM kauft.

Klar, 3bn$ bei nur HBM wird nochmals deutlich mehr auf die gesamte GPU bedeuten ;)

davidzo
2024-04-24, 14:38:18
3 Milliarden USD nur für HBM von Samsung ist übrigens eine ganze Menge
Klar, 3bn$ bei nur HBM wird nochmals deutlich mehr auf die gesamte GPU bedeuten ;)

Die 3Mrd beziehen sich wahrscheinlich nicht nur auf HBM sondern auf den gesamten Deal. Also z.B. 1.5Mrd für HBM und 1.5Mrd in Gegenrichtung für Mi300X / Mi350X an Samsung. Addiert man die Umsätze ist die Zahl höher und das sieht wichtiger aus.

Ich könnte mir aber auch vorstellen dass der größere Anteil die Käufe an HBM3e seitens AMD sind und sich auf mehrere Jahre verteilen, also auch Mi400x.
Wenn es dies Jahr > 3.5Mrd sind, also z.B. 5Mrd, dann könnten es 2025 eher 7.5 sein und das Jahr drauf 10Mrd. bei so einem Wachstum wäre so ein Auftrag schon in weniger als drei Jahren durch. Zum Vergleich: Nvidia hatte in Q4/23 einen Quartalsumsatz von 18.4Mrd mit Datacenter Produkten und AMD 2.3 bzw. ca. 1.5Mrd vor dem AI Boom.

Das Samsung zeitgleich ein paar Beschleuniger bestellt hat zum herumspielen kann sein. Aber noch ist Samsung nicht groß als AI Player vertreten und so ein Milliardeninvestment von Null auf Hundert für eine Art "Startup-Projekt" halte ich für unwahrscheinlich. Samsungs Management scheut eigentlich aktuell jegliche Risikoinvestments da der Cashflow auch nicht mehr so gut ist wie früher. Samsung ist jetzt auch kein Serverhersteller, wird also wohl kaum als Boardpartner oder Reseller auftreten.

basix
2024-05-01, 18:57:12
Aus den Q1/2024 Earnings Slides:
Record data center GPU sales with MI300 surpassing $1B in cumulative sales since Q4’23 launch

CDNA3 ist für AMD also ein Erfolg. Nicht die Cash Cow wie H100 aber besser als nichts. Da der Rest des Computer-Marktes eher am schwächeln ist, poliert das AMDs Zahlen auf.

Zossel
2024-05-01, 19:14:50
Aus den Q1/2024 Earnings Slides:


CDNA3 ist für AMD also ein Erfolg. Nicht die Cash Cow wie H100 aber besser als nichts. Da der Rest des Computer-Marktes eher am schwächeln ist, poliert das AMDs Zahlen auf.

Steht da irgendwo drin welchen Anteil die Dinger haben wo auch CPUs mit drauf kleben?

memory_stick
2024-05-01, 19:47:24
https://www.nextplatform.com/2024/05/01/amd-firing-on-all-compute-engine-cylinders/
Da ists immerhin (projected) aufgeschlüsselt nach GPU (alles MI300 inkl MI300A) und reine CPUs (Epyc)
Aber die interpretieren dass MI300A praktisch ausschliesslich El Capitan ist, der Rest soll GPU only sein

reaperrr
2024-05-01, 20:57:02
Steht da irgendwo drin welchen Anteil die Dinger haben wo auch CPUs mit drauf kleben?
Hab jetzt nicht nachgeguckt, aber selbst wenn's drinstehen würde, wette ich, dass deren Anteil gering ist.

Bei KI geht's den Kunden primär um die GPU-Leistung, 300A kostet dich 2 GPU Tiles und 64GB HBM und macht das Setup komplizierter, wenn du auch die CPU-Kerne effektiv nutzen willst.
Ich denke, die KI-DataCenter-Kunden setzen größtenteils auf möglichst viel GPU-Beschleunigung je CPU, also eher 8 reine HPC-GPUs mit höchstmöglicher Leistung je 1 CPU.
Zumal du mit Epyc ja auch schon in einer CPU recht viele Kerne haben kannst, falls du die Kerne brauchst.

300A ist außer für ElCapitan mMn eher die Sparversion für Serverkunden die nicht so viel Geld ausgeben und eine möglichst einfache All-In-One Plattform wollen, ich wette dass AMD daher auch bei der Zuteilung der Assembly-Kapazitäten 300X (und bald 350) klar priorisiert.

fondness
2024-05-05, 10:14:43
Ganz interessantes Paper, dass die Vorteile der MI300A APU ggü. standalone GPUs zeigt:
https://arxiv.org/pdf/2405.00436

MI300A ist dort 4x schneller als eine H100. Das Ding muss halt anders programmiert werden, wie das Paper auch zeigt, dürfte also seine Zeit dauern bis sowas breite Anwendung findet.

Trap
2024-05-05, 10:58:34
Wieso machen AMD-Leute ein Paper zu HPC-Performance im aktuellen Marktumfeld? Das interessiert bei Data Center GPUs aktuell doch kaum mehr als die Gaming-Performance...

Achill
2024-05-05, 11:31:30
Wieso machen AMD-Leute ein Paper zu HPC-Performance im aktuellen Marktumfeld? Das interessiert bei Data Center GPUs aktuell doch kaum mehr als die Gaming-Performance...

Verstehe den Kommentar nicht ganz, nur weil ML gerade angesagt ist, verschwindet der HPC Markt ja nicht. Und irgend ein Vergleich zwischen Gaming und HPC zu ziehen scheint auch fehl am Platz zu sein, das sind doch komplett verschiedene Anwendungsgebiete. Es wird im HPC Umfeld immer neuen Bedarf geben weil auch dort Simulationen/Berechnungen immer komplexer werden bzw. neue Entwicklungen dies ermöglicht.

AffenJack
2024-05-05, 11:45:15
Ganz interessantes Paper, dass die Vorteile der MI300A APU ggü. standalone GPUs zeigt:
https://arxiv.org/pdf/2405.00436

MI300A ist dort 4x schneller als eine H100. Das Ding muss halt anders programmiert werden, wie das Paper auch zeigt, dürfte also seine Zeit dauern bis sowas breite Anwendung findet.

Das ist aber auch kein Szenario, was etwas mit der Realwelt zutun hat. Man nimmt ne 64 Core CPU und limitiert auf 1 CPU Core. Jetzt kann man zwar zeigen, dass in extrem CPU-Limitierten Szenario der gemeinsame Memory Pool ein Vorteil ist, aber was für Effekte hat das in der Realität? Außer für das extrem spezielle Szenario kann man da nix sagen, aber es kann natürlich alleine helfen, dass die CPU nicht soviel Stromverbrauch braucht, weil die Leistung geringer sein kann.

Ok, nochmal reingeguckt, sie sagen mehr CPU Cores helfen nicht, so wie ich das verstehe. Dann ist das in der Tat nen Vorteil.

Wieso machen AMD-Leute ein Paper zu HPC-Performance im aktuellen Marktumfeld? Das interessiert bei Data Center GPUs aktuell doch kaum mehr als die Gaming-Performance...

Der HPC-Markt ist immernoch einige Mrd$ im Jahr. Natürlich macht man da weiterhin Paper.

mksn7
2024-05-05, 20:02:08
Früher hätte man diese Art von Code "schlecht portiert/unoptimiert" genannt, aber die MI300A kommt mit sowas halt besser zurecht.

fondness
2024-06-03, 11:26:53
Gab auch einige Updates zur Instinct-Serie:

https://i.postimg.cc/76tdSXPy/AMD-INSTINCT-MI300-MI400-2000x1040.jpg (https://postimg.cc/5YvsVBFP)

https://i.postimg.cc/jd7mJzGG/MI325-X-1200x330.jpg (https://postimages.org/)

https://i.postimg.cc/NMFPGT6C/AMD-MI325-X-1200x338.jpg (https://postimages.org/)

https://i.postimg.cc/xTLYSDTJ/AMD-MI350-1200x393.jpg (https://postimages.org/)

https://i.postimg.cc/3wfQZ396/AMD-CDNA3-1200x355.jpg (https://postimages.org/)

https://i.postimg.cc/yNdwxwBT/AMD-CDNA4-1200x351.jpg (https://postimages.org/)

mboeller
2024-06-26, 07:58:17
wurde gerade auf Beyond3D gepostet:

https://chipsandcheese.com/2024/06/25/testing-amds-giant-mi300x/

dagegen stinkt die H100 ja regelrecht ab:

https://i0.wp.com/chipsandcheese.com/wp-content/uploads/2024/06/mi300x_irate_1.png?w=1068&ssl=1

OgrEGT
2024-06-26, 08:06:05
H100 war in fast allen Tests die auf 350W begrenzte PCIe Variante...

Please note that all of our H100 data, except for the inference data, was generated using the PCIe version of H100, which features slower HBM2e memory, fewer CUDA cores, and a reduced TDP of 350 watts. Our inference data was generated on a H100 SXM5 box which has 3.35TB per second of memory bandwidth (compared to the 2.04TB/s of H100 PCIe), 18 more SMs compared to the PCIe version, as well as having an increased TDP of 700 watts.

memory_stick
2024-06-26, 09:33:37
Auch mit 700W würds H100 nicht helfen. MI300X ist einfach HW seitig die grössere GPU, sieht man auch gut z.Bbsp an den Cache Bandbreiten und Latenzen.

Wobei man da H100 vor allem beim shared L2 (near) und dynamic shared memory nicht abschreiben darf. Vorallem der shared memory dürfte viel bringen bei flashAttention.

Die wesentlich Baustelle ist ja bekannt, AMD needs SW. auch nice von CnC da so deutlich zu benennen das ROCm endlich über den vollen HW Stack verfügbar sein muss ( und das auf C level offenbar abgekommen ist nach dem quote von Lisa)

Neurosphere
2024-06-26, 09:34:24
Die andere H100 Variante dürfte(!) aber auch nur rund 50% schneller sein, was immernoch bedeutet das sie klar langsamer ist.

OgrEGT
2024-06-26, 12:42:28
Die andere H100 Variante dürfte(!) aber auch nur rund 50% schneller sein, was immernoch bedeutet das sie klar langsamer ist.

Schon klar... aber ich wollts nur der Vollständigkeit halber noch anmerken...

basix
2024-06-26, 13:49:50
Die andere H100 Variante dürfte(!) aber auch nur rund 50% schneller sein, was immernoch bedeutet das sie klar langsamer ist.

Bei den Anwendungs-Benchmarks kommt man mit 1.5x allerdings sehr nahe an MI300 ran und bei ML/AI wird man ein Stück schneller sein.

TheAntitheist
2024-07-02, 07:41:54
wir wollen mal nicht vergessen das AMD bei den letzten Folien immer falsche Zahlen der Konkurrenten genommen hat, egal ob Intel oder Nvidia.. die haben die Zahlen dann korrigiert, AMD hat es dann bestätigt. AMDs Folien kann man nicht vertrauen

Denniss
2024-07-02, 08:59:53
Man kann Werbefolien von keinem Hersteller trauen.

vinacis_vivids
2024-07-02, 10:13:47
https://www.nscale.com/blog/nscale-benchmarks-amd-mi300x-gpus-with-gemm-tuning-improves-throughput-and-latency-by-up-to-7-2x

GEMM = General Matrix Multiplikation

https://i.ibb.co/2FhhYht/667e94c6c3f27520aa232f72-GEMM-Throughput-Tokens-per-sec-compressed-waifu2x-CUnet-2-0x-noise-1-GPU.png (https://ibb.co/gr99F9T)

basix
2024-07-02, 22:37:24
wir wollen mal nicht vergessen das AMD bei den letzten Folien immer falsche Zahlen der Konkurrenten genommen hat, egal ob Intel oder Nvidia.. die haben die Zahlen dann korrigiert, AMD hat es dann bestätigt. AMDs Folien kann man nicht vertrauen

Die Zahlen waren nicht falsch. Nur kann man mit mehr Optimierung und Toolkit-Wechsel (z.B. dem Nvidia exklusiven Tensor-LLM) mehr aus dem Konkurrenzprodukt rausholen. Bei AMD kann man das aber auch, siehe einen Beitrag über mir von v_v. Wenn man für jeden Benchmark das absolute Optimum evaluieren müsste, würde man zudem eh nie fertig. Deswegen: Gleiches Toolkit und gleiche Settings sind am naheliegensten. Ob das dann das Optimum beim Konkurrenten ist? Vermutlich nicht. Vermutlich aber auch nicht zwingend beim eigenen Produkt. Vor allem, wenn man z.B. das verbreiteste Framework wählt.

Nvidia frisiert ihre Benchmarks auch sehr gerne ;) H100 vs. A100 oder B100 vs. H100 nutzt auch Settings, wo der Vorgänger schlechter wegkommt als nötig. Um das neue Produkt lobhudeln zu können ;)

davidzo
2024-07-03, 16:30:31
H100 war in fast allen Tests die auf 350W begrenzte PCIe Variante...[/i]

Teilweise haben sie aber auch GH200 mitgetestet.

wir wollen mal nicht vergessen das AMD bei den letzten Folien immer falsche Zahlen der Konkurrenten genommen hat, egal ob Intel oder Nvidia.. die haben die Zahlen dann korrigiert, AMD hat es dann bestätigt. AMDs Folien kann man nicht vertrauen
Die Werte sind doch gar nicht von AMD sondern von cheese&chips selbst erstellt. Was soll also der relativierende Hinweis?


Die Cheese and Chips Grafik sieht zwar beeindruckend aus, wenn man aber genau hinschaut liegt Mi300X bei Int8 Adds deutlich hinten und bei Int8 multiplies nur marginal vorne sodass ein SXM5 Modell dr H100 wahrscheinlich in int8 schon gleichziehen würde.

Alleine 9 von 15 Werten in dem Diagramm beziehen sich auf einfache oder doppelte Genauigkeit. 32bit und 64bit workloads sind sicher noch interessant für HPC-Zwecke, aber für die AI-Diskussion weniger relevant als 16bit und 8bit Genauigkeit bei denen der Vorsprung schmilzt.

AMD hat zwar seine sehr futuristische Fertigungsstrategie erfolgreich umgesetzt, aber von der Architektur her bleibt die Stärke von FP64 und FP32 sowie die relative Schwäche in low precision Formaten die CDNA schon lange mit sich herumschleppt erhalten.

Zudem darf man nicht vergessen dass das nur der theoretische Durchsatz ist. In der Praxis sieht das ganz anders aus wie man weiter unten sieht. Nvidia hat im low precision Bereich zudem noch einen Joker durch sparsity und beim Training mit TF32.

In den LLM benchmarks ist von den 2x bis 10x nichts mehr zu sehen und Mi300X kann sich nicht wirklich von H100 absetzen. Die wesentlichen Unterschiede hängen eher mit dem Speicherausbau zusammen als mit allem Anderen.

Immerhin liefert man praktisch gleichwertige Performance zu GH200 solange die Software auf ROCm lauffähig und einigermaßen optimiert ist. Aber dabei nutzt man eben wesentlich fettere Systeme mit fetten CPUs. Ich hätte wirklich mal gerne gesehen wie sich Mi300A hier einordnet mit 1/4 weniger GPU, dafür aber CPU-Kernen.

Bei der Hardwareansetzung hätte ich mir aber etwas höhere Resultate in der Praxis gewünscht.
Mi300x hat immerhin 91% mehr Transistoren als H100 (153 vs 80Mrd). Sicher wird eine chiplet GPU immer einen Overhead mit sich bringen, aber ein wenig flächeneffizienter hätte ich es schon erwartet.

vinacis_vivids
2024-07-03, 16:33:25
Wissenschaft ist allerdings wichtiger als KI. KI ist wie die Tulpenblase wo Leute ihre Häuse gegen ne Zwiebel tauschen.

amdfanuwe
2024-07-03, 17:12:46
32bit und 64bit workloads sind sicher noch interessant für HPC-Zwecke, aber für die AI-Diskussion weniger relevant als 16bit und 8bit Genauigkeit bei denen der Vorsprung schmilzt.

AMD hat zwar seine sehr futuristische Fertigungsstrategie erfolgreich umgesetzt, aber von der Architektur her bleibt die Stärke von FP64 und FP32 sowie die relative Schwäche in low precision Formaten die CDNA schon lange mit sich herumschleppt erhalten.
MI300 ist klar auf HPC ausgelegt und AMD ist happy, dass sie damit bei AI noch halbwegs punkten können.
So eine Chipentwicklung dauert halt und bei CDNA3 hat noch keiner bei AMD an low precision gedacht.
Dass was MI300 für AI fehlt, kommt nächstes Jahr mit CDNA4 auf der MI350.
Die Plattform passt jedenfalls schon mal wodurch nur neue CDNA4 Chiplets validiert werden müssen.
https://www.computerbase.de/2024-06/amd-instinct-roadmap-mi325x-mit-288-gb-hbm3e-mi350-mi400-mit-neuer-architektur/
Wenn sich ein AI System etabliert würde es mich nicht wundern, wenn AMD dafür spezielle Chiplets oder ASICS bringt.

basix
2024-07-03, 18:58:29
AMD hat zwar seine sehr futuristische Fertigungsstrategie erfolgreich umgesetzt, aber von der Architektur her bleibt die Stärke von FP64 und FP32 sowie die relative Schwäche in low precision Formaten die CDNA schon lange mit sich herumschleppt erhalten.
MI300X hat mehr theoretische FLOPS als H100. In allen Formaten (TF32, FP16, FP8, ...). Nur Blackwell überbietet das wieder, den gibt es aber noch nicht auf dem Markt. Und CDNA4 zieht dann wieder mit Blackwell gleich (laut AMD Preview).

MI300X hat keine Low Precision Schwäche, eher eine HPC / FP64 Stärke. Und das ist eine simple Designauslegung. AMD sucht sich mit CDNA2 & CDNA3 die HPC Nische (welche Nvidia etwas vernachlässigt), wobei man mit CDNA3 bei Low Precision / LLM zu Nvidia aufschliesst. HPC führt also zu "garantiertem" Umsatz, welches die Entwicklung bezahlt. ML / AI kam jetzt neu mit CDNA3 in den Fokus.



Zudem darf man nicht vergessen dass das nur der theoretische Durchsatz ist. In der Praxis sieht das ganz anders aus wie man weiter unten sieht. Nvidia hat im low precision Bereich zudem noch einen Joker durch sparsity und beim Training mit TF32.
Auch CDNA3 unterstützt Sparsity und TF32. H100 ist bei Low Precision in etwa gleichwertig, weil der Rohleistungsunterschied nur bei ca. 1.2x liegt (MI300X vs. H100 SXM), Nvidia aber die etwas bessere SW hat. Also alles im Rahmen des erwartbaren.



Immerhin liefert man praktisch gleichwertige Performance zu GH200 solange die Software auf ROCm lauffähig und einigermaßen optimiert ist. Aber dabei nutzt man eben wesentlich fettere Systeme mit fetten CPUs. Ich hätte wirklich mal gerne gesehen wie sich Mi300A hier einordnet mit 1/4 weniger GPU, dafür aber CPU-Kernen.

Gleichwertige Leistung ist ein gutes Ergebnis. Oder ist sonst noch irgendjemand dort in der Nähe (Startups, Intel, Gaudi, ....)? Ich sehe niemanden.

MI300A vs. GH200 würde mich auch interessieren. Ist aber wohl schwer, an HW zu kommen. Die meiste öffentlich verfügbare HW ist MI300X, MI300A geht wohl zum grössten Teil in HPC Systeme.

Pirx
2024-07-04, 08:14:15
und in El Capitan & Co. edit: ok, das ist auch HPC

mksn7
2024-07-04, 10:06:14
MI300 ist halt auch ein massiver Chip. Bei 320CU vs 142SM kommt hoffentlich hier und da auch mal ein win bei raus.

Die Option so einen massiven Chip zu bauen hat sich AMD durch das innovative packaging auch verdient. Aber ganz billig ist das sicher nicht in der Fertigung.

davidzo
2024-07-04, 11:56:58
MI300X hat mehr theoretische FLOPS als H100. In allen Formaten (TF32, FP16, FP8, ...). Nur Blackwell überbietet das wieder, den gibt es aber noch nicht auf dem Markt. Und CDNA4 zieht dann wieder mit Blackwell gleich (laut AMD Preview).

MI300X hat keine Low Precision Schwäche, eher eine HPC / FP64 Stärke. Und das ist eine simple Designauslegung. AMD sucht sich mit CDNA2 & CDNA3 die HPC Nische (welche Nvidia etwas vernachlässigt), wobei man mit CDNA3 bei Low Precision / LLM zu Nvidia aufschliesst. HPC führt also zu "garantiertem" Umsatz, welches die Entwicklung bezahlt. ML / AI kam jetzt neu mit CDNA3 in den Fokus.

Das kommt immer darauf an wie man das vergleicht. Ich würde auch höhere Erwartungen an ein Design stellen der fast das doppelte an Transistoren mitbringt und gut 12 Monate später verfügbar ist.

Es ist schon interessant zu sehen wie langsam so ein Schiff wie AMD dreht. CDNA3 ist immer noch nicht All-in auf AI wie das Management seit einer Weile predigt, sondern muss noch früher geplant gewesen sein. Während low precision formate bei CDNA1 und 2 nur ein kleiner Nachgedanke waren ist es bei CDNA3 immer noch ein Nebenfeature.

Nvidia hat den Paradigmenwechsel viel früher vollzogen. Schon V100 hat nur noch einen mäßigen Zuwachs and FP32+FP64 Leistung gebracht, und A100 ist gegenüber V100 pure Stagnation wenn man den TDP-Zuwachs betrachtet. Nvidia hat alles auf die Bubble gesetzt und gewonnen.

Damit will ich nicht sagen dass AMD demselben Ansatz folgen sollte. Der HPC Markt ist sicher ein solider Markt indem man eben auch gewinnen kann, gerade durch die Synergien mit CPU und FPGA-Verkäufen. Aber es ist eben kein großer Wachstumsmarkt wie der AI Markt.

Nvidia ist aber derzeit das 12fache von AMD wert und hat ganz andere Investitionsmittel zur Verfügung nicht nur um den AI Markt zu verteidigen sondern auch um neue Märkte wie Consumer mobile oder HPC zu erschließen. AMD will in den AI Markt zwar auch rein, aber wird bei der Geschwindigkeit erst zu Zeiten der Konsolidierung dort ankommen. Es gibt ja schon Anzeichen dafür dass die AI-Bubble nicht mehr größer wird und damit werden sich auch die Margen für Hardware normalisieren.

amdfanuwe
2024-07-04, 14:00:23
Zur Entstehungsgeschichte von MI300 gibt es hier ein interessantes PDF:
https://drive.google.com/file/d/1J9tLeVbFRtarzIzkVrULiEBsRsEMNmEO/edit
Daraus:
88719
Table
1 shows the operations-per-clock-per-CU rates for CDNA 2

and CDNA 3 architectures. The table also highlights the ad-
ditional support for FP8 data types in the MI300A XCDs. Not

reflected in the table is that the CDNA 3 Matrix Cores also

support 4:2 sparsity; under such conditions, the peak through-
put can reach as high as 8192 ops/cycle/CU (for FP8 and

INT8).

mksn7
2024-07-05, 10:21:36
Die operations per clock muss wohl FMA's doppelt zählen (was auch richtig so ist, eine FMA instructions sind zwei operations). Vorher gabs ja nur 4x16 instructions / cycle / SM, macht 64 instructions / cycle / SM oder 128 ops / cycle / SM wenn es FMAs sind.

Jetzt gibts wohl 2x16 instructions pro SIMD, also kann eine weitere VALU instruction geissued werden in jedem cycle, also jetzt 128 instructions / cycle / SM.

Die chips & cheese Ergebnisse sind da etwas seltsam. Für FP32 FMAs passts, da sind es 68583 GInstr/s ÷ (38CU×8) ÷ 2,1 GHz = 107 Instr / cycle / SM, also deutlich mehr als die 64 Instr / cycle / SM von CDNA2.
Sogar bei FP64 FMAs sind es 115 Instr / cycle / SM, sehr beeindruckend!

Nur für INT32 adds ist es komisch, da kommen fast 200 Instr / cycle /SM dabei heraus, das wäre zuviel... Ich nehme an da gibt es irgendwo einen Mess- oder Rechenfehler.


Gar nicht beindruckt bin ich von den ~36TB/s L1 cache Bandbreite. Das sind dann nur ~56 B / cycle / CU, das gabs es bei CDNA2 auch schon. RDNA und Ampere haben da das doppelte, und eigentlich wurde eine Verdoppelung der L1 cache Bandbreite für CDNA3 auf 128 B / cycle / CU versprochen.

Ingesamt hoffe ich dass sie beim L1 cache ein bisschen was gefixed haben. Die Verdoppelung der cache banks ist schonmal was. Die Verdopplung der L1 cache line size von 64B auf 128B dürfte das Problem der sehr langsamen tag check rate bei GCN/CDNA zumindest etwas verbessern, weil nur halb so viele cache lines ge-tag-checked werden müssen. Ganz dringend sind aber mehr load-store-units, für alles was nicht 4B FP32/Int32 ist, müssen die 4 texture address units das übernehmen, und das limitiert bei CDNA2 die Bandbreite für double values auf 32B / cycle / CU. Eventuell liegts auch am benchmark dass da nicht mehr gemessen wird. Vielleicht mal mit unterschiedlichen Datenformaten messen, vielleicht geht mit float, oder float4/double2 noch mehr.

RDNA2 macht da vieles besser als CDNA2. Ich frage mich ob sie für CDNA3 da manches übernommen haben, von den Zahlen her (32kB, 128B/cycle/CU, 128B cache line size), stimmt einiges überein.

dildo4u
2024-08-29, 09:30:50
AMD vergleicht sich endlich gegen H100 in MLPerf v4.1 AI Benchmark.

https://wccftech.com/amd-instinct-mi300x-first-apperance-mlperf-next-gen-epyc-turin-zen-5-cpus/

basix
2024-08-29, 13:42:41
...und Blackwell legt auch wieder nach:
https://wccftech.com/nvidia-blackwell-mlperf-shatters-ai-performance-records-hopper-leadership-h100-h200-outperform-amd-mi300x/

Ich hoffe für AMD, dass CDNA4 relativ früh im 2025 lieferbar ist (MI350X). Blackwell wird es erst gegen Ende Jahr sein.

Nichtdestotrotz ist ein Ergebnis in Schlagweite von H100 bereits ziemlich gut, da Nvidia immer noch sehr viele H100 verkauft und noch verkaufen wird.

amdfanuwe
2024-08-29, 13:50:58
Ich hoffe für AMD, dass CDNA4 relativ früh im 2025 lieferbar ist (MI350X).
Hoffe ich auch. Vorteil ist halt, dass AMD "nur" das GCD neu designen muss.
Wenn es dann nicht an der Software hakt, dürfte MI350 sich schnell verbreiten.

AffenJack
2024-08-29, 14:02:33
...und Blackwell legt auch wieder nach:
https://wccftech.com/nvidia-blackwell-mlperf-shatters-ai-performance-records-hopper-leadership-h100-h200-outperform-amd-mi300x/

Ich hoffe für AMD, dass CDNA4 relativ früh im 2025 lieferbar ist (MI350X). Blackwell wird es erst gegen Ende Jahr sein.

Nichtdestotrotz ist ein Ergebnis in Schlagweite von H100 bereits ziemlich gut, da Nvidia immer noch sehr viele H100 verkauft und noch verkaufen wird.

Ich glaube nicht, dass CDNA4 vor H2 kommen wird. Wichtig für AMD ist, dass man Anfang H2 kommt. Ich weiß nicht, wie du darauf kommst, dass Blackwell erst Ende des Jahres lieferbar sein wird. Blackwell kommt in Q4 24 und wird nur in H1 2025 Supply contraint sein. Das liegt aber auch an den völlig aberwitzigen Bestellmengen, die Nv haben soll, wenn man sich Semianalysis so durchliest.

Daher hat AMD mit Mi325X für H1 25 ne gute Lösung als Gegner von H200. Ab Anfang H2 sollte man dann aber mit Mi350X da sein, wenn Nvidia mit Blackwell nicht mehr supply limited ist.

basix
2024-08-29, 14:12:01
Hoffe ich auch. Vorteil ist halt, dass AMD "nur" das GCD neu designen muss.
Wenn es dann nicht an der Software hakt, dürfte MI350 sich schnell verbreiten.

Ja, Infrastruktur rund um MI300X bleibt bestehen.

Ich glaube aber nicht, dass die IOD nicht angepasst werden. Neue Chiplets, Zen 5, deutlich schnellerer HBM. Kann mir nicht vorstellen, dass das ohne Anpassungen funktioniert.

Bei MI350X hat AMD ja noch 35x Inferencing-Performance geteasert. Ich hatte mich dort gewundert, wie das gehen soll. Ich bin dann bei drei Gründen gelandet:
- Mehr FLOPS & TOPS durch N3 --> 2-3x
- INT4 / FP4 -> 2x
- Processing In Memory (PIM) beim HBM -> Samsung (wo es auch entsprechende Infos über HBM Deals zwischen AMD und Samsung gab)

Insbesondere PIM wird mMn für einen guten Teil der Performance-Steigerung verantwortlich sein. Da man bei ML/AI inhärent Memory-Bound ist, passt PIM hier wie die Faust aufs Auge.

Infos von Samsung & AMD zu PIM:
https://semiconductor.samsung.com/news-events/tech-blog/hbm-pim-cutting-edge-memory-technology-to-accelerate-next-generation-ai/
https://youtu.be/3jHi8E5C-18?t=1301
https://www.servethehome.com/samsung-processing-in-memory-technology-at-hot-chips-2023/

Ich weiß nicht, wie du darauf kommst, dass Blackwell erst Ende des Jahres lieferbar sein wird. Blackwell kommt in Q4 24 und wird nur in H1 2025 Supply contraint sein. Das liegt aber auch an den völlig aberwitzigen Bestellmengen, die Nv haben soll, wenn man sich Semianalysis so durchliest.
Bei Computerbase liest sich das als "gegen Ende Jahr" ;) Erste kleinere Auslieferungen sind nicht Match entscheidend.
https://www.computerbase.de/2024-08/quartalszahlen-nvidia-schliesst-rekordquartal-ab-und-bessert-blackwell-nach/
Die Produktion soll im vierten Quartal hochgefahren werden [...]

Edit:
Evtl. ist Blackwell nur H1/2025 supply constrained weil dann ja MI350X da ist :D

AffenJack
2024-08-29, 14:25:07
Bei Computerbase liest sich das als "gegen Ende Jahr" ;) Erste kleinere Auslieferungen sind nicht Match entscheidend.
https://www.computerbase.de/2024-08/quartalszahlen-nvidia-schliesst-rekordquartal-ab-und-bessert-blackwell-nach/

Lustig, wie du dir die Sachen zurecht biegst und das elementare weg lässt:

Die Produktion soll im vierten Quartal hochgefahren werden und für einen Milliardenumsatz sorgen.

Blackwell hat schon in Q4 24 einen Milliardenumsatz.


Evtl. ist Blackwell nur H1/2025 supply constrained weil dann ja MI350X da ist :D

Bestimmt, wo Blackwell während seines Ramps in Q4 wohl AMDs Jahresumsatz 2024 mit Mi300x machen wird. Von den Ausliefermengen in Q1/Q2 25 wollen wir da noch gar nicht reden.

basix
2024-08-29, 14:30:03
1 Mrd. wären nichts im Vergleich was Hopper während einem Quartal macht. Auch 2-3 Mrd. wären deutlich weniger als Hopper. Und da Hopper noch steigen soll, wird Blackwell also nicht einen riesen Sprung / Start hinlegen, da Nvidias Umsatz nur leicht steigen solll im nächsten Quartal.

Deswegen sehe ich es als Fakt an, dass die Blackwell Stückzahlen in Q4/2024 noch begrenzt sein werden. Ich biege mir da nichts zurecht, zumindest nicht mehr als du dir ;)

Ausserdem heisst "Production Ramp" das was es heisst. Man startet die Produktion. Nicht "Delivery Ramp". Wenn man die Durchlaufzeit durch die Fabrik in Betracht zieht, könnte es sogar relativ spät in Q4/2024 werden für erste Blackwell Auslieferungen. Gekauft wird das von Firmen natürlich vorher, mit entsprechender Lead Time. Wie das dann in Nvidias Büchern niederschlägt, ist nochmal ein anderes Thema.

Hier nochmals offiziell von Nvidia:
Blackwell production ramp is scheduled to begin in the fourth quarter and continue into fiscal 2026.

Kann AMD hier also noch H1/2025 mit guten Volumen ausliefern, wäre man nicht viel später als Blackwell. Wird vermutlich nicht H1 klappen, doch wäre ein Win für AMD wenn doch.

AffenJack
2024-08-29, 14:59:19
1 Mrd. wären nichts im Vergleich was Hopper während einem Quartal macht. Fakt ist, dass die Stückzahlen in Q4/2024 noch begrenzt sein werden. Ich biege mir da nichts zurecht, zumindest nicht mehr als du dir ;)


Es ist auch nicht 1 Mrd. Direkt nach dem Zitat, was du genommen hast steht klar:
In Q4, we expect to get several billion dollars in Blackwell revenue.

Einige Mrd., natürlich ist das nix im Vergleich zu Hopper. Du rampst nicht sofort von 0 auf 20 Mrd$ pro Quartal. einige Mrd ist trotzdem eine Menge, die man erstmal schaffen muss.


Ausserdem heisst "Production Ramp" das was es heisst. Man startet die Produktion. Nicht "Delivery Ramp". Wenn man die Durchlaufzeit durch die Fabrik in Betracht zieht, könnte es sogar relativ spät in Q4/2024 werden für erste Blackwell Auslieferungen. Gekauft wird das von Firmen natürlich vorher, mit entsprechender Lead Time. Wie das dann in Nvidias Büchern niederschlägt, ist nochmal ein anderes Thema.

Hier von Nvidia:
And although Blackwell will start shipping out in billions of dollars at the end of this year,

Daher betont man auch, dass man schon Produkt liefert.


Hier nochmals offiziell von Nvidia:

Kann AMD hier also noch H1/2025 mit guten Volumen ausliefern, wäre man nicht viel später als Blackwell. Wird vermutlich nicht H1 klappen, doch wäre ein Win für AMD wenn doch.

Wie schon oben geschrieben, kommt danach der Satz mit several Billion. Ist dir außerdem klar, dass Fiscal 26 bei Nvidia das Jahr 25 ist?

Dann hätte AMD schon mehr zu Mi350X verlauten lassen, denn man müsste bald mit dem Sampling anfangen und wir hätten viel mehr Informationen zum Chip. Ich erwarte auf der Supercomputing in Q4, dass man den Chip vorstellt und man könnte mit etwas Glück noch dieses Jahr Samples ausliefern, um Ende Q2 auszuliefern. Realitisch ist das aber weniger, sonst hätte AMD schon offensiver über das Mi350X Sampling kommuniziert.

Tarkin
2024-08-29, 15:09:52
...und Blackwell legt auch wieder nach:
https://wccftech.com/nvidia-blackwell-mlperf-shatters-ai-performance-records-hopper-leadership-h100-h200-outperform-amd-mi300x/

Ich hoffe für AMD, dass CDNA4 relativ früh im 2025 lieferbar ist (MI350X). Blackwell wird es erst gegen Ende Jahr sein.

Nichtdestotrotz ist ein Ergebnis in Schlagweite von H100 bereits ziemlich gut, da Nvidia immer noch sehr viele H100 verkauft und noch verkaufen wird.

Offenbar kommt MI350 relativ bald.

https://community.amd.com/t5/instinct-accelerators/engineering-insights-unveiling-mlperf-results-on-amd-instinct/ba-p/705623

"Looking Ahead
We’re excited to continue showcasing the versatility and performance of AMD Instinct accelerators across future benchmarks as we expand our testing and optimization efforts. This is just the beginning of our journey. In the coming months, we plan to launch the next iterations of the AMD Instinct series, featuring among other advances, additional memory, support for lower precision data types, and increased compute power. Future ROCm releases target bringing software enhancements, including kernel improvements and advanced quantization support. Stay tuned for our next MLPerf submission—we look forward to sharing our progress and insights with you."

Das klingt nicht nach H2 2025 sondern eher Q1 2025 (am 10. Okt sollen Turin+MI325 kommen ... und das ist ja nur ein refesh von mi300 - ohne Support für lower precision data types)

basix
2024-08-29, 15:13:26
@Affenjack
Wie gesagt, du biegst dir die Infos nicht weniger zurecht wie ich mir ;)

Deine Punkte haben eine valide Argumentation. Meine aber auch. Wir kennen die genauen Zahlen und Termine nicht und auch nicht wie und wann Nvidia das in ihren Büchern verbucht.

Das "start shipping in billions of dollars at the end of the year" und auch "Q4 we expect several billion dollars" zeigen: Sie starten Ende Jahr und ihr Fiscal Q4 geht bis Anfang 2025 rein. Hier müssen wir evtl. noch stärker aufpassen was jetzt Q4 ist, sodass wir uns hier nicht missverstehen. Ich meinte bei meinem Q4 die letzen 3 Monate von 2024 und nicht Nvidias Fiscal Q4/2025. Nvidia meint hier aber klar ihr Fiscal Q4. Dass Nvidias Fiscal 2026 bereits früh im 2025 anfängt ist mir bewusst ;)

amdfanuwe
2024-08-29, 15:32:59
Ich glaube aber nicht, dass die IOD nicht angepasst werden. Neue Chiplets, Zen 5, deutlich schnellerer HBM. Kann mir nicht vorstellen, dass das ohne Anpassungen funktioniert.

Bei MI350X hat AMD ja noch 35x Inferencing-Performance geteasert. Ich hatte mich dort gewundert, wie das gehen soll. Ich bin dann bei drei Gründen gelandet:
- Mehr FLOPS & TOPS durch N3 --> 2-3x
- INT4 / FP4 -> 2x
- Processing In Memory (PIM) beim HBM -> Samsung (wo es auch entsprechende Infos über HBM Deals zwischen AMD und Samsung gab)


schnellen HBM gibt es schon bei MI 325X.
ZEN 5 spielt bei MI 3xx X keine Rolle, haben nur GCDs.

35-Fach Inference ist schon eine Hausnummer, bezweifle jedoch, dass da PIM schon mitspielt. Der Chiplet wird ganz für AI Matrix designed. Eventuell kein FP64/FP32? Dürfte etwas Platz schaffen. Spezielle Matrix Einheiten für FP4? Würde das ganze in dem Bereich enorm beschleunigen. Eventuell fließt da auch Xilinx IP mit rein.

In den Fußnoten zu MI350X steht folgendes:
1MI300-55: Inference performance projections as of May 31, 2024 using engineering estimates based on the design of a future AMD CDNA 4-based Instinct MI350 Series accelerator as proxy for projected AMD CDNA™ 4 performance. A 1.8T GPT MoE model was evaluated assuming a token-to-token latency = 70ms real time, first token latency = 5s, input sequence length = 8k, output sequence length = 256, assuming a 4x 8-mode MI350 series proxy (CDNA4) vs. 8x MI300X per GPU performance comparison.
https://ir.amd.com/news-events/press-releases/detail/1201/amd-accelerates-pace-of-data-center-ai-innovation-and
"4x 8-mode MI350 series proxy (CDNA4) vs. 8x MI300X per GPU"
kann jemand damit etwas anfangen?

AffenJack
2024-08-29, 16:51:00
@Affenjack
Wie gesagt, du biegst dir die Infos nicht weniger zurecht wie ich mir ;)

Deine Punkte haben eine valide Argumentation. Meine aber auch. Wir kennen die genauen Zahlen und Termine nicht und auch nicht wie und wann Nvidia das in ihren Büchern verbucht.


Wir hatten das Thema ja schon in anderen Threads und haben andere Philosophien, wenn es ums Spekulieren geht. Du spekulierst lieber über die Dinge die in 90% der Fälle nicht eintreten. Ich halte es mit dem Realismus und bleibe bei den 90% die Eintreten.

Bezüglich der Quartale hast du durchaus Recht, dass es am Ende wahrscheinlich eher Januar werden wird. Am besten für AMD wäre, wenn man im Timing von Mi350X näher an Blackwell, als an Blackwell Ultra ist. Allerdings zweifle ich da noch dran.


In den Fußnoten zu MI350X steht folgendes:

https://ir.amd.com/news-events/press-releases/detail/1201/amd-accelerates-pace-of-data-center-ai-innovation-and
"4x 8-mode MI350 series proxy (CDNA4) vs. 8x MI300X per GPU"
kann jemand damit etwas anfangen?

Absolut kein Plan, was das heißen soll. 35x ist ja erstmal auch normalerweise komplett unrealitisch, so wie Nvidias 30x Blackwell vs Hopper. Da hatte man das wegen dem Interconnect bei LLMs begründet. AMD hat ohne Nvlink ebenso deutliche Skalierungsprobleme.

Vielleicht deshalb der Punkt, weil das die Geschwindigkeit pro Rack wegen einem deutlich besseren Interconnect wiederspiegeln soll? Daher in der neuen Lösung 32 GPU pro Rack vs 8 GPU vorher. 2x durch FP4, 2x durch neuen Chip und mehr Einheiten in N3, 4x durch 4mal soviele GPUs, sind wir schon bei 16x Geschwindigkeit des Mi300X Servers. Fehlt aber noch immer ein Faktor 2. Mit einem deutlich stärkeren Infinity Fabric, dass mehr GPUs verbindet, bevor man auf Ethernet wechseln muss wie Nvidia mit Nvlink vielleicht?

basix
2024-08-30, 00:25:07
Hmm, 4x Anzahl GPUs könnte sein.

Man kann es aber auch anders interpretieren:
- Die Performance wird "per GPU" normalisiert (macht auch Nvidia so)
- Man nimmt 4x MI350 (passt aufgrund mehr HBM und FP4 auf weniger GPUs, GPT4 benötigt bei FP4 888 GByte)
- Damit hat man auch 2x Interconnect Density vs. 8x GPUs was bei MoE enorm hilft
- 8-Mode = Man splitted GPUs jeweils in die Hälfte und packt jeweils 2 "Experts" von GPT4 auf eine Partition, das reduziert den North-South Traffic auf der GPU (siehe NPS Modes und MI300 Partitioning). Das nennt sich "Expert Parallel" (neben Tensor / Pipeline / Data Parallel)


Note:
- GPT4 1.8T MoE hat 16 "Experts"
- Jeder ist 111M Parameter schwer

Wenn ich dann Nvidias Blackwell Präsentation ansehe, ist Expert Parallel der Hauptgrund für 30x Performance-Boost:
- TPx = Tensor
- EPx = Expert --> EP8 & EP16 gewinnent deutlich -> 8-mode = EP8?
- PPx = Pipeline
- DPx = Data

Jetzt noch TP2/4 und/oder PP2/4 wie bei Nvidia, was sich ideal mit den jeweils 2x Chiplets pro IOD und den 4x Chiplets in den 8-mode Partitionen verbinden lässt und wir hätten evtl. die 35x Performance gefunden ;)
Ich verstehe aber zumindest bei Nvidias Analyse nicht, wieso man EP nicht auch bei Hopper machen kann (skaliert / lohnt es sich nicht?).
Dito bei MI300X, wo man EP8 wie auch EP16 mit 8x GPUs realisieren könnte (ausser dass mit FP8 zu wenig HBM-Kapazität da wäre...) und auch die entsprechende Aufteilung auf verschiedene GCDs ähnlich wäre wie bei MI350X.

https://developer-blogs.nvidia.com/wp-content/uploads/2024/05/peak-throughput-nvidia-blackwell.png
https://developer.nvidia.com/blog/demystifying-ai-inference-deployments-for-trillion-parameter-large-language-models/

Zossel
2024-08-30, 07:19:00
https://developer.nvidia.com/blog/demystifying-ai-inference-deployments-for-trillion-parameter-large-language-models/

Gibt es mittlerweile eigentlich belastbare Businesscases für diese stochastischen Papageien?
Und gibt es mittlerweile was von Ratiopharm gegen den Habsburger-Effekt?

Zossel
2024-08-30, 07:23:48
Nvidia ist aber derzeit das 12fache von AMD wert

Schon spannend das man das mit offensichtlich kaputten Computern hinbekommt:
But it’s not perfect. NVLink C2C’s theoretical 450 GB/s is difficult to utilize because of high latency. Link errors and system hangs are a concerning problem, and point to the difficulty of validating a custom interconnect.
https://chipsandcheese.com/2024/07/31/grace-hopper-nvidias-halfway-apu/

AffenJack
2024-08-30, 08:19:35
Hmm, 4x Anzahl GPUs könnte sein.

Man kann es aber auch anders interpretieren:
- Die Performance wird "per GPU" normalisiert (macht auch Nvidia so)
- Man nimmt 4x MI350 (passt aufgrund mehr HBM und FP4 auf weniger GPUs, GPT4 benötigt bei FP4 888 GByte)
- Damit hat man auch 2x Interconnect Density vs. 8x GPUs was bei MoE enorm hilft
- 8-Mode = Man splitted GPUs jeweils in die Hälfte und packt jeweils 2 "Experts" von GPT4 auf eine Partition, das reduziert den North-South Traffic auf der GPU (siehe NPS Modes und MI300 Partitioning). Das nennt sich "Expert Parallel" (neben Tensor / Pipeline / Data Parallel)

Macht mehr Sinn als 4x soviel GPU. Dann ist das zwar immernoch etwas merkwürdig, weil man Density pro Rack opfern würde, aber das kann durchaus die etwas Cherrypicked Lösung sein, die dann auf die GPU normalisiert den besten Faktor erzeugt. 8xGPU dürfte es auch geben, aber könnte eben schlechter skalieren. Ist ja auch Up to 35x.


Note:
- GPT4 1.8T MoE hat 16 "Experts"
- Jeder ist 111M Parameter schwer

Wenn ich dann Nvidias Blackwell Präsentation ansehe, ist Expert Parallel der Hauptgrund für 30x Performance-Boost:
- TPx = Tensor
- EPx = Expert --> EP8 & EP16 gewinnent deutlich -> 8-mode = EP8?
- PPx = Pipeline
- DPx = Data

Jetzt noch TP2/4 und/oder PP2/4 wie bei Nvidia, was sich ideal mit den jeweils 2x Chiplets pro IOD und den 4x Chiplets in den 8-mode Partitionen verbinden lässt und wir hätten evtl. die 35x Performance gefunden ;)
Ich verstehe aber zumindest bei Nvidias Analyse nicht, wieso man EP nicht auch bei Hopper machen kann (skaliert / lohnt es sich nicht?).
Dito bei MI300X, wo man EP8 wie auch EP16 mit 8x GPUs realisieren könnte (ausser dass mit FP8 zu wenig HBM-Kapazität da wäre...) und auch die entsprechende Aufteilung auf verschiedene GCDs ähnlich wäre wie bei MI350X.

https://developer-blogs.nvidia.com/wp-content/uploads/2024/05/peak-throughput-nvidia-blackwell.png
https://developer.nvidia.com/blog/demystifying-ai-inference-deployments-for-trillion-parameter-large-language-models/

Man sieht in dem Graph ja nicht nur den Unterschied FP4 zu FP8, sondern auch B200 zu GB200. Ich dachte da, das liegt auch daran, dass GB200 die 500GB Ram von Grace mitnutzen kann und das erst dann in den Ram passt. Aber ohne Vergleich zu B200 mit FP4 unmöglich zu sagen, wieviel Einfluss, was hat.

Badesalz
2024-08-30, 09:29:54
Wo kommt das eigentlich her, daß 350X bei HPC raus ist? Instinct ist in HPC ein absolutes Brett und das nicht nur auf dem Papier.

basix
2024-08-30, 10:14:47
Ist nur eine Idee, wie man AI-Peformance drastisch steigern könnte, weil halt Platz frei wird. Macht Nvidia bei Blackwell ebenso.

Ich erwarte aber nicht, dass man FP64 fallen lässt oder reduziert. Ich erwarte, dass man Low Precision Matrix einfach stärker skaliert, z.B. 1.3x FLOPS für FP64 und 2.6x FLOPS für Low Precision Matrix. Also FP64 wird nur durch generelle Breite & Takt schneller, bei Low Precision Matrix verdoppelt man die Units pro CU.

Man sieht in dem Graph ja nicht nur den Unterschied FP4 zu FP8, sondern auch B200 zu GB200. Ich dachte da, das liegt auch daran, dass GB200 die 500GB Ram von Grace mitnutzen kann und das erst dann in den Ram passt. Aber ohne Vergleich zu B200 mit FP4 unmöglich zu sagen, wieviel Einfluss, was hat.

Ja ist mir auch nicht ganz klar. Ich hatte auch MI350A überlegt, aber dann passt das mit dem 8-mode nicht mehr. Könnte man theoretisch immer noch machen, aber dann würde man von 12 GPU-Slices nur 8 Partitionen nutzen, was mir nicht sinnvoll erscheint.
Am naheliegensten scheint grundsätzlich zu sein, dass man das ganze Ding den HBM bekommt, weil man 4x 288 GByte hat. Allein das wird einen guten Boost geben. Könnte bei GB200 ebenfalls ein Teil der "Lösung" sein, nur braucht das AMD hier nicht.

Badesalz
2024-08-30, 10:21:17
Schon spannend das man das mit offensichtlich kaputten Computern hinbekommt:

https://chipsandcheese.com/2024/07/31/grace-hopper-nvidias-halfway-apu/Fehlte hier bisher das Forschungsprojekt? :tongue: HP hat Crays Slingshot eigentlich erst beim Frontier so richtig ausentwickelt :usweet:
Das Zeug rennt jetzt aber wenigstens auch richtig.

@all Theoristen
Egal was man herbeifabulieren möchte, beachtet immer die Energie. Du Kundchaft ist da fortlaufend am lästern. Die 700/750 hält man schon für Grenzwertig. Den 1kW kann sich imho nur NV erlauben, wenn wer gallig drauf ist. Normalerweise ist das schon ein nogo. Und das betrifft AMD natürlich auch.

AffenJack
2024-08-30, 11:10:52
Wo kommt das eigentlich her, daß 350X bei HPC raus ist? Instinct ist in HPC ein absolutes Brett und das nicht nur auf dem Papier.

Mi300X wurde für Frontier designed, aber sonst ist der HPC Markt winzig im Vergleich zu AI. Wieso sollte man für einen 5Mrd$ Markt seine kpnkurrenzfahigkeit im 100Mrd$ Markt riskieren. Es spricht auch nix gegen nur bei Mi350x Fp64 zu reduzieren und in Mi400x in HPC die nächste Steigerung zu bringen. Will man wirklich konkurrieren, baut man in Mi400x ein HPC und ein AI Chiplet und konfiguriert nach Kundenbedarf. Dafür ist doch gerade Chiplet da. HPC braucht keinen Mid-refresh jährlich, da reicht alle zwei Jahre was.


@all Theoristen
Egal was man herbeifabulieren möchte, beachtet immer die Energie. Du Kundchaft ist da fortlaufend am lästern. Die 700/750 hält man schon für Grenzwertig. Den 1kW kann sich imho nur NV erlauben, wenn wer gallig drauf ist. Normalerweise ist das schon ein nogo. Und das betrifft AMD natürlich auch.

Das ist nicht Nvidia, sondern die Cowos Entwicklung. Es ist klar, dass der Stromverbrauch pro Sockel wächst, wenn die Gpu immer größer wird. Mit der nächsten Cowos Ausbaustufe 2026 werden wir wahrscheinlich auf 1,4kw Standard gehen. Ist ja nicht so, dass Nvidia das vorgibt. Die Kunden wollen Leistung und nehmen den Stromverbrauch in Kauf. Aber diese Kunden bauen dafür auch komplett neue Rechenzentren. In alten ist das viel mehr das Problem.

mksn7
2024-08-30, 11:44:57
Ist nur eine Idee, wie man AI-Peformance drastisch steigern könnte, weil halt Platz frei wird. Macht Nvidia bei Blackwell ebenso.

Ich erwarte aber nicht, dass man FP64 fallen lässt oder reduziert. Ich erwarte, dass man Low Precision Matrix einfach stärker skaliert, z.B. 1.3x FLOPS für FP64 und 2.6x FLOPS für Low Precision Matrix. Also FP64 wird nur durch generelle Breite & Takt schneller, bei Low Precision Matrix verdoppelt man die Units pro CU.


Denke ich auch. Im HPC stört das Wegfallen von FP64 auf den Tensor Cores aber auch nicht. Der einzige use case wo das hilft sind DGEMMs, und die braucht man im wissenschaftlichen Rechnen nur manchmal. Im Linpack halt schon, daher siehts doof aus wenn die neue hardware nicht schneller ist, den Anwendungen ist es egal.

Badesalz
2024-08-30, 11:46:58
Will man wirklich konkurrieren, baut man in Mi400x ein HPC und ein AI Chiplet und konfiguriert nach KundenbedarfGenau das hab ich mir vorher auch schon überlegt. AMD muss sich ja nicht entweder/oder entscheiden.

Mit der nächsten Cowos Ausbaustufe 2026 werden wir wahrscheinlich auf 1,4kw Standard gehen. Ist ja nicht so, dass Nvidia das vorgibt. Die Kunden wollen Leistung und nehmen den Stromverbrauch in Kauf.Altman vielleicht. Generell ist das aber nicht so. Man pfeift schon teilweise aus dem letzten Loch.

Aber diese Kunden bauen dafür auch komplett neue Rechenzentren. In alten ist das viel mehr das Problem.Tatsächlich? Es ist imho so prekär, daß die Kunden schon versuchen eigene Atomkraftwerke zu entwickeln ;)

Das ist alles nicht mehr einfach so schnipp-schnipp. Energie ist nun überall ein großes Thema.

Zossel
2024-08-30, 11:48:17
Mi300X wurde für Frontier designed, aber sonst ist der HPC Markt winzig im Vergleich zu AI. Wieso sollte man für einen 5Mrd$ Markt seine kpnkurrenzfahigkeit im 100Mrd$ Markt riskieren. Es spricht auch nix gegen nur bei Mi350x Fp64 zu reduzieren und in Mi400x in HPC die nächste Steigerung zu bringen. Will man wirklich konkurrieren, baut man in Mi400x ein HPC und ein AI Chiplet und konfiguriert nach Kundenbedarf. Dafür ist doch gerade Chiplet da. HPC braucht keinen Mid-refresh jährlich, da reicht alle zwei Jahre was.

Legst du uns deine Kalkulation bzgl. R&D, Diefläche, Stückkosten, erwarteten Stückzahlen, Rüstkosten (Masken), etc. mal offen.
Du scheinst da an sehr interessante interne Informationen von AMD ran gekommen zu sein.

amdfanuwe
2024-08-30, 12:02:07
dass man Low Precision Matrix einfach stärker skaliert,
"einfach" ist das Problem :-)
Die Hardwareressourcen sind begrenzt und man muss sich überlegen, wofür man optimiert. Manchmal kostet es nicht viel um weitere nützliche Funktionalität zu erhalten. Das nimmt man dann mit.
AMD könnte es sich durchaus leisten mehrgleisig zu fahren. CDNA3 war auf HPC mit entsprechender FP64 Leistung optimiert. CDNA4 geht erstmal Richtung ML.
Kommt halt darauf an, wieviel es "kostet" zusätzliche für ML nicht notwendige Funktionen zu unterstützen.
Vielleicht wird CDNA4 nichts weiter als eine dicke AI Engine wie sie im Phoenix und Strix Point oder wie die AIE-ML in den Versal Chips verwendet wird.

basix
2024-08-30, 13:14:28
Mit N3E wird schon deutlich mehr Logik-Fläche frei und zusätzliche Matrix-HW kostet genau das, Logik-Transistoren. Natürlich muss man rund herum auch ein wenig skalieren, evtl. verdoppelt man wieder den L1$ der ist immer noch relativ mickrig im Vergleich zu Nvidias GPUs. Zudem wird die HBM Bandbreite noch gesteigert. Auch wenn man damit die FLOPS-Utilization evtl. insgesamt reduziert, ist es doch ein "relativ einfacher" weg für einen ML/AI Performance Boost.

Natürlich könnte es ein reiner AI-Accelerator werden (wie du sagst via AIE-ML) und das hätte sicher seine Berechtigung. Ich sehe da aber dann Themen rund um SW & ROCm, welche dann eine andere Architektur unterstützen müssen. Ich weiss nicht, ob AMD hier die entsprechende Manpower dafür hat, hier zweigleisig zu fahren. Langfristig wird eine entsprechende Spezialisierung mit hoher Wahrscheinlichkeit eintreten, wenn die Skalierung nach oben sonst keine anderen Wege findet.

dildo4u
2024-09-09, 17:27:17
Kein Plan warum aber die Architekturen sollen wieder zusammengeführt werden.


https://videocardz.com/newz/amd-udna-to-unify-gaming-and-data-center-gpu-architectures-successor-to-rdna-and-cdna

aufkrawall
2024-09-09, 17:46:32
Kein Plan warum aber die Architekturen sollen wieder zusammengeführt werden.

Etwa, weil RDNA5 angeblich dedizierte Tensor Cores haben soll. Wozu splitten, wenn man eh Client und Datacenter immer stärker auf ML optimieren muss.

dildo4u
2024-09-09, 17:49:07
Für mich klingt es danach das man scheiße als Gold verkauft, der Marktführer gibt das Geld aus zwei Lösungen zu bauen das hier ist eine Sparmaßnahme.

aufkrawall
2024-09-09, 17:50:57
Nö. Die Sparmaßnahme war die Aufsplittung.

AffenJack
2024-09-09, 18:57:32
Kein Plan warum aber die Architekturen sollen wieder zusammengeführt werden.

https://videocardz.com/newz/amd-udna-to-unify-gaming-and-data-center-gpu-architectures-successor-to-rdna-and-cdna

War für mich schon lange die logische Konsequenz. Was gabs hier für nen Aufschrei, dass es kein Sinn macht.

Für mich klingt es danach das man scheiße als Gold verkauft, der Marktführer gibt das Geld aus zwei Lösungen zu bauen das hier ist eine Sparmaßnahme.

Deshalb hat Nvidia ja auch eine Architektur, weil sie kein Geld haben.... Eine Architektur ist einfach deutlich sinniger. Nvidia ist deshalb auch in AI so groß, weil jeder Entwickler das Zeug auf den Desktopgpus ausprobieren kann. Es gibt zwar Unterschiede zwischen Consumer und HPC GPUs, aber die beiden sind kompatibel zueinander und unterstützen größtenteils die gleichen Programmierfeatures. Nvidia designt eine Architektur und kann dort in seinen SMs Caches, FP Units, Tensor Units etc. frei konfigurieren.

Bei AMD dagegen ist das viel zu umständlich mit RDNA und CDNA. Die Vereinheitlichung ist nur logisch, damit man sein Entwicklerökosystem ordentlich pushen kann. Zwar mag es gewisse Nachteile geben durch Ineffizienzen, die man durch 2 separate Architekturen besser lösen kann, aber es überwiegen eben die Vorteile, wenn man Personen in sein Ökosystem holen will.

dildo4u
2024-09-09, 19:16:24
Ich dachte die Neuen NV Server GPU wurden umgebaut damit sie Dual Die Konfigurationen erlauben.
Das scheint nicht für die Konsumer Modelle geplant.

reaperrr
2024-09-09, 20:02:31
Für mich klingt es danach das man scheiße als Gold verkauft, der Marktführer gibt das Geld aus zwei Lösungen zu bauen das hier ist eine Sparmaßnahme.
Wie aufkrawall schon schrieb, nö, genau falsch rum interpretiert.

AMD war zu dem Zeitpunkt architekturell zu weit zurück, um ne Eiermilchlegende Wollmilchsau-uArch aus dem Hut zu zaubern, die alles gut und konkurrenzfähig kann.

CDNA ist im Kern immer noch die asbach-uralte GCN-Architektur, bloß mit allem möglichen Grafik-relevanten Zeug entfernt um mehr Transistoren in ALUs etc. stecken zu können und so trotz an sich veralteter uArch konkurrenzfähig bei spezifischen HPC-Anwendungsbereichen zu sein.

Aber wahrscheinlich stößt CDNA bei Dingen wie Takt irgendwann an seine Grenzen, hohe DP-Leistung war seit jeher ne Nische, und im KI-Bereich werden vermutlich auch wieder vermehrt Fähigkeiten zur visuellen Ausgabe verlangt, die CDNA nicht mehr hat, während KI gleichzeitig auch im Desktop wichtiger wird.
Anders ausgedrückt, beide Märkte bewegen sich bei einigen Anforderungen wieder aufeinander zu, so dass es Sinn macht, ne neue uArch aufzulegen die wieder beides kombiniert.

Das scheint nicht für die Konsumer Modelle geplant.
Weil es sich nicht lohnt, der Flächenoverhead und die Latenznachteile sind in HPC/AI OK, aber für Spiele in der Form (Blackwell-Ansatz) mit zu vielen Nachteilen.

Beim HPC-Blackwell machen sie es auch hauptsächlich, um die Flächenlimitierungen der Belichtungsmaschinen zu umgehen.
An Spiele-GPUs verdient man je Karte verglichen mit HPC-Beschleunigern zu wenig um so viel Silizium zu verwenden.
Das würde NV mMn nur dann bringen, wenn es wegen Prestige nötig wäre, um z.B. nicht gegen RDNA5 zu verlieren.

mksn7
2024-09-09, 20:35:44
CDNA ist im Kern immer noch die asbach-uralte GCN-Architektur, bloß mit allem möglichen Grafik-relevanten Zeug entfernt um mehr Transistoren in ALUs etc. stecken zu können und so trotz an sich veralteter uArch konkurrenzfähig bei spezifischen HPC-Anwendungsbereichen zu sein.


Seh ich genauso. RDNA ist in vielerlei Hinsicht die modernere Architektur, die vieles besser macht als CDNA. Ich warte schon länger drauf, ob da nicht mal Elemente wie z.B. der L0 cache (nicht der L1 cache, der ist eher etwas kurios) gebackportet werden. Ich hab leider immer noch keine Gelegenheit gehabt um CDNA3 testen zu können, aber bei Chips&Cheese hängt der schon wieder nur bei 64B/cycle rum.

AffenJack
2024-09-09, 21:16:43
Ich dachte die Neuen NV Server GPU wurden umgebaut damit sie Dual Die Konfigurationen erlauben.
Das scheint nicht für die Konsumer Modelle geplant.

Das hat nichts mit der Architektur zu tun. N31 und N33 sind auch eine Architektur, obwohl Multichip und Singlechip.

Nvidia orientiert sich bei den Architekturen an den Compute Features. Wenn HPC und Consumer die gleichen Features haben, dann ist es eine Architektur, verschiedene Features unterschiedliche Architektur. Rest ist konfigurationssache, wie schnell es geht. Deshalb waren Ampere bei Nv alle eine Architektur und Lovelace/Hopper getrennt. Mit Blackwell dagegen wieder zusammen. Man versucht da wohl alle 2 Gens die Architekturen wieder zu vereinen, damit die nicht zu weit auseinander gehen.

Aber genug zu Nv.

Ich begrüße die Entwicklung und hoffe das damit auch Gaming den Vorteil hat von den Einnahmen aus dem HPC Bereich zu profitieren. Sonst würde das Geld einfach nur in die HPC Entwicklung gehen.

basix
2024-09-09, 21:35:09
Mit CDNA kommt in die GPU-Sparte endlich deutlich mehr Geld rein. Und einige Architektur-Features wie Matrix-Cores werden bei beiden Produkt-Linien zum Einsatz kommen. Damit kann man sich Entwicklungsaufwand für eine Vereinheitlichung leisten und das R&D Budget "teilen", was mMn langfristig die richtige Strategie ist (Synergien nutzen wo möglich). Bei HW fängt das an und bei SW hört das dann auf. Die Strategie war damals bei CDNA und RDNA Aufsplittung evtl. auch die richtige (man brauchte möglichst schnell sowas wie CDNA) aber die Marktverhältnisse und Anwendungsprofile haben sich geändert. Compute war auch bei Gaming-Architekturen wichtig und jetzt kommen noch die Matrix Cores dazu. Und da CDNA wie auch RDNA auf Chiplets gehen oder schon gegangen sind, kann man sich entsprechende Interconnect und Data-Transport IP für beide Produktsparten teilen. Da gibt es also viel Annhäerung beim Technologiestack.

dildo4u
2024-10-10, 19:09:30
MI325X/355X Specs/ Benchmarks von AMD


https://wccftech.com/amd-instinct-mi325x-first-ai-gpu-256-gb-hbm3e-288-gb-mi355x-cdna-4-next-year

amdfanuwe
2024-11-20, 05:11:43
Microsoft hat sich offensichtlich eine MI300C Variante von AMD zusammenkleben lassen:
https://www.hardwareluxx.de/index.php/news/hardware/prozessoren/64926-azure-hbv5-amd-und-microsoft-haben-epyc-cpu-mit-hbm-entwickelt.html
6,9 TB/s an Speicherbandbreite soll die Azure HBv5 VM anbieten können. Dabei besteht diese aber nicht aus nur einem Prozessor, sondern Microsoft gibt 352 Zen-4-Kerne mit einem Takt von bis zu 4 GHz an. Jedem Kern sollen bis zu 9 GB zur Verfügung stehen und die erwähnten 6,9 TB/s werden im STREAM Triad auf 400 bis 450 GB an HBM3 erreicht. SMT ist deaktiviert und pro Server gibt es nur eine VM, sodass sich nicht mehrere VMs die Hardware teilen müssen.
...
Da Microsoft in der Netzwerkanbindung von insgesamt 800 GBit/s, aufgeteilt in viermal 200 GBit/s, spricht, könnte man von vier Prozessoren ausgehen. Bei 352 Kernen würde dies 88 Kerne pro Prozessor bedeuten

https://www.hardwareluxx.de/images/cdn02/uploads/2024/Nov/modest_data_0a/microsoft-azure-hbv5-vm-1_680px.jpg

Zur Erinnerung: MI300A bietet 24 Kerne, 128GB HBM und 5,3 TB/s Speicherbandbreite.
MI300C dürfte da 96 Kerne mit 128GB HBM haben.
Ob da Microsoft 8 Kerne für die Verwaltung der VM einsetzt oder ob aus Yield Gründen 8 Kerne abgeschaltet sind, wer weiß?
Jedenfalls sind es 4 x 88 = 352 Kerne für die VM
Die Bezeichnung CPU #0/#3 bzw. CPU#1/#2 deuten noch auf gespiegelte Varianten des Pinout hin.

In der ZEN6 Generation dann mit 4 x 4 x 32 Kern/CCD = 1408 Kerne?
Mit HBM 3E doppelter Speicher?
Jedenfalls ein schönes Beispiel dafür, dass die SemiCustom Abteilung mehr kann als Spielkonsolen.

Nightspider
2024-11-20, 05:40:53
Die 256MB Infinity Cache der 4 IO Dies werden für die CPU Kerne dann als Last Level Cache genutzt, richtig?

Wenn man dann noch CCDs mit V-Cache verbauen würde wäre das ein Bandbreiten+Cache Monster.

Gipsel
2024-11-20, 10:52:32
Microsoft hat sich offensichtlich eine MI300C Variante von AMD zusammenkleben lassen:
https://www.hardwareluxx.de/index.php/news/hardware/prozessoren/64926-azure-hbv5-amd-und-microsoft-haben-epyc-cpu-mit-hbm-entwickelt.html


https://www.hardwareluxx.de/images/cdn02/uploads/2024/Nov/modest_data_0a/microsoft-azure-hbv5-vm-1_680px.jpg

Zur Erinnerung: MI300A bietet 24 Kerne, 128GB HBM und 5,3 TB/s Speicherbandbreite.
MI300C dürfte da 96 Kerne mit 128GB HBM haben.
Ob da Microsoft 8 Kerne für die Verwaltung der VM einsetzt oder ob aus Yield Gründen 8 Kerne abgeschaltet sind, wer weiß?
Jedenfalls sind es 4 x 88 * 352 Kerne für die VM
Die Bezeichnung CPU #0/#3 bzw. CPU#1/#2 deuten noch auf gespiegelte Varianten des Pinout hin.Also quasi ein MI300, wo alle XCDs durch CCDs ersetzt wurden? Ein MI300 hat ja 8 XCDs auf 4 IO-Dies, MI300A ersetzt 2 der XCDs durch 3 CCDs auf einem IO-Die (die anderen 3 IO-Dies enthalten immer noch jeweils 2 XCDs) und beim Mi300C läßt man die XCDs dann komplett weg und packt 12 CCDs drauf (8 Kerne fehlen offenbar wegen Redundanz oder wer weiß weswegen). Sind dann ja quasi reine CPUs nur mit einem komplett anderen IO-Unterbau inklusive dem (Infinity-) MALL-Cache im Vergleich zu den Epycs.

Zossel
2024-11-20, 21:19:08
Also quasi ein MI300, wo alle XCDs durch CCDs ersetzt wurden? Ein MI300 hat ja 8 XCDs auf 4 IO-Dies, MI300A ersetzt 2 der XCDs durch 3 CCDs auf einem IO-Die (die anderen 3 IO-Dies enthalten immer noch jeweils 2 XCDs) und beim Mi300C läßt man die XCDs dann komplett weg und packt 12 CCDs drauf (8 Kerne fehlen offenbar wegen Redundanz oder wer weiß weswegen). Sind dann ja quasi reine CPUs nur mit einem komplett anderen IO-Unterbau inklusive dem (Infinity-) MALL-Cache im Vergleich zu den Epycs.

Der Baukasten von AMD fügt sich weiter zusammen.
Ich bin gespannt wann solche Technik in tieferen Preisregionen verfügbar sein wird.

Zossel
2024-11-20, 21:22:55
Ob da Microsoft 8 Kerne für die Verwaltung der VM einsetzt

Eigentlich verteilt man alles (Kernelspace, Userspace (incl. VMs) über einen Scheduler, alles andere wäre dumm.

basix
2024-11-20, 22:15:01
Ich habe noch eine Speku für CDNA4:
Könnte man nicht LPDDR5X / LPDDR6(X) auf das Package schnallen? Dadurch hätte man die Vorteile von Nvidias GH200 / GB200 ohne deren Nachteile. Und dazu die Vorteile von MI300X & MI300A. Einziger Nachteil ist, dass man irgendwo die 70mm2 Platz für ein Zen 5 CCD auf dem Base-Die freihalten muss. Dafür verliert man bei der APU-Variante keinen der vier Quadranten. Ich stelle mir das in etwa so vor wie im Bild im Anhang dargestellt:
- 8-stack HBM3e
- 8-channel LPDDR5X / LPDDR6(X)
- Package Breite: Die 8 DRAM Packages sollte auf dem Package / OAM Modul knapp Platz haben
- Package Höhe: Dort hat man noch Platz

Vorteile:
- Hohe Integration von GPU, CPU und Speicher (Latenz, Bandbreite, Energieeffizienz)
- Mehr Speicher für Inferencing & Training
- Man benötigt keine zusätzlichen Host-CPUs mehr (höhere Dichte im Server-Rack)
- Verbesserte thermische Homogenität auf dem Package (Kühlung)

Die Technologie für solch eine Umsetzung wäre eigentlich vorhanden :)

vinacis_vivids
2024-12-06, 09:52:57
Neue Benches mit AMD MI300X vs NV H100

https://dstack.ai/blog/h100-mi300x-inference-benchmark/#time-to-first-token

Hier geht es um Inference in fp8

basix
2024-12-06, 20:04:18
Interessantes Bloomberg Video, Interview mit Lisa Su:
https://www.youtube.com/watch?v=8Ve5SAFPYZ8

TheAntitheist
2024-12-07, 05:53:22
Neue Benches mit AMD MI300X vs NV H100

https://dstack.ai/blog/h100-mi300x-inference-benchmark/#time-to-first-token

Hier geht es um Inference in fp8
h200 wäre aber der richtige Gegner
https://www.amax.com/content/images/size/w2000/2024/08/ml-perf-header-7-01.png

=Floi=
2024-12-07, 06:14:53
wie es nv nicht mehr schafft echte bilder der hardware zu veröffentlichen.

vinacis_vivids
2024-12-07, 09:18:28
h200 wäre aber der richtige Gegner
https://www.amax.com/content/images/size/w2000/2024/08/ml-perf-header-7-01.png

Guck mal ganz rechts, das ist relevant ggü. Nvidia.

https://i.ibb.co/VYnvf5R/h100-mi300x-inference-benchmark-throughput.png

Und auch mal lesen liebe Leut eund nicht alles nachplappern:

"In Lambda ’ benchmark, an 8xH200 setup processed 3.4 times more tokens per second than an 8xH100. Extrapolating to our setup, an 8xH200 would process around 2,186 tokens per second (3.4 × 643), though still lower than 8xMI300x."

8 x MI300X ~ 3,095 tokens
8 X H200 ~ 2,186 tokens
8 X H100 ~ 643 tokens

Und wir reden noch nicht vom verbesserten MI325X, welcher noch besser ist bei large/large tokens.

TheAntitheist
2024-12-07, 21:11:58
Guck mal ganz rechts, das ist relevant ggü. Nvidia.

https://i.ibb.co/VYnvf5R/h100-mi300x-inference-benchmark-throughput.png

Und auch mal lesen liebe Leut eund nicht alles nachplappern:

"In Lambda ’ benchmark, an 8xH200 setup processed 3.4 times more tokens per second than an 8xH100. Extrapolating to our setup, an 8xH200 would process around 2,186 tokens per second (3.4 × 643), though still lower than 8xMI300x."

8 x MI300X ~ 3,095 tokens
8 X H200 ~ 2,186 tokens
8 X H100 ~ 643 tokens

Und wir reden noch nicht vom verbesserten MI325X, welcher noch besser ist bei large/large tokens.
du plapperst doch nur Müll nach, seit Jahren hier.

B200 ist der Gegner von 350 und da ist Nvidia mehr als doppelt so schnell... eher 3x

https://www.servethehome.com/wp-content/uploads/2024/08/MLPerf-Inference-v4.1-AMD-MI300X-750W-to-NVIDIA-H200-1kW-and-NVIDIA-B200-1kW-Comparison.jpg

Es hat schon seine Gründe warum Nvidia 90% des Marktes hat...

vinacis_vivids
2024-12-08, 03:50:21
"For AMD MI300x, we used amd/Llama-3.1-405B-Instruct-FP8-KV to achieve optimal performance, relying on AMD for quantization."

Leute, auch mal lesen und nicht nur Nvidia-Spiel nachplappern.

MI300X ist optimiert in large tokens schneller und günstiger als H200.

Bei B200 müssen wir eh den Preis ansetzen und da ist AMD Preis-Leistung ebenfalls besser. Es is zu bezweifeln ob NV mit wenig Speicher oben mithalten kann oder der VRAM schon vorher ausgeht.

Milchkanne
2024-12-12, 17:13:50
"For AMD MI300x, we used amd/Llama-3.1-405B-Instruct-FP8-KV to achieve optimal performance, relying on AMD for quantization."

Leute, auch mal lesen und nicht nur Nvidia-Spiel nachplappern.


Ich denke es ist eher das hier:

We compared throughput at batch size 16 for 8xH100 and batch size 64 for 8xMI300x. The 8xH100 setup begins to struggle with batch size 16 due to memory saturation, resulting in slower generation times.

Das macht vermutlich einen größeren Unterschied. Keine Ahnung, wo TheAntitheist seine Graphen her hat, aber vermutlich wurden da gleiche Batch sizes verglichen.

basix
2024-12-15, 11:25:47
Keine Ahnung, wo TheAntitheist seine Graphen her hat, aber vermutlich wurden da gleiche Batch sizes verglichen.

Naja, wenn Servethehome in der Grafik steht wird es auch von dort sein ;)
https://www.servethehome.com/mlperf-inference-v4-1-nvidia-b200-whallops-amd-mi300x-untetherai-rises/

Sind die bei MLPerf Inference v4.1 eingereichten Resultate von AMD und Nvidia. Also wohl ziemlich Optimum vs. Optimum. Man muss da immer schauen, was da verglichen wird. Single Accelerator oder Multi. H100 (80GB) oder H200 (141GB). Wenn MI300X den Speichermengenvorteil nicht ausspielen kann, liegt H100/H200 typ. ein wenig vorne. Verwundert aber nicht, Nvidia hat ihre HW und SW im Griff. B200 liegt dann deutlich weiter vorne aber viele Systeme könnten auf B100 setzen, der gleich viel Speicher / Bandbreite hat aber bei 700W vs. 1000W und 78% der Roh-FLOPS liegt. Nvidia zeigt natürlich nur B200.

AMD platziert ihre GPUs aber auch klar gegenüber H100/H200 und das macht absolut Sinn. Es werden immer noch sehr viele Hopper-GPUs verkauft. AMD muss da aber schon dran bleiben, CDNA4 pushen und möglichst bald auf den Markt bringen. Blackwell wird schnell rampen und Hopper ablösen.

Nightspider
2024-12-16, 12:12:36
Was wissen wir eigentlich bisher über MI355 ?

Aufbau quasi identisch zu MI300 ?

Die 4nm Compute Tiles werden durch 3nm Compute Tiles getauscht oder?

Dürfte wohl N3E werden oder? Der Sprung von N4P wird dann ja relativ klein!?

fondness
2024-12-16, 12:15:26
MI300 ist noch in 5nm. Und N3E ist ein full-node-shrink, das ist ein deutlicher Sprung.

amdfanuwe
2024-12-16, 12:53:46
Was wissen wir eigentlich bisher über MI355 ?

Aufbau quasi identisch zu MI300 ?

Die 4nm Compute Tiles werden durch 3nm Compute Tiles getauscht oder?

Dürfte wohl N3E werden oder? Der Sprung von N4P wird dann ja relativ klein!?
Ist CDNA4 und soll 80% mehr FP16 und FP8 bringen. Dazu noch neue Datentypen FP6 und FP4.
Ob dafür FP64 vereinfacht wurde um Platz zu schaffen???
CDNA3 war ja eigentlich für HPC gedacht. CDNA4 dürfte eine auf AI ausgelegte Architektur sein.

Ob "nur" die Compute Tiles getauscht werden oder ob weitere Verbesserungen stattfinden ( Interposer, Base Tile Interconnect) ????
Soll zumindest Sockel kompatibel bleiben.

https://www.forum-3dcenter.org/vbulletin/attachment.php?attachmentid=90574&stc=1&d=1734349721

https://www.forum-3dcenter.org/vbulletin/attachment.php?attachmentid=90575&stc=1&d=1734349812

Nightspider
2024-12-16, 13:17:19
MI300 ist noch in 5nm. Und N3E ist ein full-node-shrink, das ist ein deutlicher Sprung.

Ah krass, okay. Ich hatte 4nm im Kopf aber von 5nm ist es natürlich noch ein größerer Sprung.

AffenJack
2024-12-23, 11:48:40
https://semianalysis.com/2024/12/22/mi300x-vs-h100-vs-h200-benchmark-part-1-training/#comments

Exzellenter Artikel zu Mi300 Training und AMDs Problemen. In Sachen Software muss am meisten geschehen, während bei Hardware Netzwerk fürs Scale-Up besser werden muss.

basix
2024-12-23, 12:04:01
Habe ich heute Morgen auch durchgelesen und zeigt schön auf, wieso Nvidia der Marktführer ist.

AMD macht mittlerweile deutlich mehr Umsatz als es Nvidia 2015-2019 tat und aus dieser Zeit stammen Volta, Ampere sowie NVSwitch und viele der SW-Libraries. Ich habe also schon die Hoffnung, dass AMD die Ressourcen hat um hier aufzuholen. AMD hat aber nicht 5 Jahre Zeit für das. AMD muss bei CDNA4 / MI350X Release ihren SW-Stack bereit haben, dann sieht es gut aus. Und das ist bereits H2/2025, somit ziemlich bald.

Der Fokus des Artikels auf Training zeigt auch AMDs grösste Schwachstelle im HW-Design: Scale-Out Performance. Das wird mit dem 400G Pensando Switch mit Infinity Fabric Support sicher besser werden aber gegen dei NV-Switch Lösung kann man damit noch nicht konkurrieren.

Es wird noch einen Folgeartikel über Inferencing geben und ich nehme an, dass es dort deutlich besser für AMD aussehen wird. AMD fokussiert in ihrem Markteting-Material stark auf Inferencing und für Inferencing ist Scale-Out Performance egal. Bei 192GByte pro Accelerator passt GPT4 bei INT8/FP8 Quantisierung auf einen 8-GPU Node und dort ist M300X einigermassen konkurrenzfähig. Und ich nehme an, die SW-Libraries für Inferencing werden weniger Bug behaftet sein wie die Trainings-Anwendungen.

AffenJack
2024-12-23, 12:16:07
Es wird noch einen Folgeartikel über Inferencing geben und ich nehme an, dass es dort deutlich besser für AMD aussehen wird. AMD fokussiert in ihrem Markteting-Material stark auf Inferencing und für Inferencing ist Scale-Out Performance egal. Bei 192GByte pro Accelerator passt GPT4 bei INT8/FP8 Quantisierung auf einen 8-GPU Node und dort ist M300X einigermassen konkurrenzfähig. Und ich nehme an, die SW-Libraries für Inferencing werden weniger Bug behaftet sein wie die Trainings-Anwendungen.

Da bin ich auch sehr gespannt auf den Inferencingartikel. Ich gehe auch von aus, dass der absolute Standard da besser läuft. Ich habe aber die Befürchtung, dass sobald man etwas abweicht, man mit der Software wieder in Probleme läuft, wie mit dem Claude-beispiel beim Training illustriert. Z. B. bei nem Umstieg auf o3, wo Inferencing viel stärker belastet wird und man erstmal ein anderes Modell hat. Amds Software muss da deutlich robuster werden. Aber warten wir mal den Artikel ab.

Es kündigt sich ja schon an, dass dort das große Geschäft ab nächsten Jahr lauern wird und man unfassbar viel Inferencingleistung braucht. Ab o3 ist Scale-out bei Inferencing nicht mehr egal. Das wird also auch da essentiell werden erstmal.

basix
2024-12-23, 12:27:39
AMD hat hier Glück im Unglück, da es ja jetzt ein "Inferencing Scaling Law" gibt. Das bedeutet, dass Inferencing noch mehr Bedeutung bekommt. Ausserdem bestimmt hauptsächlich Inferencing die Kosten der angebotenen AI-Dienste und weniger das Training. Deswegen wird längerfristig wichtiger sein, dass Inferencing ideal läuft. AMD hat hier schon den richtigen Fokus (und weiss dass man bei Training aufgrund des Scale-Out Problems nicht mit Nvidia konkurrieren kann).