nVidia Rubin (Nachfolger von Blackwell, rein HPC/AI, 2025/26) [Archiv]

Leonidas

2023-12-07, 15:52:50

3DC-Newsindex zu "nVidia Rubin"
https://www.3dcenter.org/news/nvidia-rubin

benannt nach der Astronomin Vera Rubin
https://de.wikipedia.org/wiki/Vera_Rubin
https://pbs.twimg.com/media/FQzca9KVcAAIqVA?format=jpg

HPVD

2024-03-19, 10:01:25

Blackwell wurde gestern vorgestellt (Datacenter) siehe https://www.3dcenter.org/news/news-des-18-maerz-2024,
=> dann ists heute Zeit für nen neuen Thread zum Thema Nvidia Rubin :biggrin:

Was ist bekannt/wird erwartet?
- Fertigung TSMC N3X
- GDDR7 (Consumer) bzw HBM3e (Data-Center)
- Multichip auch für Consumer? Oder ist das vielleicht doch noch teurer als Monolitisch/nicht notwendig?

-> wir sollten hier direkt nach Consumer und Data-Center trennen

HOT

2024-03-19, 10:17:48

Rubin ist nur HPC/KI, als mit Sicherheit keine Consumer-Produkte, Rubin wird ja die erste Auskopplung aus den im Jahresrythmus releasten AI-GPUs dann in 25 sein. N3P wird sicherlich der zu erwartende Prozess sein.
Consumer wird es sicherlich frühestens Ende 26 wieder geben.

mczak

2024-03-19, 14:58:40

Also bezüglich Multichip sehe ich da noch keine Anzeichen dass da Nvidia auch im Consumerbereich demnächst darauf setzt (egal ob das jetzt Rubin oder eben Generation danach ist). Beim Server-Blackwell beschränkt sich nvidia ja im Gegensatz zu AMD bezüglich Chiplets auf das absolute Minimum (2 identische Dies), und dies auch nur weil es schlicht nicht anders geht.
Kann natürlich trotzdem sein dass es dann Multichip Produkte im Consumerbereich gibt (auch wenn das für Nvidia jetzt keinen Sinn macht kann das ja in 2 Jahren durchaus sinnvoll sein).

HOT

2024-03-19, 15:07:47

Jo selbst wenn GB202 noch monolithisch sein sollte (was nach Specs ja nicht so aussieht), wird das sicherlich Post-Rubin dann soweit sein.
Rubin nutzt mMn die gleiche MC-Technik wie BW, ist eben "nur" ein neuer N3-Chip. Beide werden sicherlich parallel laufen.

AffenJack

2024-03-19, 18:00:28

Jo selbst wenn GB202 noch monolithisch sein sollte (was nach Specs ja nicht so aussieht), wird das sicherlich Post-Rubin dann soweit sein.
Rubin nutzt mMn die gleiche MC-Technik wie BW, ist eben "nur" ein neuer N3-Chip. Beide werden sicherlich parallel laufen.

Jo, das Ding wird in meinen Augen nur der Fokus auf 6 HBM pro Chiplet mit größeren Interposer und paar Shadern mehr.

Leonidas

2024-03-20, 02:08:59

Threads zusammengeführt.

Was mich wundert: Wieso NV nicht endlich unterschiedliche Namen für HPC- und Consumer-Architekturen wählt. Hätte man nach Hopper/Ada schlicht so weiterführen sollen.

TheAntitheist

2024-03-20, 02:16:59

Jo selbst wenn GB202 noch monolithisch sein sollte (was nach Specs ja nicht so aussieht), wird das sicherlich Post-Rubin dann soweit sein.
Rubin nutzt mMn die gleiche MC-Technik wie BW, ist eben "nur" ein neuer N3-Chip. Beide werden sicherlich parallel laufen.
GB200 ist doch nicht monolithisch, es wurden 2 DIEs zusammen geklatscht, die sich als einen Chip ausgeben... also das was AMD nicht geschafft hat.

Leonidas

2024-03-20, 03:16:39

GB100 = HPC-Chip aus 2x GB102
GB200 = ein Produkt basierend auf GB100, kein eigener Chip (dumme Namenswahl seitens NV)
GB202 = Consumer-Chip, unsicher ob monolithisch oder nicht

Altehardware

2024-03-20, 04:32:55

rubin ist noch weit weg den erwarte ich mit n2 node also frühestens 2027 wenn nicht sogar 2028
Was es wird ist auch völlig offen

OgrEGT

2024-03-20, 06:26:20

GB200 ist doch nicht monolithisch, es wurden 2 DIEs zusammen geklatscht, die sich als einen Chip ausgeben... also das was AMD nicht geschafft hat.
Ich dachte MI300 kann genau das auch also als 1 GPU angesprochen werden?
Diese GPUs sind aber HPC/AI Chips denen Teile der Renderpipeline fehlen und sich dadurch einfacher verbinden lassen... Multichiplet über die Rendering Pipeline hinweg hat in der Tat noch niemand geschafft...

The_Invisible

2024-03-20, 07:47:01

10tb/s sollten dafür schon ausreichen, bei Apple reichen auch schon 2,5tb/s

fondness

2024-03-20, 10:20:18

Ich dachte MI300 kann genau das auch also als 1 GPU angesprochen werden?

Natürlich kann das MI300 auch.

10tb/s sollten dafür schon ausreichen, bei Apple reichen auch schon 2,5tb/s

Es sind 5 TB/s bidirektional, daraus macht das NV Maketing 10TB/s.

Zossel

2024-03-20, 10:26:36

10tb/s sollten dafür schon ausreichen, bei Apple reichen auch schon 2,5tb/s

Die Apfelkisten können die Aufgaben für die die AI-Beschleuniger von NV gebaut worden sind in der gleichen Qualität und Zeit erledigen?

Zossel

2024-03-20, 10:30:31

GB200 ist doch nicht monolithisch, es wurden 2 DIEs zusammen geklatscht, die sich als einen Chip ausgebenIst das wirklich so? Heise schreibt lediglich folgendes:Beide Chips, die Nvidia nur zusammen als Blackwell-GPU bezeichnet, sind über ein schnelles Interface mit 10 TByte pro Sekunde (5 TByte/s pro Richtung) untereinander verbunden. Laut Nvidia reicht das aus, damit sie sich auch performancemäßig wie eine einzelne GPU verhalten.https://www.heise.de/news/Nvidias-neue-KI-Chips-Blackwell-GB200-und-schnelles-NVLink-9658475.html

AffenJack

2024-03-20, 17:04:45

Threads zusammengeführt.

Was mich wundert: Wieso NV nicht endlich unterschiedliche Namen für HPC- und Consumer-Architekturen wählt. Hätte man nach Hopper/Ada schlicht so weiterführen sollen.

Wieso sollte man? Der Name zeigt nunmal, ob die Chip auf einer gemeinsamen Compute Architektur basieren. Funktionelle Blöcke wie RT Einheiten oder FP lassen sich einfach austauschen. Die grundlegenden Architekturfeatures bestimmen aber den Namen. Bei Ampere war man eher auf einem Level. Lovelace fehlen dagegen essentielle Features von Hopper, wie der Distributed Shared Memory. Mit Blackwell ziehen die Consumergpus Featuretechnisch wohl wieder nach.

Troyan

2024-03-20, 18:15:30

Natürlich kann das MI300 auch.
Es sind 5 TB/s bidirektional, daraus macht das NV Maketing 10TB/s.

Hä? Es sind 5 TB/s pro Richtung. Was 10 TB/s sind.

reaperrr

2024-03-20, 21:05:16

Hä? Es sind 5 TB/s pro Richtung. Was 10 TB/s sind.
Nein.

Die 4090 hat 1008 GB/s Speicherbandbreite. Das heißt, sie kann theoretisch auch die 1008 GB/s rein fürs Laden in den VRAM oder rein fürs zurückschieben der Daten zur GPU nutzen.

Diese Chip-to-Chip-Kommunikation dagegen mag in Summe technisch 10 TB/s breit sein, aber da jede der beiden "Straßen" nur in eine Richtung und bis 5 TB/s geht, sind das keine vollwertigen 10 TB/s Bandbreite, weil nicht beide Straßen in die gleiche Richtung genutzt werden können.
Bräuchte es für perfekte Skalierung z.B. gerade 9 TB/s in die eine und nur 1 TB/s in die andere Richtung, performt das ganze definitiv nicht wie 10 TB/s, sondern bestenfalls wie 6 TB/s.

Natürlich wird es da technische Gründe für geben, nur "echte", uneingeschränkte 10 TB/s sind's halt nicht.

Leonidas

2024-03-21, 04:05:53

Wieso sollte man? Der Name zeigt nunmal, ob die Chip auf einer gemeinsamen Compute Architektur basieren.

Schon Hopper und Ada sind intern ausreichend abweichend, dass man das nicht mehr gleich nennen sollte. Selbst SM-intern ist da vieles anders. Klar, es ist dieselbe Entwicklungsstufe der Einheiten selber. Aber wenn die Einheiten gänzlich andere Funktionen haben (bspw. Rechenformate, oder die Zentrierung auf RayTracing vs Tensor zwischen Gaming & HPC), dann wäre ein eigener Architektur-Name angebracht. Vergleiche RDNA und CDNA.

basix

2024-03-21, 12:34:41

Natürlich wird es da technische Gründe für geben, nur "echte", uneingeschränkte 10 TB/s sind's halt nicht.

Hier wäre es eine gute Frage, ob bidirektional oder nicht. H100 kommt auf ~5TB/s Bandbreite bei L2$. Sind es bei Blackwell 10TB/s je Richtung, würde es relativ gut passen, ansonsten ist es weniger. Das kann man aber evtl. via Software und Aufgaben "Partionierung" so lösen, dass es nur wenig auffällt. Faktor 2x Bandbreitenreduktion durch gutes Task-Partitioning (Aufgaben/Daten bleiben primär auf dem jeweiligen Chip) scheint mir lösbar zu sein (als Laie gedacht). Ausserdem hat A100 wie auch H100 bereits einen zweigeteilten L2$, welcher über eine Crossbar verbunden ist. Das wird archtikturmässig die Vorarbeit für das Setup von B200 gewesen sein.
https://chipsandcheese.com/2023/07/02/nvidias-h100-funny-l2-and-tons-of-bandwidth/

BlacKi

2024-03-21, 13:25:59

Us dann in 25 sein. N3P wird sicherlich der zu erwartende Prozess sein.
Consumer wird es sicherlich frühestens Ende 26 wieder geben.

boah, 4 jahre im selben prozess. und amd backt wieder mal nur kleine brötchen in dieser zeit.

HOT

2024-03-21, 14:14:33

GB200 ist doch nicht monolithisch, es wurden 2 DIEs zusammen geklatscht, die sich als einen Chip ausgeben... also das was AMD nicht geschafft hat.
Vollkommener Unsinn. NV hat das gemacht, was Apple geschafft hat. AMD wird gestapelte Chiplets auch als GPU bauen, also das, was mit MI300 bereits realisiert wurde.

Troyan

2024-03-21, 14:26:39

Nein.

2 x 5 = 10
5 + 5 = 10

Die 4090 hat 1008 GB/s Speicherbandbreite. Das heißt, sie kann theoretisch auch die 1008 GB/s rein fürs Laden in den VRAM oder rein fürs zurückschieben der Daten zur GPU nutzen.

Das ist 1 TB/s...

Diese Chip-to-Chip-Kommunikation dagegen mag in Summe technisch 10 TB/s breit sein, aber da jede der beiden "Straßen" nur in eine Richtung und bis 5 TB/s geht, sind das keine vollwertigen 10 TB/s Bandbreite, weil nicht beide Straßen in die gleiche Richtung genutzt werden können.
Bräuchte es für perfekte Skalierung z.B. gerade 9 TB/s in die eine und nur 1 TB/s in die andere Richtung, performt das ganze definitiv nicht wie 10 TB/s, sondern bestenfalls wie 6 TB/s.

"Interconnect" ist nicht vergleichbar mit VRAM. Der ist mit unterschiedlichen Kanälen an den L2 Cache angebunden. Bei Blackwell werden die Daten entweder direkt von den ComputeUnits gelesen oder in den L2 Cache geschrieben. Das geschieht mit vollen Speed. Der Interconnect von Blackwell (jedenfalls aktuell) ist mit dem L2 Cache verbunden und kann daher die vollen 4 TB/s vom anderen Chip lesen und schreiben.

HPVD

2024-03-22, 09:26:41

Vera Rubin is launching by mid-2025, and were even hopping to get it out earlier than that if possible. However, do note that Rubin looks like a generation that is analogous to Hopper. It's not meant for gaming, its meant to bury the competition so deep that they don't have any oxygen left to compete in Al for years...

von Moores Law ist Dead

https://www.3dcenter.org/news/news-des-21-maerz-2024

HPVD

2024-03-22, 09:29:03

@leonidas bitte thread Titel anpassen (26->25, + rein HPC/AI)

basix

2024-03-22, 11:05:52

Meine Rubin Speku:
- N3E/P
- 2x 800mm2
- Log8/Log4 Datenformate
- Evtl. auch 1.58bit (ternary)? Verglichen mit INT8 wäre das mindestens nochmal 4x, eher sogar 8...16x Speedup (mehr TOPS)
- 12x HBM4 Stacks (>= 432 GByte Kapazität)
- 16 TByte/s HBM-Bandbreite
- Allenfalls AI <-> HPC nochmals in Richtung AI verschoben (z.B. 3x AI, 1.5x HPC Performance)

3D-Stacking ist allenfalls auch noch ein Thema. Also ein grosses N4 Base Die mit HBM, PHY und einem grossen Cache. Das N4 Compute Chiplet oben drauf. Aber immer noch 2x "Chips" wie bei B200.

HPVD

2024-03-22, 12:39:00

Meine Rubin Speku:
- N3E/P
- 2x 800mm2
- Log8/Log4 Datenformate
- Evtl. auch 1.58bit (ternary)? Verglichen mit INT8 wäre das mindestens nochmal 4x, eher sogar 8...16x Speedup (mehr TOPS)
- 12x HBM4 Stacks (>= 432 GByte Kapazität)
- 16 TByte/s HBM-Bandbreite
- Allenfalls AI <-> HPC nochmals in Richtung AI verschoben (z.B. 3x AI, 1.5x HPC Performance)

3D-Stacking ist allenfalls auch noch ein Thema. Also ein grosses N4 Base Die mit HBM, PHY und einem grossen Cache. Das N4 Compute Chiplet oben drauf. Aber immer noch 2x "Chips" wie bei B200.

joa klingt passig, die Frage ist nur: passt das zu so einem geringen zeitlichen Abstand?
Besonders das 1.58bit (und den darus entstehenden vmax Multiplikator) sehe ich erst eine Gen später...
edit: und auch das HBM4 wird knapp, oder?

AffenJack

2024-03-22, 13:21:25

joa klingt passig, die Frage ist nur: passt das zu so einem geringen zeitlichen Abstand?
Besonders das 1.58bit (und den darus entstehenden vmax Multiplikator) sehe ich erst eine Gen später...
edit: und auch das HBM4 wird knapp, oder?

Ja, HBM4 wird es 2025 nicht geben. Selbst 12High HBM3e ist noch extrem rar. Mit 12 Stacks HBM3e 12 High hat man da schon ne ordentliche Steigerung.

1,58Bit kam ja erst gerade das Paper. Das hatte niemand so auf dem Schirm, das wird noch dauern.

Meine Rubin Speku:
- N3E/P
- 2x 800mm2
- Log8/Log4 Datenformate
- Evtl. auch 1.58bit (ternary)? Verglichen mit INT8 wäre das mindestens nochmal 4x, eher sogar 8...16x Speedup (mehr TOPS)
- 12x HBM4 Stacks (>= 432 GByte Kapazität)
- 16 TByte/s HBM-Bandbreite
- Allenfalls AI <-> HPC nochmals in Richtung AI verschoben (z.B. 3x AI, 1.5x HPC Performance)

3D-Stacking ist allenfalls auch noch ein Thema. Also ein grosses N4 Base Die mit HBM, PHY und einem grossen Cache. Das N4 Compute Chiplet oben drauf. Aber immer noch 2x "Chips" wie bei B200.

Nicht für Rubin. Das Ding ist zwischengeschoben, da wird es nicht plöötzlich Stacking oder so geben. Ich wäre nicht mal bei neuen Datenformaten sicher. Das kann ein einfacher N4->N3P Refresh mit nur mehr Shadern und 12HBM und nix weiter sein.

Schon Hopper und Ada sind intern ausreichend abweichend, dass man das nicht mehr gleich nennen sollte. Selbst SM-intern ist da vieles anders. Klar, es ist dieselbe Entwicklungsstufe der Einheiten selber. Aber wenn die Einheiten gänzlich andere Funktionen haben (bspw. Rechenformate, oder die Zentrierung auf RayTracing vs Tensor zwischen Gaming & HPC), dann wäre ein eigener Architektur-Name angebracht. Vergleiche RDNA und CDNA.

Deswegen sind ADA und Hopper auch verschiedene Architekturen. Einheiten die man im Baukastenprinzip austauschen kann rechtfertigen aber für Nvidia keinen eigenen Namen und das finde ich verständlich. Das eine kennzeichnet die Architektur und das andere wird aus den möglichen Features ausgewählt, was da möglich ist. Generell orientiert man sich aber an den Compute Fähigkeiten, während die Grafikfeatures anscheinend nur sekundär zum Namen beitragen.

basix

2024-03-22, 13:31:52

1,58Bit kam ja erst gerade das Paper. Das hatte niemand so auf dem Schirm, das wird noch dauern.

Zu 1bit / 1.58bit LLM gibt es schon lange Paper. Das besondere an dem Paper ist, dass man mit 1.58bit eine wirklich gute Performance erreicht und auch in diesem Format trainieren muss und nicht erst im Nachhinein die Datenauflösung reduziert. Und dass man sich eben die Multiplikation sparen kann (Multiply+Add --> Add), was die HW viel, viel einfacher und günstiger macht. Das 1.58bit Dingens kann man im "schlechtesten" Fall auch mit INT2 emulieren (1.58bit = Ternary = -1, 0, 1; INT2 = -2,-1, 0, 1). Gibt dann halt "nur" 4x Speedup zu INT8, aber immerhin. A100 hatte INT4 und Binary (INT1) supported.

Nicht für Rubin. Das Ding ist zwischengeschoben, da wird es nicht plöötzlich Stacking oder so geben. Ich wäre nicht mal bei neuen Datenformaten sicher. Das kann ein einfacher N4->N3P Refresh mit nur mehr Shadern und 12HBM und nix weiter sein.
Ich erwarte auch kein Stacking. Ganz ausgeschlossen ist es aber nicht. Wenn Nvidia vollgas geben will, wäre das schon ein Vorteil. Daneben kann man noch NVLink Phy in separate Die auslagern.

Zum HBM:
Kann auch HMB3E sein. Aber HBM4 ist zumindest für H1/2025 angekündigt, was für Rubin aufgehen könnte. Auch hier ist es nicht ausgeschlossen, auch wenn ich persönlich auch zu HBM3E tendiere, der einfach noch etwas schneller läuft als bei Blackwell sowie +50% Stacks.

AffenJack

2024-03-22, 13:40:54

Zu 1bit / 1.58bit LLM gibt es schon lange Paper. Das besondere an dem Paper ist, dass man mit 1.58bit eine wirklich gute Performance erreicht und auch in diesem Format trainieren muss und nicht erst im Nachhinein die Datenauflösung reduziert. Und dass man sich eben die Multiplikation sparen kann, was die HW viel, viel einfacher und günstiger macht. Das 1.58bit Dingens kann man im "schlechtesten" Fall auch mit INT2 emulieren (Ternary = -1, 0, 1; INT2 = -2,-1, 0 ,1. Gibt dann "nur" 4x Speedup zu INT8, aber immerhin. A100 hatte INT4 und Binary (INT1) supported.

ahh ok, das hatte ich so nicht gewusst. Ich glaube aber trotzdem, wenn das kommt dann 2026/2027 mit dem eigentlichen Blackwell Nachfolger. Dann evtl auch Stacking.

Zum HBM:
Kann auch HMB3E sein. Aber HBM4 ist zumindest für H1/2025 angekündigt, was für Rubin aufgehen könnte. Auch hier ist es nicht ausgeschlossen, auch wenn ich persönlich auch zu HBM3E tendiere, der einfach noch etwas schneller läuft als bei Blackwell sowie +50% Stacks.

Nur von Samsung oder? Meines Wissens nach haben Hynix und Micron HBM4 für 2026 projeziert und Samsungs Marketing kann man eh in die Tonne kloppen.
Die kriegen jetzt nicht mal HBM3e hin und sind hintendran im Vergleich zu Hynix und Micron und sollen dann HBM4 als erstes machen? Samsung ist leider wie auch bei deren Foundryprozessen viel zu viel Gelaber und zu wenig liefern.

HPVD

2024-03-22, 13:43:42

...dass man mit 1.58bit eine wirklich gute Performance erreicht und auch in diesem Format trainieren muss und nicht erst im Nachhinein die Datenauflösung reduziert. Und dass man sich eben die Multiplikation sparen kann, was die HW viel, viel einfacher und günstiger macht.
...

Konsequent gedacht, macht dann ja ein erneuter Architektur Split Sinn:
1 Modell nur für 1.58bit LLM

Oder halt der berühmte Chiplet Baukasten...

basix

2024-03-22, 13:44:10

Nur von Samsung oder? Meines Wissens nach haben Hynix und Micron HBM4 für 2026 projeziert und Samsungs Marketing kann man eh in die Tonne kloppen.
Die kriegen jetzt nicht mal HBM3e hin und sind hintendran im Vergleich zu Hynix und Micron und sollen dann HBM4 als erstes machen? Samsung ist leider wie auch bei deren Foundryprozessen viel zu viel Gelaber und zu wenig liefern.

Micron sagt zumindest H2/2025: https://www.computerbase.de/2023-11/micron-roadmap-plaene-fuer-hbm4-mrdimms-cxl3-und-lpcamm-dargelegt/

Hynix erst 2026.

OK, ist vermutlich zu spät für Rubin. Für MI500 könnte es aber klappen, das wir frühestens H1/2026 kommen.

Konsequent gedacht, macht dann ja ein erneuter Architektur Split Sinn:
1 Modell nur für 1.58bit LLM

Oder halt der berühmte Chiplet Baukasten...
Genau ;)

Ich sehe das bei MI500 schon als Option. Oder als Teil der XDNA-Engines / NPUs in Consumer Produkte. Als XDNA-Chiplet könnte man das aber überall verbauen (MI-produkte, Epyc, usw.). Bei Nvidia wird sowas mit hoher Sicherheit auch mal kommen. Nvidia sagt ja selber sie verkaufen keine GPUs sondern Systeme. Das ganze Zeugs rund um HBM, Nvlink, Software Stack usw. ist genauso wichtig wie ein dediziertes "1.58b Design".

HPVD

2024-03-23, 09:52:00

Vermutung:
in Rubin wird erstmal die 4bit Leistung stark hoch geschraubt (ggf auf Kosten von höherer Genauigigkeit)

Grund:
4bit scheint nicht nur für LLM- zu reichen (dort reichen mittlerweile ja sogar die berühmten 1,58bit), sondern kann zunehmend auch für/innerhalb Diffusion Pipelines eingesetzt werden (Text-> Bild/Video)

Beispiele:

https://github.com/Xiuyu-Li/q-diffusion?tab=readme-ov-file
https://arxiv.org/html/2401.04339v1

basix

2024-03-23, 10:46:36

Vielleicht kann man es auch genereller sehen: Inferencing. Dort hat Nvidia die grösste Konkurrenz und dort sind langfristig die grössten Kostenfaktoren zu sehen (Betrieb der Datacenter).

HPVD

2024-03-23, 15:03:22

Vielleicht kann man es auch genereller sehen: Inferencing. Dort hat Nvidia die grösste Konkurrenz und dort sind langfristig die grössten Kostenfaktoren zu sehen (Betrieb der Datacenter).

bin mir gar nicht so sicher ob man das auf Inferencing beschränken kann/sollte.

In dem Bereich gibt es nämlich schon sehr mittelfristig eine weitere große Konkurrenz (nicht nur die eigenen Chips der Großen), bereits jetzt abzusehen und ganz besonders, wenn 4bit und noch mehr 1,58bit die benötigte Rechenleistung noch deutlich reduziert:
=> Client-side inferencing ("On-Device AI")

edit:
und es sinkt nicht nur die benötigte Rechenleistung durch
- optimierte Modelle (s. Open Source Welt...) und
- neue Möglichkeiten zur Genauigkeitsreduktion,
sondern zusätzlich wird die Client-Hardware ja auch gerade massiv aufgerüstet:
JEDER hat ne NPU integriert: Intel, Amd und auch Qualcomm, Mediatek, Google, Apple (teilweise auch schon mit 4bit in Hardware..)
und auch die "drum herum" Hardware wird selbst bei kleinen Devices immer passender: Smartphones mit 12GB Ram sind keine Seltenheit mehr, das gibts in 2024 ab der 199€ Klasse..

edit2:
und dieses cient side inferencing hat 4 interessante Vorteile:
- Privacy, die Daten bleiben auf dem Gerät
- Latenz
- Zuverlässigkeit, auch wenn gerade das Netz nur so mittel ist
- Kosten, denn es muss kein Datencenter betrieben werden

edit3:
vielleicht ist das client side inferencing in gar nicht ferner Zukunft schon good enough für den Hausgebrauch/Massenmarkt (analog "integrierte GPU"...)

edit4:
scheinbar wird das on-device Thema nun auch deutlich von Großen gepusht:
https://developers.googleblog.com/2024/03/running-large-language-models-on-device-with-mediapipe-andtensorflow-lite.html

... hmm wat sagt uns das nun für die Erwartungen bzgl Rubin?

Altehardware

2024-03-24, 13:36:20

Das es kein hpc chip wird
rubin wird die evolution von blackwell mit mehr Takt.
Der ganze ai kram wird später mit ner npu erledigt und auf datacenter berechnet also auch da wo die daten sind.
folglich wird nvidia dafür die grace cpu weiterhin mit blackwell v2 weitermachen
rubin wird als workstation udn desktop gpu kommen
Danach folgt sowieso ein mcm chip die gestapelt sind mit ner neuen Architektur
Das gute mit blackwell wird die desktop Architektur umgebaut auf 192alu per sm das bedeutet zwar reduzierte Takt aber dürfte mit n3 dennoch 2,6ghz erreichen.
rubin wird n2 node nutzen und somit die 3,2ghz erreichen was Ai angeht das ist zu 90% software und noch voll im design zumal man derzeit keine ai dauerhaft laufen lassen kann Da diese immer ein Bezugsproblem hat. da diese lernt und wer bestimmt das dass erlernte richtig ist und mit der realen welt funktioniert.
Das problem ist nicht neu da vom Konzept her ne ai Fehler macht nur kann die ai nicht prüfen obs real auch stimmt.
Darum ist brute force auch völlig sinnfrei erst müssen die Modelle so angepasst werden das diese nahezu fehlerfrei werden dafür bedingt es aber ein Modell das ein Gedächtnis hat und dieses nicht ändert. Sondern nur addiert und das Gedächtnis muss immer auf aktuellem stand gebracht werden was viele Menschen benötigt was am ende der Vorteil der ai zunichte macht es ist ne Hilfe mehr nicht.
rubin sehe ich als blackwell evolution mit mehr Speicher und Takt.

Ob blackwel nur den n4p nutzt wird den takt auf den workstatio gpu auf nujr 2,1ghz ermöglichen dafür sind be rmehr alu für ein rt cpore am wirklen womit die perf drastisch steigen wird in dxr potentiellbis zu 72% per sm in raster aufgrund des geringen taktes von nur 2,3 und 1,7ghz (sf4x) muss man am desktop den n3p node nutzen wo dann 2,6ghz möglich werden Samsung ist bei 2,04ghz Schluss und das auch nur dann wenn der schrink nicht voll genutzt wird etwa nur 14% density statt den vollen 22% von sf4 vs n8
Demnach erreicht man dann statt 1,7ghz dann 2,04ghz
tsmc schrink ist derweil nicht möglich es gibt zwar 6% aber diese werden vom Takt aufgefressen da die Fläche ebenfalls um 8% steigen wird
Am ende dürfte der tsmc n4p node sich lohnen da mehr Takt möglich ist als bei samsung sf4x
aber die 3ghz können wir vergessen
Es wird 2,3ghz/2,04ghz mit Anpassung der chipdichte oder nur 2,0ghz/1,7ghz ohne im übrigen ohne stromersparnis.

Die alternative wäre mehr chipfläche also 14% 28% takt aber volle Einsparung der node Verbesserung was 22% wären
Dann wäre in ada design bei 3,5ghz und hätte min 22% Stromersparnis.
bsp wäre mit nen gb207 38sm dann 23tf bei 120w tbp
Das ginge aber nur mit vergrößerter chipfläche das wäre ein Ausweg um doch noch an der sm Struktur nix zu ändern. Das aber würde in dxr stagnation bedeuten
Dxr skaliert nicht mit den Takt sondern nur mit den alu per sm
Darum wird es vermutlic erstmals ne taktreduktion nach einer gen geben bei 2,0ghz und 2,3ghz
folgende sku sind drin
gb207 rtx5060 32sm 2,0ghz 180w 96bit 12gb 410€ +-19tf =+64% und +130% dxr
gb207 rtx5060ti 38sm 2,0ghz 200w 96bit 12gb 499€ +- 23tf =+37% und +80% dxr perf
gb206 rtx5070 64sm 2,0ghz 280w 128bit 16gb 699€ +- 38tf =+41% und +80% dxr perf
gb206 rtx5070ti 76sm 2,0ghz 330w 128bit 16gb 899€ +-46tf +-42% und +80% dxr perf
gb205 rtx5080 108sm 2,3ghz 375w 192bit 24gb 1100€ +-65tf +66% und +105% dxr perf
gb203 rtx5090 144sm 2,3ghz 450w 256bit 32gb 2500€ +-100tf +59% und +80% dxr perf
gb202 titan B 144sm 2,3ghz 550w 384bit 48gb 4000€ +-100tf rest identisch

Wieso den chip zweimal gleich bauen nun das liegt am vram die bandbreitenvorteil der titan wird benötigt (48gb) und mehr alu gehen nicht da der chip an seine Größen limit kommt. grob 800mm²
Das Si macht dann 40% aus.
bei allen anderen sku sind es nur noch 30% derzeit vergeudet man fürs si und pcie etwa 55% chipfläche

anders kann man die dxr perf nicht steigern der Weg mit nur mehr Takt bringt hier nix.
Entweder mehr Rt cores oder mehr alu per sm ideal beides. Das einzige was dagegen spricht ist jensen Ego da bisher nie ne gen nachgekommen ist mit weniger Takt als die vorherige.
Um das zu erreichen braucht man den n3p node sowie samsung sf3x mit gaa was nochmal 18% Takt bringt was dann bei 2,6ghz und 2,36ghz wären
Das aber sehe ich nicht vor 2026 kommen
Der release wird spannend da dieser dieses Jahr sein soll nicht wundern gb203 hat 160sm im Vollausbau 144sm aktiv bei nur 2,3ghz aber deutlich mehr alu per sm
Das in n3 node wäre bei 2,6ghz und somit ohne Taktreduktion da aber n4p sicher ist dürfte das nicht passieren.
Damit dürfte dieses Jahr zwei sku kommen gb203 und gb205 und q2 2025 dann gb206 und gb207 zusammen.
Die % werte sind zu den 100% zu addieren
faktisch ist im schnitt die dxr perf verdoppelt je sku

horn 12

2024-03-24, 14:10:51

5080 dann 66% schneller als 4080
5090 somit 59% schneller als 4090

Nie und nimmer kann dies so kommen,- da gleicher/ kaum Verbesserter Node
und die Verbesserungen können nicht sooo gewaltig ausfallen wie du dies verheist.

Altehardware

2024-03-24, 14:26:01

Mehr alu per sm von 128 auf 192
Das macht extrem viel aus.

HPVD

2024-03-24, 14:52:35

...
Der ganze ai kram wird später mit ner npu erledigt und auf datacenter berechnet also auch da wo die daten sind.
folglich wird nvidia dafür die grace cpu weiterhin mit blackwell v2 weitermachen
rubin wird als workstation udn desktop gpu kommen

?
eigentlich sind die Daten oft bei Dir. Du sagst das was erkannt werden soll. Du schreibst das was übersetzt werden soll. Du hast das Bild das verändert werden soll. Du hast das Video das entwackelt werden soll. Du hast..

ChaosTM

2024-03-24, 15:02:23

5080 dann 66% schneller als 4080
5090 somit 59% schneller als 4090

Nie und nimmer kann dies so kommen,- da gleicher/ kaum Verbesserter Node
und die Verbesserungen können nicht sooo gewaltig ausfallen wie du dies verheist.

+60% wäre desaströs für den Kontostand. Ich rechne eher mit 30%

Altehardware

2024-03-24, 15:13:59

ihr vergisst das blackwell ende 2025 gegen rdna5 antritt in n3p node mcm chips
Während blackswell mit n4p node ist. Ein port auf n3x wäre möglich aber nicht vor Mitte 2026 mit neuen Masken .
Der n3 node läuft echt mies und da vermutlich keine Masken für n3 gegeben hat dürfte nvidia den node einfach überspringen und mit n2 weitermachen.

ne Maske fürn node ist teuer braucht etwa nen Jahr und müsste jetzt gemacht werden damit man es 2026 launchen kann.
Das passiert derzeit nicht folglich wird am auf n2x gehen wo die Masken ab 2026 losgehen werden mit rubin im Fokus damit es spätestens q2 2027 kommen wird.
Der Grund wird auch klar da mit n2x gaa kommt

Platos

2024-03-24, 19:22:32

Falls AMD Ende 2025 mit RDNA5 kommt, dann wird nvidia mit Sicherheit einen Refresh bringen und kann somit auch einfach wieder wie im jetzigen Super-Refresh das P/L verbessern.

Es träte dann also der Blackwell-Refresh gegen RDNA5 an. Zusätzlich kommt noch dazu, dass ja AMD momentan ziemlivh am abstinken ist. Mit glück dürfen wir Kunden also hoffen, dass AMD gerade mal aufschliesst.

HPVD

2024-03-25, 19:10:07

bin mir gar nicht so sicher ob man das auf Inferencing beschränken kann/sollte.

In dem Bereich gibt es nämlich schon sehr mittelfristig eine weitere große Konkurrenz (nicht nur die eigenen Chips der Großen), bereits jetzt abzusehen und ganz besonders, wenn 4bit und noch mehr 1,58bit die benötigte Rechenleistung noch deutlich reduziert:
=> Client-side inferencing ("On-Device AI")

edit:
und es sinkt nicht nur die benötigte Rechenleistung durch
- optimierte Modelle (s. Open Source Welt...) und
- neue Möglichkeiten zur Genauigkeitsreduktion,
sondern zusätzlich wird die Client-Hardware ja auch gerade massiv aufgerüstet:
JEDER hat ne NPU integriert: Intel, Amd und auch Qualcomm, Mediatek, Google, Apple (teilweise auch schon mit 4bit in Hardware..)
und auch die "drum herum" Hardware wird selbst bei kleinen Devices immer passender: Smartphones mit 12GB Ram sind keine Seltenheit mehr, das gibts in 2024 ab der 199€ Klasse..

edit2:
und dieses cient side inferencing hat 4 interessante Vorteile:
- Privacy, die Daten bleiben auf dem Gerät
- Latenz
- Zuverlässigkeit, auch wenn gerade das Netz nur so mittel ist
- Kosten, denn es muss kein Datencenter betrieben werden

edit3:
vielleicht ist das client side inferencing in gar nicht ferner Zukunft schon good enough für den Hausgebrauch/Massenmarkt (analog "integrierte GPU"...)

edit4:
scheinbar wird das on-device Thema nun auch deutlich von Großen gepusht:
https://developers.googleblog.com/2024/03/running-large-language-models-on-device-with-mediapipe-andtensorflow-lite.html

... hmm wat sagt uns das nun für die Erwartungen bzgl Rubin?

als Ergänzung noch ein schönes Beispiel, für eine signifikante Reduktion der benötigten Rechenleistung und damit einem weiteren Schritt das Inferencing bald auf dem Client zu machen...

stablediffusion (text -> bild)
in 1/30 der Zeit
(=1/30 der vorher benötigten Rechnenleistung), gerechnet auf 16bit

-> One-step Diffusion with Distribution Matching Distillation
https://tianweiy.github.io/dmd/

AffenJack

2024-03-25, 19:25:09

als Ergänzung noch ein schönes Beispiel, für eine signifikante Reduktion der benötigten Rechenleistung und damit einem weiteren Schritt das Inferencing bald auf dem Client zu machen...

stablediffusion (text -> bild)
in 1/30 der Zeit
(=1/30 der vorher benötigten Rechnenleistung), gerechnet auf 16bit

-> One-step Diffusion with Distribution Matching Distillation
https://tianweiy.github.io/dmd/

Ist die Geschwindigkeit überhaupt das große Problem, was gegen Client Inferencing spricht? Ich denke es ist eher der Speicherplatz. Kaum ein Client wird sich mehrere 100Gb Platz nehmen, um verschiedene Modelle auf der Platte zu haben.

HPVD

2024-03-25, 19:33:33

Ist die Geschwindigkeit überhaupt das große Problem, was gegen Client Inferencing spricht? Ich denke es ist eher der Speicherplatz. Kaum ein Client wird sich mehrere 100Gb Platz nehmen, um verschiedene Modelle auf der Platte zu haben.

im Prinzip sollte auch hier die Größe genauso wie die Rechenzeit skalieren. Denn in der kürzeren Zeit schaffe ich ja weniger "Datendurchsatz", brauche also weniger Daten um auf das vergleichbare Ergebnis zu kommen.

Gibt ja heute bereits Varianten der LLM die lokal auf Smartphone laufen...

basix

2024-03-25, 21:13:57

"DMD" ist wieder mal ein gutes Beispiel, wie viel Potential noch in der DNN Optimierung steckt. 30x schneller bei vergleichbarer Qualität ist mit reiner GPU-Evolution nur schwer machbar.

Zossel

2024-03-26, 13:24:05

Doof bleibt doof, da helfen keine Transistoren:Damit die dort beworbenen Produkte auch verkauft werden, müssen sie in Suchergebnissen die ersten Plätze belegen. Wird ein Sofa verkauft, dann geht es in dem Text um das Sofa, auch wenn auf den Bildern Pflanzen, Lampen und sogar Menschen zu sehen sind. Schließlich sollen Suchmaschinen wie Googles Algorithmus Pagerank das Sofa leicht finden und als relevant einstufen. Das tun sie anhand der Bildbeschreibungen. Anders gesagt: Die eine Maschine arbeitet überwiegend mit Daten, die der anderen Maschine gefällt – und, so scheint es, leitet daraus ihre Sicht auf die Welt ab.https://www.derstandard.at/story/3000000213172/ki-lernt-vor-allem-von-englischsprachigen-shoppingseiten

HPVD

2024-03-26, 15:53:23

noch ein letztes mal das Thema Client-Side Inferencing

Apple baut nächsten iPhone-Chip für KI um
Teile der Funktionen sollen mit Partnern in der Cloud realisiert werden. Für viele Features will man aber laut neuen Gerüchten im iPhone selbst für die nötige Rechenleistung sorgen. Seit dem iPhone 12 kommen die Smartphones des Konzerns mit Neural Engine mit 16 Kernen. Diese wurden mit den Jahren zwar weiterentwickelt, die Zahl der Kerne blieb aber gleich. Jeff Pu, ein für gewöhnlich gut informierter Investmentanalyst, berichtet jetzt davon, dass der A18 Pro Chip in der Größe wächst, um Platz für mehr KI-Kerne zu machen.
https://winfuture.de/news,141929.html

HPVD

2024-03-27, 15:48:22

und wirklich das aller letzte mal client side inferencing:
Intel confirms Microsoft's Copilot AI will soon run locally on PCs, next-gen AI PCs require 40 TOPS of NPU performance
https://www.tomshardware.com/pc-components/cpus/intel-confirms-microsoft-copilot-will-soon-run-locally-on-pcs-next-gen-ai-pcs-require-40-tops-of-npu-performance

mocad_tom

2024-03-27, 17:10:10

beim asus zenbook ist der preisunterschied zwischen 16gb und 32gb 150€.

bei apple ist der preisunterschied zwischen 8gb und 16gb eine niere.

für die speicherhersteller könnte das halt wirklich ein segen werden.

zumal die ziemlich ausgelastet werden mit den hbm bestellungen und nun das noch on top drauf.

dildo4u

2024-03-27, 17:14:14

Apple wird sein AI Quatsch auf 8GB optemieren da die Handys niemals mher bekommen.

woodsdog

2024-03-27, 20:02:48

Apple wird sein AI Quatsch auf 8GB optemieren da die Handys niemals mher bekommen.

Handys von Apple werden niemals mehr als 8GB RAM bekommen.

Dildo4U, 3DCenter Forum, 2024 :rolleyes:

Leonidas

2024-05-10, 08:22:40

https://twitter.com/XpeaGPU/status/1788441441561154007
Too much false rumors these days so let's make it straight:
Nvidia X100/R100 will tape out this summer.
Still CoWos-L
Still HBM3e
Facts

basix

2024-05-10, 10:17:22

Sind X100 & R100 unterschiedliche Chips? Nvidia hat zu R100 noch nichts verlauten lassen.

Zwei Chips könnten aber schon denkbar sein. Beispielhaft gedacht:
- X100 = H100 Nachfolger (FP64 + ML/AI)
- R100 = ML/AI only Fokus

w0mbat

2024-05-10, 13:20:36

X = R
Würde ich sagen.

horn 12

2024-05-10, 13:51:32

Dies lässt darauf schliessen das Blackwell nur ein Zwischenschritt ist
und jener schnell abgelöst werden wird.
+20 bis max. 30& auf Ada oben drauf mit noch höherer TBP

AffenJack

2024-05-10, 14:04:50

X = R
Würde ich sagen.

Genau das. X ist einfach nur ein Platzhalter gewesen.

Sind X100 & R100 unterschiedliche Chips? Nvidia hat zu R100 noch nichts verlauten lassen.

Blackwell hat man auch erst jetzt angekündigt. Davor hat Nvidia nur Hopper-Next benutzt. Selbst zu Blackwell gibts ja noch nicht mal ein Whitepaper und Nvidia versucht diesmal den Aufbau der Blackwell-SMs solange wie möglich zu verheimlichen.

davidzo

2024-05-10, 14:19:40

Dies lässt darauf schliessen das Blackwell nur ein Zwischenschritt ist
und jener schnell abgelöst werden wird.
+20 bis max. 30& auf Ada oben drauf mit noch höherer TBP

Sowohl Nvidia als auch AMD haben angekündigt dass der AI Markt so lukrativ ist dass man ihn künftig mit jährlichen Releases bedienen will. Das werden also eher einzelne SKUs bzw. höchstens refreshes mit mehr Speicher sein wie bei H100, GH200, H200 oder gar die China-Versionen A800 und H800. AMD macht mit Mi350 ja eine ähnlichen Zwischenschritt.

Wenn es um Silizium-Codenamen ginge, dann wären zwei Buchstaben vorrangestellt, also z.b. GH100, AD102 oder GB100. Offensichtlich geht es aber um SKU und Vermarktungsnamen, so wie H100 PCIe 64GB oder H800 SXM5. Wobei nivida ihre eigene Nomenklatur wieder aufweicht indem man GH200 und GB200 auch als Marketingnamen verwendet und die einzel GPU darin nun nachträglich H200 nennt.

Das muss also nicht heißen dass R100 wirklich ne andere Architektur und grundlegend anderes Silizium ist, das könnte auch nur Marktsegmentierung bedeuten. Imo ist das die viel wahrscheinlichere Auflösung wenn X100/R100 nur mit Schrägstich getrenn genannt werden und zusammen tapeout hatten.

HPVD

2025-01-13, 21:45:01

es ist so ruhig hier... dabei ist schon 2025..

auch über die Grafik Blackwells ist nun fast alles bekannt, siehe ab
https://www.forum-3dcenter.org/vbulletin/showthread.php?t=612419&page=153
-nur die finalen unabhängigen Reviews stehen noch aus und die Professional Varianten (Quadro...)

Können wir aus dem nun bekannten weiteres für Rubin ableiten/gezielt spekulieren?

Oder gab es in den letzten 3 Monaten seit dem letzten Post noch andere weitere Leaks/Aussagen/Erkenntnisse?

Von meiner Seite eine Detail Speku:
- würde HDMI 2.2 erwarten - Blackwell hat nun die neue Gen vom Displayport DP 2.1b, aber noch das alte HDMI 2.1

The_Invisible

2025-01-13, 22:04:45

Da wird ja wieder eine bessere Fertigung möglich sein, könnte wieder einen größeren Sprung geben als jetzt bei Blackwell. GDDR7 3Gb Speicherchips werden wohl auch Standard sein, RTX 6090 mit 48GB oder mit 384bit mit 36GB. Wenn die Release Zyklen noch länger werden könnte die aber erst Herbst 2027 kommen.

Ansonsten wohl wieder: AI, AI, AI und hinten RT ;)

HPVD

2025-01-13, 22:31:53

..GDDR7 3Gb Speicherchips werden wohl auch Standard sein, RTX 6090 mit 48GB oder mit 384bit mit 36GB....

darüber hab ich auch schon nachgedacht.
Könnt ihr euch wirklich vorstellen, dass die Busbreite von Blackwells 512bit wieder reduziert wird?
Kann mir das in Zeiten von AI die wirklich davon profitiert schwer vorstellen, selbst wenn der Durchsatz durch (viel) mehr Takt gehalten werden kann...

HPVD

2025-01-14, 11:04:46

NVIDIAs Strategiewechsel: Auf Blackwell folgt Rubin wohl schon 2025, parallel zu Blackwell Ultra
https://www.igorslab.de/nvidias-strategiewechsel-auf-blackwell-folgt-rubin-wohl-schon-2025-parallel-zu-blackwell-ultra/

vielleicht um der Dominator zu bleiben und zu AMD und allen inhouse chips (google, amazon, meta..) den Abstand waren zu können...

Blase

2025-01-14, 11:34:13

Nur um sicher zu gehen: Rubin ist wirklich rein HPC/AI, ja? Kein Gaming Einsatz geplant?

MfG Blase

AffenJack

2025-01-14, 11:55:09

NVIDIAs Strategiewechsel: Auf Blackwell folgt Rubin wohl schon 2025, parallel zu Blackwell Ultra
https://www.igorslab.de/nvidias-strategiewechsel-auf-blackwell-folgt-rubin-wohl-schon-2025-parallel-zu-blackwell-ultra/

vielleicht um der Dominator zu bleiben und zu AMD und allen inhouse chips (google, amazon, meta..) den Abstand waren zu können...

Die Meldung ist von Dezember und es gibt keine Anzeichen, dass Rubin 2025 kommt.

Auf den Markt wird Rubin 2025 nicht kommen. Es kann sein, dass man in Q4 präsentiert, da man vor der GTC26 auf den Markt bringt. Das wäre schon eine Verschiebung nach vorne um 6 Monate, denn normalerweise würde man die Verfügbarkeit von Rubin erst in H2 26 erwarten.

Blackwell Ultra soll Q3 sein, wirklich parallel wird das aber zu Anfang nicht werden. Dann aber bestimmt länger parallel laufen.

HPVD

2025-01-25, 17:45:33

darüber hab ich auch schon nachgedacht.
Könnt ihr euch wirklich vorstellen, dass die Busbreite von Blackwells 512bit wieder reduziert wird?
Kann mir das in Zeiten von AI die wirklich davon profitiert schwer vorstellen, selbst wenn der Durchsatz durch (viel) mehr Takt gehalten werden kann...

und es gibt nicht nur AI was von Bandbreite stark profitiert:
Hier wird gezeigt das es auch andere Compute Workloads gibt, die den Speicher-Bandbreitenzuwachs 1zu1 in Leistung umsetzen können:
https://www.phoronix.com/review/nvidia-geforce-rtx5090-linux/4

und insgesamt kommt bei den GPU Compute Performance Benchmarks als Mittel Faktor 1,42 für 4090->5090, also ein erheblicher Einfluss der Bandbreite
https://www.phoronix.com/review/nvidia-geforce-rtx5090-linux/8

y33H@

2025-01-25, 18:58:02

Designs für AI nutzen ja eh HBM, nur wir (Pro)sumer kriegen GDDR.

mironicus

2025-01-26, 08:47:41

Die RTX 6090 wird wieder eine 450 Watt-Grafikkarte sein und fast doppelt so schnell wie die RTX 4090 (Raster) - so hoffe ich. :tongue:

Sardaukar.nsn

2025-01-26, 09:51:51

Die RTX 6090 wird wieder eine 450 Watt-Grafikkarte sein und fast doppelt so schnell wie die RTX 4090 (Raster) - so hoffe ich. :tongue:

Die Leute kaufen sich doch jetzt neue Netzteile, Gehäuse ect. für die 575W 5090. Schau doch mal wie sich die TDP in den letzten 10 Jahren entwickelt hat. Meinst du echt Nvidia macht da ne Rolle rückwärts?

basix

2025-01-26, 09:54:22

Wenn die Effizienz erreicht wird oder der Chip darüber nicht mehr skaliert, wieso nicht? Hätte ja niemand was dagegen.

why_me

2025-01-26, 10:15:34

Nvidia wird sich schon etwas zurückhalten müssen, im worst case bleibt man wieder mehrere Generationen im gleichen Node und man hat das gleiche Problem wie heute.

Badesalz

2025-01-26, 10:17:21

Die Leute kaufen sich doch jetzt neue Netzteile, Gehäuse ect. für die 575W 5090.Ja. Da stimmt. Die Verkaufszahlen explodieren geradezu :rolleyes:

Den Rants nach, gar der Fanboys, wird man die Botschaft verstanden haben, daß die 5090 nun die noch akzeptierte Obergrenze erreicht hat. Die gleiche Geschichte wie beim 14900er...

ChaosTM

2025-01-26, 10:23:30

Die RTX 6090 wird wieder eine 450 Watt-Grafikkarte sein und fast doppelt so schnell wie die RTX 4090 (Raster) - so hoffe ich. :tongue:

Wird (vielleicht) ein Chiplet Design und da könnte man dann zur Not noch ein paar mehr Watt drauf packen, wenn man es auf 2 PCBs verteilt.

Altehardware

2025-01-26, 11:08:42

nvidia hat kein mcm Design das haben sie mit blackwell bewiesen
n3 ist bereit und verfügbar zwar teuer aber machbar zumal die chance auf doppelte alu per sm vertan wurde.
Der chip wäre kleiner und Leistungsstärker geworden dank n4 +11% Takt (3,1ghz) und nahezu halber alu Größe die tbp wäre bei den 450w geblieben bei deutlich mehr perf. dank mehr Fläche für die alu.
rubin wird quasi refresh von blackwell sein in n3 node alu zu si dann 30-70

HOT

2025-01-26, 11:17:52

Die Meldung ist von Dezember und es gibt keine Anzeichen, dass Rubin 2025 kommt.

Auf den Markt wird Rubin 2025 nicht kommen. Es kann sein, dass man in Q4 präsentiert, da man vor der GTC26 auf den Markt bringt. Das wäre schon eine Verschiebung nach vorne um 6 Monate, denn normalerweise würde man die Verfügbarkeit von Rubin erst in H2 26 erwarten.

Blackwell Ultra soll Q3 sein, wirklich parallel wird das aber zu Anfang nicht werden. Dann aber bestimmt länger parallel laufen.

Es gab Meldungen, dass er Late 25 vorgestellt werden sollte, aber dann ist es ziemlich ruhig geworden um das Thema. NV hat auch keinen wirklichen Druck mehr, Rubin so früh zu bringen, ich würde man wie bei Blackwell auf Q2 in dem Fall dann 26 für die Vorstellung tippen, GPU-Auskopplungen dann Anfang 27, alles N3E-Basis.

Sardaukar.nsn

2025-01-26, 11:53:35

Blackwell hat jetzt auch eher 2,5 Jahre statt des sonst üblichen 2-Jahres-Zyklus gebraucht. Kann sein das es in Zukunft auch eher länger dauert.

ChaosTM

2025-01-26, 12:06:15

Gut möglich.
Wir haben mittlerweile einen Punkt erreicht, wo mehr Rohleistung kaum noch bessere Resultate erzielt.

Die Zukunft (bis deutlich innovativere/schnellere Recheneinheiten verfügbar sind) liegt in der Software aka "AI"

Badesalz

2025-01-26, 12:09:32

Blackwell hat jetzt auch eher 2,5 Jahre statt des sonst üblichen 2-Jahres-Zyklus gebraucht. Kann sein das es in Zukunft auch eher länger dauert.Für mich Rubin zu 100% kurz bevor 3 Jahre um sind.

dildo4u

2025-03-19, 08:08:53

Rubin Ultra Specs

https://www.computerbase.de/news/grafikkarten/blackwell-nachfolger-nvidia-gibt-ausblick-auf-rubin-ultra-und-feynman.91837

https://www.golem.de/news/vera-rubin-blackwell-ultra-nach-der-doppel-gpu-kommt-die-vierfach-gpu-2503-194445.html

basix

2025-03-19, 08:13:01

Infos zu Vera, Rubin und Rubin Ultra:
https://www.computerbase.de/news/grafikkarten/blackwell-nachfolger-nvidia-gibt-ausblick-auf-rubin-ultra-und-feynman.91837/

- Neues "Namensschema" -> 1x Reticle GPU = 1x GPU (nicht mehr das gesamte Package = 1x GPU)

Vera (CPU):
- 88 Cores / 176 Threads, Custom ARM Cores
- 1536 GByte DRAM
- Vermutlich 16ch LPDDR6 (mindestens 12ch)
- Vermutlich PCIe 6.0

Rubin:
- 2x GPUs pro Package (wie Blackwell)
- 8S HBM4 (13 TByte/s), 288 GByte
- 50PF FP4 (Dense) -> 5x Blackwell GB200
- 16PF FP8 (Dense) -> 3x Blackwell GB200

Rubin Ultra:
- 4x GPUs pro Package
- 16S HBM4 (32 TByte/s), 1024 GByte
- 100PF FP4 (Dense)
- 33PF FP8 (Dense)

NVL144 (Rubin):
- Selbes Rack-Design wie Blackwells NVL72 (aber 144 wegen dem geänderten Namensschema)
- 5x FP4 Performance von Blackwell NVL72 mit GB200 // 3x GB300 (Blackwell Ultra)

NVL576 (Rubin Ultra):
- Neues Rack-Design, wo man doppelt so viele CPUs & GPUs unterbringen kann
- 20x FP4 Performance von Blackwell NVL72 mit GB200 // 13x GB300 (Blackwell Ultra)
- 1-zu-1 Ratio von Vera-CPU und Rubin Ultra (eine Vera CPU pro Rubin Ultra GPU)
- Total 365 TByte Speicher (12x Blackwell GB200 NVL72 // 10x Blackwell GB300 NVL72)

Neue Co-Packaged Optics Switches (https://www.computerbase.de/news/internet/nvidia-silicon-photonics-ai-factorys-sollen-dutzende-megawatt-bei-switches-einsparen.91823/):
- Auch auf Ethernet Basis
- Höhere Energieeffizienz
- Herstellung ist lizenziert an Partner (mMn smarter Move von Nvidia)

https://pics.computerbase.de/1/1/6/5/7/7-57897bcd6f321a8a/3-1080.5748ae6e.jpg

Pirx

2025-03-19, 08:26:42

Speicherkohärenz zwischen CPU und "GPU" hat NV aber nicht, oder?

Badesalz

2025-03-19, 08:43:57

600 kW pro Turm. Läuft...

basix

2025-03-19, 08:46:32

Speicherkohärenz zwischen CPU und "GPU" hat NV aber nicht, oder?
NVLink bietet Speicherkohärenz:
https://www.nvidia.com/en-us/data-center/nvlink-c2c/
https://en.wikichip.org/wiki/nvidia/nvlink

NVIDIA NVLink-C2C to deliver a CPU+GPU coherent memory model for accelerated AI and high-performance computing (HPC) applications.

Leonidas

2025-03-19, 09:03:00

Infos zu verbauten Recheneinheiten und zum Architektur-Aufbau sind augenscheinlich gänzlich unmodern geworden, nicht nVidia?

The_Invisible

2025-03-19, 09:05:56

600 kW pro Turm. Läuft...

Es geht da eher um Density, und wenn man 1 statt 3 Racks bei insgesamt höherer Leistungsaufnahme braucht umso besser

Zossel

2025-03-19, 09:16:26

- Auf Ethernet Basis

Ach.

Dural

2025-03-19, 09:30:02

Ich bin jedes mal überrascht wie dies technisch noch überhaupt machbar ist.

Rubin Ultra ist ja mal sowas von all in. So ein ding alleine wird wohl schon 20K+ kosten.

basix

2025-03-19, 09:36:07

Warte nur bis es die System-on-Wafer Geschichten gibt. Da ist Rubin Ultra Kindergarten dagegen und das Schaubild von Nvidia passt dann ziemlich gut :D

https://www.upmedia.mg/upload/article/20250114084759055595.jpg

Infos zu verbauten Recheneinheiten und zum Architektur-Aufbau sind augenscheinlich gänzlich unmodern geworden, nicht nVidia?
Von Rubin oder Blackwell? Bei Rubin darf man es ja definitiv nicht erwarten zum heutigen Zeitpunkt.

dildo4u

2025-03-19, 09:39:07

Wird der CPU Teil irgendwann besser irgendwie sind 88 ARM Core ziemlich Luftpumpe gegenüber AMD oder?

Badesalz

2025-03-19, 09:41:05

Warte nur bis es die System-on-Wafer Geschichten gibt.Uralter Hut
https://www.heise.de/news/Fuer-Super-KI-Supercomputer-Cerebras-Riesen-CPU-mit-4-Billionen-Transistoren-9654534.html

basix

2025-03-19, 09:59:21

Uralter Hut
https://www.heise.de/news/Fuer-Super-KI-Supercomputer-Cerebras-Riesen-CPU-mit-4-Billionen-Transistoren-9654534.html

Cerebras macht was ganz anderes. Die haben nur SRAM (kein HBM) und ein deutlich schmalbandigeres Anwendungsfeld.

System-on-Wafer ist wie Rubin Ultra, nur halt mit einem Interposer mit der Grösse eines Wafers. Und Networking / Co-Packaged Optics vermutlich gleich mit auf dem Wafer:

https://images.anandtech.com/doci/21372/tsmc-sow-cowos-evolution.png

=Floi=

2025-03-19, 10:34:44

irgendwie wird das alles immer undurchsichtiger.

Pirx

2025-03-19, 12:20:02

NVLink bietet Speicherkohärenz:
https://www.nvidia.com/en-us/data-center/nvlink-c2c/
https://en.wikichip.org/wiki/nvidia/nvlink
chip to chip, aber nicht zwischen dem CPU- und dem GPU-Teil, wie bei MI300A, oder?

AffenJack

2025-03-19, 12:54:38

chip to chip, aber nicht zwischen dem CPU- und dem GPU-Teil, wie bei MI300A, oder?

Doch, schon seit Hopper. Das ist ein alter Hut.

Badesalz

2025-03-19, 13:47:46

System-on-Wafer ist wie Rubin Ultra, nur halt mit einem Interposer mit der Grösse eines Wafers. Und Networking / Co-Packaged Optics vermutlich gleich mit auf dem Wafer:
Ist das jetzt eine TSMC Folie oder eine von NV?

mksn7

2025-03-19, 13:54:45

Infos zu verbauten Recheneinheiten und zum Architektur-Aufbau sind augenscheinlich gänzlich unmodern geworden, nicht nVidia?

Sind eigentlich SM counts und Taktraten von den Blackwell GPUs überhaupt öffentlich? Bzw, gibts Gerüchte dazu?

basix

2025-03-19, 14:16:20

Ist das jetzt eine TSMC Folie oder eine von NV?

Wie relevant ist das hinsichtlich meiner Aussage, dass sowas auch Rubin Ultra klein aussehen lässt oder besser gesagt lassen wird? ;)

Nightspider

2025-03-19, 14:28:42

In welchem Node wird die CPU gefertigt?

basix

2025-03-19, 14:41:18

In welchem Node wird die CPU gefertigt?
Ist noch nicht bekannt.

AffenJack

2025-03-19, 17:24:27

Ist noch nicht bekannt.

Dürfte aber mit Sicherheit irgendeine Abwandlung von N3 werden, so wie Rubin auch.

Cerebras macht was ganz anderes. Die haben nur SRAM (kein HBM) und ein deutlich schmalbandigeres Anwendungsfeld.

System-on-Wafer ist wie Rubin Ultra, nur halt mit einem Interposer mit der Grösse eines Wafers. Und Networking / Co-Packaged Optics vermutlich gleich mit auf dem Wafer:

https://images.anandtech.com/doci/21372/tsmc-sow-cowos-evolution.png

Interessant ist, dass es den Interposer für Rubin Ultra angekündigt bisher nirgends in der Art gab. Denn wie die Folie ja auch zeigt, ging es eigentlich immer um größere Quadratische Interposer. Aber Rubin Ultra soll rechteckig mit 16 HBM sein. Nochmal ne andere Cowos ausbaustufe oder ist Cowos so flexibel?

Abseits davon, damit das konkurenzfähig wird für Nvidia müsste man den HBM unter den Chip stapeln. An den Seiten ist zu wenig Bandbreite und oben drauf fackelt der HBM ab.

Nightspider

2025-03-19, 21:05:54

Mir fiel heute bei den Slides auch auf das Nvidia bisher nur in die Breite geht und nicht in die Höhe wie bei MI300, was sicherlich auch an den viel höheren Stückzahlen bei Nvidia liegt.

Das könnte vielleicht ein Vorteil des kleineren AMD sein, das man vielleicht nicht nur beim vertikalen Stacking etwas weiter sein könnte, sondern auch nicht diese gigantischen Stückzahlen liefern muss und daher eher auf "mehr stacking" setzen kann.

MI355X und MI400 werden sicherlich interessant. Bin gespannt ob AMD Nvidia schlagen wird.

basix

2025-03-19, 21:37:48

Der Rack-Aufbau "Kyber" für Rubin Ultra ist sehr interessant und smart:
https://www.computerbase.de/news/grafikkarten/nvidia-kyber-ein-dgx-superpod-komprimiert-auf-nur-noch-ein-rack.91820/

Hierbei kommen die GPUs von vorne ins Rack und die NVLink Switches von der Rückseite her:
-> Compute Blade - Midplane PCB - NVLink Switch Blade

Dadurch kann man alle NVLink Kabel gegen ein Interface-PCB ersetzen und verkürzt auch die Signalwege aufs Minimum. Dadurch dürfte man NVLink nochmals stark beschleunigen können und kann die Kablerei weglassen.

Erstaunlich ist auch, wie weit das bereits fortgeschritten ist. Das sieht nicht nur nach einem Mockup aus. Hier ist das System-Engineering schon in vollem Gange.

Und hat uns Nvidia noch nicht alles gezeigt?
Zähle ich richtig, kann man 4*18x Compute-Blades mit je 4x GPUs verbauen. Das wäre bei einer Vollpopulation von Rubin Ultra NVL1152 und nicht NVL576.

AffenJack

2025-03-20, 07:53:03

MI355X und MI400 werden sicherlich interessant. Bin gespannt ob AMD Nvidia schlagen wird.

Als Single Chip bis vielleicht 8 GPUs durchaus möglich. Nvidias fast Monopol wird aber auch die nächsten Jahre bleiben wegen Nvlink und den Racks wie Kyber. Erst wenn da wieder langsam Stillstand eintritt kann man von der Konkurrenz nach ~2 Jahren ein Aufschließen annehmen. Bis 2030 zweifelt daher auch niemand wirklich, dass Nvidia bei AI bei weitem vorne bleiben wird.

Zossel

2025-03-20, 08:25:50

Als Single Chip bis vielleicht 8 GPUs durchaus möglich. Nvidias fast Monopol wird aber auch die nächsten Jahre bleiben wegen Nvlink und den Racks wie Kyber. Erst wenn da wieder langsam Stillstand eintritt kann man von der Konkurrenz nach ~2 Jahren ein Aufschließen annehmen. Bis 2030 zweifelt daher auch niemand wirklich, dass Nvidia bei AI bei weitem vorne bleiben wird.

Oder NV wird an der mangelhaften Diversifizierung ihrer Produkte zugrunde gehen.

basix

2025-03-24, 13:29:51

Ich habe mal grob über die zukünftige Roadmap nachgedacht. Die Steigerung zwischen Blackwell und Rubin Ultra könnte sich in allen Dimensionen wiederholen. Also 2024 -> 2027 -> 2030. Das wäre ziemlich beeindruckend.

Blackwell (2024, NVL72) -> Rubin Ultra (2027, NVL576) = ~20x FP4-FLOPS, ~10x HBM-Bandbreite, ~10x HBM/LPDDRx Speichermenge, 4x CPU/NVLink Bandbreite
NVL576 ~500...600kW / Rack -> 4x von NVL72
In nur 3 Jahren eine ordentliche Scale-Up Steigerung pro Rack
Rubin Ultra (2027, NVL576) -> XY Feynman Next (~2030, ~NVL3456, 3D-Stacking, System-on-Wafer) = ~20x FP4-FLOPS, ~10x HBM-Bandbreite, ~10x HBM/LPDDRx Speichermenge, 4x NVLink Bandbreite, CPU auf Wafer integriert
Skalierungen im Rack (6x total): 2x vom Platz beim Kyber-Rack ist von NVL576 noch nicht besetzt; 2x wenn man auf System-on-Wafer setzt (NVLink Switches auf der Rückseite des Racks fallen weg), 1.5x System-on-Wafer (mehr Platz)
Speichermenge / Bandbreite steigt um ~1.5x pro Stack/Channel (verglichen mit NVL576), was technologisch gut realistisch ist
FLOPS usw. werden von neuen Process Nodes sowie 3D-Stacking begünstig (aber hauptsächlich verbaut man einfach mehr Silizium pro Rack)
NVL3456 ~3MW / Rack -> 5x von NVL576

Das wäre pro Server-Rack gesehen ~100x Bandbreite/Speichermenge und ~400x FP4-FLOPS innerhalb von nur 6 Jahren. Und Blackwell hat mit NVL72 bereits einen grossen Verdichtungs-Sprung gegenüber Hopper hingelegt. Dazu "nur" 16x NVLink-Bandbreite, was man aber durch die grössere Aggregierung (24x vs. 2x GPUs pro "Package") und SW-Architektur kompensieren kann. Der Energiverbrauch pro Rack steigt aber auch um ~25x. Insgesamt wär das schon eine enorme Verdichtung des Systems. Mit 16x Server-Cabinets bereits einen 50MW Server-Cluster bauen wäre fast schon wahnsinnig.

AffenJack

2025-03-24, 18:51:13

Ich glaube nicht, dass man noch viel extremer pro Rack werden kann. Irgendwo ist auch die Grenze, an der du für die Kühlung mehr Energie verbrauchst, als dass du durch das Verdichten gewinnst. Irgendwo hab ich gelesen, dasss die Firmen bis zu 1 MW noch als machbar sehen, dann ist schicht. Ich weiß schon bei 600KW nicht, wie man das überhaupt ordentlich weggekühlt kriegt.

Mal erstmal zu Rubin an sich. Nvidia behauptet 3,3x FP4 und FP8. Das gibt 3nm nicht her. Also was stellt man an? Nachdem FP64 praktisch rausgeflogen ist bei Blackwell und FP32 recht langsam, diesmal FP32 so beschränken wie FP64 und zusätzlich TF32 entfernen?

basix

2025-03-24, 19:28:02

Ich denke das mit der Kühlung bekommt man schon in den Griff. Du kannst bei einem Auto auch 100...250kW wegkühlen und hast einen viel kleineren Radiator (bei Datacenter kannst du das viel grösser skalieren). Das grösste Problem wird vermutlich die Wärmeabtransport-Geschwindigkeit sein aber wenn man konstant kaltem Wasser am Inlet antraben kann, wieso sollte das nicht machbar sein?

Dein Design muss einfach sicherstellen, dass es nirgends zum Hitzestau kommt.

AffenJack

2025-03-25, 00:07:00

Ein Auto macht als Vergleich kein Sinn, du hast ganz andere Temperaturdeltas, der Großteil geht in Form von heißen Abgasen weiter usw.

Ich glaube dir ist nicht ganz klar, was für einen Kühlaufwand das bedeutet.
Sowas hier sind die Kühlungen für 100KW pro Rack:

https://www.heise.de/news/1-Megawatt-Kuehlsystem-fuer-stromdurstige-KI-Server-9730334.html

Zossel

2025-03-25, 08:02:07

Ein Auto macht als Vergleich kein Sinn, du hast ganz andere Temperaturdeltas, der Großteil geht in Form von heißen Abgasen weiter usw.

Ich glaube dir ist nicht ganz klar, was für einen Kühlaufwand das bedeutet.
Sowas hier sind die Kühlungen für 100KW pro Rack:

https://www.heise.de/news/1-Megawatt-Kuehlsystem-fuer-stromdurstige-KI-Server-9730334.html
Etwas Physik und Rechnen verdeutlicht auch die Dimensionen in der bewährten Einheit Badewannen pro Sekunde:

Pro Sekunde fallen ~2,8KWh Wärme an:

$ python3 -c "print (10E6 / 60 / 60)"
2777.777777777778
$

Um 1m³ Wasser um 1 Kelvin zu erwärmen braucht man 1,16 KWh.
Für ein Temperaturdelta von 1 Kelvin braucht man also ~2,4m³/Sekunde oder ~16 Badewannen/Sekunde:

$ python3 -c "print ((10E6 / 60 / 60) / 1.16E3)"
2.3946360153256707
$ python3 -c "print (((10E6 / 60 / 60) / 1.16E3) / 0.15)"
15.96424010217114
$

Entsprechend bräuchte man für ein Temperaturdelta von 10 Kelvin ~0,24m³/Sekunde oder ~1,6 Badewannen/Sekunde.

Skysnake

2025-03-25, 08:23:23

Wobei du jetzt mit 10MW Leistung gerechnet hast. Für 2.8kWh pro Sekunde! Brauch man 10MW. Wir reden von 1 MW. Man braucht also 0.1 Badewannen pro Sekunde 😉

Dad ist absolut machbar.

Zossel

2025-03-25, 08:56:32

Wobei du jetzt mit 10MW Leistung gerechnet hast. Für 2.8kWh pro Sekunde! Brauch man 10MW. Wir reden von 1 MW. Man braucht also 0.1 Badewannen pro Sekunde ��

Dad ist absolut machbar.

Grrmll, ich setze immer noch zu gerne "10**6" bzw. "10^6" mit "10E6" gleich. Das nächste mal rechne ich in Saarländern pro Stunde :-)

basix

2025-03-25, 09:06:21

Ich glaube dir ist nicht ganz klar, was für einen Kühlaufwand das bedeutet.
Sowas hier sind die Kühlungen für 100KW pro Rack:

100kW sind sehr viel, 1MW nochmals deutlich mehr. Mir ist da schon klar, dass es nicht ohne Engineering und Innovationen gehen wird. Aber der Trend ist eindeutig da und die Nachfrage ebenfalls. Entsprechend wird dort Geld in die Entwicklung gesteckt. Deutlich mehr Geld, als in der Vergangenheit. Und wir reden hier von Systemen, welche erst in ~4...5 Jahren am Markt ankommen werden, da ist also auch noch etwas Zeit für Lern- und Optimierungsprozesse vorhanden ;)

Ich sehe das ein wenig so:
Ist die Nachfrage und das Geld da, dann wird mehr in entsprechendes R&D investiert (es gibt ja Kunden/Abnehmer). Und dann geht meistens deutlich mehr als man denkt ;)

Zossel

2025-03-25, 09:57:11

100kW sind sehr viel, 1MW nochmals deutlich mehr.

Was für eine Aussage!

basix

2025-03-25, 11:19:05

Danke, das hat mich einiges an mentaler Kapazität gekostet ;)

davidzo

2025-03-25, 13:18:43

Dad ist absolut machbar.

Eine volle Badewanne alle sechs-ein-viertel-Sekunden?

Das heißt eine typische Motorspritze der Feuerwehr kann viereinhalb Racks kühlen, die größeren sogar 9 Racks pro Pumpe.
Solche Pumpen sind aber nicht gerade zierlich, weder als Traggestell, Anhänger noch im Löschfahrzeug. Das visualisiert aber etwas wieviel Pumpe auf wieviel Rack kommt und den optimalen Leitungsdurchmesser. Jedes fünfte Rack ist also so eine Pumpeneinheit und da sind die Wärmetauscher noch gar nicht eingerechnet. Die sind nochmal viel viel größer.

basix

2025-03-25, 14:47:07

Eine Feuerwehrpumpe braucht aber zusätzlich viel Druck. Da geht es nicht nur um Wassermengen.

Schaut euch das Kyber-Rack an:
- 1x Hälfte sind die GPUs usw.
- 1x Hälfte ist (vermutlich) Power Supply und Kühlungsinfrastruktur ("Side Car")

Da gibt es also vermutlich ein 1-zu-1 Matching von Compute und Power/Kühlung (und vielleicht etwas Storage im "Side Car"). Die Wärmetauscher befinden sich zudem eh nicht unmittelbar im Server-Raum.

https://pics.computerbase.de/1/1/6/5/5/9-d5482ecbfd1be66c/19-2160.33f08f9b.jpg

AffenJack

2025-03-25, 15:34:37

Eine Feuerwehrpumpe braucht aber zusätzlich viel Druck. Da geht es nicht nur um Wassermengen.

Den brauchst du hier genauso, du dürftest sogar deutlich mehr Druck brauchen als für ne Feuerwehrpumpe. Der Strömungswiderstand durch die verwinkelten kleinen Rohre und geringen Durchmesser wird in Menge nen deutlich höheren Druck brauchen als so ein relativ geradliniger Schlauch der Feuerwehr.

basix

2025-03-25, 15:47:07

Kommt drauf an, wie parallelisiert du das bei Kyber gestalten kannst. Das Rohrsystem wird sicher stark parallelisiert sein um eben genau die Druck-Anforderungen im Rahmen zu halten. Du willst sicher nicht 10-20bar in deinem Kühlsystem haben.