PDA

Archiv verlassen und diese Seite im Standarddesign anzeigen : nVidia Rubin (Nachfolger von Blackwell, rein HPC/AI, 2025/26)


Leonidas
2023-12-07, 15:52:50
3DC-Newsindex zu "nVidia Rubin"
https://www.3dcenter.org/news/nvidia-rubin

benannt nach der Astronomin Vera Rubin
https://de.wikipedia.org/wiki/Vera_Rubin
https://pbs.twimg.com/media/FQzca9KVcAAIqVA?format=jpg

HPVD
2024-03-19, 10:01:25
Blackwell wurde gestern vorgestellt (Datacenter) siehe https://www.3dcenter.org/news/news-des-18-maerz-2024,
=> dann ists heute Zeit für nen neuen Thread zum Thema Nvidia Rubin :biggrin:

Was ist bekannt/wird erwartet?
- Fertigung TSMC N3X
- GDDR7 (Consumer) bzw HBM3e (Data-Center)
- Multichip auch für Consumer? Oder ist das vielleicht doch noch teurer als Monolitisch/nicht notwendig?

-> wir sollten hier direkt nach Consumer und Data-Center trennen

HOT
2024-03-19, 10:17:48
Rubin ist nur HPC/KI, als mit Sicherheit keine Consumer-Produkte, Rubin wird ja die erste Auskopplung aus den im Jahresrythmus releasten AI-GPUs dann in 25 sein. N3P wird sicherlich der zu erwartende Prozess sein.
Consumer wird es sicherlich frühestens Ende 26 wieder geben.

mczak
2024-03-19, 14:58:40
Also bezüglich Multichip sehe ich da noch keine Anzeichen dass da Nvidia auch im Consumerbereich demnächst darauf setzt (egal ob das jetzt Rubin oder eben Generation danach ist). Beim Server-Blackwell beschränkt sich nvidia ja im Gegensatz zu AMD bezüglich Chiplets auf das absolute Minimum (2 identische Dies), und dies auch nur weil es schlicht nicht anders geht.
Kann natürlich trotzdem sein dass es dann Multichip Produkte im Consumerbereich gibt (auch wenn das für Nvidia jetzt keinen Sinn macht kann das ja in 2 Jahren durchaus sinnvoll sein).

HOT
2024-03-19, 15:07:47
Jo selbst wenn GB202 noch monolithisch sein sollte (was nach Specs ja nicht so aussieht), wird das sicherlich Post-Rubin dann soweit sein.
Rubin nutzt mMn die gleiche MC-Technik wie BW, ist eben "nur" ein neuer N3-Chip. Beide werden sicherlich parallel laufen.

AffenJack
2024-03-19, 18:00:28
Jo selbst wenn GB202 noch monolithisch sein sollte (was nach Specs ja nicht so aussieht), wird das sicherlich Post-Rubin dann soweit sein.
Rubin nutzt mMn die gleiche MC-Technik wie BW, ist eben "nur" ein neuer N3-Chip. Beide werden sicherlich parallel laufen.

Jo, das Ding wird in meinen Augen nur der Fokus auf 6 HBM pro Chiplet mit größeren Interposer und paar Shadern mehr.

Leonidas
2024-03-20, 02:08:59
Threads zusammengeführt.

Was mich wundert: Wieso NV nicht endlich unterschiedliche Namen für HPC- und Consumer-Architekturen wählt. Hätte man nach Hopper/Ada schlicht so weiterführen sollen.

TheAntitheist
2024-03-20, 02:16:59
Jo selbst wenn GB202 noch monolithisch sein sollte (was nach Specs ja nicht so aussieht), wird das sicherlich Post-Rubin dann soweit sein.
Rubin nutzt mMn die gleiche MC-Technik wie BW, ist eben "nur" ein neuer N3-Chip. Beide werden sicherlich parallel laufen.
GB200 ist doch nicht monolithisch, es wurden 2 DIEs zusammen geklatscht, die sich als einen Chip ausgeben... also das was AMD nicht geschafft hat.

Leonidas
2024-03-20, 03:16:39
GB100 = HPC-Chip aus 2x GB102
GB200 = ein Produkt basierend auf GB100, kein eigener Chip (dumme Namenswahl seitens NV)
GB202 = Consumer-Chip, unsicher ob monolithisch oder nicht

Altehardware
2024-03-20, 04:32:55
rubin ist noch weit weg den erwarte ich mit n2 node also frühestens 2027 wenn nicht sogar 2028
Was es wird ist auch völlig offen

OgrEGT
2024-03-20, 06:26:20
GB200 ist doch nicht monolithisch, es wurden 2 DIEs zusammen geklatscht, die sich als einen Chip ausgeben... also das was AMD nicht geschafft hat.
Ich dachte MI300 kann genau das auch also als 1 GPU angesprochen werden?
Diese GPUs sind aber HPC/AI Chips denen Teile der Renderpipeline fehlen und sich dadurch einfacher verbinden lassen... Multichiplet über die Rendering Pipeline hinweg hat in der Tat noch niemand geschafft...

The_Invisible
2024-03-20, 07:47:01
10tb/s sollten dafür schon ausreichen, bei Apple reichen auch schon 2,5tb/s

fondness
2024-03-20, 10:20:18
Ich dachte MI300 kann genau das auch also als 1 GPU angesprochen werden?

Natürlich kann das MI300 auch.

10tb/s sollten dafür schon ausreichen, bei Apple reichen auch schon 2,5tb/s

Es sind 5 TB/s bidirektional, daraus macht das NV Maketing 10TB/s.

Zossel
2024-03-20, 10:26:36
10tb/s sollten dafür schon ausreichen, bei Apple reichen auch schon 2,5tb/s

Die Apfelkisten können die Aufgaben für die die AI-Beschleuniger von NV gebaut worden sind in der gleichen Qualität und Zeit erledigen?

Zossel
2024-03-20, 10:30:31
GB200 ist doch nicht monolithisch, es wurden 2 DIEs zusammen geklatscht, die sich als einen Chip ausgebenIst das wirklich so? Heise schreibt lediglich folgendes:Beide Chips, die Nvidia nur zusammen als Blackwell-GPU bezeichnet, sind über ein schnelles Interface mit 10 TByte pro Sekunde (5 TByte/s pro Richtung) untereinander verbunden. Laut Nvidia reicht das aus, damit sie sich auch performancemäßig wie eine einzelne GPU verhalten.https://www.heise.de/news/Nvidias-neue-KI-Chips-Blackwell-GB200-und-schnelles-NVLink-9658475.html

AffenJack
2024-03-20, 17:04:45
Threads zusammengeführt.

Was mich wundert: Wieso NV nicht endlich unterschiedliche Namen für HPC- und Consumer-Architekturen wählt. Hätte man nach Hopper/Ada schlicht so weiterführen sollen.

Wieso sollte man? Der Name zeigt nunmal, ob die Chip auf einer gemeinsamen Compute Architektur basieren. Funktionelle Blöcke wie RT Einheiten oder FP lassen sich einfach austauschen. Die grundlegenden Architekturfeatures bestimmen aber den Namen. Bei Ampere war man eher auf einem Level. Lovelace fehlen dagegen essentielle Features von Hopper, wie der Distributed Shared Memory. Mit Blackwell ziehen die Consumergpus Featuretechnisch wohl wieder nach.

Troyan
2024-03-20, 18:15:30
Natürlich kann das MI300 auch.
Es sind 5 TB/s bidirektional, daraus macht das NV Maketing 10TB/s.

Hä? Es sind 5 TB/s pro Richtung. Was 10 TB/s sind.

reaperrr
2024-03-20, 21:05:16
Hä? Es sind 5 TB/s pro Richtung. Was 10 TB/s sind.
Nein.

Die 4090 hat 1008 GB/s Speicherbandbreite. Das heißt, sie kann theoretisch auch die 1008 GB/s rein fürs Laden in den VRAM oder rein fürs zurückschieben der Daten zur GPU nutzen.

Diese Chip-to-Chip-Kommunikation dagegen mag in Summe technisch 10 TB/s breit sein, aber da jede der beiden "Straßen" nur in eine Richtung und bis 5 TB/s geht, sind das keine vollwertigen 10 TB/s Bandbreite, weil nicht beide Straßen in die gleiche Richtung genutzt werden können.
Bräuchte es für perfekte Skalierung z.B. gerade 9 TB/s in die eine und nur 1 TB/s in die andere Richtung, performt das ganze definitiv nicht wie 10 TB/s, sondern bestenfalls wie 6 TB/s.

Natürlich wird es da technische Gründe für geben, nur "echte", uneingeschränkte 10 TB/s sind's halt nicht.

Leonidas
2024-03-21, 04:05:53
Wieso sollte man? Der Name zeigt nunmal, ob die Chip auf einer gemeinsamen Compute Architektur basieren.

Schon Hopper und Ada sind intern ausreichend abweichend, dass man das nicht mehr gleich nennen sollte. Selbst SM-intern ist da vieles anders. Klar, es ist dieselbe Entwicklungsstufe der Einheiten selber. Aber wenn die Einheiten gänzlich andere Funktionen haben (bspw. Rechenformate, oder die Zentrierung auf RayTracing vs Tensor zwischen Gaming & HPC), dann wäre ein eigener Architektur-Name angebracht. Vergleiche RDNA und CDNA.

basix
2024-03-21, 12:34:41
Natürlich wird es da technische Gründe für geben, nur "echte", uneingeschränkte 10 TB/s sind's halt nicht.

Hier wäre es eine gute Frage, ob bidirektional oder nicht. H100 kommt auf ~5TB/s Bandbreite bei L2$. Sind es bei Blackwell 10TB/s je Richtung, würde es relativ gut passen, ansonsten ist es weniger. Das kann man aber evtl. via Software und Aufgaben "Partionierung" so lösen, dass es nur wenig auffällt. Faktor 2x Bandbreitenreduktion durch gutes Task-Partitioning (Aufgaben/Daten bleiben primär auf dem jeweiligen Chip) scheint mir lösbar zu sein (als Laie gedacht). Ausserdem hat A100 wie auch H100 bereits einen zweigeteilten L2$, welcher über eine Crossbar verbunden ist. Das wird archtikturmässig die Vorarbeit für das Setup von B200 gewesen sein.
https://chipsandcheese.com/2023/07/02/nvidias-h100-funny-l2-and-tons-of-bandwidth/

BlacKi
2024-03-21, 13:25:59
Us dann in 25 sein. N3P wird sicherlich der zu erwartende Prozess sein.
Consumer wird es sicherlich frühestens Ende 26 wieder geben.


boah, 4 jahre im selben prozess. und amd backt wieder mal nur kleine brötchen in dieser zeit.

HOT
2024-03-21, 14:14:33
GB200 ist doch nicht monolithisch, es wurden 2 DIEs zusammen geklatscht, die sich als einen Chip ausgeben... also das was AMD nicht geschafft hat.
Vollkommener Unsinn. NV hat das gemacht, was Apple geschafft hat. AMD wird gestapelte Chiplets auch als GPU bauen, also das, was mit MI300 bereits realisiert wurde.

Troyan
2024-03-21, 14:26:39
Nein.

2 x 5 = 10
5 + 5 = 10


Die 4090 hat 1008 GB/s Speicherbandbreite. Das heißt, sie kann theoretisch auch die 1008 GB/s rein fürs Laden in den VRAM oder rein fürs zurückschieben der Daten zur GPU nutzen.

Das ist 1 TB/s...


Diese Chip-to-Chip-Kommunikation dagegen mag in Summe technisch 10 TB/s breit sein, aber da jede der beiden "Straßen" nur in eine Richtung und bis 5 TB/s geht, sind das keine vollwertigen 10 TB/s Bandbreite, weil nicht beide Straßen in die gleiche Richtung genutzt werden können.
Bräuchte es für perfekte Skalierung z.B. gerade 9 TB/s in die eine und nur 1 TB/s in die andere Richtung, performt das ganze definitiv nicht wie 10 TB/s, sondern bestenfalls wie 6 TB/s.


"Interconnect" ist nicht vergleichbar mit VRAM. Der ist mit unterschiedlichen Kanälen an den L2 Cache angebunden. Bei Blackwell werden die Daten entweder direkt von den ComputeUnits gelesen oder in den L2 Cache geschrieben. Das geschieht mit vollen Speed. Der Interconnect von Blackwell (jedenfalls aktuell) ist mit dem L2 Cache verbunden und kann daher die vollen 4 TB/s vom anderen Chip lesen und schreiben.

HPVD
2024-03-22, 09:26:41
Vera Rubin is launching by mid-2025, and were even hopping to get it out earlier than that if possible. However, do note that Rubin looks like a generation that is analogous to Hopper. It's not meant for gaming, its meant to bury the competition so deep that they don't have any oxygen left to compete in Al for years...

von Moores Law ist Dead

https://www.3dcenter.org/news/news-des-21-maerz-2024

HPVD
2024-03-22, 09:29:03
@leonidas bitte thread Titel anpassen (26->25, + rein HPC/AI)

basix
2024-03-22, 11:05:52
Meine Rubin Speku:
- N3E/P
- 2x 800mm2
- Log8/Log4 Datenformate
- Evtl. auch 1.58bit (ternary)? Verglichen mit INT8 wäre das mindestens nochmal 4x, eher sogar 8...16x Speedup (mehr TOPS)
- 12x HBM4 Stacks (>= 432 GByte Kapazität)
- 16 TByte/s HBM-Bandbreite
- Allenfalls AI <-> HPC nochmals in Richtung AI verschoben (z.B. 3x AI, 1.5x HPC Performance)

3D-Stacking ist allenfalls auch noch ein Thema. Also ein grosses N4 Base Die mit HBM, PHY und einem grossen Cache. Das N4 Compute Chiplet oben drauf. Aber immer noch 2x "Chips" wie bei B200.

HPVD
2024-03-22, 12:39:00
Meine Rubin Speku:
- N3E/P
- 2x 800mm2
- Log8/Log4 Datenformate
- Evtl. auch 1.58bit (ternary)? Verglichen mit INT8 wäre das mindestens nochmal 4x, eher sogar 8...16x Speedup (mehr TOPS)
- 12x HBM4 Stacks (>= 432 GByte Kapazität)
- 16 TByte/s HBM-Bandbreite
- Allenfalls AI <-> HPC nochmals in Richtung AI verschoben (z.B. 3x AI, 1.5x HPC Performance)

3D-Stacking ist allenfalls auch noch ein Thema. Also ein grosses N4 Base Die mit HBM, PHY und einem grossen Cache. Das N4 Compute Chiplet oben drauf. Aber immer noch 2x "Chips" wie bei B200.

joa klingt passig, die Frage ist nur: passt das zu so einem geringen zeitlichen Abstand?
Besonders das 1.58bit (und den darus entstehenden vmax Multiplikator) sehe ich erst eine Gen später...
edit: und auch das HBM4 wird knapp, oder?

AffenJack
2024-03-22, 13:21:25
joa klingt passig, die Frage ist nur: passt das zu so einem geringen zeitlichen Abstand?
Besonders das 1.58bit (und den darus entstehenden vmax Multiplikator) sehe ich erst eine Gen später...
edit: und auch das HBM4 wird knapp, oder?

Ja, HBM4 wird es 2025 nicht geben. Selbst 12High HBM3e ist noch extrem rar. Mit 12 Stacks HBM3e 12 High hat man da schon ne ordentliche Steigerung.

1,58Bit kam ja erst gerade das Paper. Das hatte niemand so auf dem Schirm, das wird noch dauern.

Meine Rubin Speku:
- N3E/P
- 2x 800mm2
- Log8/Log4 Datenformate
- Evtl. auch 1.58bit (ternary)? Verglichen mit INT8 wäre das mindestens nochmal 4x, eher sogar 8...16x Speedup (mehr TOPS)
- 12x HBM4 Stacks (>= 432 GByte Kapazität)
- 16 TByte/s HBM-Bandbreite
- Allenfalls AI <-> HPC nochmals in Richtung AI verschoben (z.B. 3x AI, 1.5x HPC Performance)

3D-Stacking ist allenfalls auch noch ein Thema. Also ein grosses N4 Base Die mit HBM, PHY und einem grossen Cache. Das N4 Compute Chiplet oben drauf. Aber immer noch 2x "Chips" wie bei B200.


Nicht für Rubin. Das Ding ist zwischengeschoben, da wird es nicht plöötzlich Stacking oder so geben. Ich wäre nicht mal bei neuen Datenformaten sicher. Das kann ein einfacher N4->N3P Refresh mit nur mehr Shadern und 12HBM und nix weiter sein.

Schon Hopper und Ada sind intern ausreichend abweichend, dass man das nicht mehr gleich nennen sollte. Selbst SM-intern ist da vieles anders. Klar, es ist dieselbe Entwicklungsstufe der Einheiten selber. Aber wenn die Einheiten gänzlich andere Funktionen haben (bspw. Rechenformate, oder die Zentrierung auf RayTracing vs Tensor zwischen Gaming & HPC), dann wäre ein eigener Architektur-Name angebracht. Vergleiche RDNA und CDNA.

Deswegen sind ADA und Hopper auch verschiedene Architekturen. Einheiten die man im Baukastenprinzip austauschen kann rechtfertigen aber für Nvidia keinen eigenen Namen und das finde ich verständlich. Das eine kennzeichnet die Architektur und das andere wird aus den möglichen Features ausgewählt, was da möglich ist. Generell orientiert man sich aber an den Compute Fähigkeiten, während die Grafikfeatures anscheinend nur sekundär zum Namen beitragen.

basix
2024-03-22, 13:31:52
1,58Bit kam ja erst gerade das Paper. Das hatte niemand so auf dem Schirm, das wird noch dauern.

Zu 1bit / 1.58bit LLM gibt es schon lange Paper. Das besondere an dem Paper ist, dass man mit 1.58bit eine wirklich gute Performance erreicht und auch in diesem Format trainieren muss und nicht erst im Nachhinein die Datenauflösung reduziert. Und dass man sich eben die Multiplikation sparen kann (Multiply+Add --> Add), was die HW viel, viel einfacher und günstiger macht. Das 1.58bit Dingens kann man im "schlechtesten" Fall auch mit INT2 emulieren (1.58bit = Ternary = -1, 0, 1; INT2 = -2,-1, 0, 1). Gibt dann halt "nur" 4x Speedup zu INT8, aber immerhin. A100 hatte INT4 und Binary (INT1) supported.


Nicht für Rubin. Das Ding ist zwischengeschoben, da wird es nicht plöötzlich Stacking oder so geben. Ich wäre nicht mal bei neuen Datenformaten sicher. Das kann ein einfacher N4->N3P Refresh mit nur mehr Shadern und 12HBM und nix weiter sein.
Ich erwarte auch kein Stacking. Ganz ausgeschlossen ist es aber nicht. Wenn Nvidia vollgas geben will, wäre das schon ein Vorteil. Daneben kann man noch NVLink Phy in separate Die auslagern.

Zum HBM:
Kann auch HMB3E sein. Aber HBM4 ist zumindest für H1/2025 angekündigt, was für Rubin aufgehen könnte. Auch hier ist es nicht ausgeschlossen, auch wenn ich persönlich auch zu HBM3E tendiere, der einfach noch etwas schneller läuft als bei Blackwell sowie +50% Stacks.

AffenJack
2024-03-22, 13:40:54
Zu 1bit / 1.58bit LLM gibt es schon lange Paper. Das besondere an dem Paper ist, dass man mit 1.58bit eine wirklich gute Performance erreicht und auch in diesem Format trainieren muss und nicht erst im Nachhinein die Datenauflösung reduziert. Und dass man sich eben die Multiplikation sparen kann, was die HW viel, viel einfacher und günstiger macht. Das 1.58bit Dingens kann man im "schlechtesten" Fall auch mit INT2 emulieren (Ternary = -1, 0, 1; INT2 = -2,-1, 0 ,1. Gibt dann "nur" 4x Speedup zu INT8, aber immerhin. A100 hatte INT4 und Binary (INT1) supported.

ahh ok, das hatte ich so nicht gewusst. Ich glaube aber trotzdem, wenn das kommt dann 2026/2027 mit dem eigentlichen Blackwell Nachfolger. Dann evtl auch Stacking.


Zum HBM:
Kann auch HMB3E sein. Aber HBM4 ist zumindest für H1/2025 angekündigt, was für Rubin aufgehen könnte. Auch hier ist es nicht ausgeschlossen, auch wenn ich persönlich auch zu HBM3E tendiere, der einfach noch etwas schneller läuft als bei Blackwell sowie +50% Stacks.

Nur von Samsung oder? Meines Wissens nach haben Hynix und Micron HBM4 für 2026 projeziert und Samsungs Marketing kann man eh in die Tonne kloppen.
Die kriegen jetzt nicht mal HBM3e hin und sind hintendran im Vergleich zu Hynix und Micron und sollen dann HBM4 als erstes machen? Samsung ist leider wie auch bei deren Foundryprozessen viel zu viel Gelaber und zu wenig liefern.

HPVD
2024-03-22, 13:43:42
...dass man mit 1.58bit eine wirklich gute Performance erreicht und auch in diesem Format trainieren muss und nicht erst im Nachhinein die Datenauflösung reduziert. Und dass man sich eben die Multiplikation sparen kann, was die HW viel, viel einfacher und günstiger macht.
...

Konsequent gedacht, macht dann ja ein erneuter Architektur Split Sinn:
1 Modell nur für 1.58bit LLM

Oder halt der berühmte Chiplet Baukasten...

basix
2024-03-22, 13:44:10
Nur von Samsung oder? Meines Wissens nach haben Hynix und Micron HBM4 für 2026 projeziert und Samsungs Marketing kann man eh in die Tonne kloppen.
Die kriegen jetzt nicht mal HBM3e hin und sind hintendran im Vergleich zu Hynix und Micron und sollen dann HBM4 als erstes machen? Samsung ist leider wie auch bei deren Foundryprozessen viel zu viel Gelaber und zu wenig liefern.

Micron sagt zumindest H2/2025: https://www.computerbase.de/2023-11/micron-roadmap-plaene-fuer-hbm4-mrdimms-cxl3-und-lpcamm-dargelegt/

Hynix erst 2026.

OK, ist vermutlich zu spät für Rubin. Für MI500 könnte es aber klappen, das wir frühestens H1/2026 kommen.

Konsequent gedacht, macht dann ja ein erneuter Architektur Split Sinn:
1 Modell nur für 1.58bit LLM

Oder halt der berühmte Chiplet Baukasten...
Genau ;)

Ich sehe das bei MI500 schon als Option. Oder als Teil der XDNA-Engines / NPUs in Consumer Produkte. Als XDNA-Chiplet könnte man das aber überall verbauen (MI-produkte, Epyc, usw.). Bei Nvidia wird sowas mit hoher Sicherheit auch mal kommen. Nvidia sagt ja selber sie verkaufen keine GPUs sondern Systeme. Das ganze Zeugs rund um HBM, Nvlink, Software Stack usw. ist genauso wichtig wie ein dediziertes "1.58b Design".

HPVD
2024-03-23, 09:52:00
Vermutung:
in Rubin wird erstmal die 4bit Leistung stark hoch geschraubt (ggf auf Kosten von höherer Genauigigkeit)

Grund:
4bit scheint nicht nur für LLM- zu reichen (dort reichen mittlerweile ja sogar die berühmten 1,58bit), sondern kann zunehmend auch für/innerhalb Diffusion Pipelines eingesetzt werden (Text-> Bild/Video)

Beispiele:

https://github.com/Xiuyu-Li/q-diffusion?tab=readme-ov-file
https://arxiv.org/html/2401.04339v1

basix
2024-03-23, 10:46:36
Vielleicht kann man es auch genereller sehen: Inferencing. Dort hat Nvidia die grösste Konkurrenz und dort sind langfristig die grössten Kostenfaktoren zu sehen (Betrieb der Datacenter).

HPVD
2024-03-23, 15:03:22
Vielleicht kann man es auch genereller sehen: Inferencing. Dort hat Nvidia die grösste Konkurrenz und dort sind langfristig die grössten Kostenfaktoren zu sehen (Betrieb der Datacenter).

bin mir gar nicht so sicher ob man das auf Inferencing beschränken kann/sollte.

In dem Bereich gibt es nämlich schon sehr mittelfristig eine weitere große Konkurrenz (nicht nur die eigenen Chips der Großen), bereits jetzt abzusehen und ganz besonders, wenn 4bit und noch mehr 1,58bit die benötigte Rechenleistung noch deutlich reduziert:
=> Client-side inferencing ("On-Device AI")

edit:
und es sinkt nicht nur die benötigte Rechenleistung durch
- optimierte Modelle (s. Open Source Welt...) und
- neue Möglichkeiten zur Genauigkeitsreduktion,
sondern zusätzlich wird die Client-Hardware ja auch gerade massiv aufgerüstet:
JEDER hat ne NPU integriert: Intel, Amd und auch Qualcomm, Mediatek, Google, Apple (teilweise auch schon mit 4bit in Hardware..)
und auch die "drum herum" Hardware wird selbst bei kleinen Devices immer passender: Smartphones mit 12GB Ram sind keine Seltenheit mehr, das gibts in 2024 ab der 199€ Klasse..

edit2:
und dieses cient side inferencing hat 4 interessante Vorteile:
- Privacy, die Daten bleiben auf dem Gerät
- Latenz
- Zuverlässigkeit, auch wenn gerade das Netz nur so mittel ist
- Kosten, denn es muss kein Datencenter betrieben werden

edit3:
vielleicht ist das client side inferencing in gar nicht ferner Zukunft schon good enough für den Hausgebrauch/Massenmarkt (analog "integrierte GPU"...)

edit4:
scheinbar wird das on-device Thema nun auch deutlich von Großen gepusht:
https://developers.googleblog.com/2024/03/running-large-language-models-on-device-with-mediapipe-andtensorflow-lite.html

... hmm wat sagt uns das nun für die Erwartungen bzgl Rubin?

Altehardware
2024-03-24, 13:36:20
Das es kein hpc chip wird
rubin wird die evolution von blackwell mit mehr Takt.
Der ganze ai kram wird später mit ner npu erledigt und auf datacenter berechnet also auch da wo die daten sind.
folglich wird nvidia dafür die grace cpu weiterhin mit blackwell v2 weitermachen
rubin wird als workstation udn desktop gpu kommen
Danach folgt sowieso ein mcm chip die gestapelt sind mit ner neuen Architektur
Das gute mit blackwell wird die desktop Architektur umgebaut auf 192alu per sm das bedeutet zwar reduzierte Takt aber dürfte mit n3 dennoch 2,6ghz erreichen.
rubin wird n2 node nutzen und somit die 3,2ghz erreichen was Ai angeht das ist zu 90% software und noch voll im design zumal man derzeit keine ai dauerhaft laufen lassen kann Da diese immer ein Bezugsproblem hat. da diese lernt und wer bestimmt das dass erlernte richtig ist und mit der realen welt funktioniert.
Das problem ist nicht neu da vom Konzept her ne ai Fehler macht nur kann die ai nicht prüfen obs real auch stimmt.
Darum ist brute force auch völlig sinnfrei erst müssen die Modelle so angepasst werden das diese nahezu fehlerfrei werden dafür bedingt es aber ein Modell das ein Gedächtnis hat und dieses nicht ändert. Sondern nur addiert und das Gedächtnis muss immer auf aktuellem stand gebracht werden was viele Menschen benötigt was am ende der Vorteil der ai zunichte macht es ist ne Hilfe mehr nicht.
rubin sehe ich als blackwell evolution mit mehr Speicher und Takt.

Ob blackwel nur den n4p nutzt wird den takt auf den workstatio gpu auf nujr 2,1ghz ermöglichen dafür sind be rmehr alu für ein rt cpore am wirklen womit die perf drastisch steigen wird in dxr potentiellbis zu 72% per sm in raster aufgrund des geringen taktes von nur 2,3 und 1,7ghz (sf4x) muss man am desktop den n3p node nutzen wo dann 2,6ghz möglich werden Samsung ist bei 2,04ghz Schluss und das auch nur dann wenn der schrink nicht voll genutzt wird etwa nur 14% density statt den vollen 22% von sf4 vs n8
Demnach erreicht man dann statt 1,7ghz dann 2,04ghz
tsmc schrink ist derweil nicht möglich es gibt zwar 6% aber diese werden vom Takt aufgefressen da die Fläche ebenfalls um 8% steigen wird
Am ende dürfte der tsmc n4p node sich lohnen da mehr Takt möglich ist als bei samsung sf4x
aber die 3ghz können wir vergessen
Es wird 2,3ghz/2,04ghz mit Anpassung der chipdichte oder nur 2,0ghz/1,7ghz ohne im übrigen ohne stromersparnis.

Die alternative wäre mehr chipfläche also 14% 28% takt aber volle Einsparung der node Verbesserung was 22% wären
Dann wäre in ada design bei 3,5ghz und hätte min 22% Stromersparnis.
bsp wäre mit nen gb207 38sm dann 23tf bei 120w tbp
Das ginge aber nur mit vergrößerter chipfläche das wäre ein Ausweg um doch noch an der sm Struktur nix zu ändern. Das aber würde in dxr stagnation bedeuten
Dxr skaliert nicht mit den Takt sondern nur mit den alu per sm
Darum wird es vermutlic erstmals ne taktreduktion nach einer gen geben bei 2,0ghz und 2,3ghz
folgende sku sind drin
gb207 rtx5060 32sm 2,0ghz 180w 96bit 12gb 410€ +-19tf =+64% und +130% dxr
gb207 rtx5060ti 38sm 2,0ghz 200w 96bit 12gb 499€ +- 23tf =+37% und +80% dxr perf
gb206 rtx5070 64sm 2,0ghz 280w 128bit 16gb 699€ +- 38tf =+41% und +80% dxr perf
gb206 rtx5070ti 76sm 2,0ghz 330w 128bit 16gb 899€ +-46tf +-42% und +80% dxr perf
gb205 rtx5080 108sm 2,3ghz 375w 192bit 24gb 1100€ +-65tf +66% und +105% dxr perf
gb203 rtx5090 144sm 2,3ghz 450w 256bit 32gb 2500€ +-100tf +59% und +80% dxr perf
gb202 titan B 144sm 2,3ghz 550w 384bit 48gb 4000€ +-100tf rest identisch

Wieso den chip zweimal gleich bauen nun das liegt am vram die bandbreitenvorteil der titan wird benötigt (48gb) und mehr alu gehen nicht da der chip an seine Größen limit kommt. grob 800mm²
Das Si macht dann 40% aus.
bei allen anderen sku sind es nur noch 30% derzeit vergeudet man fürs si und pcie etwa 55% chipfläche

anders kann man die dxr perf nicht steigern der Weg mit nur mehr Takt bringt hier nix.
Entweder mehr Rt cores oder mehr alu per sm ideal beides. Das einzige was dagegen spricht ist jensen Ego da bisher nie ne gen nachgekommen ist mit weniger Takt als die vorherige.
Um das zu erreichen braucht man den n3p node sowie samsung sf3x mit gaa was nochmal 18% Takt bringt was dann bei 2,6ghz und 2,36ghz wären
Das aber sehe ich nicht vor 2026 kommen
Der release wird spannend da dieser dieses Jahr sein soll nicht wundern gb203 hat 160sm im Vollausbau 144sm aktiv bei nur 2,3ghz aber deutlich mehr alu per sm
Das in n3 node wäre bei 2,6ghz und somit ohne Taktreduktion da aber n4p sicher ist dürfte das nicht passieren.
Damit dürfte dieses Jahr zwei sku kommen gb203 und gb205 und q2 2025 dann gb206 und gb207 zusammen.
Die % werte sind zu den 100% zu addieren
faktisch ist im schnitt die dxr perf verdoppelt je sku

horn 12
2024-03-24, 14:10:51
5080 dann 66% schneller als 4080
5090 somit 59% schneller als 4090

Nie und nimmer kann dies so kommen,- da gleicher/ kaum Verbesserter Node
und die Verbesserungen können nicht sooo gewaltig ausfallen wie du dies verheist.

Altehardware
2024-03-24, 14:26:01
Mehr alu per sm von 128 auf 192
Das macht extrem viel aus.

HPVD
2024-03-24, 14:52:35
...
Der ganze ai kram wird später mit ner npu erledigt und auf datacenter berechnet also auch da wo die daten sind.
folglich wird nvidia dafür die grace cpu weiterhin mit blackwell v2 weitermachen
rubin wird als workstation udn desktop gpu kommen


?
eigentlich sind die Daten oft bei Dir. Du sagst das was erkannt werden soll. Du schreibst das was übersetzt werden soll. Du hast das Bild das verändert werden soll. Du hast das Video das entwackelt werden soll. Du hast..

ChaosTM
2024-03-24, 15:02:23
5080 dann 66% schneller als 4080
5090 somit 59% schneller als 4090

Nie und nimmer kann dies so kommen,- da gleicher/ kaum Verbesserter Node
und die Verbesserungen können nicht sooo gewaltig ausfallen wie du dies verheist.


+60% wäre desaströs für den Kontostand. Ich rechne eher mit 30%

Altehardware
2024-03-24, 15:13:59
ihr vergisst das blackwell ende 2025 gegen rdna5 antritt in n3p node mcm chips
Während blackswell mit n4p node ist. Ein port auf n3x wäre möglich aber nicht vor Mitte 2026 mit neuen Masken .
Der n3 node läuft echt mies und da vermutlich keine Masken für n3 gegeben hat dürfte nvidia den node einfach überspringen und mit n2 weitermachen.

ne Maske fürn node ist teuer braucht etwa nen Jahr und müsste jetzt gemacht werden damit man es 2026 launchen kann.
Das passiert derzeit nicht folglich wird am auf n2x gehen wo die Masken ab 2026 losgehen werden mit rubin im Fokus damit es spätestens q2 2027 kommen wird.
Der Grund wird auch klar da mit n2x gaa kommt

Platos
2024-03-24, 19:22:32
Falls AMD Ende 2025 mit RDNA5 kommt, dann wird nvidia mit Sicherheit einen Refresh bringen und kann somit auch einfach wieder wie im jetzigen Super-Refresh das P/L verbessern.

Es träte dann also der Blackwell-Refresh gegen RDNA5 an. Zusätzlich kommt noch dazu, dass ja AMD momentan ziemlivh am abstinken ist. Mit glück dürfen wir Kunden also hoffen, dass AMD gerade mal aufschliesst.

HPVD
2024-03-25, 19:10:07
bin mir gar nicht so sicher ob man das auf Inferencing beschränken kann/sollte.

In dem Bereich gibt es nämlich schon sehr mittelfristig eine weitere große Konkurrenz (nicht nur die eigenen Chips der Großen), bereits jetzt abzusehen und ganz besonders, wenn 4bit und noch mehr 1,58bit die benötigte Rechenleistung noch deutlich reduziert:
=> Client-side inferencing ("On-Device AI")

edit:
und es sinkt nicht nur die benötigte Rechenleistung durch
- optimierte Modelle (s. Open Source Welt...) und
- neue Möglichkeiten zur Genauigkeitsreduktion,
sondern zusätzlich wird die Client-Hardware ja auch gerade massiv aufgerüstet:
JEDER hat ne NPU integriert: Intel, Amd und auch Qualcomm, Mediatek, Google, Apple (teilweise auch schon mit 4bit in Hardware..)
und auch die "drum herum" Hardware wird selbst bei kleinen Devices immer passender: Smartphones mit 12GB Ram sind keine Seltenheit mehr, das gibts in 2024 ab der 199€ Klasse..

edit2:
und dieses cient side inferencing hat 4 interessante Vorteile:
- Privacy, die Daten bleiben auf dem Gerät
- Latenz
- Zuverlässigkeit, auch wenn gerade das Netz nur so mittel ist
- Kosten, denn es muss kein Datencenter betrieben werden

edit3:
vielleicht ist das client side inferencing in gar nicht ferner Zukunft schon good enough für den Hausgebrauch/Massenmarkt (analog "integrierte GPU"...)

edit4:
scheinbar wird das on-device Thema nun auch deutlich von Großen gepusht:
https://developers.googleblog.com/2024/03/running-large-language-models-on-device-with-mediapipe-andtensorflow-lite.html

... hmm wat sagt uns das nun für die Erwartungen bzgl Rubin?

als Ergänzung noch ein schönes Beispiel, für eine signifikante Reduktion der benötigten Rechenleistung und damit einem weiteren Schritt das Inferencing bald auf dem Client zu machen...

stablediffusion (text -> bild)
in 1/30 der Zeit
(=1/30 der vorher benötigten Rechnenleistung), gerechnet auf 16bit

-> One-step Diffusion with Distribution Matching Distillation
https://tianweiy.github.io/dmd/

AffenJack
2024-03-25, 19:25:09
als Ergänzung noch ein schönes Beispiel, für eine signifikante Reduktion der benötigten Rechenleistung und damit einem weiteren Schritt das Inferencing bald auf dem Client zu machen...

stablediffusion (text -> bild)
in 1/30 der Zeit
(=1/30 der vorher benötigten Rechnenleistung), gerechnet auf 16bit

-> One-step Diffusion with Distribution Matching Distillation
https://tianweiy.github.io/dmd/

Ist die Geschwindigkeit überhaupt das große Problem, was gegen Client Inferencing spricht? Ich denke es ist eher der Speicherplatz. Kaum ein Client wird sich mehrere 100Gb Platz nehmen, um verschiedene Modelle auf der Platte zu haben.

HPVD
2024-03-25, 19:33:33
Ist die Geschwindigkeit überhaupt das große Problem, was gegen Client Inferencing spricht? Ich denke es ist eher der Speicherplatz. Kaum ein Client wird sich mehrere 100Gb Platz nehmen, um verschiedene Modelle auf der Platte zu haben.

im Prinzip sollte auch hier die Größe genauso wie die Rechenzeit skalieren. Denn in der kürzeren Zeit schaffe ich ja weniger "Datendurchsatz", brauche also weniger Daten um auf das vergleichbare Ergebnis zu kommen.

Gibt ja heute bereits Varianten der LLM die lokal auf Smartphone laufen...

basix
2024-03-25, 21:13:57
"DMD" ist wieder mal ein gutes Beispiel, wie viel Potential noch in der DNN Optimierung steckt. 30x schneller bei vergleichbarer Qualität ist mit reiner GPU-Evolution nur schwer machbar.

Zossel
2024-03-26, 13:24:05
Doof bleibt doof, da helfen keine Transistoren:Damit die dort beworbenen Produkte auch verkauft werden, müssen sie in Suchergebnissen die ersten Plätze belegen. Wird ein Sofa verkauft, dann geht es in dem Text um das Sofa, auch wenn auf den Bildern Pflanzen, Lampen und sogar Menschen zu sehen sind. Schließlich sollen Suchmaschinen wie Googles Algorithmus Pagerank das Sofa leicht finden und als relevant einstufen. Das tun sie anhand der Bildbeschreibungen. Anders gesagt: Die eine Maschine arbeitet überwiegend mit Daten, die der anderen Maschine gefällt – und, so scheint es, leitet daraus ihre Sicht auf die Welt ab.https://www.derstandard.at/story/3000000213172/ki-lernt-vor-allem-von-englischsprachigen-shoppingseiten

HPVD
2024-03-26, 15:53:23
noch ein letztes mal das Thema Client-Side Inferencing

Apple baut nächsten iPhone-Chip für KI um
Teile der Funktionen sollen mit Partnern in der Cloud realisiert werden. Für viele Features will man aber laut neuen Gerüchten im iPhone selbst für die nötige Rechenleistung sorgen. Seit dem iPhone 12 kommen die Smartphones des Konzerns mit Neural Engine mit 16 Kernen. Diese wurden mit den Jahren zwar weiterentwickelt, die Zahl der Kerne blieb aber gleich. Jeff Pu, ein für gewöhnlich gut informierter Investmentanalyst, berichtet jetzt davon, dass der A18 Pro Chip in der Größe wächst, um Platz für mehr KI-Kerne zu machen.
https://winfuture.de/news,141929.html

HPVD
2024-03-27, 15:48:22
und wirklich das aller letzte mal client side inferencing:
Intel confirms Microsoft's Copilot AI will soon run locally on PCs, next-gen AI PCs require 40 TOPS of NPU performance
https://www.tomshardware.com/pc-components/cpus/intel-confirms-microsoft-copilot-will-soon-run-locally-on-pcs-next-gen-ai-pcs-require-40-tops-of-npu-performance

mocad_tom
2024-03-27, 17:10:10
beim asus zenbook ist der preisunterschied zwischen 16gb und 32gb 150€.

bei apple ist der preisunterschied zwischen 8gb und 16gb eine niere.

für die speicherhersteller könnte das halt wirklich ein segen werden.

zumal die ziemlich ausgelastet werden mit den hbm bestellungen und nun das noch on top drauf.

dildo4u
2024-03-27, 17:14:14
Apple wird sein AI Quatsch auf 8GB optemieren da die Handys niemals mher bekommen.

woodsdog
2024-03-27, 20:02:48
Apple wird sein AI Quatsch auf 8GB optemieren da die Handys niemals mher bekommen.

Handys von Apple werden niemals mehr als 8GB RAM bekommen.

Dildo4U, 3DCenter Forum, 2024 :rolleyes:

Leonidas
2024-05-10, 08:22:40
https://twitter.com/XpeaGPU/status/1788441441561154007
Too much false rumors these days so let's make it straight:
Nvidia X100/R100 will tape out this summer.
Still CoWos-L
Still HBM3e
Facts

basix
2024-05-10, 10:17:22
Sind X100 & R100 unterschiedliche Chips? Nvidia hat zu R100 noch nichts verlauten lassen.

Zwei Chips könnten aber schon denkbar sein. Beispielhaft gedacht:
- X100 = H100 Nachfolger (FP64 + ML/AI)
- R100 = ML/AI only Fokus

w0mbat
2024-05-10, 13:20:36
X = R
Würde ich sagen.

horn 12
2024-05-10, 13:51:32
Dies lässt darauf schliessen das Blackwell nur ein Zwischenschritt ist
und jener schnell abgelöst werden wird.
+20 bis max. 30& auf Ada oben drauf mit noch höherer TBP

AffenJack
2024-05-10, 14:04:50
X = R
Würde ich sagen.

Genau das. X ist einfach nur ein Platzhalter gewesen.

Sind X100 & R100 unterschiedliche Chips? Nvidia hat zu R100 noch nichts verlauten lassen.

Blackwell hat man auch erst jetzt angekündigt. Davor hat Nvidia nur Hopper-Next benutzt. Selbst zu Blackwell gibts ja noch nicht mal ein Whitepaper und Nvidia versucht diesmal den Aufbau der Blackwell-SMs solange wie möglich zu verheimlichen.

davidzo
2024-05-10, 14:19:40
Dies lässt darauf schliessen das Blackwell nur ein Zwischenschritt ist
und jener schnell abgelöst werden wird.
+20 bis max. 30& auf Ada oben drauf mit noch höherer TBP

Sowohl Nvidia als auch AMD haben angekündigt dass der AI Markt so lukrativ ist dass man ihn künftig mit jährlichen Releases bedienen will. Das werden also eher einzelne SKUs bzw. höchstens refreshes mit mehr Speicher sein wie bei H100, GH200, H200 oder gar die China-Versionen A800 und H800. AMD macht mit Mi350 ja eine ähnlichen Zwischenschritt.

Wenn es um Silizium-Codenamen ginge, dann wären zwei Buchstaben vorrangestellt, also z.b. GH100, AD102 oder GB100. Offensichtlich geht es aber um SKU und Vermarktungsnamen, so wie H100 PCIe 64GB oder H800 SXM5. Wobei nivida ihre eigene Nomenklatur wieder aufweicht indem man GH200 und GB200 auch als Marketingnamen verwendet und die einzel GPU darin nun nachträglich H200 nennt.

Das muss also nicht heißen dass R100 wirklich ne andere Architektur und grundlegend anderes Silizium ist, das könnte auch nur Marktsegmentierung bedeuten. Imo ist das die viel wahrscheinlichere Auflösung wenn X100/R100 nur mit Schrägstich getrenn genannt werden und zusammen tapeout hatten.