Diskussion zu: nVidias GB203 könnte auch mittels Durchsägen des GB202-Chips ... [Archiv]

PDA

Archiv verlassen und diese Seite im Standarddesign anzeigen : Diskussion zu: nVidias GB203 könnte auch mittels Durchsägen des GB202-Chips ...

Leonidas

2024-05-28, 16:47:43

Link zur News:
https://www.3dcenter.org/news/geruechtekueche-nvidias-gb203-koennte-auch-mittels-durchsaegen-des-gb202-chips-gewonnen-werden

GerryB

2024-05-28, 20:05:07

Interessant,
dann hat wohl jede Hälfte auch nur ne 256bit-Anbindung!?

Mal schauen, wie die minFps in 8k dann so sind.

Gast

2024-05-28, 20:13:30

Wer sagt denn, dass die doppelt vorhandenen Chipteile wirklich so umsonst sind?

Mehrere Display-Engines kann man benutzen um mehrere Monitore anzuschließen, mehrere Videoengines um mehr Videostreams parallel encodieren/decodieren zu können.

Und selbst bei PCIe wäre denkbar, dass Nvidia per Einzelchip auf 8x zurückgeht, und dann erst der Doppelchip 16x hat.

Rabiata

2024-05-28, 20:36:33

Und selbst bei PCIe wäre denkbar, dass Nvidia per Einzelchip auf 8x zurückgeht, und dann erst der Doppelchip 16x hat.
Da bin ich etwas skeptisch, weil GB203 immer noch recht highendig sein dürfte (zum Vergleich, AD103 war die Grundlage für die RTX 4080). Da würde Nvidia wohl alle 16 PCIe Lanes nutzen wollen.

Holzkohle

2024-05-28, 20:37:42

Ein kleiner Rechtschreib-Fehlerteufel
nVidia-Ingeniere => nVidia-Ingenieure

Gast

2024-05-28, 20:55:50

Da bin ich etwas skeptisch, weil GB203 immer noch recht highendig sein dürfte (zum Vergleich, AD103 war die Grundlage für die RTX 4080).

Selbst in diesem Bereich ist die PCIe-Bandbreite weit mehr als ausreichend.

Vor allem, wenn bei GB202 16x ausreichen, müssen bei GB203 zwangsweise auch 8x ausreichen, ansonsten würde GB202 an Bandbreite verhungern.

GB202 muss auch zwangsweise mit jede Chiphälfte nur mit 8x angebunden sein und es muss ausreichen.

Rabiata

2024-05-28, 22:55:13

Vor allem, wenn bei GB202 16x ausreichen, müssen bei GB203 zwangsweise auch 8x ausreichen, ansonsten würde GB202 an Bandbreite verhungern.

Vielleicht ist das ja der Fall und es wäre im High End eigentlich 32x oder mehr wünschenswert. Nur steht das halt am normalen Desktop nicht zur Verfügung. Siehe auch die Karten im Einsteigerbereich, wo sich 4x schon als knapp erweist.

Ich habe gerade mal auf Wikipedia macgeschaut, und Nvidia benutzt bei den ganz großen Server-GPUs einen Dual Slot PCIe Anschluß.

iamthebear

2024-05-28, 23:29:53

1.)Das mit dem "Durchsägen" ist glaube ich etwas zu wörtlich genommen:

a) Nvidia wird bei GB202 wohl kaum den ganzen IO Teil wie PCIe, Display ports usw. doppelt verbauen wollen.

b) Um 2 Chiphälften miteinander reden zu lassen braucht es einen Interconnect. Den will Nvidia bei der Variante mit einer Hälfte (die 90%+ der verkauften Karten ausmachen wird) kaum unnötignverbauen wollen.

2.) Um zu erahnen wie das Ganze in der Praxis aussehen wird muss man sich nur GA100 ansehen: https://twitter.com/Locuza_/status/1505612074826752008

Gast

2024-05-28, 23:39:14

Selbst wenn die kastrierte rtx 5090 wieder +60 - 100 % Mehrleistung (Raster und Raytracing) an den Tag legt, überspringe ich diese Grafikkartengeneration.

Nicht nur sind die rtx 4080 oder 4090 Grafikkarten selbst unter 4K-UHD (raytraced global illumination oder unsinnige "alles auf Ultra Grafikoptionen" mal ausgenommen) ausreichend schnell bis zum Ende dieser Konsolengeneration (~ 2027), sondern die Erklärungen zeigen mir deutlich dass dies alles noch Vorbereitungen und nicht optimale, finale, Produkte sind.
Ampere ist eine Vorbereitung, Ada Lovelace, nun auch noch Blackwell.

Von amd mit rdna 3 und rdna 4 doch genauso?

ezüglich Cache und Speicherinterface stehen beiden Chiphälften jeweils nur die Hälfte des Gesamtchips zur Verfügung, was somit durchaus nicht so stark bzw. effektiv ist wie ein doppelt so großer Level2-Cache bzw. ein doppelt so breites Speicherinterface. Aber nVidia kann sich diesen gewissen Effizienz-Verlust gerade in dieser Chip-Generation leisten, da von AMD & Intel keinerlei Gegenwehr an der Leistungsspitze zu erwarten ist.
Liest sich alles als unfertig und unoptimal.

Ende 2026 rtx 6000, sind diese ganzen Vorarbeiten zu MCM, interconnect was-auch-immer dann endlich abgeschlossen?

Ist doch mit den Prozessoren bei z.B. amd auch nicht anders, wenn die Informationen korrekt sind. So richtig gut wrid erst Zen 6.
https://www.youtube.com/watch?v=ex_gPeWVAo0

Orko

2024-05-29, 00:17:36

Das dargestellte Konzept der Doppelchips ist interessant. Sozusagen der konzeptionell inverse Ansatz zu AMDs RDNA3. Meine Gedanken hierzu:

Leonidas: "Ein weiterer Twitterer hat sich hiermit auseinandergesetzt und zeigt spekulativ auf, wie so etwas konkret aussehen könnte: Beide Chip-Hälften des GB202-Chips enthalten faktisch die komplette Hardware des GB203-Chips und sind über Interconnects miteinander verbunden."

Ein solcher Interconnect ist die Voraussetzung für eine effektive Nutzung im Gamingbereich (nicht unbedingt im HPC Bereich). Die beiden Compute Teile (Shader Arrays etc) müssen sich zu einer logischen Einheit zusammenschalten lassen, die von EINER "Threadengine" gesteuert wird. Sozusagen ein "SLI done perfect".

Wenn das funktioniert, dann ist die Frage, ob der Compute Teil zukünftig auch auf noch mehrere Teile (z.B. 4 oder 6 oder 8) aufgeteilt werden kann. Eine Aufteilung in zunächst zwei Teile wäre bei einem solchem Konzept einfach der Entwicklungs-Startpunkt mit dem geringstem Risiko und einer guten Lernkurve.

Leonidas: "Bezüglich Cache und Speicherinterface stehen beiden Chiphälften jeweils nur die Hälfte des Gesamtchips zur Verfügung, was somit durchaus nicht so stark bzw. effektiv ist wie ein doppelt so großer Level2-Cache bzw. ein doppelt so breites Speicherinterface."

Ein interessanter Punkt, der mich auch schon bei den AMDs RDNA3 MCM Produkten gedanklich beschäftigt hat. Was ist wenn (potentieller Extremfall) alle aktuell benötigten Daten nur in Speicherchips liegen, die einem Cache-Slice zugeordnet sind? Reduziert sich dann die effektiv genutze Cachegröße und die effektive Speicherbandbreite auf die Hälfte (7700XT und 7800XT ein Viertel; 7900 Varianten ein Sechstel)?

Beim AMD Ansatz sehe ich dafür keine elegante Lösung. Irgendwie die anderen Cacheslices doch mitzunutzen erhöht den Datentraffic im Chipkonstrukt enorm. Ein Interleaver Ansatz der alle Daten möglichst gleichmäßig auf alle Speicherchips verteilt wiederum untergräbt (zumindest wenn schlecht umgesetzt) den Prefetch Ansatz im (G)DDR Speicherstandard.

Bei Nvidia dahingegen würde sich folgende Lösung anbieten: Die Cacheslices werden per geeignetem Interconnect & Bussystem zu EINEM logischen Cache verbunden. Vielleicht ähnlich wie AMD bei Ryzen innerhalb eines CCX Verbundes die räumlich den Kernen zugeordneten Level 3 Cache-Slices zu einem gemeinsamen Level 3 Cache verbindet.

Das Problem der geringen effektiven Speicherbandbreite bleibt (naturgegeben, wenn alle aktuell benötigten Daten auf nur wenigen Speicherchips konzentriert vorliegen), aber die Nutzung der maximalen Cache-Kapazität würde dies ja bestmöglichst kompensieren. Entlastung des Speicherinterfaces ist ja letztendlich DIE Kernaufgabe von Caches.

Orko

2024-05-29, 00:20:36

iamthebear: "b) Um 2 Chiphälften miteinander reden zu lassen braucht es einen Interconnect. Den will Nvidia bei der Variante mit einer Hälfte (die 90%+ der verkauften Karten ausmachen wird) kaum unnötignverbauen wollen."

Es brächte einen oder ggf sogar mehrere Interconnects, ja.

Aber ein On-Chip-Interconnect wie hier angedacht ist was anderes als ein Off-Chip-Interconnect wie z.B. bei Ryzen oder RDNA3.

Orko

2024-05-29, 00:22:26

Leonidas: "Jedoch kann nVidia zwei GB203-Chips aus einem GB202-Chip generieren, wenn man letzteren genau in der Mitte (beim Interconnect zwischen den beiden Chiphälften) durchsägt. Was sich zuerst etwas schräg anhört, ist Arbeits-technisch das normalste von der Welt, schließlich werden alle Einzelchips aus kompletten Wafern (mit vielen Chips) herausgeschnitten."

Wafer werden hergestellt, die im Waferverbund vorliegenden Chips getestet und bewertet, der Wafer wird vereinzelt, die guten Chips werden abgenommen und montiert. Chips liegen üblicherweise immer im Waferverbund vor, bis sie montiert werden. Die Vorstellung von einzeln vorliegenden nicht montierten Chips ist (zumindest was die Massenproduktion betrifft) abstrakt.

Ich kann mir hier zumindest zwei konträre Ansätze vorstellen:

1) straight forward

Der Wafer ist grundlegend als Grid von Doppelchips ausgelegt. Nach dem Testen wird anhand von Yielddaten (und der konkreten Produktnachfrage) bestimmt, welche der Doppelchips halbiert werden sollen und welche nicht. Der Wafer wird per Standard-Wafersägeverfahren (Trennschleifen) in Doppelchips zerlegt. Die guten Doppelchips werden abgenommen und montiert. Beim "Restwafer" werden die Doppelchips in Einzelchips zerlegt. Die Frage dabei ist, ob dies wegen dem vermutlich inzwischen auftretenden Chip-Positions-Verzug per Standard-Wafersägeverfahren (Trennschleifen) erfolgen kann, oder ob ein alternativer Trennprozess (ich denke hier z.B. an Laser-Trennen) eingesetzt werden muss.

2) ambitioniert

Der Wafer ist grundlegend als Grid von Einzelchips ausgeleg, wobei jeder Einzelchip Interconnects mit den BEIDEN Nachbarchips hat (ausser die Wafer Randchips natürlich). Nach dem Testen wird anhand von Yielddaten (und der konkreten Produktnachfrage) ein Vereinzelungsschema bestimmt: Welche der Einzelchips werden zu Doppelchips zusammengefasst, welche nicht. Die Vereinzelung erfolgt dann nicht per Standard-Wafersägeverfahren (Trennschleifen) sondern z.B. per Laser-Trennen. Dies ist zwingend erforderlich, da per Trennschleifen nur gerade Trennlinien über den Wafer gezogen werden können. Per Laser-Trennen können beliebige Chipgeometrien aus dem Wafer geschnitten werden.

Vorteile:
- Bessere Nutzung der Waferfläche in Waferrandbereichen, in denen kein Doppelchip mehr auf den Wafer passt, wohl aber ein Einzelchip.
- Besserer Yield für Doppelchips, denn ein guter Doppelchip kann hier immer dann gewonnen werden, wenn zwei ausreichend gute Einzelchips nebeneinander liegen.

Nachteile:
- Platzbedarf des zweifachen Interconnects
- Prozessierung von soetwas in Hinblick auf Reticle-Limitierung

Dass sich geometrische und auch funktionale Strukturen in den Trenngräben (dem Platz zwischen zwei vereinzelten Chips) eines Wafers befinden ist an sich nichts Ungewöhnliches, üblicherweise Alignment und Teststrukturen.

Warum also nicht auch eine ganze Menge Leiterbahnverbindungen zwischen den Chips oder gar funktionale Teile (Transistoren) des Interconnects? Es handelt sich hier ja vermutlich um viele Leiterbahnen mit mittleren Querschnitten auf den mittleren Leiterbahnebenen, und nicht um Leiterbahnen mit ggf problematischeren grossen Querschnitten auf den oberen Leiterbahnebenen.

Die nach dem Trennen offenliegenden Leiterbahn Stirnseiten an den Chipflanken müssten wohl noch irgendwie passiviert werden, damit sich z.B. nicht von dort aus Korrosion entlang des Kupfers in den Chip hineinfrisst. Zum einen bieten sich hier abscheidungs- und/oder chemisch-basierte Prozesse an. Vielleicht reicht es aber auch schon, solche Chips einfach in einen InFO-ähnlichen Rahmen zu packen.

Orko

2024-05-29, 01:09:44

Mit Doppelchips könnte ein Portfolio so aufgebaut werden:
- Ein 512 bit Gxxx2 Chip lässt sich in zwei 256 bit Gxxx4 Chips aufteilen.
- Ein 384 bit Gxxx3 Chip lässt sich in zwei 192 bit Gxxx6 Chips aufteilen.
- 128 bit Gxxx7 und 96 bit Gxxx8 bleiben monolithische Massenware, für die sich ein Interconnect nicht lohnt.

Design- Validierungs- und Produktionstechnisch 4 Chips, Produkt- und Performancetechnisch 6 Chips plus deren teildeaktivierte Variante, Portfolio von etwa 12 Graphikkarten

Rein hypothetisch (im Sinne von IMHO wahrscheinlich unwirtschaftlich) aber halt so unglaublich schön symmetrisch
Mit Vierfachchips könnte ein Portfolio so aufgebaut werden:

- Ein 512 bit Gxxx2 Chip lässt sich in wahlweise in zwei 256 bit Gxxx4 Chips aufteilen, oder in vier 128 bit Gxxx7 Chips.
- Ein 384 bit Gxxx3 Chip lässt sich in wahlweise in zwei 192 bit Gxxx6 Chips aufteilen, oder in vier 96 bit Gxxx8 Chips.

Design- Validierungs- und Produktionstechnisch 2 Chips, Produkt- und Performancetechnisch 6 Chips plus deren teildeaktivierte Varianten, Portfolio von etwa 12 Graphikkarten

iamthebear

2024-05-29, 02:38:46

Es brächte einen oder ggf sogar mehrere Interconnects, ja.

Aber ein On-Chip-Interconnect wie hier angedacht ist was anderes als ein Off-Chip-Interconnect wie z.B. bei Ryzen oder RDNA3.

Das ist schon klar aber trotzdem braucht es einiges an Die Area, die bei GB203 dann komplett ungenutzt bleibt. Umgekehrt bleibt bei GB202 der 2. IO Bereich ungenutzt.

Und was soll das überhaupt bringen? Validieren muss man sowieso beide Dies einzeln also kann man gleich die ungenutzten Bereiche weglassen.

Orko

2024-05-29, 03:04:06

Vielleicht lassen sich diese Analogparts ja irgendwie geschickt kombinieren?
Jede Chiphälfte trägt zwei halbe Multi-Kommunikations-Interfaces A und B.

GB203:
A+B ergeben ein PCIe Interface

GB202:
A1+A2 ergeben ein PCIe Interface
B1+B2 ergeben den chipinternen Interconnect

Vielleicht analog zu:
Ein DDR4+5 fähiger Chip trägt ja auch nicht ein DDR4 PHY plus ein DDR5 PHY, sondern ein kombiniertes DDR4+DDR5 PHY welches sich entweder im DDR4 oder im DDR5 Modus betreiben lässt.

Wobei ein Analogpart der sich entweder als breitbandiger latenzarmer kurzstreckiger On-Chip-Interconnect, oder als (im Vergleich dazu) schmalbandiges latenzhohes langstreckiges PCIe Interface konfigurieren lässt natürlich eine ganz andere Hausnummer ist. Ich möchte sowas nicht designen müssen...

Aber zumindest besser als SLI sollte so ein Konstrukt auf jeden Fall werden können, um mal eine Baseline zu setzen.

Leonidas

2024-05-29, 04:38:44

Ein kleiner Rechtschreib-Fehlerteufel
nVidia-Ingeniere => nVidia-Ingenieure

Gefixt, danke für den Hinweis.

Der Wafer ist grundlegend als Grid von Doppelchips ausgelegt. Nach dem Testen wird anhand von Yielddaten (und der konkreten Produktnachfrage) bestimmt, welche der Doppelchips halbiert werden sollen und welche nicht. Der Wafer wird per Standard-Wafersägeverfahren (Trennschleifen) in Doppelchips zerlegt. Die guten Doppelchips werden abgenommen und montiert. Beim "Restwafer" werden die Doppelchips in Einzelchips zerlegt.

So denke ich es auch. Ich hatte es nur etwas flapsiger formuliert.

drkohler

2024-05-29, 05:32:24

Jede Chiphälfte trägt zwei halbe Multi-Kommunikations-Interfaces A und B.
Ja, schön und gut. Aaaaaaber:

1. Damit jeder der "halben Chip" nach dem Trennen als voller Chip funktioniert, muss jeder "Halbchip" die gesamte Infrastruktur eines "Vollchips" beinhalten. Bei Speicher und Caches ist das im Prinzip machbar, die Speicher werden einfach halbiert. Aber da gibt es unzählige weitere "Maschinen", die man nicht einfach "halbieren" kann.

2. Die Trennseite ist für nichts brauchbar und was immer da an Leitungen besteht zwischen den Chips muss deaktivierbar sein.

3. Wie sind die beiden "Halbchips" angeordnet im "Grosschip"?
Zum Layouten ist Spiegelsymmetrie praktisch zwingend, sonst muss man tausende Leitungen quer über den Chip verlegen. Bei Spiegelsymmetrie hat man dann allerdings das Problem, dass der linke und rechte "Halbchip" völlig unterschiedliche Pinlayouts haben und somit braucht man verschiedene Grafikkartenlayouts, je nachdem ob man einen "linken" oder "rechten" Chip bekommt.

1, 2, und 3. heisst das enormer zusätzlicher Aufwand benötigt wird (was einhergeht mit doppelspuriger Chipfläche, und das wahrscheinlich nicht zu knapp.

Ich halte das ganze "Trennscheibenverfahren" für äusserst unwahrscheinlich.

Gast 32

2024-05-29, 07:46:14

Für mich sind das nicht nur Vorarbeiten zum Multi-Chip. Sondern zusätzlich Anzeichen für eine kurze Lebensdauer von RTX 5000. Denn wenn der Absatz von GB 202 nicht ausreichend hoch ist kann Nvidia die Lagerbestände durch teilen als GB 203 in den Markt drücken und schneller RTX 6000 bringen.

Orko

2024-05-29, 08:10:25

Ja, schön und gut. Aaaaaaber:

1. Damit jeder der "halben Chip" nach dem Trennen als voller Chip funktioniert, muss jeder "Halbchip" die gesamte Infrastruktur eines "Vollchips" beinhalten. Bei Speicher und Caches ist das im Prinzip machbar, die Speicher werden einfach halbiert. Aber da gibt es unzählige weitere "Maschinen", die man nicht einfach "halbieren" kann.

2. Die Trennseite ist für nichts brauchbar und was immer da an Leitungen besteht zwischen den Chips muss deaktivierbar sein.

3. Wie sind die beiden "Halbchips" angeordnet im "Grosschip"?
Zum Layouten ist Spiegelsymmetrie praktisch zwingend, sonst muss man tausende Leitungen quer über den Chip verlegen. Bei Spiegelsymmetrie hat man dann allerdings das Problem, dass der linke und rechte "Halbchip" völlig unterschiedliche Pinlayouts haben und somit braucht man verschiedene Grafikkartenlayouts, je nachdem ob man einen "linken" oder "rechten" Chip bekommt.

1, 2, und 3. heisst das enormer zusätzlicher Aufwand benötigt wird (was einhergeht mit doppelspuriger Chipfläche, und das wahrscheinlich nicht zu knapp.

Ich halte das ganze "Trennscheibenverfahren" für äusserst unwahrscheinlich.

Ich finde die Idee an sich sehr spannend, und insbesondere auch diese zu diskutieren. Die Wahrscheinlichkeit einer Realisierung seitens NVidia kann ich nicht beurteilen.

1.
Cache lässt sich IMHO wie oben erklärt per Interface zusammenfassen bzw trennen. Ich halte dies für machbar.

Chip-Chip-Interconnect und PCIe lässt sich ggf mit Aufwand wie oben andiskutiert als Multi-Interface ausführen.

Bei Video-Engines, Display-Engine, ggf Scheduler etc bin ich bei dir und allen anderen Posts hier: Ein Doppelchip würde diese Einheiten jeweils doppelt tragen, einmal funktional und einmal als nutzlosen Flächenballast. Bei den Preisen die NV für RTX xx90 Graphikkarten nimmt ist dies aber wohl kein finanzieller Beinbruch.

Im Falle eines Defekts in einem solchen exklusiven Chipteil würde es sogar einen gewissen Yield-positiven Effekt ergeben. Ist in einem Doppelchip z.B. eine Video-Engine defekt und die andere OK, dann kann der Doppelchip trotzdem verbaut werden. Bei Auftrennung in zwei Einzelchips muss derjenige mit der defekten Einheit verworfen werden.

2.
Ich sehe das Problem nicht. Wird ein Doppelchip in zwei Einzelchips getrennt, so werden auch alle Leiterbahnen zwischen diesen Chips physikalisch getrennt in elektrisch:open. Damit sind sie dann deaktiviert. Wozu sollte eine zusätzliche darüber hinausgehende Deaktivierung dienen? Was stellst du dir hier konkret vor?

Nahezu alle Interfaces sind spannungsgetrieben (Information = unterschiedliche Spannunglevel; Stromfluss = notwendiges Übel). Ich kenne nur ganz wenige Interfaces die stromgetrieben (Information = unterschiedliche Stromstärken) oder spannungs&stromgetrieben sind.
Für spannungsgetriebene Interfaces entspriche das elektrisch:open der Datenleitungen einer Deaktivierung. Die Treiberschaltung kann jede beliebige Spannung anlegen ohne dass ein Strom fliesst.

Was meinst du mit "Die Trennseite ist für nichts brauchbar"?
Wozu sollten Chipseiten denn im Allgemeinfall brauchbar sein?

Wenn es dir hier um die Plazierung von PHYs im Chipdesign geht, welche üblicherweise gerne in den Chiprandbereichen platziert werden (weil sie ein Terminal des Datenflusses darstellen), dann ist dies identisch mit deinem Punkt #3 Chiplayout.

3.
Auch hier kann ich das Problem nicht sehen.
Es gibt etliche design & layout-technische Optionen.

Eine hat Leo bereits in seinem Artikel skizziert: Der Doppelchip ist punktsymmetrisch zum Chipmittelpunkt = Mitte der Trennlinie aufgebaut. Die Einzelchips (abgesehen von einer 180° Drehung im Wafer) sind damit identisch.
[Irgendwo bin ich so einem Wafer-Design sogar schon mal begegnet; jeder 2. Chip im Wafer war um 180° gedreht; ich weiss aber nicht mehr warum; das ist Jahre her]

Eine weitere, wäre die Chips in Sinne eines Streifendesigns zu entwerfen.
(Das entspricht mit Ausnahme des Chip-Chip-Interfaces einer groben - muss nicht exakt sein - spiegelsymmetrischen Anordnung der Funktionsblöcke innerhalb der Einzelchips)

Was meinst du mit "doppelspuriger Chipfläche" ?

Gast

2024-05-29, 10:11:48

Bezüglich der Theorie mit dem Auseinandersägen stellen sich mir folgende Fragen:
1. Der Interconnect muss sehr breit sein, um irgendeine Art von "Säge" nutzen zu können. Hier muss also der Basis-Chip GB202 größer gebaut werden, als elektrotechnisch nötig.
2. Der Interconnect ist leitend, beim Schneiden entsteht Ladungsverschiebung: Wie stellt man sicher, dass die entstehende Spannung nicht einen der Chips zerstört? Beim normalen Cut aus dem Waver, schneidet man ja nur durch toten Raum, der nicht leitend ist, hier schneidet man aber durch Leiterbahnen, die entsprechende Ströme in die Chips leiten. Gibt sicher eine Lösung, aber weiß jemand, wie die funktioniert?
3. Neben dem GB202 ist auch der GB203 teurer, weil man vermutlich viel präziser schneiden muss als üblich (und zusätzliche Aufwände hat, um obige Punkte zu kompensieren). Zudem hat er PHYs für einen Interconnect, die er nicht braucht.

Das schließt natürlich nicht aus, dass NVidia das nicht tatsächlich so macht, aber in jedem Fall dürfte es mal wieder zusätzliche Kosten für den Kunden bringen.

Gast

2024-05-29, 10:21:24

b) Um 2 Chiphälften miteinander reden zu lassen braucht es einen Interconnect. Den will Nvidia bei der Variante mit einer Hälfte (die 90%+ der verkauften Karten ausmachen wird) kaum unnötignverbauen wollen.

Der Interconnect wird kaum breiter sein, als der gewöhnliche Abstand zwischen den DIEs der zum zersägen der Wafer gebraucht wird.

Orko

2024-05-29, 11:02:51

2. Der Interconnect ist leitend, beim Schneiden entsteht Ladungsverschiebung: Wie stellt man sicher, dass die entstehende Spannung nicht einen der Chips zerstört? Beim normalen Cut aus dem Waver, schneidet man ja nur durch toten Raum, der nicht leitend ist, hier schneidet man aber durch Leiterbahnen, die entsprechende Ströme in die Chips leiten. Gibt sicher eine Lösung, aber weiß jemand, wie die funktioniert?

Das kann ich beantworten.

Übliches Wafertrennen erfolgt mithilfe von ionisiertem (mit Kohlendioxid angereichertem) reinem Wasser. Dieses dient als Kühlmittel, und als Spülmittel um den "Abraum" abzutransportieren, und da es ionisiert und damit leitend ist verhindert es mechanisch induzierte lokale Spannungen. Egal ob durch Leiterbahnen oder nur durch "totes Silizium" geschnitten wird, wäre das Wasser nicht ionisiert, dann würden die im Prozess auftretenden elektrischen Spannungen die Chips zerstören.

Beim Lasertrennen werden, soweit ich weiss, keine kritischen elektrischen Spannungen erzeugt. Das Material in der Trennlinie wird durch kurze Laserpulse vaporisiert.

Beim Plasmadicen wird mit Gasen gearbeitet welche durch Mikrowellen ionisiert wurden. Diese können Spannungen induzieren, jedoch erzeugen diese keine kritischen Stromstärken da immer nur ein Elektron abgeladen oder abgenommen wird, und sich diese beide Optionen im Mittel ausgleichen.

Daredevil

2024-05-29, 12:04:24

Ist das jetzt nicht exakt die gleiche Resteverwertung Gewinnmaximierung, die auch Apple betreibt?
Die bauen nen doppelten Chip mit Connector in der Mitte und wenn beide DIEs funktionieren, wird es als Ultra verkauft und wenn einer Probleme macht, geht die Kiste als Max auf den Markt als voll funktionierender Chip oder danach zusätzlich noch binned. Dabei wird der "Ultra" Chip in der mitte dann einfach getrennt, wenn die Qualität für einen Ultra nicht ausreicht und man kann easy Angebot und Nachfrage mit einer Fertigung bedienen.

https://s20.directupload.net/images/240529/s8evzfod.jpg

Leonidas

2024-05-29, 12:14:50

In einem Wort: Ja.

Ich wusste allerdings bisher nicht, dass Apple den M1 Pro mittels Durchtrennen zweier M1 Max erzeugt. Dachte die verbinden einfach 2x M1 Pro.

Daredevil

2024-05-29, 12:29:47

M1 und M1Pro waren soweit ich weiß eigene Designs. Nur der Max war ein "halber" Ultra bzw. der Ultra ein doppelter Max. Der M2 Max hat ebenso noch diese Verbindung gehabt, womit ein M2 Ultra gebaut werden konnte. Beim M3 Max fehlt diese Verbindung, deswegen haben wir vermutlich bislang auch noch keinen M3 Ultra gesehen.

Im Jahre 2022 kamen Gerüchte auf, das Apple dieses Spiel noch weiter treiben möchte, um einen "M1 Extreme" zu bauen, welcher vier einzelne M1 Max beinhaltet.
Hierzu dein Tweet von damals: https://twitter.com/MajinBuOfficial/status/1502675792886697985/photo/1

Skalierung wäre ja durchaus auch für Nvidia hilfreich, die wollen ja so viel GPU wie möglich für so wenig Kosten wie nötig unterbringen. Seit 2022 hat sich bei TSMC ja auch bereits einiges getan.

Gast

2024-05-29, 12:39:34

Ist das jetzt nicht exakt die gleiche Resteverwertung Gewinnmaximierung, die auch Apple betreibt?
Die bauen nen doppelten Chip mit Connector in der Mitte und wenn beide DIEs funktionieren, wird es als Ultra verkauft und wenn einer Probleme macht, geht die Kiste als Max auf den Markt als voll funktionierender Chip oder danach zusätzlich noch binned.

Nein, Apple baut keine Ultras, die wären vermutlich auch über dem Reticle-Limit.
Es werden Max DIEs gebaut und diese dann "zusammengeklebt".

Apple macht das selbe wie Nvidia beim H100 da werden auch zwei einzelne DIEs "zusammengeklebt".

Leonidas

2024-05-29, 13:00:17

Meinst Du GB100? Denn GH100 ist glaube ich nicht zusammengeklebt.

Gast

2024-05-29, 13:02:50

Das kann ich beantworten.
Danke! Gibt als mehrere Möglichkeiten. Wasser hatte ich auch schon in Verdacht, aber auf ionisiertes bin ich nicht gekommen...

Gast

2024-05-29, 15:03:57

Meinst Du GB100? Denn GH100 ist glaube ich nicht zusammengeklebt.

A ja klar natürlich GB100, mit den ganzen Codenamen kommt man schon mal durcheinander.

Lehdro

2024-05-29, 15:57:01

Da bin ich etwas skeptisch, weil GB203 immer noch recht highendig sein dürfte (zum Vergleich, AD103 war die Grundlage für die RTX 4080). Da würde Nvidia wohl alle 16 PCIe Lanes nutzen wollen.
Wenn es PCIe 5.0 ist, hat sich das Thema eh erledigt, weil 8x 5.0 = 16x 4.0. Und die reichen wohl vorerst dicke für das Performancetier eines GB203.

Leonidas

2024-05-30, 05:17:29

Ob NV wirklich nur 8 Lanes beim Spitzenmodell bieten will? Nicht jeder hat ein 4.0er Platine, ergo bekommen dort die Nutzer nur PCIe 4.0 x8.

Gast

2024-05-30, 09:03:21

Ob NV wirklich nur 8 Lanes beim Spitzenmodell bieten will? Nicht jeder hat ein 4.0er Platine, ergo bekommen dort die Nutzer nur PCIe 4.0 x8.

Auch 4.0 8x ist mehr als ausreichend. Kritisch wäre es erst ab 8x 3.0.

Bringen würde es auf jeden Fall nix, was natürlich nicht heißt, dass NV nicht aus Marketinggründen trotzdem schon auf dem halben Chip 16x verbaut.

Lehdro

2024-05-30, 11:51:09

BlacKi

2024-05-30, 12:54:40

Wer eine RTX 5080 kaufen will, sollte dann wohl besser ein PCIe 5.0 Brett haben. Aber die gibt es doch schon seit Jahren. Und wer unbedingt eine >1000€ GPU mit einem Sparbrett paaren will, hat das auch absichtlich so gewollt.

Hat bei den Budget GPUs vor ein paar Jahren auch keinen wirklich gestört (RX66xx, RX5500) obwohl es da leistungstechnisch deutlich relevanter war.was ist wenn gb203 16x pcie lanes hat und gb202 dadurch 32, wovon nur jeweils die hälfte angebunden wird? aber pci5.0 sollte mittlerweile schon da sein.

ich gehe eher davon aus das wenn die verdoppelungsthese stimmt, das man nicht gb202 teilt und 203 nur ein halber gb202 ist, sondern das man den chip als 203 designed hat, also eine vollwertiger chip ist mit voller anbindung, und man beim 202 einfach nicht benötigte teile deaktiviert, die doppelt vorhanden sind.

damit muss man zwar einen sehr großen chip bauen, aber die defekte kann man gering halten wie bei einem mittelgroßem chip. die chipausbeute ist dadurch wesentlich höher, als bei einem wafer mit reinen big chips.

man könnte das dann noch weiter auf die spitze treiben und blackwell next hat bei der 6090 dann 4x den chip der 6050.

Leonidas

2024-05-30, 13:14:16

... und dies ohne Advanced Packaging bemühen zu müssen, das wäre der eigentliche Anreiz.

Gast

2024-05-31, 08:07:57

... und dies ohne Advanced Packaging bemühen zu müssen, das wäre der eigentliche Anreiz.

Wenn Blackwell next rauskommt, gibt es genügend advanced packaging, nicht nur von tsmc, sondern auch Intel und Samsung...
Wird vermutlich schon in einem Jahr genug geben...