nVidia - Ada Lovelace/Hopper (Ampere-Nachfolger, "4N", Q4/2022 + "SUPER"-Refresh Q1/2024) [Archiv] - Seite 6

iamthebear

2022-03-22, 22:49:13

Kann einer aus Besichtigung des WhitePapers schon sagen, mit was für einen Sprung wir es zu tun haben (größerer Sprung als von Pascal->Turing?)

Da Ada auf die gleiche Architektur basieren sollte mit Fokus auf Gaming…

Das lässt sich aktuell nur schwer beurteilen, da nicht bekannt inwiefern hier Gemeinsamkeiten existieren.

Derzeit noch vollkommen unbekannt ist, wie Nvidia bei Lovelace mit den INT Einheiten umgehen wird.

Laut Nvidia im Jahr 2018 sind bei Spielen 36% der Operationen INT (normale Rechenoperationen, bitte nicht mit den INT Angaben bei den Tensor Cores verwechseln).

Pascal Gaming SM:
Hatte 128 FP32 Einheiten mit denen sowohl FP32 als auch INT berechnet wurde d.h. 82 FP32 Einheiten arbeiten FP32 Operationen ab, 46 FP32 Einheiten arbeiten INT Operationen ab.
Relative Performance pro SM: 100% (Basiswert)
Relative Performance pro FP32: 100% (Basiswert)

Turing SM:
Hatte 64 FP32 Einheiten + 64 INT Einheiten, die gleichzeitig aktiv waren d.h.
64 FP32 Einhzeiten arbeiten FP32 ab, 36 INT Einheiten arbeiten INT ab, 28 INT Einheiten sind idle
Relative Performance pro SM: 78%
Relative Performance pro FP32: 156%

Performance pro SM sinkt, dafür sind diese kleiner und man kann deutlich mehr davon verbauen (bleibt sich am Schluss ziemlich egal)

Ampere Datacenter (GA100):
Hatte 64 FP32 + 64 INT (siehe Turing)

Ampere Gaming (GA102/104/106 etc.)
Hatte 128 FP32 (von denen 64 in der Lage sind INT zu verarbeiten aber nicht parallel): Ergebnisse siehe Pascal

Hopper:
Hat 128 FP32 Einheiten + 64 INT (könnten auch 128 sein, konnte ich bisher nicht herausfinden)

Falls das bei Lovelace genauso umgesetzt würde (was meiner Meinung nach Sinn ergeben würde):
.) 114 FP32 Einheiten arbeiten an FP32 Operationen, 64 INT Einheiten arbeiten an INT Operationen, 14 FP32 Einheiten sind Idle
Relative Performance pro SM: 139%
Relative Performance pro FP32: 139%

In der Praxis werden es wohl nicht starre 36% INT Operationen sein, weshalb es wohl kaum 39% mehr Performance pro SM sein werden aber ich denke 30% wären realistisch.

Dazu kommen noch die 70% mehr Shader bei AD102 vs. GA102

Sind insgesamt:
1.7x1.3 = 2.2x

Hhm was für ein Zufall. Hatten wir die Prognose nicht schon einmal?

Eventuelle Taktsteigerungen würden dann noch oben drauf kommen.

Falls es weiterhin nur die 128 FP32 Einheiten gibt, dann sind es:
1.7x plus das, was Nvidia an zusätzlichem Takt rausholt.

Dann wären die 2.2x nur durch 30% mehr Takt zu erreichen wofür Nvidia die Teile vermutlich schon ganz schön grillen muss.

Alle Angaben sind nur die theretische Performance. Als Frameraten wird das sicher nicht 1:1 ankommen, genauso wie eine RTX 3080 nicht 40% schneller ist als eine 3070. Da spielen dann eine Menge andere Komponenten mit hinein wie z.B. die CPU, die hier selbst bei 4K sicher auch schon etwas bremsen wird.

Falls es die Variante mit den 128 FP32 Einheiten ohne INT wird und Lovelace dieselbe Transistordicht erreicht würde ich einmal grob schätzen:
GA102: 28 Mrd. Transistoren
AD102: 48 Mrd. Transistoren + den zusätzlichen Cache
Fläche: 480mm² + Cache
Also grob geschätzt um die 550mm²

Das wäre in etwa in dem Bereich, wo man sich Hoffnungen machen kann, dass es zumindest nicht ein reiner 2000$+ Die wird.

=Floi=

2022-03-22, 23:51:23

Das 4N (statt N4) steht für Nvidia-optimiert, wie schon bei 7N und 12FFN.

wer lässt sich den nso einen shit einfallen?! :facepalm:

Leonidas

2022-03-23, 02:56:59

Man hätte es zur Güte "N4N" nennen sollen, dann wäre wenigstens erkennbar, dass es kein Schreibfehler ist.

mksn7

2022-03-23, 08:52:47

Zunächst mal, ich denke dass der Anteil der Zeit während eines Frames der wirklich am INT32/FP32 Durchsatz hängt klein ist. Nur diese Phasen werden auch nur annähernd mit diesen Faktoren beschleunigt!

Hopper:
Hat 128 FP32 Einheiten + 64 INT (könnten auch 128 sein, konnte ich bisher nicht herausfinden)

Hopper kann keine 4x32 FP32 + 2x32 INT32 Instruktionen pro Takt bearbeiten. Die 4 warp scheduler können weiterhin nur eine warp instruktion pro takt issuen, es bleibt also wie bei gaming Ampere.

Ich möchte auch nochmal drauf hinweisen dass es auch noch andere Instruktionen als nur INT/FP32 gibt, und die verbrauchen auch jeweils einen issue cycle. Das war bei pascal noch anders, da ging jeden Takt eine INT oder FP32 Instruktion, und dann noch irgend eine zweite, andere Instruktion.

Was ich noch bedeutend finde: Distributed Shared Memory, threads können aus dem shared memory anderer SMs lesen, und sich auch SM übergreifend synchronisieren (ging vorher auch, aber nur mit Tricks). Das ist für manche Algorithmen (z.B. temporal blocking für stencils) eine große Sache.

Und der Tensor Memory Accelerator ist auch interessant, eine asynchrone 2D copy engine pro SM. Damit müssen nicht mehr die threads in software "von Hand" die memory transfers anstoßen, und dann drauf warten, sondern das macht diese copy engine.

Diese DPX Instruktionen hab ich noch nicht verstanden.

Gefühlt baut NVIDIA dauernd mehr features ein, so dass es als unabhängiger Programmierer immer schwieriger wird alles zu beherschen. Aber das macht NVIDIA auch lieber alles selbst. Gibt einfach eine library für jeden Anwendungsfall.

basix

2022-03-23, 09:36:55

Gefühlt baut NVIDIA dauernd mehr features ein, so dass es als unabhängiger Programmierer immer schwieriger wird alles zu beherschen. Aber das macht NVIDIA auch lieber alles selbst. Gibt einfach eine library für jeden Anwendungsfall.

Genau sowas hatte ich bei der Präsentation auch gedacht. Ich bin kein HPC-Programmierer und sehe mich nur als Laie. Aber es fällt mir immer schwerer, diese Technologien und Leistungsteigerungen einordnen zu können. Für was ist das jetzt genau? Wo kann man das verwenden? Wie gross sind die Vorteile? Das wird alles immer mehr Domain-Specific, obwohl die Anwendungsbereiche von diesen GPU eigentlich immer breiter werden :freak:

Aber sowas in der Art hatte ich schon erwartet. Nvidias HPC-Architekturen entwickeln sich halt entlang dem Bedarf des Marktes und der Entwickler. Und Nvidia setzt vollgas auf ML/AI. Interessant war, dass sie doch einige Anwendungen gezeigt haben, wo sie herkömmlichem HPC mit ML/AI entgegen treten wollen: Strömungssimulationen sowie Wetter- und Klima-Vorhersagen. Dieses Anwendungsfeld von Physics@ML wird sich in Zukunft sicher noch erweitern.

Was ich generell an Hopper noch beeindruckend finde:
+50% Transistoren; 3x Rechenleistung. Da hat Nvidia das Transistorbudget ganz gut eingesetzt.

Hopper:
Hat 128 FP32 Einheiten + 64 INT (könnten auch 128 sein, konnte ich bisher nicht herausfinden)

H100 Whitepaper, Tabelle auf Seite 39. Das 2:1 Verhältnis von FP32/INT32 ist richtig.

iamthebear

2022-03-24, 23:11:49

Die Fähigkeit FP32 und INT parallel zu berechnen scheint tatsächlich wegzufallen. Damit sind die 3x FP32 Leistung auch nur bedingt aussagekräftig je nach Workload.

Aber trotzdem stimme ich zu, dass die Transistoren gut angelegt sind. Im Schnitt sind es nur 30% mehr pro SM. Da hat Gaming Ampere vs. Turing schon mehr gebraucht und die haben nur die FP32 Leistung verbessert.

Allerdings sollten wir bedenken, dass wor hier nur die Daten für die Rohleistung haben. Wie sich das in der Praxis auswirkt kann bisher denke ich niemand sagen und im Fall der AI Workloads ohne Reviews werden wir das vermutlich auch nicht so schnell erfahren.

Leonidas

2022-03-25, 08:55:18

Dicke Infos von Igor zum GeForce RTX 4090 PCB:

- 12 Plätze für Speicherchips (ergibt 12 oder 24 GB Speicherbestückung)
- PCB ist entwickelt für 600 Watt Verlustleistung
- 24 Spannungswandler für den Grafikchip (sowie 4 für den Speicher)
- GA102 & AD102 sind Pin-kompatibel
- Founders Edition soll mit 3-Slot-Kühlung daherkommen, Herstellerdesigns mit 3,5 Slots
- primär wird es weiterhin Luftkühlung geben, AiO oder Wasserblöcke nur als zusätzliche Designs
- benutzt den neuen 12VHPWR-Stromstecker, Adapter auf die üblichen 8poligen Stecker werden jedoch beiliegen

https://www.igorslab.de/neue-details-zur-nvidia-geforce-rtx-4090-bis-zu-24-gb-gddr6x-und-eine-clevere-spannungswandler-orgie/

Platos

2022-03-25, 09:19:55

Was heisst das, wenn sie Pinkompatibel sind? Hat das irgend eine Relevanz? Sind ja keine CPUs, die man in Sockel steckt.

HOT

2022-03-25, 09:51:09

Ist halt billiger für alle, wenn das Ding pinkompatibel ist. Macht aber NV traditionell doch so oder? Pinkompatibilität gabs meine ich auch schon früher über Generationen hinweg.
Leider scheint NV echt bei 6X-Speicher zu bleiben.

Cubitus

2022-03-25, 10:00:10

Tjo wie zu erwarten wird ein neues NT fällig. :freak:

1000W besser 1200W :D

Aber bei dem Preis was das Teil kosten wird, sind die 250+ Euro für ein neues NT ja obligatorisch

HOT

2022-03-25, 10:10:30

1kW als generelle Empfehlung, wenn man nicht den letzten Schrott kauft ist ok denke ich. Bei Netzteilen mit sehr hoher Qualität wie die Prime Serie von Seasonic oder DarkPowerPro wirds auch 850W locker tun.

Leonidas

2022-03-25, 10:12:15

Was heisst das, wenn sie Pinkompatibel sind? Hat das irgend eine Relevanz? Sind ja keine CPUs, die man in Sockel steckt.

Ist einfacher zur Platinen-Entwicklung. Außerdem kann man damit jetzt schon mit GA102 und 600W-BIOS eine AD102-Platine entwickeln.

BlacKi

2022-03-25, 10:27:43

Was heisst das, wenn sie Pinkompatibel sind? Hat das irgend eine Relevanz? Sind ja keine CPUs, die man in Sockel steckt.
wasserkühler von ampere könnten bei der 4000er gen passen. ich konnte damals meinen gtx 670 wakü block auf viele gtx 970 packen.

Ist halt billiger für alle, wenn das Ding pinkompatibel ist. Macht aber NV traditionell doch so oder? Pinkompatibilität gabs meine ich auch schon früher über Generationen hinweg.
Leider scheint NV echt bei 6X-Speicher zu bleiben.
solange sie was am controller machen wäre das alleine kein beinbruch. die chips selbst sind nicht verantwortlich für den mehrverbrauch. allerdings weißen über 70% mehrverbrauch nicht darauf hin als würde das so kommen.

Tjo wie zu erwarten wird ein neues NT fällig.

1000W besser 1200W

Aber bei dem Preis was das Teil kosten wird, sind die 250+ Euro für ein neues NT ja obligatorisch70€ reichen schon. die kleinere version von meinem schaltet erst bei 1200w ab. damit müsste mein 70€ netzteil gut für 1300w sein^^

r3ptil3

2022-03-25, 11:11:55

Wenn die RTX 4090 mit 24Gb kommt, dann wird eine RTX 4080 ganz bestimmt keine 16Gb VRAM haben.

Ich sehe schon die Entwicklung für die kommenden Gaming-GPUs:
Anstatt OC zu testen, wird das neue Ziel sein die RTX 4080/4090 Modelle mit möglichst geringem Leistungsverlust auf unter 400W zu bringen.

Troyan

2022-03-25, 11:40:28

Hängt doch einzig vom Interface ab. Mit 320bit sind es 20GB, mit 256bit eben 16GB.

OgrEGT

2022-03-26, 07:42:12

HOT

2022-03-26, 08:39:22

Da mit dem neuen Ti pcb jetzt 16gb Chips kommen werden die auch alle damit bestückt werden. 20GB halte ich bei der 4080 für sicher.

=Floi=

2022-03-26, 09:22:40

obwohl ja mehr Cache diesmal verbaut sein wird.
Nichtmal hopper bekommt mehr und hat nur 96mb. Da wird der gaming chip erst recht nicht mehr bekommen.

Wenn NV da wieder mit 12gb anrückt, kann denen echt keiner mehr helfen.

Da werden auch die kleineren pcb pinkompatibel sein. An sich ganz cool.

OgrEGT

2022-03-26, 09:30:48

Stimmt jetzt wo es 16gb Chips gibt entfällt die Notwendigkeit der doppelseitigen Bestückung... gibt es die 16gb Chips eigentlich nur mit 21gbps?

AffenJack

2022-03-26, 10:27:55

Nur weil Igor jetzt von GDDR6X spricht, heißt das nicht, dass Nvidia nur GDDR6X nutzen wird. Der Speichercontroller von Nvidia kann eh beides und man wird das nutzen, wofür man das bessere Angebot von den Speicherherstellern kriegt. Ram ist auf der Platine beliebig austauschbar gehe ich von aus.

4090 AD102
24Gb 384bit

4080 AD102

Du gehst davon aus, dass die 4080 AD102 wird. Da glaube ich nicht dran. AD102 wirst du genauso wie N31 nicht unter 999$ finden bei den Produktionskosten von 5nm. Da kann Nvidia bei einer 4080Ti dann auf 20Gb gehen.
Eine Erhöhung des Preises der 4080 um soviel würde viel zu viel negative Publicity bringen. Stattdessen bringt man die 4080 mit AD103 und 256 Bit und man kann bei 700$ +50$? bleiben mit 16Gb und kleinerem Chip. Die Leute gucken dann eh nur auf die Steigerung 10Gb ->16Gb und +30-40%? Performance.
4 Chips mit GA102 sind eh viel zu viel gerade. Mit 3080ti, 3090 und 3090Ti hat man genug Möglichkeiten für AD102.

Leonidas

2022-03-26, 11:17:35

Eine nach wie vor denkbare Möglichkeit. Dies würde einer 4070 auf AD103-Basis vorbeugen, was für eine 70er Lösung doch arg hoch gegriffen wäre (aber nach wie vor möglich).

basix

2022-03-26, 11:40:00

Was irgendwie in den letzten Tage untergegangen ist: Ich sehe nirgends Anzeichen, dass die GPU Fähigkeiten aus den SMs entfernt wurden. Weder in den Blockdiagrammen noch sonstigen Infos.

BlacKi

2022-03-26, 12:39:57

Wenn das so kommt mit 384bit SI und GDDR6x, dann hängt NV wohl noch immer an hohem Speicherdurchsatz, obwohl ja mehr Cache diesmal verbaut sein wird. Es zeichnen sich dadurch aber ggf. die gleichen Probleme ab wie auch bei Ampere bzgl. Flexibilität der Speicherkonfiguration der Modelle von oben nach unten...

4090 AD102
24Gb 384bit

4080 AD102
Da geht dann entweder
12Gb 384bit
10 Gb 320bit (zu wenig)
20Gb 320bit (zu viel/zu teuer? das kam ja schon bei Ampere nicht)
16Gb 256bit (zu langsam?)
8Gb 256bit (viel zu wenig/zu langsam?)

4070 AD104
Da geht dann entweder
16Gb 256bit (zu viel, bzw. ggf mehr als 4080, das kam ja schon bei Ampere nicht)
8Gb 256bit (zu wenig)
12Gb 192bit (zu langsam?)

Die einzige Möglichkeit wäre wohl 384bit 24Gb / 256bit 16Gb / 192bit 12Gb sofern der zusätzliche Cache den geringeren Speicherdurchsatz bei 256 und 192bit kompensiert.

du vergisst, das nv erst jetzt deutlich größeren cache bringt. das ist ein winziges detail, das gravierende unterschiede beim einordnen des benötigten SI macht.

aktueller stand

6900xt --> 7900xt 2x bigger cache, bandbreiteneinsparungen ca 15-20%

3090 --> 4090 16x bigger cache, bandbreiteneinsparungen ca. 35-40%

d.h. selbst mit 256bit und schnellem gddr6 könnte man wohl easy mit amds next gen mithalten. man ist mit 96mb nicht im hintertreffen, sondern weit in führung.

Troyan

2022-03-26, 12:50:59

Auch handelt es sich hier um L2 Cache. 96MB mit 7,2 TB/s angebunden, wäre ein massiver Vorsprung gegenüber AMD. Kombiniert man das mit schnellen Speicher (also >1 TB/s), dann sollte das ausreichend sein, ohne dass nVidia noch schnelleren Speicher benötigt.

Piefkee

2022-03-26, 13:17:44

4N bitte :biggrin:

Fertigung für ADA wissen wir das schon ?
4N könnte natürlich auch Samsung 4nm sein. ??

Leonidas

2022-03-26, 13:41:30

Was irgendwie in den letzten Tage untergegangen ist: Ich sehe nirgends Anzeichen, dass die GPU Fähigkeiten aus den SMs entfernt wurden. Weder in den Blockdiagrammen noch sonstigen Infos.

- RayTracing in Hardware fehlt komplett
- nur ein (von 8) GPC kann Vertex- und Pixel-Shader ausführen
= wertlos als Gaming-Grafikchip

Fertigung für ADA wissen wir das schon ?
4N könnte natürlich auch Samsung 4nm sein. ??

Hopper: 4N ist bestätigerweise ein für nVidia angepasster TSMC-Prozess. Nur der Ausgangspunkt ist noch unklar. Manche munkeln von N5P anstatt von N4.
ADA: bislang unbekannt, N5 anzunehmen

basix

2022-03-26, 13:52:45

- RayTracing in Hardware fehlt komplett
- nur ein (von 8) GPC kann Vertex- und Pixel-Shader ausführen
= wertlos als Gaming-Grafikchip
Gaming GPU ist auch nicht das Thema. Aber zeig mir die Vertex/Pixel Limitierung auf 1 GPC in offiziellen Infos von Nvidia oder dem H100 Whitepaper. Gähnende Leere.

Leonidas

2022-03-26, 14:09:36

@ basic: Dies ist die Behauptung von u.a. Andreas Schilling, inzwischen unterstützt durch nVidia-Aussagen:
https://twitter.com/aschilling/status/1507016972940107786

https://pbs.twimg.com/media/FOxwVRQaQAE_bT2.jpg

robbitop

2022-03-26, 14:09:45

Man sollte auf jeden Fall nicht zwangsläufig von Hopper auf Lovelace schließen. Wenn man A100 mit GA102 vergleicht: anderer Fertigungsprozess und die SMs waren auch ganz anders konfiguriert. Andere Anzahl von FPUs, TCs, kein RT, Cache Konfigurartion war ganz anders. 7nm <-> 8 nm.
Entsprechend wissen wir quasi nichts.

Troyan

2022-03-26, 14:34:30

Gaming GPU ist auch nicht das Thema. Aber zeig mir die Vertex/Pixel Limitierung auf 1 GPC in offiziellen Infos von Nvidia oder dem H100 Whitepaper. Gähnende Leere.

Only two TPCs in both the SXM5 and PCIe H100 GPUs are graphics-capable (that is, they can run vertex, geometry, and pixel shaders).
https://developer.nvidia.com/blog/nvidia-hopper-architecture-in-depth/

fondness

2022-03-26, 15:04:55

Für was sollen die zwei gut sein? Also warum hat man es nicht bei allen entfernt?

Ex3cut3r

2022-03-26, 15:05:20

robbitop

2022-03-26, 15:16:27

Perf/W wird sicherlich besser werden ggü RDNA2/Ampere. Aber die Performance steigt so viel mehr, dass das Top Tier mehr verbraucht. Es soll diesmal einen unnormal hihen Sprung geben. Faktor >2x. Sonst gibt es bloß 40-60%. Wem das top tier zu viel verbraucht, kann gem TDP Vorstellung die SKU auswählen. Also zB die nächst kleinere die dann die üblichen 40-60% schneller ist. Die 2x Version ist sozusagen „on top“.

Wahrscheinlich würde es keine Kritik geben, wenn die zweitkleinste SKU mit dem üblichen Sprung gibt und der üblichen SKU.
Relevant ist doch nur Perf/W. Entsprechend kann man sich dann doch alles aussuchen. Aber Faktor 2x ohne TDP Anstieg ist nunmal ohne Zauberkraft mit nur einem Fullnodesprung nicht drin.

fondness

2022-03-26, 15:18:07

Troyan

2022-03-26, 15:33:01

Es wirklich fast schon abartig diese Verbrauchswerte der kommenden GPUs. Es ist ja nicht so, dass der Strompreis auch grade mal wieder immens steigt, nein, mit Nachhaltigkeit, hat so ne GPU endgültig auch nix am Hut. Also ich habe grade ne 3080 Ti im Rechner verbraucht, sie nuckelt 355W und es ist wirklich an der Grenze von aushaltbar im Zimmer wenn das Ding loslegt. Also noch mehr Verbrauch, kann ich mir nicht vorstellen, sry aber da bin ich wirklich raus.

Vollkommen falsche Entwicklung von Nvidia und vermutlich AMD!!!!

Transistorenskalierung existiert nunmal kaum noch. Doppelte Transistoren bei gleicher Schaltungsspannung bedeutet doppelter Verbrauch. Dazu kommt die Notwendigkeit von mehr Offchip-Bandbreite, um mithalten zu können.

600W sind natürlich lächerlich und vollkommen nonsens. Hopper PCIe hat 350W mit 48 TFLOPs. Das sind 2,4x mehr Rechenleistung für 16% mehr Stromaufnahme gegenüber A100 PCIe. Und hier reden wir dann auch von 2TB/s und 80GB Ram.

BlacKi

2022-03-26, 16:04:18

Es wirklich fast schon abartig diese Verbrauchswerte der kommenden GPUs. Es ist ja nicht so, dass der Strompreis auch grade mal wieder immens steigt, nein, mit Nachhaltigkeit, hat so ne GPU endgültig auch nix am Hut. Also ich habe grade ne 3080 Ti im Rechner verbaut, sie nuckelt 355W und es ist wirklich an der Grenze von aushaltbar im Zimmer wenn das Ding loslegt. Also noch mehr Verbrauch, kann ich mir nicht vorstellen, sry aber da bin ich wirklich raus.

Vollkommen falsche Entwicklung von Nvidia und vermutlich AMD!!!!ist nur eine frage des kühlers, und ja auch eine sache des gehäuses. aber die 500w karten die es jetzt ja schon mit oc bios gibt, sind jetzt nicht brutal laut für luftkühlungen.

das hier ist die:
EVGA RTX 3090 FTW3 Ultra
(OC BIOS 500w)
65°C36 dBA1857 RPM
https://www.techpowerup.com/review/msi-geforce-rtx-3090-suprim-x/31.html

why_me

2022-03-26, 16:06:11

Viel spaß mit so 500W Monstern in einer Dachgeschosswohnung im Sommer...

BlacKi

2022-03-26, 16:11:30

dafür gibts den tdp regler ;) fps cappen hilft auch;)

mir persönlich ist es auch zuviel, aber die gründe sind letztenendes alles nur ausreden.

Ex3cut3r

2022-03-26, 16:28:11

BlacKi

2022-03-26, 16:36:18

Wenn du dann im Sommer ständig den FPS Cap oder den TDP Regler im AB bedienen musst, damit erstens aushaltbar ist, und zweitens die Stromrechnung in Ordnung bleibt, wo ist dann der Sinn solch einer Karte?

Das ist doch noch lächerlicher, und zeigt diese Fehlentwicklung eiskalt auf, also nee...sry, da bin ich wirklich raus, die 40er Serie wird übersprungen, und die 50er Serie wird hoffentlich wieder zur Besinnung führen, das ist einfach Thermi aka Fermi 2.0 Und mit diesen Globalen Strompreisen auf völlig falsch entwickelt. Für was nehmen die Milliarden bei Nvidia und AMD ein, wenn so eine Entwicklung dabei rauskommt? Lächerlich.boah du bist so verbohrt. wieso zum geier, verurteilst du eine ganze serie anhand des spitzenmodells. wer sagt denn das man tdp und fps kappen muss? das kann man machen wenn man es für nötig hält. du willst ernsthaft das topmodell für sinnlos deklarieren, weil im sommer in einer dachwohnung der lüfter zu laut wird? also dürfen wegen dieser personen alle anderen keine 600w karte haben, auch wenn sie die wollen?

wenn du und ich das nicht wollen, warum soll ich es den anderen dann verbieten?

AffenJack

2022-03-26, 16:53:09

Also aktuelle Gerüchte sprechen bei Navi31 von 300-350W, auch wenn das natürlich noch abgewartet gehört. Verstehen tu ichs aber auch nicht. Aktuelle High-End-GPUs sind mehr als schnell genug, die neue Generation wird da nochmal deutlich eins drauflegen. Warum man es jetzt für nötig hält die TDP mal eben zu verdoppelt sei dahingestellt. Zumal das wohl auch nicht mehr leise kühlbar ist mit Luftkühlung. Hopper ist da natürlich eine andere Baustelle, da macht es auf jeden Fall Sinn.

Weil N31 natürlich nicht nur 300W verbraten wird, falls die Performanceangaben in etwa stimmen. Jeder weiß, dass AMD nicht plötzlich 2,5x Perf/W schaffen wird, das ist vollkommen illusorisch. Igor hat in den Comments zu dem Post auch geschrieben, dass AMD nicht besser wird. Die Frage ist, ob er da schon Infos zu hat.

Es scheint, dass schlicht die Dual-gpu Klasse jetzt von Single-Gpus besetzt wird, da SLI und CF tot sind. Statt 2x300W jetzt bis zu 600W. Allerdings denke ich immernoch, dass wir bei normalen Versionen eher 450W sehen. Das PCB kann man ja schon für OC Versionen für die Partner bereit halten.

HOT

2022-03-26, 17:13:46

Ex3cut3r

2022-03-26, 17:47:07

boah du bist so verbohrt. wieso zum geier, verurteilst du eine ganze serie anhand des spitzenmodells. wer sagt denn das man tdp und fps kappen muss? das kann man machen wenn man es für nötig hält. du willst ernsthaft das topmodell für sinnlos deklarieren, weil im sommer in einer dachwohnung der lüfter zu laut wird? also dürfen wegen dieser personen alle anderen keine 600w karte haben, auch wenn sie die wollen?

wenn du und ich das nicht wollen, warum soll ich es den anderen dann verbieten?

Ich verbiete es niemanden, wo habe ich das gesagt? Warum gleich so aggro?
Alles was ich sage bzw. schreibe, spiegelt meine Meinung da. Kauf dir doch deine 4090 Ti mit 700W Verbrauch, wenn es dich glücklich macht.

Ich finde diese Entwicklung absoult enttäuschend die Nvidia und AMD einschlagen, das darf ich wohl noch sagen. Ohne das du gleich Rot wirst. :rolleyes:

BlacKi

2022-03-26, 18:15:51

Ich verbiete es niemanden, wo habe ich das gesagt? Warum gleich so aggro?
Alles was ich sage bzw. schreibe, spiegelt meine Meinung da. Kauf dir doch deine 4090 Ti mit 700W Verbrauch, wenn es dich glücklich macht.

Ich finde diese Entwicklung absoult enttäuschend die Nvidia und AMD einschlagen, das darf ich wohl noch sagen. Ohne das du gleich Rot wirst. :rolleyes:deine worte in bezug auf 600w: lächerlich, Fehlentwicklung, 40er Serie wird übersprungen, 50er Serie wird hoffentlich wieder zur Besinnung, Fermi 2.0, Lächerlich.

du verurteilst nicht nur persönlich die entwicklung hin zu höherem spitzenstromverbrauch, sondern sagst, das sie generell falsch ist. d.h. es sollte keine karten mit diesem stromverbrauch geben. was einem verbot gleichkommt.

ich mag diese verbräuche auch nicht mit, aber ich lasse es nv und amd offen, solche grafikkarten zu entwickeln, für solche, die solche karten haben wollen. du nicht, was du nicht willst, soll auch kein anderer haben.

Slipknot79

2022-03-26, 18:46:52

Weiß ned wo das Problem ist. Einfach eine GTX 4050 oder eine Radeon 7400 checken und gut ist. Keine Probleme mit der Stromrechnung. (y)

iamthebear

2022-03-26, 22:26:54

Wenn du dann im Sommer ständig den FPS Cap oder den TDP Regler im AB bedienen musst, damit erstens aushaltbar ist, und zweitens die Stromrechnung in Ordnung bleibt, wo ist dann der Sinn solch einer Karte?

Das ist doch noch lächerlicher, und zeigt diese Fehlentwicklung eiskalt auf, also nee...sry, da bin ich wirklich raus, die 40er Serie wird übersprungen, und die 50er Serie wird hoffentlich wieder zur Besinnung führen, das ist einfach Thermi aka Fermi 2.0 Und mit diesen Globalen Strompreisen auch völlig falsch entwickelt für Industrieländer. Für was nehmen die Milliarden bei Nvidia und AMD ein, wenn so eine Entwicklung dabei rauskommt? Lächerlich.

Die Physik ist eben so wie sie ist. Nvidia hat genau 3 Möglichkeiten:
a) Sie treiben ihre Karten bis auf 500W hoch. Wer es nicht will, der stellt sie eben runter auf 300W und verzichtet auf 20% Performance, zahlt diese jedoch mit.
b) Sie liefern ihre Karten mit 300W aus, diese sind auch 20% langsamer aber auch nicht nennenswert billiger und sie haben einen billigen Schrottkühler.
c) Es gibt gar kein High End Modell und das Lineup endet wie zu Pascal Zeiten bei 700 Euro und 280W mit der 4070.

So und jetzt erklär mir mal wie Variante b oder c ein Vorteil für die Kunden darstellen. Die Wunderkarte, die 3 Mal so schnell ist bei selber TDP und ohne mehr zu kosten die gibt es nicht.

Das einzige was ich nicht will sind 3.5 Slot Kühler weil dann mein RAID Controller nicht mehr rein passt und ich nicht mit Riser Kabeln herumpfuschen will.

rentex

2022-03-27, 00:01:30

dafür gibts den tdp regler ;) fps cappen hilft auch;)

mir persönlich ist es auch zuviel, aber die gründe sind letztenendes alles nur ausreden.

Nicht gerade sinnvoll, sich dann den Endausbau zu zulegen...

Nazar

2022-03-27, 01:13:12

ist nur eine frage des kühlers, und ja auch eine sache des gehäuses. aber die 500w karten die es jetzt ja schon mit oc bios gibt, sind jetzt nicht brutal laut für luftkühlungen.

das hier ist die:
EVGA RTX 3090 FTW3 Ultra
(OC BIOS 500w)
65°C36 dBA1857 RPM
https://www.techpowerup.com/review/msi-geforce-rtx-3090-suprim-x/31.html

Er schreibt von der Erwährmung des Raums und du kommst allen erntest mit der Effiziens eines Kühlers in demselben Raum und dem Gehäuse.
355 Watt bleiben 355 Watt Energie im Raum, vollkommen unabhängig wie "gut" der Kühler ist.
Nur, wenn man iese Energie aus dem Raum leitet, ergibt sich ein anderes Bild.
Man kann sich allerdings gleich noch ein Kühlgerät mit in den Raum stellen,welches die Abluft nach draußen bläst. Wenn du so einen "Kühler" gemeint hast, ja, dann würde ich deiner Aussage sogar zustimmen.

ChaosTM

2022-03-27, 01:14:46

1850 upm ist mit keinem Lüfter mehr leise. Jesus Christ, so was gehört unter Wasser.

Add.: seit ich fast nur mehr mit ANC Kopfhörern spiel könnte mir das eigentlich egal sein ;)

=Floi=

2022-03-27, 01:40:34

Naja, alleine die nur 65 grad sprechen schon bände. Das war früher so nicht möglich und da lief die temp schon bei 250-300 watt aus dem ruder.

Ich konnte damals meine 560ti nicht übertakten, weil der blower kühler das nicht packte und nur stock schaffte. :rolleyes:

ChaosTM

2022-03-27, 03:20:20

Bei der Kühlung hat sich in der tat sehr viel getan in den letzten 2-3 Jahren.
Wenn ich mir meine recht flachen laptop mit bis zu 240 Watt anhöre ist das kein Vergleich zum 5 Jahre alten HP Helikopter, wo man immer angst hatte das er gleich abhebt.

Wie weit die 65Grad bei 1850 stimmen muss man noch sehn.
Generell sind 500 Watt aber keine gute Idee solang wir nicht all unseren Strom Erneuerbar erzeugen können. Sobald das mal geht -> bring on the 2kw Grakas :D

Neurosphere

2022-03-27, 09:58:58

Was man lustigerweise bei der ganzen Stromdiskussion und wo es hin geht bedenken muss, es gibt quasi doch physische Grenzen:eek:

In den USA können zB. über die normalen Steckdosen nur 120V geliefert werden, die werden mit 15A gesichert. Ausnahmen sind glaube ich nur Waschmaschinen und Trockner die auf 240V laufen aber die normalen Steckdosen nutzen.

Macht maximal 1800 Watt, allerdings sollten diese nur zu 80% genutzt werden, was real für 1440 Watt maximum sorgt. Vermutlich wird das ganze also die nächsten Jahre noch ansteigen, aber irgendwo dort wird man vermutlich auf ein Limit treffen wenn die ersten Länder garkeine Infrastruktur für mehr bieten um den Rechner normal zu versorgen.

ChaosTM

2022-03-27, 10:12:28

boxleitnerb

2022-03-27, 11:25:06

Schauen wir mal - wenn die Produkte unter der xx90 Ti so bleiben wie gehabt, alles in Ordnung. Wenn nicht --> falsche Entwicklung. Denkt an das mobile Segment...DLSS wäre dann nur dazu da, den Status quo zu wahren, statt den Verbrauch zu senken.

Ich hätte mir an NV und AMDs Stelle das Wettrüsten gar nicht gegeben, sondern die üblichen 60-80% draufgepackt und den Rest für einen Refresh aufgehoben.

ChaosTM

2022-03-27, 11:29:33

Ich spiel grad Horizon in 4k 60 Max Details (kann er zugegebenermaßen nicht immer halten) mit Strom auf Maximum und hör genau nix von meinem Laptop.

Das ist aber meinem Sony Kopfhörern zu verdanken , ohne wärs aber auch fast nicht hörbar neben der Musik.

nordic_pegasus

2022-03-27, 11:42:56

In den USA können zB. über die normalen Steckdosen nur 120V geliefert werden, die werden mit 15A gesichert. Ausnahmen sind glaube ich nur Waschmaschinen und Trockner die auf 240V laufen aber die normalen Steckdosen nutzen.

dazu gibt es ein sehr interessantes Video von Technology Connections

jMmUoZh3Hq4

=Floi=

2022-03-27, 13:37:47

Jo, aber es geht auch mit soo viel weniger Watt und nur marginal weniger Leistung.

Aber irgendwann musst du mehr watt draufwerfen. Durch die hohe auslastung (und steigerung der auflösung) brauchst du einfach watt um die bilder auf den monitor zu bringen und die ganze architektur skaliert nur noch über die watt.

Platos

2022-03-27, 23:29:43

Jo, aber es geht auch mit soo viel weniger Watt und nur marginal weniger Leistung.

Verabschieden wir uns von den Balken - ist 279 wirklich soviel besser als 180.. (ja wenn du ein competiver highspeed gamer bist). Aber sonst isses wurscht.
Falsches Forum, ich weiß.. ;)

* das kommt eigentlich hauptsächlich von der mobilen 16gb 3080er, die dank DLSS etc. alles in 4K bewältigt und statt 350-400 Watt nur maximal 165 braucht.

Also mit RT bist du ja selbst mit DLSS mit ner 3090 unter 4k knapp so bei 60FPS in manchen spielen. 120Hz braucht also noch doppelte Leistung und für 8K (sagen wir mal dort DLSS Perfomance) dann auch nochmals viel mehr.

Aber ja, bin definitv auch für Effiziente Kisten und nicht selten dämlich hochgeprügelte Grafikkarten (RTX 3090Ti).

Schnitzl

2022-03-28, 20:48:15

Als ob Fermi 2 weniger verbraucht hätte :freak:.
Die 5k-Generation wird diese Verbrauchswerte zementieren. Kaufst halt ne Stufe drunter, ist doch auch ok. Ich finds nicht schlecht, dass man jetzt immerhin die Wahl hat, solche Produkte zu kaufen. Wenn du den Verbrauch nicht willst und mit 60% mehr Performance zufrieden bist reicht doch ne 4070.
die wird aber grob geschätzt dann auch bei 300W rauskommen...

Weiß ned wo das Problem ist. Einfach eine GTX 4050 oder eine Radeon 7400 checken und gut ist. Keine Probleme mit der Stromrechnung. (y)
dann kann ich auch bei meiner jetzigen Karte bleiben ;)

Wie Nazar schon richtig gesagt hat, die Wärme muss irgendwo hin.
Ne "green" Option wäre cool, bei der man die TDP anstatt auf 300 auf 200 begrenzt, ein Häkchen im Treibermenü fertig :)

basix

2022-03-28, 20:53:00

dazu gibt es ein sehr interessantes Video von Technology Connections

https://youtu.be/jMmUoZh3Hq4

Danke für das Video. Wusste ich so noch nicht und das US-Stromnetz macht so viel mehr Sinn :D

Aber die US-Stecker sind immer noch übelste Grütze. Hoch lebe der Schweizer Typ-J Stecker ;D

Thomas Gräf

2022-03-29, 13:10:28

Ich seh bei Käsekönig schon tolle 4090 Bundels mit EKWB FullCover und passende MoRa's...aber nur für kurze Zeit :D

Troyan

2022-03-29, 16:53:34

3090 TI nutzt 2GB Speicherchips von Micron. Damit sollte sich das Speicher-Thema für Lovelace erledigt haben. Selbst mit 256bit sollten es 16 GB sein.

HOT

2022-03-29, 18:37:36

Jo bin mal gespannt, ob Ada dann auch 21GT/s bekommt, oder ob Micron da noch mehr im Köcher hat.
Die Zeit der 8Gb-6X-Chips dürfte vorbei sein nach Ampere.

Dural

2022-03-31, 14:33:59

Und ich hoffe das sie gar keinen GDDR6X Speicher bekommen. Das zeug ist so ein Rohrkrepierer seines gleichen, das erinnert mich an Rambus.

Schon Ampere profitiert kaum von GDDR6X, sieht man bei den Quattro Karten ganz gut. Da Ada noch 96MB Cache haben soll, kann man nur hoffen das sie zurück auf GDDR6 wechseln.

basix

2022-03-31, 17:45:25

Das AD102 Diagramm von Igor mit dem PCB und den Hauptkomponenten drauf deutet auf GDDR6X hin.

iamthebear

2022-03-31, 18:03:25

Laut Igor ist die Boostlogik bei der 3090 Ti deutlich anders als bei der 3090. Die soll hier schon dieselben Technologien nutzen wie bei der 4000er Serie.

Hauptunterschiede dürften sein:
.) Vermeidung von Spikes, die das Netzteil zur Notabschaltung bringen. Damit bleiben die Netzteilanforderungen noch auf akzeptablem Niveau.
.) Dafür ist die 3090 Ti deutlich schlechter im TDP Bereich unter 350W. Meine Vermutung: Die Spannung wird nicht unter 0.9V mit abgesenkt, das müsste man aber noch verifizieren.

Wer also die 4000er Karten im Sommer nicht ganz ausreizen will, der könnte evntuell mit deutlich stärkeren Performanceeinbrüchen konfrontiert sein wie bei bisherigen Karten. Ob sich das eventuell mit manuellem Untertakten lösen lässt muss sich erst zeigen.

Rampage 2

2022-03-31, 18:34:24

Das AD102 Diagramm von Igor mit dem PCB und den Hauptkomponenten drauf deutet auf GDDR6X hin.

Wann kommt eigentlich GDDR7? 32Gbps @ 384Bit-Interface (= 1,5 TiB Bandbreite) hat schon seinen Charme:naughty:

R2

AffenJack

2022-03-31, 18:50:04

Das AD102 Diagramm von Igor mit dem PCB und den Hauptkomponenten drauf deutet auf GDDR6X hin.

Weil? Er hat soweit ich verstanden hab ja auch kein bestücktes PCB gesehn.

basix

2022-03-31, 19:01:53

Positionierung der VRAM-Packages rund um das GPU-Package ist faktisch identisch zu GA102. Sehr nahe am Package. GDDR6 habe ich noch nie so angeordnet gesehen (Turing, RDNA1, RDNA2, PS5, XBSX). GDDR6 ist typ. etwas weiter von der GPU weg, um die Kühlung zu vereinfachen. Bei GDDR6X muss man wegen der elektrischen Signalintegrität näher ran.

GDDR6 ist nicht unmöglich, ich schliesse das nicht aus. GDDR6X scheint aber wahrscheinlicher zu sein. Auch die Anordnung und Anzahl Power Phases usw. sieht alles fast identisch wie bei der 3090 Ti aus, siehe Igors Review.

Und GA102 soll Pinkompatibel mit AD102 sein. Was kann man damit machen:
- PCB, Komponenten und Kühler der für die 4090 könnte man anhand 3090 Ti testen (600W Bios auf GA102 und los gehts)
- Investitionssicherheit (Bauteilbeschaffungen, Re-Use)
- GDDR6X ist soweit ich weiss nicht pinkompatibel mit GDDR6. Das PCB der 3090 Ti könnte man dann nicht für eine 4090 verwenden (siehe hier: https://wccftech.com/micron-gddr6-memory-20-gbps-speeds/)

AffenJack

2022-03-31, 19:12:37

Du hast auch noch nie den Einsatz von GDDR6 mit Taktraten 20 oder 24Gbps gesehen. Eventuell ist das da ebenso nötig näher ranzurücken. Aber selbst wenn nicht, wieso sollte Nvidia die Flexibilität opfern GDDR6X zu nutzen? Man nutzt bei GA104 auch GDDR6X und GDDR6 auf den gleichen Boards bei Custom Designs. Das ist für mich gerade nur Rumraten, was für Ram benutzt wird.

- GDDR6X ist soweit ich weiss nicht pinkompatibel mit GDDR6. Das PCB der 3090 Ti könnte man dann nicht für eine 4090 verwenden (siehe hier: https://wccftech.com/micron-gddr6-memory-20-gbps-speeds/)

Während die Boardpartner meist die Platinen der eigenen RTX 3070 Custom Modelle weiternutzen, hat NVIDIA für die FE alles neu gemacht.
https://www.igorslab.de/nvidia-geforce-rtx-3070-ti-im-test-der-ganz-grosse-bruder-des-kleinen-hungers/2/

Bei den andern Punkten bin ich ganz bei dir. Man hat schonmal PCBs und Komponenten, um den Betrieb mit soviel W zu testen und weniger neu zu designen. Beim Ram hat man dann ebenso die Flexibilität und wählt eben das passendste (oder billigste). Es wird bestimmt Lovelace mit GDDR6X geben, genauso wie mit GDDR6.

iamthebear

2022-03-31, 21:13:34

Also ich sehe GDDR6X für Nvidia als klaren Vorteil in wirtschaftlicher Hinsicht:
Nvidia selbst kann sowohl GDDR6 als auch GDDR6X einsetzen und kann sich je nach Marktsituation entscheiden ob man bei höherem Bedarf bei neuen Modellen auf GDDR6 oder wie bei der 3070 Ti auf GDDR6X setzt.
Micron auf der anderen Seite ist bei GDDR6X auf Nvidia als einzigen Abnehmer angewiesen und kann den RAM bei steigenden VRAM Preisen nicht einfach so jemand anderem verkaufen.

Laut MLID unterstützt der Memory Controller von Lovelace auch GDDR7. Es kann also sein, dass man für das erste Jahr einen Rahmen für GDDR6X ausgehandelt hat und danach entscheidet man sich ob man bei einigen Modellen auf GDDR7 umsteigt oder nicht je nach Verfügbarkeit und Preis.

Eine zwingende Notwendigkeit für GDDR7 sehe ich jedoch nicht. Wenn der 96MB L2 ähnliche Hitrates wie Navi22 aufweist sollte GDDR6X locker ausreichen.

Geldmann3

2022-04-01, 19:09:33

Hier mein aktuellster Spekulatius zum RTX 4000er Lineup.

https://i.ibb.co/pJrdLt0/Lovelace.png (https://twitter.com/perschistence/status/1509926366401150980/photo/1)

Da Lovelace für einige Usecases, wie 8K Gaming, als Haloprodukt nur mit mehr als 24 GB Vram voll ausgefahren werden kann, vermute ich, dass es zu diesem Zwecke eine extreme Premiumkarte geben wird.
Ich nenne sie hier einfach mal Titan L.
Sicher möchte Nvidia weiterhin mit etwas aufwarten, was die 32 GB Vram der Konkurrenz schlägt, auch, wenn es sich nur im ein relativ ,,akademisches" Produkt handelt.
Da es ein Riesenchip werden soll und die Chance einen solchen heile vom Wafer zu bekommen einem Spiel im Lotto gleicht, wird der Preis vermutlich in entsprechend hohen Regionen angesiedelt sein.
Weiterhin würde es wundern, wenn Nvidia auf solch einen Titan- und VRam Aufschlag verzichtet.

Die RTX 4090 Ti könnte man bereits um 4 Shader-Prozessoren beschneiden, um die Ausbeute auf diese Art drastisch zu erhöhen und den Chip für rund 2000$ anbieten zu können.
Wie jetzt die RTX 3090 Ti.

Auf den unerfahrenen Endverbraucher wirkt dies wieder so, als hätte keine Preiserhöhung im jeweiligen Segment stattgefunden.
Der geneigte Technik-Enthusiast wird hier jedoch bemerken, dass er für zwei Riesen nur noch einen beschnittenen Chip erhält.
Auch, wenn dieser natürlich noch immer viel mehr Transistoren in sich vereint, als es bei der RTX 3090 Ti der Fall ist.
Da man für die RTX 4090 Ti erst ein paar Chips herausselektieren muss, bevor man die Karte in Massen an den Kunden bringen kann, vermute ich, dass diese erst einige Monate später erscheinen könnte.
Jedoch noch dieses Jahr, um RNDA 3 möglichst zuvorzukommen.
Ob Nvidia dies jedoch zeitlich schafft, ist sehr fragwürdig.

Die RTX 4090 ist dann bereits noch weiter beschnitten und bietet lediglich noch ein 320-bit Speicherinterface.
Vergleichbar mit der RTX 3080 jetzt.

Die RTX 4080 Ti basiert dann bereits auf AD 103 anstatt AD102.

Für 599$ MSRP würde man in dieser Konstellation RTX 3080 Ti Performance erhalten.
Den kleinen Speicherinterfaces, am unteren Ende des Lineups, wird Nvidia mit einem großen Cache auf die Sprünge helfen.
Bei den 128-bit Karten sollte die 4K Performance bereits minimal leiden, jedoch ist dies mit 8 GB Vram ohnehin nicht die vorgesehene Spielwiese für diese Karten.

HOT

2022-04-01, 19:22:46

Nie und nimmer sieht das so aus. Und Q3 ist auch pures Wunschdenken.

Geldmann3

2022-04-01, 19:28:06

Warum sollte September, wie bei der 3000er-Serie, für die ersten Karten so unrealistisch sein? Wenigstens ein halb-paper-launch.
Die Boardpartner fahren offensichtlich schon Tests mit Kühlern.

Chips und Bios gibts bei Nvidia eh immer erst auf den letzten Drücker.

Ich vermute zudem, Nvidia sputet sich.
Denn sie möchten auf die Bühne gehen und sagen können:,,Das ist die schnellste Gaming-GPU der Welt".
Mit RDNA 3 auf dem Markt wird das schwierig.

WedgeAntilles

2022-04-01, 20:21:35

Das die 4060 - 4090 einschließlich diverser TI-Varianten innerhalb von einem Quartal kommen sollen, halte ich für extrem unwahrscheinlich.

Ich tippe es launcht mit 4070, 4080, 4090 - also wie bei den letzten beiden Generationen.
Tipp: September / Oktober

Die 4060 kommt dann mindestens 6 Monate später, vielleicht auch 9 Monate.

Die TI Varianten kommen irgendwann zwischen 6 und 12 Monate nach dem Launch der ersten drei Varianten.

Geldmann3

2022-04-01, 20:25:48

Naja, wenn Du die Release-Dates aus meiner Grafik betrachtest, siehst Du, dass die Ti Varianten alle ein Quartal später kommen sollen. Kann mir aber auch vorstellen, dass der Abstand größer ist.
Genauso habe ich die 4060er später eingeordnet.

So weit wollte ich sie diesmal nicht spacen, da ich vermute, dass wir relativ schnell einen Refresh sehen werden.
Außerdem konnte man sich in den letzten Generationen mit allem gemächlich Zeit lassen, doch die Konkurrenzsituation spitzt sich zu.
6-9 Monate halte ich allerdings ebenfalls für sehr rational.

Hjalmar

2022-04-01, 20:34:53

Also ich seh das etwas anders. Hier meine Spekulationen dazu:

(.....) GA107, 20SM (Vollausbau), 128bit, 4GB <200€
RTX 4050 AD107, 24SM (Vollausbau), 128 bit, 8GB ~250€
RTX 4060 AD106, 34SM (Vollausbau), 128 bit, 16GB@24Gbps GDDR6 ~350-400€
RTX 4060TI AD104, 46-48SM (Salvage), 192 bit, 12GB@20Gbps GDDR6, ~450-500€
RTX 4070 AD104, 52-60SM (Salvage-Vollausbau), 192 bit, 12GB@24Gbps GDDR6, ~600€

Beim Rest ist (mir) die Unsicherheit zu extrem. Je nachdem, wie sehr sie HighEnd-Preise aufrufen wollen, kann das bis zu den 144SM rauf noch sehr stark variieren, was da als TI, oder was auch immer noch reingebracht wird, oder nicht.

Die 16GB der 4060 ergeben sich wie folgt: AD106 ist ein recht niedriger/kleiner Chip, der demzufolge höchstwahrscheinlich als Maximalausbau in irgendeiner Form kommen muss (Ausbeute, Effizienz, Marge). Das 128bit Interface lässt dabei kaum '3er Zahlen' zu (192bit o.ä.), denn die nächste Abstufung dort wäre 96bit. Selbst mit 24Gbps würde die GPU daran verhungern.
8GB widerum wären signifikant weniger als der (namentliche) Vorgänger. Das hat es bei Nvidia eig. seltenst gegeben (bei preislichen Nachfolgern/Vorgängern sieht das natürlich anders aus).
Zudem: die 4060 dürfte damit knapp das Niveau der 16GB Intel-Karte erreichen. u.U. auch ein Grund, weswegen die 3070 16Gb gestrichen wurde - Ada kommt.
Wie in der aktuellen Generation würden damit 4060TI und 4070 etwas weniger Speicher haben, dafür aber schneller angebunden - durch das größere Interface.

Die Idee mit 20&24Gbps GDDR6 (nicht X) stammt hiervon:
https://www.3dcenter.org/news/hardware-und-nachrichten-links-des-14-dezember-2021
Die Zahlen zu den Chips sind von hier:
https://www.3dcenter.org/artikel/chip-spezifikation-zu-amd-rdna3-und-nvidia-ada-im-vergleich

Ist natürlich alles trotzdem nur Spekulation. z.B. die 4060 könnte natürlich auch trotzdem nur mit 8GB kommen. Dass die 4070 mit 12Gb kommt, dürfte aber relativ sicher sein. Die 192bit lassen da nicht viel anderes zu. Die einzige andere Möglichkeit wäre da nämlich nur, dass Nvidia zum (mehr oder weniger) ersten Mal den 103er Chip in den Desktop von Anfang an schmeißt. Und dann stünden höchstwahrscheinlich direkt 16GB drauf (256bit AD103). Das würde dann aber wohl zu arg gegen Nvidias Gewohnheiten gehen^^

iamthebear

2022-04-01, 20:42:12

Dass die 60er Karten so viel später kommen ist nicht die Norm. Das war nur bei Ampere so da man sowieso ausverkauft war und die wenigen Resourcen die man hatte auf die hochpreisigeren Modelle konzentrieren wollte.

WedgeAntilles

2022-04-01, 22:27:45

Ist natürlich alles trotzdem nur Spekulation. z.B. die 4060 könnte natürlich auch trotzdem nur mit 8GB kommen. Dass die 4070 mit 12Gb kommt, dürfte aber relativ sicher sein. Die 192bit lassen da nicht viel anderes zu. Die einzige andere Möglichkeit wäre da nämlich nur, dass Nvidia zum (mehr oder weniger) ersten Mal den 103er Chip in den Desktop von Anfang an schmeißt. Und dann stünden höchstwahrscheinlich direkt 16GB drauf (256bit GA103). Das würde dann aber wohl zu arg gegen Nvidias Gewohnheiten gehen^^

Bei Ampere war die 3070 der nächstgrößere Chip nach der 3090/3080. (Da gab es vom Namen her nur GA102 und GA104 - ein GA103 gab es nicht.)

Wenn Lovelace Ampere folgt käme also die 4090 und 4080 zu AD102 und die 4070 zu AD103.

Man kann also nicht sagen, dass das gegen Nvidias Gewohnheiten geht - so wurde es bei der aktuellen Generation gemacht.

Ich bin ziemlich sicher, dass Lovelace eine 4070 mit 16GB bringt.
Nach zwei Generationen ohne Steigerung ist die Verdoppelung notwendig.
Theoretisch kann ich mir auch vorstellen, dass eine 4070 mit 12GB und die 4070TI mit 16GB kommen, dann aber gleich zu Beginn.
Nvidia also mit 4070, 4070TI, 4080 und 4090 startet.
Ich halte es für sehr unwahrscheinlich, dass Nvidia mit einem Setup startet, das keine 4070 (wie auch immer sie genau heißt) mit 16GB aufweist.

Dovregubben

2022-04-01, 22:53:21

Im Grund hängt das ganze Lineup von AMD ab. Da wird sicher mit ein paar Varianten geplant abhängig davon wieviel Leistung man bringen muss. Wenn man schon 500+W geht, wird beim Speicherinterface nicht gespart werden.

OgrEGT

2022-04-02, 07:40:24

Solange niemand Bezugspunkte hat zur Leistung von NV und AMD kann man nur ins Blaue raten... wenn man zum Ampere Launch nur von Turing ausgegangen wäre dann hätte die 3080 mit GA104 kommen müssen... wir alle wissen dass es anders gekommen ist...

Hjalmar

2022-04-02, 08:41:45

Bei Ampere war die 3070 der nächstgrößere Chip nach der 3090/3080. (Da gab es vom Namen her nur GA102 und GA104 - ein GA103 gab es nicht.)

Wenn Lovelace Ampere folgt käme also die 4090 und 4080 zu AD102 und die 4070 zu AD103.

Man kann also nicht sagen, dass das gegen Nvidias Gewohnheiten geht - so wurde es bei der aktuellen Generation gemacht.

Ich bin ziemlich sicher, dass Lovelace eine 4070 mit 16GB bringt.
Nach zwei Generationen ohne Steigerung ist die Verdoppelung notwendig.
Theoretisch kann ich mir auch vorstellen, dass eine 4070 mit 12GB und die 4070TI mit 16GB kommen, dann aber gleich zu Beginn.
Nvidia also mit 4070, 4070TI, 4080 und 4090 startet.
Ich halte es für sehr unwahrscheinlich, dass Nvidia mit einem Setup startet, das keine 4070 (wie auch immer sie genau heißt) mit 16GB aufweist.
Das stimmt so nicht: Die 3070 basiert auf GA104, nicht GA103. (Resteverwertung ist ein anderes Thema, aber es geht hier ja um die Hauptverwendung - der kleinste gemeinsame Nenner)
siehe https://www.3dcenter.org/artikel/launch-analyse-nvidia-geforce-rtx-3070
Den GA103 gab es dabei sehr wohl(!) und der war auch des öfteren für Desktop im Gespräch, wurde aber - letztlich so wie bis dato immer - nur für Mobile verwendet und am Ende dann noch in Resteverwerung auf der 3060TI (Desktop) verwendet:
siehe:
https://www.notebookcheck.com/NVIDIA-GeForce-RTX-3080-Ti-Laptop-GPU-Grafikkarte-Benchmarks-und-Spezifikationen.588445.0.html
https://www.3dcenter.org/news/news-des-23-februar-2022

Die Verwendung von AD103 wird aber in der Tat der Knackpunkt für alle Prognosen im oberen Bereich sein. Hier ist aber der Punkt: der 103er Chip wurde bis dato noch nie (zumindest von Beginn) an verwendet. Das war nicht nur bei Ampere so.
Auf der anderen Seite: Der Abstand zwischen 103 und 102 war noch nie so groß (absolut, wie auch prozentual).
Ich hatte das ganze mal von unten aufgezogen, denn da kann man sich sehr sicher sein, dass die Vollaubauten (oder sehr nahe dran bis auf 1-2SM) verwendet werden, denn da ist der Yield entsprechend hoch, sowie auch der Preisdruck. Da kann man es sich kaum leisten, nur 75%SM zu verwenden (also keinen Chip darüber, der mehr nutzt - Resteverwertung geht natürlich schon).
Die 4070 wird wohl so ausgelegt, dass man sie mit AD104 realisieren kann - das schließt natürlich aber nicht aus, dass man nicht einen Salvage103 früher oder später verwenden kann - je nach Bedarf und Ausbeute.
Derlei Vorgehen gab es schon öfter:
s.oben besagte 3060TI, sowie z.B.:
https://www.3dcenter.org/news/hardware-und-nachrichten-links-des-1819-september-2021
Aber: der kleinste Nenner ist dann immer der kleinere Chip. Und das wäre dann der AD104 im Vollausbau. Der Sprung von AD103 zu AD104 ist ebenfalls nicht so groß (84 zu 60SM), was ebenfalls für eine Hauptverwendung von AD104 spricht (es gilt das Minimalprinzip: Ich verwende den kleinstmöglichen Chip, um das Produkt zu realisieren. Aus dem Grund gibt es keine GPUs, die gerade so z.B. 10% mehr Shader als der nächstkleinere Chip haben).
Resteverwertung von AD103 ist damit später dann immer noch möglich. Aber der wird wohl hauptsächlich ins Notebooksegment geben, sowie einer möglichen 4070TI oder 4080 dienen.
Aber da hab ich ja bereits gesagt, dass (mir) da die Unsicherheiten zu groß sind. Man müsste ämlich wissen, wie groß der Yield für Chips mit der Größe des AD102 sind. Der ist nämlich (die Strukturgröße berücksichtigt) abartig groß.
Und da gibt es dann (zu) viele Optionen:
- Möglich, dass die 4080 84SM an 256bit erhält, aber primär eine Salvage102er Lösung wird, da die Ausbeute (möglicherweise) so schwierig ist. Gleichzeitig aber man sich die Lösung offenhält, die 4080 später bei gestiegenem Yield mit AD103 zu fertigen.
- Möglich auch, dass dem nicht so ist, dafür aber eine 4070TI bei ~70-80SM liegt, da die Ausbeute auch beim 103er bereits nich so gut ist - eine 4080 dann vllt. bei ~100SM liegt.
- Oder (und das halte ich auch nicht für komplett ausgeschlossen, wenngleich aber etwas unwahrscheinlicher), dass die 4070 tatsächlich der Vollausbau des AD103 wird und man diesen als intgralen Bestandteils des Portfolios hernimmt.

Fakt ist aber: AD102 basierte Chips werden so richtig teuer. Und die Teile mit nur einem Bruchteil der aktivierten SMs zu verscheuern kann sich auch Nvidia nicht leisten. Denn dafür gibts ja gerade die verschiedenen Chips.
Davon ausgehend kann man sich halt überlegen, wie wahrscheinlich es ist, dass die 4080 eher im Bereich des Vollausbaus des AD103 liegen wird, oder aber gerade 10-15% darüber.
Ferner muss man dann betrachten, wo die 4070 liegen wird. Und gerade da der Unterschied zwischen AD103&AD104 so (verhältnismäßig) gering ist (Faktor 1,4), halte ich es zumindest für eher unwahrscheinlich, dass die 4070 gerade so über dem Shadercount des AD104 liegen wird. Denn gerade nach unten hin, will man möglichst die Vollausbauten der Chips als Hauptprodukte (nicht-TI) nutzen (denn die werden auch am meisten produziert -> OEM&Co).

Aber ja - mal schauen, wer am Ende Recht hat ;)

iamthebear

2022-04-02, 09:34:01

Also mein Tipp ist ein ähnliches Lineup wie Turing nur den 90er Karten oben:
AD102: 4090 Ti 2000$, 4090 1500$
AD103: 4080 Ti 1000$
AD104: 4080 700$
AD106: 4070 500$ + 4060 400$
AD107: Alles darunter

TSMC 5nm hat sehr gute Yields. Damacht es wenig Sinn einen AD102 wo 20-30% weggeschnipselt werden als eines der besser verkauften Modelle zu plazieren.
Hier wird bewusst eine Performance und preisliche Lücke gelassen.umd die Leute zum Kauf der 90er Karten zu animieren. Stark Defekte Dies werden gesammelt und können später für einen Refresh verwendet werden.

Geldmann3

2022-04-02, 10:12:22

Bei AD102 sollte man trotz guter Ausbeute nicht aus den Augen verlieren, dass es sich dabei wahrscheinlich um den größten Gaming-Chip aller Zeiten handeln wird. Aus diesem Grund habe ich in meiner Projektion (https://www.forum-3dcenter.org/vbulletin/showthread.php?p=12967698#post12967698) damit gerechnet, dass dieser Chip durchaus um bis zu ~20% beschnitten werden könnte, um daraus 2 Salvage-Lösungen zu generieren, wie es zurzeit bei GA102 der Fall ist.

WedgeAntilles

2022-04-02, 10:41:51

Aber ja - mal schauen, wer am Ende Recht hat ;)

Zugegebenermaßen ist bei mir auch der Wunsch Vater des Gedanken.
Ich WILL einfach eine 4070 mit 16GB Ram für ca. 800 Euro.

Aus diesem Wunsch heraus ist meine Prognose vielleicht einfach zu optimistisch, dass das passiert.

Eure Prognosen finde ich jetzt deprimierend, vor allem da ich euch sehr viel mehr Kompetenz in diesem Bereich zutraue als mir. :(

Mal schauen, schlussendlich wird natürlich der Preis entscheidend sein.
Eine 4070 mit 16GB wäre technisch toll, wenn die dann aber 1300 Euro kostet auch wieder uninteressant.
Eine 4070 mit 12GB wäre nicht so phantatstisch, wenn die dann aber nur 700 Euro kostet wäre es der bessere Deal. (als eine fiktive 4070 mit 16GB für 1300 Euro)
Eine 4070 mit 8GB wie bei iamthebear wäre ziemlich bescheiden - falls er aber auch mit dem Preis recht hat und die für 500 Euro zu kaufen gibt (und dann auch noch seine 4080 Prognose für 700 Euro stimmt) passt es auch wieder.

OgrEGT

2022-04-02, 11:04:13

Bisher sind nur Gerüchte zu den diversen AD1xx GPUs, inkl der potentiellen Anzahl an SMs bekannt.

https://videocardz.com/newz/nvidia-geforce-rtx-40-ada-gpu-architecture-specs-allegedly-leaked-up-to-144-streaming-multiprocessors

https://cdn.videocardz.com/1/2022/03/NVIDIA-Ada-LoveLace-GPU-Specs.png (https://cdn.videocardz.com/1/2022/03/NVIDIA-Ada-LoveLace-GPU-Specs.png)

Wie die Modelle letztenendes zugeschnitten werden, hängt wie gesagt nicht zuletzt auch von den RDNA3 Modellen und deren Leistung ab.

Wenn bspw. AD103 nicht an N32 vorbeikommt, dann wird NV eine Salvage Variante von AD102 dagegen positionieren müssen.

Es kann natürlich auch anders herum sein, dass selbst AD104 mehr Leistung bietet als N32, dann kommt AD102 vlt nur als Titan... who knows...

https://videocardz.com/newz/amd-adds-rdna3-navi-31-and-navi-33-gpus-to-its-rocm-dev-tools

https://cdn.videocardz.com/1/2021/08/AMD-NAVI-3X-GPUs.png (https://cdn.videocardz.com/1/2021/08/AMD-NAVI-3X-GPUs.png)

Interssant dazu auch:
https://www.forum-3dcenter.org/vbulletin/showpost.php?p=12943906&postcount=1444

AffenJack

2022-04-02, 11:17:34

Wenn bspw. AD103 nicht an N32 vorbeikommt, dann wird NV eine Salvage Variante von AD102 dagegen positionieren müssen.

Davon ist auszugehen, da N31 ja N32+50% sein soll in Sachen SM. AD102 ist dagegen AD103 +71% bei den SMs. Es ist von auszugehen, dass der Abstand zu AD103 größer ist und daher N32 Full gegen AD102 Salvage stehen wird.

Ich WILL einfach eine 4070 mit 16GB Ram für ca. 800 Euro.

Ich glaube nicht, dass die 4070 16Gb haben wird. Das dürfte einfach AD104 sein und somit sind 12 GB gesetzt. Aber es ist auch unwahrscheinlich, dass ein AD104 Chip so teuer sein wird, wo es gleich AD103 geben soll und der Abstand von AD104 zu AD102 sogar +140% sind. Für 800€ dürftest du irgendwas vom AD103 mit 256Bit, also 4070Ti oder 4080 bekommen. Vorrausgesetzt die Normalisierung des Marktes die gerade läuft hält an.

OgrEGT

2022-04-02, 11:19:40

Davon ist auszugehen, da N31 ja N32+50% sein soll in Sachen SM. AD102 ist dagegen AD103 +71% bei den SMs. Es ist von auszugehen, dass der Abstand zu AD103 größer ist und daher N32 Full gegen AD102 Salvage stehen wird.

Dann könnte NV wieder ein Problem haben alle SKUs von 4090Ti bis 4080 alle mit AD102 Chips zu realisieren...

OgrEGT

2022-04-02, 11:47:08

Zugegebenermaßen ist bei mir auch der Wunsch Vater des Gedanken.
Ich WILL einfach eine 4070 mit 16GB Ram für ca. 800 Euro.

Warum nicht eine 7700XT mit 16GB?

Thunder99

2022-04-02, 11:52:48

Wenn wieder langfristig investiert werden sollte, dann mach es aus 1080Ti Sicht nur Sinn auf AD103 oder höher zu gehen, sofern der Strombedarf nicht extrem wird.

16GB sind Pflicht!

w0mbat

2022-04-02, 12:15:26

Ich WILL einfach eine 4070 mit 16GB Ram für ca. 800 Euro.
Die xx70er Klasse bei Nvidia ist ne 350-400€ GPU. Wieso willst du doppelt so viel dafür zahlen?

Troyan

2022-04-02, 12:19:02

Weil TSMCs 5nm Prozess doppelt so teuer ist wie 7nm und der wiederum doppelt so teuer wie 10nm.

Ich denke viele hier haben noch nicht begriffen, was es bedeutet Chips in 5nm zu fertigen. Wahrscheinlich liegt Lovelace bei ca. 3x den Chipkosten als Ampere bei Samsung 8nm...

HOT

2022-04-02, 12:33:00

Die Daten von Kopite7kimi stimmen mMn, denn das passt beim 2. Überdenken doch recht gut zusammen.

1.) NV wird Anfangs sicherlich nur 2 Chips vorstellen, AD102 und AD104. Alle Produkte, die vorgestellt werden sind mMn also aus den beiden Chips entstanden. Zusätzlich zur 4070 wird nach kurzer Zeit mMn wieder eine Salvage-Variante die 4060Ti erscheinen.
2.) Muss nicht das gesamte Lineup in N5 entstanden sein. Es kann durchaus sein, dass NV für AD104 und Kleiner N6 oder 6LPP verwendet. Das würde den Verbrauch gut erklären.
3.) AMD bietet ebenfalls nur eine N6-Lösung an in dem Bereich, in dem AD104 spielen soll. Das ist schon seit sehr langer Zeit bekannt und NV könnte genau das zur Kostenreduktion und Kapazitätsoptimierung ausnutzen. Das würde ebenfalls dafür sprechen, dass hier nicht N5 verwendet wird sondern ein günstigerer Prozess mit einem eher kleinen Chip, der dafür sehr hoch getaktet wird, was wiederum den Verbrauch erklärt.

Ich schließe mich außerdem der Einschätzung an, dass das Layout unabhängig vom Speicher ist. Auch GDDR6 ohne X-Speicher wird sehr nah an das GPU-Package rücken müssen. Es ist für das Layoutraining durch die 3090Ti mMn unerheblich, ob 6 oder 6X-Speicher zum Einsatz kommt. Bisher spricht alles für 6 ohne X, es kann allerdings auch sein, dass Micron 6X auch mit 24GT/s anbietet, wir werden sehen.

Dovregubben

2022-04-02, 12:42:59

Die xx70er Klasse bei Nvidia ist ne 350-400€ GPU. Wieso willst du doppelt so viel dafür zahlen?
Wann war das denn das letzt mal der Fall?
Schon die 1070 lag bei 500 Euro. 2070 waren gar 630 Euro. Ich würde mal auf 599 Euro tippen für die 4070

HOT

2022-04-02, 12:48:55

Mir vergessen hier zuviele, dass der Performancesprung durch N5 von N7 aus recht klein ist...
Ein AD103 in N5 für Mobil ist natürlich ein Kracher was die Effizienz angeht, für die höheren Taktbereiche gilt das aber nicht zwingend, da man hier den Sweetspot weit hinter sich lässt.

iamthebear

2022-04-02, 13:14:45

Eine 4070 mit 16GB wäre technisch toll, wenn die dann aber 1300 Euro kostet auch wieder uninteressant.

Eine 70er Karte um 1300 Euro zu verkaufen würde einen enormen Aufschrei auslösen siehe Turing Launch. Verkauft Nvidia dieselbe Karte als 80er und die 60er als 70er, dann kommt es für den Käufer auf dasselbe raus aber preislich wirkt es deutlich weniger überzogen.

Eine 4070 mit 12GB wäre nicht so phantatstisch, wenn die dann aber nur 700 Euro kostet wäre es der bessere Deal. (als eine fiktive 4070 mit 16GB für 1300 Euro)
Eine 4070 mit 8GB wie bei iamthebear wäre ziemlich bescheiden - falls er aber auch mit dem Preis recht hat und die für 500 Euro zu kaufen gibt (und dann auch noch seine 4080 Prognose für 700 Euro stimmt) passt es auch wieder.

Habe noch einmal etwas überlegt und meine Theorie spießt etwas, denn dann hätte die 4070 weniger SM als die 3070.
Dann muss die 4070 doch ein beschnittener AD104 sein und wird eventuell um 550$ verkauft.
AD106 könnte dann 4060 Ti und 4060 sein.

Dann könnte NV wieder ein Problem haben alle SKUs von 4090Ti bis 4080 alle mit AD102 Chips zu realisieren...

Dass die 4080 ein AD102 Die sein wird, das würde ich ausschließen. Die Yields bei TSMC 5nm sind sehr gut. Das werden nur sehr wenige 102 Dies sein, die wirklich so schlecht sind, dass man mehr als 20% wegschnipseln muss und die 4080 ist das Modell, das sich am Besten verkaufen wird von alles AD102 SKUs.
Entweder wird die 4080 ein beschnittener 103 Die und rückt auf 1000$ auf oder es wird der Top 104 SKU um 700-800$.

Bei AD102 sollte man trotz guter Ausbeute nicht aus den Augen verlieren, dass es sich dabei wahrscheinlich um den größten Gaming-Chip aller Zeiten handeln wird. Aus diesem Grund habe ich in meiner Projektion (https://www.forum-3dcenter.org/vbulletin/showthread.php?p=12967698#post12967698) damit gerechnet, dass dieser Chip durchaus um bis zu ~20% beschnitten werden könnte, um daraus 2 Salvage-Lösungen zu generieren, wie es zurzeit bei GA102 der Fall ist.

Ich bezweifle, dass 102 wirklich so riesig wird wie alle denken.
GA 102 hatte 28.3 Mrd. Transistoren
Mit 12 statt 7 GPC sind das im Worst Case 48.5Mrd unter der Annahme, dass alles um 70% mitwächst. In der Praxis wird es weniger.
Für die 86MB zusätzlichen Cache kommen 4.1Mrd. dazu (6 pro Bit)

Damit komme ich auf 28.3 * 12 /7 + 4.1 = 52.6 Mrd.
Falls Nvidia dieselbe Fertigung wie bei GH100 verwendet mit ca. 100 MTrans/mm² was ca. 530mm² ausmachen würde.
TU102 hatte damals 754mm² bei wesentlich schlechteren Yieldraten und damals gab es unter der 2080 Ti mit 68/72 SMs gar keine SKUs.

Selbst Mitte 2020 war die Defektrate von N5 schon bei 0.1 pro 100mm². Bei zufälliger Verteilung bedeutet dies 60% der Dies haben gar keinen Defekt, 30% haben einen und nur 10% haben mehr als 2 Defekte.
Und die absoluten Schrott Dies kann man immer noch in einen AD103 SKU packen oder an irgendeinen OEM liefern.

OgrEGT

2022-04-02, 14:43:23

Dass die 4080 ein AD102 Die sein wird, das würde ich ausschließen. Die Yields bei TSMC 5nm sind sehr gut. Das werden nur sehr wenige 102 Dies sein, die wirklich so schlecht sind, dass man mehr als 20% wegschnipseln muss und die 4080 ist das Modell, das sich am Besten verkaufen wird von alles AD102 SKUs.
Entweder wird die 4080 ein beschnittener 103 Die und rückt auf 1000$ auf oder es wird der Top 104 SKU um 700-800$.

Das wird eben nicht nur von der Ausbeute abhängen sondern wie viel Leistung der AD103 hat gegenüber N32... wenn er weniger hat dann bleibt nix andres übrig... war doch auch bei Ampere nicht anders, da konnte NV den GA104 auch nicht für die 3080 nutzen wie noch bei Turing...

Und wir sollten auch nicht vergessen, dass sehr wahrscheinlich AMD mit RDNA3 zur RT Leistung von AD aufschließen wird. Zudem wird es noch FSR 2.0 geben... Dann wird man sich ggf. auch diese Rosinen mit RT+/- DLSS nicht mehr rauspicken können... Ich bin da sehr gespannt :) Wie gesagt für uns Kunden eine sehr gute Situation...

Troyan

2022-04-02, 14:50:39

OgrEGT

2022-04-02, 14:55:44

Slipknot79

2022-04-02, 15:26:46

TSMC 5nm hat sehr gute Yields. Damacht es wenig Sinn einen AD102 wo 20-30% weggeschnipselt werden als eines der besser verkauften Modelle zu plazieren.

Warum sind Wafer rund und nicht rechteckig? Oo

Geldmann3

2022-04-02, 15:47:28

Ampere ist 2x schneller als RDNA2 bei gleicher Transistorenanzahl.

Quelle?

Dachte, es wären etwa 26,8 Milliarden Transistoren bei der 6900 XT und 28 Milliarden der RTX 3090. Entsprechend wäre die RTX 3090 also etwas schneller braucht aber auch mehr Transistoren dafür.

Akkarin

2022-04-02, 16:10:20

Quelle?

Dachte, es wären etwa 26,8 Milliarden Transistoren bei der 6900 XT und 28 Milliarden der RTX 3090. Entsprechend wäre die RTX 3090 also etwas schneller braucht aber auch mehr Transistoren dafür.

Mit DLSS und Raytracing in einem nVidia-optimierten Spiel könnte das hinkommen.

Troyan

2022-04-02, 16:14:20

Quelle?

Dachte, es wären etwa 26,8 Milliarden Transistoren bei der 6900 XT und 28 Milliarden der RTX 3090. Entsprechend wäre die RTX 3090 also etwas schneller braucht aber auch mehr Transistoren dafür.

GA104 gegen Navi22. Selbe Anzahl an Transistoren.

GA102 hat 50% mehr Speichercontroller, Navi21 33%. Das macht es schwierig zu vergleichen, wenn du eine Stufe höher gehst.

Thunder99

2022-04-02, 16:18:51

Deswegen stellt ja AMD den Navi21 aka 6800 gegen 3070(Ti).

Ich sehe es als sinnvoll den AD103 "jetzt" also mit den 102er und 104er Zeitnah zu bringen. Dadurch, dass der AD104er so "schwach" wird und AD102 wahrscheinlich so viel säuft. Ob es die Kapazitäten bei TSMC zulässt steht auf einem anderen Blatt.

Akkarin

2022-04-02, 16:27:06

Selbst eine 3070 Ti mit hochgezütchtetem RAM und über 290W Verbraucht ist gerade mal 10-15% schneller als eine 6700XT mit 220W. Eine 6600 XT verbraucht weniger und ist schneller als eine 3060, trotz weniger transistoren.

Nvidia hat dafür halt Tensor Cores und mehr Raytracingeinheiten verbaut. Das hat auch seine Vorteile, je nach Spiel vermutlich sogar oft mehr als die bessere Grundperformance von AMD. Aber man sollte auch auf dem Boden bleiben und keinen 2x Performancevorteil für Nvidia herbeifantasieren.

Geldmann3

2022-04-02, 16:34:25

GA104 gegen Navi22. Selbe Anzahl an Transistoren.

GA102 hat 50% mehr Speichercontroller, Navi21 33%. Das macht es schwierig zu vergleichen, wenn du eine Stufe höher gehst.
GA104 und Navi22 haben etwa gleichviele Transistoren, GA104 ist allerdings 25% schneller.

So ganz eine Verdopplung sehe ich hier nicht? :confused:

AffenJack

2022-04-02, 18:18:17

Entweder wird die 4080 ein beschnittener 103 Die und rückt auf 1000$ auf oder es wird der Top 104 SKU um 700-800$.

Das ergibt überhaupt keinen Sinn. Nvidia wird nicht zwei Chips haben, die 1000€ und mehr kosten. Das ist nur wegen dem völlig kaputten Markt jetzt kurzzeitig so gewesen. Völlig unabhängig vom Namen dürften die angepeilten Preise eher so aussehen:

AD102: 1000/1200 -1999$?
AD103: 600 - 900$
AD104: 400/450 - 599$
AD106: 300 - 399/449$
AD107: <299$

Geldmann3

2022-04-02, 20:53:19

Das ergibt überhaupt keinen Sinn. Nvidia wird nicht zwei Chips haben, die 1000€ und mehr kosten. Das ist nur wegen dem völlig kaputten Markt jetzt kurzzeitig so gewesen.

;D, naja, die Hoffnung stirbt zuletzt. :rolleyes:

iamthebear

2022-04-02, 21:09:45

Das wird eben nicht nur von der Ausbeute abhängen sondern wie viel Leistung der AD103 hat gegenüber N32... wenn er weniger hat dann bleibt nix andres übrig... war doch auch bei Ampere nicht anders, da konnte NV den GA104 auch nicht für die 3080 nutzen wie noch bei Turing...

AMD wird sich mit den Preisen an Nvidia anpassen. AMD wird Nvidia nicht mit Kampfpreisen unterbieten denn entweder zieht Nvidia mit und es verlieren beide oder sie tun es nicht und AMD kann sowieso nicht mehr liefern. Und da das CPU wichtiger ist werden sie von dort sicher keine Wafer abzweigen.

Beim Ampere Launch war die Situation eine andere. Da wollte Nvidia AMD einfach nur das Geschäft versauen.

Und wir sollten auch nicht vergessen, dass sehr wahrscheinlich AMD mit RDNA3 zur RT Leistung von AD aufschließen wird. Zudem wird es noch FSR 2.0 geben... Dann wird man sich ggf. auch diese Rosinen mit RT+/- DLSS nicht mehr rauspicken können... Ich bin da sehr gespannt :) Wie gesagt für uns Kunden eine sehr gute Situation...

Ich denke nicht, dass RT wirklich so eine große Rolle spielen wird. Und DLSS ist in dieser Performancekategorie sowieso schon unnötig.

GA104 gegen Navi22. Selbe Anzahl an Transistoren.

GA102 hat 50% mehr Speichercontroller, Navi21 33%. Das macht es schwierig zu vergleichen, wenn du eine Stufe höher gehst.

GA104 ist um die 15% schneller als Navi22, nicht 2x und diese 15% und selbst das ist Rosinenpickerei, da Navi22 der ineffizienteste Die ist. Das ist mit Infinity Cache einfach eine ungünstige Größe.
Navi23 (6600 XT) hat 15% weniger Transistoren als GA106 und ist trotzdem noch schneller.
Bei Navi21 vs. GA102 sind wieder beide gleich effizient.

Nvidia wird nun endlich ihren Nachteil bei der Fertigung los. Dafür trifft sie der große Hammer des CPU Overheads nun deutlich stärker.
Aber das lässt sich alles schwer vergleichen, da AMD nun auf eine komplett andere Architektur geht und auch bei Lovelace wird sich zeigen wie sich der zusätzliche L2 auswirkt.

Mit DLSS und Raytracing in einem nVidia-optimierten Spiel könnte das hinkommen.

Dann spielt man auf den AMD Karten eben ohne RT mit mehr FPS. Solange RT in einem Blindtest in den meisten Fällen gar nicht wahrnehmbar ist solange man nicht weiß worauf man achten soll sehe ich das mehr als netten Bonus wenn man sowieso nicht mehr weiß wohin mit der Performance.

Ich sehe es als sinnvoll den AD103 "jetzt" also mit den 102er und 104er Zeitnah zu bringen. Dadurch, dass der AD104er so "schwach" wird und AD102 wahrscheinlich so viel säuft. Ob es die Kapazitäten bei TSMC zulässt steht auf einem anderen Blatt.

AD103 ist zwingend notwendig. Der Abstand zwischen AD102 und AD103 ist ca. so groß wie zwischen GA102 und GA104 und selbst hier ist es schon zu viel. Nvidia wollte ja GA103 für den Desktop bringen als 3070 Ti aber dann kam der Miningboom dazwischen.

Geldmann3

2022-04-02, 21:20:40

Ich denke nicht, dass RT wirklich so eine große Rolle spielen wird. Und DLSS ist in dieser Performancekategorie sowieso schon unnötig.
Also ich nutze DLSS mit meiner RTX 3090, wenn vorhanden, eigentlich immer. Cyberpunk 2077 z.b. mit DLSS Performance, denn ohne würde ich statt 50 FPS+ nur rund 30FPS mit meinen Settings haben. Und wenn ich die Rohleistung dafür habe, kombiniere ich eben 5k DLDSR mit DLSS und bekomme so eine Bildqualität, die nur noch von 8-16xSSAA geschlagen wird, für einen kleinen Bruchteil der Performancekosten.

DLSS ist für mich schon ein Hammer Feature, sehe ich so schnell nicht unwichtig werden. Im Gegenteil, kann mir vorstellen, dass man temporales Supersampling in Zukunft nicht einmal mehr abschalten kann, weil das dann eben immer per default mit intern nativer Auflösung läuft. So wie man normales TAA heute in vielen Games bereits nicht mehr abschalten kann. Dementsprechend sehe ich natives Rendering ohne DLSS/TSR/FSR langfristig eher sterben. Doch das ist ein anderes Thema.

aufkrawall

2022-04-02, 21:28:21

Und DLSS ist in dieser Performancekategorie sowieso schon unnötig.

Sorry, aber was ein Quatsch. Es gibt noch nicht mal Current Gen-only-Spiele, und schon der Last Gen-Kram + RT überfordert eine 3090 ohne Upsampling mitunter massiv...

ChaosTM

2022-04-02, 21:30:56

DLSS wird von NV nötig gemacht, da muss man ehrlich sein.
Außer AMD ist bei RT zukünftig deutlich schneller und/oder bringt was vergleichbares.

Vergleichbare Effizienz-sparende Tools werden immer wichtiger, je geringer der reale Performance Sprung ausfällt - und der wird immer geringer. Außer man will 2kw+ verbraten.

aufkrawall

2022-04-02, 21:33:28

DLSS wird von NV nötig gemacht, da muss man ehrlich sein.

Weil es in jedem AMD-Titel tolle RT-Effekte gibt, die kaum etwas kosten? :freak: ;D

ChaosTM

2022-04-02, 21:45:49

So war das auch nicht gemeint.. NV hat RT aus wirtschaftlichen Gründen unverzichtbar gemacht - dachte das sei verständlich.

Hjalmar

2022-04-02, 22:39:16

Zugegebenermaßen ist bei mir auch der Wunsch Vater des Gedanken.
Ich WILL einfach eine 4070 mit 16GB Ram für ca. 800 Euro.

Aus diesem Wunsch heraus ist meine Prognose vielleicht einfach zu optimistisch, dass das passiert.

Eure Prognosen finde ich jetzt deprimierend, vor allem da ich euch sehr viel mehr Kompetenz in diesem Bereich zutraue als mir. :(

Mal schauen, schlussendlich wird natürlich der Preis entscheidend sein.
Eine 4070 mit 16GB wäre technisch toll, wenn die dann aber 1300 Euro kostet auch wieder uninteressant.
Eine 4070 mit 12GB wäre nicht so phantatstisch, wenn die dann aber nur 700 Euro kostet wäre es der bessere Deal. (als eine fiktive 4070 mit 16GB für 1300 Euro)
Eine 4070 mit 8GB wie bei iamthebear wäre ziemlich bescheiden - falls er aber auch mit dem Preis recht hat und die für 500 Euro zu kaufen gibt (und dann auch noch seine 4080 Prognose für 700 Euro stimmt) passt es auch wieder.
Eine 4070 mit 16GB fänd ich auch nice. Ideal fürs nächste Skyrim Graphic-Modsetup (am besten noch für so ~400-450€, wie damals die 1070)
:D
Die neuesten Meldungen sehen diesbezüglich aber düster aus:
https://www.3dcenter.org/news/news-des-1-april-2022

Das ist zwar auch noch nicht in Stein gemeißelt und mit Vorsicht zu genießen, aber ginge wohl eher in die andere Richtung (12GB).
Bei den Listenpreisen denk ich schon, dass die anziehen werden, aber auch nicht zu krass. Immerhin sinken die Preise gerade auch wieder. Irgendetwas zwischen 500-750€ würde ich mir da so realistischerweise vorstellen.

=Floi=

2022-04-03, 07:47:43

Hat sich etwas an den ram preisen getan?
Das könnte die karten wirklich günstiger machen, wenn 8 zu 16gb nur noch 130-160% anstatt 200% kosten.

TheAntitheist

2022-04-03, 09:07:52

OgrEGT

2022-04-03, 09:57:10

ständig willst du hier mit jedem Post leute zu AMD bewegen, das reicht doch mal langsam...

Ist sicher nicht meine Absicht... es ging hier ursprünglich um die Raterei welche AD Modelle mit welchen Chips realisiert werden sollen... mein Punkt war dass dies ohne Kenntnis der Leistung von RDNA3 nicht möglich ist... und schon gar nicht ohne zu wissen wie weit AMD an RT Leistung +/- FSR 2.0 zulegen kann da hier noch einige low hanging fruits zu holen sind...

Troyan

2022-04-03, 11:17:49

GA104 und Navi22 haben etwa gleichviele Transistoren, GA104 ist allerdings 25% schneller.

So ganz eine Verdopplung sehe ich hier nicht? :confused:

Ich habe mich auf Raytracing bezogen, wo behauptet wurde, dass AMD nah an nVidia herankommen werde. Da Ampere jetzt schon bei selber Transistorenanzahl doppelt so schnell ist, ist es ziemlich offensichtlich, dass der Abstand identisch bleiben wird.

Der_Korken

2022-04-03, 11:55:49

Bitte bei den Transistorzahlen berücksichtigen, dass der Infinity Cache ein Transistorenfresser auf kleinstem Raum ist. 96MB benötigen für die Cache-Zellen alleine schon ca. 4,6 Mrd. Transistoren (bei 6T pro Bit), zuzüglich Ansteuerungslogik, also mehr als 1/4 von N22. Ein größeres Speicherinterface würde weniger Transistoren verbrauchen, dafür aber natürlich mehr Strom ...

OgrEGT

2022-04-03, 12:18:50

Ich habe mich auf Raytracing bezogen, wo behauptet wurde, dass AMD nah an nVidia herankommen werde. Da Ampere jetzt schon bei selber Transistorenanzahl doppelt so schnell ist, ist es ziemlich offensichtlich, dass der Abstand identisch bleiben wird.

Wenn man schon zitiert dann richtig.
Ich habe zu bedenken gegeben, dass dies so kommen könnte, nicht dass es so kommen wird. Die reine Transistoranzahl zu vergleichen ist nicht sinnvoll bzgl. einer Funktion wie bspw. RT wenn nicht beide Chips die gleichen Funktionseinheiten haben. Was willst Du denn da vergleichen?

Auf dieser Basis fortwährend zu wiederholen, dass in einem nur Dir bekannten rosinengepickten Usecase mit sehr wahrscheinlich RT und DLSS irgendwo 2x Leistung von GA104 zu N22 zu sehen ist, grenzt schon mindestens an Polemik...

why_me

2022-04-03, 12:18:52

basix

2022-04-03, 15:32:00

Unsinn, AMD wird überhaupt nicht zu Ampere aufschließen. Ampere ist 2x schneller als RDNA2 bei gleicher Transistorenanzahl. Es ist absurd anzunehmen, dass AMD auch nur irgendwo in der Nähe von Lovelace liegen wird. Der Abstand wird noch größer, da nVidia keinen Verlust durch MCM hat.
Ich habe mich auf Raytracing bezogen, wo behauptet wurde, dass AMD nah an nVidia herankommen werde. Da Ampere jetzt schon bei selber Transistorenanzahl doppelt so schnell ist, ist es ziemlich offensichtlich, dass der Abstand identisch bleiben wird.
Du erzählt hier den selben Unsinn und FUD wie damals vor dem Ampere und RDNA2 Launch. Und deine allgemeine Nvidia Lobhudelei hier im Thread geht mir sowas auf den Sack.

RDNA2 käme laut dir nie auf +50% Energieffizienz verglichen mit RDNA1, da selber Prozess. Und völlig unmöglich, dass Ampere nicht einen grossen Effizienzsprung hinlegt. (7nm -> 7nm vs. 12nm -> 7/8nm). Realität: RDNA2 ist bis zu +60% effizienter als RDNA1 und Ampere ist nur geringfügig effizienter als Turing. Ende.
Transistorzahlen sind völlig ungeeignet, um Performancesprünge von Accelerator-Einheiten abzubilden. Bei Accelerators führt ein Bruchteil der Transistoren zu einem grossen Performance-Sprung. Genau deswegen machen sie auch so viel Sinn. Sonst könnte einfach auf mehr SMs oder CUs gehen, wenn dies nicht so wäre. Oder was würdest du zu Turing vs. Pascal behaupten? Bis zu 7x schneller in Raytracing. Also müsste Turing 7x mehr Transistoren tragen? Ehm, nö. Ist definitiv nicht so. Und bei RT-Accelerators gibt es verglichen zur Grundperformance (ohne RT) auch den abnehmenden Grenzertrag. -0% Performanceverlust wäre das Optimum (ohne RT vs. RT), viel besser geht es nicht. Jetzt ist es bei Nvidia -30% und bei AMD -50%, wenn man RT aktiviert. Annahme: Beide verdoppeln ihre RT-Performance bei RDNA3 und Lovelace. Dann wäre es -15% vs. -25%. Ist das weiter weg voneinander oder doch näher beieinander? ;) Hier also zu behaupten, der Abstand zu Lovelace vergrössere sich sogar ist völlig Banane.
Spendiert AMD also ein paar Transistoren mehr für die RT-Acceleration, wird deutlich mehr pro Trainstor rauskommen als reingesteckt wurde (prozentual auf den gesamten Chip gesehen). Und der relative Abstand wird mit 99.9%iger Wahrscheinlichkeit geringer werden. Alles andere ist nicht rational sondern Wunschdenken.
Bei RDNA2 könnte man auch sagen, dass pro Transistor und CU sehr viel Performance rauskommt (ohne RT/DLSS). Vor allem, wenn man den grossen Infinity Cache miteinbezieht/abzieht. Und soll ich jetzt noch mit FSR 2.0 argumentieren, wo man ohne mehr Transistoren oder irgendwelche Änderungen am Chip auf mehr Performance kommt? Da kann ich schon fast behaupten, Nvidia verschwendet Transistoren für Tensor Cores (das ist ungefähr die selbe Liga wie bei deinen Argumentationsketten -> völlig unsinnig). Und auch bei den Temporalen Upsampling Algorithmen gibt es den abnehmenden Grenzertrag. Egal was Nvidia hier macht, AMD hat mit FSR 2.0 viel mehr Spielraum nach oben um aufzuholen. Ergo wird sich auch hier die Lücke verkleinern
Der relative Rohleistungssprung N21 -> N31 ist laut Gerüchten deutlich höher als bei GA102 -> AD102. Soll ich hier jetzt auch annehmen, dass AD102 Wunder vollbringt und die Lücke grösser wird? Oder denkt man rational und erwartet, dass N31 eher aufschliesst als abgehängt wird? Das MCM-Argument kann man zwar vorbringen, nur wird MCM definitiv ein Vorteil vs. monolithisch sein (Performance, Energieffizienz, Wirtschaftlichkeit oder eine Kombination vo allem). Wieso? Sonst würde AMD es nicht machen. Vielleicht sieht die Skalierung von Performance/Rohleistung bei MCM etwas anders aus. Aber da wir dazu absolut keine verlässlichen Informationen dazu haben, ist alles bezüglich Subpar-Skalierung reine Spekulation. Ergo komme ich wieder auf die Rationalität zurück: Die Rohperformance von N21 -> N31 steigt mehr verglichen mit Ampere -> Lovelace. Solange wir keine anderen verlässlicheren Infos haben, ist die Wahrscheinlichkeit also auch am höchsten, dass N31 den grösseren Performance-Sprung hinlegt.

Ich denke nicht, dass RT wirklich so eine große Rolle spielen wird. Und DLSS ist in dieser Performancekategorie sowieso schon unnötig.
Da müsst ich dir widersprechen.

Wenn ich eine heute neue Grafikkarte kaufe, vor allem bei 500+ Euro, spielt für mich RT Performance sehr wohl eine Rolle. Und das werden viele andere auch so sehen (klar, nicht alle, aber viele). Nicht jeder kauft sich jedes Jahr eine neue Karte. Wenn man einen Zeithorizont von 3-5 Jahren für die Nutzungsdauer einer Karte anlegt, würde ich mir heute keine Karte mit deutlich geringerer RT-Performance kaufen.

Und DLSS ist in allen Performance-Regionen ein Vorteil. Wer will schon nicht mit 2x FPS spielen? Und je nach Spiel mit zum Teil besserer Bildqualität als nativ? Oder Ausgabauflösung >Nativ + DSR/DLDSR, welches zum Teil deutlich besser als nativ aussieht.

Rampage 2

2022-04-03, 17:44:07

Woher kommt eigentlich die Behauptung, Lovelace würde bereits im August kommen!? :| Ich dachte Nvidia soll diesmal ein bisschen später kommen als RDNA3? Also RDNA3 im Spätsommer/Herbst 2022 und Lovelace im Herbst/Winter 2022 - zumindest waren die früheren ersten Gerüchte in dieser Richtung...

Und wie sieht es mit den Yields bei 5nm aus? Kann man erwarten, dass Nvidia diesmal All-In geht (wegen RDNA3 im Nacken) und gleich zu Beginn der Generation Modelle im Vollausbau auf den Markt bringt?

R2

AffenJack

2022-04-03, 19:51:06

Woher kommt eigentlich die Behauptung, Lovelace würde bereits im August kommen!? :| Ich dachte Nvidia soll diesmal ein bisschen später kommen als RDNA3? Also RDNA3 im Spätsommer/Herbst 2022 und Lovelace im Herbst/Winter 2022 - zumindest waren die früheren ersten Gerüchte in dieser Richtung...
R2

Die letzten Gerüchte der Leaker auf dem das meiste basiert gingen in die Richtung Lovelave Ende Q3, N33 Anfang Q4 und N31 Anfang 2023.

WedgeAntilles

2022-04-03, 20:16:00

Das MCM-Argument kann man zwar vorbringen, nur wird MCM definitiv ein Vorteil vs. monolithisch sein (Performance, Energieffizienz, Wirtschaftlichkeit oder eine Kombination vo allem). Wieso? Sonst würde AMD es nicht machen.

Naja, man kann theoretisch genauso argumentieren, dass es eben auch Nachteile gibt.
Sonst würde Nvidia es ja auch machen.

Die Logik, nur weil AMD es macht MUSS es super sein (und vor allem: Sofort funktionieren) stimmt nicht.
Wenn MCM die eierlegende Wollmilchsau wäre, wo es ausschließlich Vorteile gibt - wieso tut Nvidia das nicht?
Sind die völlig inkompetent?

Nach diesem Forum selbstverständlich, aber man wird nicht Marktführer mit 80% wenn man abgrundtief dämlich ist. Und wenn es sich dieses Forum noch so sehr wünscht.

Wird MCM vermutlich die Zukunft sein? Ja.
Bedeutet nicht, dass es zu Beginn zwingend besser ist.
DDR5 ist auch die Zukunft.
Dennoch war - und ist - DDR4 am Anfang besser gewesen als DDR5.
Schneller UND preiswerter. Das wird sich ändern und DDR5 wird besser werden, kein Zweifel.

Eine eigentlich schlechtere Technologie kann am Anfang selbstverständlich besser sein, als eine neue - eigentlich bessere Technologie.
Weil die alte Technologie ausgereift und ausgereizt ist, während die neue Technologie zu Beginn ihre Vorteile noch nicht voll ausspielen kann.

Es mag sein, dass die neue Technologie von Anfang an besser ist.
Dafür gibt es aber keinerlei Garantie, auch wenn das Forum es hier gerne anders hätte.
Du kannst natürlich gerne hoffen und glauben, dass AMD "schneller, energieeffizienter und auch noch billiger" sein wird - möglich, dass es so kommt.
Genauso möglich, dass es nicht so kommt.

Neurosphere

2022-04-03, 21:37:21

Naja, man kann theoretisch genauso argumentieren, dass es eben auch Nachteile gibt.
Sonst würde Nvidia es ja auch machen.

Die Logik, nur weil AMD es macht MUSS es super sein (und vor allem: Sofort funktionieren) stimmt nicht.
Wenn MCM die eierlegende Wollmilchsau wäre, wo es ausschließlich Vorteile gibt - wieso tut Nvidia das nicht?
Sind die völlig inkompetent?

Natürlich nicht. AMD dürfte einfach den Vorteil haben über die CPUs zumindest mit etwas mehr Erfahrung an das Thema herangehen zu können. Ob es deswegen funktioniert wie geplant wird sich zeigen wenn die Chips kommen.

Nvidia wird einen Grund gehabt haben bei monolitisch zu bleiben, warum auch immer. MCM ist aber nunmal grundsätzlich ein Vorteil was die Kosten und die verfügbare Fläche betrifft. Ob die Probleme oder andere Ursachen dazu führen das man diesen Vorteil nicht nutzen kann wird man sehen. Wenn ich mich nicht irre kommt aber in zukunft ein stärkeres Limit bei der maximalen Chipgröße. Vielleicht hat das jemand auf dem Schirm, aber ich glaube bald wird bei 400 oder 500mm² schluss sein.

Edit:

Habs:
In future High-NA EUV lithography steppers the reticle limit will be halved to 26 mm by 16,5 mm or 429 mm² due to the use of an amorphous lens array.

TheAntitheist

2022-04-03, 21:43:56

Natürlich nicht. AMD dürfte einfach den Vorteil haben über die CPUs zumindest mit etwas mehr Erfahrung an das Thema herangehen zu können. Ob es deswegen funktioniert wie geplant wird sich zeigen wenn die Chips kommen.

Nvidia wird einen Grund gehabt haben bei monolitisch zu bleiben, warum auch immer. MCM ist aber nunmal grundsätzlich ein Vorteil was die Kosten und die verfügbare Fläche betrifft. Ob die Probleme oder andere Ursachen dazu führen das man diesen Vorteil nicht nutzen kann wird man sehen. Wenn ich mich nicht irre kommt aber in zukunft ein stärkeres Limit bei der maximalen Chipgröße. Vielleicht hat das jemand auf dem Schirm, aber ich glaube bald wird bei 400 oder 500mm² schluss sein.

Edit:

Habs:
Auch wenn AMD mehr Erfahrung hat, sah man ja an Zen und Zen2 wie viel Leistung durch Multichip verloren geht. erst Zen3 mit nem 8core die hat ja den größeren Performance Sprung gebracht. Man verliert auf jeden Fall ordentlich Leistung, die Kosten steigen auch erst mal wegen Packaging etc. Klar wenn die Ausbeute dadurch massiv steigt oder man die Chips für mehrere Produkte nutzen kann geht das schon klar.

basix

2022-04-03, 22:19:48

Der Nachteil an MCM ist, dass man zuerst eine entsprechende Technologie haben muss, wo die Skalierbarkeit gegeben ist und schlussendlich die Vorteile die Nachteile überwiegen. Klar hat MCM Nachteile (höhere Komplexität im Design, Packaging-Kosten, Energieverbrauch des Datentransfers zwischen den Chiplets). Aber AMD würde nicht auf MCM wechseln, wenn MCM schlechter als monolithisch wäre. Das ist die Kernaussage. Zuallererst hat MCM ein wirtschaftliches Ziel. Wirtschaftlichkeit bedeutet dann aber auch, dass man mehr Siliziumfläche verbauen kann. Und mehr Siliziumfläche heisst bei GPUs typischerweise mehr Performance (mehr Shader-Units) und/oder höhere Energieeffizienz (niedrigere Taktraten bei gegebener Performance). MCM führt durch den Chiplet-Chiplet Datenverkehr im ersten Moment zu Effizienzverlust. Wenn man aber +50% mehr Shader-Units verbauen kann und dann die Taktraten etwas senkt, wird man am Schluss schneller und energieeffizienter sein. Bei gleichbleibenden Kosten. Von weiteren Vorteilen wie verbesserten Binning noch gar nicht erst angefangen.

Die Kosten durch MCM steigen nur ganz weit am unteren Rand des Spektrums der Die-Grössen. Zu Zen 2 gibt es Folien, wo selbst ein 16C Epyc mit Chiplets deutlich günstiger ist als ein monolithisches 16C Die. Auch die 8C Desktop-Parts sind mit Chiplets deutlich günstiger als monolithisch.
Edit: https://overclock3d.net/news/cpu_mainboard/amd_highlights_the_cost_advantages_of_zen_2_s_chiplet_architecture_-_incredible_savings/1

Bei GPUs ist ein Kostenvorteil durch die sehr grossen Die Sizes der High End GPUs sehr schnell gegeben. Dazu noch der Vorteil, dass der Infinity Cache in 6nm bleiben kann.

Nvidia wird Gründe haben, dass Lovelace noch monolithisch bleibt. Ist ja nicht per se etwas schlechtes. MCM/Chiplets bietet aber viele Vorteile. Man muss die entsprechende Technologie aber haben. Und hier hat AMD deutlich mehr Erfahrung als Nvidia.

Auch wenn AMD mehr Erfahrung hat, sah man ja an Zen und Zen2 wie viel Leistung durch Multichip verloren geht. erst Zen3 mit nem 8core die hat ja den größeren Performance Sprung gebracht.
Bei Zen 1 lasse ich das Argument noch gelten, aber wo siehst du Leistungsverlust bei Zen 2? Zen 3 skaliert nur besser, weil es ein 8C CCX anstatt ein 4C CCX ist. Mit MCM an sich hat das aber nicht wirklich was zu tun. Zen 2 & 3 haben beide 8C pro CCD und verwenden sogar die selben IOD...

WedgeAntilles

2022-04-04, 10:04:19

Man muss die entsprechende Technologie aber haben. Und hier hat AMD deutlich mehr Erfahrung als Nvidia.

Guter Punkt!

Dural

2022-04-04, 10:34:01

Linmoum

2022-04-04, 10:39:15

Dir sagt Reticle Limit aber schon was? Und das man allein aus dem Grund gar nicht daran vorbeikommt, mehrere Dies zu nutzen, wenn man die Performance langfristig zwangsläufig immer weiter (deutlich) steigern will?

Scheinbar ja nicht. Aber man lernt ja dazu, nech.

Gipsel

2022-04-04, 10:46:28

Bei Zen 1 lasse ich das Argument noch gelten, aber wo siehst du Leistungsverlust bei Zen 2? Zen 3 skaliert nur besser, weil es ein 8C CCX anstatt ein 4C CCX ist. Mit MCM an sich hat das aber nicht wirklich was zu tun. Zen 2 & 3 haben beide 8C pro CCD und verwenden sogar die selben IOD...Ich denke hier wird mit einem hypothetischem monolithischem 16C Zen2 oder Zen3 verglichen. Du hast aber recht, daß das weniger Einfluß hat, als man vielleicht vermuten könnte, weil ja selbst ein monolithischer 16C-Zen3 weiterhin aus zwei 8C-CCX bestehen könnte (wie ein 8C Zen2 zwei 4C CCX auf einem Die hat), was dann am Ende praktisch auf's Gleiche rauskommen würde.
Am Ende ergibt sich der Leitungsverlust durch eventuell gestiegene Latenzen/geringere Bandbreite bei der Kommunikation (was bei AMDs zwischen CCX quasi keine Rolle zu spielen scheint, da die on-Die und off-Die Kommunikation ähnlich schnell zu sein scheint) und indirekt durch den Stromverbrauch für diese off-Die-Kommunikation, die dann vom Powerbudget für die Kerne abgeht.

Troyan

2022-04-04, 10:57:23

Der_Korken

2022-04-04, 10:58:00

AMD macht es, weil sie nichts anderes können :rolleyes:

Sieht man ja auch gut an Zen, die Core für sich sind ja schrott... also packt man möglichst viel und dies möglichst billig auf eine CPU. Resultat: zb. die Meute jubelt wenn eine 16 Core CPU schneller als eine 10 Core ist :freak:

Warum hat Intel denn dann nur 10 Cores gebracht und nicht einfach 16? Warum haben sie als Antwort auf Zen 2 Epyc nicht einfach selber einen 1200mm² großen 64C-Skylake X gebracht? Das Chiplet-Design hat die Produktionskosten locker um die Hälfte gesenkt, mit in den meisten Fällen minimalen Performance-Nachteilen, wie man am Vergleich der Desktop- und APU-Ryzens sieht.

Genau das (versuchen) sie jetzt auch bei den GPUs, möglichst viele und möglichst billige Einheiten auf eine GPU packen.

Dies wird mit RT relativ gut funktionieren, bei Raster habe ich so meine Zweifel. GPUs sind keine CPUs (!!!)

Wenn sie viele billige Einheiten auf die GPU packen können, ist das doch gut. Sie können außerdem Fertigungen mischen. Allein was es an 5nm-Waferspace spart, wenn man den IF weiterhin in 6/7nm fertigen kann, dazu noch den IMC, PHYs und den ganzen De/Encoder-Kram. Und selbst wenn alles in 5nm wäre, würde es immer noch viel sparen, weil die Yields viel besser wären. Große Monolithische Dies sind für mich in Zukunft ein Luxus-Produkt, wo man maximale Performance pro mm² und pro Watt haben will und Geld keine Rolle spielt, also irgendwelche AI/Datacenter-Chips, die für >10000$ das Stück verkauft werden.

Gipsel

2022-04-04, 11:04:46

Cool, wird AMD also 3x 800mm^2 Dies zusammenkleben? :eek:Vielleicht ja auch 4x 300mm² + 4x 150mm² oder auch noch andere Kombis. Ich weiß gar nicht, warum das überraschend sein sollte.

Mangel76

2022-04-04, 11:21:43

Vielleicht ja auch 4x 300mm² + 4x 150mm² oder auch noch andere Kombis. Ich weiß gar nicht, warum das überraschend sein sollte.
Das ist halt für einige so lange überraschend und unpassend, wie NV und Intel es nicht machen. Danach ist es dann der Weisheit letzter Schluss :-)

Dovregubben

2022-04-04, 11:22:13

Cool, wird AMD also 3x 800mm^2 Dies zusammenkleben? :eek:
Wenn sie irgendwann wieder von der Effizienz her mit Apple mithalten wollen sollten sie schon noch größer werden. Die sind mit M1 Ultra schon über die 800mm^2 trotz 5nm.

Akkarin

2022-04-04, 11:22:20

Genau das (versuchen) sie jetzt auch bei den GPUs, möglichst viele und möglichst billige Einheiten auf eine GPU packen.

Dies wird mit RT relativ gut funktionieren, bei Raster habe ich so meine Zweifel. GPUs sind keine CPUs (!!!)

Da hast du Recht, GPUs skalieren deutlich besser mit mehr cores.

Gipsel

2022-04-04, 11:32:01

Das ist halt für einige so lange überraschend und unpassend, wie NV und Intel es nicht machen. Danach ist es dann der Weisheit letzter Schluss :-)Intel hat doch auch schon angekündigt, in Zukunft Chiplets zu benutzen.

Der_Korken

2022-04-04, 11:32:06

Da hast du Recht, GPUs skalieren deutlich besser mit mehr cores.

Das kann man so nicht sagen. GPUs müssen mit allen Cores mehr oder weniger an einer Task rechnen, nämlich ein Frame und das in einem Zeitrahmen von 10ms ohne Hiccups. Ohne silicon-on-silicon-Verbindung gab es bisher keine Möglichkeit die dazu erforderlichen Bandbreiten aufzubringen ohne die Effizienz komplett über Board zu schmeißen.

basix

2022-04-04, 11:36:01

Ich denke hier wird mit einem hypothetischem monolithischem 16C Zen2 oder Zen3 verglichen. Du hast aber recht, daß das weniger Einfluß hat, als man vielleicht vermuten könnte, weil ja selbst ein monolithischer 16C-Zen3 weiterhin aus zwei 8C-CCX bestehen könnte (wie ein 8C Zen2 zwei 4C CCX auf einem Die hat), was dann am Ende praktisch auf's Gleiche rauskommen würde.
Am Ende ergibt sich der Leitungsverlust durch eventuell gestiegene Latenzen/geringere Bandbreite bei der Kommunikation (was bei AMDs zwischen CCX quasi keine Rolle zu spielen scheint, da die on-Die und off-Die Kommunikation ähnlich schnell zu sein scheint) und indirekt durch den Stromverbrauch für diese off-Die-Kommunikation, die dann vom Powerbudget für die Kerne abgeht.

16C in einem Single-CCX wäre für einige Dinge sicher ein Fortschritt. Aber nicht für alle, da dann die L3$ und Core-Core Latenzen steigen würden (im selben Process Node). Und selbst Intel verwendet >12 Cores dann mehrere Ringe oder seit Skylake-X ein Mesh. Beides hat Nachteile in einigen Anwendungen, da entweder Latenz oder Bandbreite zum Flaschenhals werden. Ich finde AMDs IOD + CCD Ansatz ziemlich gut. Den Grossteil der Nachteile erschlägt man mit dem grossen L3$.

16C könnte also ein Vorteil sein, die Umsetzung kann aber auch Nachteile haben. Dass Off-Chip Kommunikation mehr Energie kostet als On-Die ist klar. Neuere Chiplet-Interfaces wie UCIe landen aber selbst ohne Interposer bei 0.5pJ/bit. Mit 2:1 R/W Verhältnis von CCD zu IOD und DDR5 Bandbreiten (100GByte/s bei Dual-Channel) landet man bei 2 Chiplets bei total 2.4Tbit/s zwischen IOD und CCDs. Macht sagenhafte 1.2W. Vernachlässigbar. Bei Zens IOD ist es mMn eher so, dass es schwierig ist, die IFOP-Interfaces und andere Teile des IOD komplett schlafen zu legen. Und es ist immer noch in 12nm. Bei Zen 4 sollen die Anzahl IFOP Channels zu den CCDs verdoppelt werden, was eine Teilabschaltung bei tiefer Last ermöglichen würde. Und 6nm und verbesserte Stromsparmechanismen beim IOD sollten ebenfalls grosse Sprünge bei der Energieeffizienz erlauben.

Jetzt sind wir etwas vom Thema abgekommen. Aber um es wieder in Richtung GPUs zu lenken:
Apples M1 Ultra bietet 2 TByte/s Bisection Bandwidth zwischen den zwei M1 Max Die. Mit den oben genannten 0.5pJ/bit landen wir bei 8W für die Kommunikation zwischen den Chips. Im Falle von Interposer etc. könnte es sogar noch was etwas weniger sein.

Übertragen wir das auf N31. Jedes GCD ist +50% grösser als N21. N21 Infinity Cache bandbreite beträgt 2 TByte/s. Jetzt nehmen wir für ein N31 GCD hier ebenfalls +50% an, damit die Bandbreite mit der Anzahl Einheiten des GCD skaliert. Dazu noch ein 2. GCD und wir landen bei (2TByte/s +50%) * 2 = 6 TByte/s = 48 TBit/s, welche man zwischen Infinity Cache und den GCDs ungefähr haben muss.. Bei 0.5pJ/bit sind das 24W. Bei 0.15pJ/bit (Foveros, +meine Abschätzung für AMDs EFB) sind das noch 7W. Bei 0.05pJ/bit (3D-SoIC Stacking) sind es gerade mal noch 2.4W. Bei 300-400W GPUs sind diese schlussendlich ~2...10W vernachlässigbar.

Wenn Chiplets bei Lovelace noch nicht kommen, hat das für mich eigentlich nur einen Grund: Nvidia ist noch nicht so weit. Selbst im HPC Sektor hat man es noch nicht gezeigt.

Intel hat doch auch schon angekündigt, in Zukunft Chiplets zu benutzen.
Sapphire Rapids, Meteor Lake+ und vermutlich auch Battlemage (dGPU) werden alle Chiplets verwenden. Ponte Vecchio sogar in extremer Form davon.

Momentan ist Nvidia der einzige der drei, der keine Chiplet Designs angekündigt hat. Forschungs-Paper usw. gibt es aber von Nvidia. Ist nur eine Frage der Zeit, bis Nvidia auch mit Chiplets kommt. Ist nur die Frage wann.

WedgeAntilles

2022-04-04, 11:36:14

Da hast du Recht, GPUs skalieren deutlich besser mit mehr cores.

Ist das pauschal so richtig?

Es gab ja auch zeitweise die "Sli-Option" bei Grafikkarten, bei denen man zwei GraKas verbinden konnte.
Der Effekt war - gelinde gesagt - überschaubar.
Meilenweit weg von Verdoppelung.
Was kam dabei effektiv raus? 10%? 20%? Ich kann mich nicht mehr erinnern, aber die Ergebnisse waren ja so schlecht, dass das ganze Thema nie relevant wurde.

In wie fern das jetzt mit MCM auch nur entfernt zu tun hat kann ich nicht sagen, aber ganz so einfach wie du es darstellst scheint es auch nicht zu sein.

WedgeAntilles

2022-04-04, 11:42:35

Wenn Chiplets bei Lovelace noch nicht kommen, hat das für mich eigentlich nur einen Grund: Nvidia ist noch nicht so weit. Selbst im HPC Sektor hat man es noch nicht gezeigt.

Völliges Raten ohne jede Fakten von meiner Seite:
Nvidia kann es aktuell noch nicht, wird aber die nächste Generation (5xxx) im MCM bringen.
Dabei werden sie versuchen so viel wie möglich von AMDs neuen GPUs zu lernen (potentielle Probleme, Lösungen und so weiter).
Da Nvidia aber keinerlei Erfahrung mit hat wird der erste Versuch kein herausragender Erfolg und Nvidia wird bei der 5xxx Generation vs AMDs RDNA4 (oder wie die heißen wird) etwas zurückliegen. Die 5xxx Generation wird unterm Strich enttäuschend für Nvidia ausfallen, da sie da "Lehrgeld" bezahlen.
Bei der 6xxx Generation wird dieser Rückstand dann wieder aufgeholt werden, weil die Erfahrungswerte von Nvidia dann vorliegen.

So jedenfalls deute ich die Teeblätter in meiner Teetasse ;)

basix

2022-04-04, 11:44:39

Troyan

2022-04-04, 11:47:15

Vielleicht ja auch 4x 300mm² + 4x 150mm² oder auch noch andere Kombis. Ich weiß gar nicht, warum das überraschend sein sollte.

Und du glaubst, dass die Leute 600W GPUs kaufen? Woher kommt die Annahme, dass AMD mindesten die doppelte Effizienz von 7nm auf 5nm schafft, um überhaupt solche MCM-GPUs bauen zu können?

Apple hat einen 2,5TB/s schneller Interconnect für M1 Max. Das ist im Bereich von dem, was man benötigt, um vernünftige MCM-Konstrukte zu realisieren. Ein X-bar bei mehr als 2 Chips ist viel zu aufwendig für Consumerprodukte und führt zu massiven Kommunikationsverlusten.

Dazu kommt, dass nVidia anscheinend den L2 Cache von Ampere/Hopper zu Lovelace übernimmt und aufbohrt. Das macht MCM weitaus schwieriger, da der L2 Cache nun mehr als doppelt so schnell ist...

WedgeAntilles

2022-04-04, 11:53:18

@WedgeAntilles:
SLI und Crossfire hatten das Problem, dass dies als 2 GPUs von der Applikation behandelt werden mussten. Bei MCM hast du das Problem nicht, da die Applikation nur 1x GPU sieht.

Bei MCM und den deutlich schnelleren Die-to-Die Interfaces (PCIe 4.0 = 128 GByte/s bidirektional; MCM >1TByte/s) sind zudem weitere Bottlenecks stark reduziert.

Und zum Thema Nvidia und Chiplets:
Wenn Lovelace Next mit Chiplets kommt, sind die schon so weit im Design, dass man von RDNA3 nicht sehr viel abkupfern kann. Nvidias Ingenieuren traue ich schon zu, dass sie das auch ohne AMDs "Hilfe" hinkriegen ;)
Danke für die Erklärungen bzw. Sli/Crossfire!

Mit der "Hilfe" meinte ich auch nicht, dass die das ohne nicht hinbekommen (sonst müsste ja noch mindestens eine weitere Generation ohne MCM kommen.)
Aber dennoch schaut jede Firma immer, was andere Firmen machen - es gibt immer wieder ein paar Ideen / Lösungen die jemand anderes hat, die man selber auch nutzen kann.

Beispielsweise beim Cache könnte ich mir durchaus vorstellen, dass AMDs Vorgehen bei RDNA2 da gezeigt hat: Hey, das lohnt sich wirklich.
Lovelace bringt ja jetzt auch größere Cache-Steigerungen als die ganzen Vorgängergenerationen.
Evt. Zufall, aber vielleicht hat man sich da auch von AMD inspirieren lassen.

Gipsel

2022-04-04, 11:58:28

Und du glaubst, dass die Leute 600W GPUs kaufen?Das fragst Du am besten nV-Kunden. :rolleyes:
Ansonsten sehe ich den Zusammenhang hier nicht so ganz. Im professionellen Bereich kommen Lösungen in der Größenordnung sicher (wenn es sie nicht schon gibt). Auch im Consumberbreich landen wir offenbar da, egal ob per Chiplets oder monolithisch (3900Ti ist ja schon bei ~500W).
Woher kommt die Annahme, dass AMD mindesten die doppelte Effizienz von 7nm auf 5nm schafft, um überhaupt solche MCM-GPUs bauen zu können?Ich verrate Dir mal ein Geheimnis: Die könnten das mit der doppelten Effizienz sogar schon in 7nm machen, wenn sie die Chiplets z.B. nicht bei hypothetischen 2,x GHz sondern nur 1,8GHz laufen lassen würden. :wink:
Dazu kommt, dass nVidia anscheinend den L2 Cache von Ampere/Hopper zu Lovelace übernimmt und aufbohrt. Das macht MCM weitaus schwieriger, da der L2 Cache nun mehr als doppelt so schnell ist...Warum, wenn es auch mengenmäßig mehr wird und der L2 Die-lokal und nicht global verbaut wird? Denn mehr Cache verringert typischerweise die Anforderungen an die off-chip-Kommunikation, die sich damit leichter stemmen läßt. Im Übrigen gibt es ja auch so Dinge wie EMIB oder anderweite Si-basierte Brücken (kann man ja auch oben drauf stapeln statt wie EMIB unten drunter). Das reduziert das Problem ebenfalls, wenn man das Packaging noch etwas besser unter Kontrolle bekommt (scheint ja momentan schon in Reichweite zu sein).

Geldmann3

2022-04-04, 11:58:40

Ist das pauschal so richtig?

Es gab ja auch zeitweise die "Sli-Option" bei Grafikkarten, bei denen man zwei GraKas verbinden konnte.
Der Effekt war - gelinde gesagt - überschaubar.
Meilenweit weg von Verdoppelung.
Was kam dabei effektiv raus? 10%? 20%? Ich kann mich nicht mehr erinnern, aber die Ergebnisse waren ja so schlecht, dass das ganze Thema nie relevant wurde.

In wie fern das jetzt mit MCM auch nur entfernt zu tun hat kann ich nicht sagen, aber ganz so einfach wie du es darstellst scheint es auch nicht zu sein.

Man könnte argumentieren, dass hier das Amdahlsches Gesetz im Spiel ist.
Coreteks hat in einem seiner Videos mal gesagt, dass er nicht glaube, dass wir jemals signifikant mehr als 8000 Shader in einer GPU sehen werden, weil es bei 95%iger Parallelisierbarkeit nahezu keine Performancefortschritte mehr geben würde.

https://i.ibb.co/z7xgz2K/Amdahls-law.png (https://www.youtube.com/watch?v=XW_h4KFr9js)

Wobei ich ihm in den Kommentaren damals schon geschrieben habe, dass ich das für absoluten Unsinn halte, denn es gibt bei CPUs eben Workloads, die extrem viel paralellisierbarer sind, als 75%. Und 3D Grafik durchaus mehr als 95%. Ich würde hier eher mit 99% rechnen.

Das Problem bei SLI war einfach die Bandbreite zwischen den GPUs, die hätte viel höher sein müssen, damit die GPUs zusammenarbeiten können, wie eine. Bei aktuellen GPUs steigt die Performance mit viel mehr Kernen in meinen Augen ebenfalls deshalb nicht signifikanter an, da in den GPU-Architekturen Bottlenecks an anderen Stellen entstehen. Die Infrastruktur der Kerne, wird eben in jeder Generation nur so gebaut, dass sie geradeso ausreicht. Alles andere wäre ineffizient.

basix

2022-04-04, 11:59:51

Apple hat einen 2,5TB/s schneller Interconnect für M1 Max. Das ist im Bereich von dem, was man benötigt, um vernünftige MCM-Konstrukte zu realisieren. Ein X-bar bei mehr als 2 Chips ist viel zu aufwendig für Consumerprodukte und führt zu massiven Kommunikationsverlusten.

Ob es eine X-Bar benötigt? Was ist mit einem Ringbus? Das skaliert bei wenigen Teilnehmern ziemlich gut und die etwas non-uniformen Latenzen sind für GPUs nicht unbedingt ein Beinbruch, geht ja auch bei latenzsensitiveren CPUs auch ganz gut. Und bei max. 4 Teilnehmern wäre eine Punkt-zu-Punkt Verbindung auch noch tragbar. Ähnlich wie es AMD bei Zen 1/2 CCX die Cores miteinander gemacht hat, benötigt man dafür 6 Verbindungen. Ja, das sind +50% Bandbreiten-Overhead, welche man bei 2 -> 4 GCDs bezahlen müsste. Bei z.B. 2.4W für 6 TByte/s (3D-SoIC) und der Annahme, dass die GCDs bei N41 ebenfalls 30WGPs tragen würden und selbe Bandbreiten zwischen den Chiplets haben müssten, käme man auf total 6*6TByte/s (36 TByte/s!) und somit ~15W. Absolut tragbar für 300+W GPUs.

Zudem könnte man kleinere GCDs bauen (Yield, Kosten) und vermutlich 2,3,4 GCD SKUs anbieten, was Economy of Scale Vorteile erlaubt.

Dazu kommt, dass nVidia anscheinend den L2 Cache von Ampere/Hopper zu Lovelace übernimmt und aufbohrt. Das macht MCM weitaus schwieriger, da der L2 Cache nun mehr als doppelt so schnell ist...
Das ist ein guter Punkt. Nämlich die Frage-Stellung, auf welcher Ebene man Chiplets miteinander verbindet. Beim L2-Cache ist es wirklich aufwändiger, da höhere Bandbreiten. Aber Nvidia wird da in Zukunft sicher eine technische Lösung finden, da habe ich keine Angst. Allenfalls halt erst bei Lovelace-Next.

Geldmann3

2022-04-04, 12:02:53

Und du glaubst, dass die Leute 600W GPUs kaufen?
haha, High-End-User, wie ich, schon.

Dovregubben

2022-04-04, 12:25:28

Und du glaubst, dass die Leute 600W GPUs kaufen?
Solange die Leistung passt, habe ich da keinerlei Zweifel. Wer 2000 Euro für eine GPU ausgibt, schaut nicht auf die paar Euro Stromkosten.

Man könnte argumentieren, dass hier das Amdahlsches Gesetz im Spiel ist.
Das wäre eins der schwächsten Argumente ever. Wer auch immer Coretek ist, hat Amdahls Law nicht verstanden.
Sobald Amdahls Law zuschlägt, könnte wir die Auflösung ohne Performanceverlust erhöhen. Davon sind wir offensichtlich noch einige Zeit weg.
Andererseits würde man bei Amdahls Law davon ausgehen, dass die Arbeit pro Pixel/Warp/whatever konstant ist. Wir haben aber auf absehbare Zeit keine Probleme die Rechenleistung pro X beliebig zu erhöhen und erhöhen damit automatisch den Anteil der parallelisierbaren Arbeit.

basix

2022-04-04, 12:41:10

Zudem ist Raytracing eines der am besten zu paralleisierenden Workloads ever. Und Raytracing wird eher mehr als weniger werden.

robbitop

2022-04-04, 12:43:22

haha, High-End-User, wie ich, schon.

Ich glaube ihm ist noch nicht klar, dass MCM mit modernsten Interconnect Technologien und OnChip Cache kaum noch einen Impact an der Leistungsaufnahme und man sogar die Vorteile der Möglichkeiten aus MCM nutzen kann, um Leistungsaufnahme zu reduzieren:

1.)
Mehr Transistoren bei hohem Yield möglich weil man Chiplets kombinieren kann -> uArch kann breiter werden -> Takt kann gesenkt werden -> f ~ P³ -> deutlich besserer Betriebspunkt.

2.)
mehr Cache -> höhere hitrate -> weniger Signalübertragung in den RAM -> weniger Energieverbrauch und mehr effektive Bandbreite

Intel setzt es um, Apple setzt es um und AMD. Einfach weil jetzt die Packagingtechnologie so langsam so weit ist. Nvidia wird es sicherlich auch umsetzen - dann ggf. 1 Generation später.

Und wollen wir wetten - dann ist Chiplets und Packagingtechnologie auf einmal super. X-D

Dovregubben

2022-04-04, 13:03:05

Das Hauptwissen für die Interconnects wird auch bei TSMC und nicht AMD liegen. Wir sind aktuell in einer Übergangsphase, in der beide Varianten noch valide sind. In 1-2 Generationen wird jeder darauf gewechselt haben.

Zudem ist Raytracing eines der am besten zu paralleisierenden Workloads ever. Und Raytracing wird eher mehr als weniger werden.
Geht so. Man kann es nur auf relativ hohen Level sinnvoll parallelisieren. Ich gehe mal davon aus, dass Raysorting in Hardware in den nächsten Generationen ansteht, damit man sinnvoll Ray Bundles generieren kann. Aber der Bedarf an Strahlen ist halt soooo hoch, dass es trotzdem noch viel zu parallelisieren gibt.

Troyan

2022-04-04, 13:22:00

Nur so: Wie genau soll ein Interconnect effizienter als L2 Cache sein? Wie soll es zu keinem Kommunikationsoverhead kommen, wenn Daten zwischen Compute-Units ausgetauscht werden müssen ohne das Spieleentwickler explizit Datenlokalität umsetzen müssen?

Es gibt physikalische Grenzen. Die kann man ignorieren.

Gipsel

2022-04-04, 13:33:08

Nur so: Wie genau soll ein Interconnect effizienter als L2 Cache sein?
[..]
Es gibt physikalische Grenzen. Die kann man [nicht] ignorieren.Du stellst die falschen Fragen und denkst im falschen Bild (Cache und Interconnects können synergistisch zusammenarbeiten und sind nicht exklusiv zueinander).
Mit größeren Caches wird der Kommunikationsoverhead kleiner. Und der Energieaufwand dafür wird mit neueren Interconnects und Packaging-Technologien noch weiter reduziert. Irgendwann überwiegen dann schlicht die Vorteile von Chiplets (Modularität, Fertigbarkeit, Kosten dafür [Yields, Binning] und Skalierbarkeit). Denn ja, monolithischen Dies sind ziemlich harte physische Grenzen (Reticle Limit) auferlegt.

Und Caches funktionieren auch, wenn Entwickler nicht explizit dafür optimieren (den meisten Problemen ist eine gewisse Datenlokalität inhärent, die es mit größeren Caches [oder entsprechenden Optimierungen wie Cacheblocking] zu nutzen gilt). Explizite Optimierung bringt bei einigen Problemen vielleicht mehr (und wenn die Mehrheit der GPUs davon profitiert, werden die Entwickler von alleine anfangen, dafür zu optimieren), ist aber nicht unbedingt nötig.

Troyan

2022-04-04, 14:40:42

L3-Caches limitieren keine Kommunikation zwischen ComputeUnits. Der Kommunikationsaufwand ist exakt identisch, ob eine GPU oder mehrere.

Und es ist absurd davon zu reden, dass Datenlokalität ohne explizite Programmierung auch nur im geringsten effizienzmäßig funktionieren könnte, wenn nVidia mit Hopper das CUDA-Programmiermodell um eine weitere Möglichkeit der Datenlokalität auf Thread-Ebene erweitert hat.

Gipsel

2022-04-04, 14:47:15

L3-Caches limitieren keine Kommunikation zwischen ComputeUnits.Wieviel mus denn eigentlich zwischen verschiedenen CUs/SMs kommuniziert werden? Und müssen Daten wirklich immer zwischen allen davon geteilt werden oder reicht nicht oft ein Subset?
Und es ist absurd davon zu reden, dass Datenlokalität ohne explizite Programmierung auch nur im geringsten effizienzmäßig funktionieren könnteDie meisten Caches funktionieren und helfen, ohne daß jemand dafür explizit programmiert (man kann nur für einige Probleme die Effizienz hochschieben). Die sind ja nicht umsonst transparent für die jeweilige Anwendung (sonst wären es keine Caches). Wäre es anders, wäre ein explizit adressierbarer schneller Speicherbereich die bessere Wahl. Ist es aber oft nicht. ;)

why_me

2022-04-04, 14:48:17

L3-Caches limitieren keine Kommunikation zwischen ComputeUnits. Der Kommunikationsaufwand ist exakt identisch, ob eine GPU oder mehrere.

Kommt drauf an, wo diese L3 Caches liegen :wink:

Aber schreib doch mal ein paar Sätze mehr, warum du glaubst, dass ein Cache nichts bringt?

Troyan

2022-04-04, 14:58:27

Wieviel mus denn eigentlich zwischen verschiedenen CUs/SMs kommuniziert werden? Und müssen Daten wirklich immer zwischen allen davon geteilt werden oder reicht nicht oft ein Subset?.

Oft genug, um eine Crossbar zwischen ComputeUnits und L2 Cache als sinnvoll anzusehen.

Die meisten Caches funktionieren und helfen, ohne daß jemand dafür explizit programmiert (man kann nur für einige Probleme die Effizienz hochschieben). Die sind ja nicht umsonst transparent für die jeweilige Anwendung (sonst wären es keine Caches). Wäre es anders, wäre ein explizit adressierbarer schneller Speicherbereich die bessere Wahl. Ist es aber oft nicht. ;)

Dumm nur, dass es damit nichts zu tun hat. Lies dir nVidias COPA-Design durch. Der L3 Cache ist an den L2 Cache angebunden, der wiederum per Interconnect mit jeder ComputeUnit verbunden ist. Der L3 Cache hat keine Synchronisierungsaufgabe, sondern dient zur Steigerung der "OffChip"-Bandbreite.

w0mbat

2022-04-04, 15:18:17

Abgesehen von dem größeren L2 Cache, geht ihr davon aus, dass sich Ada von der Architektur her stark von Ampere abheben wird, oder bekommen wir quasi "Ampere v2"?

Rampage 2

2022-04-04, 15:32:18

@WedgeAntilles:

Bei MCM und den deutlich schnelleren Die-to-Die Interfaces (PCIe 4.0 = 128 GByte/s bidirektional; MCM >1TByte/s) sind zudem weitere Bottlenecks stark reduziert.

64 GByte/sek. bei PCIe 4.0;) (32 GByte/sek. in jede Richtung)

PCIe 5.0 = 128GB/sec. bidirektional

PCIe 6.0 = 256GB/sec. bidirektional

Abgesehen von dem größeren L2 Cache, geht ihr davon aus, dass sich Ada von der Architektur her stark von Ampere abheben wird, oder bekommen wir quasi "Ampere v2"?

Es sieht eher danach aus, dass LL ein "Maxwell reloaded" bzw. "Kepler done right" wird - also ein "Ampere done right" ;)

R2

aufkrawall

2022-04-04, 15:32:18

"Ampere v2"?
Hielte ich mit den ganzen Vorgängen rund um Upsampling für ziemlich schlecht, die Auslastung bei wenigen Pixeln muss wieder deutlich besser werden.

Platos

2022-04-04, 15:38:08

Wenn man die Energieeffizienz von Hopper anschaut, dann muss ja auch etwas an der Architektur verbessert worden sein. Ansonsten würde diese Effizienzsteigerung nicht stattfinden.

WedgeAntilles

2022-04-04, 15:56:40

Wenn man die Energieeffizienz von Hopper anschaut, dann muss ja auch etwas an der Architektur verbessert worden sein. Ansonsten würde diese Effizienzsteigerung nicht stattfinden.

Da noch mal zur Erinnerung die Hopper-Zahlen:
Performance hat sich verdreifacht. (In manchen Bereichen angeblich versechsfach laut Heise)
Stromverbrauch stieg um 75%. (700W statt 400W)
Das macht eine Erhöhung der Effizienz um ca. 70%. (bei Verdreifachung der Leistung)

Es wird wohl noch eine etwas abgespeckte Variante von Hopper kommen, die weniger Performance hat aber deutlich weniger Strom benötigt.
Bei dieser Karte könnte die Effizienz sogar deutlich stärker gestiegen sein.

Ich will damit nicht sagen, dass das bei Lovelace so sein wird.
Ich kann nicht mal sagen, ob die "Verdreifachung" bei Hopper so generell stimmt.

Ich wollte nur die Zahlen, die man über Hopper berichtet noch mal aufführen, falls die jemand nicht mehr im Kopf hat.

Gipsel

2022-04-04, 16:30:20

Oft genug, um eine Crossbar zwischen ComputeUnits und L2 Cache als sinnvoll anzusehen.Kann man ja behalten, nur eben pro Die (wird einfacher und kleiner [echte Crossbars skalieren vom Aufwand quadratisch zur Anzahl der Clients]).
Dumm nur, dass es damit nichts zu tun hat. Lies dir nVidias COPA-Design durch. Der L3 Cache ist an den L2 Cache angebunden, der wiederum per Interconnect mit jeder ComputeUnit verbunden ist. Der L3 Cache hat keine Synchronisierungsaufgabe, sondern dient zur Steigerung der "OffChip"-Bandbreite.Und das geht nicht, wenn es den pro Die/Chiplet geben würde?
Und warum spricht nV eigentlich im COPA-Paper davon (was ein MCM/Chiplet-Design bespricht), dem Ding 32x so viel Cache zu verpassen? Und warum spricht nV überhaupt von Chiplets, wenn monolithisch nicht sowieso besser wäre? Denke doch mal einen Schritt weiter!
Und übrigens, daß man Caches nicht explizit ansprechen muß, ist völlig allgemein gültig.

PS:
Mit Cache (eventuell auch gestapelt) kann man übrigens auch die off-chip Interfaces entlasten, so daß man potentiell mit weniger offchip-Bandbreite die gleiche Performance erreicht. Und ja, davon spricht nV im COPA-Paper.
Und was schreiben die noch (https://dl.acm.org/doi/10.1145/3484505#Bib0069)?
Multi-chip module (MCM) packaging has been extensively studied and deployed to integrate heterogeneous and homogeneous chips within a package, aiding the scaling of compute and memory bandwidths for a wide variety of legacy GPU and CPU applications. Prior work [8, 9, 55] has focused on developing MCM-GPU architectures to strong scale GPU performance beyond the limitations of a single monolithic die by leveraging on-package and on-board integration technologies. In a follow-on work [71, 81], the authors extend MCM-GPU architectures with advanced caching and HW/SW cache-coherency protocols to overcome NUMA limitations. MCM-3D-NoC [69] tackled the interconnect scalability issues of MCM integration over active interposers. In the CPU space, recent AMD CPU architectures [12, 59] leverage multi-module on-board integration to provide scalable and modular CPU architectures. Finally, Kannan et al. [39] proposed to disaggregate large monolithic CPU designs into smaller chips for cost reduction. In [74], the authors propose and quantify the costs and benefits of using MCMs with fine-grained domain-specific chiplets for DL inference.Also ich vermute mal, wir sehen bald auch die ersten praktischen Versuche zu Chiplet-GPUs von nV.;)

Troyan

2022-04-04, 17:18:49

Das ist der einzig relevant Teil aus dem Dokument:

Moreover, we believe that in the future even non-composable GPU designs will turn to MCM organizations due to looming reticle limitations, effectively introducing similar MCM link overheads into all GPU designs. The main challenge with such modular GPU designs going forward is its growing integration complexity, effectively shifting focus from on-die integration onto advanced assembly, test, and continuous innovation in on-package interconnect and packaging technologies.

Da nVidia 800mm^2 Dies in 4nm (5nm) produzieren kann, ist MCM erst sinnvoll, wenn man weit über das Limit geht. Irgendwelche <300mm^2 Dies zusammenzukleben, ist komplett ineffizient und nicht konkurrenzfähig.

Gipsel

2022-04-04, 17:37:11

Das ist der einzig [ein] relevant[er] Teil aus dem Dokument:

Da nVidia 800mm^2 Dies in 4nm (5nm) produzieren kann, ist MCM erst sinnvoll, wenn man weit über das Limit geht. Irgendwelche <300mm^2 Dies zusammenzukleben, ist komplett ineffizient und nicht konkurrenzfähig.Deine Schlußfolgerung ist falsch. Es kann ökonomisch und leistungstechnisch sinnvoll sein, dies auch schon vorher zu tun, wenn man die bekannten Probleme angeht. Was ist, wenn ~800mm² heute das Limit sind und man kann per Chiplets aber 2000mm² "zusammenkleben"? Oder was ist, wenn vier 250mm² Chiplets in 5nm "zusammengeklebt" mit einem 150mm² 6nm Cache-/Brücken-Die nur 60% der Produktionskosten haben bei allerdings gleicher (oder gar höherer Performance) wie ein 840mm² monolithisches 5nm Die? Bei CPUs sieht man das ja schon heute: Eine Epyc Milan-X CPU besteht z.B. aus 1347mm² Silizium (Milan ~1060mm²) und hat trotzdem laut vielen übereinstimmenden Einschätzungen geringere Produktionskosten als intels monolithische 40C in 640mm² (hat ja schon einen Grund, warum intel mit Sapphire Rapids auch auf Chiplets gehen und damit einem Sprung auf kumuliert ~1600mm² [+ die EMIB-Brücken] Die size machen wird).
Und im übrigen sind die dort beschriebenen COPA-GPUs auch ein Chiplet-Design. Die reden in Deinem Zitat nur davon, daß dann zwingend auch nicht COPA-GPUs MCM werden müssen. Können tun sie das gegebenenfalls schon vorher. ;)

AffenJack

2022-04-04, 19:15:15

Abgesehen von dem größeren L2 Cache, geht ihr davon aus, dass sich Ada von der Architektur her stark von Ampere abheben wird, oder bekommen wir quasi "Ampere v2"?

Seit Pascal hat Nvidia ihren Shadercore jedesmal umgebaut. Es ist daher eher unwahrscheinlich, dass man nicht wieder etwas verändert, um evtl. die rohe FP32 Leistung besser auf die Straße zu bringen. Ich würde insbesondere in Richtung Raytracing was deutliches erwarten, wo Ampere ja größtenteils Turing entsprach.

basix

2022-04-04, 22:34:39

64 GByte/sek. bei PCIe 4.0;) (32 GByte/sek. in jede Richtung)

PCIe 5.0 = 128GB/sec. bidirektional

PCIe 6.0 = 256GB/sec. bidirektional

Stimmt, hast recht. Bin gedanklich irgendwie schon bei PCIe 5.0 gelandet (hatte 16 GByte/s bei PCIe x4 im Kopf) :)

Hielte ich mit den ganzen Vorgängen rund um Upsampling für ziemlich schlecht, die Auslastung bei wenigen Pixeln muss wieder deutlich besser werden.

Wäre zu begrüssen. Oder die Performance so hoch, dass man auf 8K DLSS Performance gehen kann ;)

Ich würde insbesondere in Richtung Raytracing was deutliches erwarten, wo Ampere ja größtenteils Turing entsprach.

Nicht ganz. Ampere hat bezüglich Ray/Triangle Intersection die Performance pro RT-Core verdoppelt. Das schlägt aber nur bei Randbedingungen und sehr hoher RT-Last voll durch. Und RT geht erst seit Ampere parallel zu Graphics & Compute. Nvidia spricht von "overall 2x RT speedup" über TU102 (bei 84 vs. 72 RT Cores), was man aber nicht oft sieht. Im Endeffekt ist eine 3090 mit +20% RT-Cores doch typ. etwa +50...60% schneller bei RT. Relativ zur Grundperformance fällt das aber nicht auf, da Ampere mit dem Aktivieren von RT prozentual ähnlich viel Performance einbüsst wie Turing. Pro RT-Core hat sich aber doch einiges getan.

TheAntitheist

2022-04-05, 07:31:21

Da noch mal zur Erinnerung die Hopper-Zahlen:
Performance hat sich verdreifacht. (In manchen Bereichen angeblich versechsfach laut Heise)
Stromverbrauch stieg um 75%. (700W statt 400W)
Das macht eine Erhöhung der Effizienz um ca. 70%. (bei Verdreifachung der Leistung)

Es wird wohl noch eine etwas abgespeckte Variante von Hopper kommen, die weniger Performance hat aber deutlich weniger Strom benötigt.
Bei dieser Karte könnte die Effizienz sogar deutlich stärker gestiegen sein.

Ich will damit nicht sagen, dass das bei Lovelace so sein wird.
Ich kann nicht mal sagen, ob die "Verdreifachung" bei Hopper so generell stimmt.

Ich wollte nur die Zahlen, die man über Hopper berichtet noch mal aufführen, falls die jemand nicht mehr im Kopf hat.
die "kleinere" Variante von der du sprichst hatte 350 Watt und 20% weniger Leistung (48 TF vs 60) aber war auch nicht der Vollausbau. Daran sieht man ja schon das die 700 Watt "Version" übelst über dem Sweetspot ist.

basix

2022-04-05, 07:43:59

Die 3x Performance von Hopper kommen primär von 2.4x mehr aktiven Recheneinheiten. Nur +20...25% kommen über mehr Takt, damit man die 3x voll macht. Big-Lovelace hat "nur" 1.71x mehr Recheneinheiten verglichen zu GA102.

Und zum Thema Hopper SKUs: +25% Takt (48->60 TFLOPS) bedeuten in der Welt der CMOS-Chips halt 1.95x mehr Leistungsaufnahme. Das passt schon bezüglich 350W und 700W.

Neurosphere

2022-04-05, 08:06:05

Hat Hopper denn real auch 3x mehr Performance? Bei den Tensor Flops ja, aber bei der normalen FP Angaben sieht es weniger beeindruckend aus.

WedgeAntilles

2022-04-05, 09:48:07

die "kleinere" Variante von der du sprichst hatte 350 Watt und 20% weniger Leistung (48 TF vs 60) aber war auch nicht der Vollausbau. Daran sieht man ja schon das die 700 Watt "Version" übelst über dem Sweetspot ist.
Waren die nur -20% denn bestätigt? Ich hatte das als "gerüchteweise" im Kopf. (Und die reinen Zahlen klingen mir zu schön um wahr zu sein, siehe folgende Sätze.)

Falls ja, wäre da der Effizienzgewinn noch mal massiv größer.
Statt 3,0 facher Leistung (in Bezug auf den Vorgänger) hätten wir 2,4 fache Leistung.
Statt 1,75fachem Stromverbrauch (in Bezug auf den Vorgänger) hätten wir 0,875 fachen Stromverbrauch.

Damit hätte sich bei dieser Variante die Effizienzgewinn von über 170%. (erscheint mir zu viel, aber ich habe von diesem Einsatzbereich auch 0 Ahnung.)
Bei der 700W Variante hatten wir ja "nur" einen Effizienzgewinn von 70%.

In beiden Fällen haben wir massive Gewinne in der Effizienzkategorie Leistung pro Watt.

In wie fern man davon etwas auf Lovelace ableiten kann? Keine Ahnung, vielleicht gar nicht. Ich bin da naiv (und auch hier: Wunsch ist Vater des Gedanken) und hoffe einfach, dass wenn es bei Hopper so große Fortschritte gab es auch bei Lovelace einiges an Fortschritt geben wird.

mksn7

2022-04-05, 09:54:59

Die 3x beziehen sich nur auf den rohen FP32/FP64 instruction throughput und setzen sich zusammen aus:

2x: weil jeder scheduler jetzt doppelt soviele execution units hat. Diese 2x hat gaming Ampere schon!

1.5x: durch mehr Takt und mehr SMs.

Um zu wissen wieviel schneller zukünftige gaming chips sind, hat das folgende Relevanz:

- die 2x sind irrelevant, weil gaming Ampere hat diesen Faktor 2x schon. Der rohe FP32/FP64 instruction throughput ist außerdem selten der relevante Limiter.

- Die Taktsteigerung von A100 auf H100 sagt wenig aus, weil A100 mit nur 1.41 GHz nicht hoch taktet, und deswegen H100 für einen gaming chip auch noch einen geringen Takt hat. Deswegen kann man daraus keine Info ziehen wie hoch gaming chips takten können.

- Wieviele SMs NVIDIA in einem gaming chip verbaut kann man aus H100 auch nicht schließen. NVIDIA hat durch 7nm -> N4(?) anscheinend in die Richtung 25% mehr SMs auf einen etwas kleineren Chip bekommen. Die HPC SMs haben dafür mehr L1 cache, mehr tensor core und mehr FP64, aber dafür kein raytracing. Sagt also nicht wirklich was aus wieviel mehr SMs NVIDIA in einem gaming chip verbauen möchte.

TL; DR: Von H100 können wir überhaupt nichts auf die Fähigkeiten über die performance von einem zukünftigen gaming chip schließen.

WedgeAntilles

2022-04-05, 09:57:45

TL; DR: Von H100 können wir überhaupt nichts auf die Fähigkeiten über die performance von einem zukünftigen gaming chip schließen.
:(
Und der Morgen hatte so schön angefangen :(

TheAntitheist

2022-04-05, 12:49:47

Waren die nur -20% denn bestätigt? Ich hatte das als "gerüchteweise" im Kopf. (Und die reinen Zahlen klingen mir zu schön um wahr zu sein, siehe folgende Sätze.)

Falls ja, wäre da der Effizienzgewinn noch mal massiv größer.
Statt 3,0 facher Leistung (in Bezug auf den Vorgänger) hätten wir 2,4 fache Leistung.
Statt 1,75fachem Stromverbrauch (in Bezug auf den Vorgänger) hätten wir 0,875 fachen Stromverbrauch.

Damit hätte sich bei dieser Variante die Effizienzgewinn von über 170%. (erscheint mir zu viel, aber ich habe von diesem Einsatzbereich auch 0 Ahnung.)
Bei der 700W Variante hatten wir ja "nur" einen Effizienzgewinn von 70%.

In beiden Fällen haben wir massive Gewinne in der Effizienzkategorie Leistung pro Watt.

In wie fern man davon etwas auf Lovelace ableiten kann? Keine Ahnung, vielleicht gar nicht. Ich bin da naiv (und auch hier: Wunsch ist Vater des Gedanken) und hoffe einfach, dass wenn es bei Hopper so große Fortschritte gab es auch bei Lovelace einiges an Fortschritt geben wird.
https://www.heise.de/news/Nvidia-Hopper-Naechste-GPU-Generation-mit-80-GByte-HBM3-Speicher-und-3-TByte-s-6598382.html ist wohl bestätigt das es 80% der Leistung sind. Vllt noch -10% durch die Beschneidung bei manchen Teilen. aber für eine 350Watt GPU ist das schon extrem. Aber wie schon andere sagten, man kann keine Performance Prognosen geben, aber man kann schon sehen das es nicht Zwangsweise ein Stromschlucker werden muss. Der Takt ging hoch und Verbrauch runter, ergo bringt die Fertigung schon einiges.

Troyan

2022-04-05, 12:52:01

Laut nVidia liefert die 350W Variante 65% der Leistung der 700W Version. A100 mit 80GB und 300W liefert ~90% der Leistung der 400W Karte.

Man kommt also auf ca. 1,90x mehr Effzienz für Hopper gegenüber Ampere, für 5nm gegen 7nm.

basix

2022-04-05, 13:06:47

Was bei 350W -> 700W wegfällt:
- -20% Peak-Takt --> 1.95x (U^2*f). Was real anliegt ist dann nochmal was anderes
- NVLink von 900 GB/s -> 600 GB/s
- Speicherbandbreite 3 TB/s --> 2 TB/s

TL; DR: Von H100 können wir überhaupt nichts auf die Fähigkeiten über die performance von einem zukünftigen gaming chip schließen.

Was wir "wissen":
- 144 vs. 84 SM --> 1.71x
- Bei Taktraten könnte man einen ähnlichen Taktsprung wie bei A100 -> H100 annehmen --> 1.2...1.3x --> 2.2...2.5 GHz für AD102

Unsicherheit beim Taktsprung ist der Prozess (und dessen Energieffizienz): Samsung 8nm -> TSMC N4/5 vs. TSMC N7 vs. N4. Hier hätte ich aber behauptet, dass das hinsichtlich Prozess eher vorteilhafter für den Gaming Chip aussieht.

Im Endeffekt ist eine Hausnummer von ~2.0x Performance zwischen AD102 und GA102 wohl nicht ganz verkehrt. Ausgehend davon, dass die IPC pro SM ungefähr dem von Ampere entspricht. 3.0x könnte es nur werden, wenn man pro TFLOP wieder auf ~Turing IPC käme.

Die kolportierten 450W, 550W, 800W Settings sind meiner Meinung nach eines: Man wählt das passende Setting als Reaktion auf N31 aus. Allenfalls auch als 4090 Ti oder Titan. 450W --> 800W sind ca. 350W --> 700W für den Chip (Annahme: VRAM und VRM-Verluste = ~100W). Skaliert der Chip entsprechend taktmässig nach oben, macht das ca. 1.20...1.25x Takt aus. Ausgehend von den 2.2...2.5 GHz von oben wären das 2.65...3.0 GHz Takt. Und wieso sind die +20...25% Takt hier besonders interessant? 2.0x (GA102 -> AD102) * 1.2...1.25 = 2.4...2.5x --> RTX 3090 ist ca. 1.1x so schnell wie eine 6900XT @ 4K und N31 wird mit ~2.5...2.7x Performance von N21 angegeben. 1.1*2.4...2.5 = 2.6...2.8x 6900XT --> AD102 wäre knapp schneller als N31 ;)

Diese Rechnungen haben natürlich eine dünne Beweislage. Das sind einfach die Werte aus der Gerüchteküche.

Laut nVidia liefert die 350W Variante 65% der Leistung der 700W Version. A100 mit 80GB und 300W liefert ~90% der Leistung der 400W Karte.
Wie kommst du auf die 65% oder wo hat das Nvidia gesagt? Die Rohleistungsangaben sind so, dass die 350W Version noch 80% der Peak-Rohleistung liefert.

Troyan

2022-04-05, 13:13:07

Aus dem Whitepaper:

On a basket of 10 top data analytics, AI and HPC applications, a single H100 PCIe GPU efficiently provides 65% delivered performance of the H100 SXM5 GPU while consuming 50% of the power.

basix

2022-04-05, 13:15:40

OK, danke :up:

Somit ist der real anliegende Takt niedriger beim PCIe Modell und/oder die Speicherbandbreite zum VRAM limitiert (0.67x bei PCIe vs. SXM)

iamthebear

2022-04-05, 23:55:31

Die ganzen Rechnungen hinken sowieso alle, da wir weder die reale Performance von Hopper kennen noch genaue Daten zu Samsung 8nm vs. TSMC 7nm haben. Abgesehen davon handelt es sich hier um 4 komplett unterschiedliche Architekturen und die Vergleichkarten sind auch alle verschieden hoch getaktet.

Ich habe einmal die offiziellen Angaben von TSMC und Samsung zusammen gesammelt und das ganze hochgerechnet. Angaben in Performance/Watt bei GLEICHER Taktrate. Bei TSMC normiert auf N7 = 100, bei Samsung 7LPP = 100

TSMC:
16FF+: 45%
N7: 100%
N7P: 111%
N5: 143%
N5P: 159%
N4P: 183%

Samsung:
10LPE: 50%
10LPP: 59%
8LPP: 66%
7LPP: 100%

Falls man Samsungs 7LPP ca. mit N7 von TSMC gleichsetzen kann, so würde das grob bedeuten:

Ampere vs. Turing: +46% Performance/Watt: Hhm das könnte schon sehr grob hinkommen. Mehr ist es denke ich nicht.

Lovelace (falls mit N4P vergleichbar) vs. Ampere: Das wären 2.8X. Das hört sich jetzt nach sehr viel an allerdings will Nvidia ja auch die Taktraten extrem pushen. Die reine ASIC Power der 3090 Ti ist von ca. 230W auf 350W gestiegen (+50% für 5-10% mehr Takt). Da kann man sich schon ausrechnen was dann wohl bei 20% mehr Takt und 70% mehr SM passieren wird...

OgrEGT

2022-04-06, 05:26:24

OgrEGT

2022-04-06, 07:09:58

Igor hat die potentielle Leistungsaufnahme von AD102 berechnet... 450W nur für die GPU bei 600W Gesamt...

https://youtu.be/OAYjf9NModE

Zusammenfassung:
https://www.computerbase.de/2022-04/geforce-rtx-4090-450-watt-allein-fuer-nvidias-ad102-gpu-sind-realistisch/

ChaosTM

2022-04-06, 07:24:37

OgrEGT

2022-04-06, 07:43:54

Die "Generalprobe" 90ti hat so was ja schon erahnen lassen.
Muss man nicht kaufen bzw. mit der Strommenge betreiben. Ich gehe sicher nicht über 300 Gesamtverbrauch bei der nächsten Gen. Die 4070er wird das schon hinkriegen oder das potentiell sogar stärkere AMD Pendant. Denen fehl halt noch ein gscheites "DLSS".
Ob Nv und die Boardpartner an das elektrische Limit des Steckers gehen muss man mal abwarten... ich hoffe nicht... sonst sieht es ootb mit vernünftiger Luftkühlung mMn schlecht aus... die andere Sache ist wieviel Mindestleistungsaufnahme benötigt wird... siehe auch den 3090 Fred und Geldmann3s Tests...

TheAntitheist

2022-04-06, 08:09:54

ganz ehrlich, meine 3090 läuft hier mit 280 Watt und geht immernoch auf 1950MHz, also wird man da auch ordentlich optimieren können.

OgrEGT

2022-04-06, 08:13:30

ganz ehrlich, meine 3090 läuft hier mit 280 Watt und geht immernoch auf 1950MHz, also wird man da auch ordentlich optimieren können.
Ich kann mir das auch nur schwer vorstellen dass AD so ootb betrieben wird... ggf nur die absolute Enthusiasten Titan SKU mit ootb Wakü...

Thunder99

2022-04-06, 09:21:48

Die Optimierung hat auch Grenzen. Man kann bei Nvidia nicht aus einer 450W Karte eine 200W machen ohne massive Einschränkungen. Wenn das doch gehen soll, dann vergisst diesen Beitrag :D.

Wird spannend wie die Karten betrieben werden von Werk aus. Eine 70er SKU mit 300W+ ist aus meiner Sicht einfach krank. Pascal damals hatte 150W :wink:

Platos

2022-04-06, 13:27:05

Warum sollte das nicht gehen? Niedriger takten und gut ist.

Edit: Dazu einfach mal Geldmanns Test mit der 3090 lesen im 3090 Review-Thread.

vinacis_vivids

2022-04-06, 13:41:04

Die Ampere uArch verliert zuviel Leistung bei niedrigen Takt. Nvidia muss einfach die Brechstange mit 475W rausholen um vorne zu bleiben.
Mit 628mm^2 auch nicht unbedingt der Top-Dog. Nvidia brachte mit Volta 815mm^2 auf dem Markt. Ampere ist in vielerlei Hinsicht nur Mittelmaß bis schwach.
Mittelmäßige Chipgröße, mittelmäßige Fertigung und schlechter Verbrauch sowie überteuertes Board und überflüssiger Kühler.

Neurosphere

2022-04-06, 14:24:33

Platos

2022-04-06, 15:40:30

V_V sollte man generell einfach ignorieren. Nicht weiter beachten.

Wie gut Ampere mit niedrigen Wattage klar kommt, kann man 1A wunderbar aus Geldmanns Test ablesen. Aus Effizienzgründen wäre sogar 240-250W ideal. Alles darüber verliert an Effizienz. Also man kann Chips locker mit deutlich weniger betreiben.

iamthebear

2022-04-06, 19:05:39

Die 3090 kommt relativ gut mit etwas niedrigeren TDP Limits klar. Es gibt nur 2 Einschränkungen:
.) Anscheinend hat sie ca. 100-120W taktunabhängigen Grundverbrauch.
.) Die Spannungskurve geht nur bis ca. 0.7V. Darunter wird die Spannung nicht mehr weiter gesenkt und es gibt einen ziemlich harten Knick ab dem der Takt relativ schnell abfällt (siehe Geldmanns Test)

Bei der 3090 Ti scheint dies jedoch anders zu sein:
.) Der Grundverbrauch ist ca. 20W niedriger. Das liegt daran, dass nun 12x2GB VRAM verbaut sind statt 24x1GB.
.) Die Spannungskurve scheint jedoch schon bei ca. 0.9V am Ende zu sein. Dies führt dazu, dass der harte Knick schon ab ca. 350W einsetzt. Die 3090 Ti mit 300W zu betreiben macht relativ wenig Sinn. Da ist eine gewöhnliche 3090 schneller.
Siehe: https://www.hardwareluxx.de/index.php/artikel/hardware/grafikkarten/58382-mehr-leistung-saufnahme-geht-aktuell-kaum-inno3d-geforce-rtx-3090-ti-im-test.html?start=23

Es ist jedoch gut möglich, dass sich das Ganze mit manuellem undervolten + untertakten lösen lässt.

Platos

2022-04-06, 20:20:08

Interessant, aber natürlich ist mit Untervolten quasi jedes Setting erreichbar. Natürlich gehts ohne die Spannung zu verändern nicht beliebig weit nach unten.

Thunder99

2022-04-08, 20:49:39

Mit welchem Aufwand und dann noch ständig ein Hintergrundprogramm laufen lassen? Das ist nichts für jeden sondern was für die Freaks :wink:
Out of the Box sollte es angemessen sein.

BlacKi

2022-04-08, 21:36:20

ganz ehrlich, meine 3090 läuft hier mit 280 Watt und geht immernoch auf 1950MHz, also wird man da auch ordentlich optimieren können.

je nach spiel halt. meine 3090 lief in manchen spielen mit 0,8v nichtmal mit 1800mhz unter 350w.

Platos

2022-04-08, 23:00:55

Mit welchem Aufwand und dann noch ständig ein Hintergrundprogramm laufen lassen? Das ist nichts für jeden sondern was für die Freaks :wink:
Out of the Box sollte es angemessen sein.

Darum gings doch nie. Es ging ja nur darum, ob es technisch möglich wäre.

HOT

2022-04-09, 14:09:32

Dovregubben

2022-04-09, 14:23:58

Tapeout ist gemacht, endlich. Danach dauert es stets ca.9 Monate bis zum Release, weil die ja immer den letzten Respin melden.
Ampere Tapeout wurde Mitte Mai gemeldet. Nun sind wir 6 Wochen vorher dran und es soll trotzdem viel später werden?

AffenJack

2022-04-09, 14:29:50

Tapeout ist gemacht, endlich. Danach dauert es stets ca.9 Monate bis zum Release, weil die ja immer den letzten Respin melden. Bei AMD ist das anders, da hatte N3x aber auch schon letztes Jahr Tapeout.
https://www.3dcenter.org/news/news-des-8-april-2022
Also ich würd nach der Tape Out-Meldung nicht mehr dieses Jahr mit Ada rechnen. Die brauchen die üblichen 9 Monate sicherlich, also frühestens CES.
Bin mal gespannt, wie sich der finale Chip ggü. den Simlationen verhält. Alle bisherigen Meldungen basieren ja auf Simlationen.

Nur wenn etwas schiefgeht. Bei Nvidia war es vom Zurückbekommen des Chips zuletzt eher: 2 Monate Validierung, 3 Monate Massenproduktion, 1 Monat Shipping, also 6 Monate bis der Chip verfügbar ist. Wenn man mit die ersten Mengen mit dem Flugzeug verschickt ist also Ende September in Kleinmengen wieder möglich, wie bei Ampere.

=Floi=

2022-04-09, 14:32:40

Durch die gleichen platinen kann man sicherlich ordentlich zeit sparen und braucht auch weniger resourcen binden. Sobald der neue chip verfügbar ist, wird man zeitnah die neuen karten auflegen können.

basix

2022-04-09, 14:57:20

AD10x in 4nm? Wer wettet dagegen? :D

TheAntitheist

2022-04-09, 15:31:54

je nach spiel halt. meine 3090 lief in manchen spielen mit 0,8v nichtmal mit 1800mhz unter 350w.
Ja natürlich, aber im Durchschnitt komm ich da immer noch hin. Aber das gilt natürlich für jegliche Hardware, Hersteller unabhängig.

HOT

2022-04-09, 15:36:57

Ampere Tapeout wurde Mitte Mai gemeldet. Nun sind wir 6 Wochen vorher dran und es soll trotzdem viel später werden?
Nope, Mitte Mai war GA106. Tapeout GA102 war März, GA104 April IIRC. AD102 ist ja noch nicht, das soll noch im April erfolgen. Könnte vielleicht knapp noch dieses Jahr klappen. Man kann es ziemlich gut auf vor bis nach Weihnachten eingrenzen jedenfalls.
https://www.3dcenter.org/news/geruechtekueche-nvidias-ga102-chip-mit-tape-out-unter-der-8nm-fertigung-von-samsung

basix

2022-04-09, 16:15:20

Oktober/November Release scheint nicht unrealistisch. Vielleicht gewinnen sie mit dem vorgezogenen PCB-Prototyping und entsprechender Testplatformen (3090Ti --> AD102 = Pinkompatibel mit GA102) etwas Zeit und es könnte bereits für September/Oktober klappen.

HOT

2022-04-09, 17:05:07

Nope, hat Igor schon durchblicken lassen, Pinkompatibilität spielt hierfür keine Rolle. Gibt neue Platinen. AD102 Tapeout war Anfang März, Produkt war Anfang November verfügbar, jetzt ist Tapeout Mitte bis Ende April, Produkt wird dementsprechend sicherlich später verfügbar. Wenn man auf Nummer Sicher gehen will mit seiner Erwartung ist CES der früheste Termin.

basix

2022-04-09, 17:30:02

Pinkompatibilität erstreckt sich nicht nur auf finale Produkte, sondern auch auf Engineering Werkzeuge und Testeinrichtungen.

BlacKi

2022-04-09, 17:46:48

Nope, Mitte Mai war GA106. Tapeout GA102 war März, GA104 April IIRC. AD102 ist ja noch nicht, das soll noch im April erfolgen. Könnte vielleicht knapp noch dieses Jahr klappen. Man kann es ziemlich gut auf vor bis nach Weihnachten eingrenzen jedenfalls.
https://www.3dcenter.org/news/geruechtekueche-nvidias-ga102-chip-mit-tape-out-unter-der-8nm-fertigung-von-samsunghabs mal gebookmarked^^

iamthebear

2022-04-09, 21:08:17

Die Zeit zwischen Tapeout und Release wird auch stark davon abhängen wie sehr die Architektur verändert wurde. Bei Lovelace soll ja nicht viel Neues dabei sein während RDNA3 ja 2 neue Architekturen sind (einmal 6nm für Navi33 und einmal 5nm MCM für Navi31/32). Da gibt es generell mehr zu testen.

WedgeAntilles

2022-04-09, 23:07:19

Nur noch mal zur Erinnerung.
Hopper kam in TSMC 4N raus, das wusste keiner vorher.
Aus den 1000W wurden 700W.

Vor einem Jahr galt es als fast sicher, dass AMD früher dran sein wird - jetzt heißt es, Nvidia sei früher dran.

Hier jetzt so zu tun, als ob man aus deren Informationen fast schon auf die Woche genau vorhersagen könnte wann Lovelace gelauncht wird ist doch abenteuerlich.

Natürlich kann das Anfang 2023 sein.
Es kann auch Dezember sein.
Oder Oktober.

Die verkünden nicht das Evangelium, deren Vorhersagen sind mehr oder weniger gute Glaskugel-Schätzungen, die teils nicht viel mehr als Raterei sind.
Wobei, wenn ich es mir jetzt überlege ist es in der Bibel eigentlich genau das gleiche...

basix

2022-04-10, 12:38:25

Zum Gerücht, dass Ada was von Hopper abgekriegt haben könnte: Verbessertes Asynchronous Compute? Da gibt es mehrere Themen, siehe H100 Whitepaper (https://www.nvidia.com/de-de/data-center/h100/):
- Thread Block Clusters? +Distributed Shared Memory?
- TMA (Tensor Memory Accelerator)?
- Verbesserungen an den Asynchronous Transaction Barriers?

Eine weitere Möglichkeit wäre DPX - Für "Accelerated Dynamic Programming":
- Siehe: https://de.wikipedia.org/wiki/Dynamische_Programmierung und https://www.educative.io/courses/grokking-dynamic-programming-patterns-for-coding-interviews/m2G1pAq0OO0

Ausserdem aus den B3D-Forum:
https://forum.beyond3d.com/threads/nvidia-ada-speculation-rumours-and-discussion.62474/page-23#post-2249021
"compressed BVH pipeline that fits in L2 cache + new hyperfast intersection algo"
Da der L2$ ja sehr gross werden soll, wäre das nichtmals so abwegig.

Edit:
Interessantes RT-BVH Patent von Nvidia: https://www.freepatentsonline.com/11295508.html
A bounding volume is used to approximate the space an object occupies. If a more precise understanding beyond an approximation is required, the object itself is then inspected to determine what space it occupies. Often, a simple volume (such as an axis-aligned box) is used as bounding volume to approximate the space occupied by an object. But objects can be arbitrary, complicated shapes. So a simple volume often does not fit the object very well. That causes a lot of space that is not occupied by the object to be included in the approximation of the space being occupied by the object. Hardware-based techniques are disclosed herein, for example, for efficiently using multiple bounding volumes (such as axis-aligned bounding boxes) to represent, in effect, an arbitrarily shaped bounding volume to better fit the object, and for using such arbitrary bounding volumes to improve performance in applications such as ray tracing.
Grundsätzlich geht es darum, dass man die BVH-Boxes für die Ray-Triange Intersection Hit-Bestimmung dynamisch der Form des Objekts anpasst (mehrere Quader) und nicht einfach ein einzelnes Quader für die Abbildung im BVH verwendet. Damit werden False Positives bei der Hit Intersection vermieden, welche zusätzliche und unnötige Arbeit generieren. Die ist vor allem bei unregelmässigen und dünnen Geometrien der Fall. Sowas kommt in Spielen ja oft vor, Pflanzen und Haare sind so ein Beispiel. Im Endeffekt ist das eine Art Technik, welche den "RT Ray-Intersection Overdraw" reduzieren soll.

iamthebear

2022-04-10, 14:44:50

Nur noch mal zur Erinnerung.
Hopper kam in TSMC 4N raus, das wusste keiner vorher.

Soviel ich weiß war immer von TSMC 5nm die Rede. Ob nun N5, N5P, N4P oder eben wie hier ein custom Prozess, der 4N genannt wird wurde doch nie gesagt.

Aus den 1000W wurden 700W.
Waren die 1000W nicht für die MCM Variante mit 2 Dies?

Vor einem Jahr galt es als fast sicher, dass AMD früher dran sein wird - jetzt heißt es, Nvidia sei früher dran.

AMD war eben am Anfang schon in einem späteren Entwicklungsstadium und war beim Tape Out auch früher dran.
Aber bei Nvidia läuft der Ganze Entwicklungsprozess deutlich schneller ab. Das liegt zum Teil daran, dass weniger gravierende Änderungen an der Architektur erfolgen und dass Nvidia hier einfach etwas mehr Manpower hat.

Hier jetzt so zu tun, als ob man aus deren Informationen fast schon auf die Woche genau vorhersagen könnte wann Lovelace gelauncht wird ist doch abenteuerlich.

Natürlich kann das Anfang 2023 sein.
Es kann auch Dezember sein.
Oder Oktober.

Also soviel ich weiß lautet der Aktuelle Plan September 2022. Klar kann es Verzögerungen geben aber derzeit sehe ich hierfür keine Indizien.

Die verkünden nicht das Evangelium, deren Vorhersagen sind mehr oder weniger gute Glaskugel-Schätzungen, die teils nicht viel mehr als Raterei sind.
Wobei, wenn ich es mir jetzt überlege ist es in der Bibel eigentlich genau das gleiche...

Aus den theologischen Themen halte ich mich raus aber ich denke kopite und greymon haben schon genug Leaks gebracht um zu wissen, dass das kein Fake ist. Natürlich können diese nur von aktuellen Plänen sprechen, die sich jederzeit ändern können und manchmal haben diese auch nicht alle Informationen und es wird dann gerne einmal etwas rein interpretiert bzw. durcheinander gemischt.

AD102 is NOT a simple "GA112". When GH202 is cancelled, AD102 has integrated Hopper's new technology.
Never underrate your Jensen.

Also ich verstehe das eher so, dass Lovelace einige der Features bekommt, die ursprünglich für GH202 geplant waren (also die Gaming Variante der auf GH100 folgenden Generation). Das müssen nicht zwingend Features sein, die in GH100 vorhanden sind.

Ich glaube, dass da etwas Größeres im Busch ist und nicht nur ein paar kleinere Features:
.) Ich denke nicht, dass kopite extra einen Tweet macht für kleinere Features mit < 10% Performance
.) Die Umfrage zur Transistoranzahl weist für mich darauf hin, dass es etwas mehr wird als nur die 12 statt 7 GPCs + mehr Cache
.) Die 144 Shader + Cache in Kombination mit der Transistordichte von Hopper würde ohne weitere Änderungen lediglich 500-550mm² ergeben. Das passt irgendwie nicht zu der Theorie, dass Lovelace ein riesiges monolithisches Monster mit 600W ist. Ich denke da fehlt uns noch irgendetwas in der Größenordung von ca. 30%.

BlacKi

2022-04-10, 15:27:11

Also ich verstehe das eher so, dass Lovelace einige der Features bekommt, die ursprünglich für GH202 geplant waren (also die Gaming Variante der auf GH100 folgenden Generation). Das müssen nicht zwingend Features sein, die in GH100 vorhanden sind.

Ich glaube, dass da etwas Größeres im Busch ist und nicht nur ein paar kleinere Features:
.) Ich denke nicht, dass kopite extra einen Tweet macht für kleinere Features mit < 10% Performance
.) Die Umfrage zur Transistoranzahl weist für mich darauf hin, dass es etwas mehr wird als nur die 12 statt 7 GPCs + mehr Cache
.) Die 144 Shader + Cache in Kombination mit der Transistordichte von Hopper würde ohne weitere Änderungen lediglich 500-550mm² ergeben. Das passt irgendwie nicht zu der Theorie, dass Lovelace ein riesiges monolithisches Monster mit 600W ist. Ich denke da fehlt uns noch irgendetwas in der Größenordung von ca. 30%.

das war doch alles nur darauf bezogen, das man hardware numbers (#xtors) nicht vergleichen kann, weil man R&D verbesserungen von gh202 übernehmen wird. mehr nicht.

mksn7

2022-04-10, 18:29:41

Rampage 2

2022-04-10, 18:30:48

Mandalore

2022-04-11, 06:11:44

Platos

2022-04-11, 11:28:10

Ihr wisst schon, dass diese Zahlen sich immer nur auf das Spitzenmodell bezieht und a) in keinster Weise auf die anderen und b) schon gar nicht auf das P/L oder ?

2-Fache Leistung bei gleichem Preis wirds vlt. bei überteuerten 1000$+ Grafikkarten geben. Aber es wird keine doppelte 3070 Leistung für 500$ geben.

davidzo

2022-04-11, 12:32:42

Vor einem Jahr galt es als fast sicher, dass AMD früher dran sein wird - jetzt heißt es, Nvidia sei früher dran.

Kann man so interpretieren, aber in Wirklichkeit hatten wir nur:
1. Codenamen-Leaks aus dem OSX / Linux-treiber für Navi 31, 32 und 33
2. Eine Roadmap von AMD die RDNA3 in 2022 ankündigt
3. Nur loose Gerüchte über Hopper und Lovelace, nichts handfestes wie bei AMD. In der Roadmap stand nur "Ampere-next".

Die Interpretation dass RDNA3 früher dran wäre nur daraus abzuleiten dass es mehr Informationen dazu gab ist nicht schlüssig. Genauso wie es eine fehlerhafte Annahme war dass Navi31 sein tapeout schon in 2020 hatte, also als die ersten Treibereinträge geleakt wurden.

Nvidia hat vielleicht einfach nur besser dichtgehalten.
Eigentlich wäre es naheliegender wenn Nvidia schneller dran ist:
1. Evolutionäres Design: Die großen Architekturveränderungen hat man bereits mit Ampere gemacht.
2. Single-Chip ohne advanced Packaging: Timing der Einzelchips muss nicht abgepasst werden, spart Development und Validierung für ein Neuartiges Packaging. Nicht abhängig von TSMCs im Bau befindlichen packaging Plants.
3. Geringerer Sprung von Ampere: Muss eigentlich früher kommen und den Markt noch mitnehmen bevor RDNA3 den größeren Sprung bieten soll.

Andererseits ist es lange noch nicht klar dass Ampere früher kommt. Wenn der Tapeout von AD102 gerade erst erfolgt ist ist das extrem mit der heißen Nadel gestrickt. Zeit für Respins ist da nicht mehr vorgesehen wenn man noch in Q3 launchen will.
Imo könnte das ein Zeichen für 3. sein, also dass man AMD den Wind aus den Segeln nehmen will indem man früher mit einem grob gleichwertigen Angebot launchen will und damit einen wichtigen Teil des Highendmarkts schon bedient.

Das wäre ähnlich gerusht wie der RTX3000 Launch bei dem man nicht annähernd genug Stückzahlen hatte und sich mit dem Preis deutlich nach unten verschätzt hatte.
Ich denke Nvidia hatte beim RTX3000 Launch ein wenig zu viel Respekt vor AMDs "Nvidia Killer" Gerücht. Die Geschichte könnte sich wiederholen.

Trotzdem ist RDNA3 nach wie vor für 2022 angekündigt, Lisa hat das in Q1 nochmal bestätigt, zusammen mit Zen4.
Der Launch-Zeitraum könnte also auch gleich sein oder sogar mit AMD früher dran.

TheAntitheist

2022-04-11, 12:38:51

Rein von Generation zu Generation mit ggf. Vergleich zur Konkurrenz:

Was war der größte Sprung bisher?

Müsste doch der G80 von 2006 sein, oder? Ich kenne nicht mehr die genauen Zahlen, aber war dieser nicht bei bis zu ca. 2.0 x dem G71 (7900GTX)?

Mit den spekulierten Zahlen zu Ada, müsste das doch der krasseste Sprung ever sein, oder nicht? ��
kommt immer drauf an was man vergleicht, G80 hat ja keine neue Technologie gebracht. Wenn wir den Sprung bei RT Spielen nehmen würden, wäre Turing der mit Abstand größte. Dazu noch DLSS/Tensor Kerne ergibt bestimmt die 12x Leistung in Spielen mit RT.

WedgeAntilles

2022-04-11, 12:53:16

Alles richtig - meine eigentliche Aussage war ja nur:
Wir können auf Basis der Leaker einfach nicht auf die Woche vorhersagen, wann was launcht.

Hier gab es ja ein paar Postings vorher die Rechnung, ob es jetzt Anfang 2023 wird oder doch noch Weihnachten.

Und das meinte ich eben - wir können nichts auf eine Woche genau prognostizieren.
Es kann Oktober sein, es kann Weihnachten sein, es kann Januar sein, das ist alles möglich.

Generell legen wir IMO zu viel auf die Goldwage.
X ist vorne, da die Performanceprognose +110% ist, während es bei Y nur +100% ist.

Als ob wir jetzt schon genau sagen können, ob das jetzt 10% mehr oder weniger bei A oder B sein werden.

Wir können da vielleicht mitnehmen, dass der Leistungssprung eher bei +100% liegt als nur bei +40%.
Aber ob das jetzt +100%, +110% oder +80% werden?

Was wir erfahren sind IMO eher grobe Richtlinien als absolut feste Daten, bei denen wir wochengenaue oder auf den Prozentpunkt genaue Vorhersagen machen können.
Und meine Beispiele bezogen sich eben auf Dinge, bei denen es doch das eine oder andere geänderte hatte im Vergleich zu ursprünglichen Aussagen.

Troyan

2022-04-11, 13:32:31

kommt immer drauf an was man vergleicht, G80 hat ja keine neue Technologie gebracht. Wenn wir den Sprung bei RT Spielen nehmen würden, wäre Turing der mit Abstand größte. Dazu noch DLSS/Tensor Kerne ergibt bestimmt die 12x Leistung in Spielen mit RT.

G80 war die erste (Desktop) DX10 GPU, hatte ein Unified Shader Model und hat GPU-Compute salonfähig gemacht. Das ist auf dem Niveau von Turing.

Ihr wisst schon, dass diese Zahlen sich immer nur auf das Spitzenmodell bezieht und a) in keinster Weise auf die anderen und b) schon gar nicht auf das P/L oder ?

2-Fache Leistung bei gleichem Preis wirds vlt. bei überteuerten 1000$+ Grafikkarten geben. Aber es wird keine doppelte 3070 Leistung für 500$ geben.

Warum nicht? Lovelace ist auf 4nm zwei Full Nodes unter Ampere. 3070 ist ~30% schneller als eine RTX 2080 und ca. 65% schneller als die RTX 2070. Also doppelte Leistung bei $500 kann möglich sein. Hängt natürlich davon ab, wie teurer der 4nm Prozess von TSMC ist.

Platos

2022-04-11, 16:25:44

Warum nicht? Weil ich realistisch bleibe und du einfach ein paar Begriffe in den Raum wirfst und dabei träumst.

HOT

2022-04-13, 13:54:37

Micron bietet für Ada 24GT/s-GDDR6X-RAM an, damit ist das auch endgültig geklärt

https://www.micron.com/products/ultra-bandwidth-solutions/gddr6x/part-catalog

Rampage 2

2022-04-13, 20:43:12

Micron bietet für Ada 24GT/s-GDDR6X-RAM an, damit ist das auch endgültig geklärt

https://www.micron.com/products/ultra-bandwidth-solutions/gddr6x/part-catalog

Naja, war ja auch das Mindeste, was zu erwarten gewesen wäre - nur knapp 15% mehr Bandbreite als die 3090 Ti. Den Rest werden wohl die gewaltig vergrößerten Caches (16x GA102:O) reißen - kann man denn die sich durch die Cache-Aufblähung ergebende "effektive Bandbreite" irgendwie errechnen oder schätzen? (etwa so: +40% effektive Bandbreite = 1152GB/sek. * 1.4 = 1612.8 GB/sek. "effektiv")

R2

bbott

2022-04-13, 21:44:15

Rein von Generation zu Generation mit ggf. Vergleich zur Konkurrenz:

Was war der größte Sprung bisher?

Müsste doch der G80 von 2006 sein, oder? Ich kenne nicht mehr die genauen Zahlen, aber war dieser nicht bei bis zu ca. 2.0 x dem G71 (7900GTX)?

Mit den spekulierten Zahlen zu Ada, müsste das doch der krasseste Sprung ever sein, oder nicht? 😁

G80 hat auch den Stromverbrauch etwa verdoppelt und das bei besserer Fertigung.

iamthebear

2022-04-13, 22:37:42

AMD hatte da eine schöne Grafik zu Cachegröße und Hitrate. Das könnte bei Lovelace ähnlich aussehen:
https://pics.computerbase.de/9/5/8/1/6-a12126ebeb660e56/57-1080.a043dd4b.png

Wir würden also auf ca. 50% Hitrate bei 4K und 96MB kommen.
In der Praxis wird es denke ich etwas darunter liegen:
.) Das Ganze bezieht sich auf Spiele von vor 2 Jahren ohne RT. Mit RT bzw. zukünftige Spiele werden sicher größere Speichermengen benötigen wodurch die Hitrate etwas abfallen wird
.) So wie ich das verstehe bezieht sich das auf die allgemeine Hitrate bei verschiedenen Cachegrößen. Die Hits, die bereits bisher der Cache abgefangen hat (bei 6MB der 3090 ca. 15%) muss man davon abziehen.

Also Beispiel:
Bisher: 85% wurden nicht vom Cache abgefangen
Neu: 50% werden nicht durch den Cache abgefangen

Effiektive Speicherbandbreite:
384Bit * 21GBit/s * 85/50 = 1713 GB/s
Das würde in etwa die 70% mehr Shader kompensieren

Den Vorteil den Nvidia jedoch hat ist, dass bei den Zugriffen die aus dem Cache ziehen auch die Latenz deutlich niedriger ist was fast den größeren Unterschied ausmachen sollte weil bandbreitenlimitiert war Ampere ja nicht wenn ich mir ansehe wie wenig Performance die 3080 12GB zugelegt hat. Wenn man die 2 zusätzlichen Shader und TDP rausrechnet ist da so gut wie gar nichts mehr übrig.

robbitop

2022-04-14, 09:03:11

G80 hat auch den Stromverbrauch etwa verdoppelt und das bei besserer Fertigung.
Wobei es nur ein Halfnodesprung (G80 - 80 nm vs G71 - 90 nm) war. IIRC hat 80 nm den Fokus auf Costout gelegt und weniger auf Performance oder Powerconsumption.

iamthebear

2022-04-14, 21:47:42

https://twitter.com/kopite7kimi/status/1514613698823815173?s=20&t=GdUwyjGPNigcOyKm6otm7w

Antwort auf die Umfrage wieviele Transistoren AD102 haben wird (die Mehrheit hat 70-80 Mrd. gestimmt):

Thank everyone. Truth is often in the hands of a few people, but this time the truth should be in the hands of the majority.

Das bedeutet, dass AD102 doch sehr viel mehr sein wird als nur GA102 mit 70% mehr Shader und 90MB Cache. Da bahnt sich eher so etwas an wie die 128 FP32 Einheiten bei Ampere.

Leonidas

2022-04-15, 14:16:12

Sieht fast danach aus. Aber ich warte ab, ob Kopite noch mit einer echten Zahl rausrückt. Ich hatte selber 50-60B geschätzt. Aber wie üblich rein konservativ hochgerechnet.

basix

2022-04-15, 14:40:00

2x GA102 ist wohl eine gute Referenzgrösse. 70B wären +30% mehr.

iamthebear

2022-04-15, 23:48:26

Schön langsam ergeben einige Dinge wie die hohe Verlustleistung inkl. der Aussagen von MLID "Lovelace ist nicht nur noch getaktet sondern braucht an sich schon mehr" wieder mehr Sinn.

Wenn ich das grob überschlage:
Angenommen AD102 hat 75Mrd. (Mitte zwischen 70 und 80)
4 Mrd. gehen für die 86MB zusätzlichen Cache drauf (bei 6 Transistoren pro Bit), bleiben also noch 71 Mrd.

Das wären 493M Transistoren/SM
46% mehr als GA102 mit 337M/SM
oder 91% mehr als TU102 mit 258M/SM

Die Frage ist wofür hat Nvidia diese verwendet? Irgendetwas taktsteigerndes kann ausgeschlossen werden, denn hier hat sich nicht viel geändert.

Wäre es möglich, dass Nvidia 128FP32 + 128INT verbaut, die parallel genutzt werden können? Also im Prinzip doppelte Turing SMs (inkl. doppelter Threadanzahl). Das würde von der Transistoranzahl in etwa hin kommen und würde sich nicht mit anderen Leaks spießen.

Auch die 2.2x Performance könnten stimmen mit 1.7x durch die zusätzlichen SMs und 1.3x durch die parallelen INT Einheiten. Takt kann dann in etwa gleich bleiben bzw. leicht ansteigen.

Als Vergleich zu Turing:
AD102 = 2*2*TU102 (doppelte SM Anzahl, doppelte SM Größe)
Die Size bleibt gleich dank 4 facher Transistordichte

Was die 600W Verlustleistung angeht (Vergleich mit 3090 Ti):
1.33x Verlustleistung bei 2.2x Performance = 1.7x Effizienz. Das hört sich mit 4nm vs. 8nm auch nicht so falsch an.

OgrEGT

2022-04-16, 08:02:48

The_Invisible

2022-04-16, 09:53:29

Bin gespannt was kommt und was ich mir zulegen werde.

Ein neues Netzteil war sowieso geplant, mein aktuelles Enermax ist jetzt schon über 10 Jahre alt und ich hätte nie gedacht das ich die 800W mal wirklich brauchen würde :D

Aber ein 600W Monster kann man luftgekühlt ja nicht mehr ordentlich betreiben wenn man es Silent haben will. Sag mal bis 400W gehe ich mit, zumindest sollte da noch einer 4080er drinnen sein.

HOT

2022-04-16, 10:31:14

iamthebear
mMn verwendet NV die Mehrtransistoren zu einem nicht unerheblichen Teil für den Takt.

Platos

2022-04-16, 11:10:04

RT und Tensor-Cores sind ja auch noch da. Die können ja auch noch bisschen was ausmachen. Wie viel machen die eig. bei Ampere aus? Gibts da Zahlen dazu?

basix

2022-04-16, 11:46:46

RT und Tensor-Cores sind ja auch noch da. Die können ja auch noch bisschen was ausmachen. Wie viel machen die eig. bei Ampere aus? Gibts da Zahlen dazu?

Es gibt Schätzungen zu Turing: https://www.reddit.com/r/nvidia/comments/baaqb0/rtx_adds_195mm2_per_tpc_tensors_125_rt_07/
- 10.9mm2 für ein SM
- ...1.25mm2 für Tensor Cores
- ...0.7mm2 für RT Cores

Auf das gesamte Die gesehen machen RT + Tensor also gerade mal ~10% zusätzliche Chipfläche aus.

Bei Ampere würde ich annehmen, dass sich das in etwa ähnlich verhält.
- Tensor können was mehr (Sparsity etc.)
- RT Cores können was mehr (verdoppelte Intersection Leistung, Motion irgendwas)
- Vektor Units können was mehr (verdoppelte FP32 Rohleistung)

Schlussendlich kann man vermutlich sagen, dass auch deutlich aufgebohrte Tensor und RT Cores nicht wahnsinnig viel Mehrtransistoren kosten werden (aufs ganze Die gesehen). Selbst eine Verdoppelung der relativen Grösse würde anhand der Turing Daten gerademal +10% Die Size ausmachen.

Verdoppelte Tensor-Core Rohleistung pro SM oder Tensor Core sehe ich eigentlich als nicht sehr wahrscheinlich an, einfach weil es für Consumer nicht extrem relevant ist. H100 hat aber genau diese Verdopplung pro Tensor Core gebracht. A100 aber auch schon und auf GA102 traf das dann nicht zu. Wer weiss. Für Gamer sehe ich momentan nur DLSS als relevanten Anwendungszweck. Für Quadros gibt es natürlich noch so Sachen wie AI-Denoiser. Bei DLSS würde ich lieber noch sowas wie Sparsity sehen, falls das nicht schon umgesetzt wurde. Das würde auch Ampere nützen. Sparsity bringt typisch 1.3...1.5x Performance. Ist jetzt nicht extrem viel (vor allem, weil etwa die Hälfte der DLSS-Kosten nicht DLSS an sich sind, sondern durch das Post Processing in der höheren Ausgabeauflösung verursacht werden) aber immerhin etwas.

Bei den RT-Cores sehe ich deutlich mehr Potential/Bedarf. Aber hier könnte der grosse L2$ alleine schon massive Fortschritte liefern. Oder dass Nvidia irgendwie die Tensor Cores in die RT-Beschleunigung miteinschliesst (z.B. via FP16 Matrizenrechnungen).

Edit:
Verdoppelte pro Tensor-Core Performance ist mMn sehr unwahrscheinlich:
84 -> 144 SM = 1.71x
1.8 -> 2.4 GHz = 1.33x
1.7x * 1.33x = 2.27x

--> Ausgehend von einer RTX 3090 käme man auf 320...340 TFLOPs FP16. Würde man das verdoppeln käme man auf ~650 TFLOPs. H100 hätte dann gerademal 1.3x FP16 Rohleistung verglichen zu AD102. Ehm nein, wird so nicht passieren.

Platos

2022-04-16, 11:55:22

Stimmt, es müssten ja relativ gesehen mehr werden, sonst wirds nicht grösser. Also bei einer Verdopplung wird man wohl mit max. ca. 10% rechnen können. Dann muss es was anderes sein.

Aber was genau brauchts denn, um eine Architektur höher takten zu lassen? Also auf Transistorebene.

Skysnake

2022-04-16, 12:15:21

Man muss den kritischen Pfad anfassen, der halt dadurch bestimmt ist im Allgemeinen wie viele Transitorwn im Pfad hintereinander hängen. Für Datenpfade dann eventuell auch noch die Länge von Leitungen.

Und wenn das alles passt muss man die einzelnen Transistoren schneller schalten lassen durch weniger Load die sie treiben müssen

basix

2022-04-16, 12:18:50

Mehr Transistoren für höhere Taktbarkeit sind momentan die schlüssigste Annahme. Zwingend ist das aber nicht.

Bei RDNA2 ist eine Erhöhung der Transistoren nämlich nicht wirklich zu erkennen. N10 = 10.3B; N21 = 26.8B. 128 MByte IF$ = 6.4B Transistoren (Annahme: 6T SRAM Zellen, Ian Cutress (https://twitter.com/iancutress/status/1321501914299834368?lang=de) kommt aufs selbe, 4T SRAM wäre aber theoretisch denkbar). Klar, N10 hat mit 4MByte den gleich grossen L2$, RDNA2 hat aber RT-Acceleration. Im Endeffekt wird sich das alles nicht viel nehmen.

iamthebear

2022-04-16, 19:28:28

Wie rechnest du die Transistor pro SM? Nicht alles sind SMs... Bei immer größerer Anzahl an SMs muss auch immer noch mehr an Kontrolllogik investiert werden um die auslasten zu können... ein Teil der Chipfläche geht wahrscheinlich dafür drauf ohne zusätzliche oder neue Rechenfähigkeiten...

Ich habe einfach die Transistoranzahl durch die Anzahl an SM geteilt unter der Annahme, dass sämtliche Kontrolllogik mitwächst bzw. die Teile, die nicht mit den SMs skalieren (z.B. PCIe, Display Outputs etc.) in ähnlicher Menge mitwachsen, da ja auch neue Technologien wie PCIe 5.0, DP 2.0 vorhanden sein werden.
Das Speicherinterface wird nicht 70% anwachsen, dafür braucht der zusätzliche L2 ja auch etwas Kontrolllogik und nicht nur die SRAM Zellen.
Dass das Ganze natürlich eine Unschärfe von 5-10% haben kann ist klar aber keine 30-40%.

iamthebear
mMn verwendet NV die Mehrtransistoren zu einem nicht unerheblichen Teil für den Takt.

Das denke ich nicht. Es dürfte sich um ca. 40% pro SM handeln.
Die 3090 Ti boostet um die 2050MHz.
Die 4090 Ti wird etwas über 2200MHz erwartet

Um die 10% mehr Takt sich denke ich alleine durch die Fertigung drin ohne Architekturänderungen. Aber 40% wird das nie erklären.

RT und Tensor-Cores sind ja auch noch da. Die können ja auch noch bisschen was ausmachen. Wie viel machen die eig. bei Ampere aus? Gibts da Zahlen dazu?

Bei Ampere wurde die RT Performance nur so stark wie die Rasterization Performance erhöht aber nicht mehr. Bei der Tensor Core Performance wird es ähnlich sein. Dass Nvidia nun auf einmal 40% mehr Transistoren in RT pumpt ist unwahrscheinlich. Die Kaufentscheidung wird weiterhin nach Rasterization Performance getroffen.

Bei RDNA2 ist eine Erhöhung der Transistoren nämlich nicht wirklich zu erkennen. N10 = 10.3B; N21 = 26.8B. 128 MByte IF$ = 6.4B Transistoren (Annahme: 6T SRAM Zellen, Ian Cutress (https://twitter.com/iancutress/status/1321501914299834368?lang=de) kommt aufs selbe, 4T SRAM wäre aber theoretisch denkbar). Klar, N10 hat mit 4MByte den gleich grossen L2$, RDNA2 hat aber RT-Acceleration. Im Endeffekt wird sich das alles nicht viel nehmen.

Hier macht der Vergleich mit Navi22 Sinn:
17.2Mrd. - 10.3Mrd. sind 6.9Mrd. Unterschied
96MB L3 = 96*8*6 = 4.6Mrd.
Bleiben noch 2.3Mrd.
Dann muss man noch den Bedarf für RT abziehen und neuere Schnittstellen (PCI 4.0, HDMI 2.1 usw.), der Infinity Cache hat sicher auch einiges an Kontrolllogik usw.

Den Takt muss AMD wo anders geholt haben. 10% erklären sich durch N7P vs. N7 also bleiben 20%
Aber vermutlich wurden hier eher diverse andere Probleme gelöst.