nVidia - Ada Lovelace/Hopper (Ampere-Nachfolger, "4N", Q4/2022 + "SUPER"-Refresh Q1/2024) [Archiv] - Seite 5

HOT

2022-03-01, 17:11:21

Wenn die durchgehend 16Gb-Chips bekommen passts doch ;).

Mögliche Hardware-Daten zu nVidias Ada-Lovelace-Grafikchips aufgetaucht
https://www.3dcenter.org/news/geruechtekueche-moegliche-hardware-daten-zu-nvidias-ada-lovelace-grafikchips-aufgetaucht

AD102: 144 SM @ 384-bit, 4080/4090
AD103: 96 SM @ 320-bit, 4060Ti/4070
AD104: 48 SM @ 256-bit, 4060
AD106: 32 SM @ 192-bit, 4050

Ich finds ein bisschen komisch, dass der 104er weniger als 50% vom 102er ist. Aber hey, kann natürlich sein.

Ich würd eher sowas sagen:

AD102: 144 SM @ 384-bit, 4080Ti/4090
AD103: 120 SM @ 320-Bit, 4080/4070Ti
AD104: 80 SM @ 256-bit, 4060Ti/4070
AD106: 48 SM @ 192-bit, 4060
AD107: 32 SM @ 128-bit, 4050

fänd ich plausibler.

Leonidas

2022-03-01, 17:14:13

Ich gehe aus von:

4090: 24GB
4080: 20GB
4070: 20 GB
4060Ti: 16GB
4060: 16GB
4050: 12GB

Die Halbierungen davon ergeben nirgendwo Sinn, das würde das Portfolio kaputtmachen.

basix

2022-03-01, 17:31:30

Soweit ich das eher verstehe fehlt AD103 oder 104 bei den Daten. Das unterste ist dann 107.

Irgendwie scheint mir die Abstufung auch etwas speziell zu sein.

AD102 hätte 4.5x SMs wie AD106 bei gerade mal doppeltem Speicherinterface.

Ausserdem sind die SM-Anzahl bezüglich Anzahl GPC bei AD106 etwas komisch, da es 4 GPC für relativ wenige SMs benötigen würde.
- AD102: 12 GPC, 144SM --> 12 SM pro GPC
- AD103: 8/12 GPC, 96SM --> 8/12 SM pro GPC
- AD104: 4/6 GPC, 48SM --> 8/12 SM pro GPC
- AD106: 4 GPC, 32SM --> 8 SM pro GPC

Ich hätte er irgendwas in diese Richtung erwartet, das würde auch besser zu den SI-Breiten passen:
- AD102: 12 GPC, 144SM --> 12 SM pro GPC
- AD103: 8 GPC, 96SM --> 12 SM pro GPC
- AD104: 6 GPC, 60SM --> 10 SM pro GPC (~GA103S)
- AD106: 4 GPC, 40SM --> 10 SM pro GPC
- AD107: 3 GPC, 24SM --> 8 SM pro GPC (~1/2 GA104)

Da ist jeweils ~1.5x zwischen den jeweiligen Chips. Mittels Salvage ist diese Lücke gut schliessbar. Der Vorteil wäre auch, das die Feld-Wald-Wiesen Chips (AD104 und kleiner) nur geringfügig anwachsen, was inkl. 5nm zu kleineren Chips führen würde. Günstigere Preise, höhere Stückzahlen und/oder Kostenkompensation für die gestiegenen Speichermengen. Ich kann mir auch gut vorstellen, dass AD104 und kleiner auf normalen GDDR6 setzen werden. Einfach aus Kostengründen. Mehr Bandbreite bekommt man durch etwas schnelleren GDDR6 (18 vs. 14 GT/s) und diese ominösen "bigger Caches" (aka Nvidias Infinity Caches). 32 MByte LLC und 18 GT/s GDDR6 würden für AD104 mit 60SMs @ 2.3...2.5 GHz reichen. Auch bei 4K. Bei AD102 wären es dann 21GT/s G6X und 48MByte LLC.

Und was ist AD10B?
- 2*AD102 als MCM :D "B" ist ja der 2. Buchstabe des Alphabets. AD102; 2 Stk.; Dual-Chip MCM ;) Wenn AD102 wieder NVLink mitbringt, evtl. wer weiss
- Oder: AD10B = 1/2 AD102 und AD102 besteht aus 2*AD10B ;) Wären dann 6 GPC/72 SM pro AD10B

Speicher:
- AD102: 384bit -> 24GB, 21GT/s G6(X), 48MB LLC
- AD103: 320bit -> 20GB, 20GT/s G6(X), 40MB LLC
- AD104: 256bit -> 16GB, 18GT/s G6, 32MB LLC
- AD106: 192bit -> 12GB, 16GT/s G6, 24MB LLC
- AD107: 128bit -> 8GB, 16GT/s G6, 16MB LLC

Edit: Chipgrössen in TSMC N5
- AD102: ~660mm2
- AD103: ~490mm2
- AD104: ~350mm2
- AD106: ~250mm2
- AD107: ~170-180mm2

Wenn ich das so anschaue, zusammen mit den Speichermengen, können wir froh sein wenn die MSRPs von Ampere erreicht werden. Und hoffentlich auch zu MSRP kaufbar.

HOT

2022-03-01, 17:44:01

MMn sind das nicht 12GPCs, sondern 2x 6 oder 6x 2. Da dürfte ne neue Stufe dazukommen. Also wäre man dann bei 2x6x12 = 144SMs oder sowas. Unter den Umständen fänd ich 2x4x10 für den 104er als plausibel. Aber das ist reine Spekulation.

AD10B dürfte irgendein Custom-Design oder sowas sein.

Ich kann mir zudem einfach nicht vorstellen, dass man immer noch den schrottigen GDDR6X verbauen wird, wenn es 20GT/s+ normalen GDDR6 gibt von verschiedenen Herstellern.

basix

2022-03-01, 17:54:58

Ich kann mir zudem einfach nicht vorstellen, dass man immer noch den schrottigen GDDR6X verbauen wird, wenn es 20GT/s+ normalen GDDR6 gibt von verschiedenen Herstellern.

Samsung sampled 21 GT/s G6. Kann schon sein, dass der G6X Stunt dann vorbei ist. Ich würde das auch begrüssen.

Leonidas

2022-03-01, 17:59:11

Und was ist AD10B?

AD10B ist schlicht Tegra. Für PC nicht relevant.

basix

2022-03-01, 17:59:54

Next Gen Nintendo Switch?

HOT

2022-03-01, 18:21:11

Samsung sampled 21 GT/s G6. Kann schon sein, dass der G6X Stunt dann vorbei ist. Ich würde das auch begrüssen.
Samsung samplet 20 und 24GT/s. Die 24GT/s Parts hören auf den klangvollen Namen K4ZAF325BC-SC24.

https://www.techspot.com/news/92631-samsung-now-sampling-24-gbps-gddr6-ram-future.html

SKHynix will sogar auf 27GT/s rauf.
https://www.pcgameshardware.de/RAM-Hardware-154108/News/HBM3-Speicher-SK-Hynix-Spezifikationen-896-GBs-GDDR6-27-Gbps-1387526/

Das sind alles 16Gb-Parts, die Speichermenge geht also zwangsläufig auf ein vernünftiges Niveau, da hat NV jetzt gar keine Chance, dass bei Ada unter zu bestücken.

AffenJack

2022-03-01, 18:41:37

Nö, wenn was fehlt, hätte man das schon gesagt. Zudem kann AD103 nicht fehlen, denn der Chip mit 96SM kann faktisch nur AD103 sein (wenn AD102 144SM hat).

PS: Kopite7kimi himself hierzu:
https://twitter.com/kopite7kimi/status/1498686714298216448

Bei AD103 hast du recht. Aber sonst ist seine Aussage wohl falsch, weil er selbst nicht nachgedacht hat und nur die Nummern hat ohne Zuordnung. Denn es ist eindeutig, dass AD104 fehlt. Das hier passt gar nicht:

Laut dir:
AD102: +71% vs GA102
AD103: +60% vs GA103
AD104: +0% VS GA104
AD106: +6% vs GA106
AD107???

Stattdessen macht es so Sinn:
AD102 144SM: +71% vs GA102
AD103 96SM: +60% vs GA103
AD104 unbekannt, ~+60%, am meisten Sinn ergäbe im Lineup 72SM, wäre dann nur +50% vs GA104, aber das würde das Portfolio etwas entschlacken, weil GA103 und GA104 zu nah beieinander waren.
AD106 48SM: +60% vs GA106
AD107 32SM: +60% vs GA107

Da wette ich drauf, dass das das Lineup ist und nicht das obere.

Troyan

2022-03-01, 21:17:38

HOT

2022-03-01, 21:33:01

Hm jo, bin ich darüber gestolpert. Sieht aber eigentlich so aus, als wäre jeder Chip bis auf den 102er eine Nummer raufgerutscht.

AffenJack

2022-03-02, 06:21:17

Gibt noch weitere leaks, auch speicherinterface sind geleakt und nvidia hat nun wohl 16mb l2 pro 64 bit. Also nicht viel kleiner als AMDs infinity Cache.

Ich weiß nicht, wie man hier im Forum mit Handy ordentlich zitiert,links macht:

From the same source: (all GPUs have no NVLink)

AD102(72 TPC) - 384bit
AD103(42 TPC) - 256bit
AD104(30 TPC) - 192bit
AD106(18 TPC) - 128bit
AD107(12 TPC) - 128bit

https://twitter.com/no_one180/status/1498823056696950786?t=JaQV6couRaWAhTILzizxVQ&s=19

Yes.

1 Fbs=16MB

102 6Fbs
103 4Fbs
104 3Fbs
106 2Fbs
107 2Fbs

https://twitter.com/9550pro/status/1498873569614315522?t=itSeovtODIQ5UjLndU4VAA&s=19

OgrEGT

2022-03-02, 08:25:27

basix

2022-03-02, 08:29:48

GA106 mit dann vermutlich nur 8 GByte VRAM ist ein wenig Meh. Beim Rest in Form von AD103, AD104 und AD107 bringt Nvidia einfach das, was benötigt wird, nicht mehr. 24 GByte sind dann für die "8K Karte" ;)

Wenn Nvidia die Caches nun wirklich doch auf recht grosse Kapazitäten aufbohrt, ist GDDR6 deutlich wahrscheinlicher als nochmals GDDR6X. Bin gespannt, wie Nvidia das umsetzt.

Wenn das mit dem großen Cache stimmt wozu dann so ein schnelles und energiehungriges VRAM Speichersystem?
Och, bei 800W fällt das doch nicht auf ;)

Ne, Spass beiseite. 96MByte bei GA102 sind halt immer noch deutlich weniger als die 256+MByte, welche AMD bei Navi 31 verbauen wird. Und 256b GDDR6 ist jetzt nicht wirklich extrem energiehungrig. Auch 384bit nicht, sie müssen einfach vom GDDR6X wegkommen oder zumindest deutlich besser umsetzen.

Thunder99

2022-03-02, 09:15:37

Durch die Prognose der Geschwindigkeit wird nur GDDR6X nicht langen. Es gibt einfach keine noch schnellere Module als die 21Gbs, oder? Daher auch die größeren Caches als Zwischenlösung im Vergleich zu AMD.

Für wann ist die 7. Version angekündigt?

basix

2022-03-02, 09:28:22

HOT hat bereits vor ein paar Posts geschrieben, dass Samsung GDDR6 mit 24Gbps sampled und Micron bereit 27Gbps angeteasert hat:
https://www.forum-3dcenter.org/vbulletin/showthread.php?p=12936691#post12936691

Nimmt man AMDs Infinity Cache Folien, führen 96MByte Cache zu ~2x Bandwidth Amplification bei 4K. Das passt doch ganz gut zu ~2+x Performance Gerüchten von AD102.

Linmoum

2022-03-02, 09:28:37

BlacKi

2022-03-02, 09:32:28

400-500w karten mit 256bit? XD

HOT

2022-03-02, 09:37:11

96MByte sind nur N22-Niveau, damit kommt man für UHD aufwärts wahrscheinlich nicht mit 256bit aus. Dass AMD scheinbar auf 256MByte+ geht, machen sie sicherlich auch nicht aus Spaß an der Sache. Kostet ja auch alles Die-Size.

Aber wie basix schon schreibt, das Problem ist GDDR6X bzw. in Kombination mit dem SI. Da ist hoffentlich noch Einsparpotential, das NV auch umsetzt. Sonst wird das wieder meh.
24GT/s? Kein Problem würde ich sagen. Das ist ja kein IF$ sondern viel L2 mit sehr schnellem Speicher.

400-500w karten mit 256bit? XD

Eher nicht. Es ist wohl eher davon auszugehen, dass die 650W und 850W-Angaben für Hopper, genauer GH202, gelten werden, nicht für Ada. Ich würd mal darauf tippen, dass die FE des 102ers bei 450W liegen wird, also genau wie die 3090Ti. Die AD103 Parts dürften so maximal bei 300W liegen.

dildo4u

2022-03-02, 09:38:21

Linmoum

2022-03-02, 09:40:04

Ich glaube nicht, dass NV auf GDDR6X verzichten wird. Zumindest nicht obendrauf und an der Spitze.

BlacKi

2022-03-02, 09:49:26

kommt drauf an, wie das marketing es umsetzt. dann muss es kein nachteil sein, auf das x zu verzichten.

wenn nv es rechtzeitig gemerkt hat, das gddr6x zuviele nachteile mit sich bringt und die verträge geändert, bzw. auslaufen ließen, dann hoffe ich, das sie entweder was neues bringen oder den gddr6 zurückbringen.

dildo4u

2022-03-02, 09:49:39

OK mich jucken 1000€ Modelle nicht im Midrange ist Tonnen Potential wenn 3070 nur 14GPBS haben.
Könnte sogar sein das 4070 mit Cache und 20GBPS auskommen.

Troyan

2022-03-02, 10:00:25

96MByte sind nur N22-Niveau, damit kommt man für UHD aufwärts wahrscheinlich nicht mit 256bit aus. Dass AMD scheinbar auf 256MByte+ geht, machen sie sicherlich auch nicht aus Spaß an der Sache. Kostet ja auch alles Die-Size.

Aber wie basix schon schreibt, das Problem ist GDDR6X bzw. in Kombination mit dem SI. Da ist hoffentlich noch Einsparpotential, das NV auch umsetzt. Sonst wird das wieder meh.

Da der Konkurrent von N22 nur 4MB L2 Cache hat und trotzdem mehr als doppelt so schnell ist, solltest du mal überlegen, wie es bei 96mb L2 Cache wäre. :eek:

Achja, 256MB gegen 96MB sieht irgendwie schlechter aus als 128MB gegen 6MB.

basix

2022-03-02, 10:04:34

Eher nicht. Es ist wohl eher davon auszugehen, dass die 650W und 850W-Angaben für Hopper, genauer GH202, gelten werden, nicht für Ada. Ich würd mal darauf tippen, dass die FE des 102ers bei 450W liegen wird, also genau wie die 3090Ti. Die AD103 Parts dürften so maximal bei 300W liegen.

Wäre eine schlüssige Erklärung für die hohen TDPs. Hopper müsste dann aber mit RT-Cores kommen, sonst macht es wenig Sinn.

Edit:
Und auch eine 4090 mit AD102 hätte unter einer neuen Titan mit GH202 noch Platz ;) Titan H mit 40 GByte HBM wäre schon recht fett :D

Ist überhaupt bekannt das es schnelleres GDDR6X geben wird wenn das verfügbar ist?

Wenn man etwas von schnellerem GDDR hört, ist es seit 1.5 Jahren immer GDDR6.

Ich glaube nicht, dass NV auf GDDR6X verzichten wird. Zumindest nicht obendrauf und an der Spitze.
GDDR6X hatte abgesehen von der hohen Datenrate nur Nachteile. Wenn jetzt normaler GDDR6 bei den Datenrate aufholt oder sogar überholt, sehe ich keinen Grund für GDDR6X. Grössere Kapazitäten, mehrere Hersteller, vermutlich günstiger, geringerer Stromverbrauch. Wenn Nvidia bei Lovelace wieder auf GDDR6X setzen sollte, dann müsste das alles deutlich verbessert worden sein.

Linmoum

2022-03-02, 10:54:53

Oder sie sind aus irgendwelchen Gründen vertraglich dazu verpflichtet. Muss sich für Micron ja auch lohnen.

BlacKi

2022-03-02, 11:01:13

Oder sie sind aus irgendwelchen Gründen vertraglich dazu verpflichtet. Muss sich für Micron ja auch lohnen.und wie lange hätte man den vertrag zu anfang ampere aufgesetzt? ich glaube nicht dass man das für mehrere gpu generationen festlegt.

AffenJack

2022-03-02, 11:01:22

Ich glaube nicht, dass NV auf GDDR6X verzichten wird. Zumindest nicht obendrauf und an der Spitze.

Wieso sollten sie es nutzen, wenn es schnelleres GDDR6 gibt? Nvidias Speichervcontroller kann beides und man wird frei entscheiden, je nachdem was die Speicherhersteller anbieten und für Angebote liefern.

Troyan

2022-03-02, 11:04:22

Man sollte erstmal abwarten, wie stabil GDDR6 mit hohen Taktraten läuft. Nicht umsonst wurde HBM eingeführt.

Timbaloo

2022-03-02, 11:06:03

Die Hoffnung auf HBM @NV-Consumer habe ich längst aufgegeben :ulol:

Wuge

2022-03-02, 11:13:16

Woher eigentlich die Annahme, das GDDR6X schlechter ist? Nur weil das Interface in Ampere mit GDDR6X säuft? Das kann genauso gut an der Implementierung dessen liegen oder schlicht und ergreifend daran, dass man mit dem Takt des SI komplett am Limit fährt und das dann nicht mehr effizient ist. Das Problem hätte man mit 24 GB/s GDDR6 auch. Die GDDR6X Technologie ist vielleicht nicht so übel, muss halt nur reifen... wenn sie dann auf 28-32 Gbps kommen...nice.

basix

2022-03-02, 11:44:58

Bei GDDR6X auf Ampere hakt es definitiv an der Implementation und nicht der Technologie an sich. GDDR7 soll ja wie GDDR6X ebenfalls auf PAM-4 setzen.

Anscheinend ist es momentan aber einfacher, GDDR6 hochzuprügeln.

In einer Broadcom Application Note zu DNX16 wird Samsungs 24Gbps VRAM (K4ZAF325BC-SC24) explizit genannt, zusammen mit 1.3V Betriebsspannung des GDDR6 Interfaces (bin aber nicht ganz sicher, ob die Broadcom Chips dann auch mit 24 Gbps laufen können). Stromverbrauch sollte also im Rahmen bleiben (da höherer Clock entsprechend sicher etwas mehr), da die GDDR6 Chips jeweils 1.25/1.35V spezifiziert sind. Solange die Spannung nicht steigt, ist es nicht so tragisch.

Das Dokument beschreibt auch Termination Topologie von 24/32 Gbit GDDR6, ist noch interessant: https://docs.broadcom.com/doc/Hardware-Design-Guidelines-for-StrataDNX-16-nm-Devices

BlacKi

2022-03-02, 11:50:52

das ist richtig. der mehrverbrauch findet nicht auf den ramchips statt, das wäre kaum kühlbar^^

DavChrFen

2022-03-02, 12:36:04

Was ist dann mit der Verdoppelung von PAM-4 geworden, das ja mal für GDDR6X angedacht war? Ich hätte ja gedacht, dass nun GDDR6X mit PAM-8 (oder war es PAM-5? Jedenfalls Verdoppelung) kommt. Oder hätte man dann schon etwas von Micron gehört?

HOT

2022-03-02, 14:16:09

Da man überhaupt gar nichts mehr von 16Gbit GDDR6X gesehen und gehört hat tippe ich mal stark darauf, dass das angesichts der neuen GDDR6-Welle ne technologische Sackgasse war - und das Speicherinterface ja wohl auch, das kam doch von Innosilicon oder nicht? Die können ja dann die Resteverwertung bei ihren eigenen GPUs machen.
Über 2 Generationen hat NV auch keinen Exklusivvertrag, das ergibt keinen Sinn. Nein, es ist sehr unwahrscheinlich, dass 6X nochmals zum Einsatz kommt. Man könnte nochmals darüber spekulieren, wenn 16Gbit-Module auftauchen sollten.

Ansonsten würd ich mal wetten, dass auch Micron in nicht allzuferner Zukunft eigene 20 und 24 GT/s-Module plötzlich anbietet.

Leonidas

2022-03-02, 17:32:42

96MByte sind nur N22-Niveau, damit kommt man für UHD aufwärts wahrscheinlich nicht mit 256bit aus.

Gibt schon fette effektive Bandbreiten, hier nachgerechnet:
https://www.3dcenter.org/news/geruechtekueche-korrigierte-hardware-daten-zu-nvidias-ada-lovelace-generation-inkl-gpc-tpc-und-

Troyan

2022-03-02, 17:40:41

Der L2 Cache hat nichts mit irgendwelchen Auflösungen zu tun.

Leonidas

2022-03-02, 17:58:38

Irgendwie wird es schon davon abhängen, wenn man das wie als "Infinity Cache" benutzt. Zum Spaß ist der IF$ auch nicht Auflösungs-abhängig.

basix

2022-03-02, 20:18:02

Der L2 Cache hat nichts mit irgendwelchen Auflösungen zu tun.

Bandwidth Amplification des L2 Caches hat sehr wohl was mit der Auflösung zu tun.

=Floi=

2022-03-02, 23:54:38

Irgendwie wird es schon davon abhängen, wenn man das wie als "Infinity Cache" benutzt.

und wo steht, dass NV den cache ebenfalls als IFC nützt?

basix

2022-03-03, 00:05:11

IFC ist ein Markenname von AMD. IFC kann man als L3 Cache oder noch besser LLC bezeichnen. Und der L2 Cache ist bei Nvidia genau das: Der LLC.

Und was macht man mit Caches? Häufig benutzte Daten vorhalten und Prefetching. Diese beiden Dinge bewirken eine niedrigere Latenz und eine Bandwidth Amplification. Und zu was führt das? Dem selben Verhalten wie beim IFC. AMDs und Nvidias Prefetching Algorithmen können sich unterscheiden, das Ziel und Resultat eines grossen LLC wird aber das selbe sein. Egal ob das nun ein L3 oder L2 Cache ist, IFC oder LLC heisst.

Leonidas

2022-03-03, 04:12:55

Korrekt. Zielsetzung und Effekt des ganzen sind gleichartig. Egal wie die Namen lauten und egal ob es Differenzen in der konkreten Gestaltung gibt.

Thunder99

2022-03-03, 09:46:08

mksn7

2022-03-03, 10:11:39

Dass AMD sowohl einen L2 cache als auch den Infinity cache hat ist von außen auch nicht ganz schlüssig. Der L2 ist weder bei den Latenzen noch bei der Bandbreite viel besser als der IC.

Ich dachte eine Zeit lang dass der IC explizit genutzt werden muss, und dass der Treiber da z.B. frame buffer/gbuffer drin allokiert. Nachdem man aber mit OpenCL pointer chasing benchmarks eindeutig den IC messen kann, hitten da wohl auch normale global loads drin.

Von daher weiß ich immer noch nicht warum es da zwei verschiedene Caches gibt. NVIDIA hat in der A100 auch schon einen 40MB großen L2 cache. Der hat auch fast die gleichen Latenzen und noch mehr Bandbreite als die 6MB L2 cache in Volta. Weil der so groß ist, oder der Chip schon so groß ist, ist der aber schon in zwei Hälften segmentiert, vermutlich weil die crossbar zwischen L2 cache und SMs sonst zu groß wird. A100 ist aber auch ein rießen Chip, und die 40MB L2 cache wirken da drauf schon gigantisch.

Irgendwas ist also anders an diesem Infinity Cache, was erlaubt den so groß zu machen bei wenig Flächenverbrauch, was ihn aber auch gleichzeitig Nachteile bringt, die einen separaten L2 cache nötig machen. Die A100 hat einfach den klassischen L2 von 6MB auf 40MB aufgebohrt, aber entsprechend verbraucht der auch Platz. Deswegen glaube ich dass der neue, größere L2 cache auch irgendwie anders aussehen wird als das was wir jetzt als L2 cache kennen.

HOT

2022-03-03, 10:30:27

Sehr interessant, bleibt spannend :)

Wenn GDDR6 vs. GDDR6X pro Takt weniger braucht, auch im High End wäre das sehr Begrüßenswert. Am Beispiel der 3070 vs. 3070Ti sieht man, wie GDDR6X mit dem Takt vom Speicherinterface säuft :( ohne nennenswerte bessere Performance zu liefern.

2GB Module von GDDR6X gibt es, ansonsten würde es nicht die 3090Ti geben, einseitig bestückt und ggf. 3070Ti 16GB
Gibts ja offenbar nicht, das scheint ja das Problem. Wir (also auch ich) haben das spekuliert, dass es 16Gb X gibt, aber dass es diese Karten (inklusive einer 20GB 3080) eben nicht gibt, sagt mir, dass beide Karten doppelt oder anders bestückt werden sollten und man sich das einfach klemmt bis Ada.Lt. Igor soll ja die 3090Ti als Training für die Boardhersteller fungieren und die ist mit Sicherheit genauso doppelt bestückt wie die 3090, aber ich denke, die 3070Ti mit 16GB ist eh auch tot und ob die überhaupt X gehabt hätte oder 18GT/s GDDR6, wie der AMD-Refresh, ist ebenfalls offen.

mksn7
Ist der L2 bei NV auch segmentiert? Dann ist das definitiv nicht der gleiche Effekt wie ein echter LLC (also einem Cache fürs Gesamtsystem), dann ist das schlicht kein universeller LLC. Daher macht IBM ja diesen Stunt mit dem Riesen L2 und dem virtuellen L3. Daher hat Zen2 deutlich weniger Performance als Zen3. Nur L2 ist eben kein LLC sondern dient zur Effizienzsteigerung der einzelnen Speichersegmente. Natürlich ist der Effekt am Ende ähnlich, aber es ist eben doch nicht das gleiche.

Der_Korken

2022-03-03, 11:04:59

Irgendwas ist also anders an diesem Infinity Cache, was erlaubt den so groß zu machen bei wenig Flächenverbrauch, was ihn aber auch gleichzeitig Nachteile bringt, die einen separaten L2 cache nötig machen. Die A100 hat einfach den klassischen L2 von 6MB auf 40MB aufgebohrt, aber entsprechend verbraucht der auch Platz. Deswegen glaube ich dass der neue, größere L2 cache auch irgendwie anders aussehen wird als das was wir jetzt als L2 cache kennen.

Wozu AMD den L2 überhaupt noch braucht, habe ich mich auch schon gefragt. Der Latenzanstieg von L1 auf L2 ist nicht viel kleiner als der von L2 auf IF$ (außer bei purem Random Access):

https://i0.wp.com/chipsandcheese.com/wp-content/uploads/2021/05/image-5.png?ssl=1

Vermutlich ist der IF$ so segmentiert, dass jedes Segment zu genau einem VRAM-Channel gehört und auch nur dessen Inhalt cachen kann. Das dürfte bei den vielen parallelen Zugriffen einer GPU aber kein Problem sein, da sich das statistisch gut verteilen sollte. Außerdem hat AMD durch das CPU-Design etwas mehr Erfahrung was große Caches angeht verglichen mit Nvidia. Ob das für den Unterschied schon reicht? Keine Ahnung.

Interessant ist aber, dass Nvidia deutlich weniger Cache verbauen soll. 96MB dürften nichtmal ansatzweise für 50% Hitrate reichen, wenn AMD angibt dafür schon Ende 2020 die 128MB gebraucht zu haben. Man darf ja nicht vergessen, dass Spiele ansprungsvoller werden, mehr VRAM brauchen und somit vermutlich auch größere Working Sets. Die 50% Hitrate mit 128MB in 4K sind also nur eine Momentaufnahme vom RDNA2-Release gewesen. Deswegen vergrößert AMD den Cache zukünftig wohl auch in jeder Gen. Spielt das (pseudo?-)tile based rendering von Nvidia hier eine Rolle? Das war eine große Änderung bei Maxwell, dass Nvidia das Bild immer kachelweise zu rendern scheint und immer erst innerhalb der Kacheln alle Verdeckungen aufzulösen, damit man das working set klein genug hält, um es im Cache halten zu können. Dadurch war Nvidia deutlich bandbreiteneffizienter als AMD trotz vergleichbarer Cache-Größen. Bei Vega war dieses Verhalten bei AMD nicht zu beobachten und bei RDNA1 afaik auch nicht. Weiß da jemand mehr zu bzw. ob das für eine IF$-Dimensionierung relevant wäre?

basix

2022-03-03, 13:40:38

mksn7

2022-03-03, 13:40:50

Ist der L2 bei NV auch segmentiert? Dann ist das definitiv nicht der gleiche Effekt wie ein echter LLC (also einem Cache fürs Gesamtsystem), dann ist das schlicht kein universeller LLC.

Der klasische L2 cache in NVIDIAs gamging chips ist nicht segmentiert. Das ist nur bei A100 der Fall. Vermutlich aber einfach wegen der sonst rießigen crossbar, man müsste sonst 108 SMs mit 80 L2 cache slices (LTS) verbinden. So sind es zweimal 60 SMs (?, bin mir nicht sicher wieviel hardware bei A100 deaktiviert ist) mit 40 LTS. Cachelines werden dann teilweise dupliziert, wenn sie in beiden Partitionen verwendet werden.

Eventuell ist diese Trennung ja schon eine Vorschau auf getrennte Chips, aber die Verbindung zwischen den cache Segmenten von 3600 GB/s müsste man erstmal off chip hinbekommen.

Vermutlich ist der IF$ so segmentiert, dass jedes Segment zu genau einem VRAM-Channel gehört und auch nur dessen Inhalt cachen kann. Das dürfte bei den vielen parallelen Zugriffen einer GPU aber kein Problem sein, da sich das statistisch gut verteilen sollte.

Das ist meines Wissen nach bei den NVIDIA's L2 caches jetzt schon so. Die LTS gehören jeweils fix zu einem memory controller. Da lässt sich an der Addresse schon ablesen zu welchem memory controller ein request muss und in welchen LTS nach dem Inhalt gesucht werden muss. Ich denke aber das ist wirklich nicht problematisch, in einem nicht voll assoziativen cache (also immer) geht jede Addresse nur in ein relativ kleines cache set.

Das wird bei dem neuen Cache auch so bleiben, sonst wäre nicht immer die Rede von xMB/64(?)bit.

Spielt das (pseudo?-)tile based rendering von Nvidia hier eine Rolle? Das war eine große Änderung bei Maxwell, dass Nvidia das Bild immer kachelweise zu rendern scheint und immer erst innerhalb der Kacheln alle Verdeckungen aufzulösen, damit man das working set klein genug hält, um es im Cache halten zu können. Dadurch war Nvidia deutlich bandbreiteneffizienter als AMD trotz vergleichbarer Cache-Größen. Bei Vega war dieses Verhalten bei AMD nicht zu beobachten und bei RDNA1 afaik auch nicht. Weiß da jemand mehr zu bzw. ob das für eine IF$-Dimensionierung relevant wäre?

Ich hätte vermutet dass AMD den IF$ explizit dafür verwendet. Bei soviel cache müsste man sich das Tiling aber eigentlich schon komplett sparen können.

davidzo

2022-03-03, 14:04:32

Leos Ausführungen zu den SKU Varianten von AD10x sind auf jeden Fall viel zu optimistisch.

Nvidia wird niemals von Anfang an 142 von 144 SM oder 58 von 60 sm SKUs bringen. In allen letzten Generationen seit Kepler, ja sogar Fermi hat man erstmal mit 60-80% Cutdowns angefangen und erst im Refresh kamen dann Karten mit über 90% der Einheiten freigeschaltet. Das hat nichts mit TSMC vs Samsung zutun, es passt einfach nicht zu nvidias Strategie von Anfang an alles pulver zu verschießen. Nvidia hat einfach eine "no silicon left behind" strategie was den yield angeht. Jeder TU106 ist zumindest noch für ne 2060 zu gebrauchen und jeder GA102 für ne 3080 - dafür sorgt die salvage-strategie biszu 40% des silicons ungenutzt zu lassen.

Die 3080 hat nur 68 von 84SM und selbst das Speicherinterface ist auf 320bit heruntergeschnitten. Und das hat nicht nur yield-gründe, sondern das war einfach die effizientere Konfiguration und immer noch perfekt für den task geeignet Navi21 in Schach zu halten.

Sieht man ja an der 3080 12GB welche die 350watt sprengt und dabei neue negativ Rekorde bei der Energieeffizienz aufstellt und deshalb nur als custom erhältlich ist. Nvidia hätte die 2020 schon bringen können, aber das ist nicht die Strategie.

Ich denke eher eine Aufteilung nahe an Leos Szenario #3. Nvidia ist in einer ähnlichen Situation wie damals mit Turing, wo die Chips extrem groß und teuer wurden im vergleich zu Pascal und daher ein erheblicher Aufpreis nötig war oder eben cutdown Entscheidungen wie nur den TU106 für die 2070 zu nehmen anstelle des 104ers.

Portfolio-Idee #4

AD102:
RTX4090: ~132 SM @ 384 Bit, 24 GB
RTX4080Ti: ~120 SM @ 320 Bit, 20 GB

AD103:
RTX4080: ~80 SM @ 256 Bit, 16 GB
RTX4070Ti: ~68 SM @ 192/256 Bit, 12/16 GB

AD104:
RTX4070: ~52 SM @ 192 Bit, 12 GB
RTX4060: ~40 SM @ 192 Bit, 12 GB

AD106:
RTX4050Ti: ~30 SM @ 128 Bit, 8 GB
RTX4050: ~24 SM @ 128 Bit, 8 GB

Der_Korken

2022-03-03, 14:51:16

Das mit den IFC Tiles ist noch ein guter Punkt. Im Beyond3D Forum wurde notiert, dass ein grosser Unified L2 es ermöglich, den ganzen BVH im Cache zu lassen. Was anscheinend beim IFC in dieser Form nicht geht (keine Ahnung ob das stimmt). Wäre ein Vorteil für die L2-Lösung von Nvidia.

Das leuchtet mir noch nicht so ganz ein. Die ganze BVH ist ja an "normalen" Speicheradressen gespeichert und somit auch im IF$ cache-bar. Bei 8 IMCs nutzt man irgendwo drei Bits in der Speicheradresse, um die Daten möglichst gleichmäßig auf die 8 Controller zu verteilen. Die BVH müsste also sehr wohl auch im vollständig im IF$ liegen können, sofern der Platz insgesamt ausreicht und es kann auch jede Shader-Engine auf jede Cache-Zeile zugreifen, die Teile der BVH enthält. Man kann natürlich Pech haben, dass die BVH so unglücklich auf phyische Adressen verteilt ist, dass sie immer auf den gleichen Controller geht und man somit nur 1 von 8 Cache-Slices verwenden kann. Das Problem hat man, wie mksn7 schon anmerkte, aber potenziell bei jedem nicht-voll-assoziativem Cache wie z.B. Nvidias L2.

Zu IFC vs. L2:
Laut AMD Folien hat der L2 die doppelte Bandbreite zu den L1$ (2048B/clk vs. 1024B/clk (https://www.computerbase.de/2020-11/amd-radeon-rx-6800-xt-test/2/)). Das ist schon noch ein Unterschied. Und ein anderes Thema ist Data Locality. Bei Turing+ hat man sehr grosse L0/L1-Caches. Bei RDNA sind diese Caches zwar ähnlich gross, aber ein L1 Cache gibt es nur pro Shader Array, bei Ampere pro SM. Ein zusätzlicher L2$ hilft RDNA hier, die Daten näher an den CUs und TMUs zu halten. Bei Nvidias GPUs ist das aufgrund des vielen Caches in den SMs nicht nötig.

Eventuell vergrößert AMD den aktuellen L1$ und verzichtet dafür auf den aktuellen L2. Ich fand den L1 pro Shader-Array sowieso immer extrem klein: 128kB, also weniger als die 5 WGPs darin zusammen haben (5x32kB). Würde man den z.B. auf jeweils 1MB vergrößern, würde man den Bandbreitenverlust durch den fehlenden L2 kompensieren und dafür die IF$-Latenz deutlich verringern, weil eine Cache-Stufe entfällt. Es sei denn, es gibt Chipteile, die direkt am L2 hängen und nicht am L1. Die müssten dann direkt auf den IF$ zugreifen.

Platos

2022-03-03, 14:55:18

basix

2022-03-03, 14:55:43

Die 3080 hat nur 68 von 84SM und selbst das Speicherinterface ist auf 320bit heruntergeschnitten. Und das hat nicht nur yield-gründe, sondern das war einfach die effizientere Konfiguration und immer noch perfekt für den task geeignet Navi21 in Schach zu halten.

Hier ist der Hund begraben: Anhand der Gerüchte wird RDNA3 stark. Da reicht ein stark beschnittener AD102 halt eben nicht mehr. Nvidia konnte sich bisher diese Strategie leisten. Gegen RDNA3 allenfalls nicht mehr.

Wenn man nun sieht, dass die TDPs geprügelt werden und da noch die ein oder ander x-GByte oder Ti-Version dazwischengeschoben wird: Es wird für Nvidia enger. Deswegen wird man mMn in der Tendenz bei den Top-Modellen auch nicht mehr so viel beschneiden. Die 3090 zeigt das bereits ja auf.

Deswegen finde ich Leos Vorschlag schon sinnvoll. Einzig AD104 hätte ich wie gesagt auf 3 SKUs verteilt. Und hier hättest du dann auch dein "no silicion left behind", einfach bei den kleineren Chips mit hohen Stückzahlen. AD104 und noch kleinere Chips in Form von AD106/AD107 werden also maximal "ge-yielded" und im Zweifelsfall gibt es noch Mobile-SKUs mit einer etwas anderen Konfiguration. Und da RDNA3 unten rum nichts zu bieten hat (N33 ~AD104) hat man dort eh ein fast freies Feld.

AD102 und AD103 kämpfen um die Gunst der High-End Käufer und Enthusiasten. Wird spannend im Vergleich mit N31 und N32. AD103 hat gegen N32 aber vermutlich keine Chance, bei AD102 und N31 könnte es enger werden. Und AMD hat mittels Chiplet vermutlich einen nicht zu vernachlässigenden Kostenvorteil.

Nvidia hat potentiell noch einen Trumpf in der Hand, wenn es bei AD102 nicht für die Performancekrone reicht: GH200. Als Titan H für den Preis deiner Niere. Das ist allerdings nur eine Option, wenn der HPC-Chip mit RT-Cores daherkommt.

HOT

2022-03-03, 16:39:55

Wür auch sagen, der der 4080 ein AD102 wird. Dann mit 112 SMs oder so.

Leonidas

2022-03-03, 16:56:10

Interessant ist aber, dass Nvidia deutlich weniger Cache verbauen soll. 96MB dürften nichtmal ansatzweise für 50% Hitrate reichen, wenn AMD angibt dafür schon Ende 2020 die 128MB gebraucht zu haben.

Aber: NV verbaut dafür die größeren Speicherinterface, kommt womöglich wieder mit mehr Speichertakt - und hat immer noch die besseren Kompressions-Algorithmen. Sprich, das kann sich locker ausgleichen.

Leonidas

2022-03-03, 16:58:54

Leos Ausführungen zu den SKU Varianten von AD10x sind auf jeden Fall viel zu optimistisch. In allen letzten Generationen seit Kepler, ja sogar Fermi hat man erstmal mit 60-80% Cutdowns angefangen und erst im Refresh kamen dann Karten mit über 90% der Einheiten freigeschaltet.

Denkbar, dass ich da zu optimistisch bin. Ich bin einfach davon ausgegangen, dass NV aufgrund RDNA3 nicht kleckern kann, sondern klotzen muß.

Das NV zuletzt mit 60-80% Cutdowns angefangen hat, stimmt aber nicht:
3090 ist 82 von 84 SM von GA102
3070 ist 46 von 48 SM von GA104
3060 ist 28 von 30 SM von GA106

basix

2022-03-03, 17:32:05

Platos

2022-03-03, 17:55:35

Starke Cutdowns sind eh nicht sinnvoll, wenn die Yields gut sind. Sinnvoller wäre ein gestaffelter Release wie bei Pascal (AD102 kommt zuletzt). Damit kann man bezüglich Performance-Krone eher reagieren (und die Kunden besser melken).

TSMC N5 scheint sehr gute Yields zu haben, Bei Ampere könnte der Wildwuchs im Portfolio auch mit Samsungs Prozess zusammenhängen.

Das gabs damals vermutlich nur deshalb, weil AMD einfach nix zu bieten hatte. Das ginge jetzt nicht mehr, wenn nvidia nur den 2 grössten Chip am Anfang bringt, hat AMD die Perfomancekrone. Das wird daher aus meiner Sicht ganz klar nicht passieren.

Wenn man möglivhst wenig Abfall haben wollte, müsste man als erstes die kleinsten Chips raus bringen und erst am Schluss die Grossen (wegen besserem Yield). Also genau umgekehrt wie jetzt.

"Reagieren" ist m.M.n ne schlechte Markttaktik. Besser wäre es, nach 2 Jahren Durststrecke zuerst (vor dem anderen) "den Hammer" zu präsentieren um das Bild in den Köpfen schonmal zu festigen.

WedgeAntilles

2022-03-04, 10:13:32

. (und die Kunden besser melken).

Das ist - zumindest bei den meisten Produkten - erwiesenermaßen eine falsche Aussage.
Du bringst eigentlich immer zuerst das Luxusmodell.
Und die schlechteren Varianten dann später.

Bei einem Buch kommt zuerst das Hardcover - später das Taschenbuch.

Sonst kaufen sich sehr viele die niedrigwertige Version, werden dann aber nie auf das hochwertigere Produkt upgraden.
Bringst du aber das hochwertige Produkt zuerst, spricht das ein größeres Klientel an. Jene die nicht warten wollen und jene die sich halt generell für die hochwertige Variante interessieren.
Ist man aber erstmal mit dem schwächeren Produkt eingedeckt wird die Bereitschaft noch einmal viel Geld zu investieren um das qualitativ hochwertige Produkt zu bekommen sehr viel kleiner.

Das dürfte auch für die Grafikkarten gelten.
Wer kauft denn ne xx90 für viel Geld wenn er schon ne xx80 gekauft hat?
Hat er noch gar nix ist die Bereitschaft gleich zur xx90 zu greifen sehr viel höher als wenn du schon eine hast.

Nicht vergessen: Nvidia verkauft zig Millionen GraKas.
Ein paar extreme Enthusiasten die wegen 10% mehr Leistung ne neue GraKa kaufen sind für Nvidia reichlich uninteressant.
(Zumal die ja auch die kaum gebrauchte xx80 wieder verkaufen - womit ein Neukäufer der xx80 wegfällt, da der die gebrauchte Karte kauft.)

Die These vom Melken wird ja gerne verbreitet, lässt sich aber mit den vorliegenden wirtschaftswissenschaftlichen Daten und Studien nicht belegen.
Im Gegenteil, die Empirie zeigt das Gegenteil.
Zugegebenermaßen bezieht sich das auf andere Märkte, aber es gibt keinerlei Anhaltspunkt warum der Grafikkartenmarkt sich komplett von sämtlichen anderen Märkten unterscheiden sollte.
Und spätestens wenn man unterstellt, dass die gebrauchte Karte nicht weggeworfen sondern verkauft wird, wird es für den Hersteller sowieso völlig unattraktiv.

nordic_pegasus

2022-03-04, 11:02:15

Sinnvoller wäre ein gestaffelter Release wie bei Pascal (AD102 kommt zuletzt).

wobei bei Pascal aber neben der GTX1080/1070 auch die TitanX(P) verfügbar war. Später kamen dann die 1080Ti und TitanXp. So gesehen konnte man auch bei Pascal fast direkt zum Beginn den größten Chip kaufen, wenn auch nur als Titan Karte (und dann auch noch als Salvage).

Platos

2022-03-04, 11:10:06

...und Heute kostet der grösste Chip in allen Ausführungen sowieso (mindestens) so viel, wie damals die Titan :D

davidzo

2022-03-04, 12:36:15

Denkbar, dass ich da zu optimistisch bin. Ich bin einfach davon ausgegangen, dass NV aufgrund RDNA3 nicht kleckern kann, sondern klotzen muß.

Das NV zuletzt mit 60-80% Cutdowns angefangen hat, stimmt aber nicht:
3090 ist 82 von 84 SM von GA102
3070 ist 46 von 48 SM von GA104
3060 ist 28 von 30 SM von GA106

Okay, vielleicht habe ich auch etwas übertrieben. Aber die 3080 als erste und Stückzahlentechnisch populärste Ampere karte ist schon ein sehr starker cutdown. Die 3090 kam später und erreicht auch nicht das volumen der 3080.
Aber es stimmt, starke cutdowns gab es eigentlich immer nur vom top dog chip, also bei DIEs über 500mm2.
Dass bei kleineren DIEs die Yields etwas besser werden ist verständlich, insofern hast du recht dass man da von geringeren cutdowns ausgehen kann.

Andererseits ist Ampere auch insofern besonders, als das man hier von der Tradition abgewichen ist das Gaming Aushängeschild nur auf dem zweitbesten chip zu bringen (dort aber mit full silicon).
Bei Kepler kam zuerst eine 104 Karte als GTX680 und GK110 war zuerst mal nur für die Titan, kaum für gamer erhältlich. Erst mit dem Refresh gab es GK110 auch als 780er Karte. Ähnlich bei Maxwell, Pascal und, da kam die GTX980, 1080 nur auf dem Vollausbau des 204/104er Chips. Turing gab es erst mit dem refresh im Vollausbau.

Ich denke dass es das nvidias Ziel sein sollte die 4080 wieder mit dem kleineren 103er Chip zu bauen. Das ist von der Nomenklatur ja schon eine Kategorie höher als die früheren 104er Chip. Sonst explodieren die Kosten, gerade durch 5nm. Für Ampere hat man eine Ausnahme gemacht weil man gut mit Samsung verhandelt hat und die höheren Kosten einfach fressen konnte. Ich denke nicht dass das so geplant war, sondern eher eine Reaktion auf AMD Leaks bzw. eine Verzögerung des 103er Chips. Ursprünglich hat man die 3080 sicher mit GA103 bauen wollen.

Thunder99

2022-03-04, 12:44:23

Was mich stutzig macht ist die Anzahl der GPC vom 103 und 102. Gleich 12 beim 102 scheint mir etwas zu viel

reaperrr

2022-03-04, 13:51:54

Dass AMD sowohl einen L2 cache als auch den Infinity cache hat ist von außen auch nicht ganz schlüssig. Der L2 ist weder bei den Latenzen noch bei der Bandbreite viel besser als der IC.
Das ist mMn weniger als eine technische Notwendigkeit bei RDNA2 zu sehen, sondern als technologischer Zwischenschritt hin zu den externen Cache-Dies, die wohl ab RDNA3 für die physische Verbindung und Kommunikation zwischen den GCDs verwendet werden.

Es ging also nicht darum, die ideale Lösung für RDNA2 zu finden (die hätte vmtl. tatsächlich gelautet, einfach den L2 entsprechend groß zu machen), sondern dass sie im Bereich R&D hinsichtlich Cache-Hirarchie schon auf RDNA3 hingearbeitet haben.

Edit:
Was mich stutzig macht ist die Anzahl der GPC vom 103 und 102. Gleich 12 beim 102 scheint mir etwas zu viel

Warum?

+71% ggü. GA102 ist für mehr als FullNode-Shrink (Samsungs 8nm ist entgegen des Namens ja nur ein leicht optimierter 10nm-Prozess) relativ moderat.
Wenn sie nicht gezwungen wären jetzt auch auf fette Caches für mehr Bandbreite zu setzen, wären es vermutlich eher noch mehr GPC geworden (oder wenigstens mehr SM je GPC).

Dovregubben

2022-03-04, 16:14:46

Sonst explodieren die Kosten, gerade durch 5nm.
Das explodiert auch bei GPUs nur auf sehr niedrigem Niveau. Der Anteil der Waferkosten am Gesamtpreis wird immer maßlos übertrieben.

iamthebear

2022-03-04, 17:12:37

Das explodiert auch bei GPUs nur auf sehr niedrigem Niveau. Der Anteil der Waferkosten am Gesamtpreis wird immer maßlos übertrieben.

Da hast du vollkommen Recht. Die aktuellen Preistreiber sind VRAM, Kühler und diverse elektrische Komponenten wobei die letzten 2 ziemlich linear mit der maximalen Verlustleistung skalieren.

Was den Sprung von 8nm auf 5nm angeht:
.) Samsung 8nm auf TSMC bringt 1.4-1.5x Transistordichte (siehe AD100 vs. AD102)
.) TSMC 7nm auf 5nm dürfte im Schnitt um die 1.6x liegen. Logik skaliert besser, SRAM und analoge Einheiten schlechter aber der Großteil des Chips ist ja Logik.

Damit wären wir ca. bei 2.2x. Wenn man die +70% SM bedenkt sind es nun +30% pro SM. Der L2 macht davon ca. 10-15% aus. Entweder setzt Nvidia nicht ganz so aggressive Libraries ein und die 10-15% erklären sich daraus und sie holen den Rest über den Takt oder sie haben doch an der Architektur etwas geändert um durch zusätzlichen Transistoreinsatz die Taktrate zu erhöhen (ähnlich wie AMD von RDNA auf RDNA2).
Da aktuelle Samples anscheinend schon mit knapp 2.5GHz laufen können wir denke ich davon ausgehen, dass es bei der IPC oder FP32/INT Einheiter pro SM nicht viele Änderungen geben wird.

Platos

2022-03-04, 17:12:49

Das explodiert auch bei GPUs nur auf sehr niedrigem Niveau. Der Anteil der Waferkosten am Gesamtpreis wird immer maßlos übertrieben.

Gesamtpreis von was? Der GPU oder meinst du jetzt die ganze Grafikkarte? Wenn ersteres, woher kommt denn der Grossteil der Kosten sonst?

HOT

2022-03-04, 18:33:24

Ich hatte falsch gelesen.

iamthebear

2022-03-04, 20:56:29

Gesamtpreis von was? Der GPU oder meinst du jetzt die ganze Grafikkarte? Wenn ersteres, woher kommt denn der Grossteil der Kosten sonst?

Wenn du nur die GPU selbst betrachtest, ja dann sind die Fertigungskosten des Wafers der größte Teil.
Allerdings verkauft Nvidia schon seit langer Zeit keine einzelnen GPUs mehr. Früher war es immer das Bundle aus GPU + RAM, seit den Problemen mit den Lieferketten werden ganze BOM Kits verkauft wo noch eine ganze Menge an weiteren Komponenten dabei sind.

Der Anteil der Waferkosten an diesen BOM Kits ist jedoch deutlich geringer als viele denken.

Aktuell liegen die Kosten für einen TSMC Wafer im Bereich von 10K-15K $. Dieser hat 70.000 mm. Wenn Yieldraten, Verschnitt mitberücksichtigt sind die Kosten für 1mm² bei ca. 20-30 Cent. Wenn AD102 600mm² hat, dann ist AD103 ca. bei 350mm² und AD104 bei ca. 250mm². Wir reden bei AD103 vs. 104 also von 20-30$ an Produktionskosten. Dafür bekommt man 40% mehr Transistoren, was in etwa so viel ist wie eine 3080 vs. 3070.

Umgekehrt 2GB GDDR6 kosten aktuell 25$.

Der größere Die hat 40% mehr Transistoren und bringt selbst bei gleicher Verlustleistung > 20% mehr fps.
Was werden wohl die 2GB mehr RAM bringen wenn man z.B. von 12GB auf 14GB geht?

Also ich nehme für dasselbe Geld lieber den größeren Chip ;D

fondness

2022-03-05, 14:27:53

Angeblich aus den gestohlenen nVidia-Daten:
https://videocardz.com/ezoimgfmt/cdn.videocardz.com/1/2022/03/NVIDIA-Ada-LoveLace-GPU-Specs-1200x207.png?ezimgfmt=rs:1006x174/rscb1/ng:webp/ngcb1
https://videocardz.com/newz/nvidia-geforce-rtx-40-ada-gpu-architecture-specs-allegedly-leaked-up-to-144-streaming-multiprocessors

Gibt noch weitere leaks, auch speicherinterface sind geleakt und nvidia hat nun wohl 16mb l2 pro 64 bit. Also nicht viel kleiner als AMDs infinity Cache.

Ich weiß nicht, wie man hier im Forum mit Handy ordentlich zitiert,links macht:

From the same source: (all GPUs have no NVLink)

AD102(72 TPC) - 384bit
AD103(42 TPC) - 256bit
AD104(30 TPC) - 192bit
AD106(18 TPC) - 128bit
AD107(12 TPC) - 128bit

https://twitter.com/no_one180/status/1498823056696950786?t=JaQV6couRaWAhTILzizxVQ&s=19

Yes.

1 Fbs=16MB

102 6Fbs
103 4Fbs
104 3Fbs
106 2Fbs
107 2Fbs

https://twitter.com/9550pro/status/1498873569614315522?t=itSeovtODIQ5UjLndU4VAA&s=19

Wahnsinn, was haben die denn alles geleaked?^^

Hört sich auf jeden Fall nicht unplausible an und da direkt von NV-Servern gestohlen wird es natürlich auch stimmen.

Leonidas

2022-03-07, 14:36:01

Was mich stutzig macht ist die Anzahl der GPC vom 103 und 102. Gleich 12 beim 102 scheint mir etwas zu viel

Die haben IMO erkannt, dass die Architektur schlechter mit höheren FP32 skaliert, wenn auch nicht GPC hochgeht. Bei Ampere war ja GA104 schon bei 6 GPC, GA102 dann nur 7 GPC. Bei Ada ist nun alles recht gleichmäßig hochskaliert.

HOT

2022-03-07, 15:06:49

basix

2022-03-07, 15:45:27

Die Befürchtung, die ich dabei hab, ist, dass der Treiber nochmals deutlich CPU-Lastiger wird bei soviel GPC. Wollen wir mal hoffen, dass sich da NV was hat einfallen lassen, was das Problem bekämpft.

Kannst du das mit der CPU-Last bitte erläutern? Was ist dort der Zusammenhang mit den GPCs?

Linmoum

2022-03-08, 09:22:40

Ist MLID bei NV eher Intel-Glaubwürdigkeits-Niveau oder doch eher AMD-Glaubwürdigkeits-Niveau? Kann hier sicherlich jemand besser einordnen als ich.

https://i.gyazo.com/808fb7c8a0288a72d1becd53980adb90.jpg
https://i.gyazo.com/b19da834dc80e109083a228c79b8f6b5.jpg

c--1_0HqB3w

Troyan

2022-03-08, 09:37:08

Ampere vergessen? Da hat nichts gestimmt. Und hätte er quellen, könnte erstmal Hopper leaken.

Linmoum

2022-03-08, 09:42:21

Von Hopper hört man von sämtlichen (auch nachweislich glaubwürdigen) Leakern in Relation zu Ada so gut wie nichts.

Ist für die "Zielgruppe" halt auch uninteressant.

basix

2022-03-08, 09:44:58

Bei Nvidia ist MLID oftmals etwas weiter weg von der Wahrheit. Bei AMD und insbesondere Intel scheint er bessere Quellen zu haben. Nvidia ändert aber auch relativ oft ihre Pläne und macht Anpassungen. Ampere war zudem auch eine richtige Achterbahnfart, von allen Leakern.

ChaosTM

2022-03-08, 09:50:14

Die NV leaks waren fast alle 100% Müll beim letzten Mal (Coprozessor :D ) . Vorsicht sei geboten..

AffenJack

2022-03-08, 09:50:41

Bei Nvidia gab es von Ihm bisher nix anderes als pures Rätselraten, man kann davon ausgehen, dass er sich alles zu Nvidia selbst ausdenkt, bzw woanders abschreibt (Foren) ohne Quellen zu haben.

Von Hopper hört man von sämtlichen (auch nachweislich glaubwürdigen) Leakern in Relation zu Ada so gut wie nichts.

Ist für die "Zielgruppe" halt auch uninteressant.

Die Konfiguration von Hopper wurde doch schon vor Ewigkeiten geleakt von kopite, einzig TDP und endgültige SKUs fehlt noch.
Genauere Details sind auch sonst bei HPC eher nicht geleakt, weil meist eh erst nach einigen Monaten ausgeliefert wird, auch wenn man in 2 wochen auf der GTC ankündigt.

AffenJack

2022-03-08, 09:52:07

sry doppelpost, bitte löschen

basix

2022-03-08, 09:59:08

Die NV leaks waren fast alle 100% Müll beim letzten Mal (Coprozessor :D ) . Vorsicht sei geboten..

haha, der Coprocessor. Was für ein Nonsense das damals doch war, das wurde damals schon zerrissen. Kam initial aber glaube ich von Coreteks.

Ich schliesse einen Coprocessor in Zeiten von 3D-Stacking aber nicht per se aus. Von AMD gab es auch letztens ein Patent, bei welchem Matrix-Beschleuniger in den SRAM-Chiplets (MCD) ausgelagert waren. Ich frage mich aber, ob dies für Raytracing wirklich Sinn macht. Die Nähe der RT-Cores zu den TMUs wurde nicht grundlos so gewählt (von AMD, Nvidia und Intel).

ChaosTM

2022-03-08, 10:14:16

Jup, Coreteks war das. Ich mag den Jungen normalerweise. :)
Verschiedene "Prozessortypen" für verschiedene Anwendungen sind natürlich vorstellbar wie RT und Tensor Cores. Könnte man im weitesten Sinne des Wortes als "CoProzessoren" bezeichnen.
Sind es aber nicht wirklich, abhängig von der Definition.

basix

2022-03-08, 10:23:34

Coprocessor ist vermutlich zu hoch gegriffen, das stimmt. Accelerators trifft es wohl besser.

WedgeAntilles

2022-03-08, 10:24:18

Niedlich, wie er den Abstand bei RT zwischen Ampere und RDNA2 konstant ignoriert.

Soll das heißen, man darf auch beim RDNA3 und Lovelace Vergleich wieder RT nicht betrachten? Muss auch bei RDNA3 RT wieder deaktiviert werden?

Klar, bei den etwas weniger anspruchsvollen Spielen hat die 6900XT schon heute die Nase oft vor der 3090.
Nur: Was bringt es mir, wenn man jene Duelle gewinnt, in denen jeder sowieso 100, 200, 300 Frames hat?

Wenn ich dafür jene Duelle, in denen die Karten bei 30, 40 oder 60 Frames sind verliere?

Wen interessiert der Sieg bei einem Spiel wie RainbowSix Sieg?

Wenn ich einmal 150 Frames und einmal 30 Frames habe, habe ich in beiden Spielen statistisch gesehen 90 Frames.
Toll. Statistisch gesehen.
Nur bleibt in der Realität halt ein Spiel das traumhaft läuft und eines das quasi unspielbar ist.

Das Ziel einer GraKa sollte sein, alle Spiele in bester Qualität in guten Frames darzustellen.
Nicht in manchen Spielen exorbitante Frames zu haben und in anderen Spielen dafür unspielbar niedrige Frames zu erzeugen.

Und ein Detail wie DLSS, das einem halt mal 30,40,50% Performance schenkt, ignoriert er auch ständig.
Ja, nicht jedes Spiel hat es - aber auch hier gilt wieder: Wozu braucht man es bei einem Spiel, das eh schon überall gut läuft.
DLSS ist dort relevant wo die Frames geringer sind - und Überraschung: Gerade bei diesen (RT) Spielen ist DLSS bereits heute meist vorhanden.

basix

2022-03-08, 10:29:01

RDNA3 wird bezüglich RT sicher deutlich anders bewertet werden. Da kann man sich nicht mehr dahinter verstecken, dass es noch wenige Spiele mit RT gibt.

Dito bezüglich Temporal Upsampling. DLSS ist mittlerweile wirklich gut verbreitet und bietet oftmals richtigen Mehrwert.

Aber bei beiden Themen bin ich mir sicher, dass AMD nachlegen wird und die Lücke verringern wird. Bei RT unter Umständen sogar schliessen, da evtl. einfach mehr Rohpower vorhanden ist.

Leonidas

2022-03-08, 10:36:28

Ampere war zudem auch eine richtige Achterbahnfart, von allen Leakern.

Nicht korrekt bzw. falsch im Gedächtnis:

Die Ampere-Chipdaten waren seit Mai 2019 bekannt. Aber: Die Portfolio-Nachzügler, die im Herbst 2020 gehandelt wurden (3080-20GB, 3070-16GB), da hat NV ständig neue Pläne gemacht und damit dann auch die Leaker aus dem Konzept gebracht. Möglicherweise beziehst Du Dich darauf.

WedgeAntilles

2022-03-08, 10:37:16

Aber bei beiden Themen bin ich mir sicher, dass AMD nachlegen wird und die Lücke verringern wird. Bei RT unter Umständen sogar schliessen, da evtl. einfach mehr Rohpower vorhanden ist.

Möglich.
Allerdings sollte man nicht vergessen, dass Nvidia da enorm vorne ist.
50%? Habe ich jetzt nicht nachgeschaut.

Falls sich die RT Performance bei Lovelace also verdoppelt müsste sich die Raytracing Performance von AMD verdreifachen um gleichzuziehen.
Falls Nvidia die RT Performance überproportional steigert sogar eher vervierfachen.

Ich will ja nix ausschließen, aber mir werden - generell, sowohl AMD als auch Nvidia! - die neuen GraKa Generationen zu sehr als Heiliger Gral präsentiert.
Verdoppelung der normalen Performance
Verdreifachung der RT Performance
Und was weiß ich noch alles.

Sorry, das hat es doch in den 30 Jahren seit es GraKas gibt noch nie gegeben.

So sehr ich mich freuen würde wenn sich alles verdoppelt, verdreifacht - ich bezweifle, das wir derartige Sprünge wirklich sehen werden.
(Edit: Was natürlich nichts an der Wahrscheinlichkeit ändert, ob AMD bei RT aufholt bzw. Nvidia sogar einholt. Sind die Leistungsgewinne geringer, muss ja auch der RT Zuwachs bei AMD geringer werden um gleichzuziehen. Relativ gesehen ändert sich ja nichts.)

basix

2022-03-08, 10:53:44

Nicht korrekt bzw. falsch im Gedächtnis:

Die Ampere-Chipdaten waren seit Mai 2019 bekannt. Aber: Die Portfolio-Nachzügler, die im Herbst 2020 gehandelt wurden (3080-20GB, 3070-16GB), da hat NV ständig neue Pläne gemacht und damit dann auch die Leaker aus dem Konzept gebracht. Möglicherweise beziehst Du Dich darauf.

Ja genau das. Bekannt war vieles schon früh. Nur released worden ist vieles nie ;) Gab immer wieder ja, nein, ja, nein, vielleicht irgendwann mal.

Möglich.
Allerdings sollte man nicht vergessen, dass Nvidia da enorm vorne ist.
50%? Habe ich jetzt nicht nachgeschaut.

Falls sich die RT Performance bei Lovelace also verdoppelt müsste sich die Raytracing Performance von AMD verdreifachen um gleichzuziehen.
Falls Nvidia die RT Performance überproportional steigert sogar eher vervierfachen.

Ich will ja nix ausschließen, aber mir werden - generell, sowohl AMD als auch Nvidia! - die neuen GraKa Generationen zu sehr als Heiliger Gral präsentiert.
Verdoppelung der normalen Performance
Verdreifachung der RT Performance
Und was weiß ich noch alles.

Sorry, das hat es doch in den 30 Jahren seit es GraKas gibt noch nie gegeben.

So sehr ich mich freuen würde wenn sich alles verdoppelt, verdreifacht - ich bezweifle, das wir derartige Sprünge wirklich sehen werden.
(Edit: Was natürlich nichts an der Wahrscheinlichkeit ändert, ob AMD bei RT aufholt bzw. Nvidia sogar einholt. Sind die Leistungsgewinne geringer, muss ja auch der RT Zuwachs bei AMD geringer werden um gleichzuziehen. Relativ gesehen ändert sich ja nichts.)

RT ist ein Spezialfall, da es Accelerators beinhaltet. Dort kann es schon Step Functions geben. Turing ist bei RT, keine Ahnung, 7x schneller als Pascal. Nvidia liegt verglichen mit RDNA2 bei Heavy Raytracing zum Teil fast 2x vorne. Das kann man mit Accelerators schon aufholen. Und wie gesagt, N31 wird mit hoher Wahrscheinlichkeit mehr Rohperformance als Lovelace mitbringen. Die relative RT-Performance muss also nicht zwingend auf Lovelace Niveau liegen.

Und N31/32 an sich sind weitere Step Functions: MCM GPUs. Dreifache Anzahl CUs sind schon eine Ansage. TSMC N5 wird mit verdoppelter Energieeffizienz angegeben. Zusammen mit höheren TDPs ist verdoppelte Performance nicht unmöglich. AMD hat bei RDNA2 +50% Effizienz im selben Node geschafft. Nvidia ebenso bei Maxwell vs. Kepler. Und man kann es dann so sehen: Gerüchteweise stehen 2.7x Raster-Performance verglichen mit N21 im Raum. Kann AMD die RT-Performance zusätzlich um +50% steigern (was knapp Turing Niveau wäre), kommen wir auf deine genannten 4x Performancesprung verglichen mit N21.

Und RT muss man auch so bewerten: Performance-Verlust inkl. RT. Im Optimalfall: 0%. Bei Nvidia liegt das momentan in den meisten Spielen bei -20...40%. Auch wenn Nvidia nun die 0% erreichen würde und AMD knapp Turing/Ampere Niveau, relativ gesehen würde AMD die Lücke verringern. Und da 0% unrealistisch sind, wird AMD zwangsläufig die Lücke verringern, einfach weil sie relativ gesehen den grösseren Sprung machen können als es Lovelace je könnte.

WedgeAntilles

2022-03-08, 11:06:15

Und N31/32 an sich sind weitere Step Functions: MCM GPUs. Dreifache Anzahl CUs sind schon eine Ansage. TSMC N5 wird mit verdoppelter Energieeffizienz angegeben. Zusammen mit höheren TDPs ist verdoppelte Performance nicht unmöglich. AMD hat bei RDNA2 +50% Effizienz im selben Node geschafft. Nvidia ebenso bei Maxwell vs. Kepler. Und man kann es dann so sehen: Gerüchteweise stehen 2.7x Raster-Performance verglichen mit N21 im Raum. Kann AMD die RT-Performance zusätzlich um +50% steigern (was knapp Turing Niveau wäre), kommen wir auf deine genannten 4x Performancesprung verglichen mit N21.

Ich sage nicht, dass es unmöglich ist.

Ich für meinen Teil bin zufrieden, wenn wir +70% Leistung bekommen - das wäre mehr, als die letzten 10 Jahre.

Falls wir dann doch 100% bekommen - traumhaft :)

(Wobei natürlich auch immer der Ankerpunkt entscheidend ist - wenn ich +100% Performance z.B. bei der 4070 verglichen zur 3070 bekomme, dafür aber auch 1-2 Preiskategorien nach oben rücke - ich also bei 800 Euro aufwärts bin - relativiert es sich auch wieder.)

Ich hoffe einfach auf gute Hardware - egal von wem - zu einem vernünftigen Preis.

Wappnen tue ich mich gefühlsmäßig aber sicherheitshalber auf +70% Leistung, dafür die +100% beim Preis...
So kann ich ja hoffentlich nur positiv überrascht werden :)

Troyan

2022-03-08, 11:09:14

Die Konfiguration von Hopper wurde doch schon vor Ewigkeiten geleakt von kopite, einzig TDP und endgültige SKUs fehlt noch.
Genauere Details sind auch sonst bei HPC eher nicht geleakt, weil meist eh erst nach einigen Monaten ausgeliefert wird, auch wenn man in 2 wochen auf der GTC ankündigt.

Hopper wird laut HPCWire angeblich schon an Kunden ausgeliefert: https://twitter.com/HPC_Guru/status/1499343489598853120

Und ich finde Hopper nicht unteressant: MCM? Copa?

basix

2022-03-08, 12:24:28

Hopper wird spannend, ja. MCM, Copa (Cache Chiplets), HBM3(?), FP64-Boost? RT-Cores?

Wieso ich letzteres noch hinzugefügt habe: Eine Titan H wäre noch geil :D DLSS wäre aufgrund der sehr hohen Tensor-Core Performance zudem "fast" gratis.

Troyan

2022-03-08, 12:26:24

Hopper wird kaum noch "GPU"-Elemente haben. Wir wie bei AMD auf Compute reduziert werden.

basix

2022-03-08, 12:27:19

Vermutlich ja. Eine Titan wäre dennoch sexy ;)

Andererseits: Wie sieht es mit RT-Rendering im Data Center Umfeld aus? Ich habe hier professionelle Tools oder Renderfarmen für CGI in Filmen im Sinn

Troyan

2022-03-08, 12:47:32

Läuft über Gaming-Ampere bzw. dann Lovelace.

AffenJack

2022-03-08, 13:00:10

Hopper wird kaum noch "GPU"-Elemente haben. Wir wie bei AMD auf Compute reduziert werden.

Genau, da gab es ja von Greymon oder so ja auch schon den Post bei Twitter, dass nur 1 GPC Cluster pro Hopperchip grafikfähig ist.

Geldmann3

2022-03-08, 15:05:12

Rechne bei Lovelace mit rund +50% MSRP pro Karte und +80% Performance.
Mal schauen wie Nvidia das wieder schön mit kreativer Benamung und neuen Features verschleiert.

Blediator16

2022-03-08, 15:06:10

HOT

2022-03-08, 15:10:09

Rechne bei Lovelace mit rund +50% MSRP pro Karte und +80% Performance.
Mal schauen wie Nvidia das wieder schön mit kreativer Benamung und neuen Features verschleiert.

Die 3080 hat 759€ UVP (FE). Dann wird die 4080 sicherlich mit ca. 900€ an den Start gehen, auf jeden Fall aber unter 1000€. 40% mehr ist Blödsinn mMn. Man darf einfach nicht den Fehler machen, die GPU-Krise zu stark einzukalkulieren.

Hast du eigentlich vor dem Release von RDNA2 nicht ständig davon geredet, dass AMD bereits auf 7nm sei und wenn NV auf Samsung 8nm geht vollends in Sachen Effizienz zerstört wird, da es auf dem selben Node gar nicht möglich ist so einen Effizienzrückstand aufzuholen?

Ball flach halten.

Das gilt aber auch dafür, denn der Unterschied wird in der Praxis nicht sonderlich groß sein zwischen 8LPP und N7, selbst wenn ein paar MHz mehr drin gewesen wären. Aber die Karten werden eben neu gemischt. Es gibt keine sonderlichen Erwartungen meinerseits, mMn ist der Kampf völlig offen.

Geldmann3

2022-03-08, 15:16:48

Die 3080 hat 759€ UVP (FE). Dann wird die 4080 sicherlich mit ca. 900€ an den Start gehen, auf jeden Fall aber unter 1000€. 40% mehr ist Blödsinn mMn. Man darf einfach nicht den Fehler machen, die GPU-Krise zu stark einzukalkulieren.

Naja, wir haben gerade nicht nur eine GPU Krise sondern eine Krise bei sehr vielen Ressourcen.

Vielleicht heißt die 4080 dann einfach 4090 und kostet 1149€.
Damit würde Nvidia gut dastehen. 60-70% schneller als eine RTX 3090 und man hat den Preis scheinbar gar ,,reduziert".
Ein Quantensprung für viel weniger Geld, dafür kann Nvidia sich hart feiern lassen. (Trotz eines 50% höheren Preises, für dieselbe Chipklasse.)

Die 4090 heißt dann einfach 4090 Ti und kostet ihre 1999€. :rolleyes::wink:

HOT

2022-03-08, 15:59:03

Die wird schon 900€ UVP bekommen, der reale Preis ist dann ja nach wie vor ein anderer.

Wobei bei der derzeitigen Situation kann bis dahin aus 900€ schnell 9.000.000€ werden - oder 0,02527451 BTC.

WedgeAntilles

2022-03-08, 16:14:08

Hast du eigentlich vor dem Release von RDNA2 nicht ständig davon geredet, dass AMD bereits auf 7nm sei und wenn NV auf Samsung 8nm geht vollends in Sachen Effizienz zerstört wird, da es auf dem selben Node gar nicht möglich ist so einen Effizienzrückstand aufzuholen?

Ball flach halten.
Nein, habe ich nicht.
Da ich so gut wie keine Ahnung von den ganzen Fertigungsprozessen habe. Also kann ich auch nicht drüber reden.

In wie fern ich den Ball nicht flach halte entzieht sich mir btw vollkommen - ich stelle Fragen und gebe mich selber mit 70% Performanceplus schon zufrieden. Wo alle anderen von 2 fach und noch mehr reden.

Aber egal, du brauchst mir darauf nicht zu antworten.

Neurosphere

2022-03-12, 08:17:31

https://mobile.twitter.com/kopite7kimi/status/1502510227861622785

Someone told me the xx90 with 600W TGP has been confirmed.

Pre Si. But that's not a prediction, it's a plan.

Vermutlich wirds zum einen so laufen das NV in der Preisklasse die Leistungsaufnahme egal ist weils die Kunden akzeptieren und zum anderen ist halt immernoch die Frage worauf sich das bezieht. Könnte ja auch die Auslegung der Referenzplatine sein usw usw.

OgrEGT

2022-03-12, 08:46:01

TSMC 5nm, mehr Recheneinheiten neue Architektur und ekektrisches und thermisches Grenzgebiet mit 600W... Die Frage also warum geht NV mit Lovelace von Anfang an gleich all in?

mironicus

2022-03-12, 09:33:40

Bei diesen TDP-Raten sollte ich erwägen irgendwann komplett zu Apple-Silicone zu wechseln... :D

HOT

2022-03-12, 09:50:52

https://mobile.twitter.com/kopite7kimi/status/1502510227861622785

Vermutlich wirds zum einen so laufen das NV in der Preisklasse die Leistungsaufnahme egal ist weils die Kunden akzeptieren und zum anderen ist halt immernoch die Frage worauf sich das bezieht. Könnte ja auch die Auslegung der Referenzplatine sein usw usw.

Na ja mal abwarten wie der Chip nach dem Tapeout performt.

BlacKi

2022-03-12, 09:56:53

wtf^^

und die leute haben sich schon über die +80w der 3090 aufgeregt^^

irgendwie surreal

robbitop

2022-03-12, 10:23:08

HOT

2022-03-12, 10:33:25

Für die 4080 erwarte ich trotzdem nicht mehr als 350W, vielleicht maximal aber 400W.

AffenJack

2022-03-12, 11:05:50

TSMC 5nm, mehr Recheneinheiten neue Architektur und ekektrisches und thermisches Grenzgebiet mit 600W... Die Frage also warum geht NV mit Lovelace von Anfang an gleich all in?

Man kann nur über Takt gehen, um gegen N31 halbwegs anzukommen, wenn die Gerüchte stimmen. Ziel Nvidias mit Lovelace muss sein N31 bei Raytracing schlagen zu können, auch wenn man bei Rasterisierung verliert. Mit 600mm² kannst du einfach nicht ordentlich gegen 800-1000mm² bei N31 ankommen. Und wenn du am Ende eh verlierst, kannst auch zu Beginn alles raushauen, was geht und die Verkäufe einheimsen. Schließlich soll AD102 3-6 Monate früher als N31 kommen.

Für die 4080 erwarte ich trotzdem nicht mehr als 350W, vielleicht maximal aber 400W.

Gehe ich auch von aus. Das wird schlicht die größte Lösung, vll auch sowas wie eine Special Edition/Liquid oder so und die normale 4090 kriegt 450-500W.

Troyan

2022-03-12, 11:09:40

Weil es lächerliche Tweets sind. Der Typ kann nichtmal Hopper leaken, aber bei Lovelace hat er also wieder mal Informationen.

Bei 600W ist Lovelace 3x schneller als Ampere. Da hat AMD mit 600W+ kaum eine Chance.

Thunder99

2022-03-12, 11:18:31

Selten skaliert Leistungsaufnahme mit Geschwindigkeit 1:1

Troyan

2022-03-12, 11:21:11

Die Transistorenzahl wird wahrscheinlich abnormal sein. TSMC 5nm erlaubt knapp 4x mehr Transistoren pro Fläche als Samsung 8nm. Selbst GA100 hat eine knapp 60% bessere Packdichte als GA102.

Mehr Transistoren -> mehr Leistung.

Linmoum

2022-03-12, 11:23:02

Nimmt man bisherige Gerüchte/Specs/Leaks (u.a. 240CU vs. 144SM) und geht davon aus, dass diese zutreffend sind, wird Nvidia auch bei 600W gegen N31 abstinken. RT außen vor, wobei der Abstand da IMO auch deutlich kleiner sein wird.

Von 350W auf potentiell 600W gehst du nicht aus Spaß an der Freude. Das wäre Brechstange pur.

Troyan

2022-03-12, 11:28:30

Nimmt man die bisherigen Gerüchte, dann wird AMD bei 1000W+ ziemlich abstinken. RT keine Frage, bei Rasterizing wird es ein Schlachtfest.

Von 350W auf 1000W gehst du nicht aus Spaß an der Freude. Das ist wirklich Verzweiflung pur.

Dovregubben

2022-03-12, 12:02:03

Linmoum

2022-03-12, 12:11:45

Troyan

2022-03-12, 12:18:11

Und wie bei jeder einzelnen Grafikkartengeneration beginnt es von vorne.
- AMD wird Nvidia total vernichten !!!1!1!!!11!!!
- AMD wird Nvida total vernichten außer in Anwendungsfall X
- ...
- AMD kann in vielen Anwendungsfällen mithalten, wenn man Features X,Y,Z nicht nutzt, aber die Performance wir durch Treiber garantiert viel besser werden und irgendwann Nvidida vernichten
- repeat

Ich weiß noch, wie der 8nm Prozess von Samsung hier kritisiert wurde und nun ist Ampere lichtjahre besser. Jetzt wollen die selben Leute uns erklären, dass auf dem selben Prozess(!) AMD besser wäre.

Achja, wie genau ist ein MCM Design eigentlich besser, wenn der Konkurrent nicht flächenlimitiert ist?

robbitop

2022-03-12, 12:35:36

BlacKi

2022-03-12, 13:04:32

Bei jeder Generation? Bei Ampere war man vielfach fest davon überzeugt, dass AMD es nicht einmal in die Nähe von NV schaffen wird. Jetzt bietet man ähnliche Rasterizer-Performance und hat die effizienteren Produkte.

Ich finde eher das Narrativ amüsant, dass NV unschlagbar ist. Manch einer wird sich bei MCM vs. Monolithisch noch umgucken.

wenn die gerüchte stimmen, dann macht mcm viel performance wieder kaputt. ampere muss mit 2 gewaltigen nachteilen rdna2 schlagen. fertigungsprozess und gddr6x. hätte nv dieselben umstände, dann wäre nv selbst ohne dlss weit vorne.

mit next ampere und rdna3 werden die karten wieder neu gemischt. ich würde mich nicht festlegen wie es ausgeht, aber mit der kommenden generation hat amd möglicherweise mehr mit nachteilen zu kämpfen als bisher.

mit n5 und der möglichkeit gddr6x hintersich zu lassen, kann nv wieder frei drehen. ohne irgendwelche nachteile. auch von dem vorteil vom großen cache kann nv profitieren.

naja, mal sehen. ich sehe noch keinen wirklich vorne.

Platos

2022-03-12, 14:02:29

Naja wäre möglich in dem man dank MCM noch viel mehr Transistoren investieren kann und entsprechend die Frequenz nicht hochprügeln muss. f~P^3.
Die Energiekosten für Datentranfers zwischen Chips könnte dank modernen Packaging so gesunken sein, dass es kaum noch einen Unterschied macht. Info LSI, CoWos oder sogar 3D Stacking.

MCM wird aber immer mehr Strom verbrauchen bei gleichem Takt und gleicher Anzahl Einheiten. Und bei AMDs CPUs sieht man zumindest im Niedriglastbereich, dass ihre Chiplet-CPUs da richtig schlecht sind. Aber bei den Top-End Grafikkarten mit 600W wird wohl niemand den Stromverbrauch bei niedriglast interessieren :D

Naja, ausser mich natürlich. Ich takte/volte die Grafikkarte dann einfach so, dass der Stromverbrauch passt.

Wobei ich sagen muss: Wenn der hohe Stromverbrauch effizient wäre!, fände ich es nicht mal sooo schlimm. Also wenn die Perfomance 1 zu 1 mit dem Stromverbrauch hoch geht. Aber wir wissen alle, dass das nicht so sein wird. Bei Ampere wars schliesslich auch schon weit ausserhalb des Optimums. Aber bis zu einem gewissen Grad steigt/sinkt die Perfomance/takt ziemlich 1zu 1 mit dem Stromverbrauch.

Jetzt mal angenommen, die 600W wären einfach 1 zu 1 2x 300W Grafikkarten, hätte ich nichts dagegen. Kann man als funktionierendes SLI betrachten :D Wird aber natürlich nicht so sein. Wird komplett ineffizient betrieben, um paar Prozent vorne zu sein.

Aber MCM finde ich vor allem deshalb interessant, weil man so quasi "SLI" wiederbeleben könnte (ohne dessen Nachteile). Also mit MCM könnte man das Portfolio nach oben hin ausweiten, ohne dass man dafür Titan-Preise verlangt. Naja... Könnte...

Neurosphere

2022-03-12, 14:27:01

Puh, hätte ich gewusst das manche sich persönlich angegriffen fühlen wenn man hier was reinstellt und ihr Lieblingsverei... äh Hersteller in einem eher negativen Licht dastehen lässt und ein Vergleich mit AMD sich nunmal eignet weil ohne Konkurenz wohl nicht die Entscheidung von NV, hät ichs wohl seinlassen sollen....

Ach was solls:

4080 450W
4090 600W
4090Ti 800W+？？？？

https://twitter.com/greymon55/status/1502586331536388097

AffenJack

2022-03-12, 14:30:13

Aber MCM finde ich vor allem deshalb interessant, weil man so quasi "SLI" wiederbeleben könnte (ohne dessen Nachteile). Also mit MCM könnte man das Portfolio nach oben hin ausweiten, ohne dass man dafür Titan-Preise verlangt. Naja... Könnte...

Wieso sollte man das Portfolio nach oben erweitern ohne höhere Preise, wenn man damit Crossfire/SLI ersetzt? Die Fertigungskosten von Chipletgpus mit riesigen mm² insgesamt werden bestimmt nicht gering werden. Nicht umsonst sind gerade ins Spiel gebrachte Preise von den Leakern im Bereich oberhalb von 2000€ für N31. Das wird sowohl im Verbrauch, als auch im Preis der Ersatz für diese Klasse.

Bei jeder Generation? Bei Ampere war man vielfach fest davon überzeugt, dass AMD es nicht einmal in die Nähe von NV schaffen wird. Jetzt bietet man ähnliche Rasterizer-Performance und hat die effizienteren Produkte.

Ich finde eher das Narrativ amüsant, dass NV unschlagbar ist. Manch einer wird sich bei MCM vs. Monolithisch noch umgucken.

Ich weiß nicht, was für News du liest, aber ich hatte einen anderen Eindruck. Bei Ampere war man eher überzeugt, dass RDNA2 Nvidia komplett auseinandernimmt. Ich erinnere mich noch an den Nvidia-Killer etc. Das war wie jedes Mal in den letzten Jahren ein Hypetrain, der komplett sinnlos war und dieser Hypetrain wurde von Leuten wie MLID, RedgamingTech etc geschürt. Ein guter Teil der gleichen Leute, von denen die AMD "Leaks" gerade kommen. Wenn Greymon und Kimi nicht auch mit dabei wären, wäre ich sehr skeptisch.

Wuge

2022-03-12, 14:56:42

Muss ja keiner kaufen. Man kann ja die SKU kaufen die ins TDP Budget passt. Perf/W wird sicher besser. Wenn man einen 2,x speedup erwartet (was es seit Jahrzehnten nicht gab) muss man wohl auch mit TDP bezahlen oder halt den üblichen 40-60% speedup der nächst kleineren SKU nehmen.

So siehts aus... was soll das gejammer. Es wird genug Karten mit 150, 200, 300W TDP geben und die werden alle effizienter sein als alles bisher dagewesene. Lasst NVidia doch ruhig eine 800W SKU bringen - solange die letzten 200W nicht komplett ins Skalierungsnirvana gehen bin ich der erste ders bestellt.

Hab meiner 3090 das Powerlimit entfernt, genau wie der 2080ti zuvor. Wenn das dafür sorgt, dass ich mal 45 statt 30 FPS beim Flugzeugträgerstart in der F-14 habe scheiß ich auf den Watt-Peak. Es gihbt usecases da limitert die GPU so hart, dass jeder Verbrauch in Ordnung geht solange die Leistung entsprechend mitskaliert.

Platos

2022-03-12, 15:11:29

Wieso sollte man das Portfolio nach oben erweitern ohne höhere Preise, wenn man damit Crossfire/SLI ersetzt? Die Fertigungskosten von Chipletgpus mit riesigen mm² insgesamt werden bestimmt nicht gering werden. Nicht umsonst sind gerade ins Spiel gebrachte Preise von den Leakern im Bereich oberhalb von 2000€ für N31. Das wird sowohl im Verbrauch, als auch im Preis der Ersatz für diese Klasse.

Wird man nicht. Ich sage nur, es wäre möglich, weil durch Chiplets die Preise gegen oben hin nicht expodieren. Somit könnte man das Portfolio nach oben hin erweitern, ohne dafür exorbitante Preise zu verlangen. Das ginge heute nicht. Die DIEs werden natürlich immer teurer, je grösser sie werden. Es wäre also mit MCM ökonomisch möglich. Dass sie sich das trotzdem ungehindert fürstlich bezahlen lassen, ist mir aber auch klar.

Thunder99

2022-03-12, 15:15:11

Ist das sicher? Befürchte eher, dass wir dann 300W bei einer x60 SKU sehen werden, lasse mich aber positiv überraschen.

Platos

2022-03-12, 15:24:14

Ist das sicher? Befürchte eher, dass wir dann 300W bei einer x60 SKU sehen werden, lasse mich aber positiv überraschen.

Natürlich ist es nicht sicher. Die 3060 hat ja jetzt schon 170W. Und irgendwo verlieren die kleinen Karten auch komplett ihre Relevanz, wenn sie erst kurz vor dem Launch der nächsten Generation launchen. Die 3050 z.B ist erst dieses Jahr raus gekommen.

Man kann aber die Karte einfach manuell so takten/untervolten, dass sie eben den richtigen Verbrauch hat. Dazu brauchts natürlich entsprechende Tests, damit man entscheiden kann, ob das P/L auf diesen Verbräuchen genug gut ist für einen persönlich.

BlacKi

2022-03-12, 15:29:17

Ist das sicher? Befürchte eher, dass wir dann 300W bei einer x60 SKU sehen werden, lasse mich aber positiv überraschen.was interessieren namen? die können von mir aus die karte rtx 4050 nennen. wenn die karte bei dem verbrauch wesentlich effizienter ist, dann spielen die 300w doch keine rolle.
jeder wird sich das portfolio ansehen und danach bewerten für was er sich entscheidet. da spielt der name keine rolle.

robbitop

2022-03-12, 15:47:48

MCM wird aber immer mehr Strom verbrauchen bei gleichem Takt und gleicher Anzahl Einheiten. Und bei AMDs CPUs sieht man zumindest im Niedriglastbereich, dass ihre Chiplet-CPUs da richtig schlecht sind. Aber bei den Top-End Grafikkarten mit 600W wird wohl niemand den Stromverbrauch bei niedriglast interessieren :D

Naja, ausser mich natürlich. Ich takte/volte die Grafikkarte dann einfach so, dass der Stromverbrauch passt.

Wobei ich sagen muss: Wenn der hohe Stromverbrauch effizient wäre!, fände ich es nicht mal sooo schlimm. Also wenn die Perfomance 1 zu 1 mit dem Stromverbrauch hoch geht. Aber wir wissen alle, dass das nicht so sein wird. Bei Ampere wars schliesslich auch schon weit ausserhalb des Optimums. Aber bis zu einem gewissen Grad steigt/sinkt die Perfomance/takt ziemlich 1zu 1 mit dem Stromverbrauch.

Jetzt mal angenommen, die 600W wären einfach 1 zu 1 2x 300W Grafikkarten, hätte ich nichts dagegen. Kann man als funktionierendes SLI betrachten :D Wird aber natürlich nicht so sein. Wird komplett ineffizient betrieben, um paar Prozent vorne zu sein.

Aber MCM finde ich vor allem deshalb interessant, weil man so quasi "SLI" wiederbeleben könnte (ohne dessen Nachteile). Also mit MCM könnte man das Portfolio nach oben hin ausweiten, ohne dass man dafür Titan-Preise verlangt. Naja... Könnte...
Mit modernen Packaging Methoden sinkt der Einfluss der Energiekosten für den Datentransfer erheblich. Um Größenordnungen.
Ja kostet sicherlich immer ein wenig mehr. ABER wir gesagt wenn du durch MCM potenziell doppelt so viele Transistoren verbauen kannst, kannst du mit dem Takt deutlich runter. Leistungsaufnahme skaliert zur dritten Potenz mit dem Takt. Dagegen sind die Kosten für das Interface Peanuts. Siehe aktuell M1 Ultra von Apple. Man baut den Chip super breit und fährt richtig entspannte Taktraten und ist in Summe damit effizienter.

BlacKi

2022-03-12, 16:08:16

Mit modernen Packaging Methoden sinkt der Einfluss der Energiekosten für den Datentransfer erheblich. Um Größenordnungen.
Ja kostet sicherlich immer ein wenig mehr. ABER wir gesagt wenn du durch MCM potenziell doppelt so viele Transistoren verbauen kannst, kannst du mit dem Takt deutlich runter. Leistungsaufnahme skaliert zur dritten Potenz mit dem Takt. Dagegen sind die Kosten für das Interface Peanuts. Siehe aktuell M1 Ultra von Apple. Man baut den Chip super breit und fährt richtig entspannte Taktraten und ist in Summe damit effizienter.

ja, aber das ist ein kostenfaktor. billig ist das nicht. 1000mm² wird auch mit mcm nicht billig. höherer takt kostet (fast)nichts und spart siliziumfläche.

wenn man also die effizienz steigern will, dann kostet das marge.

2022-03-12, 16:13:04

Was spricht eigentlich dagegen die GDDR Speicherchips mit MCM direkt aufs package zu packen? Oder wäre das einfach eine schlechtere Umsetzung von HBM?

Troyan

2022-03-12, 16:14:50

Was spricht eigentlich dagegen die GDDR Speicherchips mit MCM direkt aufs package zu packen? Oder wäre das einfach eine schlechtere Umsetzung von HBM?

Kein Platz... Wenn die Leitung zu nah sind, gibt es bestimmt interferenzen.

Linmoum

2022-03-12, 16:37:15

ja, aber das ist ein kostenfaktor. billig ist das nicht. 1000mm² wird auch mit mcm nicht billig. höherer takt kostet (fast)nichts und spart siliziumfläche.IMO wird der Unterschied insgesamt zwischen 800mm2-1000m2 (aufgeteilt auf drei Dies) vs. einem einzelnen Die mit z.B. >600mm2 nicht weit auseinander liegen. Zwar mehr Fläche, dafür werden die Yields (noch) in N5 bei nur 3xxmm2 Dies aber deutlich besser sein.

BlacKi

2022-03-12, 16:40:18

Was spricht eigentlich dagegen die GDDR Speicherchips mit MCM direkt aufs package zu packen? Oder wäre das einfach eine schlechtere Umsetzung von HBM?
das wären bei 256bit zusätzliche 1344mm² auf dem package zu dem Die.

ich glaube das wäre zu teuer, und hätte keinen nennenswerten vorteil.

IMO wird der Unterschied insgesamt zwischen 800mm2-1000m2 (aufgeteilt auf drei Dies) vs. einem einzelnen Die mit z.B. >600mm2 nicht weit auseinander liegen. Zwar mehr Fläche, dafür werden die Yields (noch) in N5 bei nur 3xxmm2 Dies aber deutlich besser sein.

rießige monster Dies gibt es schon lange. scheinbar scheint eine teildeaktivierung günstiger zu sein als MCM, sonst würde nv diesen weg nicht gehen. ab einem gewissen punkt wird mcm natürlich attraktiv, vorallendingen wenn man wirklich vorhat die leistungsspitze zu erhaschen. ich würde mich aber wundern wenn das schon mit zusätzlichen 200-300mm² schon geschieht. vom absenken der taktraten zugunsten von effizienz mal ganz abgesehen.

AffenJack

2022-03-12, 17:10:49

IMO wird der Unterschied insgesamt zwischen 800mm2-1000m2 (aufgeteilt auf drei Dies) vs. einem einzelnen Die mit z.B. >600mm2 nicht weit auseinander liegen. Zwar mehr Fläche, dafür werden die Yields (noch) in N5 bei nur 3xxmm2 Dies aber deutlich besser sein.

Das wage ich genauso wie Blacki zu bezweifeln. Wo ist das Problem einen großen Chip zu haben, wenn man 20% des Chips deaktiviert, wie bei einer 3080? Da dürftest du keine so großen Yieldunterschiede mehr haben. Fehler im Shaderarray werden durch den Cut wirksam behoben. Der Vorteil von kleineren Chips ist, dass du mehr volle Chips kriegst und weniger beschneiden musst. Es wird für AMD also einfacher volle N31 zu liefern, während Nvidia nur eine kleine Menge von diesen herstellen kann. Auch muss man N31 Salvage nicht so stark beschneiden, während Nvidia AD102 Salvage stärker beschneiden muss.

Dafür hast du Packagingkosten, Yieldverluste durch Packagingfehler, Mehr Fläche für die Chip2Chip Verbindungen. Das wird sich gar nicht so viel nehmen. Das AMD im unteren Bereich noch monolithische APUs nutzt, zeigt in meinen Augen, dass es da keine so großen Unterschiede gibt.

fondness

2022-03-12, 17:20:05

Das wage ich genauso wie Blacki zu bezweifeln. Wo ist das Problem einen großen Chip zu haben, wenn man 20% des Chips deaktiviert, wie bei einer 3080? Da dürftest du keine so großen Yieldunterschiede mehr haben. Fehler im Shaderarray werden durch den Cut wirksam behoben. Der Vorteil von kleineren Chips ist, dass du mehr volle Chips kriegst und weniger beschneiden musst. Es wird für AMD also einfacher volle N31 zu liefern, während Nvidia nur eine kleine Menge von diesen herstellen kann. Auch muss man N31 Salvage nicht so stark beschneiden, während Nvidia AD102 Salvage stärker beschneiden muss.

Dafür hast du Packagingkosten, Yieldverluste durch Packagingfehler, Mehr Fläche für die Chip2Chip Verbindungen. Das wird sich gar nicht so viel nehmen. Das AMD im unteren Bereich noch monolithische APUs nutzt, zeigt in meinen Augen, dass es da keine so großen Unterschiede gibt.

Unterschätze nicht den verschnitt am Rand der wafer bei großen Dies. Da geht einiges an Fläche verloren. Es ist also auch eine Kostenfrage. Außerdem ist nicht alles so leicht deaktivierbar wie ein shader array. Bei Fehlern an der falschen Stelle kannst du das ganze die wegwerfen, was bei großen dies natürlich wesentlich mehr schmerzt. Oder du musst wesentlich mehr Redundanz vorsehen, was wieder die Kosten erhöht.

BlacKi

2022-03-12, 18:00:47

Unterschätze nicht den verschnitt am Rand der wafer bei großen Dies. Da geht einiges an Fläche verloren. Es ist also auch eine Kostenfrage. Außerdem ist nicht alles so leicht deaktivierbar wie ein shader array. Bei Fehlern an der falschen Stelle kannst du das ganze die wegwerfen, was bei großen dies natürlich wesentlich mehr schmerzt. Oder du musst wesentlich mehr Redundanz vorsehen, was wieder die Kosten erhöht.

kann man die nicht mit kleineren chips ausfüllen? ich verstehe es sowieso nicht warum man das nicht schon macht.

Langlay

2022-03-12, 18:34:54

kann man die nicht mit kleineren chips ausfüllen? ich verstehe es sowieso nicht warum man das nicht schon macht.

20x20mm Chip (400mm²)

https://abload.de/img/20x20qgkch.png

28x28mm Chip (~800mm²)

https://abload.de/img/28x28jyj5o.png

0.1 Defekte pro cm², bei dem 800mm² Chip fallen 29 gute Dies vom Band, vom 400mm² 93 gute Dies.

Und am Anfang der Produktion wird die Defektrate sicherlicher spürbar höher sein als 0,1 Defekte pro cm², also die Ausbeute an kleinen Chips wäre nochmal höher prozentual als die 300% die es bei 0.1 sind.

Blediator16

2022-03-12, 18:46:35

Ich weiß nicht, was für News du liest, aber ich hatte einen anderen Eindruck. Bei Ampere war man eher überzeugt, dass RDNA2 Nvidia komplett auseinandernimmt. Ich erinnere mich noch an den Nvidia-Killer etc. Das war wie jedes Mal in den letzten Jahren ein Hypetrain, der komplett sinnlos war und dieser Hypetrain wurde von Leuten wie MLID, RedgamingTech etc geschürt. Ein guter Teil der gleichen Leute, von denen die AMD "Leaks" gerade kommen. Wenn Greymon und Kimi nicht auch mit dabei wären, wäre ich sehr skeptisch.

Glatte Lüge. Es war genau anders herum. Es wurde gesagt, da RDNA1 bereits auf TSMC 7nm gefertigt wird und NV noch auf dem alten 12nm herumkrebst, so wird Ampere die totale Zerstörung sein wird weil neue Architektur+neue Node.

BlacKi

2022-03-12, 20:20:18

20x20mm Chip (400mm²)

https://abload.de/img/20x20qgkch.png

28x28mm Chip (~800mm²)

https://abload.de/img/28x28jyj5o.png

0.1 Defekte pro cm², bei dem 800mm² Chip fallen 29 gute Dies vom Band, vom 400mm² 93 gute Dies.

Und am Anfang der Produktion wird die Defektrate sicherlicher spürbar höher sein als 0,1 Defekte pro cm², also die Ausbeute an kleinen Chips wäre nochmal höher prozentual als die 300% die es bei 0.1 sind.
good dies sind diejenigen die komplett in ordnung sind also full chips und die defekten sind die salvage chips? das sind dann 7,5 chips weniger bei den 800mm² chips. das ist nicht wenig, dass sind mehr als 10%. aber wenn gerüchtenzufolge sich wegen mcm die performance pro mm² um 35-45% reduziert, fährt man monolithisch besser.

wenn das gerücht stimmt.

iamthebear

2022-03-12, 20:30:19

ja, aber das ist ein kostenfaktor. billig ist das nicht. 1000mm² wird auch mit mcm nicht billig. höherer takt kostet (fast)nichts und spart siliziumfläche.

wenn man also die effizienz steigern will, dann kostet das marge.

Das würde ich nicht pauschalisieren. Wenn die Verlustleistung höher ist, dann muss auch ein aufwändigeres Kühlkonzept verwendet werden und es müssen auch die elektrischen Komponenten auf der GPU mit der hohen Verlustleistung klar kommen.
Was bringt es wenn man sich 10 Euro durch einen 10% kleineren Chip spart, dafür die restlichen Teile des BOM Kits aber 10 Euro teurer werden? Man spart nichts an Produktionskosten und der Kunde hat 50-100W mehr Energieverbrauch.

0.1 Defekte pro cm², bei dem 800mm² Chip fallen 29 gute Dies vom Band, vom 400mm² 93 gute Dies.

Und am Anfang der Produktion wird die Defektrate sicherlicher spürbar höher sein als 0,1 Defekte pro cm², also die Ausbeute an kleinen Chips wäre nochmal höher prozentual als die 300% die es bei 0.1 sind.

Der Vergleich hinkt gewaltig:
.) Defekte Dies bedeutet nicht, dass diese Ausschuss sind. Das bedeutet lediglich, dass ein Teil des Chips deaktiviert werden muss, was bei aktuellen GPUs eigentlich fast immer der Fall ist.
.) Den Randbereich kann man für kleine Dies verwenden. Das müssen nicht zwingend eigene Produkte sein.
.) Es gibt auch Verlust beim Schneiden der Chips. Bei sehr kleinen Chips steigt hier auch der Verschnitt.
.) Ein MCM Design bedeutet höhere Packagingkosten bzw. eigene Yieldraten für das Stacking. Genauso wird der Testaufwand größer, da man zuerst die individuellen Dies testen muss und später noch einmal das Endprodukt.

Die Vorteile von MCM:
.) Man kann größere Produkte bauen als monolithisch möglich wäre.
.) Man kann Dual Sourcing betreiben und schlecht skalierbare Teile auf ältere Nodes auslagern bzw. im Fall des Infinity Cache eigene auf SRAM optimierte Libraries einsetzen (siehe VCache mit 64MB auf dem Platz den normalerweise 32MB benötigen)
.) In der frühen Konzeptionsphase weiß man noch nicht wie die Yieldraten aussehen. Man ist hier besser für den Fall gewappnet, dass diese schlecht sein werden (wie z.B. aktuell mit 3nm).

BlacKi

2022-03-12, 20:35:28

Das würde ich nicht pauschalisieren. Wenn die Verlustleistung höher ist, dann muss auch ein aufwändigeres Kühlkonzept verwendet werden und es müssen auch die elektrischen Komponenten auf der GPU mit der hohen Verlustleistung klar kommen.
Was bringt es wenn man sich 10 Euro durch einen 10% kleineren Chip spart, dafür die restlichen Teile des BOM Kits aber 10 Euro teurer werden? Man spart nichts an Produktionskosten und der Kunde hat 50-100W mehr Energieverbrauch.

in zeiten von chipknapheit würde ich das nicht unterbewerten. wasserkühlungskonzepte hat amd und nv schon bei einigen karten angewandt. gerade mit den wattagen die so gerüchtemäßig im umlauf sind sehe ich das zu 80% kommen.

Linmoum

2022-03-12, 20:56:19

Klar werden wir Wakü sehen. Wenn NV tatsächlich auf >500W geht, sind die nicht so doof und betreiben massig Aufwand für Luft. Da kommt dann eine AiO rauf und fertig.

Was die AiB machen ist wieder was anderes. Da wird die Mehrheit IMO trotzdem noch auf Luft gehen.

Langlay

2022-03-12, 23:20:32

good dies sind diejenigen die komplett in ordnung sind also full chips und die defekten sind die salvage chips? das sind dann 7,5 chips weniger bei den 800mm² chips. das ist nicht wenig, dass sind mehr als 10%. aber wenn gerüchtenzufolge sich wegen mcm die performance pro mm² um 35-45% reduziert, fährt man monolithisch besser.

wenn das gerücht stimmt.

Good Chips sind 100% fehlerfreie Chips, Defekte Chips haben halt einen Belichtungsfehler. Viele davon werden salvagable sein aber nicht alle, aber das ändert aber nichts daran das kleinen Chips halt bei gleichen Bedingungen deutlich einfacher zu fertigen sind als Große und je höher die Defektdichte um so stärker sind die kleinen Chips in Vorteil, also gerade bei frischen Prozessen wo noch nicht 100 Mannjahre in Optimierung geflossen sind spielt das dann seine Stärken aus.

fondness

2022-03-13, 09:05:33

.) Defekte Dies bedeutet nicht, dass diese Ausschuss sind. Das bedeutet lediglich, dass ein Teil des Chips deaktiviert werden muss, was bei aktuellen GPUs eigentlich fast immer der Fall ist.
.) Den Randbereich kann man für kleine Dies verwenden. Das müssen nicht zwingend eigene Produkte sein.
.) Es gibt auch Verlust beim Schneiden der Chips. Bei sehr kleinen Chips steigt hier auch der Verschnitt.
.) Ein MCM Design bedeutet höhere Packagingkosten bzw. eigene Yieldraten für das Stacking. Genauso wird der Testaufwand größer, da man zuerst die individuellen Dies testen muss und später noch einmal das Endprodukt.

Die Vorteile von MCM:
.) Man kann größere Produkte bauen als monolithisch möglich wäre.
.) Man kann Dual Sourcing betreiben und schlecht skalierbare Teile auf ältere Nodes auslagern bzw. im Fall des Infinity Cache eigene auf SRAM optimierte Libraries einsetzen (siehe VCache mit 64MB auf dem Platz den normalerweise 32MB benötigen)
.) In der frühen Konzeptionsphase weiß man noch nicht wie die Yieldraten aussehen. Man ist hier besser für den Fall gewappnet, dass diese schlecht sein werden (wie z.B. aktuell mit 3nm).

Die Diskussion ist völlig lächerlich. Ein MCM mit 3D stacking bedeutet zwangsläufig einen erheblichen technischen und logistischen Mehraufwand. Das macht man also nur, wenn man auch erhebliche Vorteile dadurch hat.

Jetzt sitzen bei AMD absolute cracks, die das über Jahre durchsimulieren und dann auf Basis von Fakten Entscheidungen treffen und dann wollen einem irgendwelche Forennoobs erklären, dass ein Single-Die eh besser gewesen wäre. Da kann ich nur mit dem Kopf schütteln.

y33H@

2022-03-13, 09:16:40

Bulldozer, Vega ... nicht immer klappt alles wie simuliert.

fondness

2022-03-13, 09:23:50

Linmoum

2022-03-13, 09:29:01

Bulldozer, Vega ... nicht immer klappt alles wie simuliert.Du meinst, NV kann auch nicht simulieren? Da ist die Frage bzgl. MCM ja auch nicht ob, sondern nur wann. ;)

BlacKi

2022-03-13, 10:25:00

In den Bereich hat sich in den letzten Jahren sehr viel getan, Bulldozer ist also definitiv kein Argument mehr. Bei Vega wäre interessant, was genau geplant war. Der hat ja dann auch durch Optimierungen mal eben den Takt mehr als verdoppelt und defacto einen zweiten Frühling erlebt. Und außerdem war AMD damals kurz vor der Pleite^^
natürlich wird rdna3 mit mcm wesentlich besser als sein vorgänger, sonst würde man es nicht machen. aber nv hatte mit ampere diverse nachteile am start, die nun wegfallen. die hatte rdna2 nicht.

die ausgangslage wo nv und amd mit ihrer aktuellen basis stehen ist nicht gleich, nv kann nun beim fertigungsprozess, beim speicher, beim cache aufholen. und gerüchtenzufolge muss amd noch DL optimierungen einführen die ampere schon drin hat, die angeblich 10% mehr platz benötigen.

mit der next gen wird es nv wesentlich einfacher haben, performance rauszuholen, mit amd gleichzuziehen und können damit auf mcm verzichten.

robbitop

2022-03-13, 10:33:44

Mal schauen ob man Matrix FPUs verbaut. XeSS funktioniert ja auch mit do4a und ihr eigenes FSR 2.0 soll ja noch heuristik basiert sein.

Thunder99

2022-03-13, 11:33:48

Gibt es auch Gerüchte zwecks erwartetem Verbrauch der kleineren Chips? Wenn man so liest wird >450 - 800W ja von AD102 gesprochen.

Troyan

2022-03-13, 16:21:04

Gibt es auch Gerüchte zwecks erwartetem Verbrauch der kleineren Chips? Wenn man so liest wird >450 - 800W ja von AD102 gesprochen.

Wenn du die Nonsensangaben glaubst, wird es nichts mehr unter 200W geben. Außer bei AMD, dort bekommst du bei 150W natürlich 6900XT Leistung. :freak:

ChaosTM

2022-03-13, 16:22:26

3080/6900er Leistung mit 200 Watt erwarte ich mir schon..

Troyan

2022-03-13, 16:35:07

Geht bei nVidia ja nicht.
RTX3070 hat 220W, 3090 hat 350W. bei 600W einer 4080/4090 läge die RTX4070 also bei ~375W. Damit erreicht die Karte dann auch nur 3090 Leistungslevel wohlgemerkt.

aufkrawall

2022-03-13, 16:39:39

Damit erreicht die Karte dann auch nur 3090 Leistungslevel wohlgemerkt.
Entweder Murks-Annahme oder GPU-Design kaputt. Ersteres dürfte deutlich wahrscheinlicher sein.

Troyan

2022-03-13, 16:41:36

Hopper kommt übernächste Woche. Dann wissen wir, wo die Grenzen bei 5nm sind. AMD liegt bei 550W mit MI250X und ~60 Mrd. Transistoren auf 6nm.

Platos

2022-03-13, 17:04:34

Wo hast du das her? Vielleicht wird Hopper vorgestellt an der GTC. Welche Informationen da gezeigt werden, ist dann auch offen.

AffenJack

2022-03-13, 17:09:28

Hopper kommt übernächste Woche. Dann wissen wir, wo die Grenzen bei 5nm sind. AMD liegt bei 550W mit MI250X und ~60 Mrd. Transistoren auf 6nm.

Jupp, da wird es interessant zu sehen, auf wieviel Verbrauch man da wohl kommt und wieviel 5nm bringt. Das werden die ersten richtigen Infos neben den geleakten Konfigurationen.

Zu der ganzen TDP Diskussion muss man wieder sehen, dass kopite7kimi zwar teils gut informiert ist, er aber auch öfter einfach Infos veröffentlicht, die ihm zugetragen werden und wo er unsicher ist, ob da was dran ist.

Someone told me the xx90 with 600W TGP has been confirmed.
I think it's too early to talk about it.

Also basieren wir hier wieder Diskussionen auf Aussagen, die irgendwer irgendwem erzählt hat und wo selbst die Quelle sagt, es ist zu früh drüber zu reden, weil man noch nicht weiß, wie das finalle Silizium performt?
Klingt für mich alles mäßig glaubwürdig.

Mal abgesehen davon, dass kopite bei der Konfiguration von Lovelace abseits von AD102 komplett daneben lag. Angeblich, weil sich die Konfiguration geändert hat, aber wenn er auch da keine aktuelle Infos hatte, wie kommt dann das Vertrauen in seine Aussagen bzgl. TDP?

Ich glaube nicht, dass wir mehr als 600W sehen und auch 600W würde ich eher bei sowas wie einer 4090Ti oder Special Edition erwarten. Bei der normalen 4090 dürften wir eher 450-500W sehen.

Wo hast du das her? Vielleicht wird Hopper vorgestellt an der GTC. Welche Informationen da gezeigt werden, ist dann auch offen.

Nvidia stellt ihre HPC GPUs für das Jahr immer auf der GTC vor mit genügend Infos. Das ist seit Jahren so und wird auch dieses Jahr nicht anders sein. Da gibts kein großes vielleicht. Jeder weiß, dass Hopper dieses Jahr kommt und dann stellt man auch da vor. Alles andere wäre eine riesige Überraschung.

Edit:
Es ist sogar der Termin für die Architektursession zu Hopper online, direkt im Anschluß an die Keynote, nur dass man als einzige GTC Session bei den Sessioninfos "Coming Soon" reingeschrieben hat, um Hopper nicht zu erwähnen:

GPU Architecture for Deep Learning and HPC [S42663]

Coming soon.

, Distinguished GPU Architect, NVIDIA

, Principal GPU Architect, NVIDIA
Industry Segment: All Industries
Primary Topic: Data Center / Cloud Infrastructure - Technical

Tuesday, March 22 6:00 PM - 6:50 PM CET

https://www.nvidia.com/gtc/session-catalog/?tab.scheduledorondemand=1583520458947001NJiE#/session/1644354440262001BZNv

Platos

2022-03-13, 17:29:57

Troyan

2022-03-13, 17:37:06

Wenn nVidia Lovelace bei TSMC fertig, ja. Turing und Volta haben sich größenmäßig kaum unterschieden.

AffenJack

2022-03-13, 19:44:32

Na dann bin ich mal gespannt, wie die Specs aussehen.

Dann offenbart sich ja ziemlich genau, was mit dieser Architektur und Fertigungsprozess möglich ist (nur die Taktraten werden vermutlich etwas niedriger sein bei Hopper)

Taktraten könnten Einschätzungen sehr schwer machen. Lovelace könnte bei TSMC ähnlich hoch wie RDNA2 takten (2,5ghz), Hopper eher im Bereich 1,4ghz (Taktraten von A100). Das sind also schon extreme Unterschiede und der Prozess kann sich in beiden Bereich sehr anders verhalten.

Platos

2022-03-13, 22:11:27

Also wenn die Architektur so gut taktet (ohne Effizienzverlust), wird man wohl Hopper nicht 1 GHz niedriger takten.

Denniss

2022-03-14, 02:17:50

Da hat wohl einer den neuen PCIe-Stromstecker drauf gesehen und gleich auf die volle Dosis von 600W geschlussfolgert .......

Thunder99

2022-03-14, 07:33:46

Wenn man solche Stecker entwickelt und verbaut gibt es durchaus das Risiko, dass die Grafikkarte bis zu 600W oder mehr verbraucht.
Gab es schon in der Vergangenheit aber für mich hat sich eine Grenze gebildet die ich nicht weiter überschreiten möchte.
Von 200W (1070) auf 250W (1080Ti) und nun 300W (???), mehr nicht wenn es geht.

BlacKi

2022-03-14, 08:04:48

Da hat wohl einer den neuen PCIe-Stromstecker drauf gesehen und gleich auf die volle Dosis von 600W geschlussfolgert .......damit versuchst du ihn vl zu beleidigen, aber wenn du das ernsthaft glaubst, dann geht der schuss nach hinten los. als ob er ein 0815 dude aus dem internet ist.

basix

2022-03-14, 08:18:24

850W würden 2x 600W Stecker benötigen. Und ein gutes 1500W Netzteil.

HOT

2022-03-14, 08:24:48

Also wenn die Architektur so gut taktet (ohne Effizienzverlust), wird man wohl Hopper nicht 1 GHz niedriger takten.

Wenn die gut takten würde bräuchte es keine 600W.

Platos

2022-03-14, 13:05:52

Wenn die gut takten würde bräuchte es keine 600W.

Das ist ein Trugschluss. 1) Muss die Zahl nicht dann Real als TDP Angabe in z.B der Founders Edition kommen. Das kann sich z.B auch nur auf die Pinbelegung beziehen oder ähnliches.

2) nvidia kann auch einfach so viele Einheiten rein packen, so dass der Stromverbauch eben nunmal so hoch ist, ohne dass der Chip ineffizient wäre. Man geht sicherlich nicht für 10% mehr Leistung von 400W auf 600W. Dafür wird die unheimliche Anzahl an Einheiten Mitverantwortlich sein. Natürlich werden die letzten 20% wieder mal für die Krone sein (bei der FE). Bei anderen Modellen werden es vlt. mehr.

Deine Aussage ist also falsch. Gut takten heisst nicht, das der Stromverbrauch niedrig ist. Oder taktet die 3050 gut, wenn ich sie hart übertakte und sie dann 170W zieht? Ist ja viel weniger, wie ne 3090. Muss also nach deiner Logik wunderbar takten ;)

HOT

2022-03-14, 14:11:31

So ein Quatsch. Wenn der sich gut takten ließe hätte er wieder 600mm² und vielleicht maximal 400W, nicht 600W. 600W ist nichts weiter als hochprügeln bis zum Limit. Das kannst du nicht rechtfertigen.

Platos

2022-03-14, 14:47:13

Hast meine Aussage nicht verstanden. 600W heisst nicht, dass es am Takt liegt. Es kann auch einfach schlicht zu einem Grossteil an einem Monströsen Chip liegen. Das heisst nicht, dass ich glaube, dass es daran liegt. Ich habe nur deine verallgemeinerte (und falsche) Aussage korrigiert.

Deine Aussage bleibt falsch.

HOT

2022-03-14, 15:05:30

Da geh ich nicht mit. Die 600W liegen natürlich am Takt, was denn sonst. Das kannst du nicht rechtfertigen, ich wiederhole mich.

ChaosTM

2022-03-14, 15:06:44

600 Watt kommen nur dann raus, wenn die Konkurrenz noch in Schlagdistanz liegt und man the Shit aus dem Ding heraus-overclocken muss ;)

vinacis_vivids

2022-03-14, 15:09:22

Nvidia hat leider noch keine Erfahrung mit höheren Taktdomain, weshalb sie klassisch brute-force gehen müssen.

mboeller

2022-03-14, 15:37:31

Nvidia hat leider noch keine Erfahrung mit höheren Taktdomain, weshalb sie klassisch brute-force gehen müssen.

grins ... wie alt bist bist du denn? Bzw. wie jung?

rentex

2022-03-14, 15:45:44

Ob es da, bei einer Lukü bleibt?

HOT

2022-03-14, 15:47:42

600W ist mit an Sicherheit grenzender Wahrscheinlichkeit kompaktwassergekühlt.

Ne 400W 4080 dürfte mit LuKü machbar sein.

rentex

2022-03-14, 16:03:24

langsam aber sicher, werde ich meiner 3090 ne sehr lange Laufzeit aufbürden. Ada erscheint mir ne recht "gequälte" Generation zu werden.

Platos

2022-03-14, 16:05:30

Da geh ich nicht mit. Die 600W liegen natürlich am Takt, was denn sonst. Das kannst du nicht rechtfertigen, ich wiederhole mich.

Du verstehst einfach nicht die Möglichkeit, dass mehr Stromverbrauch nicht zwingend am Takt liegt, oder :D

Abgesehen davon habe ich doch gesagt, dass die letzten 20% sicher vom Takt kommen und des weitern habe ich gesagt, dass die 600W nicht zwingend der Durchschnittsstromverbrauch sein muss. Alles noch nicht wirklich klar. Daraus ergibt sich dann: Kommt nicht alles vom Takt.

langsam aber sicher, werde ich meiner 3090 ne sehr lange Laufzeit aufbürden. Ada erscheint mir ne recht "gequälte" Generation zu werden.

Takte doch einfach so, dass eine Lovelace Karte keine x hundert Watt verbraucht und gut ist? Perfomancetechnisch dürftest du ja anscheinend mit dem Topmodell ziemlich viel Plus machen.

Dural

2022-03-14, 16:19:16

vinacis_vivids

2022-03-14, 16:23:24

grins ... wie alt bist bist du denn? Bzw. wie jung?

Seit mindestens 6 Jahren stagniert Nvidia beim Takt von 1.7-1.9 Ghz.

Deshalb ist Ampere auch Schrott was Auslastung in mittleren Auflösungen angeht.

https://abload.de/img/rdna2ga1021qkgk.png

In höheren Auflösungen braucht NV zuviel Strom, weil das SI veraltet ist.

Insgesamt sehe ich bei Ampere-Nachfolger eher die Aktien nach unten gehen.
Nvidia wird sicher viel Kohle in die Hand genommen haben um bei TSMC größere Kapazitäten zu kaufen, aber know-how mäßig sind sie mittlerweile hinter AMD anzusiedeln.

Troyan

2022-03-14, 16:25:04

https://tpucdn.com/review/dying-light-2-benchmark-test-performance-analysis/images/rt-1920-1080.png
https://www.techpowerup.com/review/dying-light-2-benchmark-test-performance-analysis/6.html

47 FPS für 300W. 50FPS bei 350W. Dagegen lacht eine moderne nVidia-GPU mit 220W nur. Wo da wohl die miserable 6700XT läge?

HOT

2022-03-14, 16:27:27

Du verstehst einfach nicht die Möglichkeit, dass mehr Stromverbrauch nicht zwingend am Takt liegt, oder :D

Abgesehen davon habe ich doch gesagt, dass die letzten 20% sicher vom Takt kommen und des weitern habe ich gesagt, dass die 600W nicht zwingend der Durchschnittsstromverbrauch sein muss. Alles noch nicht wirklich klar. Daraus ergibt sich dann: Kommt nicht alles vom Takt.

Takte doch einfach so, dass eine Lovelace Karte keine x hundert Watt verbraucht und gut ist? Perfomancetechnisch dürftest du ja anscheinend mit dem Topmodell ziemlich viel Plus machen.

Wenn der Chip viel Strom verbraucht ist er zu hoch getaktet. Dann ist er weit jenseits des Sweetspots. Das hat AMD bei GCN permanent praktiziert, da war es kritisierenswert und hier jetzt nicht oder was?

robbitop

2022-03-14, 16:28:48

Seit mindestens 6 Jahren stagniert Nvidia beim Takt von 1.7-1.9 Ghz.

Deshalb ist Ampere auch Schrott was Auslastung in mittleren Auflösungen angeht.

https://abload.de/img/rdna2ga1021qkgk.png

In höheren Auflösungen braucht NV zuviel Strom, weil das SI veraltet ist.

Insgesamt sehe ich bei Ampere-Nachfolger eher die Aktien nach unten gehen.
Nvidia wird sicher viel Kohle in die Hand genommen haben um bei TSMC größere Kapazitäten zu kaufen, aber know-how mäßig sind sie mittlerweile hinter AMD anzusiedeln.

Laut aktueller Gerüchtelage soll Lovelace bei 2,5 GHz liegen und 96 MiB L2 Cache haben.

Dural

2022-03-14, 16:30:22

Die Alus wurden taktmässig seit Pascal auch gar nicht mehr angefasst. Sprich damit wird auch nichts mehr kommen, egal wie die Fertigung ist. Aber ich denke das NV so schlau ist und dieses Thema jetzt angeschaut hat... :wink:

HOT

2022-03-14, 16:32:43

Also der Müll den man heute im Internet jeden Tag lesen kann ist kaum noch auszuhalten :rolleyes:

800Watt Grafikkarten :freak: das lässt sich ja nicht mal mehr mit Kompakt-Wakü Kühlen, verwundert mich das nicht gleich gesagt wird das im Lieferumfang ein LN2 Pot dabei ist :freak:

Und überhaupt, die 3090 hat 350Watt und mit leichtem OC rund 400Watt. 800Watt wäre eine VERDOPPLUNG der Leistungsaufnahme für eine GPU in 5nm. Allein rechnerisch geht das gar nicht auf, da wir neben min. doppelt so vielen Transistoren gegenüber 8nm somit gar keinen Strom Ersparnis pro Transistor hätten.

Alles Fake News, Marketing blabla und paar Klicks Generieren. Am Schluss wird es eine 500W Karte (Und schon das wird mit LuKü kaum zu kühlen sein) geben und alle werden jubeln "nur" 400-500W bei der Leistung.

Da bin ich voll bei dir und ich glaube auch nicht, dass die kleineren Chips derart übers Ziel hinausschießen. Wenn man von 600W spricht, also einem vollen PCIe5-Stecker, dann ist damit nur die 90 gemeint. Die kleineren Chips, da bin ich von überzeugt, werden sich im normalen Rahmen bewegen, meinetwegen 50W+ oder so. Bei der 4080FE würd ich mit 350W rechnen, bei der 4080 Custom mit 400W.

Aber da es ja immer noch kein Tape Out zu geben scheint, reden wir hier eh nur von Simulationen. Mal sehen, wenn das mal durch ist.

Troyan

2022-03-14, 16:34:05

Taktraten sind bei GPUs doch nur zweitrangig. RDNA2 taktet bis zu 40% höher und liefert 10% weniger Leistung. Ist schon erbärmlich.

robbitop

2022-03-14, 16:37:18

Taktraten sind bei GPUs doch nur zweitrangig. RDNA2 taktet bis zu 40% höher und liefert 10% weniger Leistung. Ist schon erbärmlich.

Pro TFLOP ist RDNA 2 aber deutlich schneller. GA102 hat dazu auch wesentlich mehr Logiktransistoren als Navi21. Der IF frisst ordentlich Transistoren an sram Zellen. Der Kram sollte bei rdna 3 wahrscheinlich ausgelagert sein / gestackt sein.

Troyan

2022-03-14, 16:38:12

Pro TFLOP ist RDNA 2 aber deutlich schneller.

Hä? Und pro Takt und pro Cache deutlich langsamer. :freak:

robbitop

2022-03-14, 16:41:14

Hä? Und pro Takt und pro Cache deutlich langsamer. :freak:

Wer misst denn Geschwindigkeit pro Takt oder pro Cache? Dullis?

basix

2022-03-14, 16:42:03

800Watt Grafikkarten :freak: das lässt sich ja nicht mal mehr mit Kompakt-Wakü Kühlen, verwundert mich das nicht gleich gesagt wird das im Lieferumfang ein LN2 Pot dabei ist :freak:

Und überhaupt, die 3090 hat 350Watt und mit leichtem OC rund 400Watt. 800Watt wäre eine VERDOPPLUNG der Leistungsaufnahme für eine GPU in 5nm. Allein rechnerisch geht das gar nicht auf, da wir neben min. doppelt so vielen Transistoren gegenüber 8nm somit gar keinen Strom Ersparnis pro Transistor hätten.

Alles Fake News, Marketing blabla und paar Klicks Generieren. Am Schluss wird es eine 500W Karte (Und schon das wird mit LuKü kaum zu kühlen sein) geben und alle werden jubeln "nur" 400-500W bei der Leistung.

Jepp, so habe ich mir das auch gedacht ;)

Einzig "sinnvolle" Erklärung für 850W: Das Ding ist eine grosse Überraschung -> MCM. Wie damals bei G80, wo Unified Shader die Überraschung waren.

Troyan

2022-03-14, 16:44:29

Wer misst denn Geschwindigkeit pro Takt oder pro Cache? Dullis?

Du? Oder was sollte deine Aussage bedeuten?
GA104: 17,4 Mrd. Transistoren
Navi22: 17,2 Mrd. Transistoren

RTX3070 > 6700XT: Lichtjahre besser. (50% Compute, ~3x schneller Raytracing, 4x schneller DL).

Ich frage mich immer noch, wie schlecht RDNA2 ist. Selbe Anzahl an Transistoren, knapp halbe Leistung.

HOT

2022-03-14, 16:45:56

Ich denke, dass die 850W immer noch Hopper 2 ist. Die 850W kam ja auch nur ein Mal, die 600W kamen jedoch jetzt schon öfter. Kann ja sein, dass man eh mit Kompaktwasserkühlung plant und das auf den PCIe5-Stecker normalisiert, um möglichst wenig Einschränkungen beim RT-Betrieb zu haben bei der 90er.

robbitop
Do not feed a troll.

robbitop

2022-03-14, 17:06:40

Du? Oder was sollte deine Aussage bedeuten?
Du bist der einzige der sich auf Geschwindigkeit pro Takt bezieht:

RDNA2 taktet bis zu 40% höher und liefert 10% weniger Leistung. Ist schon erbärmlich.

-----------------

GA104: 17,4 Mrd. Transistoren
Navi22: 17,2 Mrd. Transistoren
Das sollte man um den SRAM normieren. Der trägt nicht zur Rechenleistung bei.

RTX3070 > 6700XT: Lichtjahre besser. (50% Compute, ~3x schneller Raytracing, 4x schneller DL).

Ich frage mich immer noch, wie schlecht RDNA2 ist. Selbe Anzahl an Transistoren, knapp halbe Leistung.

Wie immer übertreibst du.

In CB ist die 3070 nur 7% vorn im 4K Performancerating.
https://www.computerbase.de/2021-03/amd-radeon-rx-6700-xt-test/3/#abschnitt_benchmarks_in_1920__1080_und_3840__2160

RT ist die 3070 "nur" 48% schneller (4K Raytracing Performancerating):
https://www.computerbase.de/2021-03/amd-radeon-rx-6700-xt-test/3/#abschnitt_benchmarks_in_1920__1080_und_3840__2160

Die RT Schwäche liegt einfach nur darin, dass NV mehr RT Hardware verbaut hat, die nur einen Bruchteil des Nutzens kostet. Gut investiert seit Ampere. Das wird sich bei RDNA 3 sicherlich ändern und auch der Cache wird sicherlich vom Die wandern.
Wenn man auf die Logiktransistoren schaut, sind es nicht genau so viele Transistoren.

------------------
@HOT
Propellerjungs wie Raff so schön sagt.

Troyan

2022-03-14, 17:40:55

Du bist der einzige der sich auf Geschwindigkeit pro Takt bezieht:

Du bist derjenige, der mit Rechenleistung gekommen ist, die sich aus dem Takt ergibt.

Das sollte man um den SRAM normieren. Der trägt nicht zur Rechenleistung bei.

Tensor- und RT-Cores bei nVidia auch nicht. Geometrieeinheiten und Rasterizer ebenfalls nicht. Wieso sollte man anfangen irgendwas wegzurechnen? Schlussendlich stehen identische Transistorenangaben gegenüber.

Wie immer übertreibst du.

In CB ist die 3070 nur 7% vorn im 4K Performancerating.
https://www.computerbase.de/2021-03/amd-radeon-rx-6700-xt-test/3/#abschnitt_benchmarks_in_1920__1080_und_3840__2160

Es sind in 4K deutlich mehr. Einzig in wirklich üblen DX12 Spielen ist es weniger - wie Grid:Legends. Die haben aber keine Aussagekraft, da hier die miserable API limitiert.

Die 6700XT taktet 33% höher als die RTX3070 und liefert im Schnitt in 4K 15% weniger Leistung. Die Karte muss bei der selben Transistorenanzahl knapp 53% höher takten, um ähnlich schnell zu sein.

Soviel dazu, dass Taktrate eine primäre Relevanz hätte.

basix

2022-03-14, 17:56:30

Takt ist doch völlig egal. Siehe CPUs. Bei GPUs noch sinnbefreiter.

Schlussendlich ist nur folgendes relevant:
- FLOPS sowie Performance/FLOPS in Kombination --> Architektur-Effizienz / Throughput
- Performance/Watt -> Energieeffizienz & maximal mögliche Performance
- Performance/Area & Performance/Transistor -> Kosten

Hier sind Ampere und RDNA2 ebenbürtig, was Rasterizer-Performance angeht. Mal ist RDNA2 etwas vorne, mal Ampere. Sobald RT und DLSS angeworfen wird, zieht Ampere aufgrund der höheren Acceleration davon. Alle anderen Diskussionnen sind müssig.

Platos

2022-03-14, 18:00:38

Wenn der Chip viel Strom verbraucht ist er zu hoch getaktet. Dann ist er weit jenseits des Sweetspots. Das hat AMD bei GCN permanent praktiziert, da war es kritisierenswert und hier jetzt nicht oder was?

Hast es immer noch nicht verstanden.

Mehr Einheiten= Mehr Stromverbrauch, auch wenn niedrig getaktet.

Und ich habe nie was von Kritik oder Rechtfertigung geschrieben. Deine Aussage stimmt einfach nicht, dass hoher Stromverbrauch nur durch hoher Takt kommt. Wenn der Chip überdimensional gross ist, braucht er auch bei moderatem Takt viel Strom. Schau dir doch einfach mal an, wie viel Strom kleine Chips am Optimum brauchen und wie viel die grossen. Genau, nicht gleich viel.

Ich habe nie behauptet, dass Lovelace Top End nicht weit über dem Optimum getaktet wird. Noch habe ich je was zur "Verteidigung" gesagt. Ich sage nur, dass es nicht zwingend daran liegen muss oder nicht nur daran.

Edit: Und dazu kannst du dir auch noch den Kommentar über mir von basix durchlesen.

robbitop

2022-03-14, 18:05:40

Du bist derjenige, der mit Rechenleistung gekommen ist, die sich aus dem Takt ergibt.
Du kamst mit dem Takt zuerst. Die Rechenleistung war nur eine Entgegnung um zu zeigen wie sinnfrei die Aussage ist.

Tensor- und RT-Cores bei nVidia auch nicht. Geometrieeinheiten und Rasterizer ebenfalls nicht. Wieso sollte man anfangen irgendwas wegzurechnen? Schlussendlich stehen identische Transistorenangaben gegenüber.
Logiktransistoren vs SRAM. Das ist was ganz anderes.

Zumal NV doch die RT Core für die höhere RT Leistung nutzt und Tensor Cores für DLSS. Geometrieeinheiten und Rasterizer ebenso. Also kaputtes Argument.

Es sind in 4K deutlich mehr. Einzig in wirklich üblen DX12 Spielen ist es weniger - wie Grid:Legends. Die haben aber keine Aussagekraft, da hier die miserable API limitiert.
Das Performancerating von CB sagt 7%. Also sind es im Schnitt 7%. Alles andere ist Rosinenpicken.

Die 6700XT taktet 33% höher als die RTX3070 und liefert im Schnitt in 4K 15% weniger Leistung. Die Karte muss bei der selben Transistorenanzahl knapp 53% höher takten, um ähnlich schnell zu sein.

Soviel dazu, dass Taktrate eine primäre Relevanz hätte.
Du kamst mit Takt um die Ecke. Wie fein, dass du dich selbst widerlegt hast. :freak:

--------------------
Takt ist doch völlig egal. Siehe CPUs. Bei GPUs noch sinnbefreiter.

Schlussendlich ist nur folgendes relevant:
- FLOPS sowie Performance/FLOPS in Kombination --> Architektur-Effizienz / Throughput
- Performance/Watt -> Energieeffizienz & maximal mögliche Performance
- Performance/Area & Performance/Transistor -> Kosten

Hier sind Ampere und RDNA2 ebenbürtig, was Rasterizer-Performance angeht. Mal ist RDNA2 etwas vorne, mal Ampere. Sobald RT und DLSS angeworfen wird, zieht Ampere aufgrund der höheren Acceleration davon. Alle anderen Diskussionnen sind müssig.

Besser kann man es nicht sagen. :up:

Thunder99

2022-03-14, 19:04:29

Gegner der 3070 ist die 6800, so nebenbei. Einzig bei RT ist eine 3070 bedingt vorzuziehen, da 8GB stinken.

Das Argument "Stell doch die TDP deiner Karte runter" kann man nur bedingt gelten lassen. Ab einer bestimmten Grenze kommt der Takt-Geber oder Scheduler durcheinander und es wird ruckelig von den Frametimes ;). War so bei Ampere und wenn sie das Problem im Treiber/HW nicht fixen wird es auch bei AD sein.
Tests mit 270 Watt sind in diesem Fall nicht möglich gewesen, da eine im MSI Afterburner derart abgesenkte TDP die Telemetrie der GPU durcheinander gebracht hat und die Frametimes stark darunter gelitten haben.
Quelle (https://www.computerbase.de/2020-09/geforce-rtx-3090-gigabyte-msi-test/7/)

BlacKi

2022-03-14, 19:27:28

Das Argument "Stell doch die TDP deiner Karte runter" kann man nur bedingt gelten lassen. Ab einer bestimmten Grenze kommt der Takt-Geber oder Scheduler durcheinander und es wird ruckelig von den Frametimes ;).

da musst du schon arg tief runter. unter 60% oder so. bei 75% das ich regelmäßig nutze ist das kein problem. das problem tritt wohl erst dann auf, wenn die boosttaktrate unter 1600mhz geht. dann springt sie ständig zwischen 1200 und 15xx hin und her. da fehlen einfach hoch aufgelöste boost tables.

AffenJack

2022-03-14, 19:30:35

Also wenn die Architektur so gut taktet (ohne Effizienzverlust), wird man wohl Hopper nicht 1 GHz niedriger takten.

Du hast gerade 826mm² vs 628mm² bei A100 vs GA102 und da schon fast 500mhz Taktunterschied. Bei Hopper/Lovelace wird es eher 1200-1600mm² vs 600mm² bei Lovelace. Daher wird Hopper deutlich tiefer takten müssen. Groß mehr als 1,5 Ghz traue ich Hopper nicht zu. Die 850W sind denke ich auch eher von Hopper. Am Ende hat man eben 2 400W Chips auf einem Package, statt wie gerade einen Chip mit 400W.

BlacKi

2022-03-14, 19:39:13

Du hast gerade 826mm² vs 628mm² bei A100 vs GA102 und da schon fast 500mhz Taktunterschied. Bei Hopper/Lovelace wird es eher 1200-1600mm² vs 600mm² bei Lovelace. Daher wird Hopper deutlich tiefer takten müssen. Groß mehr als 1,5 Ghz traue ich Hopper nicht zu. Die 850W sind denke ich auch eher von Hopper. Am Ende hat man eben 2 400W Chips auf einem Package, statt wie gerade einen Chip mit 400W.

hopper ist nicht für geringe last ausgelegt, aber wenn man das berücksichtigen würde, dann könnte man den chip schon in richtung 2ghz auslegen. macht wohl einfach nur keinen sinn, weil solche niedrigen lastszenarien wohl kaum anliegen werden.

Platos

2022-03-14, 22:25:24

da musst du schon arg tief runter. unter 60% oder so. bei 75% das ich regelmäßig nutze ist das kein problem. das problem tritt wohl erst dann auf, wenn die boosttaktrate unter 1600mhz geht. dann springt sie ständig zwischen 1200 und 15xx hin und her. da fehlen einfach hoch aufgelöste boost tables.

Vor allem gehts hier ja um die ineffizienz, also die letzten ~20%. D.H im Grunde ist das schon hart übertaktet und wenn es wieder auf das "Optimum" getaktet wird, hat es mit Sicherheit keine Stabilitätsprobleme.

Du hast gerade 826mm² vs 628mm² bei A100 vs GA102 und da schon fast 500mhz Taktunterschied. Bei Hopper/Lovelace wird es eher 1200-1600mm² vs 600mm² bei Lovelace. Daher wird Hopper deutlich tiefer takten müssen. Groß mehr als 1,5 Ghz traue ich Hopper nicht zu. Die 850W sind denke ich auch eher von Hopper. Am Ende hat man eben 2 400W Chips auf einem Package, statt wie gerade einen Chip mit 400W.

Sind die beiden Flächenangaben aus irgend nem Gerücht oder woher kommen die? Also vor allem der Unterschied zwischen Hopper und Lovelace?

Und ja, die ganzen Wattage könnten auch einfach von so einer Spielerei kommen. Ich sage ja schon die ganze Zeit, das muss alles nicht von den Taktraten (allein) kommen. Also egal ob das jetzt auf Hopper oder Lovelace bezogen ist.

Aber warum sollte man einen riesen Chip bauen, wenn die Architektur eig. viel mehr Takt kann? Natürlich wird Lovelace nicht am Optimum betrieben (zumindest Top-End), aber wenn die wirklich 2.5GHz machen, dann wird das sicherlich bis 2GHz sehr gut takten und dann frage ich mich, warum sollte man einen riesen Chip bauen, wenn man einfach hochtakten kann?

Troyan

2022-03-18, 20:51:25

Nach "get Amped" kommt "Hopped up": https://blogs.nvidia.com/blog/2022/03/18/nvidia-ceo-jensen-huang-gtc/

Noch jemand enttäuscht, das aus den "nVidia Leaks" nichts mehr gekommen ist?

AffenJack

2022-03-19, 11:08:26

Sind die beiden Flächenangaben aus irgend nem Gerücht oder woher kommen die? Also vor allem der Unterschied zwischen Hopper und Lovelace?

Lovelace ist Spekulation, da die A102 zuletzt die ganze Zeit die größe hatten, aber selbst wenn es 100mm² mehr werden, ändert das nix. Hopper ist schlicht klar, sobald man MCM für HPC verwendet, dass man in solchen regionen landet. Mi250 ist ja ebenso groß. Gerade wird für Hopper ja sogar eher 850mm² in Gerüchten gemutmaßt, dann wären wir bei MCM sogar bei 1700mm².

Aber warum sollte man einen riesen Chip bauen, wenn die Architektur eig. viel mehr Takt kann? Natürlich wird Lovelace nicht am Optimum betrieben (zumindest Top-End), aber wenn die wirklich 2.5GHz machen, dann wird das sicherlich bis 2GHz sehr gut takten und dann frage ich mich, warum sollte man einen riesen Chip bauen, wenn man einfach hochtakten kann?

Mehr Takt kostet immer Perf/W und bei HPC/Cloud AI sind die Chipkosten irrelevant. Außerdem ist auch mehr Takt immer ein Kompromiss. In der Regeln geht der dann mit niedrigerer Transistordichte einher zusätzlich zum Verbrauch. Willst du die maximale Leistung bei maximaler Perf/W, dann gehst du einfach in Fläche und verzichtest auf Takt.

Interessant wird am Montag aber, ob Nvidia MCM Hopper überhaupt schon vorstellt. Gab ja auch Gerüchte, dass erst Single-Chip Hopper kommt und der MCM erst etwas später. Wenn Nvidia wirklich auf über 800mm² plus 6 HBM pro Chip gehen sollte, dann bleibt Ihnen aber auch nichts anderes, da TSMC erst in der nächsten COWOS-Packaging Stufe so große Interposer fürs Packaging nutzen kann. Alternative mit nur 4 HBMs pro Chip klingt nach einer starken Bandbreitenreduktion pro Gflop, dann weiß ich nicht, ob man so nah ans Reticle Limit müsste mit dem Chip. Ich bin gespannt, was wir Montag sehen.

Platos

2022-03-19, 14:43:42

AffenJack

2022-03-19, 17:01:49

Schau dir die Notebookchips an, man taktet nicht umsonst auch da gerademal bei 1300mhz, statt 1800mhz und das bei gleicher Chipgröße.

MCM ist ja schon lange klar, dass es kommt. Frage ist nur ob sofort oder etwas nach Singlechip Hopper. GH100 soll ja monolithisch sein und GH202 der MCM, soweit ich kopite, greymon etc richtig verstanden haben. Durch die Treiber sind die Chips auch bestätigt, nur nicht wie sie aussehen.

Troyan

2022-03-20, 11:12:13

Laut den Treibereinträgen soll GH100 weiterhin 48MB L2 Cache haben.
Das bedeutet entweder, dass nVidia GA100 shrinkt, Architekturverbesserungen durchführt und dann zwei Chips per Interconnect verbindet oder das HPC nicht mehr L2 Cache benötigt (hat nVidia im COPA-Dokument beschrieben) und man wird für DL per COPA dann L3 Cache verwenden.

NVLink 4 soll 900GB/s erreichen (Grace <> Hopper), wodurch selbst ein NVLink 4 Interconnect für große Rechenzentren ausreichend für Hopper MCM ist.

iamthebear

2022-03-20, 16:59:17

Mehr Takt kostet immer Perf/W? Ja irgendwann schon, aber wo der Punkt ist, ist dann die Frage. Ob der bei ca. 40% weniger Takt liegt...?

Und bezüglich MCM bin ich mir da nicht so sicher. Aber wir sehen dann ja bald, wie es sein wird.

Verlustleistung skaliert linear mit dem Takt und quadratisch mit der Spannung.

Solange man also nicht die minimale Betriebsspannung erreicht hat (was eher in der Gegend von 20% des Maximaltaktes liegt) wird Performance/W mit weniger Takt immer steigen.

Die Frage ist nur, ob man für 20% mehr Verlustleistung noch 10-15% mehr Performance bekommt oder wie bei Ampere nur mehr um die 5%.

Linmoum

2022-03-22, 00:43:56

Render zu GH100:

https://videocardz.com/ezoimgfmt/cdn.videocardz.com/1/2022/03/NVIDIA-Hopper-H100-1200x605.jpg?ezimgfmt=ng:webp/ngcb1
https://videocardz.com/newz/nvidia-next-gen-h100-hopper-gpu-for-high-performance-computing-pictured

Die bisher schon spekulierten Daten scheinen sich ebenfalls zu bestätigen. Auch, dass GH100 monolithisch bleiben wird. Mal schauen, wie lange es bis GH202 dauert.

TheAntitheist

2022-03-22, 06:12:22

Wer misst denn Geschwindigkeit pro Takt oder pro Cache? Dullis?
wenn man die mArch vergleichen will ist das schon relevant, weil beide nicht bei TSMC in 7nm produziert werden. Ergo ist Amperes mArch schneller pro takt.
und dein Vergleich bezog sich ja auch nur auf Raster power, denn sonst ist Ampere ja auch viel effizienter pro Watt wenn wir RT Titel nehmen.

BlacKi

2022-03-22, 08:25:41

robbitop

2022-03-22, 09:14:36

wenn man die mArch vergleichen will ist das schon relevant, weil beide nicht bei TSMC in 7nm produziert werden. Ergo ist Amperes mArch schneller pro takt.
und dein Vergleich bezog sich ja auch nur auf Raster power, denn sonst ist Ampere ja auch viel effizienter pro Watt wenn wir RT Titel nehmen.
Die Frage ist, wie relevant ersteres für das Endprodukt und den Endkunden ist. Aber ja der Fertigungsprozess ist eine wichtige Einflussgröße. Am besten würde man uArchs ISO Fertigungsprozess und ISO Power (aber in einem Betriebspunkt der sinnvoll ist) vergleichen.

Letzteres habe ich ja bereits benannt. Ja Ampere ist schneller in RT. Durch zusätzliche, gut investierte FF HW. FF HW ist immer extrem gut in dem was sie tut - viel besser als General Purpose HW. Ob das aber zwangsweise mit der uArch zusammenhängt? FF HW für BVH Traversal hinzufügen kostet halt X Transistoren und bringt im Gegenzug viel mehr an Performance in genau diesem Fall. Entsprechend viel besser ist Ampere dank der HW. Man kann sogar noch weitere Schritte der RT Pipeline in FF HW gießen - allerdings mit weniger Impact.
RDNA3 wird sicherlich auch BVH traversal HW bekommen. Es ist eigentlich nur "spending transistors". Ich finde aber auch, dass es bei AMD einen Tucken zu spät kommt, weil bereits zu RDNA2 Lebzeiten deutliche Nachteile dadurch entstanden sind. Im Turing/RDNA1 Zeitraum war es sicherlich kein echter Nachteil entweder kein RT oder nur langsameres RT zu haben.

mksn7

2022-03-22, 09:28:08

Ist das ein offizielles Rendering? Der die shot sieht schonmal quasi identisch aus wie A100. Das sieht jetzt nicht nach einem großen Sprung aus von A100 zu GH100.

SMs: + 33% (108 -> 144)
HBM breite: +20% (5 x 1024-> 6 x 1024), wenn sie nicht wie bei A100 1x1024 deaktivieren
L2: + 20%

Der HBM Takt ist bestimmt ein bisschen höher, da weiß ich gerade nicht was es im Vergleich zu A100 mittlerweile an HBM Chips gibt. Der GPU Takt geht bestimmt auch hoch, da bietet die neue Fertigung bestimmt mehr Spielraum. Ampere's 1.41 GHz sind ja wirklich nicht so viel.

Interessant wäre noch, was in den SM's noch an Änderungen drin steckt. 1:1 FP64, die höhere 2x FP32 units von Gaming Ampere, nochmal dickere Tensor Cores...

Vielleicht erschöpft sich dann aber auch das Transistorbudget auch schon wieder, man kann vermutlich nicht wie in der Vergangenheit den Chip einfach nochmal größer machen. Der Sprung von A100 -> GH100 ist dann vielleicht auch gar nicht so groß, und der große Sprung kommt erst mit einer MCM GPU. Aber wo kommen dann die 50B -> 144B Transistoren her, und wo gehen die hin?

davidzo

2022-03-22, 11:32:53

Ist das ein offizielles Rendering? Der die shot sieht schonmal quasi identisch aus wie A100. Das sieht jetzt nicht nach einem großen Sprung aus von A100 zu GH100.

Genau das dachte ich auch.

Aber wo kommen dann die 50B -> 144B Transistoren her, und wo gehen die hin?

Ist 140B+ denn überhaupt realistisch? Ich meine das passt doch mit den Daten die wir jetzt gesehen haben nicht mehr zusammen.
Ist ein Gerücht vom twitterer HXL. Früher habe ich aber auch mal 75B+ gehört. EDIT: Hier: https://www.club386.com/nvidia-next-gen-hopper-gpu-to-be-largest-most-powerful-ever/
Die behaupten auch dass das "3dcenter gerücht von MCM" zwar nett wäre, aber mit 95% Wahrscheinlichkeit nur Wunschdenken entspricht.

Btw, ich meine dass gestern als ich auf den Videocardz Link geklickt hatte standen dort noch 140B in der Tabelle.
Heute stehen da 80B - meiner Meinung nach viel realistischer für das Foto und den SM-count. So groß wie frühere Fullnode Sprünge ist N7->N5 ja nicht.

1. GA100 hat eine Transistordensity von 65mm2 bei 54mrd Tranistoren und 826mm2
2. Bei einem perfekten Scaling von 1,8x (TSMC) und haben wir also ein upper Limit von 100Mrd Transistoren pro Chip bei 117M/mm2 und 858mm reticle Limit.
3. Das ideale Scaling wird aber selten erreicht, genauso schwierig wird man effektiv bis ans reticle limit designen können.
4. Ein Scaling von 1,5 mit 98M/mm2 und 820mm2 würde exakt 80Mrd entsprechen.

Auch bei der Fläche von 900-1000mm2 wäre ich mir nicht so sicher. Das Gerücht war ja mit "actual chip might be smaller than package" vermischt, was heißen könnte dass damit nur der Interposer oder das Package gemeint ist. Das reticle Limit liegt imo immer noch bei 858mm² und eigene Scanner wird Nvidia auf die Schnelle wohl nicht entwickelt haben.

Auch scheinen die 850Watt Gerüchte für GH100 Bullshit zu sein. Das Foto des Servertrays zeigt klar SMX4 Module mit Luftkühlung. Und das air cooling Limit liegt für SMX3 afaik bei 400Watt (bei OCP bis 450W). Sieht jetzt nicht so aus als hätte sich am Heatsink von SMX3 zu SMX4 groß was geändert, die Module sind auch vom Formfaktor gleich. Mehr als 500Watt wird GH100 also nicht haben.

Die bisher schon spekulierten Daten scheinen sich ebenfalls zu bestätigen.
Umgekehrt: Die Mehrzahl der spekulierten Daten waren anscheinend völlig überzogen.
Alle Jahre wieder passiert das im Nvidia-spekuthread (auch bei amd) und auf twitter, dass angebliche Leaker sich gegenseitig mit immer beeindruckenderen Specs überbieten.

Platos

2022-03-22, 14:13:00

... Und am Schluss erinnert man sich an nur das letzte Gerücht und sagt dann, es ist alles wie in den Gerüchten gesagt wurde :D

Der Stromverbauch wird nicht so hoch sein, wie hier hundert mal ausgeschlachtet wurde und die Leistung und Fläche ist auch nicht so, wie in den meisten Gerüchten behauptet wurde. Also im Grunde stimmt praktisch nix :D

Lustig wärs jetzt noch, wenn nur Hopper bei TSMC gefertigt wird und der Rest wieder bei Samsung :D

basix

2022-03-22, 14:28:31

Wenn ich als bescheidener 3DC-User wetten müsste:
144B = 2x 72B = 2x H100 ;)

72B Transistoren für H100 würden deutlich besser zu N7 -> N5 passen. Laut Locuzas Abschätzung anhand des Renderings (welches natürlich völlig off sein kann) ist H100 700-750mm2 gross. 72B Transistoren würden dann also ~50% mehr Density bedeuten als bei A100.
Ausserdem passen 72B auch besser zu 144SM. Ich meine, es sind immer noch +18B oder +33% Transistoren verglichen zu A100. Da hat Full Rate FP64 und weiteres Tensor Zeugs sicher Platz.

Oder die andere Variante:
144B sind es inkl. dem COPA Cache.

Linmoum

2022-03-22, 15:34:02

https://videocardz.com/newz/nvidia-h100-gpu-features-tsmc-n4-process-hbm3-memory-pcie-gen5-700w-tdp

N4, 80B Transistoren, bis zu 700W TDP.

Leonidas

2022-03-22, 15:53:10

Bei bis zu 700W sehe ich schwarz für Dual-Chip.

Wake

2022-03-22, 16:03:15

Stream der GTC 2022 Keynote:
39ubNuxnrK8

AffenJack

2022-03-22, 16:07:23

Bei bis zu 700W sehe ich schwarz für Dual-Chip.

Man könnte immernoch niedriger takten und 2x500W nutzen. Bei der Grace+Hopper APU könnte es ja auch 1 KW sein.

https://videocardz.com/newz/nvidia-h100-gpu-features-tsmc-n4-process-hbm3-memory-pcie-gen5-700w-tdp

N4, 80B Transistoren, bis zu 700W TDP.

Es sind soviele Infos, die sich falsch herausgestellt haben, wie auch N5, dass man bei allem bezüglich Lovelace auch verdammt skeptisch sein sollte. Ich wette Lovelace ist zb auch 4nm, obwohl sich alle Leaker sicher waren, es wird 5nm.

Linmoum

2022-03-22, 16:21:27

Zumindest die Richtung, die NV beim Verbrauch gehen wird, stimmte... ;)

y33H@

2022-03-22, 16:25:14

N44N bitte :biggrin:

AffenJack

2022-03-22, 16:28:00

Zumindest die Richtung, die NV beim Verbrauch gehen wird, stimmte... ;)

Nur hat Kopite 1KW behauptet, rausgekommen sind 700W.
Bei Lovelace meinte er 600W für die xx90, also x 0,7 = 420W TDP ;D

HPVD

2022-03-22, 16:31:19

11:35AM EDT - 640GB of HBM3

11:35AM EDT - 8 H100 GPUs in one server

11:35AM EDT - Introducing the DGX H100, NVIDIA's latest AI computing system

11:33AM EDT - HBM3 memory

11:33AM EDT - COWOS 2.5 packaging

11:31AM EDT - And each of the 7 instances is the performance of two T4 server GPUs

11:31AM EDT - On the security front, Hopper adds full isolation for MIG mode

11:30AM EDT - Transformer Engine: a new tensor core for transformer training and inference

11:30AM EDT - Hopper introduces a transformer engine

11:30AM EDT - Hopper's FP8 is 6x the performance of Ampere's FP16 perf

11:29AM EDT - 2 PFLOPS of FP16, and 60 TFLOPS of FP64/FP32

11:29AM EDT - H100 has 4 PFLOPS of FP8 perform

11:29AM EDT - "5 groundbreaking inventions"

11:29AM EDT - Hopper architecture

11:29AM EDT - 20 H100s can sustain the equivalent of the world's Internet traffic

11:28AM EDT - A single H100 sustains 40TBit/sec of I/O bandwidth

11:28AM EDT - First HBM3 GPU

11:28AM EDT - First PCIe 5.0 GPU

11:28AM EDT - 4.9TB/sec bandwidth

11:28AM EDT - 80B transistor chip built on TSMC 4N

11:28AM EDT - Introducing NVIDIA H100!

source:
https://www.anandtech.com/show/17328/the-nvidia-gtc-2022-keynote-live-blog

WedgeAntilles

2022-03-22, 16:31:34

Es sind soviele Infos, die sich falsch herausgestellt haben, wie auch N5, dass man bei allem bezüglich Lovelace auch verdammt skeptisch sein sollte. Ich wette Lovelace ist zb auch 4nm, obwohl sich alle Leaker sicher waren, es wird 5nm.

Ich bin bei den profesionellen Produkten wie Hopper gar nicht in der Materie drin, daher meine dumme Frage:
Sind die Fakten die sich jetzt herausgestellt haben positiv?
Oder negativ?
Oder neutral?

WedgeAntilles

2022-03-22, 16:36:18

Nur hat Kopite 1KW behauptet, rausgekommen sind 700W.
Bei Lovelace meinte er 600W für die xx90, also x 0,7 = 420W TDP ;D

Du hast zwar ein Smiley hinter diese "Milchmädchenrechnung" gemacht, aber der Witz ist: Vermutlich bist du damit der Wahrheit sehr viel näher als der berühmte Kopite...

Diese ganzen Prognosen und Co sind generell witzig - egal um was es geht (Hardware, Fußball*, was weiß ich was) Zunächst gibt es zig Prognosen, Meinungen und so weiter.
Dann kommt am Ende was ganz anderes raus.
Und dennoch will am Ende jeder irgendwie recht gehabt haben *g*

*Wobei es hier eine Konstante wird - Bayern wird Meister, damit liegt man wenigstens in der Bundesliga quasi immer richtig... :rolleyes:

mksn7

2022-03-22, 16:46:54

3x FP32/FP64, das kommt wahrscheinlich von 1.5x durch mehr SMs/mehr Takt, und 2x durch neue Tensorcores mit doppeltem Durchsatz.

3 TB/s Speicherbandbreite ist fast 2x ggb. A100, bei gleicher Interfacebreite. Hätte nicht gedacht dass da beim Takt soviel mehr geht.

Edit: Ich hab nur die 40GB A100 im Kopf, die 80GB hatte auch schon 2TB/s, also nur +50%

AffenJack

2022-03-22, 16:48:39

Ich bin bei den profesionellen Produkten wie Hopper gar nicht in der Materie drin, daher meine dumme Frage:
Sind die Fakten die sich jetzt herausgestellt haben positiv?
Oder negativ?
Oder neutral?

Unmöglich zu sagen. Da muss man abwarten, dass mehr Infos zu Architektur, Takt etc kommen. Gerade hat man nur rohe Daten die erstmal beeindruckend sind. Aber bei den man sich fragt, ob nicht nur die Tensor Cores massiv aufgebohrt wurden.

Als negativ würde ich einschätzen, dass es nicht danach aussieht als würde Nvidia MCM GPUs bzw MCM CPU/GPU Kombis bringen. Das wird dann wohl erst 2024 kommen und damit ist Nvidia da schon eher hintendran.

3x FP32/FP64, das kommt wahrscheinlich von 1.5x durch mehr SMs/mehr Takt, und 2x durch neue Tensorcores mit doppeltem Durchsatz.

3 TB/s Speicherbandbreite ist fast 2x ggb. A100, bei gleicher Interfacebreite. Hätte nicht gedacht dass da beim Takt soviel mehr geht.

Das ist einfach HBM3, sogar relativ langsamer mit 500gb/s pro Stack, falls man wirklich 6 Stacks verwendet. Aber ich hab nirgends den Speicherausbau gesehen. Kann sein, dass es wieder nur 5 Stück mit 600 Gb/s sind.

HPVD

2022-03-22, 17:02:57

...

Als negativ würde ich einschätzen, dass es nicht danach aussieht als würde Nvidia MCM GPUs bzw MCM CPU/GPU Kombis bringen. Das wird dann wohl erst 2024 kommen und damit ist Nvidia da schon eher hintendran.

11:41AM EDT - Grace is "progressing fantastically" and is on track to ship next year => 2023

11:41AM EDT - Announcing Grace Hopper, a single MCM with a Grace CPU and a Hopper GPU

HPVD

2022-03-22, 17:05:29

Hopper Architektur Zusammenfassung:
https://www.anandtech.com/show/17327/nvidia-hopper-gpu-architecture-and-h100-accelerator-announced

AffenJack

2022-03-22, 17:12:31

11:41AM EDT - Grace is "progressing fantastically" and is on track to ship next year => 2023

11:41AM EDT - Announcing Grace Hopper, a single MCM with a Grace CPU and a Hopper GPU

Die Frage ist, ob das "echte" MCM sind. Von den Bildern auf der Folie mit den Möglichkeiten von Nvidia für zb 1 Grace +2Hopper sah das eher aus, als wenn man 2 Packages auf einem SXM Modul damit meint. Das ist nun keine Herausforderung und geht schon seit 20 Jahren. Es machte aber nicht den Eindruck von 2 Chips, die auf einem Interposer oder durch eine Bridge verbunden sind.

Linmoum

2022-03-22, 17:14:40

https://mobile.twitter.com/Locuza_/status/1506300723377721347

814mm2, minimal kleiner als GA100.

y33H@

2022-03-22, 17:16:11

Das ist einfach HBM3, sogar relativ langsamer mit 500gb/s pro Stack, falls man wirklich 6 Stacks verwendet. Aber ich hab nirgends den Speicherausbau gesehen. Kann sein, dass es wieder nur 5 Stück mit 600 Gb/s sind.Nur 5 von 6 Stack für die 3,07 TB/s.

AffenJack

2022-03-22, 17:18:54

https://www.nvidia.com/en-us/data-center/h100/

das whitepaper ist online

The full implementation of the GH100 GPU includes the following units:
● 8 GPCs, 72 TPCs (9 TPCs/GPC), 2 SMs/TPC, 144 SMs per full GPU
● 128 FP32 CUDA Cores per SM, 18432 FP32 CUDA Cores per full GPU
● 4 Fourth-Generation Tensor Cores per SM, 576 per full GPU
● 6 HBM3 or HBM2e stacks, 12 512-bit Memory Controllers
● 60 MB L2 Cache
● Fourth-Generation NVLink and PCIe Gen 5

The NVIDIA H100 GPU with SXM5 board form-factor includes the following units:
● 8 GPCs, 66 TPCs, 2 SMs/TPC, 132 SMs per GPU
● 128 FP32 CUDA Cores per SM, 16896 FP32 CUDA Cores per GPU
● 4 Fourth-generation Tensor Cores per SM, 528 per GPU
● 80 GB HBM3, 5 HBM3 stacks, 10 512-bit Memory Controllers
● 50 MB L2 Cache
● Fourth-Generation NVLink and PCIe Gen 5

The NVIDIA H100 GPU with a PCIe Gen 5 board form-factor includes the following units:
● 7 or 8 GPCs, 57 TPCs, 2 SMs/TPC, 114 SMs per GPU
● 128 FP32 CUDA Cores/SM, 14592 FP32 CUDA Cores per GPU
● 4 Fourth-generation Tensor Cores per SM, 456 per GPU
● 80 GB HBM2e, 5 HBM2e stacks, 10 512-bit Memory Controllers
● 50 MB L2 Cache
● Fourth-Generation NVLink and PCIe Gen 5

Zossel

2022-03-22, 17:29:31

Render zu GH100:

https://videocardz.com/ezoimgfmt/cdn.videocardz.com/1/2022/03/NVIDIA-Hopper-H100-1200x605.jpg?ezimgfmt=ng:webp/ngcb1

Neben der "GPU" sind ja nur noch Powerstages, Spulen und Elkos auf der Platine, quasi kein Hühnerfutter :-)

Es gibt bestimmt Leute die nur mit dem Design von solchen Stromversorgungen ihr Geld verdienen, bei 700 Watt und knapp über 1 Volt fließen da schon einige Ampere.

y33H@

2022-03-22, 17:38:27

The full GH100 GPU that powers the H100 GPU is fabricated using TSMC’s 4N process customized for NVIDIA, with 80 billion transistors, a die size of 814 mm2, and higher frequency design.

https://nvdam.widen.net/s/9bz6dw7dqr/gtc22-whitepaper-hopper

Linmoum

2022-03-22, 17:41:00

Ist 4N denn auch N4 oder einfach fesches Marketing-Speech für N5?

Troyan

2022-03-22, 17:41:26

Vom TSMC:

In addition, TSMC plans to launch 4nm (N4) technology, an enhanced version of N5 technology. N4 provides further enhancement in performance, power and density for the next wave of N5 products. The development of N4 technology is on schedule with good progress, and volume production is expected to start in 2022.

https://www.tsmc.com/english/dedicatedFoundry/technology/logic/l_5nm

Neben der "GPU" sind ja nur noch Powerstages, Spulen und Elkos auf der Platine, quasi kein Hühnerfutter :-)

Es gibt bestimmt Leute die nur mit dem Design von solchen Stromversorgungen ihr Geld verdienen, bei 700 Watt und knapp über 1 Volt fließen da schon einige Ampere.

Naja, Sind auch 3TB/s Bandbreite und 900GB/s mit NVLink. Irgendwann frisst das auch mehr Strom als der Chip. :eek:

y33H@

2022-03-22, 17:42:51

Ist 4N denn auch N4 oder einfach fesches Marketing-Speech für N5?Das 4N (statt N4) steht für Nvidia-optimiert, wie schon bei 7N und 12FFN.

Mandalore

2022-03-22, 17:48:00

Kann einer aus Besichtigung des WhitePapers schon sagen, mit was für einen Sprung wir es zu tun haben (größerer Sprung als von Pascal->Turing?)

Da Ada auf die gleiche Architektur basieren sollte mit Fokus auf Gaming…

AffenJack

2022-03-22, 17:49:00

Ist 4N denn auch N4 oder einfach fesches Marketing-Speech für N5?

N4 ist doch eh nur N5 mit minimalen Optimierungen. Da gibts eh kaum einen Unterschied. Spielt deswegen keine wirkliche Rolle woher der Prozess abgeleitet ist

https://abload.de/img/hopper14xj25.png
https://abload.de/img/hopper2pak6k.png

Also zum einen wurde FP32 und FP64 verdoppelt pro SM. Mit 15872 FP32 landen wir bei 1900mhz Takt. Das ist 34% mehr Takt. Kein Wunder also, dass die TDP hier massiv steigt.

PciE sollte laut den Daten mit etwa 1650 mhz takten, also -15% Takt für halbe TDP. Aber Nvlink frisst wohl auch ordentlich und die HBM Taktraten sind auch viel tiefer. Man weiß auch nicht, wie gut die PciE Karte die Taktraten hält, daher eher schwierig das zu vergleichen.

Allerdings kommt H100 wohl ziemlich spät, wenn man noch nichtmal taktraten finalisiert hat.

Troyan

2022-03-22, 17:51:28

y33H@

2022-03-22, 17:56:18

Die Physik kann man (noch) nicht überwinden ...

Platos

2022-03-22, 18:01:31

Also bei FP32 3-Fache Leistung bei 1.75-fachem Stromverbauch gibt dann 85.7 GFLOP/W und 48.75 GFLOP/W (Vorgänger). Also eine um 1.75-Fach gesteigerte Effizienz.

Und so viel dazu: Ich habe ja gesagt, ein höherer Stromverbauch muss nicht heissen, dass es ineffizient wird. Absolut ist 700W natürlich schon Krass, aber sagt rein gar nichts über die Effizienz aus. Bei Lovelace ist natürlich noch alles offen (die Gerüchte waren ja alle komplett daneben bei Hopper). Kann auch genau so gut sein, dass nvidia noch auf Samsung setzt. Die Gerüchtelage zeigt, dass man eig. auf kein Gerücht viel setzen sollte.

Sollte eig. klar sein, aber leider ist das bei manchen nicht so.

Und der Flächenvorteil von 7nm TSMC zu 4nm TSMC ist dann auf die 2. Kommastelle gerundet 1.50-Fach. Also 98k vs 66K pro Quadratmilimeter.

Das 4N (statt N4) steht für Nvidia-optimiert, wie schon bei 7N und 12FFN.

Netter Zahlen- und Buchstabenjoke mit dem 4N (4 nvidia - fo(u)r nvidia) :)

Troyan

2022-03-22, 18:16:14

Es sind 2,1x mehr Effizienz. Es macht kein Sinn SMX5 mit mehr Onchip- und Offchip-Bandbreite zu nehmen.

AffenJack

2022-03-22, 18:17:14

Mal ganz interessant, um den Yield des Herstellungsprozesses einzuschätzen:
SMs A100 vs A100 Full= 84%

SMs H100 PciE vs H100 SXM vs H100 Full= 79% bei PciE und 92% bei SXM.

Scheint als Prozess tätsächlich ziemlich gut zu laufen, so dass man eine Menge guter Chips bekommt, die sich für SXM eignen.

Platos

2022-03-22, 18:18:09

Es sind 2,1x mehr Effizienz. Es macht kein Sinn SMX5 mit mehr Onchip- und Offchip-Bandbreite zu nehmen.

War zwar genau ausgerechnet, aber natürlich trotzdem nur ein Zahlenspiel. War also nicht so gemeint, dass man das auf die Goldwaage legen muss. Aber 2.1x ist mir lieber, nehme ich gerne :)

Ich wollte damit nur ausdrücken, dass die Effizienz ziemlich gut gestiegen ist. Natürlich macht da der Fertigungsprozess viel aus.

Falls Lovelace und RDNA3 die selbe Fertigung nutzen, könnte man aber wunderbar sehen, was davon auf die Architektur zurückzuführen ist (wenn man sinnvolle Taktraten wählt).

Edit: Aber nur mal angenommen, die Effizienz ist bei Lovelace ähnlich gut gestiegen: Dann wäre ein unheimlicher Effizienzaprung drinn. 3090 Leistung bei unter 200W läge locker drinn.

Slipknot79

2022-03-22, 18:41:42

Huch GTC.
Was letzte Crysis fps? :redface:

Troyan

2022-03-22, 19:55:18

War zwar genau ausgerechnet, aber natürlich trotzdem nur ein Zahlenspiel. War also nicht so gemeint, dass man das auf die Goldwaage legen muss. Aber 2.1x ist mir lieber, nehme ich gerne :)

Ich wollte damit nur ausdrücken, dass die Effizienz ziemlich gut gestiegen ist. Natürlich macht da der Fertigungsprozess viel aus.

Falls Lovelace und RDNA3 die selbe Fertigung nutzen, könnte man aber wunderbar sehen, was davon auf die Architektur zurückzuführen ist (wenn man sinnvolle Taktraten wählt).

Edit: Aber nur mal angenommen, die Effizienz ist bei Lovelace ähnlich gut gestiegen: Dann wäre ein unheimlicher Effizienzaprung drinn. 3090 Leistung bei unter 200W läge locker drinn.

Aus dem Whitepaper ist die PCIe Version 35% langsamer und benötigt 50% weniger Strom. Also ist die Version nochmal 30% effizienter.

Schlussendlich ist 2x effizienter heutzutage sehr beeindruckend, da die Stromersparnis durch die kleineren Nodes nicht mehr wirklich vorangehen. TSMC spricht von 20% mehr Speed oder 40% weniger Strombedarf. Da ist die PCIe Variante mit theoretischen 2,1x schon deutlich besser, da der Chip 16% höher taktet.

Lovelace ist interessiert. Benötigt man hier mehr als 1TB/s Bandbreite? Sollte der Leak mit dem L2 Cache stimmen, dann wohl nicht. Also kann man hier sparen und mehr in die Ausführungseinheiten und Takt stecken.