nVidia - Ada Lovelace/Hopper (Ampere-Nachfolger, "4N", Q4/2022 + "SUPER"-Refresh Q1/2024) [Archiv] - Seite 7

HOT

2022-04-17, 09:46:31

Das ist aber nicht vergleichbar. Bei NV hatten GPU mMn immer einen hohen Optimierungsgrad, bei AMD wurde da der Rotstift vor Vega angesetzt. Das KnowHow für die Chipoptimierung wurde eben bei den CPUs entwickelt und musste dann auf den GPU-Bereich übertragen werden. Bei NV lief hingegen immer alles auf 100%.

V20 und RDNA1 vs. RDNA2 ist schlichtweg nicht vergleichbar mit NVs Situation, das kann halt nicht als Beispiel dienen. Da sollte man sich eher anschauen, was NV da bei Maxwell gemacht hat um die Takte hochzubekommen.

Skysnake

2022-04-17, 10:32:36

Die kochen auch nur mit Wasser....

Höhere Taktraten sind ein Designziel das mit Arbeit erreicht wird. Wenn man Vorgabe X hat weit man das Lösungsraum A möglich ist. Mit den höheren Taktraten Z reduziert sich das auf den Teinraum B usw. Takraten sind nichts, was plötzlich aus den Wolken fällt sondern etwas mit dem man schon die ganze Zeit arbeitet.

Wenn dann Placement&Routing anstehen muss man halt mit constraints arbeiten und vielleicht mal nen kleinen Teil umschreiben, damit der kritische Pfad für funktioniert. Das ist aber alles nicht planlos sondern ne ingenieurswissenschaftliche Herangehensweise...

HOT

2022-04-17, 10:43:53

Wenn man aber Pferdefüße in das endgültige Chipdesign einbaut, dass die hohen Taktraten verhindert, könnte der Chip theoretisch höher, das geht dann aber nicht. Das Taktziel dürfte schon bei RDNA1 bei den Takten von RDNA2 gewesen sein, vielleicht sogar bei V20.

Ich bin der Meinung, dass es AMDs Unvermögen war, dass V1x, V20 und RDNA1 schlichtweg Leistung gekostet hat. Die haben so viel Arbeit gehabt, dass man priorisieren musste. Zen1 und RR hatten Top-Priorität bei 14nm, die Konsolen-SoCs und Zen2 bei 7nm. Die GPUs nahm man halt in Kauf.

AffenJack

2022-04-17, 11:09:18

https://semianalysis.substack.com/p/nvidia-ada-lovelace-leaked-specifications?s=r

Ein schöner Artikel mit dem Versuch Diegrößen von lovelace vorherzusagen. Glaube wird schon nah an der Wahrheit sein. Zeigt auch nochmal den massiven Unterschied von AD102 zu AD103 in der Größe und ist ne gute Grundlage dafür, wo sich welcher Chip wohl preislich positioniert,wenn man bedenkt, dass 5nm deutlich teurer als 8nm wird. Die diesize bei allem außer AD102 geht gut runter. Daher wird es AD102 bestimmt auch nur >1000$ geben.

iamthebear

2022-04-17, 11:13:34

Da liegst du denke ich grundlegend falsch. Du darfst nicht die größten Chips miteinernader vergleichen. Wir sehen ja, dass der 104er im Vergleich deutlich kleiner wird. Das wird daran liegen, dass dieser dann mit 2,6-2,7GHz maximal laufen kann und genau dafür braucht man die zusätzlichen Transistoren. Der größte Chip läuft halt einfach früher ins Powerlimit.

Woher stammen die 2.6-2.7GHz?
Ich denke nicht, dass wir einen 6700 XT Moment erleben werden wo das Topmodell deutlich niedriger getaktet ist wie die Modelle darunter.

Die 4090 Ti wird sich mit 600W ca. am selben Punkt in der Spannung/Taktkurve befinden wie es die 3090 Ti tat.

Angenommen die 4090 Ti hat 75 Mrd. Transistoren, dann sind das 2.7x. Falls diese linear mehr Strom ziehen:
.) 600W vs. 450W sind 1.33x TDP

Bleiben 2x und das wird durch die neue Fertigung auf jeden Fall erreicht.
Für Samsung 8FF gibt es zwar keine Vergleichswerte mit TSMC aber:
.) N7 vs. N5P sind schon 1.6x
.) N10 vs. N5P sind 2.7x

Da wird Samsungs 8FF in etwa in der Mitte drin liegen.

AMD ist hier nicht vergleichbar, die haben einen anderen Optimierungsgrad erreicht, weil die sich zur konkreten Chipoptimierung IIRC die eigenen CPU-Leute herangezogen hatten, die da echt was reißen konnten und evlt. Flaschenhälse entschärfen konnten. Die Taktsteigerung von RDNA1 zu RDNA2 kam durch pure Optimierung zustande.

AMD hatte früher ein viel ineffizienteres Design (bezogen auf Performance/Transistor). Da gab es generell noch viel mehr Optimierungspotential. Ich sehe RDNA in etwa so wie Zen 1: Es war ein sehr großer Fortschritt verglichen mit der Katastrophe davor aber immer noch mit vielen Problemen und im Fall von RDNA konnte man die Defizite durch die bessere Fertigung gut kaschieren.

HOT

2022-04-17, 13:11:00

Die stammen daher, dass AD104 soviel kleiner ist als AD102. Iregendwo wird die Leistung herkommen, also kommt die bei den kleineren Produkten durch den Takt.

Sunrise

2022-04-17, 13:33:54

https://semianalysis.substack.com/p/nvidia-ada-lovelace-leaked-specifications?s=r

Ein schöner Artikel mit dem Versuch Diegrößen von lovelace vorherzusagen. Glaube wird schon nah an der Wahrheit sein. Zeigt auch nochmal den massiven Unterschied von AD102 zu AD103 in der Größe und ist ne gute Grundlage dafür, wo sich welcher Chip wohl preislich positioniert,wenn man bedenkt, dass 5nm deutlich teurer als 8nm wird. Die diesize bei allem außer AD102 geht gut runter. Daher wird es AD102 bestimmt auch nur >1000$ geben.
Ja, ein sehr guter, sachlicher Artikel. Da stimmt wahrscheinlich so ziemlich alles, wenn man sich anschaut, wie sie gerechnet haben.

Allerdings empfinde ich AMDs RDNA3 als deutlich spannender. Ampere Next ist eben weiterhin Ampere, nur eben “on steroids”. TSMC 4N gibt ihnen halt massiv Vorteile, dafür aber Kompromisse beim Verbrauch. Gäbe es AMD nicht, wäre das bis auf den Verbrauch eine ziemlich ausgewogene Architektur, deutlich besser als Ampere. Wird sicher viele Käufer finden, trotz dessen, dass viele beim Verbrauch aufschreien. Mal gespannt ob sie die Dinger gut liefern können, denn NV hat ja bereits versprochen, dass sie sehr große Mengen bei TSMC reserviert haben.

Wird mal wieder richtig interessant, das nächste halbe Jahr.

Platos

2022-04-17, 14:34:36

Die stammen daher, dass AD104 soviel kleiner ist als AD102. Iregendwo wird die Leistung herkommen, also kommt die bei den kleineren Produkten durch den Takt.

Klar, die Top-Dogs fahren etwas niedrigere Taktraten, aber so niedrig? Glaube ich kaum. Mal als Vergleich:

GA 102 zu AD 102: 71.4% mehr Cuda Cores
GA 104 zu AD 104: 25% mehr Cuda Cores
GA 106 zu AD 106: 20% mehr Cuda Cores

AD 104 müsste also 37.1% höher takten und AD 106 42.8%, damit der Fortschritt gleichermassen wäre. Das halte ich für komplett ausgeschlossen. Wenn AD 102 "nur" bei 2GHz landet (und das wäre ja ziemlich wenig im Vergleich zu den Gerüchten), müssten die anderen beiden bei um die 2.8GHz takten, um das auszugleichen. Nie und nimmer lässt man so viel Takt links liegen. Takt ist gratis Perfomance für nvidia. Ich glaube da nicht an mehr wie allerhöchstens 15% Taktunterschied.

Ich denke, man wird den grossen Sprung vom AD 102 zum AD 104 durch teildeaktivierte AD 102 lösen. Wobei selbst da der Sprung zu riesig wäre. Ich denke also, man wird dieses mal doch den 103-er Chip für Desktop (mit-)verwenden. Bei Ampere war der Unterschied vom 102-er zum 104-er +75%. Dieses mal wäre er +140%. Also eine Verwendung des AD 103 im Desktop wäre da eigentlich anzunehmen. Ansonsten gibts ne riesen Lücke zwischen AD 102 und 104.

So könnte man AD 102 für 4080 und 4090 verwenden (4080 stark abgespeckter AD 102) und AD 103 für die 4070. AD 104 dann für 4060 und AD 106 für 4050. TI's dann irgendwo dazwischen gequetscht. Das gäbe dann auch eine sinnvolle Abstufung. Anders hätte man einen zu grossen Unterschied und Takt lässt man nicht liegen. GA 102 hat auch nicht viel niedriger wie GA 10x getaktet.

Mandalore

2022-04-17, 15:24:19

Ja, ein sehr guter, sachlicher Artikel. Da stimmt wahrscheinlich so ziemlich alles, wenn man sich anschaut, wie sie gerechnet haben.

Allerdings empfinde ich AMDs RDNA3 als deutlich spannender. Ampere Next ist eben weiterhin Ampere, nur eben “on steroids”. TSMC 4N gibt ihnen halt massiv Vorteile, dafür aber Kompromisse beim Verbrauch. Gäbe es AMD nicht, wäre das bis auf den Verbrauch eine ziemlich ausgewogene Architektur, deutlich besser als Ampere. Wird sicher viele Käufer finden, trotz dessen, dass viele beim Verbrauch aufschreien. Mal gespannt ob sie die Dinger gut liefern können, denn NV hat ja bereits versprochen, dass sie sehr große Mengen bei TSMC reserviert haben.

Wird mal wieder richtig interessant, das nächste halbe Jahr.

Die letzten Wochen haben ja gezeigt (durch Leaker etc.), dass Ada eben nicht Ampere auf Steroiden sein wird.

Das wird aber unabhängig davon trotzdem sehr interessant mit RDNA3....

Thunder99

2022-04-17, 15:33:30

Die letzten Wochen haben ja gezeigt (durch Leaker etc.), dass Ada eben nicht Ampere auf Steroiden sein wird.

Das wird aber unabhängig davon trotzdem sehr interessant mit RDNA3....
Und warum dann 600W Verbrauch? Das ist auf Steroiden.

Platos

2022-04-17, 15:54:47

Und warum dann 600W Verbrauch? Das ist auf Steroiden.

Unabhängig davon ob nun 600W kommen oder nicht: Falsch, ist es nicht (zwingend). Siehe Hopper. Riesen Stromverbrauch aber auch riesen Effizienz. Absolute Werte haben nichts mit relativen Werten (hier Effizienz) zu tun.

Locuza

2022-04-17, 15:57:43

Ja, ein sehr guter, sachlicher Artikel. Da stimmt wahrscheinlich so ziemlich alles, wenn man sich anschaut, wie sie gerechnet haben.
[...]
Es ist natürlich trotzdem eine relativ grobe Schätzung basierend auf vielen Annahmen und Vereinfachungen.
Wir haben Experten Feedback bekommen, welche "unsere" Skalierung nach unten ein Tick zu aggressiv einschätzt.
Man ist natürlich gespannt, wie sehr man richtig bzw. daneben lag. :D

Die letzten Wochen haben ja gezeigt (durch Leaker etc.), dass Ada eben nicht Ampere auf Steroiden sein wird.

Das wird aber unabhängig davon trotzdem sehr interessant mit RDNA3....
Das wird interessant werden, denn Hopper hat die CUDA Compute Capability 9.0, während Ada nur mit 8.9 ausgegeben wird.
Grundlegend hat sich mit Hopper auch nicht soviel verändert, es gibt aber mehrere spezifische Anpassungen mit großer Wirkung, da kann man gespannt sein, wie viel davon in Ada zu finden sein wird.

In Bezug auf RDNA3 wird es dann aus meiner Sicht wesentlich spannender.
AMD wird massiv umbauen was die Vektor-Einheiten und die Cache-Hierarchie angeht.
Leider wird es anscheinend nur 3 Chips geben und wenn AMD keine dualen Kapazitäten erlaubt, spricht 8/16 GB für Navi33, hat Nvidia gute Argumente auf ihrer Seite.

Thunder99

2022-04-17, 16:50:56

Unabhängig davon ob nun 600W kommen oder nicht: Falsch, ist es nicht (zwingend). Siehe Hopper. Riesen Stromverbrauch aber auch riesen Effizienz. Absolute Werte haben nichts mit relativen Werten (hier Effizienz) zu tun.
Mag ja sein. Für mich stellt sich aber im privaten Umfeld die Frage wie man das noch kühlen soll bei welcher Lautstärke bei welchen Stromkosten.
Hoffnung habe ich da bei AD102 verloren, aber zumindest bei 03 und 04 ist es ja noch zu unsicher bei welchem TDP Budget sie ins Rennen gehen.

Platos

2022-04-17, 16:53:06

Mag ja sein. Für mich stellt sich aber im privaten Umfeld die Frage wie man das noch kühlen soll bei welcher Lautstärke bei welchen Stromkosten.
Hoffnung habe ich da bei AD102 verloren, aber zumindest bei 03 und 04 ist es ja noch zu unsicher bei welchem TDP Budget sie ins Rennen gehen.

Das ist ein anderes Thema. Und unsicher sind alle noch. Hier gehts nur um Grafikkarten. Einfach abwarten, bis es richtige Leaks gibt mit expliziten Spezifikationen (bezüglich Stromverbrauch). Der leakt ja meist als letztes (bei konkreten Angaben).

Thunder99

2022-04-17, 17:00:54

Netzteil Spezifikationen, neue Stecker, 3090Ti verheissen nichts gutes.

Aber ja, warten wir noch ab :)

AffenJack

2022-04-17, 17:11:25

Das wird interessant werden, denn Hopper hat die CUDA Compute Capability 9.0, während Ada nur mit 8.9 ausgegeben wird.
Grundlegend hat sich mit Hopper auch nicht soviel verändert, es gibt aber mehrere spezifische Anpassungen mit großer Wirkung, da kann man gespannt sein, wie viel davon in Ada zu finden sein wird.

Hast du ne Annahme, was bei 8.9 fehlen könnte? DPX Instruktionen? Der Tensor Memory Accelerator? Was davon ist relevant für die CUDA Compute Capability?

Spannend wird Lovelace eher im Bereich Raytracing. Du hast in Sachen PowerVR RT Einstufungen Intel ja auch schon auf Stufe 4 gesehen im Vergleich zu Nv. Da sollte sich aber mit Lovelace einiges tun. Bin gespannt, ob Intel und Nvidia nicht wieder 1 Schritt vor AMD sind bei RT mit der nächsten Gen.

iamthebear

2022-04-17, 20:05:06

https://semianalysis.substack.com/p/nvidia-ada-lovelace-leaked-specifications?s=r

Der Teil mit den L2 Größen war echt interessant. Mir war gar nicht bekannt wie riesig der L2 bei GA100 eigentlich war.
Jetzt stelle ich mir die Frage: Wenn der L2 eine so mieserable Dichte hat dann wird er vermutlich auch deutlich mehr Transistoren brauchen als nur die 6T/Bit für den SRAM selbst. Vielleicht ist das die Antwort wo die ganzen Transistoren hin sind.

Was ich mich nur frage ist: Warum macht Nvidia so etwas? GA102 war ja alles andere als bandbreitenlimitiert siehe 3080 10GB vs. 12GB.
Vor allem im Midrange wird der L2 Anteil ja noch höher. Da hätte man das doch viel sinnvoller mit etwas weniger L2 aber etwas mehr Speicherinterface lösen können wenn z.B. AD104 256 Bit bekommt + 16MB Cache.

AffenJack

2022-04-17, 20:44:35

Man steigert die Bandbreite ja kaum, dafür aber die Rechenleistung, da verstehe ich schon, dass man auf Cache geht. Amd zeigt ja, dass es gut funktioniert und man dürfte auch den Verbrauch reduzieren durch die kleineren Interfaces bei den kleinen Chips.

Unverständlich ist für mich, wieso man so einen massiven und schnellen Cache bauen sollte? Da würde es doch mehr Sinn machen auf l2 + L3 umzusteigen, um die Dichte des L3 zu erhöhen, auch wenn er langsamer ist. Oder man geht nicht auf so massive L2 Bandbreiten. Da bin ich etwas skeptisch in Hinsicht auf den Artikel. Sollte man es wirklich so machen, dann muss das nen guten Grund haben. Evtl große Vorteile bei RT?

Locuza

2022-04-17, 21:18:44

Hast du ne Annahme, was bei 8.9 fehlen könnte? DPX Instruktionen? Der Tensor Memory Accelerator? Was davon ist relevant für die CUDA Compute Capability?

Spannend wird Lovelace eher im Bereich Raytracing. Du hast in Sachen PowerVR RT Einstufungen Intel ja auch schon auf Stufe 4 gesehen im Vergleich zu Nv. Da sollte sich aber mit Lovelace einiges tun. Bin gespannt, ob Intel und Nvidia nicht wieder 1 Schritt vor AMD sind bei RT mit der nächsten Gen.
Wenn man sich die CCs anschaut, dann definieren sie ein ziemlich genaues Featureset, was auch die Anzahl der ALUs und die Cache-Größen inkludiert.
Hopper hat DPX-Instruktionen mitgebracht, den erwähnten TMA, es gibt eine neue Scheduling-Stufe auf GPC-Level, womit man das SM-to-SM-Network für effizienteres Data-Sharing ausnutzen kann.
Darüber hinaus auch Verbesserungen bei den Tensor-Cores für Transformer-Modelle und FP8.
Ich weiß natürlich nicht wie sehr Nvidia auf eine Featuregleichheit hingewirkt hat, rein auf Gaming bezogen könnte man vermutlich alles wegrationalisieren.

Nvidia wird aber wohl eher ein paar Sachen für Ada auch verwenden, die L1$/SM-Größe wird wahrscheinlich steigen und sehr wahrscheinlich wird es (deutlich) bessere RT-Hardware geben.

RDNA3 scheint ein sehr ambitioniertes Projekt zu sein, entsprechend tendiere ich gerade dazu große RT-Zuwächse zu erwarten, ob die RT-Hardware dann generell ebenbürtig ist, ist dann nicht ganz so wichtig, wenn andere Aspekte wie Takt oder Cache-Hierarchie das in der Praxis aufwiegen.

Der Teil mit den L2 Größen war echt interessant. Mir war gar nicht bekannt wie riesig der L2 bei GA100 eigentlich war.
Jetzt stelle ich mir die Frage: Wenn der L2 eine so mieserable Dichte hat dann wird er vermutlich auch deutlich mehr Transistoren brauchen als nur die 6T/Bit für den SRAM selbst. Vielleicht ist das die Antwort wo die ganzen Transistoren hin sind.

Was ich mich nur frage ist: Warum macht Nvidia so etwas? GA102 war ja alles andere als bandbreitenlimitiert siehe 3080 10GB vs. 12GB.
Vor allem im Midrange wird der L2 Anteil ja noch höher. Da hätte man das doch viel sinnvoller mit etwas weniger L2 aber etwas mehr Speicherinterface lösen können wenn z.B. AD104 256 Bit bekommt + 16MB Cache.
Ich weiß nicht wie viel Transistoren bei den L2$ zu finden ist außerhalb der SRAM-Blöcke, aber beim GA102 belegt der Rest 56% der Fläche, beim A100 deutlich weniger und beim Infinity-Cache von AMD wohl unter 10%.

Wenn man die Anzahl der Recheneinheiten um ~70% erhöht, wird die Versorgung davon definitiv zum Problem werden.
Beim Cache-Design stellt sich die Frage nach der konkreten Umsetzung; wie viele Transistoren wird Nvidia pro Bit verwenden, welche Speicherbandbreite wird umgesetzt und wie groß fallen die Tiles aus?
Ich vermute wenn man 2MB große Tiles verwendet, dann wird die Flächeneffizienz etwas besser, als beim A100 ausfallen, dann ist es nicht ganz so dramatisch mit dem Flächenverbrauch.
4nm Waferkosten sind wahrscheinlich nicht ohne, aber möchte man kleinere Caches verwenden und ein breiteres Interface, dann stellt man sich dann anderen Problemen.
Die Effizienz wird schlechter sein, da man mehr Energie für GDDR6 verbrennt, als günstiger vom L2$ zu beziehen und die Boardkosten steigen, mehr Layers werden notwendig, möglicherweise eine bessere Stromversorgung und dann ändern sich auch die möglichen Speicherkapazitäten.

RDNA3 scheint diese Design-Aspekte maximal ausnutzen zu wollen, Navi33 hat ungefähr Navi21-Leistung im Blickfeld, verwendet aber gerade mal 128-Bit G6 und massig Cache.

BlacKi

2022-04-17, 22:36:16

ad106 mit 8gb ist zu wenig und ad104 mit 350w und mehr ist mir zuviel. ad106 mit 16gb würde mir reinlaufen, mit dem cache stören mich die 128bit SI keineswegs.

iamthebear

2022-04-17, 22:39:49

Die Frage, die ich mir gerade im Moment stelle ist wie die Performanceangaben in den Leaks von AD102 und Navi31 gemeint sind:
a) Die Performance Rohleistung d.h. bei 70% mehr SMs und 70% mehr effiektiver Speicherbandbreite 1.7x
b) Die tatsächliche Framerate. Wenn ich diverse GPUs (z.B. 3070 vs. 3090 oder 6700XT vs. 6900XT) vergleiche, dann skalieren diese nicht zu 100% mit der Rohleistung sondern nur zu ca. 75%. Um die 15% gehen selbst bei 4K auf die CPU und der Rest dürften irgendwelche fixen Delays sein.
Als Richtwert kann man hier ansetzen:
Performance real = Performance theoretisch ^ 0.75

Beispiel:
3090 vs. 3070 sind 1.7x theoretisch aber nur ca. 1.45x bis 1.5x real
6900 XT vs. 6700 XT sind es 1.8x theoretisch vs. 1.45x real aber da skaliert ja auch die Speicherbandbreite nicht 1:1 mit

Bei Nvidia gibt es nun 2 mögliche Auflösungen:
a) Die 2x bis 2.2x sind als Rohleistung gemeint. Dies würde bedeutet, dass lediglich die SMs um 70% erhöht wurde ohne größere IPC Änderungen. Der Rest auf die 2x-2.2x ist der höhere Takt welcher die hohe TDP erklärt, welche dann aber nicht wirklich zwingend ist und wohl nur für das Topmodell gilt.
Wo diese Theorie etwas spießt ist die Transistoranzahl, die bei der Variante bei etwas über 50 Mrd. liegen würde. Dies würde bedeuten, dass Nvidia 20 Mrd. Transistoren nur für die Kontrolllogik des L2 und vielleicht ein paar RT Verbesserungen verbraten hat, was ziemlich extrem wäre.
b) Nvidia hat einen Weg gefunden, den L2 ähnlich kompakt wie AMD unter zu bringen und hat 30%-40% Transistoren zusätzlich in die SMs gesteckt (z.B. wieder in die Richtung wie bei Turing mit FP32 und INT parallel inkl. entsprechend vieler Threads). Dann liegen wir bei 2.85x Rohleistung wobei 2.5x durch die Transistoren kommen und 10% durch zusätzlichen Takt. Die TDP ergibt sich dann einfach durch die Größe.

Wenn wir Navi31 und Navi33 betrachten:
Navi31 hat 60 WGP, Navi33 hat 16, Takt ist 3GHz vs. 2.5GHz
a) Die 2.5x sind die Rohleistung. Das würde bedeuten, dass bei Navi33 irgendetwas anders sein muss als bei Navi31 weil bei gleicher Architektur müsste der Unterschied 3.1x sein. Dann fehlen uns aber noch wichtige Informationen.
b) Die 2.5x sind die reale Performance, 3.125x ist die Rohleistung. In diesem Fall würde alles stimmen.

Falls Variante b zutrifft, dann sollten wir uns jedoch im Klaren sein, dass der Top Die jeweils nur für den Ultra High End Bereich > 2K verwendet wird und die regulären 700-1000 Euro Karten wie 4080 oder 7800 XT sehr deutlich darunter liegen werden.

WedgeAntilles

2022-04-18, 11:11:19

Falls Variante b zutrifft, dann sollten wir uns jedoch im Klaren sein, dass der Top Die jeweils nur für den Ultra High End Bereich > 2K verwendet wird und die regulären 700-1000 Euro Karten wie 4080 oder 7800 XT sehr deutlich darunter liegen werden.

Vom technischen ganz weg und nur auf den BWL-Standpunkt geachtet, könnte das Sinn machen. Wäre aber schon risikoreich.
Die letzten 2 Jahre haben ja gezeigt, dass es eine Käuferschicht gibt, die bereit ist 1500 Euro und mehr für GraKas zu bezahlen.
Das Segment 2000 Euro+ existierte IIRC bisher überhaupt nicht bei GraKas.

Allerdings weiß ich nicht, ob die Erkenntnis, dass es evt. Sinn macht dieses Segment zu bedienen nicht zu kurzfristig kam, um für die Designentscheidungen der jetzt launchenden Generation noch Gewicht zu haben.
(Es hatte bei der aktuellen Generation ja keiner mit den Preisen gerechnet.)

Weiterhin unklar ist, wie groß dieses Segment überhaupt ist. Das werden Nvidia und AMD natürlich ganz gut abschätzen können (basierend auf den Verkaufszahlen der 3090 und 6900XT).

Und als letztes ist unklar, ob die Zahlungsbereitschaft einer signifikanten Gruppe auch so hoch bleibt, wenn es nicht mit Mining gegenfinanziert werden kann.
(Andererseits: Es ist auch möglich, dass Mining nach wie vor eine relevante Rolle spielt.)

Schwierige Entscheidung, vor der AMD + Nvidia da stehen bzw. standen.

Thunder99

2022-04-18, 12:22:20

Nicht nur die Verkaufszahlen spielen eine Rolle, auch die Daten aus Steam geben Aufschluss was der Kunde bereit ist zu zahlen.

Mining werden wir nicht mehr los, leider...

HOT

2022-04-18, 12:26:43

Sicher werden wir Mining los, das wird zunehmend irrelevant. Die Daten aus Stream sind Dreck.

Platos

2022-04-18, 12:29:49

Und warum wirds irrelevant? Bzw. warum sollte es nicht relevant werden, wenn die neue Gen. launcht?

reaperrr

2022-04-18, 13:22:59

Und warum wirds irrelevant? Bzw. warum sollte es nicht relevant werden, wenn die neue Gen. launcht?
Auch wenn es sich natürlich wieder etwas weiter verschieben könnte, aktuell ist der Sprung von Ethereum auf Proof-of-Stake noch immer für dieses Jahr geplant, und andere Crypto-Währungen sind nicht annähernd so profitabel auf GPUs zu farmen.

Heißt nicht zwangsläufig, dass es "irrelevant" wird, aber es war schon zuletzt so, dass bloße Wertsenkungen bei Ethereum gleich zu reduzierter GPU-Nachfrage und besserer Verfügbarkeit/geringeren Preisen geführt haben, zudem wird es durch Energiepreise, Embargos, Crypto-Verbote etc. auch in immer mehr Ländern unmöglich oder zumindest schwieriger umsetzbar, im großen Stil Ethereum und andere Cryptos auf GPUs profitabel zu minen.

Schlecht verfügbar wird die neue Gen anfangs wahrscheinlich trotzdem sein, aber so übel wie in 2021 sollte es so schnell nicht wieder werden, zumal viele ehemalige Mining-GPUs der RDNA1/RDNA2/Ampere-Generationen irgendwann den Gebrauchtmarkt fluten und die Preise für GPUs generell etwas drücken werden.

HOT

2022-04-18, 14:31:21

Klar wird das irrelevant im Gesamtmarkt, da die GPU-Hersteller ja für Mining eigene Produkte anbieten, die den Mininganbietern abseits von Ether reichen werden. Und dort kommt die PoS-Transformation, selbst wenn das erst nächstes Jahr ist, stellt sich jetzt keiner mehr Miningrigs in großem Stil hin, die man dann entsorgen kann.

iamthebear

2022-04-18, 17:14:58

Ethereum Mining ist bereits jetzt schon uninteressant:
.) Für Endverbrauch mit Gaming Zweitnutzung ist der Strompreis zu hoch als dass es sich noch lohnen würde
.) Für Miningfarmen mit billigem Industriestrom zahlt sich die Investition auf Grund des baldigen Ende von PoS nicht mehr aus

Mit der nächsten Generation wird sichdas noch verschärfen, da Ethereum Mining linear mit der physischen Speicherbandbreite skaliert und nicht von Caches profitiert. Navi 31 wird nicht schneller als eine 6800 und eine 4090 Ti nicht schneller als eine 3090.

robbitop

2022-04-18, 19:34:19

Man kann mit GPUs leider allerhand Cryptowährungen mit PoW minen und gegen ETH oder BTC tauschen.

iamthebear

2022-04-18, 21:51:49

Es gibt zwar noch andere Kryptowährungen aber der täglich ausgeschüttete Wert dieser Kryptowährungen ist ziemlich gering. Einige Miningfarmen werden auf diese Kryptowährungen wechseln was die Anzahl der am Gebrauchtmarkt verkauften Karten etwas reduzieren wird aber neue Karten werden dafür keine angeschafft und ohne billigen asiatischen Industriestrom wird das auch bei Weitem nicht kostendeckend sein.

Die einzige Möglichkeit wie GPU Mining weiter profitabel sein könnte ist wenn sich die Ethereum Miner organisieren und gesammelt einen Hard Fork durchführen. Einfach nur den Merge zu verweigern reicht nicht aus weil dann kommt die Difficulty Bomb zum Tragen. Es müssen sich schon mehr als 50% der Miner organisieren und gemeinsam eine alternative Version bauen. Ob das jedoch die Akzeptanz der Börsen haben würde ist sehr zweifelhaft. Vermutlich würde sich Ethereum dann in einem großen Börsencrash in Luft auflösen oder der Fork würde großteils ignoriert werden.

robbitop

2022-04-19, 06:44:40

Ich bin mir nicht sicher ob man das so verallgemeinern kann, dass sich wenn nur eth zu minen lohnt. Es gibt hunderte wenn nicht tausende andere cryptos und die modernen miningtools minen auf Wunsch automatisch das wo es am meisten Geld pro kWh gibt.
Und wenn BTC/ETH wieder anzieht hebt es auch die Preise vieler vieler anderer cryptos wieder an.

Es wäre schön wenn die GPU und Stromverschwendung endlich tot wäre dank PoW bei ETH. Aber es gibt leider wie gesagt zu viele andere Cryptos.

AffenJack

2022-04-19, 09:41:21

Kopite hat 2 neue tweets:
Ignore these fanboys, let's turn our attention to GPU.
AD102 has started testing.
At least now we can call it RTX 4090, and it will use 24Gbps mem chips.

Zulettt hatte er noch an 24gbps gezweifelt. Das würde darauf deuten, dass die ersten 24gbps Tests gut aussehen. Alles natürlich unter der Prämisse, dass seine Quellen diesmal richtig sind.

Oktober Release sollte also passen, wenn nix unvorhergesehene passiert.

Troyan

2022-04-19, 09:44:59

Micron hat 24gbit/s ja per Pressemitteilung bestätigt.

Wuge

2022-04-19, 10:35:41

.) Für Endverbrauch mit Gaming Zweitnutzung ist der Strompreis zu hoch als dass es sich noch lohnen würde.

Bring aktuell noch 2 EUR Netto am Tag.

Relic

2022-04-19, 10:47:26

Ich bin mir nicht sicher ob man das so verallgemeinern kann, dass sich wenn nur eth zu minen lohnt. Es gibt hunderte wenn nicht tausende andere cryptos und die modernen miningtools minen auf Wunsch automatisch das wo es am meisten Geld pro kWh gibt.
Und wenn BTC/ETH wieder anzieht hebt es auch die Preise vieler vieler anderer cryptos wieder an.

Es wäre schön wenn die GPU und Stromverschwendung endlich tot wäre dank PoW bei ETH. Aber es gibt leider wie gesagt zu viele andere Cryptos.

Wer weiß wann PoW bei ETH kommt. Das kann sich ohne Probleme noch 2-3 Jahre ziehen

Aber wenn es so weit kommt, wird das schon extreme Auswirkungen haben. Ja es gibt genügend andere Coins zu minen aber du bedenkst folgende Auswirkungen nicht:

Sagen wir mal 70-90% der verfügbaren Miningpower ist im Moment bei ETH. Wenn diese jetzt zu kleineren Coins wechseln, die im Moment noch profitabel zu minen sind, wirkt sich das natürlich extrem auf die Schwierigkeit aus eine Block zu minen, wenn plötzlich die 2-10x Hashrate im Netzwerk vorhanden ist. Dies hat zur Folge das der Ertrag extrem sinkt.
Außerdem könnte noch ein weiterer Effekt eintreten: Bei kleineren Coins minen oft auch Einzelpersonen, die in das Projekt investiert sind und die Coins erst einmal halten. Die Miningfarmen machen das nicht und verkaufen zeitnah, was den Kurs dieser Coins zusätzlich unter Druck setzen könnte.

Natürlich wird es nicht verschwinden, allerdings wird es den Bedarf an neuem Mining Equipment (Grafikkarten) auf jeden Fall einschränken.

Hier ein Link zu Nicehash mit zu erwartenden Ertrag:

https://www.nicehash.com/mining-hardware

Das ist eine Software die deine Miningpower an den Meistbietenden verkauft. Wenn du dir anschaust was dort auf aktuellen Grafikkarten gemined wird ist das zu 99% ETH (zu sehen, wenn man auf das Modell klickt).

HOT

2022-04-19, 12:30:48

Glaub nicht, dass sich das noch wesentlich weiter zieht. Laut eigenem Bekunden sind die ja auf einem guten Weg für die Umstellung. Vielleicht gibts noch mals ne Verzögerung bis spätestens Mitte 23, aber länger wird das nicht dauern.

Da es keine Coins gibt, die auch nur ansatzweise in den Wertbereichen wie Ether rumschwirren, wird nach der Umstellung auf PoS der Grafikkartenmarkt mit Altmodellen der Miner überflutet werden und den Gebrauchtmarkt erst mal völlig aus der Bahn werfen.

WedgeAntilles

2022-04-19, 12:45:53

Glaub nicht, dass sich das noch wesentlich weiter zieht. Laut eigenem Bekunden sind die ja auf einem guten Weg für die Umstellung. Vielleicht gibts noch mals ne Verzögerung bis spätestens Mitte 23, aber länger wird das nicht dauern.

Hattest du nicht noch Anfang des Jahres gesagt, dass die Umstellung absolut sicher im Sommer DIESEN Jahres kommt?
Oder verwechsle ich dich mit jemandem?

Für mich fühlt sich der Termin der Umstellung wie Groundhog Day an.
Seit Jahren steht die Umstellung kurz bevor. Ganz sicher. Der nächste Termin ist aber dieses mal wirklich fix.

Tipp: Die Umstellung erfolgt zeitgleich mit dem Release von Star Citizen ;D

basix

2022-04-19, 12:58:46

Die ETH Macher haben einfach keinen relevanten Druck, um auf PoS zu wechseln. Solange der Rubel rollt ist das denen doch völlig egal.

ChaosTM

2022-04-19, 14:05:46

Ein Verbot von Bulk Verkäufen seitens NV und von Großhändlern an Länder mit extrem niedrigen Strompreisen wäre in Anfang, aber Jensen ist da viel zu geldgierig und wirtschaftlich machts ja auch Sinn.
Die Hälfte der neuen Karten geht sicher gleich wieder an die großen Mining Firmen. ;)

Ein Kollaps des ETH Wahnsinns wäre hilfreich, aber die Geldgier und unfassbare Dummheit steht auch dem entgegen. -> thats why we are fucked anyway :)

Es müsste international Sanktionen geben, aber das passiert natürlich nicht. Zumindest hat wenigsten China den Wahnsinn verboten.

HOT

2022-04-19, 14:16:57

Hattest du nicht noch Anfang des Jahres gesagt, dass die Umstellung absolut sicher im Sommer DIESEN Jahres kommt?
Oder verwechsle ich dich mit jemandem?

Für mich fühlt sich der Termin der Umstellung wie Groundhog Day an.
Seit Jahren steht die Umstellung kurz bevor. Ganz sicher. Der nächste Termin ist aber dieses mal wirklich fix.

Tipp: Die Umstellung erfolgt zeitgleich mit dem Release von Star Citizen ;D
Quatsch. Das ist ein komplexes Projekt, das geht nicht so einfach.

BlacKi

2022-04-19, 14:19:55

Kopite hat 2 neue tweets:

Zulettt hatte er noch an 24gbps gezweifelt. Das würde darauf deuten, dass die ersten 24gbps Tests gut aussehen. Alles natürlich unter der Prämisse, dass seine Quellen diesmal richtig sind.

Oktober Release sollte also passen, wenn nix unvorhergesehene passiert.kann man anhand des testens rückdatieren wann das tapeout war?

Skysnake

2022-04-19, 15:14:55

Nicht wirklich da man durch mehr Geld den Durchlauf durch die FAB deutlich beschleunigen kann. Zudem hängt die Laufzeit von der genauen Konfiguration des benutzten Prozesses ab. Wenn man zum Beispiel mehrere Treshholds verwendet dauert es länger. Genau wie MIM oder MOM caps die Prosuktion verlängerns usw usf.

AffenJack

2022-04-19, 15:41:13

kann man anhand des testens rückdatieren wann das tapeout war?

Irgendwie 8-12 Wochen vorher. Ist aber auch weniger wichtig jetzt. Bei GA102 etc haben wir auch immer nur die Termine gehabt, wann die Chips im Testlabor waren. Bei GA102 war das März, bei GA104 Mai. AD102 liegt also genau in der Mitte, daher sollte es Oktober für einen Hardlaunch werden mit Paperlaunch vorher im September.

Edit:
kopite hat einen neuen Tweet:

Attention, I never talked about the details of SM.
Don't preconceived that AD102 has a simple 18432-FP32.

Ich glaube nicht, dass sich an den FP32 Zahlen was verändern wird. Aber es würde mich wundern, wenn Nvidia nicht versucht die FP32 wieder besser auf die Straße zu bringen und dafür Dinge verändert.

Rampage 2

2022-04-23, 00:24:59

Glaubt ihr, dass Nvidia mit LL parallel zu den aufgeblähten Caches auch die DCC-Compression (Bandbreitenkompression) wieder verbessert hat oder ist der Lappen bereits vollständig "ausgewringt"?

Seit Turing hat sich da Nichts mehr getan... (Ampere ist immer noch auf Turing-Niveau)

R2

Skysnake

2022-04-23, 05:02:31

Freu dich wenn über Kompression mal noch nen % gefunden wird oder paar Prozent Rechenleistung/HW/Energie pro KB gespart werden können. Das sind so Sachen da hat mit ein zwei Iterationen nen Großteil des möglichen erreicht

Rampage 2

2022-04-24, 01:08:55

Freu dich wenn über Kompression mal noch nen % gefunden wird oder paar Prozent Rechenleistung/HW/Energie pro KB gespart werden können. Das sind so Sachen da hat mit ein zwei Iterationen nen Großteil des möglichen erreicht

Also vollständig ausgelutscht, Danke - andererseits ist das auch ein positiver Fakt, denn es bedeutet, dass diese Technologie mittlerweile quasi perfektioniert wurde:smile:

R2

Skysnake

2022-04-24, 03:16:40

Ja, mit dem der Berücksichtigung von sparse data ist halt inzwischen auch ein weiterer Punkt mit Potenzial erledigt.

Kompressionsalgorithmen sind nun wirklich nichts neues mehr, sondern wenn dann der Einsatzbereich. Durch sie Anforderungen an Latenz und maximal vertretbaren Rechenaufwand ist die Auswahl schon mal eingeschränkt.

Mit effizienteren nodes kann man mehr Rechnen bevor das ineffizienter wird als einfach die Daten über einen breiteren Bus zu übertragen, aber da gibt es eher keine 10%+ Sprünge

iamthebear

2022-04-24, 09:36:21

Mehr Rechenleistung ist da aber eben linear auch mehr Daten. Von daher denke ich nicht, dass sich da viel in die Richtung tun wird.

iamthebear

2022-04-24, 17:12:55

PCIe Gen 4:
https://twitter.com/kopite7kimi/status/1517427612028895232?s=20&t=gE9k-Jbu3nE-DePH8B5Dog

Falls die geleakten VRAM Mengen stimmen (AD102 24GB/103 16/104 12/106 8) sollte aber auch nicht wirklich mehr PCIe Bandbreite notwendig sein.
Ich sehe das sogar positiv weil ich sowieso nur ein PCIe 3 Board habe und dies wohl bedeutet, dass das Interface nicht so stark beschnitten wird bei kleineren Modellen.

Troyan

2022-04-24, 17:23:08

Warum sollte Lovelace nur Gen4 unterstützten, wenn der Tapeout nach Hopper ist? Ergibt kein Sinn. Aber warten wir einfach ab.

BlacKi

2022-04-24, 18:41:59

ich befürchte, das man ad106 mit pcie gen 5.0 auf 8x lanes kappt. das wird richtig eklig für gen 3 cpus. vl auch schon mit ad104. ganz einfach, weil es reicht.

iamthebear

2022-04-24, 21:02:50

Die Frage ist welchen Zusatzaufwand PCIe 5.0 hat bzw. wie groß die Verbreitung von PCIe 5.0 unter GPU Käufern tatsächlich ist.

Besser PCIe 4.0 x16/x8 bei AD106/07 verbauen also PCIe 5.0 x8/x4.

PCIe 5.0 wäre meiner Ansicht nach nur ein Vorteil im Low End Notebookmarkt mit AD107. Es stellt sich aber die Frage, ob da Nvidia in Zukunft überhaupt noch viel verkaufen wird, denn AMD/Intel haben nun beide eigene GPUs, die sie mit ihren CPUs/Chipsätzen bundlen werden.

Lurtz

2022-04-24, 22:00:58

Die Frage ist welchen Zusatzaufwand PCIe 5.0 hat bzw. wie groß die Verbreitung von PCIe 5.0 unter GPU Käufern tatsächlich ist.

Angesichts der Tatsache, dass es Alder Lake Boards ohne PCIe 5.0 gibt...

Rampage 2

2022-04-24, 22:02:47

ich befürchte, das man ad106 mit pcie gen 5.0 auf 8x lanes kappt. das wird richtig eklig für gen 3 cpus. vl auch schon mit ad104. ganz einfach, weil es reicht.

Warum sollten sie das tun? Was soll denn der erhöhte Aufwand sein, x16 statt x8 zu bringen? :|

Und wie du schon selbst angemerkt hast, müssen Nvidia & AMD auch die PCI-E 3.0-Besitzer berücksichtigen - so wie mich zum Beispiel... (meine 3080 Ti läuft zusammen mit meiner 9900K und ich bin mit Letzterer völlig zufrieden:P)

R2

Langlay

2022-04-24, 22:54:35

Und wie du schon selbst angemerkt hast, müssen Nvidia & AMD auch die PCI-E 3.0-Besitzer berücksichtigen - so wie mich zum Beispiel... (meine 3080 Ti läuft zusammen mit meiner 9900K und ich bin mit Letzterer völlig zufrieden:P)

Müssen sie das, welche Alternative haste den ? Dich stört das PCI-E Interface also kaufste ne grössere Geforce mit 16x Interface oder kaufst halt nix. Davon ab das 95% der User die Breite des Interfaces total egal ist.

BlacKi

2022-04-24, 22:58:49

Warum sollten sie das tun? Was soll denn der erhöhte Aufwand sein, x16 statt x8 zu bringen? :|

Und wie du schon selbst angemerkt hast, müssen Nvidia & AMD auch die PCI-E 3.0-Besitzer berücksichtigen - so wie mich zum Beispiel... (meine 3080 Ti läuft zusammen mit meiner 9900K und ich bin mit Letzterer völlig zufrieden:P)

R2
ga107 hat doch auch schon mit gen4 nur noch 8x lanes. warum macht es sinn die rtx 3050 mit gen4 und 8x lanes zu bringen, wenn gen3 mit 16x dieselbe performance bietet.

amd hat im ryzen 5000 portfolio ebenfalls noch cpus mit gen3. das hat amd auch nicht davon abgehalten gpus mit 4x und 8x lanes im low bis midrange zu bringen.

die gefahr besteht auf jeden fall. vl hat ad105 noch 16x, auch wenn es dank gen5 nicht nötige wäre.

iamthebear

2022-04-25, 00:25:48

Die 6500 XT war eine Ausnahme. Das hätte eigentlich eine Mobile Karte werden sollen mit weniger TDP und durchgehend PCIe 4.0 (da ja nicht mit alten Boards kombiniert).

Was den Rest der GPUs angeht: Meiner Meinung nach brauchen gerade die kleinen GPUs mit weniger VRAM ein starkes PCIe Interface um in den RAM auslagern zu können. Bei einer 6700/6800 XT ist das Interface realtiv egal und gerade diese Karten haben das volle x16 Interface.

Leonidas

2022-04-25, 06:15:57

PCI frisst Strom und geht bei Grafikkarten ins Power-Limit. Eventuell sind die dafür benutzten Watt besser in anderen Dingen als in PCIe 5.0 angelegt.

Update: Viel eher würde mich allerdings interessieren, wie man diesen Tweet hier auslegen könnte:
Attention, I never talked about the details of SM.
Don't preconceived that AD102 has a simple 18432-FP32.

Rampage 2

2022-04-26, 00:04:01

Update: Viel eher würde mich allerdings interessieren, wie man diesen Tweet hier auslegen könnte:

Hmmm... vielleicht eine 128+64 Konfiguration? Also 128 FP32-Units + 64 INT32-Units, die aber auch FP32 beherrschen, falls mal keine INT-Ops anstehen. Im Extremfall also 192 Flops pro SM.

Würde dann insgesamt 27648 Recheneinheiten ergeben:freak:

R2

basix

2022-04-26, 11:07:54

Hmmm... vielleicht eine 128+64 Konfiguration? Also 128 FP32-Units + 64 INT32-Units, die aber auch FP32 beherrschen, falls mal keine INT-Ops anstehen. Im Extremfall also 192 Flops pro SM.

Würde dann insgesamt 27648 Recheneinheiten ergeben:freak:

R2

Wäre zumindest eine Erklärung für 600W und 70+B Transistoren ;)

Und für Gaming / IPC wäre es ein sehr grosser Sprung (theoretische Werte bei 100:40 FP/INT Mix):
- Turing IPC / SM = 1.00
- Ampere IPC / SM = 1.43
- Lovelace IPC / SM = 2.14 (192FP / SM Annahme)

Troyan

2022-04-26, 11:14:50

Hmmm... vielleicht eine 128+64 Konfiguration? Also 128 FP32-Units + 64 INT32-Units, die aber auch FP32 beherrschen, falls mal keine INT-Ops anstehen. Im Extremfall also 192 Flops pro SM.

Würde dann insgesamt 27648 Recheneinheiten ergeben:freak:

R2

Nein, immer noch nicht. nVidia verteilt Warps mit 32 Threads (2x16 pro Takt). Gaming-Ampere und Hopper unterscheiden sich 0.

mksn7

2022-04-26, 11:16:47

Hmmm... vielleicht eine 128+64 Konfiguration? Also 128 FP32-Units + 64 INT32-Units, die aber auch FP32 beherrschen, falls mal keine INT-Ops anstehen. Im Extremfall also 192 Flops pro SM.

Würde dann insgesamt 27648 Recheneinheiten ergeben:freak:

R2

Dann müssten die scheduler wieder dual-issue fähig werden. Dann kommen wir wieder bei Turing raus, mit +50% Einheiten pro scheduler.

Mandalore

2022-04-26, 15:20:02

Wäre zumindest eine Erklärung für 600W und 70+B Transistoren ;)

Und für Gaming / IPC wäre es ein sehr grosser Sprung (theoretische Werte bei 100:40 FP/INT Mix):
- Turing IPC / SM = 1.00
- Ampere IPC / SM = 1.43
- Lovelace IPC / SM = 2.14 (192FP / SM Annahme)

Interessant, kannst du das für (Halb-)Laien, etwas konkreter erklären, wie du darauf kommst?

basix

2022-04-26, 16:36:52

Interessant, kannst du das für (Halb-)Laien, etwas konkreter erklären, wie du darauf kommst?

Der 100:40 FP/INT Mix kam damals von Folien bei Turing Release (genauer wäre es 100:36 (https://developer.nvidia.com/blog/nvidia-turing-architecture-in-depth/)). Bei Turing wurde eine dedizierte INT-Pipe hinzugefügt, welche man damit in ein gutes Licht rücken wollte. Das 100:40 Verähltnis beschreibt, dass in Spielen im Schnitt pro 100 FP-Operationen jeweils 40 INT-Operationen ausgeführt werden. Das hat Nvidia so ermittelt.

Das kann man nun auf die erweiterten SMs von Ampere und die spekulative Lovelace Konfiguration anwenden:
Architektur|FP Pipe 1 Ops|FP Pipe 2 Ops|FP+INT Pipe Ops|INT Pipe Ops|FP: INT Ops Ratio|Total FP Ops / SM --> ~IPC|Erläuterungen
Turing|100|n.a.|n.a.|40|100:40|100|Die separate INT Pipe kann nur INT ausführen. 60% der Zeit ist die also am Däumchen drehen
Ampere|100|n.a.|43 + 57|n.a.|100:40|143|Die kombinierte FP+INT Pipe lässt zu, dass die zweite Pipe immer ausgelastet werden kann. Theoretisch, praktisch erreicht man den vollen Durchsatz fast nie. Eine RTX 3080 ist nur selten +43% schneller wie eine 2080 Ti. Typisch sind so ca. +33% (https://www.computerbase.de/2021-06/nvidia-geforce-rtx-3080-ti-review-test/2/#abschnitt_benchmarks_in_3840__2160)
Lovelace|100|100|14 + 86|n.a.|100:40|214|Durch die dritte Pipe wird diese deutlich häufiger mit INT gefüttert. Theoretisch wäre für Gaming FP+FP+INT nicht viel schlechter, für Code mit sehr viel FP-Ops ist eine kombinierte Pipe natürlich vorteilhaft und man kann immer alle 3 Pipes mit Ops füttern. Für viele "Studio-Anwendungen" oder Quadro sicher nicht schlecht.

Wie gesagt, das sind theoretische Werte. Die erreicht man nur, wenn der Rest drum herum auch passt (Caches, Scheduler, ...). Nimmt man 100:36 als Basis, müsste die durchschnittliche IPC von Ampere und Lovelace im Vergleich zu Turing noch etwas höher ausfallen (~1.47 resp. ~2.20).

robbitop

2022-04-26, 18:15:03

Ersteinmal sollte man wieder die Scheduler auf Pascal SM Niveau aufbohren damit die 128 fps pro SM keine Luftpumpe sind wie bei Ampere. :)

Troyan

2022-04-26, 19:26:57

Ersteinmal sollte man wieder die Scheduler auf Pascal SM Niveau aufbohren damit die 128 fps pro SM keine Luftpumpe sind wie bei Ampere. :)

Was natürlich Sinn macht, da nVidia ja schon mit HPC-Pascal die Compute-Units verbessert hat. :freak:

basix

2022-04-26, 19:43:07

Ersteinmal sollte man wieder die Scheduler auf Pascal SM Niveau aufbohren damit die 128 fps pro SM keine Luftpumpe sind wie bei Ampere. :)

Ampere ist da in hohen Auflösungen gar nicht so schlecht dabei, siehe die 1.33x vs. theoretisch 1.43x bei selber Taktrate (RTX 3080 vs. 2080 Ti). Und eigentlich zeigt nur GA102 das "Problem" so ausgeprägt. Der Eindruck der Luftpumpe entsteht eigentlich nur wegen dem sehr hohen Peak FP-Durchsatz. Dieser kann aufgrund es FP/INT Mixes in Games aber gar nie erreicht werden. Dennoch heisst das nicht, das gleichzeitig die Pipes schlecht ausgelastet sind. Ampere hat andere Problemchen: Schlechte Auslastung in niedrigen Auflösungen (insbesondere GA102), energiefressendes G6X Interface, durstige SMs.

mMn wird Lovelace all diese Problemchen angehen und grösstenteils lösen. Wie genau sehen wir dann. Ich sähe zudem schon eine hohe Attraktivität in Tri-Pipe SMs: +50% FP-Performance pro SM für Studio/Quadro und +50% IPC für Games. Scheduler und Register etc. müssen dann aber entsprechend mitwachsen, das ist klar.

iamthebear

2022-04-26, 20:55:44

Wäre zumindest eine Erklärung für 600W und 70+B Transistoren ;)

Und für Gaming / IPC wäre es ein sehr grosser Sprung (theoretische Werte bei 100:40 FP/INT Mix):
- Turing IPC / SM = 1.00
- Ampere IPC / SM = 1.43
- Lovelace IPC / SM = 2.14 (192FP / SM Annahme)

Die bisherige Performance Prognose war 2.2x. Damals wurde das alx 1.7x Shader und 1.3x Takt interpretiert.
Ich vermute, dass diese Schätzung von ca. gleichem Takt ausgegangen ist und sich die 2.2x aus 1.7x Shader und 1.3x IPC zusammen setzen.

192 FP/SM halte ich für etwas zu hoch.

Meine Vermutung ist eine Mischung aus Ampere und Turing:
64 reine FP Einheiten
64 reine INT Einheiten
64 FP Einheiten, die auch die Datenpfade für INT haben

Dazu ein aufgebohrter Scheduler mit 48 Threads wodurch maximal 192 Einheiten gleichzeitig ausgelastet werden können.

Wenn ich von den von Nvidia angegebenen 100:36 ausgehe:
Turing: 64 FP + 23 INT + 41 IDLE Output: 87
Ampere: 94 FP + 34 INT Output: 128 = 1.47x Turing
Lovelace: 128 FP + 46 INT + 18 IDLE Output: 174 = 1.36x Ampere = 2x Turing.

Nein, immer noch nicht. nVidia verteilt Warps mit 32 Threads (2x16 pro Takt). Gaming-Ampere und Hopper unterscheiden sich 0.

Das muss aber bei Lovelace nicht genauso sein.

Die kombinierte FP+INT Pipe lässt zu, dass die zweite Pipe immer ausgelastet werden kann. Theoretisch, praktisch erreicht man den vollen Durchsatz fast nie. Eine RTX 3080 ist nur selten +43% schneller wie eine 2080 Ti.

Du darfst hier nicht den Fehler machen die Skalierung der GPU in fps zu messen, da fps nicht linear mit der Performance der GPU skalieren.

Ich habe einmal diverse Reviews von Nvidia/AMD/Intel in 4K Native auf und ab gerechnet und komme in etwa auf folgende Skalierung bei den fps:
.) 75% GPU Performance (wenn Shader + Speicherbandbreite + TDP gleichmäßig erhöht werden.
.) 15% CPU
.) 10% undefinierbarer Rest. Das könnte z.B. fixe Delays sein oder die Architekturen skalieren generell nicht ganz optimal

1.43^0.75 = 1.31= 31% schneller
Laut CB Review ist die 3080 exakt 31% schneller in 4K als die 2080 Ti
Jetzt kann man darüber streiten, ob die höhere Taktrate der 3080 die geringere Speicherbandbreite/Performance kompensiert oder nicht bzw. wie sich die anderen Änderungen auswirken aber weit weg sind wir definitiv nicht.

Ein besserer Vergleich ist meiner Meinung nach:
2080 Ti (68SM) vs. 3070 (46SM)
Beide haben laut CB 4K Rating +/- 1% dieselbe Performance
Die 2080 Ti hat 48% mehr SM.[/QUOTE]

Ersteinmal sollte man wieder die Scheduler auf Pascal SM Niveau aufbohren damit die 128 fps pro SM keine Luftpumpe sind wie bei Ampere. :)

So viel wird da denke ich nicht verblasen. Die 3060 kommt mit gleicher SM Anzahl ziemlich nahe an die 1080 Ti heran. Schätze das werden um die 10% sein, die da flöten gehen.

iamthebear

2022-04-26, 21:22:29

Der Eindruck der Luftpumpe entsteht eigentlich nur wegen dem sehr hohen Peak FP-Durchsatz.

Das sehe ich auch so. Alle lassen sich nur von den hohen FP Angaben verwirren und wundern sich, warum am Schluss nicht so viel raus kommt wie erhofft.

Schlechte Auslastung in niedrigen Auflösungen (insbesondere GA102)

Auch da ist ein falscher Eindruck da. Ampere hat kein Problem in niedrigen Auflösungen. Das kommt in erster Linie durch 2 Dinge zu Stande:
.) AMDs Infinity Cache hat bei 4K einfach deutlich schlechtere Hitrates. Das lässt Ampere in niedrigeren Auflösungen schwächer wirken.
.) Nvidia hat in DX12 Spielen ein Problem mit dem Treiber Overhead. Hardware Unboxed hatte da einmal ein paar nette Videos dazu. Der Effekt schlägt bei niedrigeren Auflösungen/Details einfach deutlich stärker durch und wird auch bei Lovelace vs. Navi31 stärker durchschlagen, da sich die Skalierung von 80/20 eher mehr Richtung 50/50 verschieben wird solange keine heftigen RT Effekte oder 8K getestet werden.

energiefressendes G6X Interface

Ich denke da hast du Recht. PAM4 scheint einiges an Rechenleistung zu kosten. Gleichzeitig ist der Nutzen jedoch relativ bescheiden.
Allerdings scheint auch hier ein Teil des Problems nur die 3090 bzw. deren 24 Speicherchips gewesen zu sein. Die 3090 Ti benötigt was den Speicher angeht weniger als die 3090 trotz höherer Bandbreite.

durstige SMs.

Das ist auch wieder so eine falsche Auffassung. Die Hauptgründe sind hier eher:
.) Nvidia pushed ihre Karten deutlich weiter als früher. Bestes Beispiel ist die 3070 Ti vs. 3070. Mit 220W ist die 3070 eine nette sparsame Karte, mit 280W die 3070 Ti eine sinnlose Energieschleuder ohne nennenswerte Mehrperformance.
.) Nvidia ist immer noch einen Node hinten. Mit TSMC 7nm hätte der Vergleich gegen RDNA2 sehr viel anders ausgesehen.

mMn wird Lovelace all diese Problemchen angehen und grösstenteils lösen. Wie genau sehen wir dann. Ich sähe zudem schon eine hohe Attraktivität in Tri-Pipe SMs: +50% FP-Performance pro SM für Studio/Quadro und +50% IPC für Games. Scheduler und Register etc. müssen dann aber entsprechend mitwachsen, das ist klar.

Was ich mich nur frage: Warum gibt es dann die Meldungen, dass die Performanceprognose von 2.2x auf 2x zurückgeschraubt werden muss. Das wären 1.8x gegenüber der 3090 Ti. 1.7x Shader, große Caches, 1.5x IPC, einige 100 MHz mehr Takt. Da stimmt doch irgendetwas nicht.

HOT

2022-04-27, 08:48:08

NV ist keinen Node hinten. Das ist nicht mal ein halber in der Praxis.

Übrigens soll die 4080 nun doch auf AD103 setzen. Ich könnt mir aber vorstellen, dass man so lange den 102er für die 4080 verwendet, bis der 103er verfügbar wird.

Platos

2022-04-27, 09:59:20

Natürlich sind sie das in der Fertigung. 8nm ist ein 10nm Samsung Prozess. Also natürlich sind sie im Vergleich zu TSMC 7nm mindestens einen halben Node hinten. Und laut Gerüchtestand ist Lovelace 4nm und RDNA3 6nm. Also ein ziemlich krasser Nachteil. Während dem AMD noch mit einem 7nm Derivat rumgurkt, ist nvidia schon bei einem 5nm Derivat. Das könnte schon schwierig werden für AMD bzw. könnte nvidia dieses mal Meilenweit effizienter werden. Da muss AMD mit MCM ja schon Wunder bewirken oder in der Architektur viel besser sein, damit sie nicht nach einmalig guter Effizienz gleich wieder bei Vega 2.0 landen. Zumindest, wenn man der Gerüchteküche glaubt. Wobei laut dieser ja AMD das Wunder hoch10 sein soll bei der Effizienz, aber das Gerücht ist auch schon alt und die Gerüchteküche war/ist noch zu ungenau.

Quelle zum 103-er pls ?

BlacKi

2022-04-27, 10:47:12

4070 mit 12gb, schön für die 4070 mit 300w, das sind 50% mehr speicher. aber die 4060 wird demnach wohl ein downgrade beim speicher bekommen ;( und die 4050 kein upgrade.

Troyan

2022-04-27, 11:03:07

Natürlich sind sie das in der Fertigung. 8nm ist ein 10nm Samsung Prozess. Also natürlich sind sie im Vergleich zu TSMC 7nm mindestens einen halben Node hinten.

Ist ein kompletter Fullnode von der Fläche. 50%+ ist der Unterschied zwischen TSMC 7nm DUV und Samsung 8nm.

Platos

2022-04-27, 11:15:16

4070 mit 12gb, schön für die 4070 mit 300w, das sind 50% mehr speicher. aber die 4060 wird demnach wohl ein downgrade beim speicher bekommen ;( und die 4050 kein upgrade.

Kann mal jemand die Quelel verlinken ?

BlacKi

2022-04-27, 11:17:56

eigentlich gibts doch nur noch eine newsquelle.
https://videocardz.com/newz/nvidia-reportedly-testing-900w-graphics-card-with-full-next-gen-ada-ad102-gpu

Platos

2022-04-27, 11:28:32

eigentlich gibts doch nur noch eine newsquelle.
https://videocardz.com/newz/nvidia-reportedly-testing-900w-graphics-card-with-full-next-gen-ada-ad102-gpu

Danke.

Aber armselig, wenn sie jetzt wirklich die 3060 wieder zurückstufen. Komisch, wenn sie beiden 12GB geben würden. Aber immer noch besser, wie anders rum. Aber vlt. basiert ja die 3060 auch auf einem stark abgespeckten AD104. AD106 ist ja immerhin nicht viel grösser wie GA106.

Oder mal drauf hoffen, dass das nur wieder eins der Zahlreichen Gerüchte ist, die in der Realität nie eintrefen werden. Ist noch lange hin bis zum Launch.

Aber die Architekturverbesserungen müssten ja miserabel sein, wenn die 4070 so viel Strom zieht und das bei 8nm Samsung zu 4nm TSMC. Irgendwie stimmt das alles hinten und vorne nicht.

WedgeAntilles

2022-04-27, 12:01:06

Bei diesem Link ist ist jetzt die 3080 bei den Rumors übrigens mit 350W drin.
Die 3070 mit 300W

Für eine 3070 immer noch etwas viel für meinen Geschmack (10% weniger wäre mir lieber), aber eben doch sehr viel realisitischer als die 400W, 450W und was weiß ich was alles für Wunschträume.

Neurosphere

2022-04-27, 12:04:25

Und laut Gerüchtestand ist Lovelace 4nm und RDNA3 6nm. Also ein ziemlich krasser Nachteil. Während dem AMD noch mit einem 7nm Derivat rumgurkt, ist nvidia schon bei einem 5nm Derivat.

Hmm? AMD setzt nur beim IO auf 6nm, der Rest kommt in 5nm. Zum "4N" Prozess muss man erstmal wissen was da ohne Marketing überhaupt hintersteckt. De Facto kann man erstmal davon ausgehen das beide im selben Prozess anbieten.

BlacKi

2022-04-27, 12:07:36

Bei diesem Link ist ist jetzt die 3080 bei den Rumors übrigens mit 350W drin.
Die 3070 mit 300W

Für eine 3070 immer noch etwas viel für meinen Geschmack (10% weniger wäre mir lieber), aber eben doch sehr viel realisitischer als die 400W, 450W und was weiß ich was alles für Wunschträume.das ist aber nur eine wunschinterpretation von VCZ. weißt du was genau zwischen 600 und 300w liegt? genau, ga102 mit 450w, genau so wirds kimi gemeint haben.

und wenn man ad103 cancelt, bzw. später bringt, so wie bei ga, dann rückt die 4080 wohl wieder beim stromverbrauch näher an die 4090(480w incomming).

Troyan

2022-04-27, 12:22:34

Hmm? AMD setzt nur beim IO auf 6nm, der Rest kommt in 5nm. Zum "4N" Prozess muss man erstmal wissen was da ohne Marketing überhaupt hintersteckt. De Facto kann man erstmal davon ausgehen das beide im selben Prozess anbieten.

Nur weil beide den selben Prozess verwenden, sagt das nichts aus. HPC-Ampere hat fast doppelt soviele Transistoren als MI200.

Wieso will AMD MCM verwenden? Weil die nicht in der Lage sind genauso eng zu packen wie nVidia.

robbitop

2022-04-27, 12:27:11

Ampere ist da in hohen Auflösungen gar nicht so schlecht dabei, siehe die 1.33x vs. theoretisch 1.43x bei selber Taktrate (RTX 3080 vs. 2080 Ti). Und eigentlich zeigt nur GA102 das "Problem" so ausgeprägt. Der Eindruck der Luftpumpe entsteht eigentlich nur wegen dem sehr hohen Peak FP-Durchsatz. Dieser kann aufgrund es FP/INT Mixes in Games aber gar nie erreicht werden. Dennoch heisst das nicht, das gleichzeitig die Pipes schlecht ausgelastet sind. Ampere hat andere Problemchen: Schlechte Auslastung in niedrigen Auflösungen (insbesondere GA102), energiefressendes G6X Interface, durstige SMs.

mMn wird Lovelace all diese Problemchen angehen und grösstenteils lösen. Wie genau sehen wir dann. Ich sähe zudem schon eine hohe Attraktivität in Tri-Pipe SMs: +50% FP-Performance pro SM für Studio/Quadro und +50% IPC für Games. Scheduler und Register etc. müssen dann aber entsprechend mitwachsen, das ist klar.

Es gab wie schon mehrfach erwähnt Messungen von mksn7 die klar zeigten, dass es bei Ampere deutlich schwieriger ist nominalen Durchsatz zu erreichen als bei Pascal pro SM. Das liegt unter anderem daran, dass man weniger Schedulerresources hat. Die Limitierung ist auflösungsunabhängig. Ich gehe stark davon aus, dass man das ändern wird. Ich vermute, es war bei Ampere einfach nicht im Transistorbudget drin dual issue scheduler zu verbauen.

So viel wird da denke ich nicht verblasen. Die 3060 kommt mit gleicher SM Anzahl ziemlich nahe an die 1080 Ti heran. Schätze das werden um die 10% sein, die da flöten gehen.
Eine 3060 ist 21% schneller als eine 1080 hat aber 43% mehr Rohleistung. Da fehlt als 18% IPC. Bei einer uArch die 2x Generationen neuer ist und andere Fortschritte ggü Pascal bereits eingepreist hat.
Man darf nicht vergessen, dass bei Ampere die Taktraten auch höher sind als bei Pascal.
Und Spiele sind ja selten FP32 limitiert - aber manchmal eben schon. Es kann also sein, dass der Nachteil auch mal stärker wiegt je nach Szene und Spiel - das ist ja nur ein Durchschnitt. Entsprechend ist für IPC (oder performance pro TFLOP) noch Luft nach oben, wenn man dickere Scheduler (und ggf. mehr Registerspace) verbaut.

Performancequelle: https://www.computerbase.de/2021-02/geforce-rtx-3060-asus-msi-test/2/#abschnitt_benchmarks_in_2560__1440
Rohleistung: Techpowerup

Neurosphere

2022-04-27, 12:31:00

Nur weil beide den selben Prozess verwenden, sagt das nichts aus. HPC-Ampere hat fast doppelt soviele Transistoren als MI200.

Wieso will AMD MCM verwenden? Weil die nicht in der Lage sind genauso eng zu packen wie nVidia.

Ja was denn nun. Der eine schreibt NV ist voll krass viel besser weil der Prozess besser sein soll, was sich aber erstmal beweisen muss und vermutlich auf das gleiche hinauslaufen wird.

Dann schreibt der andere das NV trotzdem voll krass besser ist weil der Prozess egal ist weil NV halt voll krass Dichter packen kann....

Pun intended.

aceCrasher

2022-04-27, 12:37:59

Wieso will AMD MCM verwenden? Weil die nicht in der Lage sind genauso eng zu packen wie nVidia.

Oder vielleicht auch weil es wirtschaftlich sinnvoller ist kleinere Chiplets zu fertigen als einen ~800mm² Chip.

Troyan

2022-04-27, 12:39:26

Erstmal soll Navi33 auf 6nm kommen und angeblich mit Lovelace mithalten können (...). Und dann soll AMD mit MCM keine Probleme haben, weil die einfach 600mm^2 nehmen, um mit 300mm^2 Lovelace mitzuhalten, da AMD ja mit 1/3 weniger Transistoren auf der selben Fläche keine Abstriche machen müsste.

Oder vielleicht auch weil es wirtschaftlich sinnvoller ist kleinere Chiplets zu fertigen als einen ~800mm² Chip.

Fläche ist Fläche. Wäre das egal, benötigt man auch kein 5nm und kann gleich bei 6nm bleiben und zwei 600mm^2 Dies verknüpfen.

boxleitnerb

2022-04-27, 12:45:15

Dass Defekte bei großen Dies mehr Probleme machen als bei kleinen, sollte bekannt sein. Wenn die Nachteile durch die Verbindung von zwei Dies verschmerzbar wären (Beweis ausstehend), sind kleinere Dies immer besser als ein großer. Das wird Nvidia zum Zeitpunkt X auch so machen, wetten?

Troyan

2022-04-27, 12:55:46

Defekte sind absolut identisch, da sie pro Fläche auftreten. Der Unterschied zwischen Chiplets und Monolith liegt in der viel besseren Verwendbarkeit von Dies ohne massiven Aufwand beim Package.

Im Endkundenmarkt geht es rein um Kosten und die reduziert MCM nicht sondern verstärkt sie durch das aufwendige Package noch.

Neurosphere

2022-04-27, 13:03:17

Ist ja hier wie beim Fußball...

Wie gut MCM letzten Endes Funktioniert wird AMD beweisen müssen. Ob NV mithalten kann ebenfalls. Jetzt schon in irgendeine Richtung Vorschusslorbeeren oder Vorverurteilung auszusprechen ist doch Quarck.

unl34shed

2022-04-27, 13:07:35

Defekte sind absolut identisch, da sie pro Fläche auftreten. Der Unterschied zwischen Chiplets und Monolith liegt in der viel besseren Verwendbarkeit von Dies ohne massiven Aufwand beim Package.

Im Endkundenmarkt geht es rein um Kosten und die reduziert MCM nicht sondern verstärkt sie durch das aufwendige Package noch.

Das ist halt nur alles falsch was du da schreibst...

aceCrasher

2022-04-27, 14:24:33

Fläche ist Fläche. Wäre das egal, benötigt man auch kein 5nm und kann gleich bei 6nm bleiben und zwei 600mm^2 Dies verknüpfen.

Fläche ist eben nicht Fläche. Die Ausbeute sinkt überlinear mit steigender Chip Größe. Zwei funktionierende 300mm² Chips zu fertigen ist sehr wohl einfacher als einen funktionierenden 600mm² Chip zu fertigen.

Wenn du willst demonstriere ich es dir sogar:

Für N7 nehmen wir eine Defect Density von 0.09 Defekten pro cm². Quelle: https://www.anandtech.com/show/16028/better-yield-on-5nm-than-7nm-tsmc-update-on-defect-rates-for-n5

Zum rechnen benutze ich diesen Die Calculator: https://caly-technologies.com/die-yield-calculator/

Bei einem 300mm² Die (20x15mm) ergibt sich eine Ausbeute von 76,8%, beziehungsweise 143 funktionstüchtige Dies.

Bei einem 600mm² Die (20x30mm) ergibt sich eine Ausbeute von 59,7%, beziehungsweise 53 funktionstüchtige Dies.

Wir können mit einem 300mm Wafer also entweder 71 MCM Karten (600mm² äquivalent) fertigen oder 53 Karten mit einem monolithischen Chip.

basix

2022-04-27, 14:43:45

Die bisherige Performance Prognose war 2.2x. Damals wurde das alx 1.7x Shader und 1.3x Takt interpretiert.
Ich vermute, dass diese Schätzung von ca. gleichem Takt ausgegangen ist und sich die 2.2x aus 1.7x Shader und 1.3x IPC zusammen setzen.

192 FP/SM halte ich für etwas zu hoch.

2x Performance passen auch nicht mit 600W zusammen ;) Irgendwo sind da noch zu viele Widersprüche vorhanden. TSMC N4/5 sollte einen deutlichen Boost der Energieffizeinz versprechen. Entweder sind es >>2x bei 600W oder 2x bei <<600W.

Meine Vermutung ist eine Mischung aus Ampere und Turing:
64 reine FP Einheiten
64 reine INT Einheiten
64 FP Einheiten, die auch die Datenpfade für INT haben

Dazu ein aufgebohrter Scheduler mit 48 Threads wodurch maximal 192 Einheiten gleichzeitig ausgelastet werden können.

Wenn ich von den von Nvidia angegebenen 100:36 ausgehe:
Turing: 64 FP + 23 INT + 41 IDLE Output: 87
Ampere: 94 FP + 34 INT Output: 128 = 1.47x Turing
Lovelace: 128 FP + 46 INT + 18 IDLE Output: 174 = 1.36x Ampere = 2x Turing.

Was ist der Anwendungszweck von so viel INT Performance? Gibt es Applikationen mit 50:50 FP/INT Mix? Ich verstehe, dass INT kompakter in HW Umzusetzen ist als FP, das kann ein Vorteil sein. Und bei Spielen kommt man wie du ja beschreibst auch auf die ~2x IPC/SM. Die höhere FP-Performance von Ampere schlägt jedoch in vielen Produktivanwendungen sehr gut durch.

Troyan

2022-04-27, 15:02:30

Leute, hört einfach auf über Dinge zu reden, die keinen Sinn ergeben. nVidia bleibt bei Warps mit 32 Threads. Damit werden auch nur Warps mit 32 Threads verteilt, wodurch eben nur 2 Vec16 Einheiten arbeiten. Gaming-Ampere und Hopper sind einfach am Maximum, was möglich ist.

Fläche ist eben nicht Fläche. Die Ausbeute sinkt überlinear mit steigender Chip Größe. Zwei funktionierende 300mm² Chips zu fertigen ist sehr wohl einfacher als einen funktionierenden 600mm² Chip zu fertigen.

Wenn du willst demonstriere ich es dir sogar:

Für N7 nehmen wir eine Defect Density von 0.09 Defekten pro cm². Quelle: https://www.anandtech.com/show/16028/better-yield-on-5nm-than-7nm-tsmc-update-on-defect-rates-for-n5

Zum rechnen benutze ich diesen Die Calculator: https://caly-technologies.com/die-yield-calculator/

Bei einem 300mm² Die (20x15mm) ergibt sich eine Ausbeute von 76,8%, beziehungsweise 143 funktionstüchtige Dies.

Bei einem 600mm² Die (20x30mm) ergibt sich eine Ausbeute von 59,7%, beziehungsweise 53 funktionstüchtige Dies.

Wir können mit einem 300mm Wafer also entweder 71 MCM Karten (600mm² äquivalent) fertigen oder 53 Karten mit einem monolithischen Chip.

Jetzt kommt Realität: Chiplets sollten gleiche Anzahl an Compute-Units haben, um den Kommunikationsoverhead zu reduzieren. Wieviele MCM karten kann ich also nun bauen? Richtig im Grunde die selbe Anzahl. Des Weiteren ist ein Monolith viel besser einzeln zu verwerten als Chiplets, die wiederum nur in Anzahl von >=2 Sinn ergeben.

Oder einfach ausgedrückt: Ein 250mm^2 Monolith ist natürlich besser als ein 250mm^2 Chiplet + Package, ein 500mm^2 Monolith ist genauso "einfach" zu produzieren wie ein MCM mit 2x 250^2 Chiplet.

robbitop

2022-04-27, 15:20:31

Je kleiner ein Chip, desto höher ist allein die geometrische Ausbeute auf einem Wafer. Das ist ein gültiges Axiom. Dass zusätzlich die defektdichte basierende Ausbeute mit zunehmender Größe abnimmt ist ein weiteres. Darüber auch noch diskutieren zu wollen ist albern.

Apple geht in Richtung Chiplets (M1 Ultra war erst der Anfang). Intel geht in die Richtung. Und der Rest der Industrie auch. Die Vorteile der Ausbeute und Nutzung von spezifisch sinnvollen Prozessen pro Komponente sind offenkundig. Die M1 Ultra beweist zudem auch, dass die neuen Packagingtechnologien keinen signifikanten Nachteil bezüglich Leistungsaufnahme haben.
TSMC und ihre Partner investieren weiterhin nicht grundlos viele Milliarden in Packagingtechnologien die Schlüsselbausteine für effiziente Chiplets sind. Es ist hoch wahrscheinlich, dass NV zu diesem Konglomerat dazu gehört.
Die aktuellen Gerüchte besagen, dass NV's nextgen auch auf chiplets basiert. Aus genau diesen Gründen. Würde mich nicht wundern, wenn sich die Meinung zu chiplets bei einigen sich schlagartig ändert, sobald der Lieblings IHV das auch nutzt. :D

davidzo

2022-04-27, 15:50:57

@robbitop: Troyan muss man eigentlich einfach ignorieren, der trollt hart und das weiß er auch.

Btw, Intel sagte mal dass man durch die Aufteilung auf kleinere Chips, bzw. auch auf einfachere , besser überprüfbare IP-Komplexe, ganze Jahre an Entwicklungszeit bzw. bring-up Investment spart. Das korrelierte mit der Zeit als sich Icelake-SP um 2+ Jahre verzögert hat weil der Chip im Bringup einfach nicht hoch kam und endlose Respins brauchte. Von den anderen Riesenchips wie XE-HP, "Father of all GPUs" hat man nie wieder was gehört, die liefen nur mal im Labor.

Wenn ich einen Fehler im MCD habe, dann muss nur das MCD neu, wenn ich einen Fehler im Interposer habe nur der Interposer. Ein neuer Maskensatz ist nicht nur viel billiger, sondern auch ein vielfaches schneller erstellt.
Damit habe ich mehr Zeit für Feintuning des Prozesses auf den jeweiligen Einsatzzweck, was wir wohl an den Taktraten und Energieverbrauch sehen werden.
Wenn ich i/o, Analogkrams, cache und compute Units alles mit demselben prozess erschlagen muss, dann kommt halt nur Mittelmäßig bis schlechte Optimierung dabei heraus.

Und laut Gerüchtestand ist Lovelace 4nm und RDNA3 6nm. Also ein ziemlich krasser Nachteil. Während dem AMD noch mit einem 7nm Derivat rumgurkt, ist nvidia schon bei einem 5nm Derivat.

Was alles möglich ist wenn man eine effizientere und besser skalierende Architektur hat. :biggrin:
Nvidia muss ziemlich tief in die Tasche greifen für diese Kapazitäten bei TSMC. Das war sicher nicht so geplant als man sich 2018-19 entschied zu Samsung zu wechseln. Dementsprechend muss AD104 auch erheblich kleiner sein wenn man mit einem mittelgroßen N6 chip konkurrieren will.

WedgeAntilles

2022-04-27, 15:56:00

Was alles möglich ist wenn man eine effizientere und besser skalierende Architektur hat. :biggrin:
Nvidia muss ziemlich tief in die Tasche greifen für diese Kapazitäten bei TSMC. Das war sicher nicht so geplant als man sich 2018-19 entschied zu Samsung zu wechseln. Dementsprechend muss GA104 auch erheblich kleiner sein wenn man mit einem mittelgroßen N6 chip konkurrieren will.

Irgendwie schon witzig - als AMD mit TSMC vs Samsung auf dem besseren Fertigungsverfahren war, wurde das hier gefeiert.
Jetzt ist es plötzlich besser, wenn man auf dem schlechteren, dafür preisgünstigeren Verfahren ist.

Wenn AMD etwas macht und Nvidia es anders, ist AMDs Entscheidung IMMER richtig. Auch wenn es 2 Jahre später plötzlich entgegengesetzt ist.
Bei der verbauten Ram-Menge bahnt sich da ja ähnliches an. :biggrin:

robbitop

2022-04-27, 15:58:17

Naja N4 ist ja auch nur ein 5 nm Prozessableger und zumindest N31 ist auch auf 5 nm.

Lehdro

2022-04-27, 16:12:14

Irgendwie schon witzig - als AMD mit TSMC vs Samsung auf dem besseren Fertigungsverfahren war, wurde das hier gefeiert.
Jetzt ist es plötzlich besser, wenn man auf dem schlechteren, dafür preisgünstigeren Verfahren ist.

Wenn AMD etwas macht und Nvidia es anders, ist AMDs Entscheidung IMMER richtig. Auch wenn es 2 Jahre später plötzlich entgegengesetzt ist.
Bei der verbauten Ram-Menge bahnt sich da ja ähnliches an. :biggrin:
Naja, für die kleinen Chips auf "schlechtere", aber vor allem günstigere Nodes zu wechseln war früher bei NV auch Usus (siehe GTX1050 Ti). Das hingegen genau umgekehrt zu machen ist allerdings ein wenig komisch. Wenn NV mit GA102 auf TSMCs N7 gegangen wäre und den Rest auf 8nm bei Samsung gelassen hätte, wäre das sicherlich produkttechnisch intelligenter gewesen. Aber gerade hier im Forum wurde von gewissen Leuten verbreitet das Samsung 8nm ein 4D-Unterwasserschach-Move der Lederjacke war. Wenn man das ganze aber in nicht einmal 2 Jahren wieder mit Geld auffüllen muss, um zu TSMC zurück zu dürfen, kann es ja doch nicht so toll gewesen sein. Ist im Grunde sowieso eher Häme als technisch oder kaufmännisch fundierte Kritik. Wirklich schlimm ist es NV nicht ergangen mit Samsungs 8nm, vom erneut hart erarbeiteten Ruf der "Stromsauferei" mal abgesehen.

Troyan

2022-04-27, 16:13:54

Je kleiner ein Chip, desto höher ist allein die geometrische Ausbeute auf einem Wafer. Das ist ein gültiges Axiom. Dass zusätzlich die defektdichte basierende Ausbeute mit zunehmender Größe abnimmt ist ein weiteres. Darüber auch noch diskutieren zu wollen ist albern.

Albern ist es zu diskutieren, dass du glaubst, dass 2x 250mm^2 Chiplets eine bessere Ausbeute hätten als ein 500mm^2 Monolith. ;D
Du hast das nicht verstanden. Genauso wie du auch die ComputeUnits von Ampere nicht verstanden hast.

Apple geht in Richtung Chiplets (M1 Ultra war erst der Anfang). Intel geht in die Richtung. Und der Rest der Industrie auch. Die Vorteile der Ausbeute und Nutzung von spezifisch sinnvollen Prozessen pro Komponente sind offenkundig. Die M1 Ultra beweist zudem auch, dass die neuen Packagingtechnologien keinen signifikanten Nachteil bezüglich Leistungsaufnahme haben.
TSMC und ihre Partner investieren weiterhin nicht grundlos viele Milliarden in Packagingtechnologien die Schlüsselbausteine für effiziente Chiplets sind. Es ist hoch wahrscheinlich, dass NV zu diesem Konglomerat dazu gehört.
Die aktuellen Gerüchte besagen, dass NV's nextgen auch auf chiplets basiert. Aus genau diesen Gründen. Würde mich nicht wundern, wenn sich die Meinung zu chiplets bei einigen sich schlagartig ändert, sobald der Lieblings IHV das auch nutzt. :D

Apple verwendet zwei M1 Max Chips mit je 450mm^2 Fläche als Monolith-Chips, die jeweils auch einzeln verwendet werden können. Das ist was vollkommen anderes als AMD vorhat, da dort die Chiplets einzeln nicht verwendet werden können.

Linmoum

2022-04-27, 16:23:10

Funktioniert bei CPUs wunderbar, nur einzelne Chiplets/CCDs zu nutzen. Inwiefern das bei GPUs auch der Fall ist (oder nicht), bleibt abzuwarten.

vinacis_vivids

2022-04-27, 16:50:03

Funktioniert bei GPU`s wunderbar, Top notch ist derzeit AMD/TSMC

CDNA 2 GCD = Graphic-Compute-Die (AMD Instinct MI210)
https://abload.de/thumb/mi250xgcdgraphicscomp63k57.png (https://abload.de/image.php?img=mi250xgcdgraphicscomp63k57.png)

CDNA 2 = GCDXGCD (AMD Instinct MI250X)
https://abload.de/thumb/mi250xgcd2xyhjqk.png (https://abload.de/image.php?img=mi250xgcd2xyhjqk.png)

Nvidia könnte sowas bei 8nm Samsung gar nicht umsetzen. So ein Ding würde bei NV+Samsung 800-1000W verbrauchen. Insofern ist der Schritt "zurück" zu TSMC 5nm/4nm schon richtig, weil Samsung bei 5nm strauchelt.

Raff

2022-04-27, 16:59:27

Du weißt aber schon, dass man die GPUs auch im bzw. unter dem Sweet Spot betreiben kann? Dicke Chips sind wunderbar skalierbar, siehe Fiji als Fury und Nano. Ich sehe da eher Platzprobleme. ;)

MfG
Raff

Leonidas

2022-04-27, 17:59:51

Portfolio-Gestaltung von GeForce RTX 40
https://www.3dcenter.org/news/geruechtekueche-geforce-rtx-4080-soll-auf-dem-ad103-chip-basieren-geforce-rtx-4070-auf-dem-ad10

Interessant: Alles unterhalb der 4090 bekommt wohl nur grob +20% SM ab. Nur die 4090 bekommt +70% ab (wenn NV stärker salvagt, dann +60%).

basix

2022-04-27, 18:40:36

GA103 mit +10% Takt gegenüber GA102 und 75% Scaling der SMs (2x SMs = 1.75x Performance --> 1.7x SMs = 1.53x Performance) und man landet bei 1.39x Performance zwischen 4090 und 4080. Wäre nicht so ungewöhnlich. Und dazwischen hat noch eine 4080 Ti Platz.

Edit:
Wenn die SMs nicht noch irgendwie aufgebohrt werden, erscheinen mir die TDPs als viel zu hoch. Lovelace wäre anhand der Tabelle pro SM nur etwa so effizient wie Ampere. Klar, der Takt wird steigen. Dennoch wäre das relativ schwach. Vor allem wenn man sich RDNA2 vs. RDNA1 anschaut. Dort ging eine ähnliche Taktsteigerung ohne Prozesssprung.

Platos

2022-04-27, 18:55:53

...vor allem, wenn man sich Hopper anschaut. Da ist die Effizienz auch viel grösser. Irgendwie kaum zu glauben, was diese Gerüchte nun aussagen.

WedgeAntilles

2022-04-27, 19:00:59

Naja, für die kleinen Chips auf "schlechtere", aber vor allem günstigere Nodes zu wechseln war früher bei NV auch Usus (siehe GTX1050 Ti).
Es kann durchaus auch sein, dass der Schachzug von AMD mit TSMC 6nm besser ist.
Das will ich gar nicht abstreiten - mir ging es nur darum, dass hier viel zu häufig immer exakt das gefeiert wird, was AMD macht.
Und wenn AMD 2 Jahre später das exakte Gegenteil macht wird eben plötzlich das exakte Gegenteil gefeiert.

Ich bin auf jeden Fall unglaublich auf die neue Generationen beider Hersteller gespannt.
Und ich denke wir bekommen verdammt gute GraKas in allen Varianten - von brachial (sowohl was den Preis als auch die Leistung angeht), über High-End zu Midrange.
Da wird für alle Käufer was schönes dabei sein denke ich :)

basix

2022-04-27, 19:18:48

Nvidia ist momentan mit Samsung sogar in einer fast besseren Situation als AMD: Sie können Ampere parallel weiterproduzieren, ohne sich Waferkontigente mit anderen Produktlinien streitig machen zu müssen.

Troyan

2022-04-27, 19:44:12

Funktioniert bei GPU`s wunderbar, Top notch ist derzeit AMD/TSMC

CDNA 2 GCD = Graphic-Compute-Die (AMD Instinct MI210)
https://abload.de/thumb/mi250xgcdgraphicscomp63k57.png (https://abload.de/image.php?img=mi250xgcdgraphicscomp63k57.png)

CDNA 2 = GCDXGCD (AMD Instinct MI250X)
https://abload.de/thumb/mi250xgcd2xyhjqk.png (https://abload.de/image.php?img=mi250xgcd2xyhjqk.png)

Nvidia könnte sowas bei 8nm Samsung gar nicht umsetzen. So ein Ding würde bei NV+Samsung 800-1000W verbrauchen. Insofern ist der Schritt "zurück" zu TSMC 5nm/4nm schon richtig, weil Samsung bei 5nm strauchelt.

Deswegen ist nVidia auch 4x effizienter als AMD, weil es so super funktioniert.

350W Hopper hat 600 TFs FP16 Leistung, 550W MI250X hat 382 TFS FP16. Läuft echt für AMD. Alleine theoretisch ist Hopper schon 3x effizienter, die moderne überlegende Architektur macht dann noch mal mehr aus.

Muss AMD nur 4 700mm^2 Dies zusammenklatschen und schon ist man auf nVidia-Niveau. Das ist wirklich top. :freak:

iamthebear

2022-04-27, 22:06:46

NV ist keinen Node hinten. Das ist nicht mal ein halber in der Praxis.

Wenn ich mir die Transistordichte zwischen GA100 (65MTrans/mm²) vs. GA102 (45MTrans) ansehe würde ich das schon als Full Node Shrink nach heutiger Definition bezeichnen. GA100 auf GH100 waren auch nur 1.5x

Wenn man sich die offiziellen Zahlen von Samsung ansieht:
Samsung 7LPP vs. 8LPP:
-35% Power
1.5x Density
Da komme ich auch in etwa hin wenn man annimmt, dann 7LPP ca. N7P von TSMC entspricht.

Übrigens soll die 4080 nun doch auf AD103 setzen. Ich könnt mir aber vorstellen, dass man so lange den 102er für die 4080 verwendet, bis der 103er verfügbar wird.

Das glaube ich kaum. Da liegen 1.7x dazwischen. So viel will Nvidia sicher nicht grundlos wegschnipseln.

4070 mit 12gb, schön für die 4070 mit 300w, das sind 50% mehr speicher. aber die 4060 wird demnach wohl ein downgrade beim speicher bekommen ;( und die 4050 kein upgrade.

Die 12GB für die 3060 haben sowieso keinen Sinn ergeben. Aber Nvidia wollte die vermutlich nicht mit 6GB bringen, da dies wieder zu wenig gewesen wäre zumindest um die 700 Euro um die sie damals verkauft wurde.

das ist aber nur eine wunschinterpretation von VCZ. weißt du was genau zwischen 600 und 300w liegt? genau, ga102 mit 450w, genau so wirds kimi gemeint haben.

84 SMs der AD103 liegt aber nicht in der Mitte zwischen 60 und 144.
Eher realistisch:
AD104: 60*5 = 300W
AD103: 84*4.17 = 350W bis maximal 84*5= 420W
AD102: 144*4.17 = 600W

und wenn man ad103 cancelt, bzw. später bringt, so wie bei ga, dann rückt die 4080 wohl wieder beim stromverbrauch näher an die 4090(480w incomming).

GA102 vs. GA103 ist 1.4x.
AD102 vs. AD103 ist 1.7x. Das entspricht in etwa GA102 vs. GA103. Wenn man AD103 hier weglässt gibt das eine verdammt große Lücke.

Es gab wie schon mehrfach erwähnt Messungen von mksn7 die klar zeigten, dass es bei Ampere deutlich schwieriger ist nominalen Durchsatz zu erreichen als bei Pascal pro SM. Das liegt unter anderem daran, dass man weniger Schedulerresources hat. Die Limitierung ist auflösungsunabhängig. Ich gehe stark davon aus, dass man das ändern wird. Ich vermute, es war bei Ampere einfach nicht im Transistorbudget drin dual issue scheduler zu verbauen.

Hast du da zufällig einen Link bei der Hand oder kannst mir sagen nach was/wo ich suchen kann.

Eine 3060 ist 21% schneller als eine 1080 hat aber 43% mehr Rohleistung. Da fehlt als 18% IPC. Bei einer uArch die 2x Generationen neuer ist und andere Fortschritte ggü Pascal bereits eingepreist hat.
Man darf nicht vergessen, dass bei Ampere die Taktraten auch höher sind als bei Pascal.
Und Spiele sind ja selten FP32 limitiert - aber manchmal eben schon. Es kann also sein, dass der Nachteil auch mal stärker wiegt je nach Szene und Spiel - das ist ja nur ein Durchschnitt. Entsprechend ist für IPC (oder performance pro TFLOP) noch Luft nach oben, wenn man dickere Scheduler (und ggf. mehr Registerspace) verbaut.

Das wird mal wieder durch die Skalierung (speziell unter 1440p) verzerrt. Ich halte da den Vergleich mit der 1080 Ti für sinnvoller (beides gleiche SM Anzahl):
https://www.techpowerup.com/review/msi-geforce-rtx-3060-gaming-x-trio/30.html

Da ist die 1080 Ti nur 7% schneller (entspricht ca. 10% mehr Rohleistung) Gut die 3060 hat etwas höhere Taktraten, dafür aber auch weniger Speicherbandbreite. Pascal etwas mehr IPC hatte will ich ja gar nicht abstreiten aber 10% sehe ich jetzt nicht als so katastrophales Problem an.

Gegenrechnung: 21% mehr fps aus dem Link entsprechen bei einer Skalierung von 75% ca. 29% mehr Rohleistung. 143/129 = 1.11 also ca. 11%, dürfte also nicht so weit daneben liegen.

Zum rechnen benutze ich diesen Die Calculator: https://caly-technologies.com/die-yield-calculator/

Bei einem 300mm² Die (20x15mm) ergibt sich eine Ausbeute von 76,8%, beziehungsweise 143 funktionstüchtige Dies.

Bei einem 600mm² Die (20x30mm) ergibt sich eine Ausbeute von 59,7%, beziehungsweise 53 funktionstüchtige Dies.

Der Rechner sagt dir lediglich aus wie hoch der Anteil an Chips ist, die überhaupt keinen Defekt haben.
Ein Defekt bedeutet jedoch noch lange nicht, dass der Chip Ausschuss ist. In den meisten Fällen muss dieser dann nur teildeaktiviert werden, wobei Nvidia selbst beim höchsten SKU eines Dies selten alle Einheiten aktiv lässt.

2x Performance passen auch nicht mit 600W zusammen ;) Irgendwo sind da noch zu viele Widersprüche vorhanden. TSMC N4/5 sollte einen deutlichen Boost der Energieffizeinz versprechen. Entweder sind es >>2x bei 600W oder 2x bei <<600W.

Es könnte sich auch so erklären lassen, dass die 2x gar nie die Rohleistung waren sondern immer schon die erwarteten fps.

Was ist der Anwendungszweck von so viel INT Performance? Gibt es Applikationen mit 50:50 FP/INT Mix? Ich verstehe, dass INT kompakter in HW Umzusetzen ist als FP, das kann ein Vorteil sein. Und bei Spielen kommt man wie du ja beschreibst auch auf die ~2x IPC/SM. Die höhere FP-Performance von Ampere schlägt jedoch in vielen Produktivanwendungen sehr gut durch.

Meinst du jetzt bezüglich Turing oder meinem Vorschlag.

Bei Turing hat Nvidia wohl spekuliert, dass mit RT der INT Anteil steigt bzw. wenn INT einfach deutlich weniger Transistoren frisst, dann macht es schon Sinn die Mischung im Zweifelsfall etwas INT lastiger zu gestalten.
Eine andere Überlegung war vermutlich auch, dass man sich hier architekturmäßig an die Datacenter Karten angleicht.

Was meinen Vorschlag angeht:
Grundsätzlich hatte ich eine 2:1 Teilung im Sinn aber falls eine Anwendung mehr als 33% INT nutzt würde das wohl ziemlich bremsen. Daher der Gedanke, dass einige FP Einheiten zur Not auch INT Datenpfade haben.

Leute, hört einfach auf über Dinge zu reden, die keinen Sinn ergeben. nVidia bleibt bei Warps mit 32 Threads. Damit werden auch nur Warps mit 32 Threads verteilt, wodurch eben nur 2 Vec16 Einheiten arbeiten. Gaming-Ampere und Hopper sind einfach am Maximum, was möglich ist.

Gibt es hier einen zwingenden Grund, warum die Threadanzahl nicht erhöht werden kann oder alternativ auch die Anzahl an Warps/SM?

Apple geht in Richtung Chiplets (M1 Ultra war erst der Anfang). Intel geht in die Richtung. Und der Rest der Industrie auch. Die Vorteile der Ausbeute und Nutzung von spezifisch sinnvollen Prozessen pro Komponente sind offenkundig. Die M1 Ultra beweist zudem auch, dass die neuen Packagingtechnologien keinen signifikanten Nachteil bezüglich Leistungsaufnahme haben.

Es gibt eine Reihe von unterschiedlichen Motiven warum Firmen Richtung Chiplets gehen. Diese müssen nicht zwangsweise für die aktuelle Generation zutreffen z.B.:
.) Man kann beistimmte Chipteile auf andere Nodes bei anderen Foundries verlagern z.B. Zen2/3 mit den IO Dies bei GF oder Intel mit den iGPUs bei TSMC bei Meteor Lake/Arrow Lake
.) Man kann vielfältigere Kombinationen erstellen ohne immer gleich einen neuen Die validieren zu müssen und kann so flexibler auf Markterfordernisse reagieren oder Produkte wie den 5800X3D für bestimmte Nischenanwendungen zu erstellen
.) Man hat die Option früher auf einen neuen Node zu wechseln selbst wenn die Yieldraten noch nicht so prickelnd sein sollten (bei TSMC 3nm bahnt sich ja wieder etwas an)
.) Man kann bestimmte Nodes mit bestimmten Vor/Nachteilen nutzen z.B. falls sich der neue Node noch nicht so takten lässt.

TSMC und ihre Partner investieren weiterhin nicht grundlos viele Milliarden in Packagingtechnologien die Schlüsselbausteine für effiziente Chiplets sind. Es ist hoch wahrscheinlich, dass NV zu diesem Konglomerat dazu gehört.
Die aktuellen Gerüchte besagen, dass NV's nextgen auch auf chiplets basiert. Aus genau diesen Gründen. Würde mich nicht wundern, wenn sich die Meinung zu chiplets bei einigen sich schlagartig ändert, sobald der Lieblings IHV das auch nutzt. :D

Natürlich forscht auch Nvidia in diese Richtung und bei 3nm ergibt sich möglicherweise auch schon eine zwingende Notwendigkeit bei schlechten Yieldraten.
Aber das bedeutet nicht, dass es diese Generation schon ein Vorteil sein muss. Viele Wege führen nach Rom und unterschiedliche Hersteller haben unterschiedliche Probleme bzw. die gleichen Probleme schon früher oder erst später.

Es ist aber Schwachsinn zu glauben, dass sich automatisch gleich die Performance verdoppelt und die Verlustleistung halbiert nur weil jemand ein MCM Design hat.

Btw, Intel sagte mal dass man durch die Aufteilung auf kleinere Chips, bzw. auch auf einfachere , besser überprüfbare IP-Komplexe, ganze Jahre an Entwicklungszeit bzw. bring-up Investment spart. Das korrelierte mit der Zeit als sich Icelake-SP um 2+ Jahre verzögert hat weil der Chip im Bringup einfach nicht hoch kam und endlose Respins brauchte. Von den anderen Riesenchips wie XE-HP, "Father of all GPUs" hat man nie wieder was gehört, die liefen nur mal im Labor.

Das ist halt immer kontextbezogen. Ich kann mich auch an eine Intel Aussage erinnern "monolithisch ist immer besser solange man es mit akzeptablen Yieldraten hin bekommt".

Nvidia muss ziemlich tief in die Tasche greifen für diese Kapazitäten bei TSMC. Das war sicher nicht so geplant als man sich 2018-19 entschied zu Samsung zu wechseln. Dementsprechend muss AD104 auch erheblich kleiner sein wenn man mit einem mittelgroßen N6 chip konkurrieren will.

Nvidia hat bereits kräftig in die Tasche gegriffen und knapp 10 Mrd. für die 5nm Fertigung vorfinanziert.
Aber klar ein 4nm Chip muss beingleicher Performance kleiner sein als ein 6nm Chip. Sonst hat man irgendetwas falsch gemacht :freak:

Was man so als Gerücht mitbekommt war der Wechsel zu Samsung nicht geplant. Das war ein Notfallplan, da man sich mit TSMC für die Gamingsparte preislich nicht einig werden konnte.
Im Nachhinein war es jedoch die richtige Entscheidung, denn TSMC hätte sowieso nicht einmal annähernd genug Kapazität gehabt.

Irgendwie schon witzig - als AMD mit TSMC vs Samsung auf dem besseren Fertigungsverfahren war, wurde das hier gefeiert.
Jetzt ist es plötzlich besser, wenn man auf dem schlechteren, dafür preisgünstigeren Verfahren ist.[quote]

Jaja ich kann mich da an einige Dinge erinnern z.B. "wer braucht die ganzen kleinen Kerne bei ADL, Spiele nutzen sowieso nur X Kerne vs. Quad Core Stillstand bei Intel" oder "Intel ist tot. Zen 3 ist 10% schneller vs. wen kümmern 20% mehr Leistung des 9900K mein 2700X war viel billiger"

[QUOTE=Troyan;12989758]Albern ist es zu diskutieren, dass du glaubst, dass 2x 250mm^2 Chiplets eine bessere Ausbeute hätten als ein 500mm^2 Monolith. ;D

Dir ist aber schon klar, dass das Stacking von mehreren Chips auch nur eine gewisse Ausbeute hat. Bei AMDs VCache war das anfangs mehr Ausschuss als bei der Fertigung selbst. Auch das Packaging ist nicht gratis und der Testaufwand ist auch höher, da man zuerst die einzelnene Chips und dann das Gesamtprodukt testen muss.

Du weißt aber schon, dass man die GPUs auch im bzw. unter dem Sweet Spot betreiben kann? Dicke Chips sind wunderbar skalierbar, siehe Fiji als Fury und Nano. Ich sehe da eher Platzprobleme. ;)

Da ist natürlich etwas Wahres dran aber dann steht man vor der Situation, dass man z.B. 2x Fertigungskosten auf Grund der Chipfläche hat aber nur 1.5x Performance raus bekommt. Die Stromkosten kann man schön auf den Kunden abwälzen und es scheint anscheinend den meisten Käufern egal zu sein.

Wenn die SMs nicht noch irgendwie aufgebohrt werden, erscheinen mir die TDPs als viel zu hoch. Lovelace wäre anhand der Tabelle pro SM nur etwa so effizient wie Ampere. Klar, der Takt wird steigen. Dennoch wäre das relativ schwach. Vor allem wenn man sich RDNA2 vs. RDNA1 anschaut. Dort ging eine ähnliche Taktsteigerung ohne Prozesssprung.

Das mit den TDPs quält mich auch schon seit einiger Zeit. Dann kam das mit der nicht passenden Transistoranzahl von ca. +40%. Gut das hätte man theoretisch auch noch irgendwie mit einem absolutem Desaster bei der L2 Dichte wegdiskutieren können) aber wenn kopite nun extra noch einmal auf den SM Aufbau und die 128FP hinweist ist mir eigentlich ziemlich klar, dass da noch was kommt.

Nvidia ist momentan mit Samsung sogar in einer fast besseren Situation als AMD: Sie können Ampere parallel weiterproduzieren, ohne sich Waferkontigente mit anderen Produktlinien streitig machen zu müssen.

Waferkontingente sind genug vorhanden. Das ist nur eine Frage wieviele man bestellt hat. Wer von vornhinein großzügig bestellt bzw. den Bau neuer Fabs vorfinanziert, der hat auch genug (siehe Apple). Wer alles abbestellt hat und darauf spekuliert sich "just in time" kurzfristig was dazu zu buchen der fällt auf die Schnauze (siehe Automobilindustrie).
Mittelfristig glaube ich, dass sowohl Nvidia als auch AMD keine gröberen Kapazitätsprobleme geben wird. Bei Nvidia habe ich eher die Bedenken, dass die zu großzügig eingekauft haben bzw. TSMC zu viel erweitert und das alles in 2-3 Jahren gar niemand brauchen wird.

OgrEGT

2022-04-27, 22:08:43

Hier werden mehrere Metriken von GH100 vs MI250X gegenüberstellt, wovon einige andere ein anderes Bild zeigen...
https://www.hardwaretimes.com/nvidia-next-gen-hopper-gh100-data-center-gpu-unveiled-4nm-18432-cores-700w-power-draw-4000-tflops-of-mixed-precision-compute/

iamthebear

2022-04-27, 22:29:16

Deswegen ist nVidia auch 4x effizienter als AMD, weil es so super funktioniert.

350W Hopper hat 600 TFs FP16 Leistung, 550W MI250X hat 382 TFS FP16. Läuft echt für AMD. Alleine theoretisch ist Hopper schon 3x effizienter, die moderne überlegende Architektur macht dann noch mal mehr aus.

Muss AMD nur 4 700mm^2 Dies zusammenklatschen und schon ist man auf nVidia-Niveau. Das ist wirklich top. :freak:

Die reinen TFlop Angaben aus dem Datenblatt sind ja so was von nichtssagend. Entscheidend ist, was in realen Anwendungen am Schluss raus kommt nur das lässt sich bei Datacenterkarten und auf die Architektur maßgeschneiderten Anwendungen nicht sinnvoll bestimmen.

reaperrr

2022-04-28, 06:03:34

Die reinen TFlop Angaben aus dem Datenblatt sind ja so was von nichtssagend. Entscheidend ist, was in realen Anwendungen am Schluss raus kommt nur das lässt sich bei Datacenterkarten und auf die Architektur maßgeschneiderten Anwendungen nicht sinnvoll bestimmen.
Sich ausgerechnet die (Matrix-)FP16-Leistung rauszupicken ist sowieso etwas lächerlich, weil Nvidia hier wegen der TensorCores auf deutlich höhere FP16-Leistung je FP32-ALU je Takt kommt und AMD offensichtlich primär auf Märkte abzielt, wo FP32 und FP64 wichtiger sind (oder halt non-Matrix FP16).

Ailuros

2022-04-28, 06:17:50

Ich hab das merkwuerdige Gefuehl dass sich so mancher verzettelt hat denn bezueglich der kommenden GPU Generation ist der erste grosse Fehler wenn man glaubt dass SM = SM ist im Vergleich zu existierenden Architekturen. Es ist nicht nur dass die cluster um einiges breiter geworden sind, IHVs brauchen auch so manchen "workaround" wenn man die Anzahl der SIMD lanes sehenswert steigert.

Die Steigerung des Stromverbrauchs ist kein besonderer Kopfschmerz denn die Steigerung der TFLOPs/TOPs/clock sind alles andere als gering. Vergleicht man dann theoretisch GFLOPs/W sieht es schnell ander aus.
H100 = 20.51 TFLOPs FP32/W
A100 = 11.66 TFLOPs FP32/W
HPC bzw. professionelle Loesungen werden u.a. mit solchen Vergleichen verkauft. Wie es jetzt mit 3D Leistung bezueglich zukuenftige mainstream GPUs aussehen wird muss man wohl den ersten SKU release abwarten.

Uebrigens ist es womoeglich etwas zu vorzeitig aber NV verschwendet unnoetig resources IMHO fuer ray tracing. Aenderungen diesbezueglich siehe zukuenftige GPU Generationen.

robbitop

2022-04-28, 06:53:36

Albern ist es zu diskutieren, dass du glaubst, dass 2x 250mm^2 Chiplets eine bessere Ausbeute hätten als ein 500mm^2 Monolith. ;D
Du hast das nicht verstanden. Genauso wie du auch die ComputeUnits von Ampere nicht verstanden hast.

Ich glaube du hast nicht verstanden, was ein Axiom ist. Und zu den SMs von Ampere: korrigiere mich mit konkretem Bezug auf mksn7 Messungen. Und bitte im Detail mit Substanz und Belegen. Ansonsten ist es wertlos.

Apple verwendet zwei M1 Max Chips mit je 450mm^2 Fläche als Monolith-Chips, die jeweils auch einzeln verwendet werden können. Das ist was vollkommen anderes als AMD vorhat, da dort die Chiplets einzeln nicht verwendet werden können.
Es ist zwar richtig, dass die M1 Chips auch einzeln funktionieren aber das ändert überhaupt nichts am Funktionsprinzip was auch bei Chiplets greift, die nicht einzeln funktionieren. Ich bin gespannt was du in 2 Jahren sagst wenn NV auch Chiplets nutzt.

Ailuros

2022-04-28, 07:09:14

Lisa Su hat gerechtfertigt erwaehnt dass es bei chiplets von der eigentlichen Implementierung abhaengt. Es ist eben nicht so dass chiplets immer und ueberall ideal sind. So lange NV immer noch auf der monolithischen Masche beruhen kann, machen momentan fuer sie chiplets auch nicht absoluten Sinn. Ausser es hat hier jemand eine laien-Formel die beweisst dass ein hypothetischer H100 mit sagen wir mal 2 chiplets und N Implementierung weniger als 700W verdampfen wuerde. NV's hw engineers entwickeln nicht in einem vacuum.

Apple's M1 Ultra hat hier keinen sehenswerten Vergleich. SoC != GPU, aus damit. Noch schlimmer Apple hat keine direkte Konkurrenz da sie ihre chips nicht verkaufen.

Troyan

2022-04-28, 09:28:59

Da nVidia 815mm^2 produzieren kann, macht Chiplet für sie auch erst Sinn, wenn man >815mm^2 gehen müsste. Mit NVLink wird nVidia nächstes Jahr erstmal OnChip-Package mit zwei H100 Dies bringen und dann ca. 50% mehr Leistung liefern.

Sich ausgerechnet die (Matrix-)FP16-Leistung rauszupicken ist sowieso etwas lächerlich, weil Nvidia hier wegen der TensorCores auf deutlich höhere FP16-Leistung je FP32-ALU je Takt kommt und AMD offensichtlich primär auf Märkte abzielt, wo FP32 und FP64 wichtiger sind (oder halt non-Matrix FP16).

Komisch, die Firma bewirbt doch Tensor FP16. ;D

Ansonsten halte dich doch einfach an die Messungen von AMD, die maximal 3x mehr Leistung als A100 erreichen und bis auf 1,4x fallen. Auslastung ist richtig miserabel und H100 mit 350W ist da exakt auf dem Niveau von MI250X.

Fakt ist, dass nVidia neben der selben FP64 Leistung mit einem Die x-fach mehr Leistung in anderen Bereichen liefern. Der Flächenbedarf von AMD ist einfach ineffzient.

robbitop

2022-04-28, 11:00:18

Lisa Su hat gerechtfertigt erwaehnt dass es bei chiplets von der eigentlichen Implementierung abhaengt. Es ist eben nicht so dass chiplets immer und ueberall ideal sind. So lange NV immer noch auf der monolithischen Masche beruhen kann, machen momentan fuer sie chiplets auch nicht absoluten Sinn. Ausser es hat hier jemand eine laien-Formel die beweisst dass ein hypothetischer H100 mit sagen wir mal 2 chiplets und N Implementierung weniger als 700W verdampfen wuerde. NV's hw engineers entwickeln nicht in einem vacuum.

Apple's M1 Ultra hat hier keinen sehenswerten Vergleich. SoC != GPU, aus damit. Noch schlimmer Apple hat keine direkte Konkurrenz da sie ihre chips nicht verkaufen.
Es hat niemand behauptet, dass Chiplets ideal für alles sind. Das hängt davon ab, was man vor hat und was die entsprechenden Packagingprozesse und Halbleiterprozesse kosten.

Apple's M1 beweist vor allem eines: Interconnect zwischen zwei dice ist mit sehr sehr hohen Bandbreiten und sehr niedriger Latenz (2x GPUs arbeiten transparent zur Anwendung wie eine - das ist eine sehr hohe Hürde) dank moderner Packagingtechnologien möglich, ohne dass es noch viel Energie kostet.
Und genau das ist der Schlüsselbaustein, der bis dato gefehlt hat, um Chiplets auf breiter Basis sinnvoll zu machen.
Mehr habe ich damit nicht sagen wollen.

Je nach Zielperformance und verfügbaren Prozessen kann es sinnvoll sein, das zu nutzen. Muss aber nicht.
Vorteil:

1. man kann den Chip in entsprechend verschiedene IPs zerlegen und kann für diese IP Typen die idealen Fertigungsprozesse nutzen.
I/O z.B. braucht keinen bleeding edge Prozess und kann ruhig auf einem günstigen Prozess gebaut sein. Für SRAM und/oder eDRAM gibt es Prozesse die viel dichter packen können. Für Teile der Logik die hoch takten können sollen gibt es Prozesse, die das super gut können aber dafür stromhungriger sind. Für Teile der Logik (z.b Fixed Function) die keine hohe Performance brauchen sondern lieber wenig Verbrauch und wenig Packdichte gibt es widerum andere Prozesse.
Man kann potenziell den besten Fertigungsprozess (aus Kosten und oder Performancesicht) wählen für die jeweiligen Teiles eines Chips. Völlig kompromissfrei.

2. Man kann kleinere Chiplets einzeln validieren (sagte basix ja schon) und damit seine Timeline parallelisieren und kürzen und auch das Risiko wenn da was schief geht und auch den Impact was Kosten angeht (respin/maskenmehrkosten).

3. man bekommt allein geometrisch mehr Ausnutzung der Kreisfläche des Wafers hin

4. geometrieunabhängig kann man höhere Yields erzielen.

Nachteile:
Packaging ist teurer und der Verbrauch ist höher wegen der Kommunikation (wobei der Anteil dank modernen Packagingtechnologien ja um Größenordnungen sinkt aktuell). Und sicherlich braucht man auch ein wenig mehr Logik pro chiplet damit sie kommunizieren können.

Ja absolut ist es eine Frage der Konstellation aller Randbedingungen ab wann das sinnvoll ist. Gerade bei kleineren Chips ist es weniger Sinnvoll. Je Größer das Große Ganze werden soll desto mehr verschiebt sich das in den Bereich der Vorteile. Und natürlich je teurer bleeding edge Prozesse werden sollen.

Wenn man jetzt vorhat ein riesen Monstrum (auch größer als 800 mm²) zu bauen, dann ist das mit Chiplets möglich ohne Handstände machen zu müssen.

Der Nutzen hängt von der Konstellation ab. Die ist allerdings ein moving target je teurer die neusten Prozesse werden.

mksn7

2022-04-28, 11:05:14

Leute, hört einfach auf über Dinge zu reden, die keinen Sinn ergeben. nVidia bleibt bei Warps mit 32 Threads. Damit werden auch nur Warps mit 32 Threads verteilt, wodurch eben nur 2 Vec16 Einheiten arbeiten. Gaming-Ampere und Hopper sind einfach am Maximum, was möglich ist.

Gibt es hier einen zwingenden Grund, warum die Threadanzahl nicht erhöht werden kann oder alternativ auch die Anzahl an Warps/SM?

Die Anzahl der threads in einem warp zu erhöhen ist schwierig, weil viel Software sich dadrauf verlässt oder zumindest darauf optimiert ist. Reduzieren geht noch eher, hat AMD bei RDNA ja auch gemacht. Da haben sie aber auch alles außer 3D Grafik ignoriert, da ist es wesentlich einfacher, weil APIs wie OpenGL und DirectX das Konzept eines warps nicht so stark abbilden und man sich auf nicht auf den einen Wert verlassen kann.

Ich glaube auch dass 32 threads/warp schon nahe am sweet spot sind. Da gewinnt man nichts.

Die Anzahl an warps / SM kann man erhöhen. Das Limit bei NVIDIA sind aktuell 64 warps zu je 32 threads. Gleichzeitig müsste die Zahl der Register erhöht werden um mehr als 64 warps zu betreiben, und überhaupt ist die Registerzahl auch öfter das Limit als die 64 warps.

Das löst aber kein Problem im Zusammenhang mit thread scheduling, das erhöht nur die chance dass man einen warp findet der nicht gerade stalled.

mboeller

2022-04-28, 11:17:06

Wenn man jetzt vorhat ein riesen Monstrum (auch größer als 800 mm²) zu bauen, dann ist das mit Chiplets möglich ohne Handstände machen zu müssen.

"Monstrum" beginnt dann in Zukunft mit den neuen Prozessen bereits bei etwa 415mm²

why_me

2022-04-28, 11:18:47

Nachteile:
Packaging ist teurer und der Verbrauch ist höher wegen der Kommunikation (wobei der Anteil dank modernen Packagingtechnologien ja um Größenordnungen sinkt aktuell). Und sicherlich braucht man auch ein wenig mehr Logik pro chiplet damit sie kommunizieren können.

Der Verbrauch muss nicht zwingend höher sein. Wenn man die Vorteile von oben zusammenzählt. Könnte ein Chiplet design sogar günstiger und Sparsamer sein als ein monolithischer Chip.

- Verbrauch senken durch passenden Prozess für jedes Chiplet.
- Den Chip könnte man breiter bauen und dadurch niedriger takten und dennoch günstiger produzieren als einen großen Chip. Da man die Waferfläche besser ausnutzen kann und die kleineren Chiplets einen besseren Yield haben.
- Je nachdem wie viel man durch die älteren Nodes einsparen kann, könnten sogar die kosten des packagings aufgefangen werden.

Troyan

2022-04-28, 11:57:36

"Monstrum" beginnt dann in Zukunft mit den neuen Prozessen bereits bei etwa 415mm²

Das wurde auch schon über 5nm gesagt und nVidia produziert trotzdem 815mm^2.

In dem MCM Whitepaper von 2017 ging nVidia davon aus, dass die Grenze bei 7nm um die 600mm^2 liegen würde. Seitdem haben die den Chip um 36% vergrößert und die SM-IPC seit HPC-Pascal verdoppelt. Sie erreichen also mit Hopper mehr Leistung bei ca. 1/3 weniger Fläche als in dem Whitepaper von 2017 beschrieben (4x 400mm^2 Chips mit je 64 SMs gegen 600mm^2 mit 128SMs).

Ailuros

2022-04-28, 12:51:16

Die Anzahl der threads in einem warp zu erhöhen ist schwierig, weil viel Software sich dadrauf verlässt oder zumindest darauf optimiert ist. Reduzieren geht noch eher, hat AMD bei RDNA ja auch gemacht. Da haben sie aber auch alles außer 3D Grafik ignoriert, da ist es wesentlich einfacher, weil APIs wie OpenGL und DirectX das Konzept eines warps nicht so stark abbilden und man sich auf nicht auf den einen Wert verlassen kann.

Ich glaube auch dass 32 threads/warp schon nahe am sweet spot sind. Da gewinnt man nichts.

Die Anzahl an warps / SM kann man erhöhen. Das Limit bei NVIDIA sind aktuell 64 warps zu je 32 threads. Gleichzeitig müsste die Zahl der Register erhöht werden um mehr als 64 warps zu betreiben, und überhaupt ist die Registerzahl auch öfter das Limit als die 64 warps.

Das löst aber kein Problem im Zusammenhang mit thread scheduling, das erhöht nur die chance dass man einen warp findet der nicht gerade stalled.

Es gibt mehrere "asynchrone" buzzwords im zeitigen oeffentlichen Hopper Material.

robbitop

2022-04-28, 13:32:25

Der Verbrauch muss nicht zwingend höher sein. Wenn man die Vorteile von oben zusammenzählt. Könnte ein Chiplet design sogar günstiger und Sparsamer sein als ein monolithischer Chip.

- Verbrauch senken durch passenden Prozess für jedes Chiplet.
- Den Chip könnte man breiter bauen und dadurch niedriger takten und dennoch günstiger produzieren als einen großen Chip. Da man die Waferfläche besser ausnutzen kann und die kleineren Chiplets einen besseren Yield haben.
- Je nachdem wie viel man durch die älteren Nodes einsparen kann, könnten sogar die kosten des packagings aufgefangen werden.
Stimmt - guter Punkt.

Rampage 2

2022-04-28, 15:32:17

Weiß man denn schon Genaueres zu den Die-Größen der einzelnen* LL-Chips bzw. aktuelle Gerüchte darüber?

* = nur AD102, AD103 und AD104 - alles darunter interessiert mich nicht;)

R2

Neurosphere

2022-04-28, 16:30:02

Das wurde auch schon über 5nm gesagt und nVidia produziert trotzdem 815mm^2.

In dem MCM Whitepaper von 2017 ging nVidia davon aus, dass die Grenze bei 7nm um die 600mm^2 liegen würde. Seitdem haben die den Chip um 36% vergrößert und die SM-IPC seit HPC-Pascal verdoppelt. Sie erreichen also mit Hopper mehr Leistung bei ca. 1/3 weniger Fläche als in dem Whitepaper von 2017 beschrieben (4x 400mm^2 Chips mit je 64 SMs gegen 600mm^2 mit 128SMs).

Ja... ist nur falsch was du schreibst.

Derzeit liegt das Limit bei 858mm² (26mm x 33mm, 7nm/5nm) und in Zukunft bei 429mm² ( 26mm x 16.5m, High-EUV). Liegt einfach an der Belichtung beim EUV Prozess, das wusste man auch damals schon.

Weltraumeule

2022-04-28, 18:14:56

Bin enttäuscht dass die 4060 nur 8 GB und die 4070 nur 12 GB Speicher haben werden :( Habe auf 12 und 16 gehofft!

Na ja, dann wird meine GTX 1060 GB auf keinen Fall mit der 4060, sondern der 4070 ersetzt. Wobei ich leider Angst wegen der 300 Watt TDP habe. Ob da wohl drei Lüfter-Modelle leise kühlen können? :confused:

Oder solle ich in den "sauren Apfel beißen" und die 3070 8 GB jetzt kaufen? Oder warten bis dank der 40er Serie die 3070 günstiger wird? Zocke auf 1440p.

Oder doch nach Jahren mal wieder zu AMD wechseln? Nur müssen dann deren DLSS Alternative auf gleichem Niveau sein. Und es sollte sowas mit den Profile Inspector geben mit umfangreichen Einstellungen.

Rampage 2

2022-04-28, 19:05:41

Oder solle ich in den "sauren Apfel beißen" und die 3070 8 GB jetzt kaufen? Oder warten bis dank der 40er Serie die 3070 günstiger wird? Zocke auf 1440p.

Dieses Thema hatten wir doch schon erst kürzlich;) Also nix mehr unter 12GB bei 1440p und Aufwärts - langfristig (in 2-3 Jahren) könnten wohl auch 12GB nicht mehr genug sein... herausfinden werden wir das erst, wenn die ersten *wirklichen* NextGen-Spiele rauskommen, die das Potential der PS5/XSX richtig ausnutzen und ob DirectStorage/SFS bis dahin schon in die Gänge gekommen ist.

Also entweder GA104 (= 4070/Ti) mit 12GB Grafikspeicher @ 192Bit Anbindung oder, wenn du wirklich auf Nummer sicher gehen willst, GA103 (= 4080) mit 16GB VRAM @ 256Bit Anbindung.

R2

Dovregubben

2022-04-28, 19:07:32

Na ja, dann wird meine GTX 1060 GB auf keinen Fall mit der 4060, sondern der 4070 ersetzt. Wobei ich leider Angst wegen der 300 Watt TDP habe. Ob da wohl drei Lüfter-Modelle leise kühlen können? :confused:
Ignorier einfach die Kaffeesatzleserei und AMD Trolle hier.
Die Reviews werden dann ja zeigen, was man bekommt. Die Weltuntergangsprophezeiungen für Nvidia liest man bei jedem einzelnen Release im Internet schon seit ATI Zeiten und in den letzten Jahren wird das noch angestachelt durch Youtuber, die mit Clickbait Geld verdienen. Wenn man nach denen geht ist Nvidia in 10 Jahren bei Geforce FX Performance mit 10GW Verbrauch ;)

iamthebear

2022-04-28, 20:34:44

Weiß man denn schon Genaueres zu den Die-Größen der einzelnen* LL-Chips bzw. aktuelle Gerüchte darüber?

* = nur AD102, AD103 und AD104 - alles darunter interessiert mich nicht;)

R2

Also was wir bisher wissen ist:
.) GH100 hat eine Transistordichte von ca. 100 MTrans/mm in 4N. Bei Lovelace wird derselbe Prozess verwendet oder zumindest auf jeden Fall nichts Besseres.
.) Laut kopite hat AD102 70-80 Mrd. Transistoren.
.) semianalysis haben eine Schätzung von 611.3mm² abgegeben:
https://semianalysis.substack.com/p/nvidia-ada-lovelace-leaked-specifications?s=r
Das war aber glaube ich noch vor dem Tweet über die 70-80 Mrd. und spießt sich etwas. Da würde die Transistordichte deutlich höher liegen.
Falls die 611mm² stimmen sollten so kann das eigentlich nur von viel L2 Fläche kommen, was wiederrum bedeutet, dass es nicht viele IPC steigernde Maßnahmen in den SMs geben kann, was sich wieder etwas mit dem Performance Target von 2-2.2x bzw. dem Tweet von kopite über Änderungen an den 128FP/SM spießt.
Ich würde eher Richtung 700-800mm² tendieren.

Ja... ist nur falsch was du schreibst.

Derzeit liegt das Limit bei 858mm² (26mm x 33mm, 7nm/5nm) und in Zukunft bei 429mm² ( 26mm x 16.5m, High-EUV). Liegt einfach an der Belichtung beim EUV Prozess, das wusste man auch damals schon.

Das ist interessant. Danke für die Info (y)

Ich vermute einmal, dass viele MCM Designs heute eher Übung für zukünftige Produkte sind wo man mit 400mm² in der Tat nicht weit kommt bei Server CPUs, Datacenter GPUs etc. die alle viel Marge bringen.

Dieses Thema hatten wir doch schon erst kürzlich;) Also nix mehr unter 12GB bei 1440p und Aufwärts - langfristig (in 2-3 Jahren) könnten wohl auch 12GB nicht mehr genug sein... herausfinden werden wir das erst, wenn die ersten *wirklichen* NextGen-Spiele rauskommen, die das Potential der PS5/XSX richtig ausnutzen und ob DirectStorage/SFS bis dahin schon in die Gänge gekommen ist.

Ich kann das Konsolenargument schön langsam nicht mehr hören.

2013 kam die PS4 auf den Markt mit 8GB shared für CPU und GPU. Damals war die stärkste GPU des regulären Lineups die gerade frisch auf den Markt gekommene 780 Ti mit 3GB.
7 Jahre später (2020 bzw. Ende der Generation) war der reale VRAM Bedarf (nicht der angeforderte VRAM den die Tools anzeigen) bei den meisten Spielen in 4K Native ohne RT bei ca. 4-6GB. Mit 8GB war man überall safe siehe die 3070 vs. 2080 Ti Reviews wo es keine nennenswerten Einbrüche gab.

Im Jahr 2020 kam die PS5 auf den Markt mit 16GB geshared für CPU und GPU also das doppelte.

Nach dieser Argumentation:
.) Wären 6GB für die 3080 Ti mehr als genug
.) Im Jahr 2027 (in 5 Jahren) wird man mit 8-12GB VRAM noch in 8K Native durchkommen, mit 16GB ist man komplett safe

Man kann den VRAM Bedarf über viele Dinge argumentieren (RT, stark steigende Rechenleistung usw.) aber nicht mit Konsolen, denn der knappe VRAM auf Konsolen ist ein Argument dagegen.[/QUOTE]

Die Anzahl der threads in einem warp zu erhöhen ist schwierig, weil viel Software sich dadrauf verlässt oder zumindest darauf optimiert ist. Reduzieren geht noch eher, hat AMD bei RDNA ja auch gemacht. Da haben sie aber auch alles außer 3D Grafik ignoriert, da ist es wesentlich einfacher, weil APIs wie OpenGL und DirectX das Konzept eines warps nicht so stark abbilden und man sich auf nicht auf den einen Wert verlassen kann.

Stimmt da würde sich Nvidia mit CUDA ganz schön ins eigene Bein schießen.

Die Anzahl an warps / SM kann man erhöhen. Das Limit bei NVIDIA sind aktuell 64 warps zu je 32 threads. Gleichzeitig müsste die Zahl der Register erhöht werden um mehr als 64 warps zu betreiben, und überhaupt ist die Registerzahl auch öfter das Limit als die 64 warps.

Sorry war etwas blöd formuliert. Meinte eigentlich die 4 warp Scheduler. Falls diese z.B. 6 erhöht werden, dann müsste man doch 128FP + 64INT auslasten können.

mksn7

2022-04-29, 11:20:38

Sorry war etwas blöd formuliert. Meinte eigentlich die 4 warp Scheduler. Falls diese z.B. 6 erhöht werden, dann müsste man doch 128FP + 64INT auslasten können.

Ja, mehr warp scheduler geht auf jeden Fall. Damit erhöht sich auch die issue rate und andere ptentielle limiter. Dafür müsste man aber gleich ganze quadrants duplizieren, das ist jeweils ein viertel einer SM mit jeweils L0 ICache, thread scheduler/dispatch, execution units (FP32/Int, tensor, Load/Store, FP64, special function) und register file.

An nicht dupliziertem bleibt dann nur noch sowas wie L1 ICache, RT cores, texture units und noch ein bisschen Verdrahtung nach außen hin. So sieht das jedenfalls auf den allseits bekannten Schaubildchen von NVIDIA aus, wie z.B. hier (https://www.hardwareluxx.de/images/cdn01/6084622AE64B4481AD61755A40F94119/img/06B2254E03F14910BF125A564EC68391/NVIDIA-GA102-SM-Diagram_06B2254E03F14910BF125A564EC68391.jpg)

AffenJack

2022-04-29, 12:13:42

Ja, mehr warp scheduler geht auf jeden Fall. Damit erhöht sich auch die issue rate und andere ptentielle limiter. Dafür müsste man aber gleich ganze quadrants duplizieren, das ist jeweils ein viertel einer SM mit jeweils L0 ICache, thread scheduler/dispatch, execution units (FP32/Int, tensor, Load/Store, FP64, special function) und register file.

An nicht dupliziertem bleibt dann nur noch sowas wie L1 ICache, RT cores, texture units und noch ein bisschen Verdrahtung nach außen hin. So sieht das jedenfalls auf den allseits bekannten Schaubildchen von NVIDIA aus, wie z.B. hier (https://www.hardwareluxx.de/images/cdn01/6084622AE64B4481AD61755A40F94119/img/06B2254E03F14910BF125A564EC68391/NVIDIA-GA102-SM-Diagram_06B2254E03F14910BF125A564EC68391.jpg)

Wieso nicht einfach der SM Aufbau von Hopper? Da funktioniert das doch auch mit 128Fp32 und 64 int32. Dabei sollte Hpc/ai Code doch eher noch kritischer sein, als das was man in games hat. L1 und tcs abspecken, evtl spezielle Fähigkeiten raus.

mksn7

2022-04-29, 14:13:15

Wieso nicht einfach der SM Aufbau von Hopper? Da funktioniert das doch auch mit 128Fp32 und 64 int32. Dabei sollte Hpc/ai Code doch eher noch kritischer sein, als das was man in games hat. L1 und tcs abspecken, evtl spezielle Fähigkeiten raus.

Bezüglich der gaming relevanten execution units, legt Hopper auf HPC Ampere nur dass drauf was Gaming Ampere sowieso schon auf Turing draufgelegt hat, die FP32 Fähigkeite der INT units.

Man könnte fast sagen, HPC Ampere ist etwa auf dem Architekturstand von Turing, und Hopper ist auf dem Stand von Gaming Ampere. In dem Vergleich hat der HPC chip natürlich noch einige Änderunge, wie FP64 units, doppelt soviel load/store units, mehr L1 cache, dickere tensor units, kein RT, und auch einige der neuen Hopper features wie der tensor memory accelerator. NVIDIA malt bei HPC Ampere und Hopper auch immer einen L1 Icache mit aufs Bild, den es beim Gaming Ampere nicht gibt, aber ich kann wirklich nicht sagen was das für eine Relevanz in der Praxis hat.

AffenJack

2022-04-29, 21:43:56

Bezüglich der gaming relevanten execution units, legt Hopper auf HPC Ampere nur dass drauf was Gaming Ampere sowieso schon auf Turing draufgelegt hat, die FP32 Fähigkeite der INT units.

Man könnte fast sagen, HPC Ampere ist etwa auf dem Architekturstand von Turing, und Hopper ist auf dem Stand von Gaming Ampere. In dem Vergleich hat der HPC chip natürlich noch einige Änderungen... doppelt soviel load/store units, mehr L1 Cache...

A100 hatte 64Fp32 und 64int32.
GA102 hat 64 FP32 UND 64 FP32/INT32 SHARED.
H100 hat 128Fp32 +64Int32.
Hopper hat also gleich 64 seperate fp32, statt SHARED fp/int units bekommen. Das ist schon mehr als Ga102. Wieso also nicht das gleiche bei lovelace, dazu Verdopplung load/store und 160-192 bit l1.

iamthebear

2022-04-29, 22:30:55

Ja, mehr warp scheduler geht auf jeden Fall. Damit erhöht sich auch die issue rate und andere ptentielle limiter. Dafür müsste man aber gleich ganze quadrants duplizieren, das ist jeweils ein viertel einer SM mit jeweils L0 ICache, thread scheduler/dispatch, execution units (FP32/Int, tensor, Load/Store, FP64, special function) und register file.

An nicht dupliziertem bleibt dann nur noch sowas wie L1 ICache, RT cores, texture units und noch ein bisschen Verdrahtung nach außen hin. So sieht das jedenfalls auf den allseits bekannten Schaubildchen von NVIDIA aus, wie z.B. hier (https://www.hardwareluxx.de/images/cdn01/6084622AE64B4481AD61755A40F94119/img/06B2254E03F14910BF125A564EC68391/NVIDIA-GA102-SM-Diagram_06B2254E03F14910BF125A564EC68391.jpg)

Wenn da im Optimalfall dann wirklich 36% mehr Performance/SM raus kommt würde mich ehrlich gesagt gar nicht wirklich schrecken wenn da ein großer Teil dupliziert werden müsste.

Was die Schaubilder angeht: Mit denen habe ich immer etwas Schwierigkeiten, da diese offensichtlich nicht maßstabsgetreu sind. Ich bezweifle dass die Tensor Cores beim Gaming Lineup wirklich so viel Platz brauchen.
Abgesehen davon lässt Nvidia gerne manchmal Dinge weg bzw. zeichnet bevorzugt das ein, wo es gerade Änderungen gegeben hat.

A100 hatte 64Fp32 und 64int32.
GA102 hat 64 FP32 UND 64 FP32/INT32 SHARED.
H100 hat 128Fp32 +64Int32.
Hopper hat also gleich 64 seperate fp32, statt SHARED fp/int units bekommen. Das ist schon mehr als Ga102. Wieso also nicht das gleiche bei lovelace, dazu Verdopplung load/store und 160-192 bit l1.

Das dachte ich anfangs anhand der Schaubilder auch. Aber das Problem sind die Warp Scheduler. Von denen gibt nur 4 mit jeweils 32 Threads. Deshalb können maximal 128 Einheiten gleichzeitig arbeiten d.h. Hopper kann genauso wie Ampere nicht die 128 FP32 + 64 INT gleichzeitig nutzen.

AffenJack

2022-05-02, 11:25:18

Das dachte ich anfangs anhand der Schaubilder auch. Aber das Problem sind die Warp Scheduler. Von denen gibt nur 4 mit jeweils 32 Threads. Deshalb können maximal 128 Einheiten gleichzeitig arbeiten d.h. Hopper kann genauso wie Ampere nicht die 128 FP32 + 64 INT gleichzeitig nutzen.

Wozu gibt man Hopper dann aber beides und nimmt nicht die Ampere Lösung?

I must clarify that the current AD102 is NOT the original AD102. Ada Lovelace is no longer a simple Ampere refresh, although it was like this in the beginning.

Sollen jetzt mehr als die von ihm vorher genannten 2,2x ga102 werden, wegen Architekturverbesserungen. Von Aussagen, das die Architektur jetzt doch anders ist halte ich nix. Das ist schon lange geplant.

Dampf

2022-05-02, 11:35:21

Dieses Thema hatten wir doch schon erst kürzlich;) Also nix mehr unter 12GB bei 1440p und Aufwärts - langfristig (in 2-3 Jahren) könnten wohl auch 12GB nicht mehr genug sein... herausfinden werden wir das erst, wenn die ersten *wirklichen* NextGen-Spiele rauskommen, die das Potential der PS5/XSX richtig ausnutzen und ob DirectStorage/SFS bis dahin schon in die Gänge gekommen ist.

Also entweder GA104 (= 4070/Ti) mit 12GB Grafikspeicher @ 192Bit Anbindung oder, wenn du wirklich auf Nummer sicher gehen willst, GA103 (= 4080) mit 16GB VRAM @ 256Bit Anbindung.

R2

Für schlecht optimierte PS5 Spiele könnten sich Karten jenseits der 8 GB schon lohnen. Man weiß halt nicht wirklich, wie es um die Speicherzuteilung bei der PS5 steht. Mit 12 GB + dürfte man in jedem Fall auf der sicheren Seite sein.

Was Xbox Titel angeht so bin ich nach wie vor überzeugt davon, dass 8-10 GB in 4K reichen werden, zumindest auf Konsolen-Äquivalenten Texturen - weil der GPU optimierte Speicher der Series X 10 GB beträgt. CPU intensive Games werden sich allerdings kaum mit 3.5 GB DRAM zufrieden geben, von daher dürften rund 8 GB das sein, was die Series X als Videospeicher anpeilt. Sieht man auch an der Matrix Demo, die darauf optimiert wurde und rund 7 GB in 4K beansprucht. Ich denke nicht, dass die Unterschiede in der Texturqualität zwischen Xbox Series X und PC großartig auffallend sein werden.

Sollen jetzt mehr als die von ihm vorher genannten 2,2x ga102 werden, wegen Architekturverbesserungen. Von Aussagen, das die Architektur jetzt doch anders ist halte ich nix. Das ist schon lange geplant.

Bin gespannt, das ist auch bitter nötig wenn man die RDNA3 Gerüchte bedenkt. Ob das den Leistungsdurst von Lovelace allerdings besänftigen kann? Ich roote derzeit eher für AMD, bin kein Fan von Brute-Force. Aber das stimmt mich doch hoffnungsvoll.

Thunder99

2022-05-02, 12:19:55

... Sieht man auch an der Matrix Demo, die darauf optimiert wurde und rund 7 GB in 4K beansprucht. Ich denke nicht, dass die Unterschiede in der Texturqualität zwischen Xbox Series X und PC großartig auffallend sein werden...

Es gibt Unterschiede die man bei der typischen Entfernung von der Couch zum TV nicht (wirklich) sieht. Konsole ist immer ein Kompromiss. Bohrt man die Grafik beim Port auf den PC nicht auf sieht es oftmals "kacke" aus :freak:

mksn7

2022-05-02, 12:29:50

A100 hatte 64Fp32 und 64int32.
GA102 hat 64 FP32 UND 64 FP32/INT32 SHARED.
H100 hat 128Fp32 +64Int32.
Hopper hat also gleich 64 seperate fp32, statt SHARED fp/int units bekommen. Das ist schon mehr als Ga102. Wieso also nicht das gleiche bei lovelace, dazu Verdopplung load/store und 160-192 bit l1.

Das dachte ich anfangs anhand der Schaubilder auch. Aber das Problem sind die Warp Scheduler. Von denen gibt nur 4 mit jeweils 32 Threads. Deshalb können maximal 128 Einheiten gleichzeitig arbeiten d.h. Hopper kann genauso wie Ampere nicht die 128 FP32 + 64 INT gleichzeitig nutzen.

Genau, so interpretier ich das auch. Letzendlich können wegen scheduling in zwei cycles entweder 2 FP32 Instruktionen oder 1 FP32 und 1 INT Instruktion bearbeitet werden.

NVIDIA malt das bei Hopper anders in die SM Schaubilder rein als bei GA, aber ob das so ist weil sonst kein Platz mehr war, oder ob die Implementierung wirklich anders ist, weiß man nicht. Es könnte schon sein dass es separate Recheneinheiten verbaut sind statt einer Kombieinheit, aber trotzdem sitzen die noch am gleichen Port.

Größenverhältnisse darf man natürlich gar nicht aus diesen Bildern lesen.

iamthebear

2022-05-02, 22:49:37

Eventuell hat es auch damit zu tun, dass die FP32 Einheiten von Hopper ja auch alle FP64 unterstützen müssen. Streng genommen bräuchte man dann ja FP64+FP32+FP16+INT Kombieinheiten, was wohl etwas zu viel des Guten sein dürfte.

mksn7

2022-05-03, 12:48:10

NVIDIA gibt immer an, dass die FP64 separat wären.

Obs stimmt, überlegt man schon seit Kepler.

Rampage 2

2022-05-03, 22:29:19

Also was wir bisher wissen ist:
.) GH100 hat eine Transistordichte von ca. 100 MTrans/mm in 4N. Bei Lovelace wird derselbe Prozess verwendet oder zumindest auf jeden Fall nichts Besseres.
.) Laut kopite hat AD102 70-80 Mrd. Transistoren.
.) semianalysis haben eine Schätzung von 611.3mm² abgegeben:
https://semianalysis.substack.com/p/nvidia-ada-lovelace-leaked-specifications?s=r
Das war aber glaube ich noch vor dem Tweet über die 70-80 Mrd. und spießt sich etwas. Da würde die Transistordichte deutlich höher liegen.
Falls die 611mm² stimmen sollten so kann das eigentlich nur von viel L2 Fläche kommen, was wiederrum bedeutet, dass es nicht viele IPC steigernde Maßnahmen in den SMs geben kann, was sich wieder etwas mit dem Performance Target von 2-2.2x bzw. dem Tweet von kopite über Änderungen an den 128FP/SM spießt.
Ich würde eher Richtung 700-800mm² tendieren.

Danke für die Info:smile:

Ich bin da etwas gemäßigter und gehe von folgenden Die-Größen für die einzelnen LL-Chips aus:

AD102: 650-700 mm^2
AD103: ~ 400 mm^2
AD104: ~ 300 mm^2

Es sei denn, die Architekturverbesserungen bzw. Maßnahmen zur Effizienzsteigerung (Realleistung pro TFLOP) und/oder die Maßnahmen für die Taktsteigerung erfordern ein noch größeres Transistorbudget;)

Ich kann das Konsolenargument schön langsam nicht mehr hören.

2013 kam die PS4 auf den Markt mit 8GB shared für CPU und GPU. Damals war die stärkste GPU des regulären Lineups die gerade frisch auf den Markt gekommene 780 Ti mit 3GB.
7 Jahre später (2020 bzw. Ende der Generation) war der reale VRAM Bedarf (nicht der angeforderte VRAM den die Tools anzeigen) bei den meisten Spielen in 4K Native ohne RT bei ca. 4-6GB. Mit 8GB war man überall safe siehe die 3070 vs. 2080 Ti Reviews wo es keine nennenswerten Einbrüche gab.

Im Jahr 2020 kam die PS5 auf den Markt mit 16GB geshared für CPU und GPU also das doppelte.

Nach dieser Argumentation:
.) Wären 6GB für die 3080 Ti mehr als genug
.) Im Jahr 2027 (in 5 Jahren) wird man mit 8-12GB VRAM noch in 8K Native durchkommen, mit 16GB ist man komplett safe

Man kann den VRAM Bedarf über viele Dinge argumentieren (RT, stark steigende Rechenleistung usw.) aber nicht mit Konsolen, denn der knappe VRAM auf Konsolen ist ein Argument dagegen.

Die PS5 hat aber:

1.) bis zu 13.5GB Shared-RAM für Spiele zur Verfügung, der Rest ist für OS/Benutzeroberfläche/Sonstiges reserviert. - Allein damit hat sie schon effektiv mehr Grafikspeicher als eine 3080 Ti.

2.) extrem schnelles SSD-Streaming + Kraken-Engine. Dadurch hat sie effektiv deutlich mehr als 13.5GB VRAM (20GB?, 30GB? oder gar mehr?) für Spiele zur Verfügung. Dasselbe gilt für die XSX.

Es ist also so:

Konsole: 13.5GB (PS5) RAM und SSD-Speicher zusätzlich.

PC: 11GB (3080 Ti; ca. 1GB für Windows reserviert) VRAM + DirectStorage falls ein Spiel es überhaupt unterstützt. Ansonsten nur 11GB VRAM effektiv.

Jetzt stell dir vor, ein PS5-Spiel welches die 13.5GB Speicherbudget voll ausnutzt und zusätzlich noch SSD-Streaming verwendet, wird zum PC portiert und auf dem PC unterstützt es aber kein DirectStorage/SFS:freak:

Sorry war etwas blöd formuliert. Meinte eigentlich die 4 warp Scheduler. Falls diese z.B. 6 erhöht werden, dann müsste man doch 128FP + 64INT auslasten können.

Einerseits wollte ich das fragen (mehr Warp-Scheduler oder mehr Threads pro Warp-Scheduler möglich?) und zweitens wie sieht es mit der SM-Granularität von Ampere aus? Also wenn z.B. 15, 31 oder 63 INT-Ops anstehen?

Etwa so:

15 INT-Ops = 113 Recheneinheiten bzw. 113 FLOPs frei (voll granular)

oder so:

15 INT-Ops = 64 Recheneinheiten bzw. FLOPs frei (Null granular weil 64er-Block; die restlichen 49 Recheneinheiten vom 2. Datenpfad sind idle und machen nichts)

15 INT-Ops = 96 oder 112 Recheneinheiten/FLOPs frei, die restlichen idle (teilweise granular; der 2. Datenpfad ist in 32er- oder 16er-Blöcke unterteilt)

R2

=Floi=

2022-05-04, 02:49:57

13.5GB VRAM (20GB?, 30GB? oder gar mehr?)

Wie kommst du darauf, dass es so viel bringt?
Es kommt sicherlich auf das spiel an, aber in der vergangenheit gab es genug games wo streaming nur murks war. Es ist und bleibt langsam und am ende kann man froh sein, wenn es oft bis 16gb skaliert.

robbitop

2022-05-04, 06:15:16

Einerseits wollte ich das fragen (mehr Warp-Scheduler oder mehr Threads pro Warp-Scheduler möglich?) und zweitens wie sieht es mit der SM-Granularität von Ampere aus? Also wenn z.B. 15, 31 oder 63 INT-Ops anstehen?

Etwa so:

15 INT-Ops = 113 Recheneinheiten bzw. 113 FLOPs frei (voll granular)

oder so:

15 INT-Ops = 64 Recheneinheiten bzw. FLOPs frei (Null granular weil 64er-Block; die restlichen 49 Recheneinheiten vom 2. Datenpfad sind idle und machen nichts)

15 INT-Ops = 96 oder 112 Recheneinheiten/FLOPs frei, die restlichen idle (teilweise granular; der 2. Datenpfad ist in 32er- oder 16er-Blöcke unterteilt)

R2
Warp size ist 32. Also kommen immer 32er Blöcke an Instruktionen rein.

Gipsel

2022-05-04, 07:33:41

Warp size ist 32. Also kommen immer 32er Blöcke an Instruktionen rein.Es hilft ungemein, sich zu vergegenwärtigen, daß die "Threads" bei GPUs quasi wenig mehr als die Elemente eines Vektors für eine breite SIMD-Einheit darstellen. Es gibt genau einen SIMD-Befehl, der für alle Slots/Elemente eines Vektor ausgeführt wird (ähnlich wie eine AVX-Instruktion). Im CPU-Land würde man eher die Warps/Wavefront als Threads bezeichnen. Bei AMD ist das auch recht explizit so benannt (mit den SIMD-Einheiten schon zu VLIW-Zeiten und auch bei GCN/RDNA mit den getrennten Vektor- und Skalarinstruktionen in der ISA). Und bei nV ist das (implizit) auch nicht anders, egal wie die das nennen.

Wuge

2022-05-04, 12:58:36

Das interessiert mich auch... also ein SM hat X Warp sheduler (=x unterschiedliche Instruktionen möglich) die auf jeweils Y cuda cores (je ein Vektor je core) ausgeführt werden. X*Y ist die Anzahl cuda cores je SM?!?

Also wenn wir 4 warp sheduler und 128 cuda cores je SM haben, kann das SM 128 datenwerte bearbeiten mit einer maximalen Granularität von 4 verschiedenen Instruktionen auf jeweils 32 Werte?!?

Gipsel

2022-05-04, 13:10:43

Das interessiert mich auch... also ein SM hat X Warp sheduler (=x unterschiedliche Instruktionen möglich) die auf jeweils Y cuda cores (je ein Vektor je core) ausgeführt werden. X*Y ist die Anzahl cuda cores je SM?!?

Also wenn wir 4 warp sheduler und 128 cuda cores je SM haben, kann das SM 128 datenwerte bearbeiten mit einer maximalen Granularität von 4 verschiedenen Instruktionen auf jeweils 32 Werte?!?Ja.
Als Verkomplizierung gab es auch schon in der Vergangenheit "dual issue" Warp Scheduler, die bis zu zwei voneinander unabhängige Instruktionen (mußten zu einem Warp [also einem Thread in CPU-Sprech] gehören) absetzen konnten. So kann man mehr SIMD-Einheiten hinter die gleiche Anzahl von Schedulern hängen (Scheduler werden aufwendiger, dafür hat man mehr theoretische Rechenleistung pro SM).
Bei GCN und RDNA können jeweils eine Vektor- und Skalar-Instruktion (plus noch bestimmte Speicheroperationen) parallel abgesetzt werden.

Ailuros

2022-05-04, 13:18:48

Damit die Auslastung durch die Erweiterung der SIMD Breite nicht leidet, haben sie ein paar wichtige Einzelheiten in der Bearbeitung bzw. Synchronisierung von threads geaendert. Ich weiss zwar noch nicht ob alles in zukuenftigen whitepapers erwaehnt wird, aber ich glaube es steht nicht alles in den Hopper relativen whitepaper/blogs drin.

robbitop

2022-05-04, 14:39:57

G80/200 war IIRC noch granularer. Das war SIMT. So weit ich das verstanden habe, konnten die damaligen SMs pro warp auch nur eine Instruktion für 24 (G80) / 32 (G200) absetzen - aber die einzelne Werte konnten aus mehreren Threads vorher zusammen gesetzt werden. Das trieb die Auslastung hoch. IIRC geht das mit SIMD nicht mehr und man muss "hoffen" die Warps immer füllen zu können. Mit einer warp size von 32 scheint das aber ziemlich nah am sweetspot zu liegen.

Gipsel

2022-05-04, 15:21:45

G80/200 war IIRC noch granularer. Das war SIMT. So weit ich das verstanden habe, konnten die damaligen SMs pro warp auch nur eine Instruktion für 24 (G80) / 32 (G200) absetzen - aber die einzelne Werte konnten aus mehreren Threads vorher zusammen gesetzt werden. Das trieb die Auslastung hoch. IIRC geht das mit SIMD nicht mehr und man muss "hoffen" die Warps immer füllen zu können. Mit einer warp size von 32 scheint das aber ziemlich nah am sweetspot zu liegen.Das geht heute natürlich auch (bei GPUs aller Hersteller) und ist am Ende nur die Maskierung von einzelnen Slots des Vektors. Das kann z.B. AVX512 auch. ;)
Das Konvergieren von "kohärenten" Elementen mehrerer Warps/Wavefront aus mehreren zur Erhöhung der Performance bei Kontrollfluss wurde zwar mal spekuliert, aber nie umgesetzt.

Ailuros

2022-05-04, 17:35:47

Das Konvergieren von "kohärenten" Elementen mehrerer Warps/Wavefront aus mehreren zur Erhöhung der Performance bei Kontrollfluss wurde zwar mal spekuliert, aber nie umgesetzt.

Vielleicht ist es langsam Zeit dafuer?

HPVD

2022-05-05, 10:40:42

1. Double the subcore to improve 2*FP32 efficiency.
2. There is 4*FP32 expansion space.
That's my thought about ADA.

Quelle: https://twitter.com/kopite7kimi/status/1522064659976663040

mksn7

2022-05-05, 11:38:39

Quelle: https://twitter.com/kopite7kimi/status/1522064659976663040

Das einzige was dabei nicht skaliert ist die Anbindung an den Rest der GPU (L2 cache Bandbreite), texture units, L1 cache, und RT cores.

Ein geringeres texture unit ratio ist vielleicht gewollt, das hat ja in der Vergangenheit kontinuierlich abgenommen, weil der instruction mix sich entsprechend geändert hat. Bei der L1 cache Bandbreite unf Größe könnte man auf das Niveau von V100/A100 erhöhen, und hätte dan wieder das gleiche ratio. RT cores werden vielleicht aufgebohrt oder sowieso prinzipiell geändert?

Die Registermenge und Bandbreite würde einfach mitskalieren, das ist sowieso separat per quadrant.

In der Vergangenheit hat NVIDIA mal den Schritt hin zu kleineren SMs gemacht (Maxwell -> Pascal? Ich glaube da wurden die SMs mal halbiert), es scheint also auch Gründe für kleinere SMs zu geben.

Dovregubben

2022-05-05, 12:54:54

RT cores werden vielleicht aufgebohrt oder sowieso prinzipiell geändert?
Eigentlich werden die RTCores bei beiden Herstellern die interessanteste Baustelle. Für Non-RT Spiele werden die Karten ohnehin alle schnell genug sein.
Nvidia kann da einfach Brute Force die Leistung erhöhen oder noch ein Raysorting einbauen, um koherente Strahlen zu bearbeiten. Die Frage ist allerdings noch, ob die Strahlen bei den aktuellen 0,x Strahlen pro Pixel überhaupt ausreichend koherent sind damit sich der Aufwand lohnt.

robbitop

2022-05-05, 13:59:11

Quelle: 1. Double the subcore to improve 2*FP32 efficiency.
2. There is 4*FP32 expansion space.
That's my thought about ADA.

Quelle: https://twitter.com/kopite7kimi/status/1522064659976663040
Klingt als wenn man Register und Schedulerresourcen nun hochskaliert hat damit die SMs in der Praxis (analog zu Pascal) bessere Auslastung bekommen. :)

w0mbat

2022-05-05, 15:02:02

MLID mutmaßt, dass auch Lovelace auf "4N" basiert und dahinter in Wahrheit N4X steckt.

=Floi=

2022-05-05, 15:10:35

Bei CB labert man auch von N4. Ich kann es immer noch nicht glauben und irgendwo stand ja offiziell was dazu.

vinacis_vivids

2022-05-05, 15:27:56

4N und ~800mm² Silizium. Das entspricht so Apple M1 Ultra 5N mit 840mm²

GA102 ist derzeit bei 628mm² und kostet ~2200€

Sollte ein solcher ~800mm² 4N Chip von Nvidia kommen, kostet die Grafikkarte dann schätzungsweise ~4000-4500€

Nur so kann Nvidia die Marge halten und sich weiterhin teuer bei TSMC einkaufen. Das passt übrigens perfekt zur Big-Ego-Lederjacke, der immer den größten haben will.

Man sieht wieder, dass die Welt zu sehr abhängig ist von TSMC. Hoffe es tut sich in Europa mal etwas, was Herstellen von Halbleiter angeht.

The_Invisible

2022-05-05, 15:28:27

Eigentlich werden die RTCores bei beiden Herstellern die interessanteste Baustelle. Für Non-RT Spiele werden die Karten ohnehin alle schnell genug sein.
Nvidia kann da einfach Brute Force die Leistung erhöhen oder noch ein Raysorting einbauen, um koherente Strahlen zu bearbeiten. Die Frage ist allerdings noch, ob die Strahlen bei den aktuellen 0,x Strahlen pro Pixel überhaupt ausreichend koherent sind damit sich der Aufwand lohnt.

Da erwarte ich mir auch viel, hoffe mal das die RT Performance viel stärker zulegt als die Allgemeinperformance. Ich will CP2077 in 4k/60/max nativ sehen :D

HOT

2022-05-05, 17:20:49

Bekommt das mal klar, NV sagt dazu 4N, die TSMC-Prozesse heißen aber N5 und N4 ;). Hopper hat nur ne Packdichte von knapp 100mio Trans/mm². Das ist sowas von HPC, also nicht vergleichbar mit AM100. NV wird diesen Prozess sehr sicher für alle Produkte dieser Generation verwenden (es sei denn man will kleinere Chips weiterhin bei Samsung fertigen, was durchaus auch sein kann).

BlacKi

2022-05-05, 17:30:49

Bekommt das mal klar, NV sagt dazu 4N, die TSMC-Prozesse heißen aber N5 und N4 ;). Hopper hat nur ne Packdichte von knapp 100mio Trans/mm². Das ist sowas von HPC, also nicht vergleichbar mit AM100. NV wird diesen Prozess sehr sicher für alle Produkte dieser Generation verwenden (es sei denn man will kleinere Chips weiterhin bei Samsung fertigen, was durchaus auch sein kann).
4n ist doch ein angepasster n5 prozess.

https://twitter.com/Sebasti66855537/status/1518491947329019904?ref_src=twsrc%5Etfw%7Ctwcamp%5Etweetembed%7Ctwterm%5E1518534 351239081984%7Ctwgr%5E%7Ctwcon%5Es2_&ref_url=https%3A%2F%2Fwww.hardwaretimes.com%2Fnvidia-and-amd-to-use-custom-versions-of-tsmc-5nm-process-for-rtx-4080-4090-and-rx-7800-xt-7900-xt-report%2F

was nicht heißt, das 4n = n5 ist.

Meine güte, mir ging halt diese Kraut und Rüben auf den Keks . Die Belehrung kannst auch lassen.
beißreflex bitte stecken lassen, das war nur eine ergänzung.

4N und ~800mm² Silizium. Das entspricht so Apple M1 Ultra 5N mit 840mm²

GA102 ist derzeit bei 628mm² und kostet ~2200€

Sollte ein solcher ~800mm² 4N Chip von Nvidia kommen, kostet die Grafikkarte dann schätzungsweise ~4000-4500€

Nur so kann Nvidia die Marge halten und sich weiterhin teuer bei TSMC einkaufen. Das passt übrigens perfekt zur Big-Ego-Lederjacke, der immer den größten haben will.

Man sieht wieder, dass die Welt zu sehr abhängig ist von TSMC. Hoffe es tut sich in Europa mal etwas, was Herstellen von Halbleiter angeht.
naja, viel haben die karten doch schon immer bei nv gekostet. also die full chip hpc karten. abfall geht anfangs wie immer vergünstigt in den gaming markt. auch wenn klar sein dürfte, das die kommenden produkte von nv preislich steigen werden. 2000-2500$ halte ich für die zu anfang schnellste karte für realistisch. dann kann man sagen das man die 3090ti um 90% schlägt und das zum selben preis. sowas in der art.

HOT

2022-05-05, 17:33:00

Meine güte, mir ging halt diese Kraut und Rüben auf den Keks :freak:. Die Belehrung kannst auch lassen.

davidzo

2022-05-05, 18:23:49

4N und ~800mm² Silizium. Das entspricht so Apple M1 Ultra 5N mit 840mm²

Ja, die Density ist noch einen Tick geringer als beim M1 Ultra. Das sind nämlich 114Mrd Transistoren.
Und schlecht skalierenden Analogkram hat der M1 Ultra reichlich, man nehme mal die gesamten SOC i/o bereiche die doppelt vorhanden sind, die Pillars und Ansteuerung für das Die to Die interface, System level cache etc. - Der Logikanteil ist bei einem monolithischen Compute-Chip wie Hopper wahrscheinlich höher.

Spricht eher für N5(P) als Basis als N4.

Troyan

2022-05-05, 18:40:33

Bilder von Hopper: https://www.servethehome.com/checking-out-the-nvidia-h100-in-our-first-look-at-hopper/

BlacKi

2022-05-05, 19:08:37

Engineer1: We need more VRM!
Enginieer2: How much more?
Engineer1: Yes!

The_Invisible

2022-05-05, 19:29:59

Quelle: https://twitter.com/kopite7kimi/status/1522064659976663040

Unten schreibt er bis zu 200TFLOPS WTF :freak:

iamthebear

2022-05-05, 21:37:46

Aber wenn man sich seine Designideen ansteht so läuft es eher auf 100 TFlop aber eigene INT Einheiten hinaus (die dann auch parallel arbeiten können).

Trotzdem:

Mit 12 statt 7 GPCs und 2.6-2.7 statt 2-2.1GHz wären wir schon auf 2.2x theoretischer Performance.
Falls es Nvidia dann noch schafft, dass die FP Einheiten nicht mehr mit INT beschäftigt sind während wir schon in der Gegend von 3x.

Das heißt natürlich nichts, dass dabei auch die 3 fache Framerate heraus kommt. Das wird sehr stark von der Auflösung (4K ist hier schon wenig) bzw. Qualitätseinstellungen ankommen.

3x würde aber bedeuten, dass 4K in etwa so läuft wie 1080p jetzt bzw. 8K so wie 4K jetzt.
Ich denke AD102 wird also die erste Karte sein, die man wirklich als RT tauglich bezeichnen kann.

Platos

2022-05-05, 23:51:17

Du vergisst nur leider, dass die Spiele mit der Zeit auch anfordernder werden. Egal um welchen Faktor es sich nun handelt.

Rampage 2

2022-05-06, 00:51:05

Trotzdem:

Mit 12 statt 7 GPCs und 2.6-2.7 statt 2-2.1GHz wären wir schon auf 2.2x theoretischer Performance.
Falls es Nvidia dann noch schafft, dass die FP Einheiten nicht mehr mit INT beschäftigt sind während wir schon in der Gegend von 3x.

Das heißt natürlich nichts, dass dabei auch die 3 fache Framerate heraus kommt. Das wird sehr stark von der Auflösung (4K ist hier schon wenig) bzw. Qualitätseinstellungen ankommen.

Mir wäre es viel lieber (als die am Ende herauskommende Realleistung), dass zum Einen die SMs voll ausgelastet werden können (also die bei Ampere bestehenden Flaschenhälse - Scheduler, Warps oder Threads pro Warp, Registergröße und -bandbreite, weniger/zu wenig Kontrollogik - mit LL ausgebügelt werden) und zum Anderen die Auslastung/Effizienz in niedrigeren Auflösungen wie 1440p nicht mehr sinkt. Nicht Jeder zockt in 4K... möglicherweise eine absolute Mehrheit zockt in Auflösungen dadrunter.

R2

Ailuros

2022-05-06, 08:43:45

Engineer1: We need more VRM!
Enginieer2: How much more?
Engineer1: Yes!

;D

basix

2022-05-06, 09:37:33

Mir wäre es viel lieber (als die am Ende herauskommende Realleistung), dass zum Einen die SMs voll ausgelastet werden können (also die bei Ampere bestehenden Flaschenhälse - Scheduler, Warps oder Threads pro Warp, Registergröße und -bandbreite, weniger/zu wenig Kontrollogik - mit LL ausgebügelt werden) und zum Anderen die Auslastung/Effizienz in niedrigeren Auflösungen wie 1440p nicht mehr sinkt. Nicht Jeder zockt in 4K... möglicherweise eine absolute Mehrheit zockt in Auflösungen dadrunter.

R2

Dem würde ich zustimmen. Rohleistung hätte man genug. Bei 80-100 TFLOPs sind das 5-6x mehr wie bei einer 2080 Ti. Bringt Lovelace die Perf/Flop von Turing hin, wäre man 3-4x schneller als eine 3090 :freak:

Das ginge aber nur, wenn FP+INT in den SM-Pipes wieder etwas entkoppelt werden. Varianten:
- FP + FP + INT
- FP + FP + FP/INT

Letztere würde ich präferieren. Wäre Ampere +1x FP32-Pipe pro Shader Core.

WedgeAntilles

2022-05-06, 10:42:44

Nicht Jeder zockt in 4K... möglicherweise eine absolute Mehrheit zockt in Auflösungen dadrunter.

Nicht nur möglicherweise - das ist definitiv so.
4K ist eine SEHR kleine Minderheit ist bei 4k. Unter 10%.
Die große Masse ist bei FullHD. Bei Steam sind das ca. 2/3 der User.

Weswegen eben auch der Horror (oder meist eher: Wunschtraum) dass alle Karten bei Nvidia plötzlich 350W, 450W... brauchen sollen unglaubwürdig ist.
Für FullHD braucht es keine 2 bis 3-fache Leistung die mit riesigen Stromverbräuchen erkauft werden.

Im Spitzenbereich ist das möglich - eine 4090 die 600W braucht, dafür weit schneller als eine 4070 ist (und auch 2000 Euro+, vielleicht sogar 3000 Euro+ kostet) - gut möglich.
Aber 4060 und 4070 Karten sind weitgehend bei FullHD + WQHD im Einsatz, da braucht man nicht ins Extreme zu gehen.

Neurosphere

2022-05-06, 11:20:37

Nicht nur möglicherweise - das ist definitiv so.
4K ist eine SEHR kleine Minderheit ist bei 4k. Unter 10%.
Die große Masse ist bei FullHD. Bei Steam sind das ca. 2/3 der User.

Weswegen eben auch der Horror (oder meist eher: Wunschtraum) dass alle Karten bei Nvidia plötzlich 350W, 450W... brauchen sollen unglaubwürdig ist.
Für FullHD braucht es keine 2 bis 3-fache Leistung die mit riesigen Stromverbräuchen erkauft werden.

Im Spitzenbereich ist das möglich - eine 4090 die 600W braucht, dafür weit schneller als eine 4070 ist (und auch 2000 Euro+, vielleicht sogar 3000 Euro+ kostet) - gut möglich.
Aber 4060 und 4070 Karten sind weitgehend bei FullHD + WQHD im Einsatz, da braucht man nicht ins Extreme zu gehen.

Das ist aber weniger ein Argument gegen den Stromverbrauch der großen Karten als das die Leute sie für geringe Auflösungen schlicht nicht brauchen.

Anders herum kann man argumentieren das einen Großteil der Nutzer der Stromverbrauch der Overkill Karten nicht interessiert weil sie eh die kleineren Modelle kaufen. Das weiß auch NV, wer viel Geld für 4K Hardware hinlegte interessiert sich auch nicht so für den Stromverbrauch.

WedgeAntilles

2022-05-06, 11:28:41

Das ist aber weniger ein Argument gegen den Stromverbrauch der großen Karten als das die Leute sie für geringe Auflösungen schlicht nicht brauchen.

Anders herum kann man argumentieren das einen Großteil der Nutzer der Stromverbrauch der Overkill Karten nicht interessiert weil sie eh die kleineren Modelle kaufen. Das weiß auch NV, wer viel Geld für 4K Hardware hinlegte interessiert sich auch nicht so für den Stromverbrauch.
So hatte ich das gemeint, mich nur etwas umständlich ausgedrückt.

Riesige Stromverbräuche für 4090? Gut möglich
Riesige Stromverbräuche für 4060/4070? Finde ich unwahrscheinlich.

Das würde IMO ziemlich gut passen - wie du sagst, wer unbedingt das beste (und teuerste) haben will, wird auch eher weniger ein Problem mit dem Stromverbrauch haben. (Wobei die Kühlung und Abwärme natürlich auch dann noch der springende Punkt ist.)

Und gleichzeitig sorgt man auch noch für eine größere Leistungs-Differenz zwischen einer z.B. 4060/4070 und einer 4090. Bei Preisen einer 4090 von schätzungsweise 2k aufwärts auch nicht unbedingt ein Fehler, wenn sich eine solche Karte noch etwas mehr vom "Rest" absetzen kann.

Noch ca. 6 Monate, dann wissen wir es^^

The_Invisible

2022-05-06, 12:08:35

Geil wäre ja eine 4080 mit so 300W, min 1,5x Performance von 3090Ti (für RT min 2x), 16GB und die im SweetSpot läuft. Aja und für so 700 - 800 EUR :D

Dural

2022-05-06, 14:08:34

Woche 53!?! :confused:

basix

2022-05-06, 14:36:27

Nicht nur möglicherweise - das ist definitiv so.
4K ist eine SEHR kleine Minderheit ist bei 4k. Unter 10%.
Die große Masse ist bei FullHD. Bei Steam sind das ca. 2/3 der User.

Die grosse Masse bei Steam sind Notebooks....

Am Desktop bin ich überzeugt, dass mittlerweile >50% 1440p aufwärts besitzen. Wer öfters mal ein Spiel anwirft vermutlich noch mehr. Selbst für Büroanwendungen ist 1440p ein grosser Fortschritt gegenüber 1080p.

4K (Output) ist zudem eigentlich bereits an anderem Ort Standard geworden: Konsolen. Am PC muss man halt eine stärkere GPU haben und/oder ein paar Settings zurückdrehen. Und wer heute einen neuen Monitor kauft, wird vermutlich >90% 4K oder 1440p wählen. 1440p Monitore sind sehr günstig geworden, auch mit 120Hz oder mehr.

Und dann gibt es noch Dinge wie DLSS, FSR und XeSS. Da wird man auch höhere Auflösungen befeuern können. Interessanterweise ist Temporal Upsampling für mich aber der grösste Grund, dass GPUs auch bei kleinen Auflösungen gut ausgelastet werden sollten. Beispielsweise 4K DLSS Performance rendert in 1080p. Oder man geht halt auf 8K DLSS Performance :D

BlacKi

2022-05-06, 14:52:22

So hatte ich das gemeint, mich nur etwas umständlich ausgedrückt.

Riesige Stromverbräuche für 4090? Gut möglich
Riesige Stromverbräuche für 4060/4070? Finde ich unwahrscheinlich.

Das würde IMO ziemlich gut passen - wie du sagst, wer unbedingt das beste (und teuerste) haben will, wird auch eher weniger ein Problem mit dem Stromverbrauch haben. (Wobei die Kühlung und Abwärme natürlich auch dann noch der springende Punkt ist.)

Und gleichzeitig sorgt man auch noch für eine größere Leistungs-Differenz zwischen einer z.B. 4060/4070 und einer 4090. Bei Preisen einer 4090 von schätzungsweise 2k aufwärts auch nicht unbedingt ein Fehler, wenn sich eine solche Karte noch etwas mehr vom "Rest" absetzen kann.

Noch ca. 6 Monate, dann wissen wir es^^

wir werden schon in knapp 4 monaten bescheid wissen. im oktober dann die unabhängigen reviews. kann sein das die 4070 im nov-dez. kommt. aber im sept. dürften die verbräuche der ad serie gut abschätzbar sein.

ich glaube nicht das die karten gpu limitiert weniger verbrauchen werden als das powerlimit hergibt. mit undervolting ja, ohne werden die karten auch ihren verbrauch haben. also die große karte wird sicher nicht nur avg 500w verbrauchen wenn sie ein 600w tdp limit hat.

ich glaube sogar, das die großen custom OC modelle wirklich in richtung 850w+ gehen werden.

ähnlich wirds bei der 4070 sein, custom karten mit knapp 400w tdp limit.

wenigstens scheint man nun die spikes im griff zu haben wie die 3090ti zeigt.

Thunder99

2022-05-06, 14:53:07

Geil wäre ja eine 4080 mit so 300W, min 1,5x Performance von 3090Ti (für RT min 2x), 16GB und die im SweetSpot läuft. Aja und für so 700 - 800 EUR :D
Das wäre ein Traum :love2:

AD103 erwarte ich schon bei 84SM abzüglich der normalen SM Reduzierung höhere Geschwindigkeit und niedrigeren Verbrauch als ein GA102 (non Ti)

ShinyMcShine

2022-05-06, 14:56:07

Geil wäre ja eine 4080 mit so 300W, min 1,5x Performance von 3090Ti (für RT min 2x), 16GB und die im SweetSpot läuft. Aja und für so 700 - 800 EUR :D

Gekauft! :D

WedgeAntilles

2022-05-06, 15:08:48

Die grosse Masse bei Steam sind Notebooks....

Am Desktop bin ich überzeugt, dass mittlerweile >50% 1440p aufwärts besitzen. Wer öfters mal ein Spiel anwirft vermutlich noch mehr. Selbst für Büroanwendungen ist 1440p ein grosser Fortschritt gegenüber 1080p.

4K (Output) ist zudem eigentlich bereits an anderem Ort Standard geworden: Konsolen. Am PC muss man halt eine stärkere GPU haben und/oder ein paar Settings zurückdrehen. Und wer heute einen neuen Monitor kauft, wird vermutlich >90% 4K oder 1440p wählen. 1440p Monitore sind sehr günstig geworden, auch mit 120Hz oder mehr.
:D

Sehr gute Punkte, danke!

ChaosTM

2022-05-06, 15:38:13

Geil wäre ja eine 4080 mit so 300W, min 1,5x Performance von 3090Ti (für RT min 2x), 16GB und die im SweetSpot läuft. Aja und für so 700 - 800 EUR :D

Das wäre auch genau meine Karte. 300W ist meine persönliche Schmerzgrenze - u.a. weil ich das NT nicht wechseln will. ;)
Von welcher Firma wäre mir aber egal, sollten Lisas Leute was DLSS vergleichbares zusammenbringen. Sonst wird es wohl wieder NV.

TheAntitheist

2022-05-06, 18:39:32

Ich habe mal 2 Quellen mit Umfragen zur Auflösung der gamer rausgesucht:

Gamestar 08.2021: https://www.gamestar.de/umfragen/in-welcher-aufloesung-spielt-ihr,22686.html

1080p: 50%
1440p: 23%
3440x1440: 7%
4k: 10%

PCGH: 03.2021: https://www.pcgameshardware.de/Umfrage-Thema-136900/News/Aufloesung-1367845/
1080p: 16%
1440p: 41%
3440x1440: 15%
4K: 15%

Die casuals sind anscheinend noch mehrheitlich bei 1080p, die etwas ambitionierteren sind bereits bei WQHD+. Da die Umfragen schon etwas älter sind würde ich jetzt aber schon davon ausgehen das die Mehrheit bereits 1440p und höher nutzt.

iamthebear

2022-05-06, 20:06:50

Mag sein, dass ein Großteil der Kunden noch 1080p Monitore haben aber das ist großteils irrelevant. Diese haben sowieso keinen Bedarf für High End GPUs.

Nvidia bietet ja die gsamte Bandbreite von 800mm² Monster bis runter zu 150mm² Budgetkarten alles an.

Wichtig ist in erster Linie, dass die Karten auf die Auflösungen optimiert sind mit denen sie in der Regel betrieben werden. Es macht wenig Sinn AD102 auf 1080p zu optimieren. Ob man nun 200fps oder 300fps in 1080p hat ist vollkommen egal.
AD102 muss gut in 4K+RT sein oder so Dingen wie DLDSR
Bei AD107 hingegen ist es wichtig, dass man 1080p oder eventuell 1440p flüssig darstellen kann bzw. dass Upscaling mit DLSS gut funktioniert. Dafür ist RT wieder egal, denn dafür reicht die Performance sowieso nicht.

Nach diesen Anforderungen muss dann z.B. auch der VRAM bemessen werden.

Wenn der Bedarf nach hohen Auflösungen gar nicht da ist, dann muss man diesen erst schaffen indem man für entsprechende Displays am Markt sorgt z.B. indem man ein paar TV Hersteller dazu überredet ihre Geräte GSync kompatibel zu machen bzw. vielleicht auch mal eine Stufe kleiner aufzulegen. Dann gibt es ein paar 4K 48" Displays mehr auf dem Schreibtisch und schwupps ist schon wieder Bedarf nach einer etwas potenteren GPU da.

Platos

2022-05-06, 20:24:04

Bei Monitoren liegt das m.M.n auch daran, dass viele einfach abzocke sind. Bei TVs ist das zum Glück ganz anders (bis zu einem gewissen Grad. Premium-Geräte haben natürlich auch ihren Premiumpreis).

Platos

2022-05-08, 01:31:56

Bekommt das mal klar, NV sagt dazu 4N, die TSMC-Prozesse heißen aber N5 und N4 ;). Hopper hat nur ne Packdichte von knapp 100mio Trans/mm². Das ist sowas von HPC, also nicht vergleichbar mit AM100. NV wird diesen Prozess sehr sicher für alle Produkte dieser Generation verwenden (es sei denn man will kleinere Chips weiterhin bei Samsung fertigen, was durchaus auch sein kann).

Das mit Samsung wäre eig. sinnvoll. Schliesslich kann man so das Auftragsvolumen erhöhen. Die kleinen Karten kommen ja eh später, da spielt es auch keine so grosse Rolle, falls Samsung etwas hinterher ist. Natürlich müsste man von 8nm Samsung weg, sonst wäre die Effizienz schlecht. Mindestens die 50-er könnte man so fertigen. Für 50- und 60-er fehlt evtl. Samsung die Wafermenge.

Eig. wäre es ziemlich schlecht, wenn nvidia komplett von Samsung weg geht. Förderung vom Quasi-Monopol TSMC ist jetzt nichts, was man will.

Thunder99

2022-05-08, 12:55:23

Die Anzahl der Nutzer für 4k wird anscheinend noch massiv überschätzt. Hier im Forum sind viele auf 4k+ unterwegs aber das Groß wird auf 1080p- 1440p bzw die UW Screen sein.

Als Beispiel hab seit gefühlten Ewigkeiten einen 27" 1440p 144Hz GSync Monitor. Würdiger Nachfolger im akzeptablen Preisbereich gibt es nicht.
Upscaling auf 4-5k mache ich bei älteren Spielen, daher auch mehrheitlich immer eine Mittelklasse bis High End im Rechner (970 -> R290X -> 1070 -> 1080Ti). Karte kann ich immer Auslasten wenn ich will :D.
VRAM ist aber dennoch wichtig um Reserven zu haben. Daher wird auch die nächste Karte >11GB besitzen müssen :wink:

Ex3cut3r

2022-05-08, 14:41:56

Natürlich gibt es heut zu Tage bessere 1440p Monitor mit mehr HZ, besseren Reaktionszeiten, 10 Bit (8+FRC) und VRR. Für grade 300 Steine.

https://geizhals.de/lg-ultragear-27gp850-b-a2511796.html
https://geizhals.de/lg-ultragear-27gn800-b-a2466397.html?hloc=at&hloc=de
https://geizhals.de/samsung-odyssey-g7-c27g73tqsr-c27g74tqsr-c27g75tqsr-lc27g73tqsrxen-lc27g74tqsrxzg-lc27g75tqsrxen-a2498642.html?hloc=at&hloc=de

Du hast 2016 für deinen bestimmt 600-700€ gezahlt? Wenn man 1440p sei einigen Jahren hat, wurde man doch sowieso auf 32" mit 4K wechseln.

ChaosTM

2022-05-08, 14:43:24

Ja gibt recht günstige, aber meist mit scheußlich schimmernden billig IPS Panels.

Ex3cut3r

2022-05-08, 14:49:06

Seiner (AOC AG271QG)ist auch natürlich auch IPS. :biggrin:

Ist ja ok, wenn man mit seiner 1080 Ti + Monitor aus 2016 zufrieden ist. Prima. Aber bitte nicht sowas erzählen, dass sich angeblich nichts weiter entwickelt hat.

ChaosTM

2022-05-08, 14:59:29

Sie wurden schneller ja, aber die grundsätzlichen Probleme bleiben bestehen oder müssen mit riesigem Aufwand, sprich hunderten Dimming Zonen abgemildert werden, was sie dann noch teurer als OLEDS macht, aber diese qualitativ immer noch nicht erreichen..

iamthebear

2022-05-08, 18:48:03

Die Frage ist warum es überhaupt noch Gaming Monitore braucht wenn kleinere TVs schon HDMI 2.1, 120Hz Panel und 4K bieten und einen vergleichbaren Preis bieten jedoch mit wesentlich mehr Bildschirmdiagonale.

Mit OLED und seinen "perfekten Schwarztönen" kann ich auch nicht wirklich etwas anfangen. Was nützt mir das dunkelste Schwarz wenn beim Fenster nebenbei sowieso gerade die Sonne reinknallt direkt auf den Fernseher.

Thunder99

2022-05-08, 19:44:51

Seiner (AOC AG271QG)ist auch natürlich auch IPS. :biggrin:

Ist ja ok, wenn man mit seiner 1080 Ti + Monitor aus 2016 zufrieden ist. Prima. Aber bitte nicht sowas erzählen, dass sich angeblich nichts weiter entwickelt hat.
Bin ich :)
Der Mehrwert hält sich aber in Grenzen bei neueren Monitoren. Wenn ich nach den neusten Kriterien filtere bleibt nicht mehr viel übrig was bezahlbar ist bzw noch sinnvoll ist bei dem Preis.

Da ich aber immer noch auf älteren Spiele unterwegs bin hält sich auch der Bedarf an dem UW Format in Grenzen. Um IPS los zu werden bedarf es VA mit 144Hz, 1440p+ (UW) und GSync bei 10bit für echtes HDR :wink: für unter 1000€
27" ist bei meinem Tisch das Maximum, dann noch die selbe Höhe auf 32" bei UW Format. Mehr bitte nicht.

AD103 ist aber gesetzt, wenn die Leistungsaufnahme nicht ausufert :)

robbitop

2022-05-08, 19:57:39

Also wir haben ein großes Wohnzimmer mit vielen Fenstern und das ist kein Problem für den OLED. Die sind hell genug um praxistauglich zu sein. Ansonsten gibt es Außenjarlousien, Plisses usw.
Wobei man als arbeitstätiger Mensch wahrscheinlich eh praktisch kaum zum Zocken kommt, wenn die Sonne voll aufdreht. :D

Rampage 2

2022-05-08, 20:18:21

Ja gibt recht günstige, aber meist mit scheußlich schimmernden billig IPS Panels.

Also ich benutze meinen im August 2020 gekauften ASUS XG279Q (27", 1440p, IPS-Panel) seit nunmehr anderthalb Jahren und selbst in dunklen Spielen wie Doom 3 merke ich das Backlight-Bleeding nur dann, wenn ein Großteil der Spielszene in Schwarz/völliger Dunkelheit getaucht ist - und das, obwohl Helligkeit- und Kontrasteinstellungen des Monitors voll aufgedreht (Beides am Anschlag) sind:freak: Und paradoxerweise ausgerechnet in Doom 3 merke ich, wie GEIL der Kontrast (und auch die Helligkeit, z.B glänzende oder leuchtende Objekte) auf meinem "neuen" Monitor ist:eek: - obwohl "nur" ~ 1200:1 Maximalkontrast und "nur" ~ 500cd/m^2 Maximalhelligkeit! Und das Ding ist noch nichtmal kalibriert:freak:

Ich hatte zwischenzeitlich auch wieder meinen alten Monitor (24", FullHD, TN-Panel mit LED-Backlight) angeschlossen und erst dann ist mir erneut der massive Unterschied (v.a. Farben, Helligkeit und Schärfe, aber auch Kontrast!) aufgefallen - das alte Ding sieht im wahrsten Sinne des Wortes "alt aus" gegen meinen aktuellen Monitor=)

R2

Ex3cut3r

2022-05-08, 21:30:22

Ok, dann bin ich da, der seinen LCD bei 13% Helligkeit ~ 80 Nits stellt und sich beim VA, siehe Sig über ein wenig graues Bleed im komplett dunklen Raum @ Doom Eternal unten links ärgert. "Panel Massieren" hat es glaube ich sogar ein wenig verschlimmert. :freak:

Sobald OLED massentauglich ist (vom Preis) und es bezahlbare (500€) 32", 4K/5K, 240HZ, VRR gibt, bin ich sofort dabei. Das wird aber noch 3-5 Jahre dauern.

Thunder99

2022-05-11, 18:17:42

https://www.pcgameshardware.de/Geforce-RTX-4000-Grafikkarte-278189/News/RTX-4090-mit-24-GiB-RTX-4070-mit-12-GiB-1394833/
Von Twitter die News von PCGH

Wenn AD103 so viel verbraucht wie GA102 wäre ja der Effiziensgewinn 0 :eek:. Kann doch nicht sein, dass Nvidia sich das gibt mit neuer Fertigung bei der so super tollen TSMC Fertigung :freak:
Chip SM GPC TPC Shader Cache Speicherbus Speicher TGP
AD102 144 12 72 18.432 96 MiB 384 Bit 24 GiB ≤ 600 W
AD103 84 7 48 10.752 64 MiB 256 Bit 16 GiB ~ 350 W
AD104 60 5 30 7.680 48 MiB 192 Bit 12 GiB ≤ 300 W
AD106 36 3 18 4.608 32 MiB 128 Bit 8 GiB -
AD107 24 3 12 3.072 32 MiB 128 Bit 8 GiB -

HOT

2022-05-11, 18:26:51

Der dürfte so auf 2,5GHz+ takten. Das sind dann auch ein paar % mehr Leistung. Ansonsten gilt: Viel Takt, viel Verbrauch. Wenn man den Sweetspot verlässt, passiert halt sowas.

Thunder99

2022-05-11, 19:04:55

Der dürfte so auf 2,5GHz+ takten. Das sind dann auch ein paar % mehr Leistung. Ansonsten gilt: Viel Takt, viel Verbrauch. Wenn man den Sweetspot verlässt, passiert halt sowas.
Dann müsste ja AD103 Milchmädchenhaft 35% schneller sein. Derzeit schwer vorzustellen aber nicht unmöglich.

BlacKi

2022-05-11, 20:38:34

kimi hat doch vor kurzem am 29.04 geschrieben ada ist kein refresh. erst schrieb er 2,2x und hat dann ergänzt das ada noch mehr oben drauf legen wird.
wenn wir von 2,5 ausgehen, dann legt die 4080 mit ad103 45% auf die 3090 obendrauf.
4070 mit ad104 4%.

WedgeAntilles

2022-05-11, 20:42:31

https://www.pcgameshardware.de/Geforce-RTX-4000-Grafikkarte-278189/News/RTX-4090-mit-24-GiB-RTX-4070-mit-12-GiB-1394833/
Von Twitter die News von PCGH

Wenn AD103 so viel verbraucht wie GA102 wäre ja der Effiziensgewinn 0 :eek:. Kann doch nicht sein, dass Nvidia sich das gibt mit neuer Fertigung bei der so super tollen TSMC Fertigung :freak:
Keine Sorge, GENAU das gleiche hieß es bei Ampere auch.
Kaum schneller als Turing, dafür irre viel mehr Verbrauch.

Ja, es gab Mehrverbrauch, aber eben auch ein ordentliches Performanceplus. Weltbewegend? Nein, aber ok.
In den Leaks davor wurde die Performancesteigerung mit der Verbrauchssteigerung gleichgesetzt. Teils sogar höhere Verbrauchssteigerung als Performancesteigerung.

Es ist einfach immer so, der riesige Wunsch, dass Nvidia eine vollkommen vermurkste GraKa releast.

Wird auch dieses Mal nicht passieren.
Bei der 4070 galten vor einigen Wochen ja auch noch 350W, 400W, teils sogar noch mehr als Verbrauch.
Und jetzt ist man da schon auf immerhin 300W runter. Immer noch ca. 10-15% zu viel für meinen Geschmack (ich hätte gerne eine 4070 mit ca. 250-max 270W), aber von den 400W ist man doch schon mal abgerückt.

Die Horrormeldungen sind reine Wunschphantasien, die in der Vergangenheit nicht Wirklichkeit wurden und auch dieses Mal nicht Wirklichkeit werden.

BlacKi

2022-05-11, 21:16:24

die 3090 hat 20% mehr shader aber nur 9% mehr tdp. kurz gesagt. die 3080 hat 10% höhere tdp pro shader.

übernimmst du das, auf die 4080 mit ad 103, dann kommst du auf 385w. das ist das ergebnis wenn du das übertragen willst.

wenn man das auf ad104 überträgt, sind 250w+ 10% =275W, also sub 300w sind auf jeden fall drin.

iamthebear

2022-05-11, 21:42:39

AD102 hat 1.7x SMs aber ca. 2.5x Transistoren (wenn man die 4 Mrd. für den L2 SRAM nicht mitzählt)

Also ich sehe 3 Möglichkeiten:
a) Nvidia hat den L2 gröber verbockt und hier noch ca. 20 Mrd. Transistoren für die Control Logik versenkt. Wenn man sich die GA100 Die shots ansieht ist das gar nicht einmal so abwegig. Dort wird viel Platz für mickrige 48MB L2 verbraten. Da werden sicher auch einige Transistoren drauf gegangen sein.
Der Takt wird dadurch geholt, dass der Chip 30% höher nach oben getrieben wird.
Performanceprognose: 1.7x (Shader) * 1.3x (Taktrate) = 2.2x theoretische Performance

b) Nvidia hat den L2 nicht verbockt und ca. so kompakt wie AMDs Infinity Cache gestaltet. Die 30% mehr Transistoren pro SM wurden dafür verwendet die Architektur so umzubauen, dass diese Taktraten möglich sind. Die Verlustleistung kommt dadurch zu Stande, dass 4N doch nicht so effizient ist wie angegeben bzw. Samsung 8LPP vielleicht doch nicht so schlecht war.
Performanceprognose: 1.7x (Shader) * 1.3x (Taktraten) = 2.2x

c) Nvidia hat die Taktraten rein über die Fertigung geholt. Die 30% mehr Transistoren/SM wurde in größere SMs investiert (z.B. aufgebohrter Scheduler und entweder dedizierte INT Einheiten oder 192 statt 128 FP32 Einheiten).
Die Verlustleistung kommt dadurch zu Stande, dass der Chip einfach so enorm viel Rechenleistung hat.
Performanceprognose: 1.7x (Shader) * 1.3x (Taktraten) * 1.3x (IPC Steigerungen) = 2.8x - 2.9x

Natürlich kann es auch eine Mischung aus diesen 3 Varianten sein.

Aus dem Bauch heraus würde ich eher Variante c) als die Wahrscheinlichste ansehen, denn:

.) Navi33 soll auf 6900 XT Performance liegen und wenn man von N6 Fertigung und ein paar Abspeckungen ausgeht dürfte das um die 400mm² nicht so unrealistisch sein.
.) Navi31 ist ziemlich klar 3x Navi33 wenn WGP Anzahl und Taktraten nun stimmen. Von der Verlustleistung her ist das auch plausibel mit einem 5nm Chip.
.) Ich halte es für Unwahrscheinlich, dass Navi31 AD102 meilenweit davon läuft. Der Chip ist nicht wesentlich größer und AMD braucht noch um min 25% weniger Strom.
Würde AMD 3x mit 450W bringen aber Nvidia nur 2.2x mit 600W wäre das extrem peinlich.

3x bzw. 2.9x mögen zwar extrem hoch klingen aber das ist ja nur die theoretische Performance. Als Gaming fps werden wohl sowieso nur um die 2x ankommen.

Troyan

2022-05-12, 00:48:05

Die 4070 hätte bei 2,5GHz knapp 90% mehr Rechenleistung als die 3070Ti. Wäre also damit fast 80% effizienter...

Zossel

2022-05-12, 06:52:39

NV will in Zukunft weniger nerven: https://blog.fefe.de/?ts=9c82f495

[l] Nachdem jetzt AMD-Code unter Linux gefühlt die Hälfte der Kernelgröße ausmacht, hat sich auch Nvidia mal hinreißen lassen, einen Open-Source-Treiber zu veröffentlichen. Das ist nicht ganz so geil wie es aussieht, weil sie halt proprietäre Logik in die Firmware geschoben haben, die immer noch closed source ist.

Für die allermeisten Anwendungen wird das aber reichen. Die Leute haben sich ja auch mit der Management Engine und UEFI abgefunden.

Ich persönlich applaudiere. Es hat nur wenige Jahrzehnte gedauert, und Linus musste ihnen öffentlich den Stinkefinger zeigen!

Das Userspace Blog wird wohl auch noch da sein, aber so kann eine Kiste wenigstens bis an einen Prompt auf der Konsole einigermaßen booten.

HPVD

2022-05-12, 10:16:22

It's quite simple to achieve 2x performance of RTX 3090.
Look forward to further optimization.
Quelle: https://twitter.com/kopite7kimi/status/1524330864536354816

Troyan

2022-05-12, 10:22:34

Vergess den nicht:

No, it's very very easy. It doesn't require additional power consumption.
https://twitter.com/kopite7kimi/status/1524626105600458754

HPVD

2022-05-12, 12:25:13

double double double double

Quelle: https://mobile.twitter.com/kopite7kimi/status/1524665712085987328

HPVD

2022-05-12, 12:26:53

definitely more than 2x perf

Quelle:
https://mobile.twitter.com/kopite7kimi/status/1524673673973878784

Thunder99

2022-05-12, 12:49:08

kimi hat doch vor kurzem am 29.04 geschrieben ada ist kein refresh. erst schrieb er 2,2x und hat dann ergänzt das ada noch mehr oben drauf legen wird.
wenn wir von 2,5 ausgehen, dann legt die 4080 mit ad103 45% auf die 3090 obendrauf.
4070 mit ad104 4%.

Stimmt, so sollte es eigentlich auch sein. Die 70er SKU schlägt knapp den vorherigen TopDog

Es wird schon einen Grund haben, dass Nvidia zurück gegangen ist zu TSMC. Am Preis lag es eher nicht sondern an den Vorteilen der besseren Fertigung im Vergleich zu Samsung. Samsung 8nm LPP mag zwar doch nicht so schlecht gewesen sein aber das zieht wohl nicht mehr, dass der Preis so gut war.
Nvidia will wohl für die Premium Produkte wieder die beste Fertigung haben, nicht die zweitbeste

BlacKi

2022-05-12, 12:53:10

der samsung abstecher war imho nicht gewollt. dazu wurde man gezwungen. aus gründen^^

Thunder99

2022-05-12, 13:04:51

der samsung abstecher war imho nicht gewollt. dazu wurde man gezwungen. aus gründen^^

Alles klar :freak:

AffenJack

2022-05-12, 17:15:24

Vergess den nicht:

https://twitter.com/kopite7kimi/status/1524626105600458754

zweifache Perf/W hört sich doch mal gut an. Am Ende könnte Lovelace dank 5nm sowohl Effizienz als auch Ineffizient werden. Man weiß nicht, wie sich der Prozess und Chip bei hohen Taktraten verhält und wo der Sweetspot liegt.
Z.B 2 ghz bei 2x3090 Perf und 2x Perf/W mit 350W, aber extremer Verbrauch bei 2,6ghz, weil +30% Takt -> +60% Verbrauch.

Timbaloo

2022-05-12, 17:38:30

Zweifache Perf/W bei was frage ich mich.

robbitop

2022-05-12, 18:05:55

Naja die Perf/W ist auch immer sehr Betriebspunktabhängig. Eine hoch geprügelte SKU kann sehr sehr leicht deutlich in Perf/W von einer SKU mit gleichem Silizium aber gutem Betriebspunkt geschlagen werden. Siehe 3090ti vs 3090ti auf 200 W optimiert.

AffenJack

2022-05-12, 18:10:21

Zweifache Perf/W bei was frage ich mich.

Rasterperformance hat er da schon vorher geschrieben.

Naja die Perf/W ist auch immer sehr Betriebspunktabhängig. Eine hoch geprügelte SKU kann sehr sehr leicht deutlich in Perf/W von einer SKU mit gleichem Silizium aber gutem Betriebspunkt geschlagen werden. Siehe 3090ti vs 3090ti auf 200 W optimiert.

Durchaus, aber trotzdem muss man 2fache Performance erstmal schaffen. Das geht nur bei niedrigem Betriebspunkt, wenn die Leistung so noch deutlich höher geht.

robbitop

2022-05-12, 18:16:10

Wenn die Performance wirklich verdoppelt wird und man dabei gleiche oder bessere perf/w erreicht, ist das beachtlich - ja.

davidzo

2022-05-12, 18:37:43

Rasterperformance hat er da schon vorher geschrieben.

Ich denke er will darauf hinaus:
https://www.techpowerup.com/review/nvidia-geforce-ampere-architecture-board-design-gaming-tech-software/images/performance-per-watt.jpg

Nvidia hat schon bei Ampere eine Effizienzverbesserung von 1.9x versprochen. Das mag man vielleicht mal im Labor gemessen haben, aber die Betriebspunkte für diesen Claim finden sich einfach in keiner finalen SKU wieder.

Selbst wenn man mit GA104 den effizientesten Ampere Chip nimmt und mit TU102 den ineffizientesten Turingchip, kommt man lediglich auf 1.3x. Die 2080ti ist 5-10% langsamer und verbraucht kaum 15-20% mehr.

Wenn Ada nur eine 2x perf per Watt verbesserung Analog zur 1,9x Perf per Watt verbesserung von Ampere ;D bringt, dann bin ich enttäuscht. Das heißt bei Nvidia in der Praxis kaum mehr als Stagnation.

Linmoum

2022-05-12, 18:42:27

Die Folie hatte ich ja schon fast vergessen. ;D Das war echt genial und hat nach dem Launch damals auch iirc zu größeren Diskussionen geführt. Zurecht.

bbott

2022-05-12, 22:50:28

Die Folie hatte ich ja schon fast vergessen. ;D Das war echt genial und hat nach dem Launch damals auch iirc zu größeren Diskussionen geführt. Zurecht.
Geschichte wiederholt sich und das Gedächtnis vieler lässt zu wünschen übrig :biggrin:

Dural

2022-05-12, 23:10:24

NV kann nichts dafür wenn ihr eine Folie nicht lesen, verstehen und deuten könnt.

basix

2022-05-12, 23:18:06

NV kann nichts dafür wenn ihr eine Folie nicht lesen, verstehen und deuten könnt.

Die Folie an sich und die Aussage ist nicht falsch. Aber Nvidias Message ist damit dennoch irreführend gewesen. Denn der Nutzer/Käufer hatte davon nichts.

Linmoum

2022-05-12, 23:23:23

NV kann nichts dafür wenn ihr eine Folie nicht lesen, verstehen und deuten könnt.
Welches Produkt hat denn 1.9x Perf/Watt? Da Nvidia das offen und deutlich - wie man unschwer erkennen kann - beworben hat, wirst du die Frage ja mühelos beantworten können. Ich sehe da an der Spitze nur die 3070 mit bis zu 1.4x ggü. der 2070S. Fehlt irgendwie noch was, vielleicht sind meine Mathekenntnisse auch einfach nur eingerostet. Das wirst du sicherlich lösen können.

Ansonsten: Wenn dieses "2x Perf/Watt" auf derselben Grundlage fußt, wie die 1.9x von Turing auf Ampere, dann kann man das vollständig in die Tonne kloppen. Was bringt mir diese theoretische Angabe, wenn die Realität völlig anders aussieht?

Dovregubben

2022-05-12, 23:51:57

Geschichte wiederholt sich und das Gedächtnis vieler lässt zu wünschen übrig :biggrin:
Nvidia tritt halt seit 20 Jahren mit der Performance/Watt auf der Stelle und AMD vervielfacht sie mit jeder Generation.

TheAntitheist

2022-05-13, 03:28:32

Nvidia tritt halt seit 20 Jahren mit der Performance/Watt auf der Stelle und AMD vervielfacht sie mit jeder Generation.
Joa dann zeig mal einen Performance Pro Watt-Vergleich bei Spielen mit Raytracing über die letzten Gens bitte.
und Warum bringt AMD dann Karten die 13% mehr Saft ziehen für 3% mehr Leistung?... sieht nicht effizient aus.

bei 300watt ist sogar eine 3090ti DEUTLICH effizienter als die radeon 6900XT https://youtu.be/PZ46znr9tNs?t=615 sagt sogar igor... das mit der schlechteren Fertigung, 50% mehr RAM und sogar GDDR6x der viel mehr Saft zieht. Also manche übertreiben hier, ziehen sich quatsch ausm hintern als ob AMD der heilige Gral wäre... Religiöse Fanatiker gibts also auch in der IT.
In beiden Lagern gab es mal positive und negative ppw Generationen also behaupte nicht so ein Quark

Leonidas

2022-05-13, 09:39:11

Shader-Cluster von "Ada Lovelace" mit deutlich höherer Rechenkraft
https://www.3dcenter.org/news/geruechtekueche-shader-cluster-von-ada-lovelace-mit-deutlich-hoeherer-rechenkraft

basierend hierauf:
https://twitter.com/kopite7kimi/status/1524947535973912576
https://pbs.twimg.com/media/FSmzsjWagAEkuFz?format=jpg

BlacKi

2022-05-13, 10:24:07

Nvidia tritt halt seit 20 Jahren mit der Performance/Watt auf der Stelle und AMD vervielfacht sie mit jeder Generation.
wenn man es so sieht, nicht nur auf der stelle, denn mit jeder generation verbraucht das topmodell mehr. das ist sogar eine verschlechtung der p/w:freak:;D

horn 12

2022-05-13, 10:30:32

@Leonidas

Wieviel schneller wird laut Deiner Prognose dann die 4080 bzw. die 4090
im Gegensatz zur 3080 / 3090 werden

WedgeAntilles

2022-05-13, 10:47:33

Die Folie an sich und die Aussage ist nicht falsch. Aber Nvidias Message ist damit dennoch irreführend gewesen. Denn der Nutzer/Käufer hatte davon nichts.
This.

Nvidia tritt halt seit 20 Jahren mit der Performance/Watt auf der Stelle und AMD vervielfacht sie mit jeder Generation.
Check your math.

Selbst wenn du mit "vervielfachen" nur Faktor 2 nimmst - was streng genommen zu wenig ist, aber meinetwegen, dann müsste AMD vor 4 Jahren das 4-fache!!! an Strom pro Frame verbraucht haben wie Nvidia.
Eine 150W Karte von Nvidia wäre vor 4 Jahren bei AMD also eine 600W Karte (bei gleicher Performance) gewesen.
Das das offensichtlich Unfug ist, leuchtet jedem ein.
Ergo ist deine Aussage einfach Quark.

Leonidas

2022-05-13, 10:52:25

Wieviel schneller wird laut Deiner Prognose dann die 4080 bzw. die 4090
im Gegensatz zur 3080 / 3090 werden

3090 zu 4090: Das sollte eigentlich auf das 2,5fache hinauslaufen. Der Rechenkraft-Sprung ist größer, aber dafür werden auch Limitierungen an anderer Stelle zunehmen.

3080 zu 4080 ist eine ganz andere Welt, weil diesesmal auf unterschiedlichen Chips basiert: 3090 auf dem erstbesten Chip, 4080 dagegen auf dem zweitbesten. Man kann grob schätzen, dass es demzufolge "nur" das 1,7-1,8fache sein sollte.

r3ptil3

2022-05-13, 11:02:33

Die spekulierten Daten sprechen zwar ziemlich klar dafür, aber ich kann mir eine solche enorme Leistungssteigerung nicht vorstellen. Das selbe auch für Navi31.

Ich tippe für das kommende Top-Modell (RTX 4090) auf eine um den Faktor 1.6-1.9 höhere reale Gaming-Performance.

Die RTX 4080 wird im Schnitt 10-30% vor der RTX 3090 Ti sein und damit mein ich auch reale Werte und nicht von Nvidia publizierte Angaben.

BlacKi

2022-05-13, 11:06:44

ja, die faktoren beziehen sich auf die non ti 3090. also 45% über die 3090 bei der 4080.

ChaosTM

2022-05-13, 11:07:09

Ich wünsche mir eine 200-250 Watt Karte auf dem Level der 3090ti. Das würde mir ca. reichen.
Ist aber eher unwahrscheinlich.

BlacKi

2022-05-13, 11:08:28

mit uv könnte das mit 250w bei der 4070 klappen. out of the box eher nicht.

r3ptil3

2022-05-13, 11:18:38

Ich wünsche mir eine 200-250 Watt Karte auf dem Level der 3090ti. Das würde mir ca. reichen.
Ist aber eher unwahrscheinlich.

Halte ich auch für gar nicht so unrealistisch. Vielleicht eher noch 250-300W.

Leonidas

2022-05-13, 11:25:42

Ich glaube auch noch nicht an eine 4070 auf 300W, bevor ich es sehe. Die hätte dann etwas mehr Performance als eine 3080 - und soll fast so viel verbrauchen? Ich hoffe darauf, dass die 300W eher ein Höchstwert sind und die reale Karte etwas niedriger herauskommt.

basix

2022-05-13, 11:42:45

AD104 mit 60 SMs @ 2.0 GHz und sagen wir mal 1.3...1.4x IPC (siehe News (https://www.3dcenter.org/news/geruechtekueche-shader-cluster-von-ada-lovelace-mit-deutlich-hoeherer-rechenkraft) auf der Hauptseite) wäre bereits auf Niveau einer 3090 Ti.
- 3090 Ti @ 2.0 GHz = 43 TFLOPs
- AD104 / 60 SM / 2.0 GHz = 30.7 TFLOPs * 1.3....1.4x

Taktet das Ding mit 2.5 GHz wäre man auf jeden Fall schneller.

Edit:
Der Vergleich von AD102 mit TU102 ist noch interessant.
- 2x Durchsatz pro SM
- 2x Anzahl SMs
- 1.25...1.5x Takt

In einer idealen Welt mit idealer Skalierung usw. wäre AD102 5...6x schneller wie eine 2080 Ti :D

Platos

2022-05-13, 12:21:51

Ich denke wir werden 3090(Ti) Perfomance mit 200W sehen. Alles andere ist total unglaubwürdig, wenn man bedenkt, dass es nur schon ohne Architekturverbesserung einen riesen Sprung gibt von Samsung 8nm (10nm) zu TSMC 5/4nm.

HOT

2022-05-13, 12:45:12

Mit Sicherheit nicht. 3090 mit 250W würd ich mich noch einlassen, aber bedenke, dass 2x 3090 600W brauchen. Ich denke, mit 250W @3090-Leistung wird man beim AD104 schon gut liegen. Das wird halt nicht so super effizient, wegen des notwendigen hohen Taktes. Dafür bleibt die Chipgröße im Rahmen.

BlacKi

2022-05-13, 12:59:15

naja, es halbiert sich nicht alles. klar chiptakt wird höherliegen als bei der 4090, aber man darf nicht vergessen, das kein gddr6x verbaut wird und der chip der 4070 mehr als die hälfte des l2 caches hat. noch dazu hat die cachemenge einen abnehmenden grenzertrag. nichtso wichtig in 4k, aber in 1440p wird die 4070 schneller sein als nur halb so schnell wie die 4090. und da mit 2,5x spekuliert wird...

bin eigentlich nur noch auf den preis gespannt. 550-700$ uvp würde ich mal tippen.

Troyan

2022-05-13, 13:03:27

Mit Sicherheit nicht. 3090 mit 250W würd ich mich noch einlassen, aber bedenke, dass 2x 3090 600W brauchen. Ich denke, mit 250W @3090-Leistung wird man beim AD104 schon gut liegen. Das wird halt nicht so super effizient, wegen des notwendigen hohen Taktes. Dafür bleibt die Chipgröße im Rahmen.

Genau. Aber AMD auf dem selben Prozess soll 6900XT Leistung bei <=240W schaffen. ;D

WedgeAntilles

2022-05-13, 13:07:35

bin eigentlich nur noch auf den preis gespannt. 550-700$ uvp würde ich mal tippen.

Klingt realistisch, mein Tipp ist ca. 600-650 Euro.
550 würde ich auch als Untergrenze sehen, darunter garantiert nicht.
Und 700 als Obergrenze finde ich auch glaubwürdig.

Bleibt die Frage, zu was man die Karten kaufen können wird.
Ethereum ist aktuell bei 2000, das ist schon mal ganz ok.
Wenn es dabei bleibt dürfte wohl keine Wiederholung des Miningbooms drohen.

ChaosTM

2022-05-13, 13:09:36

AMD Liegt Punkto Effizienz derzeit vorne, nur kann/wird das zu einem großen Teil auch am Prozess liegen.
Wie effizient beide Architekturen sein werden kann man derzeit nur erahnen.
Wenn sich der Trend so fortsetzt wie bisher, ist es durchaus möglich, dass das machbar sein wird.
Dank FSR 2.0 ist es mir jetzt auch völlig egal, welche der beiden Systeme schneller ist. Das flottere/effizientere System wird gekauft. Das ist der Vorteil, wenn man kein Fanbubi ist.

WedgeAntilles

2022-05-13, 13:40:37

Das flottere/effizientere System wird gekauft. Das ist der Vorteil, wenn man kein Fanbubi ist.
Hoffen wir nur, dass es bei der nächsten Generation wieder normalere Preise gibt.
Denn die letzten 2 Jahre hatte es weder bei Firma A noch bei Firma B Produkte, die man zu einem ordentlichen Preis kaufen konnte.
Da brachte dein - extrem vernünftiger - Ansatz dann auch keinen Vorteil.

Aber ich bin vorsichtig optimistisch, dass diese Situation sich nicht in dieser extremen Ausprägung wiederholen wird.

davidzo

2022-05-13, 13:56:16

Ist ein solcher Anstieg denn überhaupt realistisch ohne das die Diesize explodiert?

- + 50% Anstieg der FP32 Ressourcen pro SM
- + 70% SMs von 84 auf 144
- + 1600% Cache, von 6mb auf 96mb
- + 50% L1 Cache
- + 100% ROPs

GA102 hat 45mtr/mm2 und 28,3Mio Transistors in "8N".
GH100 schafft 98mtr/mm2 und 80Mio Transistors in "4N".
Gamingchips haben in der Regel nicht dieselbe Dichte wie compute chips, da der Betriebspunkt / Taktraten viel höher gewählt werden. Realistisch sind also 80-90mtr/mm2 bei einer Diesize von 600-700mm2.

-> Minimum 48Mio Transistoren auf 600mm2 mit 80mtr/mm2 density
-> Maximum 63Mio Transistoren auf 700mm2 mit 90mtr/mm2 density

Kopite kimi hatte ja ca. 600mm2 als Diesize genannt, das wären also defintiv unter 60mio Transistoren, ziemlich genau das doppelte von GA100.

Semianalysis hat da mal eine Diesize Abschätzung gemacht, bevor die neue Spekulation über die massiven Zuwächse in den SMs herausgekommen ist: https://semianalysis.substack.com/p/nvidia-ada-lovelace-leaked-specifications?s=r
Die haben da lediglich mit einem L1 Cache Anstieg im SM und verbesserten RT Einheiten gerechnet. In 8N wären das trotzdem bereits 1629.60mm2. Das heißt selbst beim bekannten Scaling von 4N wären wir noch bei 800mm2, mit den +50% aufgebohrten SMs wären das definitiv mehr als das reticle Limit.
Für Hopper mag sich so ein großer Chip rechnen, aber nicht für einen gaming-chip in TSMCs cutting edge prozess.

Alleine für den 96mb L2 Cache kam bei Semianalysis eine Größe von über 100mm2 zusammen. Direkt skaliert von GA102 wären es 246mm2 und mit Architekturellen Veränderungen wie größeren Blocks etc. immer noch 105mm2.

Wo soll da jetzt die Diefläche für ein derartiges Aufbohren der SMs her kommen?

Entweder das neue Gerücht um die massiv aufgebohrten SMs ist Bogus,
Oder die 144SMs sind inkorrekt. Wenn die SMs 150% größer werden, dann wären in 600mm2 N4 dann eher etwas zwischen 96 und 128 SMs realistisch. Interessanterweise kommt man bei 96 aufgebohrten SMs bei INT+FP Zählung auch auf genau 18'432 FP+INT32 Einheiten.

Neues Gerücht: GA102 mit 96SMs (192FP/Int32 pro SM) :freak:

AMD Liegt Punkto Effizienz derzeit vorne, nur kann/wird das zu einem großen Teil auch am Prozess liegen.
Wie effizient beide Architekturen sein werden kann man derzeit nur erahnen.
Wenn sich der Trend so fortsetzt wie bisher, ist es durchaus möglich, dass das machbar sein wird.
Ein Trend lässt sich gar nicht ablesen. Vor RDNA lag Nvidia mindestens so weit vorne bei der Effizienz wie AMD mit RDNA2. Und bei Kepler vs GCN lag der kleine Vorteil auch eher auf GCN-Seite.
Das kann sich alles über Nacht umkehren.

AffenJack

2022-05-13, 18:52:02

Ist ein solcher Anstieg denn überhaupt realistisch ohne das die Diesize explodiert?

- + 50% Anstieg der FP32 Ressourcen pro SM
- + 70% SMs von 84 auf 144
- + 1600% Cache, von 6mb auf 96mb
- + 50% L1 Cache
- + 100% ROPs

GA102 hat 45mtr/mm2 und 28,3Mio Transistors in "8N".
GH100 schafft 98mtr/mm2 und 80Mio Transistors in "4N".
Gamingchips haben in der Regel nicht dieselbe Dichte wie compute chips, da der Betriebspunkt / Taktraten viel höher gewählt werden. Realistisch sind also 80-90mtr/mm2 bei einer Diesize von 600-700mm2.

-> Minimum 48Mio Transistoren auf 600mm2 mit 80mtr/mm2 density
-> Maximum 63Mio Transistoren auf 700mm2 mit 90mtr/mm2 density

Kopite kimi hatte ja ca. 600mm2 als Diesize genannt, das wären also defintiv unter 60mio Transistoren, ziemlich genau das doppelte von GA100.

Kopite hat >70 Mrd Transistoren genannt. Das sind 2,5x soviele Transistoren bei nur 70% mehr SMs. Da ist verdammt viel Platz übrig. Mal abgesehen davon kostet L1 Cache zb kaum Platz, +100% ROPS bei sovielen Transistoren sind auch nicht das Problem. Niemand kann die Dichte vom L2 auch richtig schätzen gerade.

TheAntitheist

2022-05-13, 20:02:33

Die spekulierten Daten sprechen zwar ziemlich klar dafür, aber ich kann mir eine solche enorme Leistungssteigerung nicht vorstellen. Das selbe auch für Navi31.

Ich tippe für das kommende Top-Modell (RTX 4090) auf eine um den Faktor 1.6-1.9 höhere reale Gaming-Performance.

Die RTX 4080 wird im Schnitt 10-30% vor der RTX 3090 Ti sein und damit mein ich auch reale Werte und nicht von Nvidia publizierte Angaben.
AMD hat nicht so einen großen Sprung durch die Fertigung, NV wird die Auslastung deutlich erhöhen und auch sowas wie IF, dazu muss AMD noch TCs und RT Cores einbauen was alles zusätzlich Platz kostet.

Thunder99

2022-05-13, 21:16:41

Hoffen wir nur, dass es bei der nächsten Generation wieder normalere Preise gibt.
Denn die letzten 2 Jahre hatte es weder bei Firma A noch bei Firma B Produkte, die man zu einem ordentlichen Preis kaufen konnte.
Da brachte dein - extrem vernünftiger - Ansatz dann auch keinen Vorteil.

Aber ich bin vorsichtig optimistisch, dass diese Situation sich nicht in dieser extremen Ausprägung wiederholen wird.
Hängt primär vom Mining ab...

WedgeAntilles

2022-05-14, 10:25:34

Hängt primär vom Mining ab...
Jepp, daher beobachte ich auch ständig den Ethereum-Kurs.
Aktuell unter 2000, das ist sehr schön :)

iamthebear

2022-05-14, 10:49:49

Ethash ist quasi ein Random read auf den RAM. Da zählt fast ausschließlich die Speicherbandbreite wobei Caches hier nichts bringen solange diese < 4GB sind.

Eine sauteure 4090 Ti wird also kaum schneller sein als eine 3080 12GB.
Eine 4080 mit 256 Bit etwas über einer 3070.

Bei AMD skaliert das Speicherinterface auch viel weniger als die FP32 Leistung, da auch die Caches erhöht werden:
Navi32 dürfte in etwa dieselbe Miningperformance wie Navi21 haben
Navi31 hat dann 50% mehr bzw. in etwa so viel wie eine 3080

Abgesehen davon wird der PoS Launch zum Lovelace Launch entweder schon passiert sein oder kurz bevor stehen. Da kauft doch keine Miningfarm mehr neue Karten ein.
Ich kann mir sogar vorstellen, dass einige Miningfarmen ihre größeren Modelle (z.B. 3090) schon vor dem Lovelace Launch auf dem Gebrauchtmarkt verkaufen, denn die High End Modelle werden definitiv im Wert stark fallen.

Platos

2022-05-14, 14:33:53

Ich hoffe auch darauf, dass die neuen Grafikkarten nicht attraktiver werden daduech, dass (hoffentlich) alle Grafikkarten Caches haben werden. Wenn die neue Gen nicht attraktiver werden, sollte eig. das Mining auch weniger attraktiv werden. Man kauft sich schliesslich nicht für gleiche Perfomance neue GPUs und neue Systeme werden vermutlich auch nicht aufgebaut, wenn der Kurs eher sinkt als steigt.

Also ich sehe das vorerst mal eher positiv.

Rampage 2

2022-05-14, 20:41:30

Shader-Cluster von "Ada Lovelace" mit deutlich höherer Rechenkraft
https://www.3dcenter.org/news/geruechtekueche-shader-cluster-von-ada-lovelace-mit-deutlich-hoeherer-rechenkraft

basierend hierauf:
https://twitter.com/kopite7kimi/status/1524947535973912576
https://pbs.twimg.com/media/FSmzsjWagAEkuFz?format=jpg

Können die 64 INT32-Units bei Bedarf auch FP32-Operationen ausführen, wenn sie freistehen? (so wie bei Ampere)

Und ich wüsste zu gerne, warum Nvidia die ROPs pro GPC gleich verdoppelt (:freak:) hat, obwohl die theoretische Bandbreite sich nur geringfügig (~ 15% bei 24Gbps GDDR6X) erhöht hat.

R2

iamthebear

2022-05-14, 21:07:47

Nein nach dem Entwurf zu urteilen können die INT Einheiten nur INT ausführen. Ich kann mir allerdings vorstellen, dass zumindest die Hälfte der FP Einheiten auch INT kann. Das kostet ja relativ wenige Transistoren zusätzlich.

Was die ROPs angeht:
Der Vergleich wurde mit GA102 gemacht. GA102 hat bereits weniger ROPs/SM als GA104 oder Turing zuvor. Im Prinzip ist es dasselbe Verhältnis wie bei Turing oder GA104.