Archiv verlassen und diese Seite im Standarddesign anzeigen : AMD/ATI - RDNA3 (Navi 3X, Radeon RX 7000 Serie, tlw. Chiplets, 5/6 nm, 2022)
Der_Korken
2021-01-26, 13:01:29
@robbitop
Man muss das Thema jetzt nicht unnötig verkomplizieren. Wenn ich sehe, dass meine Applikation in 4k mit 5% mehr Bandbreite (2,1Ghz vs. 2Ghz Speicher) nur 0,2% schneller wird dann weiß ich nicht wo N21 die Bandbreite in 4k ausgehen soll. Mich würde viel mehr interessieren auf welcher Basis davidzo so eine Behauptung aufstellt.
Jetzt wo du eine RDNA2-Karte hast, könntest du ja mal einen Skalierungstest machen :D.
Erst GPU- und Speichertakt reduzieren (sollte dann ca. 1:1 Leistung verlieren) und dann Speichertakt anheben. Die einzige Unbekannte ist dann der Cache-Takt, den mal leider nicht mit reduzieren kann. Dann wäre dieses Gerücht dass in 4K die Bandbreite ausgeht, endlich aus der Welt geschafft.
davidzo
2021-01-26, 13:03:31
@robbitop
Man muss das Thema jetzt nicht unnötig verkomplizieren. Wenn ich sehe, dass meine Applikation in 4k mit 5% mehr Bandbreite (2,1Ghz vs. 2Ghz Speicher) nur 0,2% schneller wird dann weiß ich nicht wo N21 die Bandbreite in 4k ausgehen soll. Mich würde viel mehr interessieren auf welcher Basis davidzo so eine Behauptung aufstellt.
Im Vergleich mit Ampere. In FHD führt die 6800XT gegenüber der 3080 FE, in WQHD sind sie gleich und in 4K liegt die 6800XT leicht zurück. Das scaling ist einfach anders, ob nvidia Ampere erst in hohen auflösungen ausgelastet bekommt oder navi21 einfach schlechter skaliert kannst du dir aussuchen.
Gab es nicht auch mal eine Folie von AMD die das Scalingverschiedener IF$ Größe zeigte? Ab 128mb flachte die Kurve ab, trotzdem waren die 128m nicht gerade das Ende der fahnenstange. Vor allem wenn man an andere workloads denkt, mehr CUs, 8K, RT Ultra etc.
EDIT: habe die Folie gefunden.
AMD geht bei 4K von einer Hitrate von "up to" 58% aus, bei WQHD sind es 70% und bei FHD fast 80%.
Bandbreite IF$: 1664 GB/s
Bandbreite GDDR6: 512 GB/s
- You do the math.
https://www.forum-3dcenter.org/vbulletin/attachment.php?attachmentid=73841&stc=1&d=1611663450
Der_Korken
2021-01-26, 13:05:30
Im Vergleich mit Ampere. In FHD führt die 6800XT gegenüber der 3080 FE, in WQHD sind sie gleich und in 4K liegt die 6800XT leicht zurück. Das scaling ist einfach anders, ob nvidia Ampere erst in hohen auflösungen ausgelastet bekommt oder navi21 einfach schlechter skaliert kannst du dir aussuchen.
Turing fällt gegenüber Ampere auch in 4K zurück und verhält sich eigentlich ziemlich so wie RDNA2. Für mich ist eher Ampere der Außenseiter, nicht RDNA2.
vinacis_vivids
2021-01-26, 13:14:53
@dargo
Dass Navi21 in 4K angeblich "sichtbar" die Bandbreite ausgeht ist schon richtig, aber eben auch eine auf das klassische SI bezogen beschränkte veraltete Sichtweite, die eben mit Navi21 revidiert werden muss/sollte.
Navi21 hat ja "nur" 512GB/s an Bandbreite während Navi10 448GB/s hat, was ja nur ein Anstieg von 14% ist.
Bandbreiten,- (~512GB/s) und Taktnormiert (~2,0 Ghz) dürfte Navi21 gegenüber Navi10 >100% zulegen.
Wenn man sich GA102 anschaut, brauch die Konkurrenz 936GB/s um die gleiche Leistung, oder in neueren Spielen sogar weniger Leistung zu bringen wie 512GB/s bei AMD ;D
Nav21 braucht nur die hälfte an Bandbreite um die gleiche Leistung zu erbringen =) , das ist schon extrem geil, bringt breites grinsen und mit anderen Worten ausgedrückt:
"Ein ganz andere Liga."
Was Navi31 angeht, geht es um die Leistungskrone und vllt. die Deklassierung der grünen Konkurrenz.
basix
2021-01-26, 13:24:40
Ich rechne daher mit einem ähnlichen Aufbau:
GCD:
- ca. 200mm2 @ 5nm TSMC
- 80CU Chiplets wie Navi21 nur ohne SI, VCE, PCIe
- 128-256mb IF$
- 2x-4x Infinity Fabric Links mit 400-800gb/s
- 2,5-3,2 Ghz
- TDP ca. 100Watt
MCD:
- ca. 150mm2 @ 12FDX GF
- SI, VCE, PCIe Gen5
- 256-384bit GDDR6
- 4x-8x Infinity Fabric Links mit 800-1600gb/s
- TDP ca. 50Watt
Package:
- TSMC Info-LSI 2.5D ohne Interposer
- 2x GCD +1x MCD
- 1x GCD + 1x MCD
Daraus kann man dann gut zwei SKUs bauen, analog zu Matisse und Vermeer single CCD und dual CCD Prozessoren.
Rest Refresh navi22, 23, 24.
BTW, hatte gehört Navi23 oder 24 seien gar nicht 7nm TSMC. Eventuell nimmt AMD hier nochmal 12nm GF oder 14/10/8nm Samsung um die Kapazitäten zu schonen?
Einer, der genau gleich denkt wie ich :D Ich habe in etwa genau das gleiche abgschätzt, mit folgenden kleinen Unterschieden:
GCD würde ich auf 128MB und 240mm2 schätzen, ausser AMD kann and der Dichte des Chaches nochmals ordentlich auf Designebene schrauben.
SI würde ich bei 256b bleiben. Ich sehe die Notwendigkeit für mehr aufgrund des IF$ nicht (ca. 4-5x Multiplikator @ 4K bei total 256MB --> 2-2.5TB/s effektiv).
Infinity Links können dementsprechend auf je 256GB/s pro Chiplet ausgelegt werden
Zur TSMC 7nm Frage:
Kann auch sein dass Samsung zum Einsatz kommt. AMD hat den Engpass bei TSMC sicher schon lange sehen kommen. Ist die Frage, wie das AMD mit TSMC verhandelt haben könnte, damit sie ihren "preferred Partner" Status nicht verlieren. Da TSMC voll ausgebucht ist und nicht die geforderte Menge liefern kann, wäre das aber ein Grund welcher AMD vorbringen kann.
dargo
2021-01-26, 13:25:27
Im Vergleich mit Ampere. In FHD führt die 6800XT gegenüber der 3080 FE, in WQHD sind sie gleich und in 4K liegt die 6800XT leicht zurück. Das scaling ist einfach anders, ob nvidia Ampere erst in hohen auflösungen ausgelastet bekommt oder navi21 einfach schlechter skaliert kannst du dir aussuchen.
Du machst es dir da viel zu einfach. :wink:
https://www.guru3d.com/articles_pages/hitman_3_pc_graphics_perf_benchmark_review,7.html
Softwareoptimierung ist nach wie vor das A und O.
btw.
Nur weil die Hitrate vom Cache in 4k niedriger ist heißt es nicht automatisch, dass die GPU @4k zu wenig Bandbreite hat. Sie kann genauso gut in niedrigeren Auflösungen wo die Hitrate höher ist zu viel Bandbreite haben.
davidzo
2021-01-26, 13:27:20
Jetzt wo du eine RDNA2-Karte hast, könntest du ja mal einen Skalierungstest machen :D.
Erst GPU- und Speichertakt reduzieren (sollte dann ca. 1:1 Leistung verlieren) und dann Speichertakt anheben. Die einzige Unbekannte ist dann der Cache-Takt, den mal leider nicht mit reduzieren kann. Dann wäre dieses Gerücht dass in 4K die Bandbreite ausgeht, endlich aus der Welt geschafft.
Die lediglich up to 58% Cache Hits in 4K vs die ca. 80% in FHD ist eben eine sehr einfache Erklärung für die relativ maue 4K Skalierung.
Das es direkt an der Bandbreite liegt sei dahingestellt, möglicherweise hat es auch mit dem on chip Power-Limit bzw. energy density zutun. Cache Misses kosten wesentlich mehr energie als Hits. Dadurch geht mehr Power für das GDDR SI, drauf, weshalb ggf. niedrigere Taktraten anliegen. Könnte mal jemand nachmessen.
aufkrawall
2021-01-26, 13:34:57
Die lediglich up to 58% Cache Hits in 4K vs die ca. 80% in FHD ist eben eine sehr einfache Erklärung für die relativ maue 4K Skalierung.
Ist es nicht, wenn die reale Bandbreite immer noch reicht.
möglicherweise hat es auch mit dem on chip Power-Limit bzw. energy density zutun. Cache Misses kosten wesentlich mehr energie als Hits. Dadurch geht mehr Power für das GDDR SI, drauf, weshalb ggf. niedrigere Taktraten anliegen. Könnte mal jemand nachmessen.
Man kann davon ausgehen, dass wegen Amperes Auslastungsproblem die Leistausgaufnahme dessen stärker mit der Auflösung steigt als von RDNA2.
davidzo
2021-01-26, 13:42:39
GCD würde ich auf 128MB und 240mm2 schätzen, ausser AMD kann and der Dichte des Chaches nochmals ordentlich auf Designebene schrauben.
Das wäre schlechtes scaling. TSMCs zahlen gehen von 91Mt/mm2 auf 171Mt/mm2 hoch bzw, ein Logiscaling über 1,8x. Und AMD geht doch afaik nicht auf Plain N5, sondern direkt auf N5P, da sollte das scaling gleichgut oder besser sein, selbst wenn AMD nur von 50-60Mt/mm2 in 7nm kommt.
Wenn SI, VCE, Etc. die fast 20% des DIEs von Navi21 ausmachen noch wegfallen rechne ich schon mit einem mehr als halbiertem DIE in N5P.
Nochmals 128mb, daran glaube ich nicht. Das war der beste Kompromiss für 7nm und AMD hat ja selber Kurven für die Skalierung verschiedener Cachegrößen veröffentlicht. Das kann man als Wink mit dem Zaunpfahl verstehen dass man das weiter ausbaut. Das Scaling von Cache ist immerhin 1,35x bei TSMCs 5nm, das ist schonmal nicht übel. Denke man hat Platz für 160 oder 192mb.
SI würde ich bei 256b bleiben. Ich sehe die Notwendigkeit für mehr aufgrund des IF$ nicht (ca. 4-5x Multiplikator @ 4K bei total 256MB --> 2-2.5TB/s effektiv).
Kommt halt drauf an wieviele chiplets du anschließt. Aber ja 256b wäre eher AMDs Stil und würde die Kosten und Power im Rahmen halten. Ist halt nur Chips+Package die dann mega teuer sind.
Du kannst den Cache nicht einfach zusammen rechnen, da er auf verschiedenen DIEs ist und über denselben IF-link verbunden wie der GDDR. Es sind nicht 256mb sondern 2x 128mb. Es wird wohl häufig sinnvoller sein einfach denselben Inhalt in beide Caches zu tun anstatt den langen Weg über den MCD zu sehen.
Bei 256bit geteilt durch zwei zu versorgende Chiplets musst du aber den Cache deutlich vergrößern.
Zumal 4K +RT in 2022 definitiv zum Standard wird.
Infinity Links können dementsprechend auf je 256GB/s pro Chiplet ausgelegt werden
[/LIST]
Zu wenig. das doppelte brauchst du schon. Aktuell brauchen 80CUs ja auch 512gb/s off DIE, das wird man nicht so schnell halbieren können, außer mit extrem viel cache.
Analog zu Zen1 und 2 brauchst du in etwa dieselbe Bandbreite zwischen den Chiplets wie zum DRAM, ansonsten skaliert das ganz awkward, bzw. musst du die CU Aufteilung erheblich in der SW berücksichtigen. Das will man lieber vermeiden.
Zur TSMC 7nm Frage:
Kann auch sein dass Samsung zum Einsatz kommt. AMD hat den Engpass bei TSMC sicher schon lange sehen kommen. Ist die Frage, wie das AMD mit TSMC verhandelt haben könnte, damit sie ihren "preferred Partner" Status nicht verlieren. Da TSMC voll ausgebucht ist und nicht die geforderte Menge liefern kann, wäre das aber ein Grund welcher AMD vorbringen kann.
Ziemlich ausgeschlossen imo. AMD hat sehr früh verlauten lassen dass man intensiv mit TSMC in Bezug auf EUV / 5nm zusammenarbeitet. Zudem zeigen die Wafershipments dass AMD schon einen nicht zu vernachlässigenden Teil an 5nm Wafern von TSMC bezieht.
Eine noch dichtere Zusammenarbeit gibt es beim Packaging. Samsung hat lediglich mobile technologien verfügbar wenn es um advanced packaging geht. Da Navi3x eine Chiplet Architektur wird, ist TSMC als Fertiger des Packages eigentlich schon gesetzt.
basix
2021-01-26, 13:43:06
Die lediglich up to 58% Cache Hits in 4K vs die ca. 80% in FHD ist eben eine sehr einfache Erklärung für die relativ maue 4K Skalierung.
Das es direkt an der Bandbreite liegt sei dahingestellt, möglicherweise hat es auch mit dem on chip Power-Limit bzw. energy density zutun. Cache Misses kosten wesentlich mehr energie als Hits. Dadurch geht mehr Power für das GDDR SI, drauf, weshalb ggf. niedrigere Taktraten anliegen. Könnte mal jemand nachmessen.
Ich bin der festen Überzeugung, dass die Bandbreite nicht das Problem ist. RDNA2 sieht bei der Skalierung genau gleich wie Turing aus. Und die effektive Bandbreite beträgt max. 1.6 TB/s, das ist 3.5x so viel bei bei N10, welcher nun nicht bandbreitenlimitiert ist. Auch wenn man nicht alles davon nutzen kann (kann man nie) sollte man noch reserven haben. Es kann sicher sein, dass der dynamische Takt des Caches dazu führt, dass man bei hoher Bandbreitenlast etwas bei den Core-Clocks zurückstecken muss. Aber wie gesagt, verglichen zu Turing sieht alles normal aus.
Das wäre schlechtes scaling. TSMCs zahlen gehen von 91Mt/mm2 auf 171Mt/mm2 hoch bzw, ein Logiscaling über 1,8x. Und AMD geht doch afaik nicht auf Plain N5, sondern direkt auf N5P, da sollte das scaling gleichgut oder besser sein, selbst wenn AMD nur von 50-60Mt/mm2 in 7nm kommt.
Wenn SI, VCE, Etc. die fast 20% des DIEs von Navi21 ausmachen noch wegfallen rechne ich schon mit einem mehr als halbiertem DIE in N5P.
Naja, neue Architektur heisst für mich ausgebaute Features. Erweiterte Raytracing Fähigkeiten usw. müssen berücksichtigt werden. Kleiner ist immer gut (würde ich mir auch wünschen).
Nochmals 128mb, daran glaube ich nicht. Das war der beste Kompromiss für 7nm und AMD hat ja selber Kurven für die Skalierung verschiedener Cachegrößen veröffentlicht. Das kann man als Wink mit dem Zaunpfahl verstehen dass man das weiter ausbaut. Das Scaling von Cache ist immerhin 1,35x bei TSMCs 5nm, das ist schonmal nicht übel. Denke man hat Platz für 160 oder 192mb.
128MB pro Chiplet = ~256MB total ;) Mehr ist sicher toll, aber eine Kosten/Nutzen Frage. Der Hammer wäre 3D-Stacked eDRAM oder was auch immer mit höherer Density und günstigeren Herstellungskosten ;)
Kommt halt drauf an wieviele chiplets du anschließt. Aber ja 256b wäre eher AMDs Stil und würde die Kosten und Power im Rahmen halten. Ist halt nur Chips+Package die dann mega teuer sind.
Du kannst den Cache nicht einfach zusammen rechnen, da er auf verschiedenen DIEs ist und über denselben IF-link verbunden wie der GDDR. Es sind nicht 256mb sondern 2x 128mb. Es wird wohl häufig sinnvoller sein einfach denselben Inhalt in beide Caches zu tun anstatt den langen Weg über den MCD zu sehen.
Bei 256bit geteilt durch zwei zu versorgende Chiplets musst du aber den Cache deutlich vergrößern.
Zumal 4K +RT in 2022 definitiv zum Standard wird.
Ja, 2x 128 sind korrekter als 1x 256MB. Ich gehe aber davon auss, dass AMD hier etwas tuned, damit das für den Chip eher nach 2x 1440p als nach 2x 4K aussieht. Das passt dann besser für 2x 128MB ;)
Zu wenig. das doppelte brauchst du schon. Aktuell brauchen 80CUs ja auch 512gb/s off DIE, das wird man nicht so schnell halbieren können, außer mit extrem viel cache.
Analog zu Zen1 und 2 brauchst du in etwa dieselbe Bandbreite zwischen den Chiplets wie zum DRAM, ansonsten skaliert das ganz awkward, bzw. musst du die CU Aufteilung erheblich in der SW berücksichtigen. Das will man lieber vermeiden.
Da hast du recht. 256GB/s sind das Minimum. Wie gross der Overhead dann wird: Keine Ahnung. Möglichst minimal wird sicher das Ziel von AMD sein. Deswegen gibt es den Chip wahrscheilich auch schon seit Früjahr 2020: Testen, optimieren, testen.
Ziemlich ausgeschlossen imo. AMD hat sehr früh verlauten lassen dass man intensiv mit TSMC in Bezug auf EUV / 5nm zusammenarbeitet. Zudem zeigen die Wafershipments dass AMD schon einen nicht zu vernachlässigenden Teil an 5nm Wafern von TSMC bezieht.
Eine noch dichtere Zusammenarbeit gibt es beim Packaging. Samsung hat lediglich mobile technologien verfügbar wenn es um advanced packaging geht. Da Navi3x eine Chiplet Architektur wird, ist TSMC als Fertiger des Packages eigentlich schon gesetzt.
Klar, TSMC ist naheliegender. Samsung wäre einfach die einzige echte Alternative. Verträge sind das eine, aber teschnisch sollte es schon machbar sein (siehe Nvidia Ampere). Bei den kleinen Chips kann es auch auf monolothisch hinauslaufen. Oder man schickt die Chips zu TSMC (siehe GloFo IOD von Zen).
robbitop
2021-01-26, 14:23:20
@davidzo
Es kann auch gut sein, dass Ampere bei hohem Geometrie zu Pixelverhältnis (also niedrigen Auflösungen) etwas niedrigere Auslastung der SMs hat. Man darf nicht vergessen, dass die SMs nun doppelt so viel FP Ressourcen haben. Die muss man auch erstmal auslasten können. Je mehr Pixel, desto größer die Aufgabengröße, desto besser ist die Voraussetzung für eine Auslastung.
Die sinkende Hitrate mit steigender Auflösung kann sich natürlich negativ für RDNA2 auswirken. Die Frage ist allerdings, ob und wo sie limitiert. Es besteht auch die Möglichkeit, dass selbst 58% Hitrate genügen, damit es nicht zum Flaschenhals wird. 58% Hitrate bedeutet ja, dass nur 42% der Anfragen daneben laufen und somit über das SI laufen - statt ohne IF cache 100%. Das ist immer noch sehr sehr gut.
Es könnte also am Ende genau andersherum sein. :)
dargo
2021-01-26, 14:28:31
Jetzt wo du eine RDNA2-Karte hast, könntest du ja mal einen Skalierungstest machen :D.
Erst GPU- und Speichertakt reduzieren (sollte dann ca. 1:1 Leistung verlieren) und dann Speichertakt anheben. Die einzige Unbekannte ist dann der Cache-Takt, den mal leider nicht mit reduzieren kann. Dann wäre dieses Gerücht dass in 4K die Bandbreite ausgeht, endlich aus der Welt geschafft.
Erstens ist mir das zu viel Arbeit. Wenn man verlässliche Ergebnisse haben will brauchst du mehrere Runs gemittelt pro Test, ich werde dafür schließlich nicht bezahlt. Zweitens weiß ich nicht ob eine Speichertaktsenkung bei N21 nicht problematisch ist wie schon bei N10. Als ich das mit N10 über MPT (über Treiber gehts nicht) damals probiert hatte war die Karte am rumspinnen.
btw.
Eine Reduzierung der Rohleistung über den GPU-Takt ist auch nicht zielführend. Schließlich läuft die Karte in den Games auch nicht mit wesentlich weniger GPU-Takt. Der IHV sucht den besten Kompromiss aus Kosten/Nutzen für seine gewählte Rohleistung.
fondness
2021-01-26, 14:59:32
@davidzo
Es kann auch gut sein, dass Ampere bei hohem Geometrie zu Pixelverhältnis (also niedrigen Auflösungen) etwas niedrigere Auslastung der SMs hat. Man darf nicht vergessen, dass die SMs nun doppelt so viel FP Ressourcen haben. Die muss man auch erstmal auslasten können. Je mehr Pixel, desto größer die Aufgabengröße, desto besser ist die Voraussetzung für eine Auslastung.
Die sinkende Hitrate mit steigender Auflösung kann sich natürlich negativ für RDNA2 auswirken. Die Frage ist allerdings, ob und wo sie limitiert. Es besteht auch die Möglichkeit, dass selbst 58% Hitrate genügen, damit es nicht zum Flaschenhals wird. 58% Hitrate bedeutet ja, dass nur 42% der Anfragen daneben laufen und somit über das SI laufen - statt ohne IF cache 100%. Das ist immer noch sehr sehr gut.
Es könnte also am Ende genau andersherum sein. :)
Man darf die Dinge schon auch beim Namen nennen. Eine 6900XT hat 5120 FP32 ALUs, eine RTX 3090 hat 10.496 FP32 ALUs, bei der resultierende Leistung ist die 3090 <10% vorne. Also wer hier ein Auslastungsproblem hat ist offensichtlich.
robbitop
2021-01-26, 15:07:39
Ja aber die Frage ist immer was der Bottleneck ist. FP Leistung ist es offenbar nicht zu 100% in Spielen. :)
Es war vermutlich eine relativ transistor-günstige Möglichkeit, die Leistung anzuheben. Mich würde es nicht wundern, wenn AMD das für ihre CUs in Zukunft auch in Betracht zieht.
Am Ende ist es vermutlich am wichtsten wie viel Leistung man pro mm² und pro W erzeugen kann. Diese Charakteristik ist sicherlich auch immer stark davon abhängig davon welche Charakteristik die Spiele zum jeweiligen Zeitpunkt haben. Das ist ja auch nicht statisch. :)
davidzo
2021-01-26, 15:15:04
Klar, TSMC ist naheliegender. Samsung wäre einfach die einzige echte Alternative. Verträge sind das eine, aber teschnisch sollte es schon machbar sein (siehe Nvidia Ampere).
Navi 31 ist bei Samsung eben nicht technisch machbar. Sobald nvidia irgendeine Art von advanced packaging nutzt kommt der Chip von TSMC, nicht von Samsung, siehe A100. Heißt: Wenn Chiplet, dann sicher von TSMC. Und Chiplets gelten für Navi31 als gesichert.
Ist auch quatsch. Intel hat auch GloFo-Chips auf EMIB verbaut. Wir kommt man auf so einen Quatsch? AMDs IOD ist GloFo und bleibt sicherlich auch GloFo in der nächsten Generation und auch bei RDNA3. Natürlich kann der von TSMC verpackt werden. Der Chip wird doch gebaut wie AMD den haben will, da ist der Hersteller total egal.
basix
2021-01-26, 16:50:21
Navi 31 ist bei Samsung eben nicht technisch machbar. Sobald nvidia irgendeine Art von advanced packaging nutzt kommt der Chip von TSMC, nicht von Samsung, siehe A100. Heißt: Wenn Chiplet, dann sicher von TSMC. Und Chiplets gelten für Navi31 als gesichert.
Es ging dort (und ich sprach) explizit um kleinere N3x Ableger. N31 ist klar, der wird von TSMC kommen. Aber N32/33 oder was auch immer würde die knappe Fertigungskapazität bei TSMC abfedern. Nur um das ging es. Und ein kleiner 20-40 CU Chip wird nicht als Chiplet sondern monolithisch kommen, egal ob von TSMC oder Samsung.
Rest siehe Aussage HOT. Alles in der selben Foundry ist sicher optimaler aber unmöglich ist es nicht.
Leonidas
2021-01-27, 10:27:10
Navi 31 tape-out was March 2020
https://www.3dcenter.org/news/hardware-und-nachrichten-links-des-26-januar-2021
(inkl. meines Zweifels darüber)
Wieso Zweifel? Ist doch absolut plausibel, den Chip zum möglichst frühen Zeitpunkt fertigzustellen, da dieser ja sehr sehr sicher eh einen kompletten Respin braucht, um das Chiplet-Design zu optimieren. AMD hat das einfach einkalkuliert.
Diese Variante wird ja auch N5 sein, der damals noch in Risc-Fertigung war. Die finale Variante ist sicherlich N5+ bzw. N5P, auf jeden Fall irgendwas angepasstes. Man darf hier denke ich keine klassischen Entwicklungsmaßstäbe ansetzen.
Leonidas
2021-01-27, 10:57:50
Möglicherweise ist das die Erklärung. Der Zeitraum wäre dennoch massiv hoch, wenn man sich ansieht, wie stark NV diese Zeiträume zuletzt eingedampft hat. Da hat kaum noch ein Chip-Projekt wesentlich mehr als ein halbes Jahr zwischen Tape-Out und Release gebraucht.
Iscaran
2021-01-27, 11:06:33
Man darf die Dinge schon auch beim Namen nennen. Eine 6900XT hat 5120 FP32 ALUs, eine RTX 3090 hat 10.496 FP32 ALUs, bei der resultierende Leistung ist die 3090 <10% vorne. Also wer hier ein Auslastungsproblem hat ist offensichtlich.
So einfach ist das bei Ampere nicht.
Es sind 5.248 Cores...die bei ABWESENHEIT von INT-Operationen 2x FP32 output liefern. ==> Daher kommt die "Rechnung" von 10.496 FP32 ALUs.
Nur sind es eben keine 10.496 - sondern deren nur 5.248 die durch einen cleveren Technischen Kniff in spezialfällen "verdoppelt" werden.
Also sind es streng nach "Leistung" 5120 vs 5248 (+x% von 5248).
Aus der effektiven Leistungsdifferenz (und taktnormiert) kann man also in gewissem Sinne zurückrechnen wieviel % der Zeit die "10.496" zum Tragen kommen. Bzw. Wieviel % der Zeit KEINE Int-Ops am GPU-Kern anliegen.
nVidia nahm an dass die INT-Ops ca 30% der Zeit anliegen würden...WENN das so wäre müsste eigentlich 5.248 + (1-0.3 *5.248) ALUs mit enstprechend Output da sein.
TATSÄCHLICH finden wir viel weniger. (Wie du gesagt hast "effektiv sind die 5.248 + X% nur ~10% schneller als die 5.120).
Gipsel
2021-01-27, 11:24:22
Also sind es streng nach "Leistung" 5120 vs 5248 (+x% von 5248).
Aus der effektiven Leistungsdifferenz (und taktnormiert) kann man also in gewissem Sinne zurückrechnen wieviel % der Zeit die "10.496" zum Tragen kommen. Bzw. Wieviel % der Zeit KEINE Int-Ops am GPU-Kern anliegen.
nVidia nahm an dass die INT-Ops ca 30% der Zeit anliegen würden...WENN das so wäre müsste eigentlich 5.248 + (1-0.3 *5.248) ALUs mit enstprechend Output da sein.Und bei RDNA fallen die Ergebnisse der INT-Ops vom Himmel? Wenn Du das schon unbedingt so vergleichen willst, kannst Du den Anteil der INT-Ops bei AMD von der ALU-Zahl abziehen (mindestens hälftig, weil die Skalar-ALUs eventuell einen Teil davon übernehmen können [aber längst nicht alle!]).
Also worst case: 5120 * 0,7 = 3584 für FP32 zur Verfügung stehende ALUs bei Navi21.
Realistischer sind vielleicht 5120 * 0,85 = 4352.
Und bei nV haben wir Deine 5248 * 1,7 = 8921 oder so, immer noch locker das Doppelte.
Also das erklärt gar nichts und hilft überhaupt nicht, den theoretischen ALU-Leistungsvorteil von nV einzudampfen. ;)
davidzo
2021-01-27, 11:37:42
Möglicherweise ist das die Erklärung. Der Zeitraum wäre dennoch massiv hoch, wenn man sich ansieht, wie stark NV diese Zeiträume zuletzt eingedampft hat. Da hat kaum noch ein Chip-Projekt wesentlich mehr als ein halbes Jahr zwischen Tape-Out und Release gebraucht.
Wieso der Zeitraum zwischen RDNA1,2,3 ist doch voll okay, bisher sogar enger als NV Generationen.
Ich glaube das liegt an einer geänderten Form des Projektmanagements bei AMD. Die arbeiten jetzt in den Projektphasen mit SCRUM, also ähnlich wie das viele erfolgreiche Softwareentwicklerteams tun.
Das heißt man bringt erstmal ein MVP heraus und iteriert dann daran bis man ein launchbares Produkt hat, später vielleicht ein zweites, drittes.
Chips werden nicht erst releast "wenn alle features fertig sind" wie bei Intel, sondern es gibt in jedem Projekt einen "feature freeze" zu einem festen Zeitpunkt und Features die bis dahin nicht fertig entwickelt und getestet wurden, werden eben erst im nächsten oder übernächsten Produkt implementiert.
Ich denke schon dass bei der Konzeption von RDNA als ganzes der Chiplet Ansatz im Vordergrund stand. Dafür müsste man klar die Bandbreite zwischen den Chips um mehrere Größenordnungen verbessern, Bzw. den Off-chip Bandbreitenbedarf reduzieren.
RDNA1 ist dann das logische erste, weil einfachste MVP: Eine Architektur die Bandbreitenschonend ist, gut skalierbar und einigermaßen Energieefizient.
RNDA2 ist der nächste Zwischenschritt: Reduktion des Off-chip Bandbreitenbedarfs. Der Interconnect war einfach noch nicht fertig, außerdem war das ganze in 7nm einfach noch zu groß. Auch ohne SI wäre das Chiplet immer noch 450mm2 groß, das wäre allgemein zu viel für 2 chiplets. Immerhin haben es die xGMI Links schon hinein geschafft, es würde mich also nicht wundern wenn AMD im stillen Kämmerlein auch schon prototypenboards mit 2x Navi21 testet.
Iscaran
2021-01-27, 11:42:35
Und bei RDNA fallen die Ergebnisse der INT-Ops vom Himmel? Wenn Du das schon unbedingt so vergleichen willst, kannst Du den Anteil der INT-Ops bei AMD von der ALU-Zahl abziehen (mindestens hälftig, weil die Skalar-ALUs eventuell einen Teil davon übernehmen können [aber längst nicht alle!]).
Also worst case: 5120 * 0,7 = 3584 für FP32 zur Verfügung stehende ALUs bei Navi21.
Realistischer sind vielleicht 5120 * 0,85 = 4352.
Und bei nV haben wir Deine 5248 * 1,7 = 8921 oder so, immer noch locker das Doppelte.
Also das erklärt gar nichts und hilft überhaupt nicht, den theoretischen ALU-Leistungsvorteil von nV einzudampfen. ;)
AFAIK liefert die RDNA Architektur die INT-Ops "parallel" zu den FPs...da muss nix abgezogen werden.
Zumindest lese ich das im Whitepaper so.
Ja, es stimmt Ampere sollte einen deutlicheren Vorteil in Power haben - bringt davon aber nur 10% auf die Strasse. Ich wollte lediglich darauf hinweisen, das man es eben NICHT so einfach vergleichen kann 5120 vs 10496.
mksn7
2021-01-27, 11:46:14
Die Performance von Spielen ist wohl nicht allzu oft vom reinen Rechendurchsatz, sei es integer oder float, limitiert. Speicherbandbreite (sowohl RAM als auch Caches), Speicherlatenz, Geometrie/Rasterdurchsatz, nicht genug Parallelität/Auslastung... Während der Berechnung eines Frames laufen ganz unterschiedliche Sachen mit unterschiedlichen bottle necks.
Die Infrastruktur (Datenpfade) waren schon da, daher war es wohl nicht so aufwändig die noch FP32 fähig zu machen. Und manchmal bringt es wohl doch was.
davidzo
2021-01-27, 11:48:26
AFAIK liefert die RDNA Architektur die INT-Ops "parallel" zu den FPs...da muss nix abgezogen werden.
Zumindest lese ich das im Whitepaper so.
Ja, es stimmt Ampere sollte einen deutlicheren Vorteil in Power haben - bringt davon aber nur 10% auf die Strasse. Ich wollte lediglich darauf hinweisen, das man es eben NICHT so einfach vergleichen kann 5120 vs 10496.
Ist hier zwar OT, aber wie kommst du eigentlich auf die 10%? Ich dachte immer das sind 30% und + 5% mehr Takt was zwischen Ampere und Turing bei gleichem SM Count liegt.
Cyberfries
2021-01-27, 12:13:58
Das Verhältnis von FP32 zu INT32 ist angeblich (https://www.computerbase.de/2018-09/nvidia-geforce-rtx-architektur/2/) 100:36.
Aber auch mit 5120 vs 7718 ist der Vergleich noch schlecht, da die Taktraten fehlen.
Dann sinds etwa 2,3*5120 = 11776 vs 1,8*7718 = 13892
Und damit 18% Rohleistungsdifferenz gegen 11% Realdifferenz zwischen 6900xt und RTX3090
Zu N31:
Die Treibereinträge lagen auch bereits sehr früh vor. Wenn AMD tatsächlich die Schlagzahl erhöht
und jährlich eine neue Generation auflegt ist der genannte Tapeout nicht unmöglich.
Dennoch, eine neue Generation zum Jahresende wenn die aktuelle noch nicht wirklich verfügbar ist?
Gipsel
2021-01-27, 12:20:39
AFAIK liefert die RDNA Architektur die INT-Ops "parallel" zu den FPs...da muss nix abgezogen werden.
Zumindest lese ich das im Whitepaper so.Das liest Du falsch. INT-Ops gehen nicht parallel zu FP-Ops in den Vektor-ALUs. AMD hat nur FP/INT-Kombi-ALUs (ähnlich wie die eine Hälfte bei nV) in den Vektoreinheiten. Nur falls in allen Elementen einer Wavefront die exakt identische Rechnung (nicht Operation) ausgeführt wird (und der Compiler das auch erkennt), kann das (wie ein Großteil der Steuerung des Kontrollflusses eines Shaderprogramms) auf die Skalar-ALU ausgelagert werden. Das geht längst nicht immer (bei Adress-Berechnungen ist das halbwegs wahrscheinlich). Wenn z.B. wirklich Integer-Arithmetik in jedem "Thread" ausgeführt werden soll, geht das schon mal gleich gar nicht. Dann heißt es entweder FP oder INT. Es geht pro Takt maximal eine Vektor-Instruktion pro SIMD. Wenn Du also bei nV die Anzahl der FP32-ALUs mit dem Integer-Anteil runterrechnest, mußt Du das bei AMD auch machen (für den Anteil, der nicht auf die Skalar-ALUs geht), womit wir (wie gezeigt) im Schnitt wohl wieder grob da landen, wo wir angefangen haben.
Aber wie mskn7 schon angedeutet hat, dürfte das oft nicht wirklich entscheidend sein (zusätzlich zu den genannten Punkten habe ich auch den leisen Verdacht, daß die Anzahl der Register-Ports bzw. -Bänke bei nV eventuell nicht ausreicht, um in jeder Situation genügend Operanden für alle ALUs ranzuschaffen; bei älteren nv-GPUs war das ja auch schon mal so; spart halt Aufwand [und Strom] bei den Registern [ein wesentlicher Stromfresser bei GPUs]).
mboeller
2021-01-27, 14:59:57
Möglicherweise ist das die Erklärung. Der Zeitraum wäre dennoch massiv hoch, wenn man sich ansieht, wie stark NV diese Zeiträume zuletzt eingedampft hat. Da hat kaum noch ein Chip-Projekt wesentlich mehr als ein halbes Jahr zwischen Tape-Out und Release gebraucht.
doch. Navi 21 anscheinend. Tape-out Gerüchte gab es im Dez. 19. Also min. 10, eher 12 Monate bis zum Release.
Iscaran
2021-01-27, 15:10:23
Das Verhältnis von FP32 zu INT32 ist angeblich (https://www.computerbase.de/2018-09/nvidia-geforce-rtx-architektur/2/) 100:36.
Aber auch mit 5120 vs 7718 ist der Vergleich noch schlecht, da die Taktraten fehlen.
Dann sinds etwa 2,3*5120 = 11776 vs 1,8*7718 = 13892
Und damit 18% Rohleistungsdifferenz gegen 11% Realdifferenz zwischen 6900xt und RTX3090
Danke ! für die genauere Rechnung. Es sind also eben nur +18% vs +11% und eben nicht 5120 vs 10496 = 100 % vs 200%
Genau was ich sagen wollte. Der Takt haut halt auch nochmal ordentlich rein.
Der_Korken
2021-01-27, 16:11:57
Das Verhältnis von FP32 zu INT32 ist angeblich (https://www.computerbase.de/2018-09/nvidia-geforce-rtx-architektur/2/) 100:36.
Aber auch mit 5120 vs 7718 ist der Vergleich noch schlecht, da die Taktraten fehlen.
Dann sinds etwa 2,3*5120 = 11776 vs 1,8*7718 = 13892
Und damit 18% Rohleistungsdifferenz gegen 11% Realdifferenz zwischen 6900xt und RTX3090
Bei den 5120 der 6900XT muss man auch noch was abziehen, siehe Gipsels Post. Nimm mal die 5120*0,85 = 4352 (ebenfalls Vorschlag von Gipsel), dann kommst du nicht auf 18% mehr Rohleistung für die RTX3090, sondern auf 39%. Und wenn man 5120/1,36 = 3764 nimmt (worst case) sogar auf 60%.
Aber gut, man kann auch wieder sagen, Nvidia bekommt trotz Tensor- und RT-Cores ca. doppelt so viele ALUs im selben Transistorbudget unter, insofern ist der hohe ALU-Count von Nvidia nicht direkt ein Qualitätsmangel. Aber sicherlich kurios, weil sich das Verhältnis zwischen Maxwell/Pascal und GCN jetzt umgekehrt hat.
Iscaran
2021-01-27, 16:48:55
Bei den 5120 der 6900XT muss man auch noch was abziehen, siehe Gipsels Post.
Nein da RDNA AFAIK ALLE Int OPS zu 100% parallel und "concurrent" zu den FP ops durchsetzt. (Ampere macht das ja auch)
Es gibt hier nur DANN ein Bottleneck wenn die notwendigen Int OPS die Chipleistung (INT) übersteigen. Was aber ja laut nVidias Messungen praktisch nie der Fall ist da Int nur einen kleinen Teil ausmacht.
nVidia hat hier einen cleveren Trick eigentlich gemacht diese "teilweise" brachliegende INT-Power zu nutzen. Nämlich immer dann wenn kein INT-gebraucht wird kann Ampere auf den existierenden (und bei Ampere entsprechend angepassten INT-Pfaden) eine FP32 Operation ZUSÄTZLICH ausführen.
Der Trick ist also das Ampere hier "zusätzliche" FP32 generieren kann WENN die parallel anliegende INT-Last "gering" ist.
Scheinbar ist diese aber nicht so "gering" in Gaming Workloads wie das nVidia uns erzählt. Sonst würde mehr von Amperes Leistung auch ankommen.
In speziellen Benchmarks wo man den Int-Teil extra auf fast 0 bringen kann sieht man ja auch dass Ampere die praktisch doppelte FP-Leistung erzielt.
Gipsel
2021-01-27, 16:58:31
Nein da RDNA AFAIK ALLE Int OPS zu 100% parallel und "concurrent" zu den FP ops durchsetzt.Das ist schlicht falsch.
The computational power of the dual compute unit resides in the SIMDs, which have been comprehensively enhanced for greater performance and additional capabilities. The SIMD vector execution pipeline contains several types of execution units. Each SIMD can only issue one wavefront per clock to the vector ALUs [..]Und die eine Wavefront bekommt halt auch nur genau eine Vektor-Instruktion: entweder FP oder INT.
mksn7
2021-01-28, 09:54:32
In speziellen Benchmarks wo man den Int-Teil extra auf fast 0 bringen kann sieht man ja auch dass Ampere die praktisch doppelte FP-Leistung erzielt.
Dass Ampere in Spielen nicht doppelt so schnell ist pro Takt liegt nicht an den integer instructions. Würde man noch eine zusätzliche integer unit hinzufügen, also 2x FP32 und 1x Int, wäre der chip kaum schneller. Nochmal: die meiste Zeit in so einem frame limitiert einfach was anderes.
Klar, wenn man einen code schreibt der fast ausschließlich in den Registern (loads sind nicht ok, jeder load belegt einen issue slot) rechnet (und wenn man die Operationen sorgfältig arrangiert, damit man nicht eventuell, wie Gipsel vermutet, in eine Registerbandbreitenlimitierung rennt), dann kommt man tatsächlich auf die doppelte FP rate. Aber Berechnungen die in echt auch irgendwas bringen, brauchen einen input, und einen output. Die 3080 hat eine absurde single precision machine balance von 39 Flop/B, oder 156 Flops pro Transfer aus dem RAM. Es ist halt einfach selten dass ein code, der auch irgendwas echtes berechnet, das erreicht (Ausnahmen sind z.B. matrix multiplikation oder nbody, ehrlich gesagt weiß ich nicht welche das bei Echtzeigrafik wären).
robbitop
2021-01-28, 10:37:36
Volle Zustimmung mksn7 :up:
Das kann sich natürlich mit zukünftigen Spielen ändern, sofern sich dort die Anforderungen mehr in Richtung Arithmetik verschieben. :)
vinacis_vivids
2021-01-28, 10:50:57
Bei "gaming-Case" bspw. im multiplayer gibt es die "zufällige" instruction input von Spieler und anderen Spielern durch den Server, so dass die extreme hohe FP32 Leistung der 3080 zum größten Teil brach liegt, liegen muss. Warum?
user&server instructions -> CPU -> CPU-Cache -> GPU->GPU-L0-Cache <-> GPU-L1-Cache -> GPU-L2-Cache
Die Kommnukationsbandbreite zwischen L0 und L1 wird per clk bestimmt, und da ist RDNA mit höherem Takt Ampere deutlich überlegen.
Bei Ampere drehen die FP32-Units däumchen, weil die Kommunikation zwischen dem Speicher und die CU`s zu langsam ist.
Bei reinen instruction code, der sich immer wiederholt und viele Variablen fest sind ohne viel zufälligen input, ist Ampere schneller als RDNA. Also liegen die Vorteile bei Ampere beim compute und weniger beim Gaming.
Dass bei den HPC, AI, Machine Learning Sachen doch noch ein bisschen abfällt für die PC-Gamer, zeigt, dass Nvidia sich technisch den "höheren" Rechensachen zugewandt und gleichzeitig dem allgemeinen PC-Gamer abgewandt hat.
Das große Geld fließt in der Automobilindustrie, Simulationen, Robotik, Mining und Data-Center. Für die kleinen Nischen im Gaming hat/wird Nvidia keinen zusätzlichen Gaming-Chip auflegen.
Genau deswegen hat Lisa Su auch immer erwähnt, dass AMD RDNA rein für Gamer geschaffen wurde.
Für Compute gibs CDNA wenn ihr Ampere damit vllt. lieber damit vergleichen wollt:
https://www.amd.com/system/files/documents/instinct-mi100-brochure.pdf
robbitop
2021-01-28, 10:59:40
Eine GPU berechnet immer einen vollen Frame. In der Regel liegen zwischen Input und eigentlichem Rendering je nach Engine sogar mehrere Frames.
Der Input des Spielers hat null Einfluss auf den Frame, den die GPU Rendert. Denn der liegt da bereits in der Vergangenheit.
Die relative Performance in spezifischen Anwendungen zwischen verschiedenen uArchs hängt mit der Charakteristik der jeweiligen Anwendung und wie gut sie zur Charakteristik der uArch passt.
unl34shed
2021-01-28, 11:05:43
Das ergibt keinen Sinn. L0 zu L1 hängt von der clock ab, was danach mit den Daten passiert aber auch. Das gleicht sich also aus. Solange beide Architekturen hier eine ähnliche Bandbreite pro Int/FP vorne haben ist es prinzipiell egal.
Sollte Nvidia hier wirklich einen Flaschenhals haben, wäre das Imho ein Designfehler.
vinacis_vivids
2021-01-28, 15:04:35
Nvidia liegt einfach hinten was perf/watt, also Effizienz angeht.
Wahrscheinlich ist der Chip zu groß und das breite SI frisst einfach zu viel Strom beim Datenschaufeln, wodurch die zu schnell ins power Limit geht.
RTX3080 @ 1.75 Ghz ~ 30,4 fp32 Tflop/s
RX6800XT @ 2.15 Ghz ~ 19,8 fp32 Tflop/s
Das sind theoretisch >50% mehr Rohleistung bzw. Rechenleistung im Vergleich. Und brauchen die grünen hardliner auch nichts beschönigen. Ein haufen heißer Luft wird produziert ohne die nötigen frames auf den Bildschirm zu bringen. Das ist einfach schwach und viel verschwendet.
In neueren Games, was ja den Anspruch der Optimierung hat, fällt die RTX3080 sogar weiter zurück.
@robbitop
Das stimmt so nicht. Mit Async Compute hat AMD schon seit längeren die Parallelisierung zwischen CPU und GPU angeregt. Was bedeutet das genau: In der gleichen Zeit, wo die GPU rechnet, ist sie in der Lage instructions von der CPU aufzunehmen. Parallel = gleichzeitig = zur gleichen zeit = Gegenwart.
Die Info gibs seit 2016, 5 Jahre her und somit nicht mehr so neu robbitop ;-)
Das White Paper seit 2012
http://developer.amd.com/wordpress/media/2012/10/Asynchronous-Shaders-White-Paper-FINAL.pdf
Wir haben jetzt Jahr 2021 und die Info ist bei dir noch nicht angekommen, weshalb du auch sowas schreibst ...
https://abload.de/img/asynccompute13jwy.png
maximus_hertus
2021-01-28, 15:20:53
Und brauchen die grünen hardliner auch nichts beschönigen. Ein haufen heißer Luft wird produziert ohne die nötigen frames auf den Bildschirm zu bringen. Das ist einfach schwach und viel verschwendet.
Trotzdem kauft die große Mehrheit nV und wird es auch wahrscheinlich weiter tun.
Ja, es ist nur ein einziges Spiel, aber wenn ich mir Cyberpunk ansehe, dann liegt AMD dramatisch zurück. Klar, es ist nicht ganz"fair" bei DLSS vs no-DLSS, aber als USer interessiert es nicht, wie und warum etwas bei AMD nciht klappt. Bei Team Grün geht es. Simple as that.
Ich bin daher extrem gespannt auf das AMD-Äquivalent. Ich hoffe das da bald was zu kommt.
robbitop
2021-01-28, 16:02:54
Asynchronous Compute hat damit IMO wenig zu tun. Das ist eher eine Art SMT für die FPUs. Lücken aus wavefronts werden mit anderen gefüllt. Das hat aber nichts mit dem Input zu tun. Der Input ist zum Renderzeitpunkt mehrere Frames alt.
unl34shed
2021-01-28, 16:34:25
Das Bild kommt von einem DX11 vs DX12 Vergleich:
https://www.extremetech.com/wp-content/uploads/2015/08/GPU-Pipelines.jpg
stinki
2021-01-28, 17:10:49
Könnte man eigentlich auch nur den IF$ und den Memory Controller in das MCD packen und alles andere im GCD belassen? Oder würde die Verbindung zum IF$ das Konzept killen (1024Bit Bus)? Und welche Bandbreite bräuchte man dann zwischen den beiden GCD Chips?
Wie macht das Intel denn mit dem Rambo Cache auf ihrem HPC Chip? Und wo sitzt bei Intel der Memory Controller?
GCD:
- @ 5nm TSMC
- 80CU Chiplets wie Navi21 nur ohne IF$
- 16*64bit Infinity Fabric to MCD
- 2x-4x Infinity Fabric Links to other GCD
MCD:
- @ 7nm TSMC
- 256bit GDDR6
- 128-256mb IF$
- 16*64bit Infinity Fabric to GCD
aufkrawall
2021-01-28, 17:15:44
Ich nehme an, dass Tesla, wie auch schon SpaceX, auf Linux setzt, und damit also den Open Source amdgpu Kernel-Treiber. =)
davidzo
2021-01-28, 17:20:19
Könnte man eigentlich auch nur den IF$ und den Memory Controller in das MCD packen und alles andere im GCD belassen? Oder würde die Verbindung zum IF$ das Konzept killen (1024Bit Bus)?
Wie macht das Intel denn mit dem Rambo Cache auf ihrem HPC Chip? Und wo sitzt bei Intel denn der Memory Controller?
GCD:
- @ 5nm TSMC
- 80CU Chiplets wie Navi21 nur ohne IF$
- 16*64bit Infinity Fabric to MCD
- 2x-4x Infinity Fabric Links to other GCD
MCD:
- @ 7nm TSMC
- 256bit GDDR6
- 128-256mb IF$
- 16*64bit Infinity Fabric to GCD
Intel verwendet einen gigantischen Interposer und TSVs. Das erfordert ein gänzlich anderes chipdesign mit komplett neuen libaries, weil da plötzlich zahnstocherartige durch den DIE gehen die man berücksichtigen muss.
Das ist für einen Consumerchip weder praktikabel noch günstig, dann hätte man gleich bei HBM+Interposer bleiben können.
Den Cache auf das MCD zu packen erhöht nur die Anforderungen an die IFlinks, denn diese müssen zusätzlich die Cachebandbreite zur Verfügung stellen, was man bei der aktuellen Technologie eigentlich ausschließen kann.
Falls man diese off Chip Bandbreite mit der aktuellen packaging technologie erreichen könnte, würde man wohl viel eher den halben L3 und das halbe SI mit auf den GCD packen, weil das dann viel einfacher über die SKUs skaliert. Da gibt es keinen Bedarf für ein MCD mehr.
Das wäre so ziemlich das was AMD bereits als Patent eingereicht hat:
https://www.extremetech.com/gaming/318818-amd-files-patent-for-its-own-gpu-chiplet-implementation
In dem Fall ist der L3 über die Crossbar geshared, während der L2 kohärent gehalten wird.
Das packt natürlich immense Last auf die Crossbar, weshalb sich AMD ja den leaks nach eher für die Lösung mit lokalen Caches und MCD entschieden hat.
Die lokalen L3s haben dann viel deduplication und das verringert den Gang zum anderen Chiplet. Deshalb lässt sich dann auch nicht von 256mb cache, sondern nur von 2x 128mb sprechen, da beide praktisch denselben Inhalt haben. Der Aufwand für Kohärenz, d.h. Abgleich ist aber auch nicht zu vernachlässigen, das ist auch viel Treiberarbeit und es würde mich nicht wundern wenn AMD hier auch noch eine secret sauce in petto hat.
robbitop
2021-01-28, 18:34:37
Sind wir sicher, dass Intel einen großen Interposer verwendet? Ich glaube sie listen EMIB. Entsprechend ist der Interposer im Package nur dort eingelassen, wo man Verbindungen erwartet, oder?
vinacis_vivids
2021-01-28, 18:55:44
Asynchronous Compute hat damit IMO wenig zu tun. Das ist eher eine Art SMT für die FPUs. Lücken aus wavefronts werden mit anderen gefüllt. Das hat aber nichts mit dem Input zu tun. Der Input ist zum Renderzeitpunkt mehrere Frames alt.
Du zeigst es wieder einmal, dass du es nicht verstanden hast und verbreitest weiterhin dein Unwissen bzw. dein veraltetes (durchaus richtiges) Wissen.
Async Compute ermöglicht die unterbrechungsfreie Abarbeitung von Rendering-Instructions mit hoher Priorität während andere Instructions mit niedrigerer Priorität unabhängig auf einer anderen Warteschlange abgearbeitet werden ohne die Abarbeitungsgeschwindigkeit auf der high-priority zu beeinflussen.
Dabei kommt permanent der Hintergrundinput von der CPU mit low-priority Instruktions, der also die Daten bereits im cache der GPU hinterlegt! damit die GPU (CUs) ohne den Umweg über den langsamen Speicher SI machen zu müssen.
Das spart 1. Zeit bzw. Latenz (Daten im Cache sind schneller verfügbar und von CU-clk) und 2. Energie bzw. Leistung (Speicherzugriffe sind teuer)
In deinem Beitrag ist so vieles veraltet und einfach nicht mehr richtig.
Der Input der CPU wird in moderner API pro Frame aktualisiert und ist damit so alt wie ein frame und eben nicht mehrere Frames alt (und damit langsam). :freak:
Dass Nvidia über die Jahre auf Hardwareebene da Rückstand hat, zeigt sich eben mehr und mehr in optimierten neueren Engines, die auch bei 4K@Ultra hohe framerates schaffen.
Durch den zwingenden "Umweg" zum VRAM ist die NV-Hardware einfach Ineffizient (zu heiß, hoher Verbrauch) geworden und/oder kann eben nicht von direkten Zugriff der CPU auf den GPU-Cache profitieren.
Dass man da mit dem Topmodell RTX3090 da versucht mit schierer (oftmals sinnnlos verballerter) Power zu kaschieren ist die Offenbarung einer Schwäche, die Hardwaremäßig sehr sehr tief und schon jahrelang da liegt.
robbitop
2021-01-28, 19:54:45
Du behauptest also dass der Input des Spielers dank AC noch Einfluss auf den Frame hat, der im exakt gleichen Punkt auf der Zeitachse gerade auf der GPU gerendert wird?
(Ich referenziere Post#286)
Iscaran
2021-01-28, 20:36:07
Das ist schlicht falsch.
Und die eine Wavefront bekommt halt auch nur genau eine Vektor-Instruktion: entweder FP oder INT.
INT ist doch "scalar" oder nicht ?
Vektor sind FP.
Siehe Seite 14: https://www.amd.com/system/files/documents/rdna-whitepaper.pdf
"Collectively, the four SIMDs in a dual compute unit can sustain an impressive 256 FLOPs every cycle, in addition to scalar operations"
Mag sein, dass nicht alle INT-Ops damit entkoppelt sind. Aber doch sehr viele. Es gibt ja deswegen auch dedicated scalar ALUs, und ein EXTRA scalar
register für diese pro CUs.
Ganz ähnlich handhabt es nVidia ja auch seit Turing. Dort werden 64 FP32 UND 64 INT32 parallel in einem SM prozessiert.
Das "neue" an Ampere ist nun die "optionale" Umwidmung der parallel existierenden INT-ALUs für FP-Operationen.
AMD hat diese Art Paralellität in RDNA (und AFAIK auch schon in GCN) ebenso gehandhabt. Man hat "scalar" units die parallel zu den Vector ALUs arbeiten und INTs behandeln können WÄHREND der Vector ALU FP32 ausschmeist.
Anders ausgedrückt und wie bei Igor dargestellt: https://www.igorslab.de/en/technical-details-to-force-rtx-3000-more-than-only-one-miracle-seed-propagation-of-the-shader/
Turing 1 FP32 + 1 INT32 pro clock (? bin mir nicht sicher ob es pro clock ist)
Ampere 1 FP32 +1 INT32 pro clock ODER 2 FP32 + 0 INT32 pro clock.
RDNA hat immer 1 FP32 + 1 INT32 pro clock
Bzw. genauer:
https://www.hardwaretimes.com/amd-navi-vs-vega-difference-between-gcn-and-rdna-gpu-architecture/
"Most of the computation in AMD’s GCN and RDNA architectures is performed by the SIMDs which happen to be vector in nature: perform a single instruction on multiple data types (32 INT/32 FP executed per SIMD per cycle, simultaneously). However, there are scalar units in each CU as well. Each Compute Unit in RDNA 1 can launch (dispatch) four instructions per cycle, two scalars, two vectors. Within an RDNA1 WGP, the total throughput is 128 vectors and 4 scalars per clock. "
Der Unterschied RDNA zu Turing ist bei der Betrachtung nicht so groß.
RDNA vs Ampere ist da auch recht ähnlich, mit eben der Besonderheit von Ampere den FP-Output für Wavefronts von 64 die 0 INT enthalten verdoppeln zu können (zumindest versteh ich das so).
nVidia sagt dazu das insgesamt ca 36% der Operations "Int" sind (womit sie denke ich "scalar" meinen (welche ja auch "INT" sind).
Demnach könnte man meinen dass man 64% (100-36) mehr FP32 bekommen könnte, wenn man einfach nur die anfallenden "INT" ops rechnet und den REST der Zeit die "umgebauten SMs" nutzt die anstelle 1FP+1Int dann 2 FP ausspucken.
Aber so einfach ist die "Organisation" der Daten halt nicht, da immer nur dann umgeschaltet werden kann wenn die ganze Wavefront INT-frei ist...
(AFAIK - hier bin ich mir nicht sicher, wie es mit gemischten Workloads läuft).
Der_Korken
2021-01-28, 20:59:23
Das mit den Skalareinheiten stimmt, die arbeiten parallel zu den SIMD-Units bei GCN und RDNA. Aber die können nur eine Instruktion parallel rechnen, während die SIMD-Units jeweils 32 Instruktionen (also insgesamt 128) schaffen. Du hast also, wenn man die Skalar-Einheiten mitzählt, 40*(128+4) = 5280 ALUs (statt nominell 5120). Und eine SIMD-Unit kann entweder FP oder INT, aber nicht beides parallel. Von der Rohleistung her kann man die 5120SPs von N21 durchaus mit den 10240SPs von GA102 was die Zählweise angeht vergleichen (sofern man nicht >50% INT-Anteil hat, dann würde GA102 Leistung verlieren).
robbitop
2021-01-28, 21:01:36
Vektor ALUs in den CUs können sowohl FP als auch INT. So wie es bei Pascal auch war.
Die Skalareinheiten haben die bereits beschriebenen Restriktionen. Außerdem sind es ja verglichen mit dem was die Vektoralus an Durchsatz können sehr sehr wenige.
Das sind IIRC nur 2x Skalare INT auf 64 Vektoralus pro CU.
Also im besten Fall 64x FP + 2x INT. Oder 64x INT + 2x INT.
Gipsel
2021-01-28, 21:54:02
INT ist doch "scalar" oder nicht ?
Vektor sind FP.Nein. Offenbar unterliegst Du einem Mißverständnis über die Rolle der Skalar- und Vektor-ALUs. Die Berechnungen für die eigentliche arithmetische Last werden immer auf den Vektor-ALUs ausgeführt, auch die INT-Berechnungen. Der Skalar-Teil ist hauptsächlich für die Steuerung des Kontrollflusses und einen Teil von Adressberechnungen zuständig (der Teil, der für die komplette Wavefront identisch ist). Das ist nicht nichts, aber eben längst nicht Alles. Wann immer der Entwickler in einem Shader explizit was mit Integern macht, landet das mit ziemlicher Sicherheit auch auf den Vektor-ALUs (und float und integer Variablen liegen in den Vektor-Registern [vGPRs]). Die Skalar-ALUs handhaben eher Sachen hinter den Kulissen. Konstanten (auch float-Konstanten;)) liegen normalerweise in den Skalar-GPRs (sGPRs), genau wie die Baseadressen von Texturen (genauer deren Deskriptoren, also noch etwas mehr als das). Das Laden davon dieser Werte wird über Skalar-Instruktionen (sMEM) gemacht. Und Kontrollfluß nutzt wie gesagt die Skalareinheit ausgiebig (ein Vergleich mit anschließendem Branch je nach Ergebnis führt z.B. den Vergleich zuerst als Vektor-ALU-Instruktion aus, das Ergebnis in jedem Slot der Wavefront [32 oder 64Bit als "Vektor" aus 32 oder 64 1 Bit-Elementen, Bitfeld bzw. B32 bzw. B64 heißt das als Datentyp in der AMD-Doku] in ein oder zwei sGPRs [je 32 Bit] und führt dann die skalare Branch-Instruktion aus).
Schau Dir z.B. im RDNA ISA Manual (https://developer.amd.com/wp-content/resources/RDNA2_Shader_ISA_November2020.pdf) die Kapitel 5 und 6 an. Da kannst Du nachsehen, was die Skalar- und Vektor-Instruktionen als Operanden nehmen (steht meist als Kürzel am Ende des Instruktionsnamens).
Legende:
U32: unsigned 32bit int
I32: signed 32bit int
U16: unsigned 16bit int
I16: signed 16bit int
B32: 32bit langes Bitfeld (um Prinzip auch eher ein Integer)
F16: 16bit float (half precision)
F32: 32bit float (single)
F64: 64bit float (double)
V_ADD_LSHL_U32
V_ADD_{F16, F32}
V_BFREV_B32
V_ADD3_U32
V_LDEXP_F32
V_ADD_CO_CI_U32
V_CEIL_{F16, F32, F64}
V_ALIGNBIT_B32
V_LDEXP_F64
V_ADD_NC_U32
V_CLREXCP
V_ALIGNBYTE_B32
V_AND_B32
V_COS_ {F16,F32}
V_AND_OR_B32
V_ASHRREV_B32
V_CVT_{I32,U32,F16,F64}_F32
V_BFE_{U32 , I32}
V_ADD_CO_U32
V_CNDMASK_B32
V_CVT_{I32,U32}_F64
V_BFI_B32
V_ADD_F64
V_CVT_PKRTZ_F16_F32
V_CVT_{U16, I16}_F16
V_CUBEID_F32
V_ADD_NC_{I32, U16, I16}
V_FMAAK_F16
V_CVT_F16_{U16, I16}Verdammt viel Integer dabei. ;)
Mag sein, dass nicht alle INT-Ops damit entkoppelt sind. Aber doch sehr viele. Es gibt ja deswegen auch dedicated scalar ALUs, und ein EXTRA scalar register für diese pro CUs.
Ganz ähnlich handhabt es nVidia ja auch seit Turing. Dort werden 64 FP32 UND 64 INT32 parallel in einem SM prozessiert.Nein.
Vektor heißt hier SIMD: Eine Instruktion wird auf einer kompletten Wavefront (bei nV Warp genannt) ausgeführt, also 32 bzw. gar 64 mal. Das ist die Vektorlänge der GPUs, in etwa so wie bei AVX mit Floats oder INT32 auf CPUs die Vektorlänge 8 beträgt (AVX/2 kann ja bekanntlich auch Integer). Die Skalar-Instruktionen tun dies natürlich nicht (sonst wären es ja keine Skalar-Instruktionen). Ein skalarer Befehl wirkt auf nur einen Wert und nicht parallel auf 32 oder 64 (also wie die normalen Integer-Befehle [keine SIMD-Erweiterung] auf CPUs). Deswegen rechnet AMD ja auch keine FLOPs für die Skalar-Einheiten aus, das wäre verschwindend gering ;).
AMD hat diese Art Paralellität in RDNA (und AFAIK auch schon in GCN) ebenso gehandhabt. Man hat "scalar" units die parallel zu den Vector ALUs arbeiten und INTs behandeln können WÄHREND der Vector ALU FP32 ausschmeist.glaube mir, ich weiß, wie das funktioniert. ;)
Anders ausgedrückt und wie bei Igor dargestellt: https://www.igorslab.de/en/technical-details-to-force-rtx-3000-more-than-only-one-miracle-seed-propagation-of-the-shader/
Turing 1 FP32 + 1 INT32 pro clock (? bin mir nicht sicher ob es pro clock ist)
Ampere 1 FP32 +1 INT32 pro clock ODER 2 FP32 + 0 INT32 pro clock.
RDNA hat immer 1 FP32 + 1 INT32 pro clockDa das Alles SIMD-Maschinen sind, sieht es (pro halbem SM/halber CU) im Maximum eher so aus:
Turing: 32 FP32 + 32 INT32 pro Takt
Ampere: 32 FP32 + 32 INT32 ODER 32 FP32 + 32 FP32 pro Takt:
RDNA/RDNA2: 32 FP32 ODER 32 INT32 pro Takt + 1 skalare Op.
Und gibt es bei nV (spätestens seit Turing) nicht auch intern Optimierungen, die Teile der Aufgaben von AMDs Skalar-ALUs auf separate Einheiten auslagern (allein schon aus Stromspargründen, nennt sich bei denen "uniform datapath")? Es ist bloß nicht so konsequent und exponiert dokumentiert (siehe hier Kapitel 3.5.2 (https://arxiv.org/pdf/1903.07486.pdf)).
Turing introduces a new feature intended to improve the maximum achievable arithmetic throughput of the main, floating-point capable datapaths, by adding a separate, integer-only, scalar datapath (named the uniform datapath) that operates in parallel with the main datapath.
This design is intended to accelerate numerical, array-based, computebound workloads that occupy the main datapaths almost completely with floating-point instructions, typically FFMA or HMMA, but also contain a few integer operations, typically updating array indices, loop indices or pointers; or performing array or loop boundary checks. These few integer instructions spoil the instruction mix, and prevent the main datapaths from ingesting a 100% pure stream of FFMA or HMMA. In these circumstances, even a small fraction of integer instructions can hurt the overall arithmetic throughput, lowering it significantly from its theoretical maximum.
On Turing, the compiler has the option to push these integer operations onto the separate uniform datapath, out of the way of the main datapath. To do so, the compiler must emit uniform datapath instructions. Regular instructions can access both uniform and regular registers. Uniform datapath instructions, instead, focus on uniform instructions almost exclusively. While at this time we have not been able to stimulate the generation of uniform datapath instructions by the compiler, we were able to enumerate the 64 uniform registers supported by Turing (including a Uniform Zero Register URZ and 63 general-purpose uniform registers UR0–UR62) by systematically disassembling packed uniform instructions.
Bzw. genauer:
https://www.hardwaretimes.com/amd-navi-vs-vega-difference-between-gcn-and-rdna-gpu-architecture/
"Most of the computation in AMD’s GCN and RDNA architectures is performed by the SIMDs which happen to be vector in nature: perform a single instruction on multiple data types (32 INT/32 FP executed per SIMD per cycle, simultaneously). However, there are scalar units in each CU as well. Each Compute Unit in RDNA 1 can launch (dispatch) four instructions per cycle, two scalars, two vectors. Within an RDNA1 WGP, the total throughput is 128 vectors and 4 scalars per clock."Ich habe mal auf den entscheidenden Teil umgefettet. Die Skalar-ALUs spielen für die Peakleistung ja keine Rolle. Weil ein Vektor halt so viel größer ist (32 oder 64 mal) als ein Skalar. ;)
Im Übrigen können in einer CU pro SIMD 4 Instruktionen pro Takt issued werden (also insgesamt bis zu acht oder gar noch mehr, wenn man "interne" Ops mitzählt), es gibt ja noch mehr Instruktionstypen als nur Vektor-ALU und Skalar-ALU-Instruktionen, die ebenfalls parallel laufen können (z.B. LDS-Ops).
davidzo
2021-01-28, 22:49:53
Sind wir sicher, dass Intel einen großen Interposer verwendet? Ich glaube sie listen EMIB. Entsprechend ist der Interposer im Package nur dort eingelassen, wo man Verbindungen erwartet, oder?
Les es dir doch im entsprechenden Fred durch. Foveros war noch nie EMIB, das sind zwei verschiedene Technologien.
Intel verwendet beides gelegentlich. Bei Kabylake G war es nur EMIB, ebenso bei Xe-HP. XE-HPG ist sogar monolitisch ohne irgendwelchen Package Schnickschnack.
Foveros wird bisher nur bei FPGAs, Testchips und Lakefield eingesetzt und dort im wesentlichen für 3 Die Arten direkt übereinander, keine Dies nebeneinander. Den Base Die, den Compute Die und mehrere POP Memory Dies. Das liegt am kleinen Package, eigentlich ist Foveros sowohl für chips übereinander als auch nebeneinander gedacht.
Die Rede war aber von PV und da wird EMIB nur für HBM und den IO Die verwendet. Die großen Chips sind per Foveros zusammengesetzt aus sehr vielen kleinen chiplets und einem sehr dünnen, sehr großen base Die, die mit einer bandbreite verbunden wären als wäre das ein monolitischer chip. Das wäre mit simplen EMIB an einer chipkante angesetzt einfach nicht möglich. viel zuviele Pins, viel kleinerer Pitch.
Iscaran
2021-01-28, 23:32:53
Nein. Offenbar unterliegst Du einem Mißverständnis über die Rolle der Skalar- und Vektor-ALUs. Die Berechnungen für die eigentliche arithmetische Last werden immer auf den Vektor-ALUs ausgeführt, auch die INT-Berechnungen. Der Skalar-Teil ist hauptsächlich für die Steuerung des Kontrollflusses und einen Teil von Adressberechnungen zuständig (der Teil, der für die komplette Wavefront identisch ist). Das ist nicht nichts, aber eben längst nicht Alles.
OK. Ja gebe zu, das ich das wohl ein wenig falsch verstehe. Dachte immer die Scalar units wären komplett für den INT-Teil zuständig.
Ich bleibe dennoch dabei das die 10xxx "Cores" bei Ampere Augenwischerei sind. Man kann es so nicht vergleichen. Man muss den Durchsatz der Cores (und das sind eben nur 5.xxx) pro Takt sehen.
Und hier schreibst du was interesantes:
Im Übrigen können in einer CU pro SIMD 4 Instruktionen pro Takt issued werden (also insgesamt bis zu acht oder gar noch mehr, wenn man "interne" Ops mitzählt), es gibt ja noch mehr Instruktionstypen als nur Vektor-ALU und Skalar-ALU-Instruktionen, die ebenfalls parallel laufen können (z.B. LDS-Ops).
Wenn AMD pro Takt also 4x FP32 bzw. INT32 auswerfen kann. Und Ampere deren aber nur 2x FP32 + 2x INT32 ... bzw. 4x32 + 0 INT32 (wenn entsprechende Wavefronts vom compiler vorliegen, dann ist das doch eigentlich ziemlich äquivalent.
Und wie oben Cyberfries ausgerechnet hat.
Nimmt man das ganze "Taktnormiert" hat Ampere eben nicht +100% Rohleistung, sondern eben gerade mal +18% (siehe Cyberfries) (+x da wir den INT32 zu FP32 Anteil bei Ampere nicht genau kennen)
nVidia suggeriert hier doch nur mit den verdoppelten Core Counts, eine massive Erhöhung der Einheiten die so nicht stattgefunden hat.
Zeig mir jemand Die-shots die 10xxx Shader zeigen :-). (Ich weiss schwierig die einzeln aufzulösen und zu zählen).
Die Realität ist doch viel näher an dem was Cyberfries ausrechnet und meine ,wenn auch teilweise fehlerhafte Interpretation des Ursprungs, sagt das gleiche.
Und die Beschreibung auf vielen Seiten ist doch einfach nicht richtig:
Das trifft ja auf RDNA genausowenig zu. Die CUs werden da ja auch für die INT32 und FP32 geshared...
Und nicht wie z.B. hier auf Wikipedia (https://de.wikipedia.org/wiki/Nvidia-GeForce-30-Serie) für Ampere beschrieben.
"Statt getrennte Einheiten für Fließkomma- (FP32) und Integer- (INT32) Berechnungen zu verwenden, beherrschen nun sämtliche Recheneinheiten FP32."
Das sind doch immer noch dieselben Cores wie vorher bei Turing - nur hat man die innere Architektur etwas angepasst und ist nun also (wieder ?) (fast ?) so flexibel wie es RDNA auch ist beim Handling der Datenformate.
Vermutlich ist man nicht ganz so flexibel beim Handling der Formate, denn wenn es so wäre müssten ja von der "doppelten" FP-Leistung mehr als nur magere +11% ankommen.
Nehmen wir doch Cyberfries Rechnung als Beispiel:
RDNA2: 5120 CUs * 2.3 GHz *4 Ops per cycle = 11776 "operations" per cycle (siehe Gipsels einwurf zu RDNA dass 4 Instructions per cycle geissued werden können)
=> 47104 INT32/FP32 operations per cycle oder nicht ?
Bei Ampere gibt es dann zwei Pfade die mit einem Prozentsatz X gemischt werden x* (2FP32 + 2 INT32) + (1-x)*(4FP32):
5248 * 1.8 GHz * 2FP32 +2 INT32 Ops per cycle = 18892 FP32 + 18892 INT32
Jetzt ist nur noch die Frage wieviel Ops nun INT sind (also X).
Nehmen wir die von nVidia postulierten 36% an dann wäre der RDNA Output ja auch Gemischt:
47104*0.64 = 30146 FP32 per cycle
+ 47104*0.36 = 16958 INT32 per cycle.
Bei Ampere 5248 * 1.8 * (0.36)*(2FP32 + 2 INT32) + 5248 * 1.8 * 0.64* (4FP32) = 6801 FP32 + 6801 INT32 + 24183 FP32
= 30984 FP32 + 6801 INT32
Wenn ich die Core Counts aber nun "doppelt" zählen würde (also mit 10496 rechne), wäre Ampere bei fast unglaublichen 61968 FP32 + 13602 INT32 (bei x=36% "Mischungsanteil")
Jetzt rechnen wir mal für RDNA2 dieselben 36% INT-Anteil aus:
=> 47104 INT32/FP32 mit 064 / 0.36 = 30146 FP32 + 16958 INT32
Umgemünzt auf Ampere wäre das dann also 30146 vs 30984 (halbierter Core Count) ODER 61968 (doppelt Core Count)
30984 vs 30146 wären dann wundersamerweise nur +3% FP32 output bei "gleichem" INT-Load...
Wäre es aber 10496 Cores...hätten wir 61968 vs 30146 = +106% FP32 output.
Wie wir aber wissen resultiert die Performance von Ampere bei ca +11% realer Performance gegenüber RDNA2. Wohin verschwinden also diese vermeintlichen +106% Rohleistung dann ?
Oder sind es eben nur ~3% (vielleicht ein bisschen mehr, da der Takt glaub ich im mittel etwas niedriger als 2.3 GHz bei RDNA2 und etwas höher bei Ampere als 1.8 GHz ausfällt...und das INT-Verhältnis mag ja auch evtl. zu "weniger" INT neigen, was Ampere dann ebenfalls weiter nach vorn bringt.
So mehr wollt ich dazu eigentlich gar nicht sagen.
Zum RDNA3-Chiplet. Ich habe nach wie vor Schwierigkeiten Chiplets mit 80 CUs zu sehen als "Baustein"...
Wie sollte AMD damit das "Lineup" aufbauen. Schon 1x80er Chiplet ist ja dann ein "Refresh" der aktuellen Top-Karten. Und mit 2x80 setzt man eine weiter Karte mit fast + 100% Leistung drauf.
Wohingegen eine Lineup mit 40er Chiplets sehr viel "einfacher" ginge.
4x40 => 7900 = N21 XTX (2x40 CU) + 50-60% ?
3x40 => 7800 = N21 XTX (2x40 CU) + ~15% ?
2x40 => 7700 = N21 XL (2x30 CU) + 25 % ?
1x40 => 7600 = N22/N23 (aktuell mit 40/32 CUs kolportiert ?) + 15%
Das ganze benötigt also nur 1x Maske für das Chiplet, und 4 Masken für die Assemblagen. Der Core/Interface Die etc. kann evtl. immer derselbe bleiben, nur die Menge an SI und Cache muss ggf. "variiert" werden.
Erscheint mir immer noch irgendwie logischer als die "Monsterchiplets" mit 80 CUs...da bräuchte AMD ja dann irgendwie
2x80 als BigChip
1x80 als Refreshe für 6800/6900er lineup.
+ weitere extra Chips für weitere "kleinere" Karten.
Erscheint mir im Vergleich zum obigen Konzept eher "teuer" zu sein...zumal die Kern-Idee von Chiplets doch die Maximale Synergie ist, ergo, so wenig wie nötig unterschiedliche "Chiplet"-Dies.
mczak
2021-01-29, 02:53:18
Turing: 32 FP32 + 32 INT32 pro Takt
Ampere: 32 FP32 + 32 INT32 ODER 32 FP32 + 32 FP32 pro Takt:
RDNA/RDNA2: 32 FP32 ODER 32 INT32 pro Takt + 1 skalare Op.
Wie sieht das eigentlich aus bei RDNA mit Befehlen die weniger Durchsatz haben (z.B. Vektor 32x32bit int mul, wenn ich das richtig im Kopf habe bloss 1/4 Durchsatz), kann da trotzdem im nächsten Takt eine neue Operation ausgeführt werden (und falls ja gibt es da Beschränkungen welche Operationen das sein können)?
vinacis_vivids
2021-01-29, 04:02:37
Du behauptest also dass der Input des Spielers dank AC noch Einfluss auf den Frame hat, der im exakt gleichen Punkt auf der Zeitachse gerade auf der GPU gerendert wird?
(Ich referenziere Post#286)
Du machst es dir zu einfach oder du verstehst es noch nicht.
Es gibt immer einen Input vom User als CPU instruction, der Einfluss auf die GPU hat.Bspw. Beim Multiplayer sind es noch mehr CPU/Server-Instructions.
Beim rendering arbeitet eine und/oder mehrere CUs die Warteschlange mit den high priority instructions ab.
Während dessen = gleichzeitig kommen unabhängig davon low priority instructions in eine Warteschlange, die im Hintergrund von der CPU abgearbeitet werden.
Die Ergebnisse werden dann in den Cache der AMD-GPU kopiert um bereit für den schnellen Zugriff der GPU verfügbar zu machen. Nach der Verwendung wieder gelöscht.
Das gleiche macht auch Nvidia, nur dass die CPU keinen exklusiven Zugriff auf den GPU-Cache hat und somit die Bereitstellung durch den langsamen Speicher-SI erfolgen muss.
Und der Zugriff zum VRAM-Speicher ist nunmal langsam und bei der riesen Größe sehr energieaufwendig.
Die CUs bei NV an sich arbeiten es mit normaler Geschwindigkeit ab, müssen dann eine längere Zeit im "idle" warten bis die Task aus dem Speicher geholt wird.
Und genau diese "idle" Zeit der CUs wird Nvidia zum Verhängnis und genau das ist der Grund wieso die fp32 Tflop/s nicht in Form von fps auf die Straße kommen.
Nvidia kann man ja nicht mal eine Lüge unterstellen, weil bei der reinen theoretischen Betrachtung/Messung der CUs die Tflop/s schon da sind.
Bei Hitman 3 sieht man es besonders gut:
GtX1080ti @ 3584SP @ 1.9Ghz ~ 13.6 Tflop/s
RX5600XT @ 2304SP @ 1.8Ghz ~ 7.8 Tflop/s
bei gleicher Framerate ~ 54-55fps @ 4k-Ultra.
Vermutlich verkauft Nvidia die alte Suppe seit Maxwell und keiner merkt's. Sehr sehr lange ist Nvidia mit komischen Erklärungen zu Dx12, AC, Hdr, delta color Compression usw. davon gekommen und Scharen und Millionen von Gamern&Usern haben DX11 und die grüne Fraktion verteidigt, gekauft und immer wieder hochgejubelt.
Jetzt mal hinschauen : 7 Tflop/s bei AMD gleicher Framerate wie ~13 Tflop/s bei Nvidia. Wo bleibt da das Jubelgeschrei?
robbitop
2021-01-29, 07:58:02
Les es dir doch im entsprechenden Fred durch. Foveros war noch nie EMIB, das sind zwei verschiedene Technologien.
Intel verwendet beides gelegentlich. Bei Kabylake G war es nur EMIB, ebenso bei Xe-HP. XE-HPG ist sogar monolitisch ohne irgendwelchen Package Schnickschnack.
Foveros wird bisher nur bei FPGAs, Testchips und Lakefield eingesetzt und dort im wesentlichen für 3 Die Arten direkt übereinander, keine Dies nebeneinander. Den Base Die, den Compute Die und mehrere POP Memory Dies. Das liegt am kleinen Package, eigentlich ist Foveros sowohl für chips übereinander als auch nebeneinander gedacht.
Die Rede war aber von PV und da wird EMIB nur für HBM und den IO Die verwendet. Die großen Chips sind per Foveros zusammengesetzt aus sehr vielen kleinen chiplets und einem sehr dünnen, sehr großen base Die, die mit einer bandbreite verbunden wären als wäre das ein monolitischer chip. Das wäre mit simplen EMIB an einer chipkante angesetzt einfach nicht möglich. viel zuviele Pins, viel kleinerer Pitch.
Du hast Recht - für die Chiplets brauch es einen Base Die. Und EMIB ist besser für die Anbindung von HBM. :)
Bei Chipwiki wird das gut erklärt und illustriert: https://en.wikichip.org/wiki/intel/foveros
Du machst es dir zu einfach oder du verstehst es noch nicht.
Es gibt immer einen Input vom User als CPU instruction, der Einfluss auf die GPU hat.Bspw. Beim Multiplayer sind es noch mehr CPU/Server-Instructions.
Beim rendering arbeitet eine und/oder mehrere CUs die Warteschlange mit den high priority instructions ab.
Während dessen = gleichzeitig kommen unabhängig davon low priority instructions in eine Warteschlange, die im Hintergrund von der CPU abgearbeitet werden.
Über welche Art Instruction sprichst du und welche Quantität (zumindest Größenordnung) soll das an Auswirkung haben? Genauer definitiert in genau diesem Augenblick auf der Zeitachse. In genau dem Frame, der gerade auf der GPU gerendert wird.
Denniss
2021-01-29, 10:54:29
War bisher nicht die Rede von zwei identisch aufgebauten Chips wovon einer als Master fungieren soll der Aufgaben an den zweiten Chip delegiert?
davidzo
2021-01-29, 11:50:18
Sind wir sicher, dass Intel einen großen Interposer verwendet? Ich glaube sie listen EMIB. Entsprechend ist der Interposer im Package nur dort eingelassen, wo man Verbindungen erwartet, oder?
War bisher nicht die Rede von zwei identisch aufgebauten Chips wovon einer als Master fungieren soll der Aufgaben an den zweiten Chip delegiert?
Ja da gibt es ein AMD Patent was das nahelegt und zwei Chiplets darstellt, siehe etremetech 2019. Die jüngsten Leaker haben aber alle etwas etwas anderes beschrieben, nämlich GCD+MCD, also verschiedene Dies.
Wo die CPU angebunden ist, ob das ein paar IFlinks für PCIe4 im MCD oder im GCD sind, ist fast egal. Der CPUlink fällt im Gegensatz zum on package IF fast überhaupt nicht ins gewicht, von der Bandbreite her.
mksn7
2021-01-29, 13:12:38
Ich bleibe dennoch dabei das die 10xxx "Cores" bei Ampere Augenwischerei sind. Man kann es so nicht vergleichen. Man muss den Durchsatz der Cores (und das sind eben nur 5.xxx) pro Takt sehen.
Da bin ich voll bei dir. Die einzelnen execution units als Cores zu bezeichnen finde ich idiotisch. Die scheduler entsprechen noch am ehesten einem core, von mir aus kann man die Zahl auch noch mit 32 multiplizieren. NVIDIA hat einfach nur jedem core/scheduler mehr Ressourcen mitgegeben.
RDNA2: 5120 CUs * 2.3 GHz *4 Ops per cycle = 11776 "operations" per cycle (siehe Gipsels einwurf zu RDNA dass 4 Instructions per cycle geissued werden können)
=> 47104 INT32/FP32 operations per cycle oder nicht ?
Es sind keine 5120 CUs, sondern 80. Eine CU ist das komplette Ding. Eine CU enthält 2 SIMD units, jeweils 32 breit. Es können 4 Instruktionen gemacht werden, 2 gehen an die SIMDs, die anderen zwei an die scalar unit oder was anderes (load/store, branch usw). Aber nur die 2 SIMD/Vektor Befehle sind 32 breit!
5120 execution units = 5120 "operations" per cycle
weil 5120 = 80 CU's * 2 SIMDs/CU * 32 Lanes/SIMD
Der Faktor 4 fällt weg, weil du die nicht vektorisierten Befehle nicht 32 breit zählen darfst und in den 5120 steckt auch schon ein Faktor 2 drin. (und der Takt auch, du schreibt ops/cycle)
Wie wir aber wissen resultiert die Performance von Ampere bei ca +11% realer Performance gegenüber RDNA2. Wohin verschwinden also diese vermeintlichen +106% Rohleistung dann ?
WAS ZUM HENKER, WIE OFT SOLLEN WIR ES DIR NOCH VORKAUEN, IN DER BERECHNUNG EINE FRAMES ZÄHLT MEHR ALS NUR DIE PURE FP32 ROHLEISTUNG.
robbitop
2021-01-29, 13:40:54
Artithmetische Rohleistung ist nicht zwangsläufig der Flaschenhals. Das ist sehr anwendungsspezifisch. :)
Iscaran
2021-01-29, 13:50:11
5120 execution units = 5120 "operations" per cycle
weil 5120 = 80 CU's * 2 SIMDs/CU * 32 Lanes/SIMD
Der Faktor 4 fällt weg, weil du die nicht vektorisierten Befehle nicht 32 breit zählen darfst und in den 5120 steckt auch schon ein Faktor 2 drin. (und der Takt auch, du schreibt ops/cycle)
Ja dann hätte ich besser /second schreiben sollen. Na und. Ich rechne das bei Ampere ja entsprechend genauso um...
OK, dann nimm eben die 80*2*32 = 5120 als Basis...ist doch egal. Mache aber die selbe Rechnung mit Ampere und du findest eben NICHT 10496 "ops" per cycle. Diese findest du nur für den Spezial-Super-Duper-Sonderfall, dass keine Gemischte Befehle vorliegen.
WAS ZUM HENKER, WIE OFT SOLLEN WIR ES DIR NOCH VORKAUEN, IN DER BERECHNUNG EINE FRAMES ZÄHLT MEHR ALS NUR DIE PURE FP32 ROHLEISTUNG.
Ja durchaus. Mein Punkt ist aber, dass Ampere diese vermeintliche "doppelt" so hohe FP-Leistung gar nicht hat, bzw. nur in einem super-duper-spezial-sonderfall. Dem man eben so nicht mal Ansatzweise in "normalen" Workloads hat.
Gipsel
2021-01-29, 13:57:59
OK, dann nimm eben die 80*2*32 = 5120 als Basis...ist doch egal. Mache aber die selbe Rechnung mit Ampere und du findest eben NICHT 10496 "ops" per cycle.Doch.
Diese findest du nur für den Spezial-Super-Duper-Sonderfall, dass keine Gemischte Befehle vorliegen.Das geht theoretisch für Instruktionsmixe von 50:50 FP32:INT bis zu 100% reinem FP32, was prinzipiell einen ziemlichen Großteil da draußen abdecken dürfte, also nicht nur den "Spezial-Super-Duper-Sonderfall".
Allein, das ist offenbar nicht das Bottleneck, wie hier schon mehrere Leute gesagt haben.
Gipsel
2021-01-29, 14:13:46
Wie sieht das eigentlich aus bei RDNA mit Befehlen die weniger Durchsatz haben (z.B. Vektor 32x32bit int mul, wenn ich das richtig im Kopf habe bloss 1/4 Durchsatz), kann da trotzdem im nächsten Takt eine neue Operation ausgeführt werden (und falls ja gibt es da Beschränkungen welche Operationen das sein können)?Also laut AMD können Operationen mit größerer Latenz mit anderen überlappend ausgeführt werden (ab RDNA haben die FP32-FMA-Einheiten übrigens offenbar 5 Takte Latenz statt nur 4 bei GCN, was wohl einen Teil der Erklärung der höheren Takte liefert), so daß die Issue-Rate immer noch bei einer Vektor-Instruktion pro Takt bleiben kann. Explizit erwähnt AMD die überlappende Ausführung von FP32, FP64 sowie der Transcendentals. 24Bit Integer-Multiplikationen (bzw. 24/32Bit Multiply-Accumulates) werden von den FMA-Einheiten gehandhabt (liegt ja auch nahe). Was mit 32bit Integer-Multiplikationen ist, keine Ahnung, müßte mal einer benchmarken. Aber da das nicht explizit erwähnt wurde, könnte man vermuten, daß es da Einschränkungen gibt.
Iscaran
2021-01-29, 14:21:25
Doch.
Das geht theoretisch für Instruktionsmixe von 50:50 FP32:INT bis zu 100% reinem FP32, was prinzipiell einen ziemlichen Großteil da draußen abdecken dürfte, also nicht nur den "Spezial-Super-Duper-Sonderfall".
Allein, das ist offenbar nicht das Bottleneck, wie hier schon mehrere Leute gesagt haben.
Ich glaub langsam wir reden aneinander vorbei:
Das ganze startete mit :https://www.forum-3dcenter.org/vbulletin/showthread.php?p=12579550#post12579550
Ich sagte dazu nur, DASS diese Betrachtung falsch ist, weil sie eben nur gültig ist für den "Sonderfall" 100% reine FP32...denn nur in dem Fall liegen 10496 "cores" (wobei es keine Cores sind sonder eben Instructions/second oder cycle) vor.
Für den Performance Bezug ist es cleverer man rechnet mit der "Basis" das sind 5120 Ops * Takt für RDNA2
und 5248 Ops * Takt für Ampere...wobei hier eben noch ein +X dazu kommt, und das X hängt vom Mischungsfaktor INT/FP ab (bzw. allgemeiner vom Workload).
Man kann eben nicht sagen, dass bei Ampere +100% FP32 theoretische FP32 leistung irgendwo "verpufft"...weil diese PRAKTISCH gar nicht da ist...
Deswegen ist der "Core: "Core" Vergleich mit 5120 vs 10496 auch so "falsch"
Mehr will ich eigentlich gar nicht sagen.
mksn7
2021-01-29, 14:27:48
Mache aber die selbe Rechnung mit Ampere und du findest eben NICHT 10496 "ops" per cycle.
Selbe Rechnung: 82 SMs * 4 scheduler * 16 ops/unit/cycle * 2 units/scheduler.
Ampere kann wirklich, tatsächlich, in echt etwa doppelt soviele FP ops pro Takt berechnen wie RDNA. Aber effektiv ist das nicht. Du darfst Ampere's FP32 Leistung also ruhig als Luftnummer bezeichnen, und den CUDA core count als Augenwischerei.
Wenn man jetzt tatsächlich 164 Turing SMs verbaut hätte... Gleiche FP32 Leistung. Speicherbandbreite und Rasterleistung usw würden nicht mitwachsen, deswegen wäre das immer noch unbalanciert (und der Chip rießig). Aber trotzdem sollte der speedup wesentlich höher sein als von der reinen execution unit Verdopplung.
mksn7
2021-01-29, 14:32:37
Für den Performance Bezug ist es cleverer man rechnet mit der "Basis" das sind 5120 Ops * Takt für RDNA2
und 5248 Ops * Takt für Ampere...wobei hier eben noch ein +X dazu kommt, und das X hängt vom Mischungsfaktor INT/FP ab (bzw. allgemeiner vom Workload).
Man kann eben nicht sagen, dass bei Ampere +100% FP32 theoretische FP32 leistung irgendwo "verpufft"...weil diese PRAKTISCH gar nicht da ist...
Deswegen ist der "Core: "Core" Vergleich mit 5120 vs 10496 auch so "falsch"
Gipsel hat doch gerade schon schön erklärt, solange der INT Anteil nicht > 50% ist, kann Ampere doppelt soviele Ops pro Takt umsetzen.
Bei 100% Int Instruktionen stimmt deine Rechnung, da können RDNA und Ampere gleichviele Ops/Takt umsetzen, weil beide eine execution unit haben die das kann. Aber zwschen 0% und 50% Integeranteil hat Ampere den doppelten Durchsatz.
vinacis_vivids
2021-01-29, 14:34:34
Über welche Art Instruction sprichst du und welche Quantität (zumindest Größenordnung) soll das an Auswirkung haben? Genauer definitiert in genau diesem Augenblick auf der Zeitachse. In genau dem Frame, der gerade auf der GPU gerendert wird.
Es gibt fundamental drei asynchrone Warteschlangen:
Copy/DMA (Cache, VRAM Zugriffe)
Compute (z.B.: Lichtberechnung)
Graphic (z.B.: Schattenrendering)
Gewöhnlicherweise, bzw. sehr häufig hat bei den Games die graphic ~ Schattenrendering eine höhere Priorität gegenüber compute ~ Lichtberechnung.
Ich hoffe das ist erstmal klar.
Für AMD ab GCN gilt folgendes:
4 SIMD pro CU
pro SIMD führen bis zu 10 wavefronts aus (maximale Aulastung)
Hier geht das Problem los: Die wavefronts teilen sich die begrenzten Ressourcen -> Cache-Zugriff
Und wenn du jetzt s.o. copy/DMA dir anschaust, steigt der Bedarf bei Erhöhung der Auflösung exponentiell an, so dass der Zugriff in 4K auf dem Speicher extrem teuer ist.
Ich rede hier von instructions, die auf alle Größenordnungen Auswirkungen haben, von SIMD bis hin zu 150fps@4k Ultra. :biggrin:
Bei Nvidia (ab Maxwell) hat compute instructions hardwaremäßig grundsätzlich eine höhere Priorität gegenüber graphic instructions und es gibt keinen expliziten Zugriff auf den GPU-Cache durch die CPU. Der ist Treiberseitig geschützt und der heilige Gral von Nvidia.
robbitop
2021-01-29, 14:36:47
Auch bei 64x INT und 64x FP oder 32x INT und 96x FP liefert der NV SM 128x OPs.
Der einzige Fall, wo man unter das Level fällt, ist es wenn es mehr als 64x INTs sind.
RDNA CU:
64x INT ODER 64x FP = 64x Operationen
64x INT + 0 FP
64x FP + 0 IN
Ampere SM (non GA100):
64x INT + 64 FP = 128x Operationen
128 FP + 0 INT = 128x Operationen
Maxwell SM:
128 FP ODER 128 INT = 128 Operationen
64x INT + 64 FP = 128 Operationen
Volta/Turing:
64x INT + 64 FP = 128 Operationen
64FP + 0 INT
64 INT + 0 FP
Gegenüber 128x vollen Cuda cores fehlt eigentlich nur die Eigenschaft 128x INT pro Takt zu schaffen bei Ampere. Da das Verhältnis aber tyischerweise eher bei 0,65:0,35 liegt, würde das kaum Vorteile auf die Straße bringen.
Die jetzigen Spiele lasten einfach die arithmetische Leistung der Ampere SMs nicht aus. Es limitieren andere Dinge.
Ampere feh
robbitop
2021-01-29, 14:40:05
Es gibt fundamental drei asynchrone Warteschlangen:
Copy/DMA (Cache, VRAM Zugriffe)
Compute (z.B.: Lichtberechnung)
Graphic (z.B.: Schattenrendering)
Gewöhnlicherweise, bzw. sehr häufig hat bei den Games die graphic ~ Schattenrendering eine höhere Priorität gegenüber compute ~ Lichtberechnung.
Ich hoffe das ist erstmal klar.
Für AMD ab GCN gilt folgendes:
4 SIMD pro CU
pro SIMD führen bis zu 10 wavefronts aus (maximale Aulastung)
Hier geht das Problem los: Die wavefronts teilen sich die begrenzten Ressourcen -> Cache-Zugriff
Und wenn du jetzt s.o. copy/DMA dir anschaust, steigt der Bedarf bei Erhöhung der Auflösung exponentiell an, so dass der Zugriff in 4K auf dem Speicher extrem teuer ist.
Ich rede hier von instructions, die auf alle Größenordnungen Auswirkungen haben, von SIMD bis hin zu 150fps@4k Ultra. :biggrin:
Bei Nvidia (ab Maxwell) hat compute instructions hardwaremäßig grundsätzlich eine höhere Priorität gegenüber graphic instructions und es gibt keinen expliziten Zugriff auf den GPU-Cache durch die CPU. Der ist Treiberseitig geschützt und der heilige Gral von Nvidia.
Das ist alles klar. Das alles passiert aber alles innerhalb des gleichen Frames. Ich sehe nur den Punkt nicht, wo eine Instruktion aus dem Input des Spielers noch einen direkten und signifikanten Einfluss auf das zu rendernde Frame hat. Das konntest du mMn noch nicht herausarbeiten und ich halte das nebenbei bemerkt für unwahrscheinlich.
Im Idealfall sieht das ganze so aus in der zeitlichen Reihenfolge (in dem Diagramm ist die GPU bei Frame 1 und der Input bei Frame 3 auf der Zeitachse):
https://www.nvidia.com/content/dam/en-zz/Solutions/geforce/news/reflex-low-latency-platform/nvidia-reflex-gpu-bound-latency-pipline.png
https://www.nvidia.com/de-de/geforce/news/reflex-low-latency-platform/
Die GPU rendert zeitlich gesehen immer zumindest einige wenige Frames voraus. Je nach Renderpipeline der Engine selbst sind das entweder mehr oder weniger Frames. Aber nie das gleiche.
Selbst moderene Spieleengines haben eine Latenz von einigen wenigen Frames eh die Rohdaten an die GPU gehen. In Summe liegt man bei 240 fps+ noch immer bei ~30-50 ms Gesamtlatenz. Bei den aller neusten Spieleengines mit low level APIs.
Deshalb bin ich sehr sehr skeptisch, dass irgendein Spielerinput noch Einfluss auf den Frame haben soll, der in genau diesem Moment gerendert wird auf der GPU.
Gipsel
2021-01-29, 14:47:38
Ich glaub langsam wir reden aneinander vorbei:
Das ganze startete mit :https://www.forum-3dcenter.org/vbulletin/showthread.php?p=12579550#post12579550
Ich sagte dazu nur, DASS diese Betrachtung falsch ist, weil sie eben nur gültig ist für den "Sonderfall" 100% reine FP32...denn nur in dem Fall liegen 10496 "cores" (wobei es keine Cores sind sonder eben Instructions/second oder cycle) vor.Immer noch nicht. Bei der RTX3090 gibt es 82 SMs (entsprechen etwa AMDs CUs). In jedem SM gibt es 4 Scheduler (bei AMD 2 pro CU), wovon jeder Instruktionen auf die angeschlossenen Einheiten issuen kann.
Bei AMD gibt es pro Scheduler exakt eine SIMD32-Einheit, womit dann 80CU* 2 SIMDs * 32Slots = 5120 Rechenoperationen losgeschickt werden können (FMA zählt man typischerweise als 2, aber egal). Am besten wir sagen es gehen maximal 160 SIMD32-Instruktionen pro Takt.
Bei Ampere funktionieren die Scheduler etwas anders, da nicht nur eine Vektor-Einheit pro Scheduler angeflanscht ist, sondern zwei. Dafür sind die physisch nur halb so breit (SIMD16, Befehle beziehen sich trotzdem auf die 32 Slots eines Warps, der effektive Scheduler-Takt ist dann sozusagen halbiert [bei GCN gab es vier SIMD16 pro CU, wovon jede nur jeden vierten Takt drankam, was okay ist, weil die Vektorlänge bei 64 lag]).
Ein Ampere-Scheduler kann jetzt im Schnitt jeden zweiten Takt zwei SIMD32-Befehle absetzen, also insgesamt 4 pro SM und Takt. Das machen dann 82*4 = 328 SIMD32-Instruktionen pro Takt. Also ziemlich genau doppelt so viele wie Navi21. Und das gilt prinzipiell in einem weiten Bereich des Instruktionsmixes (wie gesagt zwischen 0% und 50% INT-Anteil, wenn der Rest FP ist).
Kombi-ALUs (wie die Hälfte bei Ampere und alle bei Navi) können manchmal etwas effizienter ausgelastet werden, weil man damit bestimmte Edge-Cases besser abdeckt (z.B. Bursts an Integer-Instruktionen, die der Compiler nicht ausreichend umordnen kann). Aber ich denke nicht, daß das der wesentliche Teil der Erklärung für das beobachtete Verhalten ist. Man kann schon sagen, daß die arithmetische Leistung da ist (entsprechende Tests zeigen das ja). Und demzufolge "verpufft" die beim Blick auf Spielebenchmarks tatsächlich irgendwo (bzw. wird die nicht abgerufen, weil es an irgendwas anderem hängt).
Edit:
Viel zu langsam. :lol:
robbitop
2021-01-29, 14:54:54
Bei synthetischen "productivity" Benchmarks, die eine starke Auslastung der arithmetischen Rohleistung liefern, sieht man auch wie stark Ampere in dieser Disziplin durch die Decke schießt. Das passt auch in etwas zu dem Verhältnis der Rohleistung zwischen beiden Produkten.
Skysnake
2021-01-29, 14:58:50
Auch bei 64x INT und 64x FP oder 32x INT und 96x FP liefert der NV SM 128x OPs.
Der einzige Fall, wo man unter das Level fällt, ist es wenn es mehr als 64x INTs sind.
RDNA CU:
64x INT ODER 64x FP = 64x Operationen
64x INT + 0 FP
64x FP + 0 IN
Ampere SM:
64x INT + 64 FP = 128x Operationen
128 FP + 0 INT = 128x Operationen
Maxwell SM:
128 FP ODER 128 INT = 128 Operationen
64x INT + 64 FP = 128 Operationen
Volta/Turing:
64x INT + 64 FP = 128 Operationen
64FP + 0 INT
64 INT + 0 FP
Gegenüber 128x vollen Cuda cores fehlt eigentlich nur die Eigenschaft 128x INT pro Takt zu schaffen bei Ampere. Da das Verhältnis aber tyischerweise eher bei 0,65:0,35 liegt, würde das kaum Vorteile auf die Straße bringen.
Die jetzigen Spiele lasten einfach die arithmetische Leistung der Ampere SMs nicht aus. Es limitieren andere Dinge.
Ampere feh
Hmm könnte eine Erklärung sein, warum Ampere bei manchen AI Sachen wohl langsamer ist als Maxwell.
Muss Maxwell sein, sonst macht es keinen Sinn. Muss wohl mal unsere Leute nochmal anbauen. Dachte es wäre Volta gewesen
Leonidas
2021-01-29, 15:03:11
Ampere SM:
64x INT + 64 FP = 128x Operationen
128 FP + 0 INT = 128x Operationen
Volta/Turing:
64x INT + 64 FP = 128 Operationen
64FP + 0 INT
64 INT + 0 FP
Rein der Vollständigkeit halber: Wenn Volta erwähnt wird, dann sollte man bei Ampere auch auf GA100 extra hinweisen. Der hat schließlich keine verdoppelten FP32.
vinacis_vivids
2021-01-29, 15:08:14
Deshalb bin ich sehr sehr skeptisch, dass irgendein Spielerinput noch Einfluss auf den Frame haben soll, der in genau diesem Moment gerendert wird auf der GPU.
Der Input eines Spielers hat immer ein Einfluss. Allein schon bei HZD wenn du in den Himmel schaust oder in den Wald.
Und für schnelle shooter gibs 8000hz Mäuse mit Mindestanforderung RX5700 und R5 3600.
https://www.computerbase.de/2021-01/razer-viper-8khz/
Und wenn du dir mal die Mühe selbst machst um Async Compute zu studieren:
http://www.diva-portal.org/smash/get/diva2:1439826/FULLTEXT01.pdf
Die ganze Sache ist schon recht Komplex und es ist bereits nachgewiesen, dass Nvidia teilweise fundamental krasse Hardwarenachteile hat und nach dem alten Prinzip "sequenzielle execution" funktioniert während AMD die "asynchrone execution" schon seit Jahren forciert.
Es ist ähnlich wie die Diskussion um mehr Cores bei Ryzen bei den CPU`s wo die Intel-Anhänger ewig am 4C/8T festgehalten haben.
Analog dazu jetzt die Diskussion um die ineffiziente uArch bei Nvidia, die ja technisch veraltet immer wieder im neuen Prozess aufgefrischt wird.
Ich lese mal bei Zeiten den guten Artikel durch und berichte mal von noch besseren usecases.
Gipsel
2021-01-29, 15:08:23
Falls noch irgendwer diskutieren will, wie RDNA1/2 oder Ampere Instruktionen ausführen, schlage ich vor die entsprechenden Threads dazu zu benutzen. Hier ist ja eigentlich Navi31 bzw. RDNA3 das Thema.
Iscaran
2021-01-29, 15:10:27
Ein Ampere-Scheduler kann jetzt im Schnitt jeden zweiten Takt zwei SIMD32-Befehle absetzen, also insgesamt 4 pro SM und Takt. Das machen dann 82*4 = 328 SIMD32-Instruktionen pro Takt. Also ziemlich genau doppelt so viele wie Navi21. Und das gilt prinzipiell in einem weiten Bereich des Instruktionsmixes (wie gesagt zwischen 0% und 50% INT-Anteil, wenn der Rest FP ist).
:
Ja Danke euch beiden für die Aufschlüsselung. Ich sehe schon - man kann das schon so sehen. Nur wie gesagt ich denke einfach nicht dass der Bottleneck hier einfach irgendwas anderes ist.
Der Bottleneck ist meiner Meinung nach, diese "Eigenschaft" von Ampere ist nicht so einfach nutzbar. AFAIK gibt es da eine zusatzbedingung das dieser "Switch" von Mixed Int/FP auf rein FP nur DANN stattfinden kann wenn die ganze SM-Unit KEINE Ints in dem Workload hat...
Das ist denke ich durchaus eine Erklärung warum die "effektive" Flops-Leistung von Ampere so viel "geringer" ausfällt in mixed workloads.
Das man die theoretische FP-Leistung von 128 FP Ops erreichen KANN schrieb ich schon. Es gibt da ja spezielle Benchmarks für und ich wette diese nutzen praktisch so gut wie keine "mixed" loads um das zu erreichen.
Meiner Meinung nach bricht Ampere eben überproportional ein, sobald eben viele und auch evtl "schlecht" geschedulete INT/FP Mixed loads vorliegen.
Denn dann hängt die SM im 2+2 Modus fest und die eh schon "überzähligen" INT Ops sind einfach ungenutzt.
AMD kann hier AFAIK feingranular und fliessend schalten. Und das erklärt eben den effektiv erreichbaren Performancepunkt.
Was für andere Bottlenecks siehst du denn die "speziell" Ampere treffen würden in Games, aber NICHT RDNA ? Um diese diskrepanz zwischen der nominell möglichen Leistung und dem was am Ende rauskommt zu erklären.
Ich meine es ist die Granularität mit der diese INT/FP Umschaltung stattfinden kann...die ist eben AFAIK immer gekoppelt an eine komplette SM und sobald diese SM eben AUCH INT berechen "muss" fällt die option zusätzliche FP zu generieren aus.
Der Fall dürfte insbesondere bei schlecht optimiertem Code praktisch der Dauerzustand sein.
mksn7
2021-01-29, 16:51:00
Meiner Meinung nach bricht Ampere eben überproportional ein, sobald eben viele und auch evtl "schlecht" geschedulete INT/FP Mixed loads vorliegen.
Denn dann hängt die SM im 2+2 Modus fest und die eh schon "überzähligen" INT Ops sind einfach ungenutzt.
AMD kann hier AFAIK feingranular und fliessend schalten. Und das erklärt eben den effektiv erreichbaren Performancepunkt.
Was für andere Bottlenecks siehst du denn die "speziell" Ampere treffen würden in Games, aber NICHT RDNA ? Um diese diskrepanz zwischen der nominell möglichen Leistung und dem was am Ende rauskommt zu erklären.
Ich meine es ist die Granularität mit der diese INT/FP Umschaltung stattfinden kann...die ist eben AFAIK immer gekoppelt an eine komplette SM und sobald diese SM eben AUCH INT berechen "muss" fällt die option zusätzliche FP zu generieren aus.
Der Fall dürfte insbesondere bei schlecht optimiertem Code praktisch der Dauerzustand sein.
Ich glaube wir dürfen hier nicht mehr weiter diskutieren. Das ist der RDNA3 thread. RDNA hat die gleichen Bottlenecks. Wenn AMD auf die gleiche Art die execution units in RDNA3 verdoppeln würde, wäre der speedup ähnlich klein, weswegen ich auch nicht dran glaube.
Und wenn nvidia bei Ampere eine dritte Vektoreinheit hinzufügen würde, die nur INT kann (und damit die beiden FP32 Einheiten völlig frei lassen würden für FP32) gäbe es immer noch keinen größeren Speedup.
Es gibt kein Umschalten und keinen Modus. Die gemischten Einheiten bei AMD und NVIDIA können problemlos INT und FP in jeder beliebigen Reihenfolge ausführen. Auch abwechselnd, ein Befehl so, ein Befehl so.
Cyberfries
2021-01-29, 17:31:00
Um hier mal wieder etwas zu RDNA3 zu schreiben, wenn es auch nur ein kleiner Schnipsel ist:
https://twitter.com/KOMACHI_ENSAKA/status/1354660785289457666
memo
Navi 33 doesn't have USB Support.
Schade, dass das schon wieder aufgegeben wird.
Sowohl nVidia als auch AMD werfen USB schon nach kürzester Zeit wieder über Bord.
Aber das ist nach kopite7kimi (https://twitter.com/kopite7kimi/status/1353605331180417024) bereits der zweite Twitter-Leaker der von N33 spricht.
Damit ist wohl auch die Theorie hinfällig, dass N31 die Bezeichnung des GCD fürs gesamte Portfolio ist.
Und wie oben Cyberfries ausgerechnet hat.
.....
(bei x=36% "Mischungsanteil")
Diese 36% will ich so nicht stehen lassen. Ein Verhältnis von 100 zu 36 sind nicht 36%.
Und zu meinem Beitrag: Wie danach erklärt wurde, kann RDNA eben doch nicht INT und FP voll parallel,
damit ist meine Berechnungsgrundlage hinfällig, also besser ignorieren.
N31 könnte der GCX sein und N33 das IOD. Ist ja auch logisch, daß USB I/O betrifft.
robbitop
2021-01-31, 11:09:11
Der Input eines Spielers hat immer ein Einfluss. Allein schon bei HZD wenn du in den Himmel schaust oder in den Wald.
Und für schnelle shooter gibs 8000hz Mäuse mit Mindestanforderung RX5700 und R5 3600.
https://www.computerbase.de/2021-01/razer-viper-8khz/
Und wenn du dir mal die Mühe selbst machst um Async Compute zu studieren:
http://www.diva-portal.org/smash/get/diva2:1439826/FULLTEXT01.pdf
Die ganze Sache ist schon recht Komplex und es ist bereits nachgewiesen, dass Nvidia teilweise fundamental krasse Hardwarenachteile hat und nach dem alten Prinzip "sequenzielle execution" funktioniert während AMD die "asynchrone execution" schon seit Jahren forciert.
Es ist ähnlich wie die Diskussion um mehr Cores bei Ryzen bei den CPU`s wo die Intel-Anhänger ewig am 4C/8T festgehalten haben.
Analog dazu jetzt die Diskussion um die ineffiziente uArch bei Nvidia, die ja technisch veraltet immer wieder im neuen Prozess aufgefrischt wird.
Ich lese mal bei Zeiten den guten Artikel durch und berichte mal von noch besseren usecases.
Nichts was du schreibst oder verlinkt hast unterstützt bisher deine Thesen aus #386. Leider. Lassen wir es lieber gut sein. ;)
vinacis_vivids
2021-01-31, 13:36:14
Hast du den Artikel gelesen?
Zu 99,99% hast du ihn nicht gelesen. Selbst wenn du Ihn gelesen hättest, hast du es auch verstanden? Zu 99,99% nein. Also was diskutieren wir hier? Dein fehlendes Verständnis?
Bei RDNA3 kannst du davon ausgehen, dass der hardwaretechnische Vorsprung von async-compute im sowohl im sGPU als auch im mGPU-Bereich von AMD sich noch besser zeigt.
"The difference between AMD and NVIDIA is the fact that on AMD GPUs, the GPU does not have to suspend one task in order to schedule another onto the same resource, thus performing a so called context switch. NVIDIA GPUs do not have this capability, instead, NVIDIA GPUs rely on one single thread to handle scheduling of multiple tasks onto the same resource."
Was bedeutet das?
Nvidia GPU`s haben auf hardwaretechnischer Basis grundsätzlich gar nicht die Fähigkeit multiple Ressourcen asynchron abzuarbeiten, sondern bestehen zwingend auf einer Abarbeitung von single thread Aufgaben. Deshalb ist die Technik von Nvidia einfach veraltet. Und diese Implementierung ist treiberseitig gar nicht möglich.
AMD GPU`s arbeiten die Task`s (compute + graphic + copy/DMA) ohne Unterbrechung im multi thread auf hardwareebene ab.
Das DMA ist bei Nvidia gar nicht gegeben und ist damit eine krasse Einschränkung auf hardwarebene. Somit kommt die Erhöhung der raw-Power Erhöhung von Nvidia-Hardware einfach nicht auf die Straße und verpufft in neueren Engines in heiße Luft. Der lange geglaubte Vorsprung von Intel+Nvidia singel thread Performance ist auch dann mal abgelaufen.
Gratzner
2021-01-31, 15:40:15
@vinacis_vivids
evtl. solltest du mal Deine verlinkten Artikel mal selber lesen. Die von Dir verlinkte Masterthesis vergleicht Polaris mit Maxwell und Pascal. Vielleicht solltest Du auch deine sehr überschwänglichen Aussagen, wie
Hast du den Artikel gelesen?
[...]Also was diskutieren wir hier? Dein fehlendes Verständnis?
[...]Deshalb ist die Technik von Nvidia einfach veraltet.
[...]Das DMA ist bei Nvidia gar nicht gegeben und ist damit eine krasse Einschränkung auf hardwarebene. Somit kommt die Erhöhung der raw-Power Erhöhung von Nvidia-Hardware einfach nicht auf die Straße und verpufft in neueren Engines in heiße Luft. Der lange geglaubte Vorsprung von Intel+Nvidia singel thread Performance ist auch dann mal abgelaufen.
weglassen oder zu mindestens nicht auf Basis mehrere Generationen alter Grafikkarten machen. (steht auch an den Diagrammen und Tabellen mit den konkreten Messwerten überall dran, das eine RX560 mit einer GTX960 und GTX 1060 verglichen wird)
Edit: Nochmal wegen Deinem Leseverständnis:
Und für schnelle shooter gibs 8000hz Mäuse mit Mindestanforderung RX5700 und R5 3600.
https://www.computerbase.de/2021-01/razer-viper-8khz/
Der Computerbaseartikel, den Du verlinkt hast, schreibt übrigens:
Konkrete Systemanforderungen gibt es nicht, doch zumindest Testern empfiehlt Razer mindestens einen AMD Ryzen R5 3600 respektive einen Intel Core i5-8600K sowie eine AMD Radeon RX 5700 respektive eine Nvidia GeForce GTX 1080 in Kombination mit einem Bildschirm mit 144 Hertz oder mehr.
Daher, andere Leute lesen manchmal einfach was anderes heraus als Du. Kein Wunder, dass dann Meinungen auseinander gehen können.
-/\-CruNcher-/\-
2021-01-31, 16:29:26
Ich glaube wir dürfen hier nicht mehr weiter diskutieren. Das ist der RDNA3 thread. RDNA hat die gleichen Bottlenecks. Wenn AMD auf die gleiche Art die execution units in RDNA3 verdoppeln würde, wäre der speedup ähnlich klein, weswegen ich auch nicht dran glaube.
Und wenn nvidia bei Ampere eine dritte Vektoreinheit hinzufügen würde, die nur INT kann (und damit die beiden FP32 Einheiten völlig frei lassen würden für FP32) gäbe es immer noch keinen größeren Speedup.
Es gibt kein Umschalten und keinen Modus. Die gemischten Einheiten bei AMD und NVIDIA können problemlos INT und FP in jeder beliebigen Reihenfolge ausführen. Auch abwechselnd, ein Befehl so, ein Befehl so.
Das Erinnert teils daran wie sich Intel Wegoptimiert hat :D
@vinacis_vivids
Seit Turing haben sie kontinuerlich am Async optimiert Nvidias Engineers sind nicht dumm die wissen ganz genau was unoptimiert/optimiert von den Konsolen auf sie zukommt.
Die frage ist ja wer kann wenn besser/effizienter kompensieren ;)
Für Pre Turing währ ich vorsichtig mit Async Compute Paths
Eine kleine Vulkan höllenfahrt für Nvidia momentan im Vergleich zum astreinen Doom und genau so astreinen RDR2 ;)
[Detroit: Become Human]: The game randomly crashes. [3203114]
Digidi
2021-01-31, 21:46:08
Immer noch nicht. Bei der RTX3090 gibt es 82 SMs (entsprechen etwa AMDs CUs). In jedem SM gibt es 4 Scheduler (bei AMD 2 pro CU), wovon jeder Instruktionen auf die angeschlossenen Einheiten issuen kann.
Bei AMD gibt es pro Scheduler exakt eine SIMD32-Einheit, womit dann 80CU* 2 SIMDs * 32Slots = 5120 Rechenoperationen losgeschickt werden können (FMA zählt man typischerweise als 2, aber egal). Am besten wir sagen es gehen maximal 160 SIMD32-Instruktionen pro Takt.
Bei Ampere funktionieren die Scheduler etwas anders, da nicht nur eine Vektor-Einheit pro Scheduler angeflanscht ist, sondern zwei. Dafür sind die physisch nur halb so breit (SIMD16, Befehle beziehen sich trotzdem auf die 32 Slots eines Warps, der effektive Scheduler-Takt ist dann sozusagen halbiert [bei GCN gab es vier SIMD16 pro CU, wovon jede nur jeden vierten Takt drankam, was okay ist, weil die Vektorlänge bei 64 lag]).
Ein Ampere-Scheduler kann jetzt im Schnitt jeden zweiten Takt zwei SIMD32-Befehle absetzen, also insgesamt 4 pro SM und Takt. Das machen dann 82*4 = 328 SIMD32-Instruktionen pro Takt. Also ziemlich genau doppelt so viele wie Navi21. Und das gilt prinzipiell in einem weiten Bereich des Instruktionsmixes (wie gesagt zwischen 0% und 50% INT-Anteil, wenn der Rest FP ist).
Kombi-ALUs (wie die Hälfte bei Ampere und alle bei Navi) können manchmal etwas effizienter ausgelastet werden, weil man damit bestimmte Edge-Cases besser abdeckt (z.B. Bursts an Integer-Instruktionen, die der Compiler nicht ausreichend umordnen kann). Aber ich denke nicht, daß das der wesentliche Teil der Erklärung für das beobachtete Verhalten ist. Man kann schon sagen, daß die arithmetische Leistung da ist (entsprechende Tests zeigen das ja). Und demzufolge "verpufft" die beim Blick auf Spielebenchmarks tatsächlich irgendwo (bzw. wird die nicht abgerufen, weil es an irgendwas anderem hängt).
Edit:
Viel zu langsam. :lol:
Na ja aber es gibt nach nicht nur Sheduler. Auch die Scan Converter/ Rasterizer muss die SMs bei 3D Spielen mit Daten füttern und die Daten die man in und aus dem Chesh lesen/schreiben muss sollte man auch nicht unterschätzen, das funktionier bei einem Schlanken Design wie Navi21 weitaus bessers als bei Ampere.
Das mit dem Cash ist ja schonmal aufgefallen bei einem Rasterizertest. Theoretisch sollte Nvidia hier ich glaube es waren 15 Polygonen liefern am Ende waren es 11 weil halt die Daten aus dem Cash nicht kommen oder gespeichert werden können.
https://www.forum-3dcenter.org/vbulletin/showthread.php?p=11466705&highlight=0.5#post11466705
Gipsel
2021-02-01, 10:22:12
Na ja aber es gibt nach nicht nur Sheduler. Auch die Scan Converter/ Rasterizer muss die SMs bei 3D Spielen mit Daten füttern und die Daten die man in und aus dem Chesh lesen/schreiben muss sollte man auch nicht unterschätzenIch glaube, anderweitige Bottlenecks wurden bereits mehrfach als vermutlicher Grund für die beobachtete Spieleperformance erwähnt. ;)
robbitop
2021-02-01, 11:24:48
Hast du den Artikel gelesen?
Zu 99,99% hast du ihn nicht gelesen. Selbst wenn du Ihn gelesen hättest, hast du es auch verstanden? Zu 99,99% nein. Also was diskutieren wir hier? Dein fehlendes Verständnis?
Bei RDNA3 kannst du davon ausgehen, dass der hardwaretechnische Vorsprung von async-compute im sowohl im sGPU als auch im mGPU-Bereich von AMD sich noch besser zeigt.
"The difference between AMD and NVIDIA is the fact that on AMD GPUs, the GPU does not have to suspend one task in order to schedule another onto the same resource, thus performing a so called context switch. NVIDIA GPUs do not have this capability, instead, NVIDIA GPUs rely on one single thread to handle scheduling of multiple tasks onto the same resource."
Was bedeutet das?
Nvidia GPU`s haben auf hardwaretechnischer Basis grundsätzlich gar nicht die Fähigkeit multiple Ressourcen asynchron abzuarbeiten, sondern bestehen zwingend auf einer Abarbeitung von single thread Aufgaben. Deshalb ist die Technik von Nvidia einfach veraltet. Und diese Implementierung ist treiberseitig gar nicht möglich.
AMD GPU`s arbeiten die Task`s (compute + graphic + copy/DMA) ohne Unterbrechung im multi thread auf hardwareebene ab.
Das DMA ist bei Nvidia gar nicht gegeben und ist damit eine krasse Einschränkung auf hardwarebene. Somit kommt die Erhöhung der raw-Power Erhöhung von Nvidia-Hardware einfach nicht auf die Straße und verpufft in neueren Engines in heiße Luft. Der lange geglaubte Vorsprung von Intel+Nvidia singel thread Performance ist auch dann mal abgelaufen.
Wie AC grundsätzlich funktioniert und welche Restriktionen verschiedene uArchs es gibt, war m.E. nicht die Frage.
Die Frage war ganz konkret: welche "Instruktionen" vom User genau und in welcher Quantität Einfluss auf den Frame haben soll an dem die GPU gerade rendert. Das war deine Behauptung in Post #386.
Das war eine sehr konkrete Frage - darauf sollte es nicht zu viel verlangt sein, eine konkrete Antwort zu bekommen. Wenn das nicht möglich ist, dann ist es aus meiner Sicht am sinnvollsten, die Diskussion zu beenden.
Weiterhin bitte ich dich um ein wenig mehr Sachlichkeit.
Leonidas
2021-02-11, 10:46:45
Navi 32 als weiteres MCM-Design erwähnt:
https://www.3dcenter.org/news/hardware-und-nachrichten-links-des-10-februar-2021
vinacis_vivids
2021-02-11, 18:07:49
@robitopp
https://github.com/GPUOpen-Effects/FEMFX/blob/master/docs/FEMFX%20Overview%20%26%20Integration.pdf
amd_femfx\src\Threading\*: Async parallel-for and task grapsh support
samples\sample_task_system\TL* Async task system implementation
Das was jetzt und Zukunft geschieht ist weit außerhalb deines Vorstellungshorizonts.
Es geht dabei u.a. um die dynamische Darstellung von Objekten und Prozessen wie Zerschmelzung, plastische Deformation je nach Material und Änderung des Aggregatzustandes.
Das sind alles Asynchrone Berechnungsbereiche, die, wenn man es realistisch darstellen will, also nach physikalisch korrekten Regeln, ein viel engere CPU-GPU Verbindung braucht.
https://abload.de/img/rdnaprocessorxfjf8.png
Die CPU hat hardwareseitig direkten Zugriff auf die GPU. Das ist nämlich ein großer bzw. fundamentaler Unterschied von dem, was du all die Jahre von Intel-Nvidia kennst, wo die CPU nach deiner alten Denkweise die instructions dem Nvidia-Treiber gibt und die dann in der Black-Box alles rendert. :freak:
Das ist wie jemanden von einem Stern erzählen, der Einfluss auf uns hat und derjenige nicht mal weiß was ein Stern ist und auch nicht daran glaubt und es mit seiner beschränkten Sichtweise auch gar nicht erkennen kann. Anyway.
Ein weiteres Ding ist "data sharing" also die Kohärenz und Teilung von Daten auf der GPU +(Systemspeicher), immer mit der Anmerkung, dass die CPU direkten Zugriff hat, hardwaremäßig.
robbitop
2021-02-11, 19:15:56
Du hast behauptet, dass aktuell bei Multiplayer Titel User Inputs Einfluss auf den gerade zu rendernden Frame haben. Bis jetzt konntest du noch nicht konkret die Frage beantworten was das genau und konkret für Instrunktionen sind. Stattdessen postest du allerhand Links und Informationen die damit nicht zusammenhängen. Dazu noch emulierst du in jedem Posting dazu den Experten und krönst die Posts damit wie unwissend ich deiner Meinung mach bin.
Versuche erstmal deine ursprüngliche Behauptung zu belegen. Kommt dazu nichts mehr, wirst du zu dem Thema von mir zukünftig ignoriert.
Iscaran
2021-02-19, 13:12:05
https://www.computerbase.de/2021-02/hbm2-ai-samsung-ram-processing-in-memory/
Ob man ein teilweises outsourcing von FP16 Processing direkt im HBM bei RDNA3 sehen wird ?
hmmm....
Zossel
2021-02-19, 13:20:36
https://www.computerbase.de/2021-02/hbm2-ai-samsung-ram-processing-in-memory/
Ob man ein teilweises outsourcing von FP16 Processing direkt im HBM bei RDNA3 sehen wird ?
Entsprechende Patente/IPs geistern schon länger durch das Internet.
reaperrr
2021-02-19, 14:37:46
https://www.computerbase.de/2021-02/hbm2-ai-samsung-ram-processing-in-memory/
Ob man ein teilweises outsourcing von FP16 Processing direkt im HBM bei RDNA3 sehen wird ?
hmmm....
Ich wette nein.
Der Artikel sagt selbst, dass die HBM2-Variante eher ein Testballon ist, und die HBM3-Variante wird ziemlich sicher erst deutlich nach RDNA3 marktreif sein.
Allgemein bezweifle ich auch stark, dass sich das ohne weiteres effektiv in Spielen nutzen ließe, und somit von zweifelhaftem Nutzen für RDNA wäre.
Ich würde das daher wenn überhaupt, dann eher in CDNA erwarten, und dort nicht vor CDNA3.
basix
2021-02-19, 16:46:12
Ich könnte mir in Punkto PIM eher vorstellen, dass man etwas Rechenleistung in den Infinity Cache packt. Für was man das neben den normalen CUs brauchen würde: Keine Ahnung.
Gipsel
2021-02-21, 22:09:44
Aufgeräumt.
Ich bitte darum, das Fanboy-Geschwafel nicht zu übertreiben.
Danke!
amdfanuwe
2021-04-05, 15:19:35
Ein weitere Patent zu Chiplets:
ACTIVE BRIDGE CHIPLET WITH INTEGRATED CACHE (https://www.freepatentsonline.com/y2021/0097013.html)
Im gegensatz zum vorherigem Patent mit passiver Bridge befindet sich hier der L3 Cache auf dem Bridge Chip.
Ein einzelnes GPU Chiplet soll auch alleine verbaut werden können.
Heißt das, die GPU Chiplets haben keinen Infinity Cache mehr?
Wie sieht dann ein einzelnes Chiplet aus?
In 5nm dürften GPUs mit ~120 CUs gut machbar sein. So wie es aussieht werden max. 4 Chiplets verbaut, dürfte ein Chiplet also ~32CUs haben.
Erinnert an N23.
Wie sieht es dann mit der Speicheranbindung aus?
Wären 128Bit ohne IF$ für 32 CUs nicht zu wenig?
Mit 128Bit SI und 32 CU pro Chiplet wäre folgendes möglich(in Klammern mit abgespecktem SI):
128 Bit 32CU
256 (192)Bit 64CU + L3
384 (256)Bit 96CU + L3
512 (384)Bit 128CU + L3
Was meint ihr dazu?
Platos
2021-04-05, 15:27:12
Wer sagt denn, dass das bei RDNA3 kommt ? Also das "Chiplet" Design? Das Patent sagt ja nichts darüber aus, wann das Implementiert wird. Eigentlich weist ein Patent eher darauf hin, dass es noch lange weg ist.
Das einzige was es da gibt, sind ein paar Gerüchte aus Februar meinem Wissen nach. Gerüchte, die auf nicht weiter benannten Quellen basieren.
Linmoum
2021-04-05, 15:39:25
Patente werden erst 18 Monate nach Einreichung veröffentlicht, das dort verlinkte ist bereits von September 2019.
Da immer wieder sowas bei AMD im Zusammenhang mit GPUs auftaucht, sind RDNA3 und/oder CDNA2 die beiden naheliegenden Architekturen dafür. Dass Chiplets/MCM früher oder später auch bei GPUs zum Einsatz kommt, ist mMn auch unstrittig. HPC sowieso, die Frage ist/war bisher ja vor allem, inwiefern sich das auch fürs Gaming effizient umsetzen lässt. Da gab es von Wang und Herkelman auch mal entsprechende Aussagen zu. Dass AMD an MCM arbeitet, ist ein offenes Geheimnis und das schon seit Jahren.
Juni 2018:
It’s definitely something AMD’s engineering teams are investigating, but it still looks a long way from being workable for gaming GPUs, and definitely not in time for the AMD Navi release next year. “We are looking at the MCM type of approach,” says Wang, “but we’ve yet to conclude that this is something that can be used for traditional gaming graphics type of application.”
https://www.pcgamesn.com/amd-navi-monolithic-gpu-design
Platos
2021-04-05, 15:41:01
Ich weiss schon, wann das Patent eingereicht wurde. Ändert erstmal nichts daran, dass Patente nicht auf den Zeitpunkt einer Marktrealisierungen schliessen lassen.
Und da taucht gar nichts immer wieder auf. Wie gesagt, im Februar gabs Gerüchte, die auf nicht genannten Quellen basierten. Mehr wirklich belastbares zu RDNA 3 gabs da soviel ich weiss nicht.
Linmoum
2021-04-05, 16:03:16
Natürlich tauchen immer wieder Gerüchte zu RDNA3 und Chiplets/MCM auf, das ist schon seit letztem Sommer der Fall (Video ist von August 2020).
4m-VA6In94c
Seitdem ist das Thema immer wieder am hochkochen, sei es durch weitere Gerüchte oder wie jetzt wieder Patente. Und natürlich ist das alles nichts "belastbares", das hast du vor einem Launch aber nie.
Lehdro
2021-04-05, 16:06:19
In 5nm dürften GPUs mit ~120 CUs gut machbar sein. So wie es aussieht werden max. 4 Chiplets verbaut, dürfte ein Chiplet also ~32CUs haben.
Erinnert an N23.
32 CUs in 5nm sind mehr als winzig. Da wird man wohl eher deutlich höher gehen, damit man auch noch Salvage sinnvoll nutzen kann. Unter 40 CUs würde ich ein Chiplet nicht erwarten. Dazu dann IF$ auf dem Chiplet, dickere RT Einheiten und ein extra I/O Chip für GDDR bzw HBM.
Platos
2021-04-05, 16:17:19
Jap: [...]In my video, I had speculated that it’s likely this means a chiplet like design[...]
http://www.redgamingtech.com/amd-rdna-3-is-chiplet-based-and-rdna-4-in-development/
Abgesehen davon kommt das ganze von Komachi, der schreibt: 4. NV3X GCD/MCD means probably Graphics Complex Die/Memory Complex Die of Navi 3X (Navi 31).
https://twitter.com/KOMACHI_ENSAKA/status/1291796703767457792
Man sollte schon die Originalquelle angeben und nicht irgend ein Youtuber.
GPU Chiplet ist halt nicht Graphics Complex Die oder Memory Complex Die. Das kann alles bedeuten. Es könnte auch sein, dass erstmal keine "CU-Chiplets" gibt und erstmal einfach Dinge ausgelagert werden.
Muss nicht, aber kann. Auf jeden Fall ist das keine Hinweise auf CU-Chiplets (um es mal genauer zu spezifizieren. Das ist das, was man unter GPU Chiplets versteht).
Edit: Aber zum belastbaren: Es geht mir darum, dass die Meldung von Komachi a) nicht auf CU Chiplets hinweist und b) die Patente nicht auf eine bestimmte Generation Hinweisen (können). Vlt. sollte man jeweils genauer spezifizieren, was man unter GPU Chiplets versteht. Für mich ist das eine GPU, deren CUs aus mehreren Chiplets besteht (mindestens).
Ich würde Komachi schon als zuverlässige Quelle für ein "Gerücht" nennen, aber das Gerücht ist eben kein Hinweis auf CU Chiplets. Youtuber ohne Quellenangabe sind aber nicht eine zuverlässige Quelle (in dem Fall hatte er eine Quellenangabe)
Edit 2: Ich irre mich ja gerne und wir sehen schon bei RDNA 3 CU Chiplets. Wobei ich ja nicht behaupte, es wird nicht so kommen. Ich sage nur, es gibt nur eine Quelle, die explizit auf CU Chiplets unter RDNA 3 hinweist. Die da oben von Leonidas verlinkt.
amdfanuwe
2021-04-05, 16:46:15
32 CUs in 5nm sind mehr als winzig. Da wird man wohl eher deutlich höher gehen, damit man auch noch Salvage sinnvoll nutzen kann. Unter 40 CUs würde ich ein Chiplet nicht erwarten. Dazu dann IF$ auf dem Chiplet, dickere RT Einheiten und ein extra I/O Chip für GDDR bzw HBM.
Das ist aber nicht das, was im Patent drinsteht.
Nix mit extra I/O.
Da wird ein kompletter GPU Chip als Chiplet erwähnt. Der ist in 5nm auch nicht so klein. Navi 23 hat 236mm². In 5nm ohne IF$ dürften es immer noch 100 - 150mm² werden.
Vollausbau mit 160CUs bei 40 CU Chiplet... Denke nicht, dass das 5nm von der TDP her hergeben.
Platos
2021-04-05, 17:27:15
Vollausbau mit 160CUs bei 40 CU Chiplet... Denke nicht, dass das 5nm von der TDP her hergeben.
Das ist ja auch das "Problem" beim Chiplet aufbau. Durch Chiplets sinken die Kosten pro Chipfläche, mehr nicht. Der Stromverbrauch pro TFLOPs steigt eher noch aufgrund der Chiplets. Also wir werden aus meiner Sicht bei Chiplets keine magische Leistungssteigerung sehen. Eher sind Chiplets dazu da,dass die Leistungssteigerung nicht einbricht.
Nightspider
2021-04-05, 17:33:33
Genau genommen steigt nur die Yield-Rate und man hat die Option Teile in einem anderen Verfahren zu fertigen.
Platos
2021-04-05, 19:07:10
Das meinte ich ja, die Kosten pro Fläche sinken dadurch, aber man wird dadurch nicht auf einmal mehr Fläche (bzw. mehr CUs) verbauen können. Eher minimal weniger, da andere Dinge zusätzlich Strom verbrauchen.
Also zumindest bei RDNA. Bei CDNA oder ähnlichem könnte sowas schon von nutzen sein. Für Wissenschaftliche Berechnungen könnte man evtl. Vorteile daraus ziehen, wenn man anstatt 4 Grafikkarten eben alles auf einer (Platine) hat. Aber das ist jetzt mehr ein Gedanke als zu Ende gedacht.
Genau genommen steigt nur die Yield-Rate und man hat die Option Teile in einem anderen Verfahren zu fertigen.
... Und die option, Teile bei einem anderen Fertiger zu fertigen. Intel hat das ja mal angedeutet für ihre CPUs.
amdfanuwe
2021-04-05, 19:13:03
Durch Chiplets sinken die Kosten pro Chipfläche, mehr nicht.
Nicht nur. Man kann durch Chiplets Chips zusammensetzen, die monolithisch gar nicht mehr machbar wären.
Rome mit ~1000mm² wäre ohne Chiplets gar nicht produzierbar.
In 3nm sollen ja auch nur noch Chips mit max 400mm² machbar sein.
Da bleibt ja gar nichts anderes übrig als MCM oder Chiplets für große Chips.
Der Kostenvorteil kommt eigentlich nur durch den besseren Yield der kleineren Chip(let)s.
Nightspider
2021-04-05, 19:24:46
Die letzten Gerüchte sprachen ja von 80 CUs pro Chiplet, die Chiplets wären in 5nm schon sehr klein wenn die IO Geschichte ausgelagert wird.
Cyberfries
2021-04-05, 19:26:28
Heißt das, die GPU Chiplets haben keinen Infinity Cache mehr?
Das Patent geht in eine ähnliche Richtung wie zuvor in diesem Thema geäußerte Vermutungen.
Auf Seite 4 gab es eine Diskussion, ob der Inf$ ins GCD oder MCD wandert, wobei ich da noch
das MCD nicht als "Brücke" sondern als "Träger" erwartet habe. In jedem Fall sehe ich dabei eine Stapelung als gesetzt an.
Interessant ist die Integration des Speicherinterfaces in das GCD, erwartet hätte ich das SI im MCD.
Angenommen also die bisher bekannten Daten zu N31 entsprechen den Spezifikationen des GCD,
so hätte ein doppelter N31 eine Inf$ Brücke zwischen den beiden GCDs, insgesamt 512bit SI und 160CUs...
Kommt mir sehr hoch vor, erlaubt aber als Portfolio:
Name|ROPs|CUs|Speicher|Inf$
RX 7900|256|160|512bit|256mb
RX 7800|192|120|512bit|256mb
RX 7700|128|80|256bit|128mb
RX 7600|96|60|256bit|128mb
Das wäre natürlich brutal, ich würde das aber momentan noch als Wunschdenken einsortieren.
Nightspider
2021-04-05, 19:45:15
160 CUs wären auch monolithisch in 5nm möglich, nur eben nicht so zeitig sondern wenn der Prozess ausgereifter wäre.
Von daher ist da jetzt nichts brutal imo.
Zen 2 mit 16 Kernen war halt auch fast doppelt so schnell wie Intels 8 Kerner.
Das sind eben die Vorteile von Chiplets und AMD könnte so ein 160 CU Monster für viel Geld verkaufen, denn wie sich gezeigt hat gibt es genug Leute die bereit sind auch 1500 Euro auszugeben.
CDNA2 aka MI200 soll ja auch schon MCM sein. Mal sehen was wir da dieses Jahr noch erleben werden.
AlterSack
2021-04-05, 19:48:01
Ein weitere Patent zu Chiplets:
ACTIVE BRIDGE CHIPLET WITH INTEGRATED CACHE (https://www.freepatentsonline.com/y2021/0097013.html)
Im gegensatz zum vorherigem Patent mit passiver Bridge befindet sich hier der L3 Cache auf dem Bridge Chip.
Ein einzelnes GPU Chiplet soll auch alleine verbaut werden können.
Heißt das, die GPU Chiplets haben keinen Infinity Cache mehr?
Wie sieht dann ein einzelnes Chiplet aus?
In 5nm dürften GPUs mit ~120 CUs gut machbar sein. So wie es aussieht werden max. 4 Chiplets verbaut, dürfte ein Chiplet also ~32CUs haben.
Erinnert an N23.
Wie sieht es dann mit der Speicheranbindung aus?
Wären 128Bit ohne IF$ für 32 CUs nicht zu wenig?
Mit 128Bit SI und 32 CU pro Chiplet wäre folgendes möglich(in Klammern mit abgespecktem SI):
128 Bit 32CU
256 (192)Bit 64CU + L3
384 (256)Bit 96CU + L3
512 (384)Bit 128CU + L3
Was meint ihr dazu?
Da würde sich HBM gut machen, anstelle von 384/512bit SI.
davidzo
2021-04-06, 00:16:31
Das ist ja auch das "Problem" beim Chiplet aufbau. Durch Chiplets sinken die Kosten pro Chipfläche, mehr nicht. Der Stromverbrauch pro TFLOPs steigt eher noch aufgrund der Chiplets. Also wir werden aus meiner Sicht bei Chiplets keine magische Leistungssteigerung sehen. Eher sind Chiplets dazu da,dass die Leistungssteigerung nicht einbricht.
Mit Chiplets hat man aber auch die Möglichkeit näher am effizienz-sweetspot zu takten und trotzdem das Leistungsziel zu erreichen. Man hat monolitisch einfach viel eher praktische Grenzen beim in die Breite gehen, die bei Chiplets noch nicht greifen. Das könnte die Effizienz (unter Last) dann doch wieder erhöhen.
Ich denke auch es Zeit für einen aktiven Interposer. AMD hat schon viel Erfahrung mit 2.5d Interposern und ist zuletzt mit zen2+3 aber wieder auf mcm packages zurückgegangen (wohl kostengründe?). Ich denke man hat gewartet bis die Zeit reif ist den teuren großen Interposer auch für zusätzliche Funktionen zu verwenden: Cache und Fabric.
Cyberfries
2021-04-06, 09:49:56
160 CUs wären auch monolithisch in 5nm möglich, ... Von daher ist da jetzt nichts brutal imo.
Das ist nicht der Punkt den ich bezweifle, 128-160CUs sind sicher drin. Die Frage ist - wie bereits bei RDNA2 - die nach dem Speicherausbau,
wo die 512bit, die sich durch Addition zweier N31-GCDs ergeben, irritieren, mMn unwahrscheinlich sind.
Erwartet hätte ich 384bit /192mb Inf$, die Trefferquote flacht ohnehin über 100 deutlich ab und 24GB wären ein sinnvoller Schritt.
Aber:
Sofern ich das richtig gelesen habe, lagert eine Anordnung wie in genanntem Patent beschrieben einzig und allein den Inf$ aus,
sämtliche übrigen Komponenten sind in jedem GCD enthalten, wobei eines der GCD als Master, die übrigen als Slave fungieren.
Dabei kommuniziert nur der Master mit der Außenwelt? Also effektiv nicht 512bit sondern 256bit und ein totes SI auf den weiteren GCDs?
Da erscheint mir ein MCD mit Inf$ UND SI als wesentlich sinniger, statt großen und teuren 5nm-GCDs (ca.300mm² in 5nm?)
und einer kleinen MCD-Brücke (ca.120-160mm² ?) lieber kleinere GCDs und eine größere Brücke.
edit:
Ich denke auch es Zeit für einen aktiven Interposer.
Also ein großer Chip - in dem Fall ca. 800mm² - der SOC-Funktionalitäten aufnimmt?
Selbst in einem billigen Verfahren erscheint mir das wenig erstrebenswert, dann doch lieber eine kleine Brücke.
davidzo
2021-04-06, 10:28:16
Das ist nicht der Punkt den ich bezweifle, 128-160CUs sind sicher drin. Die Frage ist - wie bereits bei RDNA2 - die nach dem Speicherausbau,
wo die 512bit, die sich durch Addition zweier N31-GCDs ergeben, irritieren, mMn unwahrscheinlich sind.
Erwartet hätte ich 384bit /192mb Inf$, die Trefferquote flacht ohnehin über 100 deutlich ab und 24GB wären ein sinnvoller Schritt.
Aber:
Sofern ich das richtig gelesen habe, lagert eine Anordnung wie in genanntem Patent beschrieben einzig und allein den Inf$ aus,
sämtliche übrigen Komponenten sind in jedem GCD enthalten, wobei eines der GCD als Master, die übrigen als Slave fungieren.
Dabei kommuniziert nur der Master mit der Außenwelt? Also effektiv nicht 512bit sondern 256bit und ein totes SI auf den weiteren GCDs?
Da erscheint mir ein MCD mit Inf$ UND SI als wesentlich sinniger, statt großen und teuren 5nm-GCDs (ca.300mm² in 5nm?)
und einer kleinen MCD-Brücke (ca.120-160mm² ?) lieber kleinere GCDs und eine größere Brücke.
edit:
Also ein großer Chip - in dem Fall ca. 800mm² - der SOC-Funktionalitäten aufnimmt?
Selbst in einem billigen Verfahren erscheint mir das wenig erstrebenswert, dann doch lieber eine kleine Brücke.
Naja, solche Interposer haben in der Regel nur wenige Layer und werden nur mit einer Handvoll Masken belichtet. Das kann man nicht einfach so anhand der quadratmillimeter Beurteilen, es geht praktisch um ein dreidimensionales Produkt.
Wie kommst du außerdem auf 800mm2? Nur weil das bei Fiji mit HBM so war?
Ich denke wenn ein 80CU GCD in 5nm 150-250mm2 hat, dann muss der Interposer nicht größer sein als beide Zusammen, also 300-500mm. Wenn er bereits den cache enthält macht das die chiplets eben kleiner. Und da SRAM in der Regel am schlechtesten mit jedem neuen Prozessnode skaliert, macht es gar nicht so viel aus wenn man den Interposer in 28nm bulk o.Ä. fertigt.
robbitop
2021-04-06, 10:33:57
Bei GPU Chiplets muss man sich sicherlich aufgrund der erhöhten Datentransferkosten (Energie pro Bit) Sorgen machen. Sobald ein Transfer off chip geht, wird er teurer in Bezug auf joules/bit. Entsprechend sinnvoll ist es sicherlich, dass in den GCDs ein Cache mit einer möglichst hohen Hitrate vorhanden ist um diesen Effekt zu reduzieren.
Der Effekt wäre aber deutlich geringer wenn GCDs auf MCDs gestapelt werden können. :)
amdfanuwe
2021-04-06, 10:41:43
Dabei kommuniziert nur der Master mit der Außenwelt? Also effektiv nicht 512bit sondern 256bit und ein totes SI auf den weiteren GCDs?
Nicht ganz. Können auch teildeaktivierte SI auf den GCDs sein. Alle kommunizieren über L3.
Mal sehen, was letztendlich rauskommt. Die verschiedenen Patente zeigen lediglich, dass AMD an allem möglichem forscht und sich patentieren läßt.
Können auch nur Nebelkerzen sein.
Cyberfries
2021-04-08, 10:01:03
Das Thema wird auch auf Beyond3D (https://forum.beyond3d.com/threads/amd-rdna-3-speculation-rumours-and-discussion.62092/page-11) diskutiert:
tunafish: An interesting detail: The patent describes the memory interfaces being placed on the GPU chiplets, which makes sense in that it naturally scales the bandwidth with the compute. However, any access outside of a chiplet's own L2 requires looking at the L3 on the interposer, so any memory access always requires a roundtrip to the interposer, even if the memory request will be served by an interface on the same chiplet where it originated.
Bondrewd: Yep it's a bit like Zen2 parts where you've always walked into the IODs to check the directories even if your target was the 2nd CCX on the same die.
Jeder Zugriff auf Speicher außerhalb des eigenen Chiplets läuft über die Brücke, da der Inf$ berücksichtigt werden muss.
Ich hatte auf das Problem eines SIs nur auf dem Master-GCD hingewiesen mit langen Wegen für Slaves. Zeigt sich, gilt für den Master auch.
Warum also nicht das SI in die Brücke integrieren:
tunafish: An interesting detail: The patent describes the memory interfaces being placed on the GPU chiplets, which makes sense in that it naturally scales the bandwidth with the compute.
Bondrewd: N-n-nope, it's merely for the sake of heat and not dealing with fuckton more TSVs wherever possible.
Sooner or later analog bs would be ghetto'd into its own set of chiplets (okay sorry, Intel sorta did that already with PVC Xe-Link (well, CXL with fancy) tile), but for now this would do.
Gründe dafür sind wohl Hitzeentwicklung und die notwendigen Verbindungen zur Außenwelt über Through-Silicon-Vias.
tunafish: The advantage of this is that they can sell the GCD alone for their lowest-end part, and save a few bucks there, the disadvantage of course is that they lose a few % of silicon on every higher-end part because only the interfaces on the first die are in use.
Bondrewd: Nope, only the upper two N3x parts are chiplet, rest are N-1 single dies.
Technically it also allows them to salvage more but TSMC yields are excellence as is thus well, not entirely necessary.
Das ist Neu: Nur die oberen beiden N3x "parts" verfügen über ein Chiplet-Design, darunter gewöhnliche Einzelchips.
Mir ist an der Stelle unklar was mit "parts" gemeint ist.
Außerdem wird die Interpretation, dass nur das Master-GCD über ein SI verfügt wird von den Beiden geteilt.
Bondrewd: AMD is doing it way more gradually (i.e. N31 is 3 tiles total while PVC is 40-something).
The tile count will ramp with each RDNA/CDNA gen until it looks very held-by-spit-and-tape.
Bondrewd: They can do it 3-Hi too but that's not particularly useful for now.
Einen Verbund aus mehr als drei Kacheln (bei N31) soll es zunächst nicht geben, doch mit jeder Generation soll die Anzahl erhöht werden.
Außerdem bleibt es zunächst bei zwei Ebenen, eine dritte sei momentan noch nicht sinnvoll.
Zwei N31-Chiplets mit nur einem aktiven SI? Das wären 160CUs die wieder über 16GB verfügen an nur 256bit - ambitioniert.
Zur Herstellung noch das passende Patent, das hier glaube ich noch nicht gezeigt wurde:
https://www.freepatentsonline.com/y2021/0098419.html
Bondrewd hat letzten Herbst bis zu seinem Bann mit Infos zu N21 auf sich aufmerksam gemacht.
Rückblickend war Wissen da, wenn auch stellenweise zu verklausuliert. Vielleicht beherrscht er sich ja diesesmal.
Wie kommst du außerdem auf 800mm2?
Mein Fehler.
Ich bin von meiner obenstehender Rechnung ausgegangen (2x300+160) und ignoriert, dass durch aktive Interposer die Chiplets schrumpfen.
Trotzdem bleibt die Frage, welchen Vorteil ein Interposer gegenüber der Brücke haben soll. Ein Interposer muss immerhin als Träger dienen,
selbst mit IO und Inf$ sehe ich das eher bei ca. 500mm² und wirklich simpel ist das dann auch nicht mehr.
Nightspider
2021-04-08, 10:46:11
Ich rechne da eher mit 250mm^2 pro Chiplet.
Bei einem Scaling von 1,8x durch 5nm ist das jede Menge Platz für IPC / Effizienz Verbesserungen, wenn der Infinity Cache rausfliegt. Dürfte etwa 50% mehr Platz/Transistoren für jede CU ermöglichen.
amdfanuwe
2021-04-08, 11:15:48
Ein Interposer muss immerhin als Träger dienen,
selbst mit IO und Inf$ sehe ich das eher bei ca. 500mm² und wirklich simpel ist das dann auch nicht mehr.
Wie kommst du auf Interposer? Steht doch nichts davon in den Patenten.
Da wird TSMC COWOS Technik verwendet. Die "Bridge" ist ein normaler Chip der oberhalb oder unterhalb der GDC Chips liegt.
Cyberfries
2021-04-08, 11:46:24
Ich rechne da eher mit 250mm^2 pro Chiplet.
IO und SI skaliert schlecht. 340mm² / 1,8 -> 190mm² + 100 -> 290mm² + CUs aufbohren und wieviel kommt von den 1,8x tatsächlich an?
Können natürlich auf 250mm² werden, ändert aber nicht wirklich etwas an der Grundaussage.
Wie kommst du auf Interposer? Steht doch nichts davon in den Patenten.
Das bezieht sich offensichtlich auf das (gekürzte) Zitat von davidzo, der sich hier (https://www.forum-3dcenter.org/vbulletin/showpost.php?p=12644234&postcount=362) einen aktiven Interposer gewünscht hat.
Nightspider
2021-04-08, 13:32:21
IO und SI skaliert schlecht.
IO kommt aber nicht in den Compute Chip.
stinki
2021-04-08, 15:32:13
@Cyberfries
Der DRAM Speicher hängt direkt am memory-attached last level L3.
[0020] ... Furthermore, the L3 level 210 reads from GDDR memory (not shown, but via memory PHYs 212) if the requested data is not cached in the L3 level 210.
Und die Verbindung zwischen L3 und GPU-Chiplet wird mit Scalable Data Fabric (SDF) gemacht (also known as SOC memory fabric), also InfinityFabric). Genau wie es jetzt schon in Navi2x Chips intern ist beim Zugriff auf den I$.
[0020] ... if another client accesses data (e.g. CPU accessing data in DRAM) the CPU comes through and connects to SDF fabric 216 to read from the L3 level 210.
Das ist logisch ähnlich wie bei Zen 2/3 und IO Chiplet. Zwei oder mehr CPU Chiplets hängen über IF am IO Chiplet mit Memory Controller.
Das ist eigentlich IO Chiplet mit Last Level Cache (und ohne PCIE Interface und den restlichen Schnittstellen wie z.B. USB).
Der Unterschied ist, das das PCIE Interface im (ersten) GPU Chiplet verbleibt. Und natürlich die physikalische Implementierung more advanced ist.
Edit: Wobei die memory PHYs (Memory Controller) selbst vielleicht noch im GPU Chiplet sind. Dann geht man über IF raus und muss für den GDDR Zugriff wieder rein.
Das macht für mich aber irgendwie wenig Sinn vom Daten Routing. Man hat dann ja als Weg:
GPUx(IF) -> L3 -> GPUy(PHY) -> GDDR -> GPUy(PHY) -> L3 -> GPUx(IF)
Aber geht technisch momentan vielleicht wegen der Kühlung der Memory Interfaces wirklich noch nicht anders. Na ja, lassen wir uns mal überraschen wie die Umsetzung am Ende bei Navi3x aussieht.
Linmoum
2021-04-17, 01:31:15
6980PC3STtM
Das ein oder andere ist nicht unbedingt neu, aber laut RGT:
- 2H 2022
- er impliziert N5 für RDNA3 (deswegen 2H 2022, da dann mehr Kapazitäten wg. Apple frei werden)
- Chiplets ("MLA-Chiplet" allerdings noch nicht mit RDNA3)
- 2x "Compute Dies" / 1x I/O für N31 und N32 (dass nur letztere Chiplets haben sollen, war ja bereits zu hören)
- Performancetarget: +150% vs. RDNA2 (Top-Dog vs. Top-Dog)
Er nennt auch noch ein paar Vergleiche mit NV, u.a. höhere Rasterizer-Perf bei niedrigerem Verbrauch mit RDNA3 und ähnliche ("could actually be very close") RT-Performance. Da ich aber keine Ahnung habe, was er bei NV für Quellen hat, würde ich dem erst einmal nicht zu viel Bedeutung zukommen lassen.
Bei AMD hingegen hat er die spätestens nach dem Ding mit dem Cache definitiv.
Nightspider
2021-04-17, 02:17:08
RDNA4 soll dann auch nochmal einen großen Sprung machen.
Hört sich auf jeden Fall interessant an was RGT die letzten Monate so an Leaks raushaut.
Damit könnte sich der Chiplet-Blitzkrieg wie bei Zen2 im GPU Markt wiederholen.
Wenn Nvidias Lovelace noch von Samsung kommt hat AMD jetzt schon gewonnen. Samsungs 5nm Prozess soll ja noch etwas schlechter gegenüber TSMCs 5nm dastehen als aktuell Samsungs 7nm Prozess gegenüber TSMCs N7.
Brillus
2021-04-17, 08:34:05
RDNA4 soll dann auch nochmal einen großen Sprung machen.
Hört sich auf jeden Fall interessant an was RGT die letzten Monate so an Leaks raushaut.
Damit könnte sich der Chiplet-Blitzkrieg wie bei Zen2 im GPU Markt wiederholen.
Wenn Nvidias Lovelace noch von Samsung kommt hat AMD jetzt schon gewonnen. Samsungs 5nm Prozess soll ja noch etwas schlechter gegenüber TSMCs 5nm dastehen als aktuell Samsungs 7nm Prozess gegenüber TSMCs N7.
NV verwendet aber aktuell Samsung 8nm was eine abwandlung von Samsung 10nm ist und daher doch einiges schlechter als Samsung 7nm.
dargo
2021-04-17, 09:18:19
- Performancetarget: +150% vs. RDNA2 (Top-Dog vs. Top-Dog)
+150% nach ~1,5-2 Jahren auf den Top Dog? Nicht, dass ich mir das nicht wünschen würde aber das will ich erstmal sehen. :tongue: Oder ist hier eher 150% gemeint, ergo +50%. ;)
Der_Korken
2021-04-17, 09:44:49
Vor allem muss die GPU für +150% Leistung auch 150% effizienter werden, weil der alte Topdog schon bei 300W hängt. Nachdem AMD bei der jetzigen Gen bereits 50% Perf/W aus der gleichen Fertigung (d.h. aus der Architektur selber) rausgeholt hat und 5nm alleine niemals so eine Steigerung bringen, halte ich +50% für deutlich wahrscheinlicher als +150%.
AffenJack
2021-04-17, 10:40:42
AMD sprach auch selbst von ähnlichen Effizienzgewinnen wie in der aktuellen Gen, die angepeilt sind. Ergo 50% effizienz und 50% Geschwindigkeitssteigerung. Redgamingtech mag da irgendeine Info erhalten haben (wie mit dem IF), aber ist bei der Interpretation mal völlig vorbei. Außer AMD bringt natürlich Karten mit über 400W.
reaperrr
2021-04-17, 11:14:22
Oder ist hier eher 150% gemeint, ergo +50%. ;)
RGT spricht von "2.5x RDNA2", also eindeutig +150%.
Mit RDNA2 haben sie es ja auch geschafft, die Effizienz der Architektur so zu verbessern, dass sie die Leistung fast um den Faktor 2 steigern konnten, im gleichen Prozess.
Bei RDNA3 kommen einerseits die Vorteile von N5P dazu, und andererseits werden wohl erstmals Chiplets verwendet, was sowohl beim Takt als auch Anzahl der aktiven CUs aggressiveres Binning erlauben sollte.
Ob es dann am Ende wirklich so viel wird sei dahingestellt, aber ausschließen würde ich erstmal nichts.
fondness
2021-04-17, 11:29:27
Klar ist zumindest AMD will die Krone. Die haben sie diesmal noch nicht bekommen, weil Nvidia auf 350W gegangen ist. Aber Lisa macht definitiv keine halben Sachen, wer die Leistung vorgibt diktiert den Preis und das in allen Marktsegmenten, das hat Lisa nicht nur einmal sinngemäß gesagt. Und 2x80CUs Chiplets werden zumindest bei deutlich über 50% Mehrleistung landen, soviel ist sicher. Je nach sonstigen Verbesserungen und ev. weiteren Taktsteigerungen halte ich +150% jedenfalls für realistischer als +50%. Dann natürlich höchstwahrscheinlich auch bei mehr als 300W, aber diesen Weg hat NV eh bereits aufbereitet.
dargo
2021-04-17, 11:55:52
RGT spricht von "2.5x RDNA2", also eindeutig +150%.
Mit RDNA2 haben sie es ja auch geschafft, die Effizienz der Architektur so zu verbessern, dass sie die Leistung fast um den Faktor 2 steigern konnten, im gleichen Prozess.
Das ist doch kompletter Unsinn. AMD hatte bei RDNA1 keinen TopDog vs. Konkurrenz. Ich hatte das irgendwo im anderen Thread vorgerechnet. Hätte AMD bei RDNA1 eine SKU mit der Performance einer RTX 2080TI hat sich AMD mit der RX 6900XT um 38% gesteigert wenn mich meine Erinnerung an die Rechnung nicht täuscht.
Dann natürlich höchstwahrscheinlich auch bei mehr als 300W, aber diesen Weg hat NV eh bereits aufbereitet.
:down:
Völlig falsche Richtung! Mir wäre lieber wenn AMD beim TopDog max. 250-275W anpeilt.
Thunder99
2021-04-17, 12:07:45
This!
Aber dennoch gute Leistung aus dem gleichen Prozess die größeren Karten zu realisieren.
Platos
2021-04-17, 13:04:59
Der Top Dog wird dann immer mehr zum reinen Theorieobjekt, dass eigentlich nur noch wenige wollen. Sehe zumindest ich so. Was will ich mit so einer 350-450W Grafikkarte...
Die GTX 1080 hatte damals 180W. Ich fände es gut, wenn die 4080 und die 7800XT (oder wie sie dann heissen) wieder 180W ziehen würden. Aber in der Realität muss man sich wohl freuen, wenn eine 4060 bzw. 7700 Die 180W Grenze nicht überschreiten :D
Naja, so siehts eben Mittlerweile aus. CPUs ziehen unter Last (sowohl von AMD als auch sowieso Intel) deutlich mehr Saft im selben Preisbereich (weil halt mehr Kerne).
Aber schlussendlich kauft man im selben Preisbereich und da ist der Stromverbrauch von CPU und GPU in den letzten paar Jahren extrem gestiegen.
Damals 90W CPU (Vollast) und 180W GPU, heute 150W CPU (Vollast) und 300W GPU... Oder bei Intel noch mehr unter Vollast. Das ist doch mittlerweile nicht mehr normal.
Sunrise
2021-04-17, 13:06:03
Vor allem muss die GPU für +150% Leistung auch 150% effizienter werden, weil der alte Topdog schon bei 300W hängt. Nachdem AMD bei der jetzigen Gen bereits 50% Perf/W aus der gleichen Fertigung (d.h. aus der Architektur selber) rausgeholt hat und 5nm alleine niemals so eine Steigerung bringen, halte ich +50% für deutlich wahrscheinlicher als +150%.
Mal davon ab, dass 2,5x nach ziemlich viel klingt, wird AMD mit ziemlicher Sicherheit wieder mit +50% Effizienzverbesserung geplant haben. Wenn man die doppelte Anzahl an Ausführungseinheiten unter bringen (2x Compute-Die), dazu viel auf einen neuen Die auslagern kann und das (wahrscheinlich eine ganze Menge Cache) wieder sehr energieeffizient versorgen kann, dann sind +100% sicher kein Thema. Das sollte intern das Minimum-Ziel einer deutlich verbesserten, neuen Generation sein, vor allem mit neuem Full-Node und weiteren Optimierungen.
Wenn AMD bei RDNA3 (man hatte das bereits gemunkelt) zudem die IPC steigern kann, sind 2,5x zwar sehr hoch gegriffen, aber zwischen 80-120% sollte man auf jedenfall erreichen können (Leistung, die auch auf die Straße kommt).
Ich halte das für realistisch, wenn auch super optimistisch. Solch Erwartungen zu wecken führt aber meist zu Enttäuschungen. Dennoch wird RDNA3 sicher ordentlich schnell, wenn sie hier den speziell angepassten N5P verwenden. TDP und Preis spielen aktuell sowieso verrückt, da hat AMD relativ viel Spielraum, weil NV das ja vorgemacht hat.
Platos
2021-04-17, 13:08:16
Also mal bezüglich den 2.5x Leistung... Ihr träumt hier echt ein bisschen zu viel :D
Der_Korken
2021-04-17, 13:31:06
Mit RDNA2 haben sie es ja auch geschafft, die Effizienz der Architektur so zu verbessern, dass sie die Leistung fast um den Faktor 2 steigern konnten, im gleichen Prozess.
Bei RDNA3 kommen einerseits die Vorteile von N5P dazu, und andererseits werden wohl erstmals Chiplets verwendet
Für diesen Faktor 2 ist aber auch der Verbrauch um 33% gestiegen. Das ist bei RDNA3 nicht drin, es sei denn, man will 400W als neue Verbrauchsklasse für Highend-GPUs etablieren. Die 5nm helfen, aber AMD hat architekturseitig bei RDNA2 viel für die Effizienz geleistet. Allein der I$ dürfte einen großen Anteil am Effizienzgewinn ausgemacht haben. Da nochmal so viel rauszuholen wird extrem schwer sein, weil die "einfachen" Optimierungen alle schon von RDNA2 abgegrast wurden und der I$ auch flächentechnisch teuer bezahlt wurde.
Und 2x80CUs Chiplets werden zumindest bei deutlich über 50% Mehrleistung landen, soviel ist sicher. Je nach sonstigen Verbesserungen und ev. weiteren Taktsteigerungen halte ich +150% jedenfalls für realistischer als +50%
So einfach ist es nicht. CB hat man IPC-Vergleiche zwischen N21 und N22 angestellt: https://www.computerbase.de/2021-03/amd-radeon-rdna2-rdna-gcn-ipc-cu-vergleich/2/#abschnitt_cuskalierung_in_3840__2160_ultra_hd
80CUs sind in 4K bei gleichem Takt ca. 69% schneller. Ja, der I$ macht den Vergleich unsauber, weil die 6900XT nicht die doppelte Cache-Bandbreite hat, dafür aber bei selbem Bench die größere Hitrate. Schwer zu sagen, wie man den verrechnet, aber ich denke an den 69% würde sich nicht dramatisch viel ändern. Wenn du jetzt auf 160CUs gehst, wird die Skalierung (ohne zusätzliche Transistoren zu investieren) noch schlechter sein - bei einem monolithischen Chip. Jetzt hast du durch Chiplets eventuell neue Flaschenhälse drin, weil externe Bandbreite viel teuer als interne ist. Da einfach zu sagen, dass 2x80 doppelt so schnell wie 80 ist und ein paar IPC- und Taktgewinne draufzumultiplizieren, geht imho überhaupt nicht auf.
:down:
Völlig falsche Richtung! Mir wäre lieber wenn AMD beim TopDog max. 250-275W anpeilt.
+1
Ich finde es beeindruckend wie viel (GPU-)Leistung beispielsweise Apple in ihren 15W M1-Chip reinbekommt. Da kommen mir solche 350W- oder 400W-Dinosaurier einfach wie altbackene Technik vor.
Mal davon ab, dass 2,5x nach ziemlich viel klingt, wird AMD mit ziemlicher Sicherheit wieder mit +50% Effizienzverbesserung geplant haben. Wenn man die doppelte Anzahl an Ausführungseinheiten unter bringen (2x Compute-Die), dazu viel auf einen neuen Die auslagern kann und das (wahrscheinlich eine ganze Menge Cache) wieder sehr energieeffizient versorgen kann, dann sind +100% sicher kein Thema.
Wie soll die Leistung denn um 100% steigen, wenn die Effizienz nur um 50% steigt? Dann musst du auch den Verbrauch erhöhen.
basix
2021-04-17, 13:42:48
400W bei +50% Effizienz ergäbe "nur" 2x Performance ;)
Ich denke aber schon, dass 2.5x möglich ist. Sehr schwierig, aber möglich. 2x CUs, allenfalls mehr Takt und IPC. Da liegen 2.5x in Reichweite, wenn einem die doppelten CUs das Scaling nicht verhageln. Ich denke, dass RDNA3 einen guten Sprung bei der IPC und beim Scaling auf mehr CUs machen wird: 2. Generation Infinity Cache und RDNA2 ist von der IPC nicht besser als RDNA1. Und doppelte CUs bei RDNA2 skalieren nur mit ca. +70%. Da liegt also noch einiges an Performance Potential, ohne überhaupt die FLOPS steigern zu müssen.
Ich hätte aber auch gerne, dass max. 300W die absolute Obergrenze bleiben, besser noch 250W. Die Tendenz zeigt aber in die andere Richtung.
Andere Theorie: 2.5x gilt nur für Raytracing ;)
Nightspider
2021-04-17, 14:06:53
Also mal bezüglich den 2.5x Leistung... Ihr träumt hier echt ein bisschen zu viel :D
Das haben die Intel Fanboys auch gesagt vor dem Zen2 Release mit 16 Kernen.
Navi31 wird, und das vergessen hier einige scheinbar, quasi eine Crossfire-Dual-Chip Karte nur ohne Crossfire und derartige Nachteile.
Die Karte wird gewaltige 160 CUs in die Schlacht bringen und wird notfalls einen scheiß auf imaginäre 300W Begrenzungen geben.
Ein Ryzen Prozessor mit 16 Kernen schluckt auch viel Leistung. Wer viel Leistung will muss viel Leistung zuführen.
Wer eine stromsparende Karte will kann zu Navi 32 oder Navi 33 greifen oder das Schlachtschiff halt stark undervolten.
Thunder99
2021-04-17, 14:11:33
Mit dem Vergleich von Ryzen vergisst ihr wohl, dass beim gleichen Power Budget 8 Kerne, 12 Kerne und 16 Kerne sich diesen nutzen. Oder 6800XT und 6900XT die gleiche Board Power haben.
Das ein Top Dog am meisten Verbrauch muss nicht sein, er bekommt einfach das beste Silizium ab ;)
Nightspider
2021-04-17, 14:13:29
Vor allem muss die GPU für +150% Leistung auch 150% effizienter werden, weil der alte Topdog schon bei 300W hängt. Nachdem AMD bei der jetzigen Gen bereits 50% Perf/W aus der gleichen Fertigung (d.h. aus der Architektur selber) rausgeholt hat und 5nm alleine niemals so eine Steigerung bringen, halte ich +50% für deutlich wahrscheinlicher als +150%.
N5 alleine soll schon 30% bringen.
Wenn AMD bei der Architektur nochmal einen Sprung hinlegt wie bei RDNA2, was möglich ist, sind wir zusammen schon bei 95% ~65-70%(?) besserer Effizienz.
150%*130%=195% 100%*0,7*0,5=35% (?) nach Milchmädchenrechnung.
Und wie schon gesagt, wird man sich bestimmt nicht von einer imaginären 300W Grenze ausbremsen lassen.
Mit dem Vergleich von Ryzen vergisst ihr wohl, dass beim gleichen Power Budget 8 Kerne, 12 Kerne und 16 Kerne sich diesen nutzen.
Das ein Top Dog am meisten Verbrauch muss nicht sein, er bekommt einfach das beste Silizium ab ;)
16 Kerne auf Vollast ziehen trotzdem dramatisch mehr Leistung als 8 Kerne.
Die TDP ist doch unwichtig. Der echte Verbrauch ist relevant.
Für diesen Faktor 2 ist aber auch der Verbrauch um 33% gestiegen. Das ist bei RDNA3 nicht drin, es sei denn, man will 400W als neue Verbrauchsklasse für Highend-GPUs etablieren.
Das wird halt alle die Leute nicht interessieren, die früher SLI, Crossfire und übertaktete Topdogs hatten.
Und davon gibts genug um sowas gut zu verkaufen.
Da die Chiplets mit ~260-320mm² (grob geschätzt) eh nicht klein werden für 5nm, wird es auch genug Salvage-Karten geben, die dann eben in niedrigeren Watt-Bereichen wildern.
Sunrise
2021-04-17, 14:31:11
Ich finde es beeindruckend wie viel (GPU-)Leistung beispielsweise Apple in ihren 15W M1-Chip reinbekommt. Da kommen mir solche 350W- oder 400W-Dinosaurier einfach wie altbackene Technik vor.
Das sehe ich auch so, aber das sind IMHO keine fairen Vergleiche, denn alles was oben immer noch mehr Leistung dazuschaufelt, kostet eine Menge Kraft bzw. Aufwand, das ist ja quasi Gesetz und gilt für alles.
Wenn du natürlich von vorneherein etwas so auslegst, dass die Grundarchitektur nicht nur extrem effizient ist, sondern auch skalierbar nach oben (Chiplets, Cache, Kontrolllogik), dann kannst du beides erreichen. Ja, auch hier gilt natürlich das obere, aber du müsstest dich ständig neu erfinden (neue Core-Architektur alle paar Jahre) und das ist unrealistisch, in einem Wirtschaftskreislauf.
Vielmehr legt man nun (gezwungenermaßen) Wert auf neue, skalierbare Parameter wie Packaging-Technologien, Stacking usw. aber jedes zu seiner Zeit. Chiplets sind eben jetzt wieder der Weg, um Dinge abzumildern oder überhaupt erst zu ermöglichen.
...Da einfach zu sagen, dass 2x80 doppelt so schnell wie 80 ist und ein paar IPC- und Taktgewinne draufzumultiplizieren, geht imho überhaupt nicht auf.
...
Wie soll die Leistung denn um 100% steigen, wenn die Effizienz nur um 50% steigt? Dann musst du auch den Verbrauch erhöhen.
Ich glaube, dass hier Äpfel mit Birnen verglichen werden.
Der neue Ansatz hat zwei Gründe (was auch der Grund ist, warum den vorher niemand ernsthaft in Erwägung gezogen hat):
1) Limitiertes Die-Budget und Yield
2) Energiebedarf
AMD hat diesen Ansatz aber bereits durchgezogen und jetzt einfach nur vom monolitischen Verbrauch zum Chiplet-Design-Verbrauch zu verrechnen ist denke ich ziemlicher Quatsch. Der Ansatz ist gänzlich neu und wir wissen nicht, welche Flaschenhälse AMD da zusätzlich angegangen ist (siehe den Infinity Cache), denn sie werden ja auch neue damit haben.
2,5x ist natürlich eine extreme Annahme, aber von RTG erwartet man auch nichts anderes, wenn man sich die YT-Historie mal anschaut. Das neue Video enthält nichts, was man nicht schon wusste, nur neue Behauptungen.
Nightspider
2021-04-17, 14:36:53
Hier müssen einige auch mal bedenken das 160 CUs eben nicht direkt durch 5nm erreicht werden sondern durch 2 GPUs (Chiplets).
Und obendrein bringt 5nm nochmal einen gewaltigen Schritt um mehr Transistoren zu verbauen.
Durch 5nm kann AMD viel mehr Transistoren pro CU verbauen und die IPC und Effizienz deutlich verbessern.
Navi31 könnte äquivalent zu einem 700-800mm² großen monolithischen Chip werden.
Und der Topdog wird sowieso ein vierstelliges Preisschild haben.
Für die meisten hier im Forum wird Navi32 interessant werden.
Wer eine max. 300W Karte will wird sich Navi32 kaufen. So einfach ist das.
amdfanuwe
2021-04-17, 14:38:05
Die GTX 1080 hatte damals 180W. Ich fände es gut, wenn die 4080 und die 7800XT (oder wie sie dann heissen) wieder 180W ziehen würden.
Und der erste Golf GTI hatte damals 112PS.
Ist doch egal, was der Top-Dog verbraucht, kostet, leistet solange ich etwas in meinem bevorzugten Bereich bekomme. Zwingt mich doch keiner den Top-Dog zu kaufen.
Der_Korken
2021-04-17, 14:38:43
Und wie schon gesagt, wird man sich bestimmt nicht von einer imaginären 300W Grenze ausbremsen lassen.
Dann hätte man auch die 6900XT schon in 400W bringen können, denn das hätte vielleicht schon gereicht, um an der 3090 vorbeizuziehen. 300W ist halt so die Grenze, was mit Luft noch sinnvoll zu kühlen ist. Mit geschlossenem Gehäuse und unter 45°C Lufttemperatur im Case.
Und mal eben so weitere 50% Effizienz aus der Architektur rausholen, obwohl man das mit der letzten Gen "mal eben schon" getan hat, ist eben alles andere als wahrscheinlich. Man kann nicht einfach den letzten Sprung hernehmen und in die Zukunft extrapolieren. Ansonsten hätte Nvidia nach Maxwell ja auch einfach mit Pascal, Turing und Ampere genauso große Sprünge machen können. Haben sie aber nicht bzw. Pascal nur durch den Shrink von 28nm auf 16nm Finfet. Die Nvidia-Fanboys haben bei jeder neuen Gen auch immer vorausgesagt haben, dass Nvidia wie gewohnt bei der Effizienz davonzieht und AMD wie gewohnt auf der Stelle tritt und der Abstand immer größer wird. Das stimmt aber nicht, denn je weiter vorne man ist, desto schwieriger ist es, den Vorsprung auszubauen oder zu halten. Der Effizienzsprung von RDNA2 war imho überfällig, weil das einfach der Schritt war, den Nvidia mit Maxwell gemacht hat, aber AMD (mangels Mittel) nicht mitgegangen ist. Daraus kann man aber nicht ableiten, dass ab jetzt so weitergeht. Vor allem ist Nvidia nicht Intel sondern hat immer weiter gepusht. Die einzuholen war schon eine gute Leistung von AMD.
amdfanuwe
2021-04-17, 14:44:39
Die TDP ist doch unwichtig. Der echte Verbrauch ist relevant.
Absolut nicht. Die TDP bestimmt, was technisch machbar ist. Der Verbrauch interessiert nicht, wenn die Leistung stimmt.
Nightspider
2021-04-17, 14:47:57
Dann hätte man auch die 6900XT schon in 400W bringen können
Hätte man machen können. Wäre aber unsinnig. Da ist die Effizienz total beschissen und das wollen nicht viele Leute kaufen für nochmals nur 10% mehr Leistung.
Und so hat man zumindest fürs Marketing die effizienteren Karten am Start.
Du musst halt auch mal so sehen das AMD zuvor noch nie 1000 Euro Karten verkauft hat wie warme Semmeln.
Zu welchem Preispunkt hätte man 350W oder 400W Navi21 Karten verkaufen sollen?
Ansonsten hätte Nvidia nach Maxwell ja auch einfach mit Pascal, Turing und Ampere genauso große Sprünge machen können.
Turing nutzte ja auch nur 12nm. Auch Ampere wäre mit TSMCs N7 ein gutes Stück effizienter.
Und Nvidia tanzt auf gefühlt 20 Hochzeiten gleichzeitig. Wundert mich nicht das da manche Kernkompetenzen auf der Strecke bleiben.
Nightspider
2021-04-17, 14:51:18
del
amdfanuwe
2021-04-17, 14:52:14
Dann hätte man auch die 6900XT schon in 400W bringen können, denn das hätte vielleicht schon gereicht, um an der 3090 vorbeizuziehen. 300W ist halt so die Grenze, was mit Luft noch sinnvoll zu kühlen ist.
Wieso hätten sie etwas bringen sollen, was mit Luft nicht mehr sinnvoll kühlbar ist?
Der_Korken
2021-04-17, 15:13:35
Wieso hätten sie etwas bringen sollen, was mit Luft nicht mehr sinnvoll kühlbar ist?
Die >300W-Spekulationen kamen nicht von mir. Ich glaube gerade wegen der Kühlung, dass 300W eine natürliche Grenze bleiben werden. Bloß wenn das Argument nicht zählt, dann hätte es auch bei N21 schon nicht zählen können. Das wollte ich damit sagen.
AMD hat diesen Ansatz aber bereits durchgezogen und jetzt einfach nur vom monolitischen Verbrauch zum Chiplet-Design-Verbrauch zu verrechnen ist denke ich ziemlicher Quatsch. Der Ansatz ist gänzlich neu und wir wissen nicht, welche Flaschenhälse AMD da zusätzlich angegangen ist (siehe den Infinity Cache), denn sie werden ja auch neue damit haben.
Chiplets würden imho erstmal den Verbrauch gegenüber einem monolithischen Chip erhöhen und nicht senken. Du hast ja genau so viel Logik verbaut, hast aber zusätzlich
1. Chips in älteren Fertigungsverfahren dabei (muss bei GPUs nicht sein, aber bei Zen ist es so)
2. einige interne Datenleitungen durch externe ersetzt
Beides führt erstmal zu höherem Verbrauch. Der wirkliche Vorteil von Chiplets sind imho die Kosten. Würden die auch Effizienz bringen, hätte man das doch schon viel früher gemacht - billiger herzustellen und effizienter, quasi die eierlegende Wollmilchsau. Renoir und Cezanne sind verbrauchstechnisch nochmal deutlich effizienter als die Chiplet-Derivate, vor allem im idle. Wären da nicht die Kosten, hätte es keinen Grund gegeben die Desktop-Ryzens alle monolithisch zu bauen. Bei Punkt 2 von oben bin ich gespannt wie AMD das löst. CPUs haben ja vergleichsweise wenig Bandbreitenbedarf und eine fetten LLC auf den Chiplets. Bei GPUs müsste bei selber Bauweise der I$ gesplittet werden, um möglichst wenig Bits vom Chiplet runterzuschaufeln. Aber selbst dann hat eine 6900XT immer noch 10x so viel Speicherbandbreite wie ein 5950X.
Nightspider
2021-04-17, 15:28:40
Die Navi31 Chiplets werden bestimmt näher am Sweetspot getaktet sein. Da machen die 400W eben auch viel mehr Sinn als in einem total ineffizienten Taktbereich bei Navi21 nochmal zusätzliche 100W zu verballern.
Die Relation ist komplett anders.
...Die haben sie diesmal noch nicht bekommen, weil Nvidia auf 350W gegangen ist...
Genau das hat NV "gerettet" ^^ und doch bin ich froh, das AMD bei max 300Watt bleibt...
Ich habe oft genug Probleme mit Leuten, die nicht an die Abwärme denken...
(für vernünftige Normalos empfehle ich ~200-220Watt als oberste Grenze)
M.f.G. JVC
amdfanuwe
2021-04-17, 15:43:45
Bei Punkt 2 von oben bin ich gespannt wie AMD das löst.
Sind ja genug Patente zu gestapelten Chips unterwegs, ob mit passiven (ähnlich Intels EMIB) oder aktiven Verbindungschip.
Gibt kurze Wege, kleine Kontaktflächen, mehr Leitungen, dadurch hohe Bandbreite bei "geringem" Energiebedarf.
Ein MCM wie bei den Ryzen Desktop oder Server CPUs kann ich mir auch nicht vorstellen.
fondness
2021-04-17, 16:59:21
Die >300W-Spekulationen kamen nicht von mir. Ich glaube gerade wegen der Kühlung, dass 300W eine natürliche Grenze bleiben werden. Bloß wenn das Argument nicht zählt, dann hätte es auch bei N21 schon nicht zählen können. Das wollte ich damit sagen.
Ähm, wir sind schon bei 350W bei nvidia. AMD wird natürlich darauf reagieren. Im Nachhinein einen Chip hoch zu takten und die tdp zu erhöhen ist immer ineffizient, deshalb war es auch logisch, dass AMD navi21 bei der ursprünglichen Planung belassen hat.
robbitop
2021-04-17, 18:19:13
Wenn AMD für RT mehr fixed function hw verbaut könnte an den 250% vielleicht eher was dran hängen. Bei rdna2 ist der fps drop gemessen an Ampere schon recht hoch (Ampere und Turing bilden aber auch mehr in ff hw ab). Das wird sich mit rdna3 sicherlich ändern.
Screemer
2021-04-17, 18:46:32
Wenn AMD für RT mehr fixed function hw verbaut könnte an den 250% vielleicht eher was dran hängen. Bei rdna2 ist der fps drop gemessen an Ampere schon recht hoch (Ampere und Turing bilden aber auch mehr in ff hw ab). Das wird sich mit rdna3 sicherlich ändern.
in dirt ist der perf. drop etwa genau so hoch wie bei nv. just saying.
Linmoum
2021-04-17, 18:52:47
Er ist in Dirt5 sogar geringer, dasselbe ist auch bei WoW der Fall.
robbitop
2021-04-17, 19:48:49
Das gros sieht aber umgekehrt aus und zwar massiv. Es wäre auch merkwürdig wenn nicht, wenn man einen kleineren Anteil der RT Pipeline nicht in fixed function hw abbildet.
dargo
2021-04-17, 20:55:06
Hätte man machen können. Wäre aber unsinnig. Da ist die Effizienz total beschissen und das wollen nicht viele Leute kaufen für nochmals nur 10% mehr Leistung.
Und wie kommst du jetzt auf die Idee diese Physik gilt nicht mehr für RDNA3? Je höher der Takt umso stärker nimmt die Perf/W ab. Das war schon immer so und wird sich nie ändern.
Ähm, wir sind schon bei 350W bei nvidia. AMD wird natürlich darauf reagieren. Im Nachhinein einen Chip hoch zu takten und die tdp zu erhöhen ist immer ineffizient, deshalb war es auch logisch, dass AMD navi21 bei der ursprünglichen Planung belassen hat.
Das ergibt überhaupt keinen Sinn. GA102 kam vor N21 und AMD hat die RX 6900XT dennoch bei 300W belassen. AMD hätte genauso gut die 350W ausschöpfen können.
Linmoum
2021-04-17, 21:09:51
Dass GA102 vorher kam, ist für den Kühler irrelevant. Für diese Kühllösung hat AMD sich nicht erst danach entschieden. Kühler werden immer vor dem Hintergrund designt, was du an Verlustleistung anpeilst. Natürlich auch mit Spielraum und natürlich wären auch 50W mehr möglich gewesen. Nur weil etwas noch möglich ist, ist es aber nicht automatisch gut oder sinnvoll.
So gut das Referenzdesign noch bei 300W funktioniert, aber bei 350W wäre das schon wieder unangenehm geworden.
fondness
2021-04-17, 21:36:22
Das gros sieht aber umgekehrt aus und zwar massiv. Es wäre auch merkwürdig wenn nicht, wenn man einen kleineren Anteil der RT Pipeline nicht in fixed function hw abbildet.
Offensichtlich kann man raytracing auch so implementiern, dass es auf AMD Karten konkurrenzfähig läuft. Warum es bei den von nvidia gesponserten Spielen anders ist, wurde sogar hier in diesem forum mal verlinkt, mal schauen ob ich das noch finde.... Jedenfalls ist das für mich wenig überraschend, nvidia hat schon immer versucht mit fragwürdigen Implementierungen die Konkurrenz künstlich azszubremsen.
fondness
2021-04-17, 21:39:30
Das ergibt überhaupt keinen Sinn. GA102 kam vor N21 und AMD hat die RX 6900XT dennoch bei 300W belassen. AMD hätte genauso gut die 350W ausschöpfen können.
Jeder Chip hat einen sinnvollen betriebspunkt. Mit 350 Watt wäre die Karte nicht viel schneller aber deutlich ineffizienter. Deshalb ist es kaum sinnvoll das im Nachhinein anzupassen. Wenn man den Chip hingegen von Beginn an auf 350 Watt anlegt kann man diesen betriebspunkt anders legen, zb indem man mehr cus verbaut.
robbitop
2021-04-17, 22:14:10
Offensichtlich kann man raytracing auch so implementiern, dass es auf AMD Karten konkurrenzfähig läuft. Warum es bei den von nvidia gesponserten Spielen anders ist, wurde sogar hier in diesem forum mal verlinkt, mal schauen ob ich das noch finde.... Jedenfalls ist das für mich wenig überraschend, nvidia hat schon immer versucht mit fragwürdigen Implementierungen die Konkurrenz künstlich azszubremsen.
Sicherlich kann man den Rückstand mindern wenn gut optimiert wird. Wenn arithmetische Rohleistung relevant für die Frametime ist, word mehr ff hw sich aber immer weiter absetzen können, da weniger generelle arithmetische Rohleistung verbraucht wird.
Nightspider
2021-04-17, 22:18:28
Und wie kommst du jetzt auf die Idee diese Physik gilt nicht mehr für RDNA3? Je höher der Takt umso stärker nimmt die Perf/W ab. Das war schon immer so und wird sich nie ändern.
Ich hab geschrieben das es mich nicht wundern würde wenn RDNA3 mehr am Sweetspot betrieben wird.
Ich hab mal wieder keine Ahnung was du von mir willst Dargo.
Aber vielleicht hast du auch nicht verstanden, dass das 400W Powerbudget sich auf 3 Chiplets aufteilen würde.
Für die Compute Ciplets wären das dann vielleicht nur 150-180W. Zwangsweise müssten die Chiplets dann mit niedrigeren Taktraten laufen, also näher am Sweetspot.
Oder dachtest du jeder Chiplet bekommt 400W? ;D
Offensichtlich kann man raytracing auch so implementiern, dass es auf AMD Karten konkurrenzfähig läuft. Warum es bei den von nvidia gesponserten Spielen anders ist, wurde sogar hier in diesem forum mal verlinkt, mal schauen ob ich das noch finde.... Jedenfalls ist das für mich wenig überraschend, nvidia hat schon immer versucht mit fragwürdigen Implementierungen die Konkurrenz künstlich azszubremsen.
In der Hinsicht bin ich mal auf die neuen NextGen Spiele gespannt.
Der_Korken
2021-04-17, 22:37:53
Und wie kommst du jetzt auf die Idee diese Physik gilt nicht mehr für RDNA3? Je höher der Takt umso stärker nimmt die Perf/W ab. Das war schon immer so und wird sich nie ändern.
Du könntest einfach so viele CUs verbauen, dass deine GPU selbst mit 2Ghz schon bei 400W liegt. Mit Chiplets wäre das möglich, weil du a) das Problem umgehst einen riesigen Die mit schlechten Yields dafür zu brauchen (so wie die 800mm²-Monster von Nvidia) und b) du dafür keine neuen Dies entwickeln musst bzw. bestehende nur anpassen musst, weil du einfach mehr Compute-Dies nehmen kannst und nur den Interconnect aufblähen musst. Quasi so als hätte AMD den Ryzen-IO-Die ein wenig größer gemacht, sodass da noch zwei weitere IF-Ports für zwei weitere Chiplets drin sind. Dann hättest du theoretisch 32C im Desktop ohne großartig mehr Kosten zu haben.
Trotzdem glaube ich da nicht dran, weil man hier nicht nur an die Grenzen der Luftkühler stößt, sondern auch an die Grenzen der Wärmeabführung aus normalen Gehäusen. Da machen die Gehäuselüfter bei dem suboptimalen Aufbau heutiger Custom-Grakas mehr Krach als der Custom-Kühler selber. Oder der PC überhitzt gnadenlos im DAU-Gehäuse ohne Airflow.
Edit: Und man läuft mit ultrafetten, aber nur moderat getakteten Designs auch schnell in Skalierungsprobleme. Dadurch muss man den Chip noch breiter machen, damit gegenüber wenigen hochgetakteten CUs auch genug Mehrleistung rauskommt. Ich weiß nicht, ob sich das wirklich lohnt für ein paar Verrückte, die >1500€ dafür bereit sind auszugeben.
Nightspider
2021-04-17, 22:43:31
Ein 3-Slot Design ist imo eh sehr wahrscheinlich bei so einem Chiplet-Monster mit 160 CUs.
Eventuell wird man sich auch grob an Nvidias FE Kühler orientieren, so das auf jeden Fall ein Teil der Wärme sofort aus dem Gehäuse geführt wird.
Ich sehe da aber noch keine Grenze erreicht. 400 Watt lassen sich auf jeden Fall noch gut wegkühlen. Sinnvoller wäre aber natürlich gleich eine Wasserkühlung.
Die Wärme war früher bei SLI / Crossfire auch kein großes Problem. Ob da nun 100-150W mehr oder weniger entstehen....juckt doch die meisten nicht solange der PC Lüfter enthält. :ugly:
Hab von Freunden mit ihren 3090ern und 350W bisher auch noch keine Geschichten gehört, das Dinge in Flammen aufgegangen sind. ;)
dargo
2021-04-17, 23:22:08
Ich hab geschrieben das es mich nicht wundern würde wenn RDNA3 mehr am Sweetspot betrieben wird.
Ich hab mal wieder keine Ahnung was du von mir willst Dargo.
Weniger Träumerei damit der Hypertrain nicht wieder zu schnell entgleist.
Jeder Chip hat einen sinnvollen betriebspunkt. Mit 350 Watt wäre die Karte nicht viel schneller aber deutlich ineffizienter.
Mit 250W wäre N21 unwesentlich langsamer, aber deutlich effizienter. Wir drehen uns im Kreis.
Dass GA102 vorher kam, ist für den Kühler irrelevant. Für diese Kühllösung hat AMD sich nicht erst danach entschieden. Kühler werden immer vor dem Hintergrund designt, was du an Verlustleistung anpeilst. Natürlich auch mit Spielraum und natürlich wären auch 50W mehr möglich gewesen. Nur weil etwas noch möglich ist, ist es aber nicht automatisch gut oder sinnvoll.
So gut das Referenzdesign noch bei 300W funktioniert, aber bei 350W wäre das schon wieder unangenehm geworden.
Etwas schwaches Argument wenn man sich die älteren Referenzkühler vor N21 bei AMD anschaut, die waren einiges lauter. Der Referenzkühler von N21 wäre übrigens mit 250-275W noch besser gewesen.
Ich sehe da aber noch keine Grenze erreicht. 400 Watt lassen sich auf jeden Fall noch gut wegkühlen.
Bullshit³, jedenfalls bei Lukü.
Linmoum
2021-04-18, 00:01:21
Etwas schwaches Argument wenn man sich die älteren Referenzkühler vor N21 bei AMD anschaut, die waren einiges lauter. Der Referenzkühler von N21 wäre übrigens mit 250-275W noch besser gewesen.Die alten Referenzkühler waren Blower, da erwartet auch niemand eine leise Kühlung. Wie auch. Bei der VII war's dann mal keiner und AMD wurde medial für diese Lachnummer komplett zerrissen und das völlig zurecht.
Das wäre zwar bei N21 mit dem Referenzkühler nicht so ein fail gewesen wie bei der VII damals, aber da noch mal unnötig 50W draufzukloppen und sich ein eigentlich gut designtes Referenzdesign durch etwas kaputt zu machen, wofür es nicht ausgelegt war und ist, ist halt wenig klug.
Bullshit³, jedenfalls bei Lukü.Das ist kein Bullshit und geht natürlich auch noch gut mit Luft. Es hat halt nur einen großen Nachteil: Ziemlich hoher Materialaufwand, den es dafür braucht.
CB hatte damals die MSI 3090 Gaming X mitgetestet: 380W und trotzdem nur 35,5dbA bei unter 80°C. Wenn das bei fast 400W nicht gut ist, dann weiß ich auch nicht.
ChaosTM
2021-04-18, 00:27:03
Mit 4-5 Slot Kühllösungen sind wohl auch 500 Watt möglich. :D
Ich persönlich finde alles über 300W schon ziemlich sinnarm und vertrottelt.
Nightspider
2021-04-18, 01:23:29
Bullshit³, jedenfalls bei Lukü.
Die 350W der 3090 gehen problemlos zu kühlen aber 400W sollen unmöglich sein?
Du bist schon lustig Dargo.
Vielleicht ist dir aber entgangen das es schon Grafikkarten gibt die >400 Watt mit Luft weggekühlt bekommen. Ganz ohne Zauberei.
als erste Grafikkarte überschreitet die Suprim X die 400-Watt-Marke. In der Spitze hat die Redaktion mit Nvidia PCAT (Intervall: 100 ms) sogar 458 Watt gemessen.
https://www.computerbase.de/2020-11/msi-geforce-rtx-3090-suprim-x-test/2/#abschnitt_leistungsaufnahme
SKYNET
2021-04-18, 01:28:53
Die alten Referenzkühler waren Blower, da erwartet auch niemand eine leise Kühlung. Wie auch. Bei der VII war's dann mal keiner und AMD wurde medial für diese Lachnummer komplett zerrissen und das völlig zurecht.
Das wäre zwar bei N21 mit dem Referenzkühler nicht so ein fail gewesen wie bei der VII damals, aber da noch mal unnötig 50W draufzukloppen und sich ein eigentlich gut designtes Referenzdesign durch etwas kaputt zu machen, wofür es nicht ausgelegt war und ist, ist halt wenig klug.
Das ist kein Bullshit und geht natürlich auch noch gut mit Luft. Es hat halt nur einen großen Nachteil: Ziemlich hoher Materialaufwand, den es dafür braucht.
CB hatte damals die MSI 3090 Gaming X mitgetestet: 380W und trotzdem nur 35,5dbA bei unter 80°C. Wenn das bei fast 400W nicht gut ist, dann weiß ich auch nicht.
naja, der kühler der VII hatte ja nur einen "kleinen" designfehler... die finnen waren durch das cover nahezu abgedeckt seitlich, so das die luft garnicht so schnell wegkonnte wie angesaugt, ohne diesen fehler wäre der kühler nichtmal soooo schlecht gewesen.
Platos
2021-04-18, 03:18:52
Und der erste Golf GTI hatte damals 112PS.
Ist doch egal, was der Top-Dog verbraucht, kostet, leistet solange ich etwas in meinem bevorzugten Bereich bekomme. Zwingt mich doch keiner den Top-Dog zu kaufen.
Das stimmt natürlich, dann vergehen aber einige Jahre mehr, wenn ich bei gleichem Stromverbrauch möglichst viel Mehrleistung will.
Wenn ich von einer 1080 auf die 3060 umsteigen würde, wäre der Leistungsgewinn nicht gerade bombastisch, wenn man bedenkt, dass dazwischen ~4.5 Jahre liegen.
Eigentlich ziemlich armselig, wenn ich mir das so überlege. Die 1080 ist schliesslich nicht soooo viel schlechter, wie die 3060 (hat natürlich weniger Speicher, kein RT und kein DLSS), aber sind ja auch 4.5 Jahre, da erwartet man mehr.
Genau gesagt ist die 3060 im FHD Perfomance Index nur 15.6% besser. Das kriegt man schon fast mit OC hin. Natürlich kostet sie weniger (theoretisch), aber wenn auf die Perfomance/Watt schaut, ist die Karte somit etwa 15% besser, mehr nicht (natürlich bei mehr Speicher usw).
Das selbe gilt natürlich bei AMD, mit dem Unterschied, dass die Vega64 damals schon zu viel Strom gezogen hat.
Im August/September hab ich mir noch für 150Euro ne gebrauchte 1070Ti gekauft. Das bietet ein Meilenweit besseres P/L und auch P/Watt, wie eine 3060 zum Listenpreis, das ist eig. schon traurig, wenn man bedenkt, dass das 2 Generationen (bzw. mit super 3) später sind.
Naja, ich sag ja schon lange der Grafikkartenmarkt ist kaputt.
Edit: Wobei man dann bei 180W auch ne 3070 nehmen könnte, die man dann untervoltet udn vlt. leicht untertaktet. Dann würde es minimal besser aussehen.
Nightspider
2021-04-18, 03:52:06
Dafür halten die Karten aber auch länger.
Kauf dir halt eine größere Grafikkarte und hab eventuell jahrelang dein Ruhe.
Man muss halt auch mal sehen was selbst mittelgroße Grafikkarten heute schon im Stande sind zu leisten bei cineastischen Spielen wie Red Dead Redemption 2 usw.
Die aktuellen Topmodelle schaffen in aktuellen Spielen oft dreistellige fps in 4K.
Und auf den gesamten Markt bezogen spielen nur wenige Spieler wirklich in 4K.
Und Navi31 wird wahrscheinlich teuer, wird aber primär auch Enthusiasten zum Ziel haben, die mindestens in 4K zocken wollen. Denn selbst die 6900xt langweilt sich teilweise schon in 4K.
Wer vor 4 Jahren 600 Euro für eine 1080ti ausgegeben hat, hat pro Jahr gerade mal 150€ gezahlt und kann damit immer noch gut zocken bis 1440p.
Leonidas
2021-04-18, 07:06:42
Ein 3-Slot Design ist imo eh sehr wahrscheinlich bei so einem Chiplet-Monster mit 160 CUs.
Man sollte schlicht anfangen, Grafikkarten als Mainboards auszulegen, wo dann alles andere per Steckkarte hinzukommt - CPU, Sound, USB, HDD. Wäre zumindest ehrlicher bezüglich des Punkts, wo der meiste Stromverbrauch generiert wird. ;)
Zossel
2021-04-18, 08:44:00
Man sollte schlicht anfangen, Grafikkarten als Mainboards auszulegen, wo dann alles andere per Steckkarte hinzukommt - CPU, Sound, USB, HDD. Wäre zumindest ehrlicher bezüglich des Punkts, wo der meiste Stromverbrauch generiert wird. ;)
Jupp, GPUs und Mainboards für Zocker bräuchten eigentlich ein komplett anderes mechanisches Design.
Ohne zu großen Bruch mit bestehenden Standards könnte man Slots für GPUs auf die Rückseite des Mainboards setzen, dann hätte man einen freien Bereich den man gut mit großen Lüftern durchpusten kann.
Die dazu passenden Gehäuse wären würfelförmiger wo die Luft von vorne nach hinten an der CPU und GPU vorbei geblasen wird.
Für den Fall das der GPU-Kühler als Kühltunnel ausgelegt ist könnte man die Abluft der GPU auch vollständig aus dem Gehäuse entsorgen.
Wer vor 4 Jahren 600 Euro für eine 1080ti ausgegeben hat, hat pro Jahr gerade mal 150€ gezahlt und kann damit immer noch gut zocken bis 1440p.
Ich habe zwar unglaubliche ~800.- bezahlt, aber ist auch eine "extrem OC irgendwas schlagmichtot"...
Die aber Default ~1940Mhz Spieletakt hat :smile:
(Maximaltakt sind 2037 die auch in Spielen ab und an anliegen)
Die läuft noch immer bei 250Watt ^^ und versorgt noch immer 4K.
Ich habe keinen stress, kann ja Regler bedienen ;)
Eine neue GPU muss her, wenn ich mal mehr als nur 4K habe. (HDMI 2.1)
Oder wenn mir ne günstige/habenmuss Karte über den Weg läuft.
M.f.G. JVC
unl34shed
2021-04-18, 08:48:33
Bei der Verbrauchs Diskussion macht ihr einen Fehler, denn es gibt hier zwei Parameter, den Verbrauch und die Chipfläche. Und die Fläche sollte wohl in Summe größer sein, als bei N21.
dargo
2021-04-18, 09:02:46
Das ist kein Bullshit und geht natürlich auch noch gut mit Luft. Es hat halt nur einen großen Nachteil: Ziemlich hoher Materialaufwand, den es dafür braucht.
Wie lang sollen die Karten denn werden? 40cm mit 2,5kg? :freak: Von den höheren Kosten rede ich mal gar nicht.
CB hatte damals die MSI 3090 Gaming X mitgetestet: 380W und trotzdem nur 35,5dbA bei unter 80°C. Wenn das bei fast 400W nicht gut ist, dann weiß ich auch nicht.
Und das soll überzeugend sein? :freak: Bei 80°C Edge kocht doch Ding schon bei ~100°C vor sich hin. Und 35,5dBA sind mir nicht leise genug. Da müsstest du schon von den 1600RPM runter auf 1200RPM, wenn nicht sogar etwas tiefer.
Die 350W der 3090 gehen problemlos zu kühlen aber 400W sollen unmöglich sein?
Definiere problemlos. Heiß und laut bei 2kg Gewicht ist alles andere als problemlos.
Vielleicht ist dir aber entgangen das es schon Grafikkarten gibt die >400 Watt mit Luft weggekühlt bekommen. Ganz ohne Zauberei.
Du verstehst es immer noch nicht oder? Wenn die Lautstärke egal ist sind auch 500W machbar. Ich sitze aber nicht vor einem brüllenden Rechner mit geschlossenem KH komplett von der Außenwelt abgedichtet. Nur weil es am Markt laute Karten gibt heißt es noch lange nicht, dass diese für jeden User interessant sind.
fondness
2021-04-18, 10:53:40
Sicherlich kann man den Rückstand mindern wenn gut optimiert wird. Wenn arithmetische Rohleistung relevant für die Frametime ist, word mehr ff hw sich aber immer weiter absetzen können, da weniger generelle arithmetische Rohleistung verbraucht wird.
Das ist viel zu einfach. Wäre ff HW immer der bessere Weg, würden GPUs heutzutage nicht zu großen Teilen als ALUs bestehen. NV ist schon immer den Weg gegangen alles in eigenen Einheiten auszulagern, die haben ja sogar eigenen FP64 ALUs. AMD auf der anderen Seite versucht tendenziell mehr bestehende Einheiten zu erweitern. Leider finde ich den Beitrag nicht mehr, wo sehr schön erklärt wurde, warum AMD mit diesen NV-only Raytracing optimierten Spielen nicht zurecht kommt, deshalb ist aber noch lange nicht die HW Implementierung per se unterlegen - schon gar nicht, wenn es Gegenbeispiele gibt.
fondness
2021-04-18, 10:55:39
Mit 250W wäre N21 unwesentlich langsamer, aber deutlich effizienter. Wir drehen uns im Kreis.
Sehe ich nicht so, irgendwann ist eben der Punkt erreicht, wo es sinnlos wird. Es schlägt hier natürlich auch gnadenlos der sinkende Grenzertrag zu. 300W vs. 250W war vielleicht auch noch der entscheidende Sprung, um die 6900XT vor die RTX 3080 zu platzieren.
dargo
2021-04-18, 11:04:29
Sehe ich nicht so, irgendwann ist eben der Punkt erreicht, wo es sinnlos wird. Es schlägt hier natürlich auch gnadenlos der sinkende Grenzertrag zu.
Was ein Unsinn. Mit 250W wäre die Karte gerade mal ~3% langsamer. Mir ist natürlich klar, dass der endgültige Betriebspunkt sich an der Konkurrenz orientiert. Dennoch sind die letzten 100-200Mhz teuer erkauft. Das gilt natürlich für alle Chips.
fondness
2021-04-18, 11:08:01
Was ein Unsinn. Mit 250W wäre die Karte gerade mal ~3% langsamer.
Das wäre in vielen Parcours genug, damit die Karte hinter der 3080 landet. Bei 350W vs. 300W wäre der Unterschied zudem nochmal weit geringer. So hat man noch immer mehr Perf/Watt und kann sich besser platzieren. Dass das natürlich rein aus Perf/Watt-Sicht nicht sinnvoll ist, ist klar.
dargo
2021-04-18, 11:08:58
Oh ja... weil 3% so kriegsentscheident sind. ;D Schon alleine mit rBar holt AMD in vielen Games wesentlich mehr raus.
fondness
2021-04-18, 11:10:10
Du unterschätzt die psychologische Bedeutung des längeren Balkens :D
dargo
2021-04-18, 11:11:32
Du unterschätzt die psychologische Bedeutung des längeren Balkens :D
Und wieder Unsinn... wenn AMD längere Balken so wichtig wären wäre AMD auf mindestens 350W gegangen. :rolleyes:
fondness
2021-04-18, 11:12:05
Und wieder Unsinn... wenn AMD längere Balken so wichtig wären wäre AMD auf mindestens 350W gegangen. :rolleyes:
Das hätte vielleicht noch 1% gebracht und nicht gereicht für die 3090. Aber ich bin hier eh nicht da um dich vor irgendwas zu überzeugen.
dargo
2021-04-18, 11:12:49
Das schaffst du auch nicht weil du dich mit deinen Argumenten nur im Kreis drehst.
fondness
2021-04-18, 11:15:02
Das schaffst du auch nicht weil du dich mit deinen Argumenten nur im Kreis drehst.
Ist es wirklich so schwer zu verstehen, dass die 300W offensichtlich strategisch vs. der Konkurrenz für AMD die beste Wahl waren?
robbitop
2021-04-18, 11:18:30
Das ist viel zu einfach. Wäre ff HW immer der bessere Weg, würden GPUs heutzutage nicht zu großen Teilen als ALUs bestehen. NV ist schon immer den Weg gegangen alles in eigenen Einheiten auszulagern, die haben ja sogar eigenen FP64 ALUs. AMD auf der anderen Seite versucht tendenziell mehr bestehende Einheiten zu erweitern. Leider finde ich den Beitrag nicht mehr, wo sehr schön erklärt wurde, warum AMD mit diesen NV-only Raytracing optimierten Spielen nicht zurecht kommt, deshalb ist aber noch lange nicht die HW Implementierung per se unterlegen - schon gar nicht, wenn es Gegenbeispiele gibt.
Dazu gibt es keine pauschale Antwort. Eine GPU besteht aus einem nicht unwesentlichen Teil aus ff HW. ROPs, TMU, Video de/encoder, isp, rasterizer, command processor etc.
Man kann grundsätzlich alles mit general purpose hardware machen. Man muss sehr sehr differenziert schauen, ob es sicht lohnt oder nicht.
FF hw ist in der Regel deutlich kleiner, schneller und energieeffizienter als gp. Kann aber dann auch nur einen Zweck.
Je nach Nutzen macht es mal Sinn und mal nicht.
DF hatte das für RT mal betrachtet wie viele ms welche Teile der RT Pipeline kosten.
RT wird immer wichtiger werden so wie programmierbare Pixelshader von vielen Jahren sich durchsetzten word das mittelfristig mit RT passieren. Und je mehr über RT läuft desto sinnvoller ist ff hw. Denn diese ist kleiner als das Investment an ALUs für die gleiche Aufgabe.
Im Moment wo RT noch in nicht vielen Titeln vorhanden ist und optional ist, macht der gp Ansatz durchaus Sinn. In ein paar Jahren immer weniger.
Ich gehe jede Wette ein, dass AMD in den nächsten Jahren auch größere Teile der RT Pipeline in HW gießen. Ggf ist das noch nicht bei rdna3 der Fall (wobei ich die Chance für nicht klein haltr) - aber es wird passieren.
Cyberfries
2021-04-18, 11:18:57
Ist doch egal, was der Top-Dog verbraucht, kostet, leistet solange ich etwas in meinem bevorzugten Bereich bekomme. Zwingt mich doch keiner den Top-Dog zu kaufen.
Das Einreißen von Grenzen am oberen Ende hat bisher noch immer dazu geführt, dass die übrigen Bereiche nachgezogen haben.
Wo findest du eine halbwegs aktuelle passiv gekühlte Karte? Grafikkarten ohne zusätzlichen Stromstecker?
Oder derzeit Grafikkarten unter 150w? 2017 gabs in dem Bereich noch eine 1070, als nächstes kommt vielleicht eine 3050/6500.
Das gleiche Argument kann ich für Kartenlänge und -breite aufziehen. Unter 25cm wirds langsam schwierig.
Bei der 1080ti waren unter 30cm noch normal, schau mal wieviele 32cm triple slot Klopper es schon bei der 3060ti/6700 gibt.
Und zum Thema Kosten...
Thunder99
2021-04-18, 11:28:34
Die 350W der 3090 gehen problemlos zu kühlen aber 400W sollen unmöglich sein?
Du bist schon lustig Dargo.
Vielleicht ist dir aber entgangen das es schon Grafikkarten gibt die >400 Watt mit Luft weggekühlt bekommen. Ganz ohne Zauberei.
https://www.computerbase.de/2020-11/msi-geforce-rtx-3090-suprim-x-test/2/#abschnitt_leistungsaufnahme
Mit welchem Material Aufwand und Spulenfiepen nicht vergessen.
Technisch möglich aber 2-3kg ist nicht mehr normal bei der Standard ATX Tower Ausführung. Wenn die Grafikkarten schon Stützen brauchen, sorry aber für mich die falsche Richtung und Entwicklung.
Für paar Prozente mehr...
basix
2021-04-18, 11:54:24
Die letzten paar Prozent sind immer sehr teuer erkauft und bei modernen CPUs und GPUs ist das fast schon extrem, da die meisten Chips an eine Art Wall laufen.
Meine 2080 Ti hat ihren Perf/W Sweet Spot bei 150-160W (niedrigst mögliche GPU Spannung von 0.7V bei maximal möglichem Takt). Bei 180W und 4K ist sie fast exakt so schnell wie bei Default mit 260W. 180W ist für mich in 1440p perfekt. Klar, ich verliere vielleicht 10-15% Performance gegenüber 300W. Ist dafür deutlich leiser und die Wärmeabfuhr deutlich geringer ;)
Bei 300W kann man evtl. auf 200-220W zurückgehen mit dieser Methode, was noch OK ist. Bei 400W werden daraus schon 270-300W, was für mich persönlich zu viel ist.
robbitop
2021-04-18, 12:02:26
Bin ich froh, eine große Wakü zu haben. Selbst mit 2x Titans und einer bis zum Anschlag übertakteten CPU war es zu sli zeitrn schön leise. Wenn man jetzt nicht 24/7 zockt fällt das auf der Stromrechnung bezogen auf den Gesamthaushalt eh kaum auf.
boxleitnerb
2021-04-18, 12:04:31
Das Einreißen von Grenzen am oberen Ende hat bisher noch immer dazu geführt, dass die übrigen Bereiche nachgezogen haben.
Wo findest du eine halbwegs aktuelle passiv gekühlte Karte? Grafikkarten ohne zusätzlichen Stromstecker?
Oder derzeit Grafikkarten unter 150w? 2017 gabs in dem Bereich noch eine 1070, als nächstes kommt vielleicht eine 3050/6500.
Das gleiche Argument kann ich für Kartenlänge und -breite aufziehen. Unter 25cm wirds langsam schwierig.
Bei der 1080ti waren unter 30cm noch normal, schau mal wieviele 32cm triple slot Klopper es schon bei der 3060ti/6700 gibt.
Und zum Thema Kosten...
Volle Zustimmung. Bitte nicht nur mit Scheuklappen auf das Topmodell schauen.
Selbst die eigentlich tolle 8800 GTX betrachte ich im Rückblick als meh. Nicht mal doppelte Leistung der 7900 GTX und das bei 50-60W mehr. Selber Prozess, klar, aber selbst damals sind die Grenzen immer mal wieder gefallen.
Der Punkt ist - wo endet es? Es ist ja ein immer weiteres Wettrüsten. 400W, 500W, 600W? Sinnlos...
basix
2021-04-18, 12:16:28
Bin ich froh, eine große Wakü zu haben. Selbst mit 2x Titans und einer bis zum Anschlag übertakteten CPU war es zu sli zeitrn schön leise. Wenn man jetzt nicht 24/7 zockt fällt das auf der Stromrechnung bezogen auf den Gesamthaushalt eh kaum auf.
Dennoch stellt sich die Frage der Sinnhaftigkeit. +10-15% für +50% Verlustleistung? Dann noch viel Material für die Kühlung drauf geworden (WaKü). Aufwand / Ertrag ist einfach nicht vorteilhaft (für mich).
Rein von den Energiekosten mag das noch tragbar sein und je nach Gebäude und Haushalt nicht viel ausmachen. Energie ist aber eigentlich sehr günstig, wenn man sich mal überlegt wie viel Energie 1 kwh überhaupt ist.
Stell dir vor, alle Computer und Konsolen wären relativ nahe am Sweet Spot betrieben. Das ergäbe eine riesige Energiemenge, welche man sinnvoller investieren könnte oder gar nicht erst produzieren müsste. Graue Energie für Materialaufwand von Kühllösungen und Energierzeuger kommen noch dazu. Und das alles nur wegen den letzten 10% ;) Das sollte man sich dabei überlegen, auch wenn die Kiste nicht bei 24/7 läuft. Man verliert einen minimalsten und nicht relevanten Teil an Lebensqualität und unsere Nachkommen werden es uns danken.
Klar, jetzt kann man argumentieren, dass Mining reine Energieverschwendung ist und auch an anderen Orten viel Energie verschwendet wird. Aber irgendwo kann man ja mal anfangen. Und wie gesagt ohne wirklich Einschränkungen bei der Lebensqualität.
So, das war jetzt ein bisschen OT. Aber 400W GPUs sind einfach sinnlos. Und wie Cyberfries und boxleitnerb gesagt haben, Karten im unteren Segment rutschen auch nach oben. Was war die letzte 75W Karte? Die 1050 Ti? Für Office PCs, welche noch etwas an GPU Leistung für Multimedia benötigen ist das top. Heute bekommt man fast nichts mehr ohne 8P PCIe Stecker. Je nach alter des PCs hat das Netzteil solche aber nicht und von 6P auf 8P Adapter würde ich mich hüten. Nachrüsten fällt also flach, ohne dass man das Netzteil tauscht (dessen Produktion wiederum Energie und Material benötigt und man den Aufwand für die Neuverkabelung des PCs aufbringen muss).
robbitop
2021-04-18, 12:20:24
Ist halt Hobby - muss nicht immer zwangsweise effizient sein. Zumindest bei mir. Da bin ich eher wie Tim Taylor eingestellt. Mehr Power. Mehr Verbrauch: egal. :D
Nightspider
2021-04-18, 12:21:49
Ich sitze aber nicht vor einem brüllenden Rechner mit geschlossenem KH komplett von der Außenwelt abgedichtet. Nur weil es am Markt laute Karten gibt heißt es noch lange nicht, dass diese für jeden User interessant sind.
Du bist nicht das Zentrum des Universums und du bist nicht die Zielgruppe für so ein Chiplet-Monster mit Crossfire-Niveau.
Für dich kommt die Kinder-Variante Navi32 die du auch nochmal schön undervolten kannst.
Und die 3090 Suprim mit ihren >400W hat super Werte bei Kühlung und Lautstärke und sogar ein Silent Modus also hör doch mal auf dich hier wie ein plärrendes Kind aufzuführen, du bist doch eigentlich alt genug. Kauf dir halt eine kleinere Karte die deinen Anforderungen entspricht.
dargo
2021-04-18, 12:23:59
@Cyberfries
Absolut korrekt! Hoher Verbrauch zieht sich durch das gesamte Portfolio durch.
Und die 3090 Suprim mit ihren >400W hat super Werte bei Kühlung und Lautstärke und sogar ein Silent Modus also hör doch mal auf dich hier wie ein plärrendes Kind aufzuführen, du bist doch eigentlich alt genug. Kauf dir halt eine kleinere Karte die deinen Anforderungen entspricht.
Bist ein echter Komiker. :lol: Blöd nur, dass die sparsamen Karten keinen Faktor 2 auf meine drauflegen. :rolleyes: Das Ziel mit +80-100% versuche ich schon zu verfolgen ansonsten lohnt ein Upgrade imo kaum.
Slipknot79
2021-04-18, 12:37:16
Lächerliche Effizienzdiskussionen jedes Mal. :rolleyes:
Als ob es sowas in Lambo-Foren gäbe. :rolleyes:
AMD macht es zum Thema ("Perf/W") und die Jünger springen auf den Zug. So geht Marketing. (y)
Manche hier im Forum sind schon besonders leidensfähig, da muss man sowas fast schon wieder positiv sehen.
Mimimimi 500W und 3000Umin. *fürcht* Das ist genau das, was wir so und so eines Tages erleben werden. Das wird genau so kommen und ist nicht vermeidbar.
Aber nicht mal das ist das Problem. Wem 500W und 3000Umin schmerzt, der soll sich eben in 2 Generationen eine Radeon 8300 zulegen oder ein ordentliche Wakü und gut ist. (y)
Erinnert mich an "mimimimi 1000EUR Grakas" vor 5 Jahren, genau das sind die 1000EUR Graka-Käufer von heute. :rolleyes:
500W sind unvermeidbar, ansonsten wem das nicht passt, der weiß ja wo die Wakü oder wo die Radeon 8300 oder wo die Türe ist.
Nightspider
2021-04-18, 12:39:05
Mit welchem Material Aufwand und Spulenfiepen nicht vergessen.
Technisch möglich aber 2-3kg ist nicht mehr normal bei der Standard ATX Tower Ausführung. Wenn die Grafikkarten schon Stützen brauchen, sorry aber für mich die falsche Richtung und Entwicklung.
Für paar Prozente mehr...
Der steigende Stromverbrauch und Materialaufwand zieht sich aber schon seit 30 Jahren durch die Geschichte, bei high performance.
Eine 1080ti sieht auch total verschwenderisch aus gegenüber einer GeForce 4 ti4200.
Und technisch und physikalisch geht es nicht anders, außer ihr wartet halt immer noch 2-3 Jahre länger bis ihr die geforderte Leistung in einem noch besseren Fertigungsprozess bekommt.
Und deswegen wiederhole ich es auch gerne noch einmal:
Dieses theoretische 400W Chiplet-Schlachtschiff von dem hier wir reden ist für Enthusiasten, die auch 1500-1800 Euro für eine RTX3090 ausgeben und sich früher SLI / Crossfire aufgebaut haben und wird bestimmt über 1000 Euro liegen.
Niemand wird euch zwingen das Ding zu kaufen und niemand hat euch gezwungen einen Ryzen 9 mit 16 Kernen zu kaufen.
AMD will damit dort hin wo sie es ~12-17 Jahre nicht konnten: ganz nach oben und vor Nvidia.
Wer im Kopf ein festes Powerbudget von zB. 250-300W hat kann doch zu Navi 32 oder Navi33 greifen, auch da wird es dank 5nm Fertigung genug Leistung pro Watt geben.
dargo
2021-04-18, 12:49:20
Ist es wirklich so schwer zu verstehen, dass die 300W offensichtlich strategisch vs. der Konkurrenz für AMD die beste Wahl waren?
Ich sage nur soviel... eine etwas andere Differenzierung zwischen den Produkten hätte mir etwas besser gefallen.
RX 6900XT = 255W ASIC
RX 6800XT = 230W ASIC
RX 6800 = 205W ASIC
Das Problem ist, dass die AIBs eh immer was drauflegen. Ob die 186W ASIC bei der Referenz RX 6700XT sein mussten ist auch fraglich. Eine RX 6800 ist laut CB @1440p 18% schneller. Ein Betriebspunkt bei der RX 6700XT wo die RX 6800 22% schneller ist und schon brauchst du nur noch grob geschätzt (müsste man genauer untersuchen) 160W ASIC. Man muss sich nur mal die Kühllösungen bei den Custom N22 anschauen, die sprechen eine deutliche Sprache. Auch dort gibt es viele Ziegelsteine. Erfreulicherweise gibt es aber auch sowas.
https://geizhals.de/sapphire-pulse-radeon-rx-6700-xt-11306-02-20g-a2494718.html?hloc=at&hloc=de&hloc=eu&hloc=pl&hloc=uk
Ob das dann aber auch sehr leise ist weiß ich nicht. Ich hatte noch kein Review zu der Karte gefunden.
Lächerliche Effizienzdiskussionen jedes Mal. :rolleyes:
Als ob es sowas in Lambo-Foren gäbe. :rolleyes:
AMD macht es zum Thema ("Perf/W") und die Jünger springen auf den Zug. So geht Marketing. (y)
Deine übliche Bullshit-Schallplatte wieder? Ich betrieb eine Vega10 LC mit 160W ASIC wo AMD 264W als Betriebspunkt gewählt hatte. :rolleyes: Und was kapierst du daran nicht, dass die höheren Verlustleistungen sich auch im Performance-/Mainstreamsegment genauso auswirken?
Wer im Kopf ein festes Powerbudget von zB. 250-300W hat kann doch zu Navi 32 oder Navi33 greifen, auch da wird es dank 5nm Fertigung genug Leistung pro Watt geben.
Nicht genug für ein vernünftiges Upgrade, hatte ich dir schon mal gesagt. Dafür müsste ich eher auf Navi 42/43 warten, was dann auf ~4 Jahre hinausläuft. Ob N21 so lange genug Performance für 1440p liefert darf bezweifelt werden.
Nightspider
2021-04-18, 13:14:21
Dargo du musst dich nicht immer angesprochen fühlen.
Und deine 6800xt reicht ja wohl easy für 1440p selbst für kommende Titel.
In BF5 schafft die 6800xt selbst in 4K rund 100-110fps. 1440p ist ein Witz für die 6800xt
Und wenn du dir Sorgen um Raytracing machst, da werden auch Navi32 und 33 große Sprünge machen.
Falls die +120-150% für Navi31 stimmen sollten, wird Navi 32 bestimmt bei ~ +50-110% landen. Je nach Anzahl der Chiplets und wie stark diese beschnitten sind.
Slipknot79
2021-04-18, 13:17:02
Deine übliche Bullshit-Schallplatte wieder? Ich betrieb eine Vega10 LC mit 160W ASIC wo AMD 264W als Betriebspunkt gewählt hatte. :rolleyes: Und was kapierst du daran nicht, dass die höheren Verlustleistungen sich auch im Performance-/Mainstreamsegment genauso auswirken?
Nein, kein Bullshit, deine Anwesenheit in den Perf/Watt Diskussionen ist Beweis genug. Das schlimme ist eigentlich, du merkst es nicht mal mehr. Soweit hat AMD dich bereits getrieben. (y)
Stattdessen merke dir meinen Beitrag, du 1000EUR Graka Käufer und späterer 500W Graka-Besitzer und Raytracing-Aktivierer oder Radeon 8300-Besitzer, Wakü-Käufer oder Hobbyaufgeber. :rolleyes: Widerstand ist zweckslos, du bist genauso Opfer wie wir alle. Du wirst dich all dem so und so noch fügen und unterwerfen. Dein Gequake bringt einfach nix, vllt etwas fürs eigene Ego, du kommst dann aber genauso dran. Unvermeidbar eben. (y)
Cyberfries
2021-04-18, 13:24:01
Lächerliche Effizienzdiskussionen jedes Mal. AMD macht es zum Thema ("Perf/W") und die Jünger springen auf den Zug.
Die Diskussion gab es schon als nVidia in dem Bereich vorne lag und wird es auch bei zukünftigen Wechseln des Kräfteverhältnisses geben.
Als ob es sowas in Lambo-Foren gäbe.
Dämlicher Autovergleich. Effizienzdiskussionen gibt es auch bei Supersportwagen. Oder im Motorsport.
Und nicht erst seit 2010, sondern schon seit über 40 Jahren.
Wem 500W und 3000Umin schmerzt, der soll sich eben in 2 Generationen eine Radeon 8300 zulegen oder ein ordentliche Wakü und gut ist.
Den Punkt nicht verstanden?
Ist wie: Wer keine aktive Kühlung will, soll sich eben eine passiv gekühlte x300 zulegen. Wo sind deine passiv gekühlten heute?
Gibts nicht. Gibt auch keine Karten mehr ohne Stromstecker. Der Markt als ganzes hat sich nach oben verlagert.
Wenn 500w in Zukunft für Topmodelle gelten, wandert die Mittelklasse auf 400w und der Einstieg auf 300w.
Und dann ist auch egal ob die Kühllösungen bis dahin ausreichend leise sind - irgendwo muss die Hitze hin.
500w Wärmestrom entspricht vier Männern unterm Schreibtisch - wenn dir das gefällt, gerne.
dargo
2021-04-18, 13:24:40
Und deine 6800xt reicht ja wohl easy für 1440p selbst für kommende Titel.
Ich überlege gerade ob ich mir das in die Sig. für die nächsten ~4 Jahre reinpacken soll? :tongue: Mindestens 2 Jahre muss sie reichen bis ein Nachfolger kommt. 4 Jahre glaube ich aber nicht, das ist schon verdammt optimistisch. Vergiss nicht... ich spiele eher mit high fps.
@Slipknot79
Als ob mich jucken würde was du dir irgendwann in Zukunft kaufst. :rolleyes: Vor allem sowas belangloses wie PC-Hardware, offenbar brauchst du das für eine Profilierung in Foren. :lol:
Den Punkt nicht verstanden?
Ist wie: Wer keine aktive Kühlung will, soll sich eben eine passiv gekühlte x300 zulegen. Wo sind deine passiv gekühlten heute?
Gibts nicht. Gibt auch keine Karten mehr ohne Stromstecker. Der Markt als ganzes hat sich nach oben verlagert.
Das versteht er nicht weil er nicht den gesamten Markt im Auge behält. Ich frage mich bei solchen Leuten auch immer wieder wie das dann in bsw. 10 Jahren aussehen soll? Kommen dann Referenzkarten mit 1000W?
Platos
2021-04-18, 14:49:04
Der Markt als ganzes hat sich nach oben verlagert.
Wenn 500w in Zukunft für Topmodelle gelten, wandert die Mittelklasse auf 400w und der Einstieg auf 300w.
Und dann ist auch egal ob die Kühllösungen bis dahin ausreichend leise sind - irgendwo muss die Hitze hin.
500w Wärmestrom entspricht vier Männern unterm Schreibtisch - wenn dir das gefällt, gerne.
Genau, mal ein weiter Punkt. Vlt. gibt es ja auch Leute, die z.B nur 75W Stromverbrauch auf ihrer Graka haben wollen, also über PCI-E.
Wenn aber die Leistung pro Watt so miserabel steigt, dann muss man natürlich deutlich länger bzw. deutlich mehr Generationen abwarten, bis man die selbe Mehrleistung kriegt.
Platos
2021-04-18, 14:55:05
Ich frage mich bei solchen Leuten auch immer wieder wie das dann in bsw. 10 Jahren aussehen soll? Kommen dann Referenzkarten mit 1000W?
Das Selbe kann man auch bezüglich vielen anderen Dingen fragen. CPU Preise von Zen3, Grafikkartenpreise allgemein, Intel's Preiserhöhung bei Rocket Lake, Stromverbrauch bei CPUs ist viel höher, wie noch vor 5 Jahren... etc. etc.
Aber in die Vergangenheit schauen die wenigsten (um zu erkennen, ob die Gegenwart "abnormal" ist).
Nicht genug für ein vernünftiges Upgrade, hatte ich dir schon mal gesagt. Dafür müsste ich eher auf Navi 42/43 warten, was dann auf ~4 Jahre hinausläuft. Ob N21 so lange genug Performance für 1440p liefert darf bezweifelt werden.
Genau das ist es. In letzter Zeit (Seit Turing bei nvidia und bei AMD weiss sich nicht wie lange schon) nimmt die Leistung pro Watt nicht mehr so stark zu, wie eben früher mal.
Man pusht die Karten einfach mit noch mehr Stromverbrauch. Wie gesagt, eine RTX 3060! hat den Stromverbrauch einer 1080! Irgendwann geht das aber nicht mehr in der Praxis. Irgendwann sind die Karten einen halben Meter lange und brauchen einen Standfuss;D
Ist halt Hobby - muss nicht immer zwangsweise effizient sein. Zumindest bei mir. Da bin ich eher wie Tim Taylor eingestellt. Mehr Power. Mehr Verbrauch: egal. :D
Bei Millionen von Gamern hat halt auch das einen grossen Einfluss.
Gerade, wenn es um die letzten 10% geht, die aber 30-50% mehr Strom verbrauchen, ist das dann besonders unnötig.
Aber klar, jeder wie er will ;)
amdfanuwe
2021-04-18, 15:03:37
Genau, mal ein weiter Punkt. Vlt. gibt es ja auch Leute, die z.B nur 75W Stromverbrauch auf ihrer Graka haben wollen, also über PCI-E.
Zum Zocken zu langsam, für Office überdimensioniert. Da reicht auch eine alte Generation wenn die CPU keine IGP hat.
z.B. hier https://www.mindfactory.de/Hardware/Grafikkarten+(VGA)/GeForce+GT+fuer+Multimedia.html
Platos
2021-04-18, 15:14:30
Zum Zocken zu langsam, für Office überdimensioniert. Da reicht auch eine alte Generation wenn die CPU keine IGP hat.
z.B. hier https://www.mindfactory.de/Hardware/Grafikkarten+(VGA)/GeForce+GT+fuer+Multimedia.html
Auch nur, weil die Grafikkarten ihren Strombedarf ständig steigern. Würde eine RTX 3080 soviel verbrauchen, wie damals die 1080, dann hätte jetzt eine 75W GPU auch genug Leistung um zu zocken.
Abgesehen davon waren die 75W doch nur ein Beispiel. Es hätte auch 150W sein können, das hast du glaube ich falsch verstanden ;)
amdfanuwe
2021-04-18, 16:07:26
Für die Spiele von damals mit 800x600 ohne moderne Effekte reichen sicherlich 75W.
Cyberfries
2021-04-18, 16:10:52
Zum Zocken zu langsam, für Office überdimensioniert. Da reicht auch eine alte Generation wenn die CPU keine IGP hat.
z.B. hier https://www.mindfactory.de/Hardware/Grafikkarten+(VGA)/GeForce+GT+fuer+Multimedia.html
Du empfiehlst hier Hardware von 2013. Seitdem hat sich viel an Schnittstellen und Codecs getan.
Schon wenn du drei Bildschirme willst, wird das eng.
Mit der Effizienz von RDNA2 sollte eine 75w-Karte auf dem Niveau von 1650/470 liegen.
Das reicht in aktuellen e-Sports Titeln (https://www.computerbase.de/2020-04/multiplayer-games-gpu-benchmarks-2020/#diagramm-league-of-legends-1920-1080-alle-leistungsklassen) meist für WQHD. Zocken beginnt nicht erst bei "Regler auf Anschlag".
amdfanuwe
2021-04-18, 16:50:01
Du empfiehlst hier Hardware von 2013.
;D Keine wirkliche Empfehlung. Aber schön zu sehen, dass man noch Notlösungen für kleines Geld bekommt.
Mit der Effizienz von RDNA2 sollte eine 75w-Karte auf dem Niveau von 1650/470 liegen.
Dummerweise haben Nvidia und AMD gerade ein Nachfrage/Produktionsproblem. Mit N24 sollte es ja in die Richtung gehen.
Die 5300 war ja schon bei 100W und die RX460 war mit <75W ausgeschrieben.
Platos
2021-04-18, 18:52:15
Für die Spiele von damals mit 800x600 ohne moderne Effekte reichen sicherlich 75W.
Hast anscheinend immer noch nicht verstanden, dass die 75W nur ein Beispielwert waren...
amdfanuwe
2021-04-18, 20:45:44
Würde eine RTX 3080 soviel verbrauchen, wie damals die 1080, dann hätte jetzt eine 75W GPU auch genug Leistung um zu zocken.
Soviel weniger hat die 1080 auch nicht gebraucht
EVGA GeForce GTX 1080 FTW weniger gnädig und weist eine Leistungsaufnahme von 326 Watt auf, obwohl weder die Taktraten noch die Temperatur Anlass dazu geben. Dasselbe gilt für das Modell von MSI mit 320 Watt. Der „Spitzenreiter“ ist jedoch die Zotac GeForce GTX 1080 AMP! Extreme, die mit 348 Watt die höchste Leistungsaufnahme aufweist.
Hat sich die Performance nahezu verdoppelt.
Ich bin noch auf einer RX 480 unterwegs. Bei aktuellen Blockbuster sind unter FHD schon abstriche zu machen. An 1440 oder 4k trau ich mich nicht ran mit der 480.
Die kleinen GTX 3000 bzw. RX 6000 sind halt noch nicht raus, würden dann aber auf ähnlichem Leistungsniveau liegen.
Zocken kann man mit jeder GPU, kommt halt auf das Spiel, Auflösung und die persönliche Leidensfähigkeit an. Mit zunehmender Leistungsfähigkeit der Grafikkarten steigen auch die Anforderungen der Spiele und umgekehrt.
just4FunTA
2021-04-18, 20:50:12
@amdfanuwe
ich weiss ja nicht was mit dieser EVGA 1080 los war, aber meine GTX1080 hat ~180 - 200 Watt verbraucht und lief mit 1,95Ghz. ;)
Platos
2021-04-18, 21:31:55
@amdfanuwe
Du redest einfach an meiner Kernausaage vorbei. Es ging darum, dass wenn man auf einem bestimmten Stromverbrauch bleiben will, man deutlich länger warten muss, um eine deutliche Mehrleistung zu bekommen.
@amdfanuwe
ich weiss ja nicht was mit dieser EVGA 1080 los war, aber meine GTX1080 hat ~180 - 200 Watt verbraucht und lief mit 1,95Ghz. ;)
Kann ich dir sagen: amdfanuwe verheimlicht einfach mal so nebenbei, dass die Zahlen aufs Gesammtsystem bezogen sind ;) Und natürlich Zitiert er ohne Quellenangabe...
Natürlich verbraucht die Grafikkarte nicht so viel.
https://www.computerbase.de/2016-07/geforce-gtx-1080-partnerkarten-vergleich-test/2/
Die Foundersedition verbrauchte im Gaming laut Leonidas' Launchanalyse 173W (weniger als die offizielle Angabe von 180W). Dass Herstellermodelle darüber sind, sollte klar sein.
https://m.3dcenter.org/artikel/launch-analyse-nvidia-geforce-gtx-1080-ti
basix
2021-04-18, 21:55:10
Heute ist eine 3060 bei 170W TDP ;)
Lächerliche Effizienzdiskussionen jedes Mal. :rolleyes:
Als ob es sowas in Lambo-Foren gäbe. :rolleyes:
Was ist daran lächerlich? Stell dir vor, bei Autos wäre das selbe passiert wie bei den Grafikkarten. Dann hätte ein Golf 20 Liter / 100km Verbrauch aber trotzdem nicht mehr Leistung als heute bei 5L/100km. Wäre geil oder? Du siehst selber, dein Vergleich hinkt. Supersportwagen besitzen nur wenige und mal einen zum Spass mieten und richtig ausfahren, wieso nicht. Macht doch Spass. Das machst du aber nicht jeden Tag. Nicht so wie 200+ Millionen Gaming-PCs und Konsolen, wenn diese saufen wie ein Loch. Das ist eine ganz andere Liga ;)
Und klar, es ist ein Hobby. Darf auch mal laut und unvernünftig sein. Keine Sache. Aber die Sinnfrage darf man sich dennoch stellen ;) Ich bin keine 20ig mehr, wo alles bis zum Anschlag ausgekitzelt werden muss (damals eher als Sport / Herausforderung und Mangel an Geld :D). Zum Benchen, testen und HW kitzeln fahre ich auch heute mal alles aufs Maximum. Aber im Normalbetrieb brauche *ich* das nicht. Und die meisten, welche die Karte kaufen, einbauen und es soll einfach gut laufen auch nicht. Die verschenkten 10% Performance wird fast niemand bemerken, nicht von den FPS und auch nicht von der Bildqualität her. Deswegen fahre ich seit der GTX 780 die Effizienzschiene. 170-190W, deutlich leiser und weniger warm.
Und ob AMD oder Nvidia spielt Null eine Rolle. Ich habe eine Nvidia und trotzdem komme ich hier im AMD Thread mit diesem Thema ;) 300W der neuen AMDs sind eigentlich auch zu viel. Seit Kepler war 250W die Obergrenze und danach konstant. Das war gut so. Die kleinsten Karten hatten dann 60-70W und waren top, um Rechner mit wenig Aufwand nachzurüsten. Habe ich zum Beispiel für meinen Vater so gemacht. Für etwas Multimedia Arbeit und 1080p wäre sowas gut brauchbar, auch mit relativ hohen Qualitätseinstellungen. Heute braucht man ja schon für die Mittelklasse 600W Netzteile und mindestens 1x 8p PCIe Stecker.
Platos
2021-04-18, 22:35:16
Das witzige ist ja, dass ich mit meiner alten GTX 1070Ti nicht mal ein extrem viel schlechteres P/W habe, wie eben moderne Grafikkarten. Man müsste meinen, dass diese um Welten effizienter sind :D Also zumindest in der selben Stromverbrauchsklasse.
Aber man muss auch bedenken, wenn die Preisklasse um 150-350 Euro einen deutlich höheren Stromverbrauch hat, dann wird automatisch auch der Stromverbrauch durch Gaming deutlich steigen. Denn die Leute kaufen vermutlich meistens nach einem bestimmten Budget.
Slipknot79
2021-04-18, 23:35:21
Dämlicher Autovergleich. Effizienzdiskussionen gibt es auch bei Supersportwagen. Oder im Motorsport.
Und nicht erst seit 2010, sondern schon seit über 40 Jahren.
Den Punkt nicht verstanden?
Ist wie: Wer keine aktive Kühlung will, soll sich eben eine passiv gekühlte x300 zulegen. Wo sind deine passiv gekühlten heute?
Gibts nicht. Gibt auch keine Karten mehr ohne Stromstecker. Der Markt als ganzes hat sich nach oben verlagert.
Wenn 500w in Zukunft für Topmodelle gelten, wandert die Mittelklasse auf 400w und der Einstieg auf 300w.
Und dann ist auch egal ob die Kühllösungen bis dahin ausreichend leise sind - irgendwo muss die Hitze hin.
500w Wärmestrom entspricht vier Männern unterm Schreibtisch - wenn dir das gefällt, gerne.
Nein, kein dämlicher Vergleich, der passt wie die Faust auf dein Auge.
Motorsport interessiert hier nicht, dort möge man vllt über Leistungsgewichte diskutieren.
Wir sind aber Konsumenten. Wo im Lambo Forum gibts unter den Konsumenten Effizienzdiskussionen? Die Shice wird stattdessen getreten. (y)
Wenn du passive Kühlung brauchst, check dir nen Office PC. Dorts gibts, wenn du Glück hast, nicht mal ne dGPU. Aber darum geht es nicht und das ist das, was du nicht verstanden hast.
Wenn das Teil 500W, 1000W usw braucht, baller ich mir eben nen zweiten, dritten usw MORA unterm Tisch in Serie. Wo ist das Problem? Ich sehe keins. Ich bin nicht derjenige, der sinnlos über Effizienz diskutiert. Weil ich genau weiß, dass es kein Entkommen gibt vor dicken Wattages und Waküs bei den Dickschiff-GPUs.
Slipknot79
2021-04-18, 23:44:07
Heute ist eine 3060 bei 170W TDP ;)
Was ist daran lächerlich? Stell dir vor, bei Autos wäre das selbe passiert wie bei den Grafikkarten. Dann hätte ein Golf 20 Liter / 100km Verbrauch aber trotzdem nicht mehr Leistung als heute bei 5L/100km. Wäre geil oder? Du siehst selber, dein Vergleich hinkt. Supersportwagen besitzen nur wenige und mal einen zum Spass mieten und richtig ausfahren, wieso nicht. Macht doch Spass. Das machst du aber nicht jeden Tag. Nicht so wie 200+ Millionen Gaming-PCs und Konsolen, wenn diese saufen wie ein Loch. Das ist eine ganz andere Liga ;)
Und klar, es ist ein Hobby. Darf auch mal laut und unvernünftig sein. Keine Sache. Aber die Sinnfrage darf man sich dennoch stellen ;) Ich bin keine 20ig mehr, wo alles bis zum Anschlag ausgekitzelt werden muss (damals eher als Sport / Herausforderung und Mangel an Geld :D). Zum Benchen, testen und HW kitzeln fahre ich auch heute mal alles aufs Maximum. Aber im Normalbetrieb brauche *ich* das nicht. Und die meisten, welche die Karte kaufen, einbauen und es soll einfach gut laufen auch nicht. Die verschenkten 10% Performance wird fast niemand bemerken, nicht von den FPS und auch nicht von der Bildqualität her. Deswegen fahre ich seit der GTX 780 die Effizienzschiene. 170-190W, deutlich leiser und weniger warm.
Und ob AMD oder Nvidia spielt Null eine Rolle. Ich habe eine Nvidia und trotzdem komme ich hier im AMD Thread mit diesem Thema ;) 300W der neuen AMDs sind eigentlich auch zu viel. Seit Kepler war 250W die Obergrenze und danach konstant. Das war gut so. Die kleinsten Karten hatten dann 60-70W und waren top, um Rechner mit wenig Aufwand nachzurüsten. Habe ich zum Beispiel für meinen Vater so gemacht. Für etwas Multimedia Arbeit und 1080p wäre sowas gut brauchbar, auch mit relativ hohen Qualitätseinstellungen. Heute braucht man ja schon für die Mittelklasse 600W Netzteile und mindestens 1x 8p PCIe Stecker.
Es ist lächerlich, weil die Lambo-Fahrer hier über Effizenz diskutieren. Solche Diskussionen kannst du in der GTX 1650 Liga und darunter machen ("VW Golf"), oder von mir aus bei Smartphones oder beim Apple M1 bzw. Notebooks.
Aber nicht dort wo 200W+ rumgeballert werden. Das macht es lächerlich. Als ob der Scheich mit Ronaldo über Effizienz diskutieren würde lol. (y)
Früher hatten Autos 15PS und keine Wakü. Heute sind es 150PS und Waküs. Früher haben dargos sicher auch schon rumgeheult wegen Eiffzienz bevor erste Waküs verbaut wurden, genau diese Heuler ballern nun mit 150PS mit Waküs durch die hood. Genau das macht es eben komplett sinnlos. Mimimi, 5 Jahre später im PC-Bereich macht man es nicht besser. :rolleyes: :wink:
TheAntitheist
2021-04-19, 00:34:37
Und wieder Unsinn... wenn AMD längere Balken so wichtig wären wäre AMD auf mindestens 350W gegangen. :rolleyes:
dann wird das Board teurer, die Lüfter teurer etc... als ob es so einfach wäre. Die Marge ist denen dann doch wichtiger wenn man weiß das man langsamer ist
amdfanuwe
2021-04-19, 00:45:01
@amdfanuwe
Du redest einfach an meiner Kernausaage vorbei. Es ging darum, dass wenn man auf einem bestimmten Stromverbrauch bleiben will, man deutlich länger warten muss, um eine deutliche Mehrleistung zu bekommen.
Kann ich dir sagen: amdfanuwe verheimlicht einfach mal so nebenbei, dass die Zahlen aufs Gesammtsystem bezogen sind ;) Und natürlich Zitiert er ohne Quellenangabe...
Ups, hätte ich den Artikel wohl genauer lesen sollen. Sorry.
Dann sieht es ja noch übler aus für den Effizienzgewinn der letzten Jahre.
OK, jetzt hab ich auch deine Kernaussage verstanden.
Darauf war ich bisher gar nicht eingestiegen.
Dein Argument: Performance/Watt steigt z.B. um 10% von Generation zu Generation. Im High End zieht man aber die TDP hoch und kann so z.B. 40% Mehrleistung rausholen.
Bei gewünschten 200W Verbrauch muß man dann eben fast 4 Jahre warten bis dort 40% Mehrleistung erreicht werden.
Edit: Erklärt dann auch, warum nur alle paar Jahre neue Chips für Low-End kommen.
Liegt aber auch daran, dass die Chips mittlerweile bis aufs letzte gemolken werden.
Sieht man ja bei der 3070 die 23% bessere Performance/Watt als die 3080 bei FHD liefert. https://www.computerbase.de/2020-10/nvidia-geforce-rtx-3070-test/3/#diagramm-performance-pro-watt-1920-1080
Denn die Leute kaufen vermutlich meistens nach einem bestimmten Budget.
Denke ich auch. Könnte mir durchaus 2000€ Karten leisten, ist es mir aber nicht Wert. Mein Bereich liegt eher bei <300€. Da war die 480 8GB damals für 239,-€ genau richtig.
Platos
2021-04-19, 02:18:27
Dein Argument: Performance/Watt steigt z.B. um 10% von Generation zu Generation. Im High End zieht man aber die TDP hoch und kann so z.B. 40% Mehrleistung rausholen.
Bei gewünschten 200W Verbrauch muß man dann eben fast 4 Jahre warten bis dort 40% Mehrleistung erreicht werden.
Ja, aber eigentlich ja nicht nur die High-End Dinger. Eine RTX 3060 ist kein High End und verbraucht 172W im Gaming. Die 960 war damals bei 98W in Spielen und die 1060 bei 119W (alle Werte gemäss Leonidas' Launchanalysen).
Man zieht also eher generell mit dem Stromverbrauch hoch, damit man die gewohnten Leistungssprünge erreichen kann.
Liegt aber auch daran, dass die Chips mittlerweile bis aufs letzte gemolken werden.
Ja, das macht es schwierig P/W zu vergleichen, da die Effizienz stark davon abhängt, wie nvidia/AMD (oder Boardpartner) die Karten "Einstellen/takten". Aber trotzdem ist natürlich ein Trend zu erkennen.
Die RTX 3080 zieht 325w, die GTX 1080 171W laut Leonidas' Analysen. Spasseshalber rechne ich da doch mal die Perf. pro Watt (Stromeffizienz) aus:
GTX 1080: 5.6%-Punkte im FHD Index pro Watt
RTX 3080: 5.8%-Punkte im FHD Index pro Watt. Das macht dann eine um 4% höhere Leistung pro Watt in FHD (RTX-Karten FHD Schwäche lässt grüssen).
GTX 1080: 0.772%-Punkte im UHD Index pro Watt
RTX 3080: 1.009& Punkte im UHD Index pro Watt. Das macht dann eine um 31% höhere Leistung pro Watt in UHD.
Ich denke aber, dass die RTX 3000 und RDNA2 Karten mit relativ wenig Leistungseinbussen deutlich weniger Strom verbrauchen würden, da diese so hochgeprügelt sind. Vlt. sollte ich mal das P/W- Verhältnis für alle Grafikkarten der letzten 5 Jahre ausrechnen von AMD und nvidia. Naja, wenn mir mal langweilig ist...
Aber wie gesagt, wenn man quasi die "technische Effizienzsteigerung" wirklich ermitteln wollen würde (aus technischem Interesse), dann müsste man schon fast graphen mit jeweiligen Taktraten erstellen, um dann feststellen zu können, wie weit die jeweiligen Karten "hochgeprügelt" wurden. Aber aus Verbrauchersicht ist ja das schlussendliche Produkt entscheidend, da nur wenige untervolten/untertaken (können/wollen).
Edit: Keine Ahnung wieso, aber in der 1080 Launchanalyse verbraucht die GTX 1080 171W und in der 1080Ti Launchanalyse wird die 1080 mit 173W aufgeführt. Aber ist auch nur ein tropfen auf dem heissen Stein für die obere Rechnung.
amdfanuwe
2021-04-19, 04:43:29
Vieleicht kannst du was mit den Diagrammen hier zur 6700XT etwas anfangen
https://twitter.com/uzzi38/status/1383840595706216453
basix
2021-04-19, 08:24:03
Als ob der Scheich mit Ronaldo über Effizienz diskutieren würde lol. (y)
Meine Interpretation anhand dieser Aussage: Weil ein paar Schwerreiche machen was sie wollen, will auch der Slipknot79 bei nichts zurückstecken müssen. Stimmt das so? ;)
Wenn wir nun bei den GraKas bleiben und von wegen "treten": Wenn das ein paar Enthusiasten hier im Forum machen, ist das halb so wild. Das trifft auf die paar wenigen Lambos wie auch 3090 und 6900XT zu. Das sei jedem gegönnt und ist seine Sache. Aber wenn eben beim ganzen Markt die GPUs so ausgelegt sind: Dann ist es ein Problem. Das ist ja das Argument von den meisten hier. Das ist eben das grosse Bild und nicht die gefilterte Weltsicht eines Enthusiasten-Forums. Das wird sich langfristig negativ auswirken für jeden. Dadurch werden die GPUs als auch die PC-Komponenten drum herum teurer. Geräusch- und Wärmeemissionen steigen (oder mit entsprechendem Materialaufwand die Lautstärke im Zaum gehalten). Die Umwelt wird stärker belastet. Für wie gesagt die letzten 10%, welche der Normalo-User nicht benötigt und nicht bemerkt. Früher konnte man seine Karte auch treten und landete dann halt bei 250-300W und nicht bei 450W wie bei der 3090. Hatte man damals weniger Spass daran? Ich glaube nicht. Und wenn das so weitergeht, kommt noch ein übertriebenes Energielabel für CPUs und GPUs wie es bei den Fernsehern nun passiert. Dann wird niemand mehr Freude daran haben, eine GPU zu treten, weil sie bei max. 150W abriegelt ;) Und wieso kommt bei den Fernsehern dieses Energielabel? Weil es ein paar wenige Verrückte wie uns gibt, welche sich 8K Fernseher mit 85 Zoll ins Wohnzimmer stellen. Oder weil beim gesamten Markt und somit sehr grossen Stückzahlen der Energieverbrauch nach oben geht?
Und wenn wir hier als Enthusiasten über Effizienz diskutieren: Auch das kann man als Enthusiast bezeichnen. Halt nicht maximal mögliche Leistung mit der Brechstange sondern maximal mögliche Leistung bei gegebenem Stromverbrauch. Anstatt max. OC halt max. Effizienz. Ich habe fast genau gleich viel Zeit investiert, um den optimalen Betriebspunkt zu finden wie früher mit max. OC. Und hat genau gleich viel Spass gemacht, da vom Prinzip her das selbe. Und zum Teil sogar spannender, da man deutlich mehr über die HW rausfindet, als wenn man alle Power- und Takt-Regler nach rechts schiebt. Und wie gesagt, Performance Nachteile bemerkt man fast keine. Wenn das nicht alle so handhaben, OK. Aber ich würde es begrüssen, wenn die GPUs für die Allgemeinheit sinnvoll ausgelegt sind. Pascal war noch OK. Bei Turing gab es leichte Tendenzen nach oben und Ampere ist einfach ein Säufer.
Thunder99
2021-04-19, 08:32:13
Ja, aber eigentlich ja nicht nur die High-End Dinger. Eine RTX 3060 ist kein High End und verbraucht 172W im Gaming. Die 960 war damals bei 98W in Spielen und die 1060 bei 119W (alle Werte gemäss Leonidas' Launchanalysen).
Man zieht also eher generell mit dem Stromverbrauch hoch, damit man die gewohnten Leistungssprünge erreichen kann.
Ja, das macht es schwierig P/W zu vergleichen, da die Effizienz stark davon abhängt, wie nvidia/AMD (oder Boardpartner) die Karten "Einstellen/takten". Aber trotzdem ist natürlich ein Trend zu erkennen.
Die RTX 3080 zieht 325w, die GTX 1080 171W laut Leonidas' Analysen. Spasseshalber rechne ich da doch mal die Perf. pro Watt (Stromeffizienz) aus:
GTX 1080: 5.6%-Punkte im FHD Index pro Watt
RTX 3080: 5.8%-Punkte im FHD Index pro Watt. Das macht dann eine um 4% höhere Leistung pro Watt in FHD (RTX-Karten FHD Schwäche lässt grüssen).
GTX 1080: 0.772%-Punkte im UHD Index pro Watt
RTX 3080: 1.009& Punkte im UHD Index pro Watt. Das macht dann eine um 31% höhere Leistung pro Watt in UHD.
Ich denke aber, dass die RTX 3000 und RDNA2 Karten mit relativ wenig Leistungseinbussen deutlich weniger Strom verbrauchen würden, da diese so hochgeprügelt sind. Vlt. sollte ich mal das P/W- Verhältnis für alle Grafikkarten der letzten 5 Jahre ausrechnen von AMD und nvidia. Naja, wenn mir mal langweilig ist...
Aber wie gesagt, wenn man quasi die "technische Effizienzsteigerung" wirklich ermitteln wollen würde (aus technischem Interesse), dann müsste man schon fast graphen mit jeweiligen Taktraten erstellen, um dann feststellen zu können, wie weit die jeweiligen Karten "hochgeprügelt" wurden. Aber aus Verbrauchersicht ist ja das schlussendliche Produkt entscheidend, da nur wenige untervolten/untertaken (können/wollen).
Edit: Keine Ahnung wieso, aber in der 1080 Launchanalyse verbraucht die GTX 1080 171W und in der 1080Ti Launchanalyse wird die 1080 mit 173W aufgeführt. Aber ist auch nur ein tropfen auf dem heissen Stein für die obere Rechnung.
Du sprichst mir aus der Seele :). Mach das bitte und erstelle einen neuen Thread. Die Entwicklung wird ja immer schlimmer, sodass wir in der Zukunft ein Atom Kraftwerk brauchen um den PC zu betreiben :freak: :(.
Alle Effizienz Meldungen der neuen Karten sind Blendungen vom Marketing! In Wahrheit verbrauchen die Karten schon seit langem immer mehr pro Generation.
Um noch was OT zu haben. Bei den Chiplet Gerüchten kommt es darauf an, ob der Aufwand der Kommunikation mehr oder weniger Strom braucht als bisherige Designs.
dargo
2021-04-19, 08:39:10
Ja, aber eigentlich ja nicht nur die High-End Dinger. Eine RTX 3060 ist kein High End und verbraucht 172W im Gaming. Die 960 war damals bei 98W in Spielen und die 1060 bei 119W (alle Werte gemäss Leonidas' Launchanalysen).
Man zieht also eher generell mit dem Stromverbrauch hoch, damit man die gewohnten Leistungssprünge erreichen kann.
Bei Ampere ist das richtig übel geworden (da wird der Name zum Programm :freak:). Man muss sich das nur auf der Zunge zergehen lassen. Die RTX 3090 FE ist nur 45% schneller als die RTX 2080TI FE und erstere verbraucht dabei 27% mehr (Quelle igorslabs). Das ist eine Entwicklung über 2 Jahre. Da weißt du echt nicht ob du lachen oder heulen sollst. Und auch Turing wurde schon vs. Pascal durstiger und hatte damals bei der Performance nach 2 Jahren wenig draufgelegt.
basix
2021-04-19, 09:08:19
Die Entwicklung wird ja immer schlimmer, sodass wir in der Zukunft ein Atom Kraftwerk brauchen um den PC zu betreiben :freak: :(.
Das ist definitiv so. Sorry wenn ich hier nun Nvidia Karten für die Liste verwende ;)
5800 Ultra --> 6800 Ultra = Stagnierend
6800 Ultra --> 7800GTX = Stagnierend
7800GTX --> 7900GTX = Stagnierend
7900GTX --> 8800GTX = +60W
8800GTX --> GTX 280 = +50W
GTX 280 --> GTX 480 = +120W (schlimmes Beispiel :D)
GTX 480 --> GTX 580 = -20W
GTX 580 --> GTX 780 Ti= +20W --> Absolute Leistungsaufnahme gleich viel wie bei der saufenden GTX480 aka Thermi
GTX 780 Ti --> GTX 980 Ti = Stagnierend
GTX 980 Ti --> GTX 1080 Ti = Stagnierend
GTX 1080Ti --> GTX 2080 Ti = +20W
GTX 2080 Ti --> GTX 3090 = +80W
Absolut gehen die Zahlen zueinander nicht auf, sonst hätte die 7900 GTX nur 20W verbraucht. Sind einfach relative Werte bei den jeweiligen CB Tests, was zum Teil auch durch höheren CPU-Verbrauch (da schnellere GPU) und den höheren Netzteil- und Wandlerverlusten beeinflusst wird.
Die TDP der 7900 GTX ist aber laut TPU gerade mal 84W bei einer Netzteilempfehlung von 250W ;) https://www.techpowerup.com/gpu-specs/geforce-7900-gtx.c154
Zwischen GTX480 und 1080 Ti war der Verbauch der GPUs ungefähr konstant (auf hohem Niveau). Ab Turing geht es wieder aufwärts.
boxleitnerb
2021-04-19, 09:16:56
Das ist definitiv so. Sorry wenn ich hier nun Nvidia Karten für die Liste verwende ;)
5800 Ultra --> 6800 Ultra = Stagnierend
6800 Ultra --> 7800GTX = Stagnierend
7800GTX --> 7900GTX = Stagnierend
7900GTX --> 8800GTX = +60W
8800GTX --> GTX 280 = +50W
GTX 280 --> GTX 480 = +120W (schlimmes Beispiel :D)
GTX 480 --> GTX 580 = -20W
GTX 580 --> GTX 780 Ti= +20W --> Absolute Leistungsaufnahme gleich viel wie bei der saufenden GTX 480!
GTX 780 Ti --> GTX 980 Ti = Stagnierend
GTX 980 Ti --> GTX 1080 Ti = Stagnierend
GTX 1080Ti --> GTX 2080 Ti = +10W
GTX 2080 Ti --> GTX 3090 = +90W
Absolut gehen die Zahlen zueinander nicht auf, sonst hätte die 7900 GTX nur 20W verbraucht. Sind einfach relative Werte bei den jeweiligen CB Tests, was zum Teil auch durch höheren CPU-Verbrauch (da schnellere GPU) und den höheren Netzteil- und Wandlerverlusten beeinflusst wird.
330W mehr als die 5800 Ultra...war die nur bei 20W?
Ich denke man muss eine Grenze finden, die einen guten Kompromiss aus Wärmeentwicklung, Kosten (Board, Kühler) und Leistung darstellt. 250, vielleicht 300W wären doch eine gute und bewährte Grenze.
Rest ist OC und jedem selbst überlassen.
basix
2021-04-19, 09:23:22
Nö, wie gesagt geht es absolut nicht auf. Eher so 75W (https://www.techpowerup.com/gpu-specs/geforce-fx-5800-ultra.c74)für die 5800 Ultra (siehe TDP und Netzteilempfehlung der 7900 GTX, habs editiert). Sind dennoch 270W mehr ;)
Vieleicht kannst du was mit den Diagrammen hier zur 6700XT etwas anfangen
https://twitter.com/uzzi38/status/1383840595706216453
Interessante Daten. N22 scheint bis 1.8 GHz perfekt zu skalieren. Erst danach nimmt die Effizienz ab. Da dies 40 CUs sind, würde ich bei N23 mit 32 CUs und nur 128bit SI eine sehr effiziente Mobile karte erwarten bei 60-75W und 1.8-2.0 GHz.
Was man auch sieht: Zwischen 2.0 und 2.5 GHz liegen ziemlich genau +100% GPU-Verbrauch. Das stimmt ziemlich gut mit den zu erwartenden 1.253 = 1.95 überein. RDNA2 hat die Clock-Wall also auch bei 2.5 GHz noch nicht erreicht und skaliert noch "normal". Bei Nvidia-Karten >2.0 GHz sieht das noch viel extremer aus. Da kosten zum Teil +100MHz +50% Leistungsaufnahme. Und Ampere war glaube ich die erste Generation, wo auch Enthusiasten wie Raff die Karte bei nur 0.8V betreiben, damit der Energieverbrauch nicht durch die Decke schiesst
dargo
2021-04-19, 09:51:49
Interessante Daten. N22 scheint bis 1.8 GHz perfekt zu skalieren. Erst danach nimmt die Effizienz ab.
Reiner Zufall, dass die Xbox Series X mit 1825Mhz läuft? ;) Zugegeben... ist etwas weit hergeholt. Die Konsole hat keinen Infinity Cache, dafür ein wesentlich breiteres SI.
Bei AMD stagniert der Verbrauch seit Hawaii. Aber die Leistung ist seit Hawaii regelrecht explodiert. Sind ja auch größere Sprünge, weil weniger Interationen (290X -> 390X -> V64 -> 6900XT) und AMD kommt von einem niedrigeren Niveau.
Radeon -> 23W
Radeon 7500 -> 23W
Radeon 8500 -> 23W
Radeon 9800 Pro -> 47W
Radeon X850 XT PE -> 67W
Radeon X1800 XT -> 113W
Radeon X1950 XTX -> 125W
Radeon HD2900 XT -> 215W
Radeon HD3870 -> 106W
Radeon HD4870 -> 150W
Radeon HD5870 -> 188W
Radeon HD6970 -> 250W
Radeon HD7970 -> 210W
Radeon HD7970GHz -> 250W
Radeon R9 290X -> 290W
Radeon Vega64 -> 290W
Radeon RX 6900XT -> 300W
w0mbat
2021-04-19, 12:18:17
Die HD7970 hatte ne 250W TDP.
Lehdro
2021-04-19, 13:27:24
Die HD7970 hatte ne 250W TDP.
Nein 210W, die 7970 GHz hatte 250W. (https://www.pcgameshardware.de/Grafikkarten-Grafikkarte-97980/Tests/Test-der-Radeon-HD-7970-GHz-Edition-907095/2/)
davidzo
2021-04-19, 14:04:06
Zwischen einer 7970ghz / 280x und einer 290x/390x liegt aber auch ein guter Abstand beim Vebrauch und wärmeentwicklung, das weiß ich as erfahrung.
Hawai war halt nicht besonders effizient, da war Tahiti noch deutlich sparsamer und kühler. Nur die kleinen Auskopplungen Bonaire und später tonga hatten eine einigermaßene Effizienz, was im nachhinein betrachtet wohl auch am schmalen SI liegen könnte (128/256bit vs 512 bei Hawai).
Schon gegen Kepler sah Hawai nicht sonderlich effizient aus, mit Maxwell wurde der Abstand dann so gewaltig das auch Polaris mit ordentlichem Hinzugewinn nicht annähernd auf Pascal Effizienzniveau kam.
Für N31, wenn der wirklich viel Mehrleistung mehr bringen soll, dürfte die TDP trotzdem auch auf 400W steigen. Das wird aber mit Lovelace nicht anders sein. Das gerät langsam an die Grenze der derzeitigen Gehäuse. Aber darauf wird der Markt einfach mit neuen Produkten reagieren. Ich denke nicht, dass das Ende der Fahnenstange erreicht ist, die Verbräuche werden auch künftig steigen. Das zeigen die Listen eindrücklich. Chiplets befeuern diese Entwicklung sogar.
w0mbat
2021-04-19, 15:33:30
Zwei chiplets a 80CUs @ 150W TPD ist mein Tip. Dazu noch VRAM und IOD. 350W max.
Bei ATI und NV ist der Verbrauch von ~25W auf ~200W innerhalb von 6-8 Jahren geschehen. Jetzt haben wir eben die Situation, dass die Prozesse nicht mehr so viel effizienter werden. Wir bekommen jetzt also in jedem Fall ein weiteres Wachstum des Verbrauchs, die Chiplets befeuern das, was weil man jetzt mehr mm² nutzbar macht, das ermöglicht es den Herstellern immer am Sweetspot zu agieren, aber insgesamt mehr Leistungsaufnahme am Sweetspot abzuführen. Daher auch die hohen Wachstumsraten. Hinzu kommt die massive Konzentration auf RT, was genau so ein Wachstumstreiber sein wird, wie die Entwicklung von DX6 auf DX9. Es kann zwar sein, dass man sich bei N31 auf 350W beschränken kann, ich sehe das aber nicht. Ich denke, wir werden mit den nächsten beiden Generationen 150W mindestens mehr sehen.
Platos
2021-04-19, 15:48:09
Bei AMD stagniert der Verbrauch seit Hawaii. Aber die Leistung ist seit Hawaii regelrecht explodiert. Sind ja auch größere Sprünge, weil weniger Interationen (290X -> 390X -> V64 -> 6900XT) und AMD kommt von einem niedrigeren Niveau.
Radeon -> 23W
Radeon 7500 -> 23W
Radeon 8500 -> 23W
Radeon 9800 Pro -> 47W
Radeon X850 XT PE -> 67W
Radeon X1800 XT -> 113W
Radeon X1950 XTX -> 125W
Radeon HD2900 XT -> 215W
Radeon HD3870 -> 106W
Radeon HD4870 -> 150W
Radeon HD5870 -> 188W
Radeon HD6970 -> 250W
Radeon HD7970 -> 210W
Radeon HD7970GHz -> 250W
Radeon R9 290X -> 290W
Radeon Vega64 -> 290W
Radeon RX 6900XT -> 300W
Das liegt wohl daran, dass der Verbrauch schon immer beschissen war.:freak:
arcanum
2021-04-19, 16:43:09
das binning der hersteller ist einfach besser geworden und die chips werden weit über dem sweet spot getaktet damit man gegenüber der konkurrenz nicht abfällt. früher hatten so gut wie alle produkte 10-15% luft nach oben. heute verschenken hersteller diesen spielraum nicht und stecken die zusätzliche leistung in die eigene tasche. die akzeptanz für 300w karten ist schließlich seit jahren vorhanden und alle anderen könnten den verbrauch und damit die leistung händisch senken.
vinacis_vivids
2021-04-19, 16:45:50
300-350W Wärmeverlustleistung ist so das thermische Limit bei effizienter Luftkühlung pro PCB auf der Erde.
Bei multi-GPU Chiplets mit 400-600W sind andere Lösungen gefragt. Da geht wohl nur noch Richtung Wasser als nächste Standard-Evolutionsstufe falls die Größe des PCB`s beibehalten werden soll.
Falls das PCB wächst, also Richtung 40-60cm Länge und 20-25cm Höhe, braucht man einen ganz anderen Gehäusestandard, neue PCIe - Anschlüsse. Neue Stromversorgung. Dann nimmt das Gewicht auch beträchtlich zu auf 2-3kg pro Karte.
Alles in Allem wird die Grafikkarte also solche immer komplexer und somit auch anfälliger für Defekte.
AMD`s mGPU Strategie ist sicherlich auch dadurch gekennzeichnet, dass gewisse Standards beibehalten werden. Max 30-33cm Kartenlänge. max. 14-16cm Kartenhöhe und max. 3 Slots, max. 3x8Pin Stromstecker.
5nm Fertigung ermöglicht sicherlich auch die 300-350W Grenze preisgünstig und effizient herzustellen. mGPU ist sicherlich wieder massive Treiberarbeit um die Kontrolllogik zu schalten. Arbeit gibs wieder für Jahre im Voraus.
Der_Korken
2021-04-19, 17:11:56
Wenn man unbedingt die Bauform von Grafikkarten ändern will, dann am besten so, dass die Karte nicht mehr senkrecht sondern parallel zum Mainboard verbaut wird. Das würde airflow-technisch extrem viel bringen, weil man dann Towerkühler verwenden kann, die von der Seite gekühlt werden und die Luft somit entweder nach hinten oder nach oben pusten. Im Moment fungieren die großen PCBs eher als Trennwand, wo unterhalb die Hitze entsteht und diffus verteilt wird.
amdfanuwe
2021-04-19, 17:14:45
Schon ulkig die ersten Kühllösungen. Von Passiv über kleinen Quirl bis hin zu heutigen Kühllösungen.
Mal sehen, wo das noch hinführt. Bei Gehäusen hat sich ja nicht so viel getan.
1000W Heizlüfter wollen auch dei wenigsten im Zimmer.
Nähern wir uns dem Ende? Ohne ordentliche Innovation sind vielleicht noch mal 100% Leistungssteigerung drin bei 400W, Chiplet und 2nm.
Naja, mit DLLS geht es ja schon in alternative Richtungen für gute Bilder bei weniger Leistung.
Das liegt wohl daran, dass der Verbrauch schon immer beschissen war.:freak:
Das ist ja schlichtweg falsch.
300-350W Wärmeverlustleistung ist so das thermische Limit bei effizienter Luftkühlung pro PCB auf der Erde.
[...]
Das ist auch schlichtweg falsch. Da geht noch einiges. Wie gesagt, das Gehäuse wird irgendwann zum Problem, aber auch dafür werden sich Lösungen ergeben.
dargo
2021-04-19, 17:18:28
Naja, mit DLLS geht es ja schon in alternative Richtungen für gute Bilder bei weniger Leistung.
Von DLSS/FSR haben die IHVs aber nichts wenn die Kunden ihr Upgrade in die Länge ziehen.
Nein 210W, die 7970 GHz hatte 250W. (https://www.pcgameshardware.de/Grafikkarten-Grafikkarte-97980/Tests/Test-der-Radeon-HD-7970-GHz-Edition-907095/2/)
Ich hatte mich schon gewundert. Tahiti mit 300W? WTF? :tongue:
amdfanuwe
2021-04-19, 17:19:19
Kunden wachsen nach
boxleitnerb
2021-04-19, 17:21:42
Das ist der Punkt:
Weg vom Chip ist die Wärme immer noch im Raum. Wer will das bei 400-500W schon im Bereich einer 4080/5080 etc?
Deshalb finde ich auch DLSS etc gut, weil es ein intelligenter Kompromiss ist. Kann, muss man aber nicht nutzen. Und solche Techniken werden auch besser.
dargo
2021-04-19, 17:28:32
Kunden wachsen nach
Das wird nicht reichen.
Thunder99
2021-04-19, 17:58:18
Man muss nicht die Symptome bekämpfen, sondern die Ursache! Leistungsaufnahme runter und es braucht keine extravagante PCBs, Kühlung, Gehäuse, etc...
So blöd können die GPU Hersteller nicht sein nur die Leistungsaufnahme zu steigern um Leistung zu bekommen :ugly:. Es wäre echt mal Zeit für die gleiche Leistungsaufnahme MEHR Leistung zu haben :wink:
So blöd waren die jetzt 20 Jahre :freak:. Als ne Geforce rauskam, konnte sich kein Mensch je vorstellen, dass ne Grafikkarte mal mit ner Boardpower von 350W per Standard(!), also Referenz, auf den Markt kommt. Wenn man mehr Leistung vor allem mit RT möchte haben die aber auch keine Wahl, dann wird halt mehr Strom verballert. Warum sollte das bitte aufhören?
boxleitnerb
Solche Lösungen, ob jetzt von NV, AMD, Microsoft oder den Spieleherstellern selber werden sicherlich in Zukunft Standard sein, vor allem auf den Konsolen.
Nightspider
2021-04-19, 18:17:49
Bei Konsolen und Smartphones steigt der Verbrauch auch seit Generationen an
Allerdings muss man dazusagen das die benötigt Leistung imo auch nicht mehr so schnell ansteigt wie früher.
99% der Gamer werden wahrscheinlich auch in 5 Jahren noch in max. 4K zocken. 5K und höher bringen keine so großen Vorteile mehr für den typischen Gamer.
Und auch Raytracing wird man in 1-2 Generationen nebenbei gut bewerkstelligen können.
Imo wird Raytracing ein Zusatz sein für bestimmte Berechnungen aber der Großteil der Grafik wird Rastergrafik bleiben.
Auch PS5 und Co haben keinen großen Sprung bei der Grafikleistung gemacht. Die wenigsten Gamer werden Navi31 brauchen.
Deswegen verstehe ich auch nicht das Drama hier um die Wattzahl.
Der typische 1440p Gamer wird locker mit einer 150-200W RDNA3 Karte klarkommen.
Und selbst 4K Gamer dürften mit einer 300W RDNA3 Karte oft genug glücklich werden.
Navi31 Topdog mit 160 CUs wird halt für die 4K/5K + Raytracing + AA + high fps Enthusiasten da sein.
vBulletin®, Copyright ©2000-2025, Jelsoft Enterprises Ltd.