News 3. Juni [Archiv] - 3DCenter Forum

Archiv verlassen und diese Seite im Standarddesign anzeigen : News 3. Juni

aths

2005-06-05, 13:34:12

"und zweitens wären 32 Pixel-Pipelines nicht wirklich in einen Chip mit ungefähr 300 Millionen Transistoren zu realisieren"

Wer sagt denn das? Gerade weil die Zahl von 300 Mio herumschwirrt, sind 8 Pixelquads denkbar.

reunion

2005-06-05, 14:02:45

aths

2005-06-05, 14:12:16

Naja, NV40 hat bei 4 Quads 222M, da könnte es bei 8 Quads mit 300M schon eng werden IMHO.Der NV40 ist kein Beispiel für geringstmöglichen Transistor-Einsatz. Er enthält ungenutzte Schaltkreise für Mobile-Versionen, einige andere nicht funktionierende Units, und einiges was sich ATI gespart haben könnte: Die Unit für NRM_PP-Beschleunigung, Denorm-Support für FP16 und mehr. Ich halte es für gut möglich dass NV einen 6-Quadpipe-Chip mit 250 Mio Transistoren bauen kann.

Ein kompletter Grafikchip mit 8 SM3-Pixelquads ist mit 300 Mio Transistoren auf jeden Fall denkbar.

mapel110

2005-06-05, 14:21:29

Der NV40 ist kein Beispiel für geringstmöglichen Transistor-Einsatz. Er enthält ungenutzte Schaltkreise für Mobile-Versionen, einige andere nicht funktionierende Units, und einiges was sich ATI gespart haben könnte: Die Unit für NRM_PP-Beschleunigung, Denorm-Support für FP16 und mehr. Ich halte es für gut möglich dass NV einen 6-Quadpipe-Chip mit 250 Mio Transistoren bauen kann.

8 Pixelquads bei 300 Mio Transistoren sind auf jeden Fall möglich.
Ja, wollte ich auch schon schreiben. Unmöglich ists nicht, wenn auch sehr unwahrscheinlich.
Und von 250 Mio Transistoren und 24 Pipes kann man wohl beim G70 ausgehen.

aths, hat dir dein neuer Avatar so schnell negative Resonanz gebracht, oder warum ist er schon wieder weg?! :biggrin:

Quasar

2005-06-05, 14:34:02

Der NV40 ist kein Beispiel für geringstmöglichen Transistor-Einsatz. Er enthält ungenutzte Schaltkreise für Mobile-Versionen, einige andere nicht funktionierende Units, und einiges was sich ATI gespart haben könnte: Die Unit für NRM_PP-Beschleunigung, Denorm-Support für FP16 und mehr. Ich halte es für gut möglich dass NV einen 6-Quadpipe-Chip mit 250 Mio Transistoren bauen kann.

Ein kompletter Grafikchip mit 8 SM3-Pixelquads ist mit 300 Mio Transistoren auf jeden Fall denkbar.
Und wenn du von den ~160M Transistoren des R420 ausgehst (der ja schon ziemlich "mager" designed war), darauf FP16-Blending/Filtering, SM3-Fähigkeit und noch ein paar zus. Vertexshader rechnest?
Meinst du dann immer noch, man kommt mit 300M Transistoren aus?

reunion

2005-06-05, 15:52:18

Der NV40 ist kein Beispiel für geringstmöglichen Transistor-Einsatz. Er enthält ungenutzte Schaltkreise für Mobile-Versionen, einige andere nicht funktionierende Units, und einiges was sich ATI gespart haben könnte: Die Unit für NRM_PP-Beschleunigung, Denorm-Support für FP16 und mehr.

Und die denkst, dass all diese "Kleinigkeiten" Millionen von Transistoren kosten?

Ich halte es für gut möglich dass NV einen 6-Quadpipe-Chip mit 250 Mio Transistoren bauen kann.

Wenn man sich die Die-Größe des G70 genauer ansieht, scheint es so als ob dieser bereits die 300M-Grenze knackt.

Ein kompletter Grafikchip mit 8 SM3-Pixelquads ist mit 300 Mio Transistoren auf jeden Fall denkbar.

Und wenn du von den ~160M Transistoren des R420 ausgehst (der ja schon ziemlich "mager" designed war), darauf FP16-Blending/Filtering, SM3-Fähigkeit und noch ein paar zus. Vertexshader rechnest?
Meinst du dann immer noch, man kommt mit 300M Transistoren aus?

aths

2005-06-05, 17:06:02

Und wenn du von den ~160M Transistoren des R420 ausgehst (der ja schon ziemlich "mager" designed war), darauf FP16-Blending/Filtering, SM3-Fähigkeit und noch ein paar zus. Vertexshader rechnest?
Meinst du dann immer noch, man kommt mit 300M Transistoren aus?Sicher. Ist nur eine Frage, was der Chip sonst noch so kann. Dass der R420 so "mager" designt wurde, halte ich für eine Vermutung die zutreffen kann, oder auch nicht. Angesichts der Tatsache dass NV40 nur ca. 60 Millionen Transistoren mehr hat, bei FP32-Support, SM3-Support, FP16-Texturfiltern und Alphablendern, dem Videoprozessor und mehr ...

aths

2005-06-05, 17:07:52

Wenn man sich die Die-Größe des G70 genauer ansieht, scheint es so als ob dieser bereits die 300M-Grenze knackt.Vorausgesetzt, es würden so viele Transistoren, könnte das auch am Featureset liegen.

Quasar

2005-06-05, 17:10:59

Sicher. Ist nur eine Frage, was der Chip sonst noch so kann.
Nach Möglichkeit ansonsten nicht weniger, als ein R420?

aths

2005-06-05, 17:13:32

Nach Möglichkeit ansonsten nicht weniger, als ein R420?Ich rede von einem SM3-Chip, ja. Da sind es möglich, dass R5xx 16 sehr starke, 24 nicht so starke oder 32 schlanke, dafür effektive (leicht auszulastende) Pixelpipes hat und ATI die Chipleistung vor allem über die rohe Pixelpipe-Zahl holt.

reunion

2005-06-05, 17:19:48

Sicher. Ist nur eine Frage, was der Chip sonst noch so kann. Dass der R420 so "mager" designt wurde, halte ich für eine Vermutung die zutreffen kann, oder auch nicht. Angesichts der Tatsache dass NV40 nur ca. 60 Millionen Transistoren mehr hat, bei FP32-Support, SM3-Support, FP16-Texturfiltern und Alphablendern, dem Videoprozessor und mehr ...

Diese "Vermutung" wurde von dir selbst aufgestellt IMHO, immerhin kritisiertest du nicht nur einmal die mangelnde Präzision bei verschiedenen Filtern, sowie sonstigen Einsparungen.

Wenn man jetzt von R420 ausgeht und diesem vier zusätzliche Quads verpasst, kann man mit mindestens 260M Transistoren rechnen. Dazu noch FP32, SM3.0, "echtes" HDR, ect. und das alles mit 300M Transistoren? Unwarscheindlich.

aths

2005-06-05, 19:50:24

Diese "Vermutung" wurde von dir selbst aufgestellt IMHO, immerhin kritisiertest du nicht nur einmal die mangelnde Präzision bei verschiedenen Filtern, sowie sonstigen Einsparungen.

Wenn man jetzt von R420 ausgeht und diesem vier zusätzliche Quads verpasst, kann man mit mindestens 260M Transistoren rechnen. Dazu noch FP32, SM3.0, "echtes" HDR, ect. und das alles mit 300M Transistoren? Unwarscheindlich.Vom R420 ausgehend alleine 100 Millionen für schlappe 4 Quadpipes? Das halte ich für unwahrscheinlich. Mit 260 Millionen Transistoren kann man imo schon einen SM3-Chip á la NV40 mit 6 Quadpipes bauen.

Rechnen wir mal vom NV40 aus, der hat immerhin schon SM3 (und damit auch FP32.) Der NV43 hat soweit ich weiß ca. 146 Millionen Transistoren, also 76 mehr als NV40. Das sind im wesentlichen 2 Quadpipes und 3 Vertexshader. Schätzen wir zwei Quadpipes auf 60 Millionen Transistoren, 4 also auf 120. Nach dieser Milchmädchenrechnung ergäbe ein NV40 mit 8 Quadpipes 342 Millionen Transistoren. Wäre zu überlegen, was ATI alles weggelassen haben könnte:

- FP16-Texturfilter und/oder -Alphablender
- Denorm-Support für FP16
- NRM_PP im Pixelshader
- Die zweite Shader-Unit im Pixelshader á la NV40, Option auf 2:2 Dual Issue und dafür den traditionellen 3+1-Aufbau behalten.
- Die Beschleunigung von bestimmten Special Functions, sofern es die Spec nicht erfordert (Einsparung jeweils einer Lookup-Table)
- Den Videochip
- MIMD für die Vertexshader
- Parametrisierbare Texturfilter (alles auf minimal notwendige Qualität)
- Tonemapping beim RAMDAC-Readout
- Und einiges mehr (wenn man sich das so ansieht fragt man sich, wozu ATI die 160 Millionen Transistoren gebraucht hat.)

Kann man da auf eine Zahl um 300 Millionen kommen? Das halte ich für gut möglich.

reunion

2005-06-05, 23:19:33

Vom R420 ausgehend alleine 100 Millionen für schlappe 4 Quadpipes? Das halte ich für unwahrscheinlich. Mit 260 Millionen Transistoren kann man imo schon einen SM3-Chip á la NV40 mit 6 Quadpipes bauen.

R300 kommt auf 107M Transistoren, R420 auf 160M.

Unterschied:
-2Quads
-2Vertexshader
-SM2.B

Man kann also für ein R420-Quad durchaus mit 20-25M Transistoren rechnen IMO.

Rechnen wir mal vom NV40 aus, der hat immerhin schon SM3 (und damit auch FP32.) Der NV43 hat soweit ich weiß ca. 146 Millionen Transistoren, also 76 mehr als NV40. Das sind im wesentlichen 2 Quadpipes und 3 Vertexshader. Schätzen wir zwei Quadpipes auf 60 Millionen Transistoren, 4 also auf 120. Nach dieser Milchmädchenrechnung ergäbe ein NV40 mit 8 Quadpipes 342 Millionen Transistoren. Wäre zu überlegen, was ATI alles weggelassen haben könnte:

- FP16-Texturfilter und/oder -Alphablender
- Denorm-Support für FP16
- NRM_PP im Pixelshader
- Die zweite Shader-Unit im Pixelshader á la NV40, Option auf 2:2 Dual Issue und dafür den traditionellen 3+1-Aufbau behalten.
- Die Beschleunigung von bestimmten Special Functions, sofern es die Spec nicht erfordert (Einsparung jeweils einer Lookup-Table)
- Den Videochip
- MIMD für die Vertexshader
- Parametrisierbare Texturfilter (alles auf minimal notwendige Qualität)
- Tonemapping beim RAMDAC-Readout
- Und einiges mehr (wenn man sich das so ansieht fragt man sich, wozu ATI die 160 Millionen Transistoren gebraucht hat.)

Kann man da auf eine Zahl um 300 Millionen kommen? Das halte ich für gut möglich.

Natürlich kann man auf 300M kommen, wenn man den Chip bis aufs letzte abspeckt. Dies sollte allerdings wohl kaum das Ziel sein. Auch R520 wird nach aktuellen Informationen eine art Videoprozessor besitzte, und dies wird sicherlich nicht die einzige Neuerung sein IMHO.

Quasar

2005-06-05, 23:44:33

Gast

2005-06-05, 23:51:33

Auch R520 wird nach aktuellen Informationen eine art Videoprozessor besitzte, und dies wird sicherlich nicht die einzige Neuerung sein IMHO.
Aber bisher gehen die Vermutungen doch dahin, dass dieser nicht auf dem GPU Core sitzt, oder nicht?

Konsolenfreund

aths

2005-06-06, 18:15:34

Natürlich kann man auf 300M kommen, wenn man den Chip bis aufs letzte abspeckt. Dies sollte allerdings wohl kaum das Ziel sein. Auch R520 wird nach aktuellen Informationen eine art Videoprozessor besitzte, und dies wird sicherlich nicht die einzige Neuerung sein IMHO.Man muss den Chip nicht "bis aufs letzte abspecken". Mit 300 Mio Transistoren kann man entweder 16 "sehr dicke", 24 "ziemlich dicke" oder 32 "schlanke" SM3-Pixelpipelines realisieren. Wir wissen nicht (oder besser: ich weiß nicht) wofür sich ATI entschieden hat.

aths

2005-06-06, 18:19:08

Hui, das wird ein Spaß, wenn ATi ihren Pixelprozessor im R520 nach nV-Art gestaltet...
Es ist ja nicht so, daß nVidia nicht auch an Transistoren spart, wo sie können und wo sie meinen, daß es sinnvoll ist. Und in einigen Bereichen merkt man dem nV40 es auch an, daß er nicht mit unlimitiertem Transistorbudget entwickelt wurde.
Ich denke, ATis Ingenieure werden versucht haben, die Stärken ihres Designs in den R520 hinüberzuretten, so daß ein Vergleich der Transistoren pro Quad schwer möglich sein wird. Ich bin sogar geneigt, einem FP32-ATi-Quad eher mehr Transistoren zuzuschreiben, als dem nV-Pendant (Full Performance - Full Precision, durchgehend FP32 braucht größere Temp-Register usw).

Wie einfallsreich beim Sparen sie dann endgültig gewesen sein werden, wird man ja demnächst sehen. Mein Tipp: >600MHz, >240M und vier Quads.Das ist ja eine völlig zulässige (also im Bereich des gut möglichen liegende) Vermutung. 8 Quads sind aber nicht ausgeschlossen, sofern sich die Zahl von ca. 300 Mio. Transistoren als wahr erweisen würde. Ich denke auch nicht, dass ATIs nächster Chip mehr als 4 Quadpipes haben wird und nehme an, dass sie dafür pro Pipe ordentlich zugelegt haben.

Das Hauptargument gegen 8 Pixelquads bringt hier keiner vor: Mangelnde Bandbreite. Aber das fand ich schon 4 Pixelquads verwunderlich. Man braucht eh immer mehr Rechenleistung, und jeder Quadpipe seine eigene Quad-TMU zu geben ist wohl aus Latenz-Sicht besser, als mit Shared TMUs zu experimentieren. Denkbar ist bezüglich der Pipeline-Konfiguration alles mögliche. Denkbar ist auch, dass ATI über die Pipe-Zahl protzen will und pro Pipe schön abspeckt. SFUs könnten z. B. das doppelte an Takten benötigen, während jede einzelne Pipe nur im bekannten 3:1-Verfahren MAD kann (während der SFU ist der skalare Kanal dann natürlich blockiert.)

Das Argument gegen dicke Pipes ist natürlich die Tiefe. Je tiefer die Pipes, desto mehr Temps braucht man auch, etc.

Leonidas

2005-06-08, 17:30:35

Ein kompletter Grafikchip mit 8 SM3-Pixelquads ist mit 300 Mio Transistoren auf jeden Fall denkbar.

Mit einer ganz geringen Wahrscheinlichkeit möglich. Aber "denkbar" halte ich für zu hoch gegriffen. Selbst wenn ATI schonender an die Sache herangeht, unterhalb von 300M schaffen sie noch nicht einmal einen Chip mit 32P auf PS2.0 (R420 x2 =?). Und dann kommt da noch PS3.0 hinzu ...

mapel110

2005-06-08, 19:20:30

(R420 x2 =?).
Den Fehler darf man eben nicht machen. Nicht einfach ALLES verdoppeln. TV-Out-Sachen, Vertexshader, Mpeg-beschleunigung, 2D-Teil etc pp.

Leonidas

2005-06-09, 00:14:59

Den Fehler darf man eben nicht machen. Nicht einfach ALLES verdoppeln. TV-Out-Sachen, Vertexshader, Mpeg-beschleunigung, 2D-Teil etc pp.

Das ist mir klar. Aber als Überschlagsrechnung reicht es wohl aus - immer eingerechnet der zusätzlichen Transistoren durch PS3.0.

Allerdings hat aths in der Tat das bessere Argument gegen 32P gebracht: Die Bandbreite.

aths

2005-06-09, 01:50:09

Das ist mir klar. Aber als Überschlagsrechnung reicht es wohl aus - immer eingerechnet der zusätzlichen Transistoren durch PS3.0.Das wird, wie schon gesagt, überschätzt. Man kann nach meiner Überzeugung einen SM3-Chip mit 32 Pixelpipes bauen, die auch nach meiner Zählweise noch als 32 Pixelpipes gelten würden. Das Bandbreiten-Argument ist da ebenfalls nicht zwingend schlagend. Es gilt nur, wenn wir heutige Maßstäbe ansetzen. Vielleicht wurde aber bei ATI vorgedacht und der R520 auf arithmetische Power optimiert.

Da müsste man als Spekulant abwägen, die die arithmetische Power verteilt wird. Beim R520 denkbare Extremwerte: In 16 dicken oder 32 schlanken Pipes.

Bekommt nun jede der 8 Quads ihre eigene Quad-TMU, ist das teilweise Transistorverschwendung, weil vermutlich nicht alle 8 TMUs mit Daten gefüttert werden könnten. Aber rechnen wir doch mal nach: Annahme, pro bilinearem Sample müsste im Schnitt ein Texel nachgeladen werden. Ein Texel kostet bei RGBA 8888-Texturen 32 Bit. Das wären also bei 32 Pixelpipes 32x32 = 1024 Bit pro Takt. Geliefert werden kann nur ungefähr die Hälfte.

Aaaber mit DXT1 bekommt man Texel auf 4 Bit, mit DXT3 und DXT5 auf 8 Bit. Dann reicht die Texturbandbreite.

Nach der oben präsentierten Milchmädchenrechnung könnte man einen NV40 mit 8 Pixelquads auf ca. 340 M schätzen. Lässt man nun das ausgefuchste Dual Issue weg, das zweite MUL, die beschleunigten SFUs, extra FP16-Beschleunigung für einige Operationen etc pp., sehe ich die Möglichkeit auf ca. 300 M zu kommen. Die Leistung kommt dann eben über die pure Zahl an Pipelines (und durch eine hohe MHz-Zahl.)

Ich spekuliere zwar nicht auf diese Möglichkeit, aber sehe sehe sie als denkbar an.