Was fehlt GF104 zu schnellen DP-Berechnungen? [Archiv]

AnarchX

2010-10-13, 09:48:50

Bei GF104 und seinen Abwandlungen beträgt der DP-Durchsatz bekanntlich nur 1/12 des SP-Durchsatzes. Da dies auch auf den Quadro-Karten mit entsprechenden GPUs so ist, kann man eine künstliche Beschränkung wie bei GF100, welcher in der GeForce Version 1/8 SP leistet, während er über 1/2 SP als Quadro und Tesla fähig ist, ausschließen.

Diese 1/12 auf GF104 und 1/8 auf GeForce-GF100 werden ja offenbar durch die Emulation auf einer der drei bzw. zwei 16SPs-ALUs pro SM/Cluster erreicht, wo wie bei AMD seit RV670 4 ALUs an einer DP-Operation rechnen.

GF100: 512 SP-MADDs, 256 DP-MADDs, 64 SW-DP-MADDs
GF104: 384 SP-MADDs, 32 SW-DP-MADDs

Wenn ich die GF100-Architektur richtig verstehe und auch das was Rys hier schreibt: http://techreport.com/articles.x/17815/3 , dann wird ja das DP@1/2SP bei GF100 durch eine dazu fähige ALU erreicht, die man bei GF104 entfernt und satt dessen 3 Stück von den nicht DP-fähigen ALUs verbaut.

Nun zu meiner Frage:
Also wenn nun GF104 eine solche DP-fähige ALU besitzen würde, dann könnte er doch DP@1/3SP rechnen oder? Und wäre es auch denkbar, dass man gar zwei DP-ALUs verbaut, sodass man DP@2/3SP erreicht?

Spasstiger

2010-10-23, 16:27:17

Meine Vermutung: Pro SM ist ein DP-fähiges 16er-SIMD verbaut, das für DP-Operationen aber vier Zyklen statt einem Zyklus benötigt.

fondness

2010-10-23, 19:11:40

Bei GF104 und seinen Abwandlungen beträgt der DP-Durchsatz bekanntlich nur 1/12 des SP-Durchsatzes. Da dies auch auf den Quadro-Karten mit entsprechenden GPUs so ist, kann man eine künstliche Beschränkung wie bei GF100, welcher in der GeForce Version 1/8 SP leistet, während er über 1/2 SP als Quadro und Tesla fähig ist, ausschließen.

Diese 1/12 auf GF104 und 1/8 auf GeForce-GF100 werden ja offenbar durch die Emulation auf einer der drei bzw. zwei 16SPs-ALUs pro SM/Cluster erreicht, wo wie bei AMD seit RV670 4 ALUs an einer DP-Operation rechnen.

GF100: 512 SP-MADDs, 256 DP-MADDs, 64 SW-DP-MADDs
GF104: 384 SP-MADDs, 32 SW-DP-MADDs

Wenn ich die GF100-Architektur richtig verstehe und auch das was Rys hier schreibt: http://techreport.com/articles.x/17815/3 , dann wird ja das DP@1/2SP bei GF100 durch eine dazu fähige ALU erreicht, die man bei GF104 entfernt und satt dessen 3 Stück von den nicht DP-fähigen ALUs verbaut.

Nun zu meiner Frage:
Also wenn nun GF104 eine solche DP-fähige ALU besitzen würde, dann könnte er doch DP@1/3SP rechnen oder? Und wäre es auch denkbar, dass man gar zwei DP-ALUs verbaut, sodass man DP@2/3SP erreicht?

Nur eine der drei Vec16 ALUs eines GF104-Cluster ist DP fähig, und dieser benötigt für eine DP-Berechnung 4 Takte, deshalb 1/12 der SP-Leistung.

Okay das hat Spasstiger ja auch schon geschrieben.