PDA

Archiv verlassen und diese Seite im Standarddesign anzeigen : nVidia - Ampere Gigarays / RTX-Ops - oder auch: theoretische RT-Performance Turing vs Ampere


Sweepi
2021-03-05, 11:18:45
Erinnert sich hier noch jemand an RTX-OPS?
nVidia gibt für die Ampere / RTX3000 keine Werte mehr an. Hat ja lange gehalten, diese Metrik :D

Kein Problem, die Formel ist bekannt*, schnell die Werte einsetzen, .... aehm, Rays/s? Werte für Turing ja, Werte fuer Ampere nein?
Dafür gibt es Werte fuer "Raytracing TFlops", das ist aber ein anderer Wert als "Raytracing Tera-OPS". Jetzt reicht's, ich mach eine Tabelle!

Alle nicht von nVidia stammenden Daten sind markiert.

| Peak FP32 | Rays/s in 10^9 | Raytracing "Tera-Ops" | Raytracing TFLops | RTX-OPS/s | nVidia-Quelle
2070 Ref | 7.5 | 6 | 60* | | 42 | Turing Whitepaper p 63
2070 FE | 7.9 | 6 | 60* | | 45 | Turing Whitepaper p 63
2070S | 9.1 | 7 | 70* | | 52 | Ampere Whitepaper p 47, Rays/RTX-OPS: Product page
3070 | 20.3 | | | 40 | | Ampere Whitepaper p 47, Raytracing TFlops: Ampere Product Launch Video@31:16
2080 Ref | 10.0 | 8 | 80* | 34(?) | 57 | Turing Whitepaper p 59, RT TFLops: Ampere Whitepaper p 7
2080 FE | 10.6 | 8 | 80* | 34(?) | 60 | Turing Whitepaper p 59, RT TFLops: Ampere Whitepaper p 7
2080S | 11.2** | 8 | 80* | 35*** | 63 | RT TFLops: Ampere Whitepaper p 7, Rays/RTX-OPS: Product page
3080 | 29.8** | | | 58 | | RT TFLops: Ampere Whitepaper p 7
2080 Ti Ref | 13.4 | 10 | 100 | | 76 | Turing Whitepaper p 15
2080 Ti FE | 14.2 | 10 | 100 | 44*** | 78 | Turing Whitepaper p 15
Titan RTX | 16.3 | 11 | 110* | 51*** | 84** | Ampere Whitepaper p 44, Rays: Product PDF
3090 | 35.6 | | | 69 | | Ampere Whitepaper p 44, Raytracing TFlops: Ampere Product Launch Video@35:21



mit einem (?) versehene Werte spezifizieren nicht eindeutig, ob es sich um die Referenz/FE/SUPER Version handelt. Gegenbeispiel: Das Turing Whitepaper benennt separat für die 2080 Ti Ref und FE jeweils 10*10^9 Rays/s
*: Werte sind berechnet / gefolgert, z. B.
2080 Ti nVidia Angabe: "with about 10 Giga Rays of total throughput or 100 tera-ops of compute for ray tracing."
-> 10000 Raytracing-OPS == 1 Ray/s (zumindest bei Turing)
**: keine nVidia Quelle gefunden, von Wikipedia übernommen.
***: keine nVidia Quelle gefunden, von PCGH übernommen.


Turing Whitepaper ('https://www.nvidia.com/content/dam/en-zz/Solutions/design-visualization/technologies/turing-architecture/NVIDIA-Turing-Architecture-Whitepaper.pdf')
Ampere Whiteaper ('https://www.nvidia.com/content/PDF/nvidia-ampere-ga-102-gpu-architecture-whitepaper-v2.pdf')
RTX Titan Product PDF ('https://www.nvidia.com/content/dam/en-zz/Solutions/titan/documents/titan-rtx-for-creators-us-nvidia-1011126-r6-web.pdf')
2070S Product page ('https://www.nvidia.com/en-us/geforce/graphics-cards/rtx-2070-super/')
2080S Product page ('https://www.nvidia.com/en-us/geforce/graphics-cards/rtx-2080-super/')
Ampere Product Launch Video ('https://www.youtube.com/watch?v=QKx-eMAVK70')
Wikipedia - RTX 2000 ('https://en.wikipedia.org/wiki/List_of_Nvidia_graphics_processing_units#GeForce_20_series')
Wikipedia - RTX 3000 ('https://en.wikipedia.org/wiki/List_of_Nvidia_graphics_processing_units#GeForce_30_series')
PCGH ('https://www.pcgameshardware.de/Geforce-RTX-3080-Grafikkarte-276730/Tests/Test-Review-Founders-Edition-1357408/')


Im Turing Whitepaper p. 72 findet sich folgender Satz:

In Pascal, ray tracing is emulated in software on CUDA cores, and takes about 10 TFLOPs per Giga Ray, while in Turing this work is performed on the dedicated RT cores, with about 10 Giga Rays of total throughput or 100 tera-ops of compute for ray tracing."

im Ampere Whitepaper p. 7 hingegen folgender:

A full GA102 GPU incorporates 10752 CUDA Cores, 84 second-generation RT Cores, and 336 third-generation Tensor Cores, and is the most powerful consumer GPU NVIDIA has ever built for graphics processing. A GA102 SM doubles the number of FP32 shader operations that can be executed per clock compared to a Turing SM, resulting in 30 TFLOPS for shader processing in GeForce RTX 3080 (11 TFLOPS in the equivalent Turing GPU). Similarly, RT Cores offer double the throughput for ray/triangle intersection testing, resulting in 58 RT TFLOPS (compared to 34 in Turing). Finally, GA102’s new Tensor Cores can process sparse neural networks at twice the rate of Turing Tensor Cores which do not support sparsity, yielding 238 sparse Tensor TFLOPS in RTX 3080 compared to 89 non-sparse Tensor TFLOPS in RTX 2080.



@Alle:
Könnt ihr die Lücken füllen?

@Alle Berufs-Hardware-NerdsTester:
Dürft ihr die Reviewer-Guides veröffentlichen?

* müsste allerdings angepasst werden, z.B. sind INT-OPS bei Ampere nicht mehr free, sondern gehen auf Kosten der fp32-OPS.

Leonidas
2021-03-08, 06:45:05
Interessante Fragestellung. Ich hoffe auf Hilfe für den TS.