PDA

Archiv verlassen und diese Seite im Standarddesign anzeigen : Nvidia Maximus - wie gehts genau?


HPVD
2011-11-14, 23:23:45
Hi

Heute wurde die neue Maximus-Technologie von Nvidia vorgestellt (Quadro+Tesla)

http://www.anandtech.com/show/5094/nvidias-maximus-technology-quadro-tesla-launching-today

-soweit so gut.

Hab dazu mal ne Frage:

Wird die Quadro automatisch auch für Cuda-Computing genutzt wenn sie durch die Grafik-Aufgabe nur schwach belastet ist?

Oder verliert man die compute power der Quadro komplett wenn eine zusätzliche Tesla eingebaut wird?

Falls die Quadro auch gemeinsam mit der Tesla rechnen kann:

Was passiert wenn die Grafiklast ansteigt?
wird es einen fließenden Übergang geben?

zum Beispiel:
Tesla: Compute-Last 100% , Grafik-Last 0%
Quadro: Compute-Last 30%, Grafik-Last 70%

oder geht das nur "Digital":
sobald etwas 3D-Grafik genutzt wird schaltet die Quadro komplett in den Grafik-Modus und nur noch die Tesla rechnet?

Gruß HPVD

Coda
2011-11-14, 23:25:31
Zusammen wird da automatisch überhaupt nichts benutzt.

Die Software muss dafür ausgelegt sein mehrere CUDA-Devices zu unterstützen.

HPVD
2011-11-14, 23:29:46
Zusammen wird da automatisch überhaupt nichts benutzt.

Die Software muss dafür ausgelegt sein mehrere CUDA-Devices zu unterstützen.
schon klar...und was passiert mit der Quadro wenn die Software mit 2 cuda-devices umgehen kann aber zugleich auch etwas 3D-Grafik genutzt wird?
nutzt die software 1 oder 2 cuda devices?
oder 1,5?

LovesuckZ
2011-11-14, 23:31:23
Wenn beide GPUs arbeiten, dann genau für das eine Aufgabengebiet. Jedoch ist es jedenfalls möglich die Quadro-Karte auch zum "Processing" mitzuverwenden, wobei dann beide GPUs einer Aufgabe gewidmet sind.

Soweit ich das von Anandtech herausgelesen habe, ist gerade die strikte Trennung der Sinn der Sache.

HPVD
2011-11-14, 23:34:31
....

Soweit ich das von Anandtech herausgelesen habe, ist gerade die strikte Trennung der Sinn der Sache.

aber genau das könnte? man ja auch "on demand" als dynamische Lastverteilung machen - mit Vorrang/priorität für die Grafik (damit man nichts von merkt)

Mit einer Karte läuft sonst ja beides schlecht...

Coda
2011-11-14, 23:39:33
Ich vermute der Treiber sperrt die Quadro schlicht für CUDA.

LovesuckZ
2011-11-14, 23:40:05
aber genau das könnte? man ja auch "on demand" als dynamische Lastverteilung machen - mit Vorrang/priorität für die Grafik (damit man nichts von merkt)

Mit einer Karte läuft sonst ja beides schlecht...

Wird wohl irgendwann in der Zukunft kommen. Aber zur Zeit gibt es keine dynamische Lastverteilung.

HPVD
2011-11-14, 23:42:54
Ich vermute der Treiber sperrt die Quadro schlicht für CUDA.
das wär ja so mittel innovativ.
Ist ja genau 1 Mausklick Arbeitsersparnis, da man ja eigentlich bei allen mehrkartenfähigen Cuda nutzenden Programmen ja auch die einzelnen Karten auswählen kann auf denen gerechnet werden soll...

Coda
2011-11-14, 23:50:12
Wird wohl irgendwann in der Zukunft kommen. Aber zur Zeit gibt es keine dynamische Lastverteilung.
Nö, wird's nicht.

HPVD
2011-11-15, 09:32:32
Nö, wird's nicht.

=> was spricht (technisch) dagegen?
vielleicht nicht mehr mit Fermi aber...
Sollte das nicht z.B. durch das angekündigte "preemptive Multitasking" möglich werden?

Wobei - dann sollte dazu doch eigentlich (theoretisch) auch 1 Karte reichen ;-)

HPVD
2011-11-15, 09:52:49
und gleich noch eine Frage:
wird die Tesla richtig abgeschaltet wenn sie nicht genutzt wird?

Coda
2011-11-15, 12:42:48
=> was spricht (technisch) dagegen?
das kommt jetzt darauf an was man will. Das man die Programme zwischen den Karten hin- und herverschiebt wie dass das OS bei CPUs derzeit macht - ja, das wird sicher kommen.

Aber das automatisch ein CUDA-Programm über alle verfügbaren Rechenkerne aller Karten verteilt wird - sehr viel schwieriger. Aber okay, vielleicht war ich da etwas zu voreilig, wenn ich nochmal darüber nachdenke. Man bräuchte aber zunächst einen gemeinsamen Speicheraum.

Das ist ungefähr das gleiche Gedankenspiel das man für transparentes SLI anstrengen muss. Die Chips müssten mit ungefähr der gleichen Geschwindigkeit miteinander verbunden sein, wie an den Speicher.

HPVD
2011-11-15, 14:02:36
...
Das ist ungefähr das gleiche Gedankenspiel das man für transparentes SLI anstrengen muss. Die Chips müssten mit ungefähr der gleichen Geschwindigkeit miteinander verbunden sein, wie an den Speicher.

vielleicht auch nicht zwingend.
Wenn der Speicher groß genug ist (bzw. die Berechnung lange genug dauert), so das er nicht leerläuft während die Daten Übertragen werden, müsste es ja auch gehen - oder liegt da jetzt nen Denkfehler vor?
Es gibt ja auch Anwendungen in denen bereits mit 2 GPU an einem Problem gerechnet wird und eine signifikante Beschleunigung durch den 2. Chip entsteht..

Coda
2011-11-15, 14:35:43
Hä? Die verschiedenen SMs können auf den gesamten Speicher zugreifen während ein Kernel läuft und dabei auch Daten austauschen.

Es gibt ja auch Anwendungen in denen bereits mit 2 GPU an einem Problem gerechnet wird und eine signifikante Beschleunigung durch den 2. Chip entsteht..
Natürlich. Solange die Berechnungen unabhängig sind, geht das auch. Allerdings kann das der Compiler ja nicht wissen.