PDA

Archiv verlassen und diese Seite im Standarddesign anzeigen : Ist CUDA wirklich so langsam?


Gast
2009-10-21, 21:09:03
Ich habe mir so aus Interesse von http://www.crark.net nen Entschlüssler zu reinen Testzwecken geholt, weil er ja eben auch CUDA von Nvidia unterstützt.

Im Archiv ist ja eine Datei verschlüsselt, die man eben zu Testzwecken mit dem Proggie entschlüsseln kann.

Was ich auch getan habe (siehe Pics):

mit CUDA (02:24.91):
http://www.abload.de/thumb/cuda-crarkl6d7.jpg (http://www.abload.de/image.php?img=cuda-crarkl6d7.jpg)

nur mit Quad-Core Prozessor (04:13.13):
http://www.abload.de/thumb/quad-crarka6gn.jpg (http://www.abload.de/image.php?img=quad-crarka6gn.jpg)

Jetzt ist es aber so, dass mein Prozessor nicht einmal die doppelte Zeit für das Passwort zum entschlüsseln benötigt, was mich doch etwas verwundert???

Ich dachte immer CUDA würde im Vergleich zu einem normalen Prozessor millionen von Instruktionen schneller sein. Immerhin zeigt mir das Tool 24 CUDA Prozessoren zu 4 Quad an.

Ich hätte mir mehr erwartet. Ist das also alles gar nicht so revulutionär wie ich immer dachte, oder stimmt da etwas mit meiner Grafikkarte nicht??? Das Tool schlägt mir nämlich 192 Shader vor, aber da stürtzt mein PC ab. Nur wenn ich es auf 96 reduziere, dann geht es.

Hat das Tool vielleicht noch jemand anderes getestet???

san.salvador
2009-10-21, 21:10:57
270 p/s vs. 1101 p/s.

Schaut doch gut aus.

Pinoccio
2009-10-21, 21:18:10
RAR nutzt AES, der ist auf Intel-CPUs verdammt fix sehr stark optimiert, möglicherweise bekommt CUDA das ganze Geschiebe nicht so.
Mir ist so, als wenn das gerade einer der Punkte ist, der - abseit der Spieleperformance - in der neuen Generation der GPUs verbessert werden sollte.

Bei MD5 (http://www.forum-3dcenter.org/vbulletin/showthread.php?t=449128) dagegen ziehen die GPUs enorm davon.

mfg

Gast
2009-10-21, 21:30:53
Hallo,

erst die nächsten Intels sind AES optimiert. Die aktuellen VIA CPUs sind aber schneller, da sie schon AES in Hardware haben.

Das Problem der Grakas ist, sie sind nur schnell aber "dumm". Daher muss die CPU einen großen Teil der Verwaltung machen und kann nur Teile der Berechnungen auslagern.

Ein AES-128 nutzt 10 Runden, wobei die (logischerwiese) voneineander abhängen. Bei MD5 werden nur 4 Runden genutzt, daher fällt der nötige Verwaltungsaufwand für die CPU nicht so hoch aus.

mfg

Coda
2009-10-22, 01:09:28
Was für eine Karte ist es denn überhaupt? 9600GT?

Das Problem der Grakas ist, sie sind nur schnell aber "dumm". Daher muss die CPU einen großen Teil der Verwaltung machen und kann nur Teile der Berechnungen auslagern.
10 Runden AES sollten locker in einen CUDA-Kernel passen. Die Anzahl deren kann kaum das Problem sein.

RoNsOn Xs
2009-10-22, 01:34:31
Was für eine Karte ist es denn überhaupt? 9600GT?

da steht GTX 260


edit:
@gast: bei dir scheint alles in ordnung zu sein.
mit 96 units komme ich auf 3:22
mit vollen 112 auf 2:53

cpu:
4:38

Gast
2009-10-22, 02:11:25
@all

Danke für die Antworten.

Haben mir teilweise neue Erkenntnisse gebracht,
wobei ich nicht so der Experte bin, um sämtliche Ausführungen
so richtig zu verstehen.


@RoNsOn Xs

Danke fürs Testen.
Jetzt bin ich doch wieder beruhigter.
Dachte schon meine Karte hat defekte Shader oder so.
Da die Karte leicht übertaktet ist, hatte ich schon Bedenken es könnte etwas passiert sein.
Aber so scheint wohl alles im normalen Bereich zu sein.

Vielleicht kommt ja mit der nächsten Chip-Generation eine Neuerung die CUDA
noch etwas mehr Power verleiht...

...denn ich hätte eben nie gedacht, dass der Core-Quad hier so viel reißt.

Dann müsste ja ein I7 noch näher an CUDA rankommen, was alles noch mehr relativiert
und "richtige" CPU's wohl noch lange an "erster" Stelle für die meisten PC-Anwendungen sein lässt.

RoNsOn Xs
2009-10-22, 02:38:27
ach ich denke das hängt doch stark vom prog selbst ab. hier kann die gpu halt nicht so viel wett machen.
btw core0 war die meiste zeit bei 80%, core1 bei 20%
daher scheint der test eh nicht optimiert zu sein.

Spasstiger
2009-10-22, 02:57:57
Mit der GTX 260 wurden 160.000 Passwörter in 145 Sekunden getestet, mit dem Quadcore-Prozessor nur 67.000 Passwörter in 253 Sekunden. Ich hoffe, das wurde so zur Kenntnis genommen. Die Grafikkarte ist hier summa summarum mehr als viermal so schnell wie die CPU.

Tzunamik
2009-10-22, 09:57:38
Jap, seh ich genauso...

Ich teste das ding heute abend mal mit dem i7 gegen meine GTX280 :)

Gast
2009-10-25, 20:59:35
@gast: bei dir scheint alles in ordnung zu sein.
mit 96 units komme ich auf 3:22
mit vollen 112 auf 2:53Die Zeiten bis zum Erfolg untereinander zu vergleichen ist vollkommen sinnbefreit. Es geht hier mehr oder weniger um Bruteforce und da hängt es vom Glück/Zufall/whatever ab, wann einer der ausprobierten Keys passt. Wenn man Pech hat, muss man den kompletten Keyspace durchackern, theoretisch wäre auch die Situation möglich, dass sofort der erste Versuch klappt. Im Durchschnitt muss jedenfalls immer die Hälfte des in Frage kommenden Keyspace durchsucht werden. Entscheidend ist hier die Anzahl der Keys, die pro Zeiteinheit getestet werden können, wie Spasstiger und san.salvador auch schon schrieben.

RoNsOn Xs
2009-10-25, 21:11:01
Die Zeiten bis zum Erfolg untereinander zu vergleichen ist vollkommen sinnbefreit. Es geht hier mehr oder weniger um Bruteforce und da hängt es vom Glück/Zufall/whatever ab, wann einer der ausprobierten Keys passt. Wenn man Pech hat, muss man den kompletten Keyspace durchackern, theoretisch wäre auch die Situation möglich, dass sofort der erste Versuch klappt. Im Durchschnitt muss jedenfalls immer die Hälfte des in Frage kommenden Keyspace durchsucht werden. Entscheidend ist hier die Anzahl der Keys, die pro Zeiteinheit getestet werden können, wie Spasstiger und san.salvador auch schon schrieben.
habs 3x getestet und 3x die selbe zeit gebraucht. allerdings konnte der pass via gpu nicht gefunden werden.

Gast
2009-10-25, 22:15:51
10 Runden AES sollten locker in einen CUDA-Kernel passen. Die Anzahl deren kann kaum das Problem sein.

Bei allem Respekt, dann haben Sie entweder die Funktionsweise von AES oder der Streamprozessoren nicht verstanden.

Der Code für die Rundenberechnung wird in der Graka ausgeführt, das schifting bzw. die Schritte zwischen den Runden müssen von der CPU ausgeführt werden, da diese zu komplex sind, als das man sie auf der GPU sinnvoll ausführen könnte. Somit gibt es bei AES mehr Arbeit für die CPU als bei MD5.

mfg

Coda
2009-10-26, 01:21:42
Bist du dir da sicher? Bitshifts können D3D10-GPUs eigentlich. Soweit ich weiß ist der Key-Schedule von AES eben nicht so sonderlich komplex.

Pinoccio
2009-10-26, 12:33:51
Bist du dir da sicher? Bitshifts können D3D10-GPUs eigentlich. Soweit ich weiß ist der Key-Schedule von AES eben nicht so sonderlich komplex.Können sogar auch schon eher, aber langsam(er). Atis 4000er Serie war (in dem Punkt) 5x mal so schnell wie die 3000er (sagt Ati (http://www.rage3d.com/articles/stream/index.php?p=3)). Zumal auch Video-Encoding davon profitiert. Dieser große Schritt von einer Generation zur nächsten zeigt sich auch im oben verlinkten MD5-Thread.
Die Zeiten bis zum Erfolg untereinander zu vergleichen ist vollkommen sinnbefreit. Es geht hier mehr oder weniger um Bruteforce und da hängt es vom Glück/Zufall/whatever ab, wann einer der ausprobierten Keys passt. Wenn man Pech hat, muss man den kompletten Keyspace durchackern, theoretisch wäre auch die Situation möglich, dass sofort der erste Versuch klappt. Im Durchschnitt muss jedenfalls immer die Hälfte des in Frage kommenden Keyspace durchsucht werden. Entscheidend ist hier die Anzahl der Keys, die pro Zeiteinheit getestet werden können, wie Spasstiger und san.salvador auch schon schrieben.Nnicht ganz, lieber Gast! Das ist ein synthetischer Benchmark, wo immer mit dem gleichen Schlüssel verschlüsselt ist/wird und auch immer in der gleichen Reihenfolge durchprobiert wird. Die Ergebnisse sind also sehr wohl vergleichbar.

mfg

RoNsOn Xs
2009-10-26, 12:38:56
Hooray! :freak:

Spasstiger
2009-10-26, 13:08:36
Trotzdem arbeitet die GPU mehr Keys in weniger Zeit durch. Die Zeit alleine taugt nicht als Vergleichsmaßstab.

RoNsOn Xs
2009-10-26, 13:49:48
Passwords tested = 12356630 (time = 02:53.89, rate = 71060 p/s)
Total tested = 12356630, slow tests = 4
Password not found

Total passwords tested = 12356630, slow tests = 4

hmm