nVidia - Kepler - 28nm - 2012 [Archiv] - Seite 2

Archiv verlassen und diese Seite im Standarddesign anzeigen : nVidia - Kepler - 28nm - 2012

Gipsel

2011-05-29, 02:47:47

Wir haben ja geklärt, dass Stone Giant ein Niveau hat, dass Hocheffizient ist und somit erstrebenswert. Das reicht erstmal vollkommen.Also Stillstand? SCNR.
Was das aber mit den heutigen Architekturen und deinem angeblichen Effizienzproblem bei hohem Geometrieniveau zu tun hat, verstehe ich nicht.Ja genau, Du verstehst es nicht. Im Übrigen lautet der Titel des Threads: "Next-Gen-Architekturen: Kepler und Maxwell" :rolleyes:
Von Kepler erwarte ich eigentlich, dass man die einzelnen SPs noch besser ausreizt ohne das dabei der Aufwand in der Treiberentwicklung wieder die Ausmaße der GF5/6/7 Zeiten annimmt.
Also ich glaube nicht dass NV wieder auf Vectoren (ein Vec 2 oder Vec 3 oder so), geht sondern eher einen Weg findet ihre aktuellen SPs noch kleiner zumachen und die wenn erforderlich, dynamisch als Cluster zusammen arbeiten lässt.
Und wenn nicht, ebend abschaltet um Energie zusparen.
(mal grob als Laie gesprochen)
Kepler könnte schon so etwas wie eine grobe Verdopplung von Fermi sein. Deswegen finde ich ja Maxwell fast interessanter (es sei denn nv überrascht uns mal wieder).

Was die Sache mit der Flexibilität der Einheiten angeht, so kann man schon sagen, daß 2fach super"skalar" noch ziemlich effizient wäre (die Radeons kommen mit 4fach bzw. 5fach doch auch nicht soo schlecht aus), insbesondere wenn man dadurch Transistoren beim Scheduler sparen kann.
Und bezüglich eines möglichen Umbaus der Shadereinheiten was die Quads angeht, so kann man festhalten, daß nvidia da im Prinzip aus einer etwas besseren Ausgangsposition startet. AMD mit ihren Radeons, deren komplette Pipeline exakt und hardwired auf 4 Fragments/Einheit ausgelegt sind und die einen Großteil ihres Flops/mm²-Vorteils aus ebendieser Festlegung ziehen (die Scheduler sind sehr viel einfacher, da man die Latenzen aller Operationen genau so festgepinnt hat, daß ganz dumm immer genau 2 Wavefronts abwechselnd ausgeführt werden können), müssen da im Vergleich einen größeren Schritt wagen.

Nightspider

2011-05-29, 03:10:11

Glaubt ihr, das man im ernst mit ARM CPU Kernen in Maxwell anno 2013 deutlich mehr Power aus dem Chip rausholen kann als aus Keplar, shrinkbereinigt?
Kann mir das schwer vorstellen.
Gerade wo doch eben erst DX11 den CPU Flaschenhals (Overhead) reduziert.
Und bist 2013 wird vielleicht noch DX11 die aktuellste API bleiben.

Ailuros

2011-05-29, 10:02:30

Gipsel die Investition in Fermi ist zu gross dass Kepler schon irgend eine groessere Aenderung sein koennte.

Ich hab zwar noch nichts (und ich frag auch noch nicht nach denn mit dem kryptischen Scheiss der erzaehlt wird fall ich wieder glatt auf die Nase) aber ich koennte mir locker vorstellen dass sie auf ein quasi "2D" Dingsda gehen mit 2*32SPs.

Nebenzu links und rechts ein paar Verfeinerungen aber sonst nichts fundamentales.

2011-05-29, 10:03:38

Wir diskutieren aber anhand heutiger Hardware über die Anwendbarkeit von Tessellation. Sein Einstieg basierte auf dieser Aussage:

Es nimmt von vornerein an, dass Tessellation nur dazu angewendet wird, um den kompletten Bildschirm mit subpixelgroße Dreiecken vollzupappen. Was natürlich schon zeigt, dass er das Thema in eine Richtung lenken will, in die Tessellation als negatives Werkzeug für mehr Geometrie darsteht.

Darum geht es. Um in dieses Problem laufen zu können, muss die Erzeugung schnell genug erfolgen. Das ist bei AMD nicht der Fall und bei nVidia nur in bestimmten Situationen. Gleichzeitig wird vergessen, dass Spiele die Recheneinheiten für andere Effekte benötigen. Es ist bezeichnend, dass Gipsel auf einem sarkastischen Kommentar (http://www.forum-3dcenter.org/vbulletin/showpost.php?p=8746377&postcount=156) von Spasstiger geantwortet hat, der an mich gerichtet war, aber er es ist, der Spiele fordert, die "vollgepapp sind" mit subpixelgroßen Dreiecken, weil er dann recht hätte. Sowas ist dann doch sehr lustig.
Niemand weiß von uns, wie zukünftige Hardware aussehen wird. Es ist mühsam darüber zu spekulieren, ob und welche Veränderungen vorgenommen werden, um dieses Problem zu mindern. Aber es auf heutige Hardware zu übernehmen, um Tessellation ins Miskredit zu bringen, ist einfach falsch.
Der Begriff Effzienz existiert nur in Zusammen mit einem Verhältnisvergleich. Solange wie Gipsel nicht darlegt, welche Zahlen er als Grundlage heranzieht, ist es eine Worthülse. Gleichbedeutend mit "zu schnell fahren" ohne auch nur eine Definition, wann "zu schnell fahren" überhaupt möglich wäre.

Es zeigt, dass Fermi nicht die Leistungsfähigkeit besitzt subpixelgroße Dreiecke noch und nöcher erzeugen und gleichzeitig viele andere Effekte in Echzeit berechnen zu können. Gleichzeitig ist Fermi aber in der Lage, mit weniger Leistungsverlust sehr viele Dreiecke auf der GPU zu produzieren, ohne dass man hier von einer "Ineffizienz" reden kann.

Eine gute Diskussion lebt auch davon zu versuchen das Gegenüber zu verstehen - auch wenn es sehr schwer fällt.
Ich habe leider nicht so viel Zeit um Punkt für Punkt zu antworten aber ich denke das ist auch gar nicht notwendig.

Ich denke es ist mehr als eindeutig in der Diskussion dass wir uns alle, Du und ich, Entwickler wie User, für zukünftige Architekturen einen höheren Geometriedurchsatz bei gleichzeitig höherer Shaderlast (nicht nur aufwendigere Fragment sondern auch aufwendigere Hull und Domainshader - auch hier geht die Entwicklung erst los!) wünschen.

Die Marschrichtung für nvidia und AMD ist IMO eigentlich ziemlich klar. Traditionell muss man nur ein bisschen in den Offline Render Bereich "rübergucken" um zu sehen wo zum Teil die Reise hingeht. Speziell Modeling und Animation sind Bereiche die klar zeigen was sich mit "ein paar mehr" Dreiecken anstellen lässt.

Niemand hier bringt Tesselation (in seiner heutigen Form) oder Fermi in Misskredit, es geht ja um zukünftige Architekturen.

Wer annimmt dass "Niemand weiß von uns, wie zukünftige Hardware aussehen wird. " kann IMO nicht in relevantem Umfang in der Branche tätig sein.
Wir sprechen ja nicht von Details in der Architektur sondern über die grobe Ausrichtung und zu erwartende Bottlenecks.
Jeder halbwegs gute Entwickler kennt heute schon die Klippen die es mit hohen Geometrieraten zu umschiffen gilt, Nvidia und AMD geben schon länger Empfehlungen zur optimalen Dreiecksgröße auf heutigen Architekturen an - das Thema ist in der Branche sowas von klar, darüber möchte ich nicht mehr diskutieren.

Ich würde mich freuen von dir als Diskussionspartner etwas Entgegenkommen und das Bemühen um gegenseitiges Verständnis zu sehen.

Zu Kepler und Maxwell:

Ich denke die uns heute verfügbaren Varianten der Fermi Architekur zeigen deutlich die Flexibilität der zu Grunde liegenden Architektur sowohl im Frontend (Skalierung der Geometrieeinheiten) als auch im Shadercore (Skalierung der ALUs).
Es würde sich zumindest für Kepler anbieten die gewonnenen Erfahrungen mit GF104/GF114 und der Verbreiterung der Shaderarchitektur weiterzuspinnen.

Ailuros

2011-05-29, 10:21:29

Brauchen wir eigentlich fuer die absehbare Zukunft mehr als 4 GPCs?

Hugo

2011-05-29, 12:16:47

@Ail
ich als Laie würde sagen 4GPC's sollten ausreichen.
Die Frage ist eher was in jedem GPC steckt?

AnarchX

2011-05-29, 12:19:26

Brauchen wir eigentlich fuer die absehbare Zukunft mehr als 4 GPCs?
Kommt wohl darauf an was AMD plant. ;) Wie könnte sich eigentlich der 22nm 50+ Core MIC von Intel im Quadro-Markt positionieren?

Aquaschaf

2011-05-29, 12:44:16

Was die Sache mit der Flexibilität der Einheiten angeht, so kann man schon sagen, daß 2fach super"skalar" noch ziemlich effizient wäre (die Radeons kommen mit 4fach bzw. 5fach doch auch nicht soo schlecht aus).

Der Begriff 'superskalar' ist im Zusammenhang mit der AMD-Architektur doch eher unangebracht. 'Superskalar' ist ziemlich klar so definiert dass ein Prozessor dynamisch Datenabhängigkeiten identifiziert und so ILP ausnutzen kann, ohne dass der Compiler etwas dazu tun muss.

Nvidias Architektur hingegen ist möglicherweise superskalar, jedenfalls kann ich mir solche Resultate nicht anders erklären: http://www.cs.berkeley.edu/~volkov/volkov10-GTC.pdf

V2.0

2011-05-29, 13:44:49

Die erste Frage ist wann das Ding auf den Markt kommt. Man hört auf auch Gerüchte, dass GF12X (also ein 28nm Refresh zu Fermi) nicht abwegig ist.

Coda

2011-05-29, 19:54:59

Brauchen wir eigentlich fuer die absehbare Zukunft mehr als 4 GPCs?
Wenn man den Geometriedurchsatz weiter steigern will ja. Ich denke das werden sie schon allein machen um mit den Quadros bei CAD zu punkten.

Kepler könnte schon so etwas wie eine grobe Verdopplung von Fermi sein. Deswegen finde ich ja Maxwell fast interessanter (es sei denn nv überrascht uns mal wieder).
Ich geh davon aus, das sie die GF104-SMs verwenden werden, oder eine Abwandlung davon. Also dual-issue.

Wobei dabei dann die DP-Sache interessant wird. Vielleicht gibt's dann nur noch 1/3 DP-Durchsatz? Wäre aber auch blöd.

Nightspider

2011-05-29, 20:07:53

Habe nicht viel Ahnung aber sage jetzt einfach mal, das ich gern doppelt soviel TMUs hätte. Denn da hat Fermi keinen Fortschritt zur GT200 Generation gemacht.

Coda

2011-05-29, 20:17:54

Die TMUs sind aber deutlich effizienter bei Fermi als bei GT200. Das kannst du nicht vergleichen.

Gipsel

2011-05-29, 20:35:17

Der Begriff 'superskalar' ist im Zusammenhang mit der AMD-Architektur doch eher unangebracht. 'Superskalar' ist ziemlich klar so definiert dass ein Prozessor dynamisch Datenabhängigkeiten identifiziert und so ILP ausnutzen kann, ohne dass der Compiler etwas dazu tun muss.
Der Begriff "skalar" ist bei GPUs generell unangebracht. Deswegen auch meine Anführungszeichen ;).
Und ich wollte lediglich auf die Parallelität im Instruktionsstrom hinaus. Wo die zu deren Nutzung notwendige Feststellung der Abhängigkeiten erfolgt, ist erstmal egal. Das kann zur Kompilierzeit erfolgen (nennt sich statisches Scheduling, ist typisch für VLIW/EPIC) oder eben zur Laufzeit (dynamisches Scheduling der normalen superskalaren Prozessoren).
Nvidias Architektur hingegen ist möglicherweise superskalar, jedenfalls kann ich mir solche Resultate nicht anders erklären: http://www.cs.berkeley.edu/~volkov/volkov10-GTC.pdf
Na, da hast Du den Volkov wahrscheinlich etwas mißverstanden. Da geht es darum, die lange Pipeline der nv-GPUs gefüllt zu halten, ohne eine Unmenge an Threads zu benutzen (was auch Nachteile hat, z.B. weniger Register pro Thread), nämlich Code so zu schreiben, daß er ILP enthält. Interessanterweise sind das ziemlich exakt die gleichen Schritte, die Radeons allgemein zu einem besseren Füllgrad ihrer VLIW-Slots helfen. Aber das habe ich ja auch schon mal vor einiger Zeit irgendwo hier erwähnt, daß diese Optimierungen Geforce-karten normalerweise auch helfen, nur eben meist nicht ganz so dramatisch (manchmal aber eben doch).

Kurz zusammengefaßt benötigt man pro SM immer mindestens so viele unabhängige Instruktionen, wie innerhalb der Latenzzeit da durch passen, logisch oder? Wo die herkommen, ob aus einem anderen Thread oder unabhängige des gleichen Threads, ist dem Scheduler ziemlich egal. Und die werden trotzdem immer noch nacheinander auf die Reise geschickt, nicht gleichzeitig (ist halt eine lange Pipeline, die man gefüllt halten muß). Zumindest beim GF100/GF110, also bei den Dingern mit 32 ALUs pro SM. Bei den Designs mit 48 ALUs/SM (bei Kepler vielleicht 64?) können die Scheduler tatsächlich 2 Instruktionen pro Warp (so heißen praktisch die Vektoren der SIMD-Engines bei nvidia) alle 2 Takte absetzen (nicht nacheinander, sondern wirklich 2 Instruktionen gleichzeitig über 2 Takte verteilt). Das ist dann vielleicht supervektoriell, aber nicht superskalar ;)

PS:
Mir geht diese Begriffsverwirrung durch die GPU-Hersteller irgendwie auf den Keks. Die sollten lieber ein zwei mehr Ingenieure für die Hardware einstellen, als Leute, die sich diese PR-Begriffe ausdenken. Skalare SIMD-Engines! Das ich nicht lache! :rolleyes:

Coda

2011-05-29, 20:36:31

Der Begriff "skalar" ist bei GPUs generell unangebracht. Deswegen auch meine Anführungszeichen ;).
Das kommt ja wohl auf die Sichtweise an. Wenn's um das Programm an sich geht das läuft kann man da ja schon zwischen VLIW und skalaren Instructions unterscheiden.

Immer schwierig.

=Floi=

2011-05-29, 20:43:11

warum hat man dann die anzahl an möglichen threads erhöht und den thread sheduler ausgebaut, wenn das ganze negativ ist? Da wo es wichtig ist, dürfte es schon etwas bringen und trotz des overheads dürfte dieser weg der schnellere sein.

Gipsel

2011-05-29, 20:59:07

Ich geh davon aus, das sie die GF104-SMs verwenden werden, oder eine Abwandlung davon. Also dual-issue.
Ich würde sogar fast vermuten, daß sie das noch ausbauen, z.B. auf 64 ALUs/SM und/oder gar triple issue (für 64 ALUs vielleicht gar nicht so schlecht, da ein GF104 Scheduler maximal 32 ALUs gleichzeitig befeuern kann, mit triple issue könnte man die Auslastung schon steigern, es gibt ja noch die L/S und SFU Pipes).
Wobei dabei dann die DP-Sache interessant wird. Vielleicht gibt's dann nur noch 1/3 DP-Durchsatz? Wäre aber auch blöd.Ach, wenn man die Shaderleistung insgesamt durch verbesserte Flächeneffizienz hochprügelt, kann man das kompensieren. Eine HD6970 hat selbst mit 1/4 Rate (und deutlich kleinerem Die) immer noch minimal mehr nominelle DP-Leistung als die schnellste gerade vorgestellte GF110 Tesla (M2090) mit halfrate DP (FMA und MUL fast gleich, ADDs doppelt so hoch).
Das kommt ja wohl auf die Sichtweise an. Wenn's um das Programm an sich geht das läuft kann man da ja schon zwischen VLIW und skalaren Instructions unterscheiden.

Immer schwierig.Hmm, ist doch ganz einfach.
Eine Instruktion wirkt immer auf einen Vektor bei nv. Bei AMD sind es VLIW-Vektorinstruktionen. Nur weil man Shader pro Datenelement formuliert, ändert das ja nicht die Hardware, auf der es ausgeführt wird. Genau das ist auch der Grund, daß bestimmte Kontrollfluß-Strukturen auf GPUs nicht funktionieren. Daß die Hardware SIMD ist (egal ob eine Operation pro Takt oder 4 bzw. 5 pro Takt), sollte man durchaus als wichtig im Hinterkopf behalten, weil man nur dann einige der Performance-Fallen und Limitierungen der GPUs versteht.

Coda

2011-05-29, 21:09:57

Die Hardware ist eher SIMT, nicht SIMD. Nomenklatur-Zeug.

Wir sollten uns nicht immer gegenseitig belehren, jeder versteht das Zeug eigentlich sowieso ;)

Gipsel

2011-05-29, 21:29:19

Das war auch nicht als Belehrung gedacht, sondern als Darlegung der Gründe, warum ich das PR-Gefasel nicht mag ;)

Obwohl ich mich über die SIMThread-Geschichte auch auslassen könnte, da es eben keine unabhängigen Threads sind (Hardware-Threads führen ganze Warps aus), sondern in OpenCL-Sprech schon ganz richtig als "data elements" bezeichnet wird :rolleyes: Warum müssen die GPU-Hersteller die seit Jahrzehnten etablierten Begriffe unbedingt umdeuten?

Aber das wäre wirklich OT.

Coda

2011-05-29, 21:32:47

Ich sehe das nicht als Umdeuten an. Es sind nur einfach zwei Ebenen.

R300: SIM"D"/SIMD
R600+: SIM"D"/VLIW
G80/GT200/Fermi: SIM"D"/skalar

Ich finde das "Data" auf Hardware-Ausführungsebene einfach ungüstig. Es sind schon mehrere Threads, auch wenn diese einen gemeinsamen Kontrollfluss auf der GPU haben, ist das logisch für das Programm eher unwichtig.

Imho wäre SIMT für Fermi und VLIMT für Radeon gar nicht so verkehrt.

Gipsel

2011-05-29, 22:00:18

Es sind schon mehrere Threads, auch wenn diese einen gemeinsamen Kontrollfluss auf der GPU haben, ist das logisch für das Programm eher unwichtig.Nur ohne eigenen Kontrollfluß (was eine ziemliche Einschränkung ist) ist es kein Thread. Ein Thread kann z.B. auf einen anderen warten, bis der irgendwas fertig hat, und dann weitermachen. Versuche das mal mit "Threads" in einem Warp. Auf einer GPU können sich divergierende "Threads" einfach nicht synchronisieren (da alle in lockstep ausgeführt werden).

Aber am Ende ist das alles sowieso egal, wenn man weiß, was man meint.

Gipsel

2011-05-30, 20:44:32

Aber mal wieder zum Thema. Bin gerade über diese schon letztes Jahr getroffene Aussage gestolpert:
Wie Nvidias Chefwissenschaftler Bill Dally schon auf der SC2010 im Interview verriet, soll Kepler dank seiner neuen Speicherarchitektur mit einer erheblich verbesserten Linpack-Effizienz um die 90 Prozent auftrumpfen. Bislang dümpelte diese Effizienz bei vergleichsweise schlappen 50 Prozent.Gleichzeitig wird dort die Vermutung aufgestellt, daß sich die bekannte Grafik zur Steigerung der DP-GFlop/W mitsamt der dort angegebenen Steigerung auf das ~3fache bei Kepler eventuell auf gerade diese Linpack-Performance bezieht (weil Fermi eigentlich bei der Peakleistung besser ist als dort angegeben, aber wer weiß, wie nv das gezählt haben will, ist am Ende vielleicht auch nur Marketing).

Falls das stimmen sollte, könnte sich Kepler also bei der Peakleistung nur grob verdoppeln und der Rest kommt von der Effizienzsteigerung bei LinPack. Diese wäre entweder über eine grobe Verdopplung der Register pro SM oder einer Beschleunigung und Vergrößerung des L1/shared memory zu erreichen (der L2 könnte eine dopplet so breite Anbindung allerdings auch gut vertragen, der ist momentan ziemlich lahm).

Als Hintergrundinformation, Fermi wird bei LinPack momentan durch mangelnde Bandbreite aus den Caches/shared memory (spielt keine Rolle, was man da nimmt) limitiert. Die Radeons übrigens nicht, da hilft ein Mehr an Registern (und evtl. die breitere L2-Anbindung) um mit dem richtigen Code (der überhaupt kein local/shared memory nutzt, wäre wie bei Fermi zu lahm) 90+% zu erreichen.

Aquaschaf

2011-06-02, 21:39:52

Und die werden trotzdem immer noch nacheinander auf die Reise geschickt, nicht gleichzeitig (ist halt eine lange Pipeline, die man gefüllt halten muß).

Stimmt, den Punkt habe ich falsch verstanden.

tombman

2011-06-19, 22:35:56

Kurze Frage: wann kommt die neue Generation von NV Grakas KAUFBAR? (Kepler Chip)

Weiß da jemand was?

Nightspider

2011-06-19, 22:37:27

1. Halbjahr 2012
Genauer weiß es wahrscheinlich keiner. Am wahrscheinlichsten ist immernoch März-Juni.

tombman

2011-06-19, 22:42:27

Hmm, Beweislink? :)

Wenns stimmt -> noch 1 Jahr :eek:

Nightspider

2011-06-19, 22:45:24

Ist doch jetzt wirklich nichts Neues. Es ist schon unwahrscheinlich das wir sehr kleine Chips in 28nm noch 2011 sehen. Große "HighEnd-GPU" Chips sind erst im Frühjahr irgendwann zu erwarten und wenn wir Pech haben hat NV wieder Probleme mit dem Fertigungsprozess und Keplar kommt erst Sommer-Herbst.

Hab mir mein "kleines" SLI auch nur zur Überbrückung aufgebaut.

Aber du fährst ja noch ganz gut mit deinen 3 GTX480.

Gipsel

2011-06-20, 18:49:23

Mal eine Sache, die ich schon im GCN-Thread (http://www.forum-3dcenter.org/vbulletin/showthread.php?p=8796923#post8796923) gepostet habe, ist vielleicht ein Fingerzeig, wie nvidia das Problem des Stromverbrauchs etwas lindern will (wahrscheinlich eher Maxwell als Kepler). Es gibt ein Paper von nvidia (http://cva.stanford.edu/publications/2011/gebhart-isca-2011.pdf), wie man mit einer Art kleinem Cache für die Registerfiles den Zugriff lokaler gestalten (was ich als Vorteil von GCN gegenüber AMDs alter VLIW-Architektur und auch Fermi sehe) und ihn dadurch beschleunigen bzw. den Stromverbrauch senken kann. Da sind ganz interessante Informationen enthalten, z.B. daß die Berechnung eines FMA weniger Energie kostet als das Lesen der Operanden aus dem Registerfile.
Our own estimates show that the access and wire energy required to read an instruction's operands is twice that of actually performing a fused multiply-add.
Dies zeigt, daß das ein durchaus wichtiges Thema ist.

Ganz interessant ist auch, daß nvidia dort (ebenfalls zum Stromsparen) ein anderes Scheduling (zweistufig) vorschlägt. Beides zusammen bringt übrigens nur Vorteile, solange die Instruktionslatenz nicht zu hoch ist. In dem Paper wird mit einer Latenz von 8 Takten (inklusive Lesen und Schreiben des RF wahrscheinlich 12 Takte, die Fermi-Pipeline hat 18 Takte Latenz) gerechnet. Ein Hinweis für die Zukunft bei nv? Ich finde das ganz interessant im Vergleich zu den Änderungen bei GCN.

Nightspider

2011-06-21, 06:05:10

Ob Maxwell 2013 wohl auch noch in 28nm erscheint?
Was ist der nächste geplante Shrink für GPUs? 20nm?
Der wird ja dann wohl auch kaum vor Jahresbeginn 2014 reif sein.

Gipsel

2011-06-21, 08:58:41

Ob Maxwell 2013 wohl auch noch in 28nm erscheint?
Was ist der nächste geplante Shrink für GPUs? 20nm?
Der wird ja dann wohl auch kaum vor Jahresbeginn 2014 reif sein.
Na der Plan dürfte schon so aufgestellt sein, daß er mit der offiziellen Roadmap von TSMC paßt. Und die sagt eben 2011 28nm und 2013 20nm. Wie realistisch das ist, werden wir ja sehen. ;)

Neurosphere

2011-06-21, 11:34:38

Dafür das Kepler nur nen halbes Jahr entfernt sein soll gibt es ja bisher recht wenig Informationen.

Ailuros

2011-06-21, 11:38:46

Dafür das Kepler nur nen halbes Jahr entfernt sein soll gibt es ja bisher recht wenig Informationen.

Irgendwann in H2 wird NV schon die Architektur dahinter vorstellen.

Hugo

2011-06-21, 12:29:53

@Ail
weißt du schon irgendwas?

dildo4u

2011-06-21, 12:34:15

Im Oktober wirds Infos geben.

http://www.virtual-reality-magazin.de/vr/news/nvidia-kuendigt-dritte-gpu-technology-conference

Ailuros

2011-06-21, 12:46:12

@Ail
weißt du schon irgendwas?

Das einzige was ich momentan "weiss" oder korekter gehoert habe ist dass die Packdichte diesmal um einiges hoeher sein soll. Hab es aber schon hier erwaehnt und halte es auch nicht als besonders zuverlaessige Info da Ihre Packdichte ohnehin (fuer den Design selber) ziemlich optimal aussieht.

Es haengt viel zu viel von TSMC's 28nm ab und das sowohl fuer AMD als auch NVIDIA. Ist wirklich alles nach Plan gelaufen mit 28nm und es gibt keine Tonnen an Leckstroemen wie unter 40G? Wenn ja wie sehen die Kapazitaeten aus, ueberhaupt da man in letzter Zeit mehr Bums ueber Tegra von NVIDIA hoert als alles andere, hat das eine mit anderen etwas zu tun oder geht Tegra4 auf 28LP? etc etc.

Sonst bleibt das insgesamte Bauchgefuehl dass es bei NVIDIA zu radikalen Aenderungen erst bei Maxwell kommt; ehrlich gesagt macht etwas anderes auch nicht besonders viel Sinn, da Fermi so oder so schon ziemlich gut aussieht als Architektur.

LovesuckZ

2011-06-21, 12:46:44

Es gibt dieses Jahr keine GTC in Amerika. Wenn man eine Messe für eine Ankündigung nutzen will, dann wird es die Supercomputer im November sein.

Ailuros

2011-06-23, 00:32:31

http://www.xbitlabs.com/news/graphics/display/20110622151554_Nvidia_PC_Experience_Set_to_Be_Dominated_by_SoCs_with_Integrated_ ARM_Cores_and_GPUs.html

Und bevor irgend jemand irrelevant schreit: siehe Maxwell era bzw. Projekt Denver.

Gipsel

2011-06-23, 02:58:26

http://www.xbitlabs.com/news/graphics/display/20110622151554_Nvidia_PC_Experience_Set_to_Be_Dominated_by_SoCs_with_Integrated_ ARM_Cores_and_GPUs.html
The beauty about the CUDA programming model is that it was designed for CPU-GPU based heterogeneous architectures. [...] Other driver-level APIs like OpenCL treat the GPU as a device that is separate from the CPU (host) and this means that OpenCL as defined today has to be extended to support an integrated CPU-GPU device. This means that applications written with the CUDA toolkits will just work on our integrated CPU-GPU devices," said Mr. Kirk.Marketing Bullshit at it's best ;D
Bei CUDA 1.0 haben sie angefangen (wenn man mal die Betas vorher wegläßt). Wie viele Erweiterungen gab es bisher? Bei welcher Version sind wir gleich noch mal? 4.0? Wieviele Updates und Erweiterungen werden noch kommen, bevor wir Projekt Denver zu Gesicht bekommen und dann das gehalten wird, was uns da versprochen wird?

Ein wenig auf die Spitze getrieben kann auch intel behaupten, daß sie schon die letzten 20 Jahre mit x86 darauf hingearbeitet bzw. es schon von Anfang darauf ausgelegt haben, nun endlich mal GPUs zu integrieren. :rolleyes:

Oder um das mal weniger polemisch zu hinterfragen, wenn der große Nachteil von OpenCL gegenüber CUDA sein soll, daß es CPU (host) und GPU (device) als separat betrachtet, warum benutzt man dann in CUDA genauso device memory und host memory und darf das auch alles schön immer getrennt allozieren und hin- und herkopieren? Ich hasse so ein PR-Gewäsch!

Davon abgesehen ist das Ziel natürlich klar und auch vollkommen nachzuvollziehen.

Dural

2011-06-24, 11:33:28

wo ist den dein Problem?

das Cuda speziell für ihre GPU entwickelt wurde weis man ja, das sie es immer weiter entwickeln und alles aus einer Hand inkl. CPU Anbindung anbieten wollen ist ja wünschenswert und das wird so OpenCL sicher nie bieten können.

In sich ist seine aussage völlig korekt, halt etwas geschönt...

:rolleyes:

Ailuros

2011-06-24, 12:14:31

Ist zwar OT aber ich wuerde gerne hoeren wie OpenCL's zukuenftige road-map genau aussehen soll.

Ronny145

2011-06-29, 11:34:00

Kepler 28nm taped out : The successor to Nvidia’s Fermi architecture, a certain GPU that goes by the name Kepler has already been taped out. We have multiple sources to confirm that the new 28nm chip is alive and that it looks quite well.
http://www.fudzilla.com/graphics/item/23247-kepler-28nm-taped-out

Angenommen das erste Tapeout ist seit Mitte 2011 abgeschlossen, basierend auf älteren Generationen, wie lange dauert es im bestmöglichen Fall vom ersten Tapeout bis zur Erstverfügbarkeit im Handel?

Knuddelbearli

2011-06-29, 11:51:02

4-12 Monate bei neuer Architektur eher Richtung 12 Monate

LovesuckZ

2011-06-29, 11:54:56

http://www.fudzilla.com/graphics/item/23247-kepler-28nm-taped-out

Angenommen das erste Tapeout ist seit Mitte 2011 abgeschlossen, basierend auf älteren Generationen, wie lange dauert es im bestmöglichen Fall vom ersten Tapeout bis zur Erstverfügbarkeit im Handel?

Wenn man ein Respin benötigt ca. 6 Monate. Wenn man mit A1 (also Tape-Out) kommt, dann ca. 4 Monate.

M4xw0lf

2011-06-29, 11:59:36

Wenn man ein Respin benötigt ca. 6 Monate. Wenn man mit A1 (also Tape-Out) kommt, dann ca. 4 Monate.

Kam in den letzten 5 Jahren irgendeine GPU als A1 auf den Markt?

LovesuckZ

2011-06-29, 12:01:04

Kam in den letzten 5 Jahren irgendeine GPU als A1 auf den Markt?

Ja, viele. G9xb. Oder die letzten Fermi-Karten ab GF104.

boxleitnerb

2011-06-29, 12:02:19

M4xw0lf

2011-06-29, 12:04:43

Ja, viele. G9xb. Oder die letzten Fermi-Karten ab GF104.

Ah ok. Allerdings sind die ja alle schon refresh-Versionen von vorherigen Designs, also nicht direkt vergleichbar mit Kepler... Es sei denn die Veränderungen zu Fermi sind minimal. Dann bleibt aber immer noch der neue 28nm-Prozess über dessen Macken man auch erst noch herausfinden muss.

Erwartet ihr irgendwelche Überraschungen für Kepler? Jetzt egal ob an Performance oder Features.

Ich hätte mal im Schnitt ohne Rosinenpickerei wieder gerne 90+% Zuwachs. Und irgendwas zum Spielen, irgendein aufregendes Feature :biggrin:

Das mit dem Feature wird wohl nix - dazu bräuchte es ja auch Spieleentwickler die es nutzen, und die hängen ja alle auf DX9-Konsolenniveau.

LovesuckZ

2011-06-29, 12:08:07

Ah ok. Allerdings sind die ja alle schon refresh-Versionen von vorherigen Designs, also nicht direkt vergleichbar mit Kepler... Es sei denn die Veränderungen zu Fermi sind minimal. Dann bleibt aber immer noch der neue 28nm-Prozess über dessen Macken man auch erst noch herausfinden muss.

Nun, GF104 war kein Refresh, hatte verdammt viele Veränderungen gegenüber GF100 und kam trotzdem mit A1.

Man sollte es also nicht komplett ausschließen, dass nVidia trotz erstem 28nm Chip nicht mit A1 auf dem Markt kommt.

boxleitnerb

2011-06-29, 12:11:08

Das mit dem Feature wird wohl nix - dazu bräuchte es ja auch Spieleentwickler die es nutzen, und die hängen ja alle auf DX9-Konsolenniveau.

Treiberseitiges DS wäre nett. Oder endlich das FXAA/SRAA im Treiber für alle Spiele aktivieren. Was gibts sonst noch? LOD-Anpassung ab DX10?

Ronny145

2011-06-29, 12:12:23

Erwartet ihr irgendwelche Überraschungen für Kepler? Jetzt egal ob an Performance oder Features.

Ich hätte mal im Schnitt ohne Rosinenpickerei wieder gerne 90+% Zuwachs. Und irgendwas zum Spielen, irgendein aufregendes Feature :biggrin:

Also wenn AMD für ihre 28nm Generation Downsampling offiziell zugänglich macht, dann erwarte ich das gleiche auch für Nvidia.

M4xw0lf

2011-06-29, 12:15:15

Treiberseitiges DS wäre nett. Oder endlich das FXAA/SRAA im Treiber für alle Spiele aktivieren. Was gibts sonst noch? LOD-Anpassung ab DX10?

Stimmt, das wäre eine gute Sache die Nvidia bzw. AMD unabhängig von der Spieletechnik bringen können.

boxleitnerb

2011-06-29, 12:19:37

Also wenn AMD für ihre 28nm Generation Downsampling offiziell zugänglich macht, dann erwarte ich das gleiche auch für Nvidia.

Ich hoffe es. Die Bastelei nervt nämlich. Hab grad wieder Probleme damit obwohl es vorher ging. Lars Weinand klang beim PCGH-Themenabend diesbezüglich aber nicht so enthusiastisch.

Neurosphere

2011-06-29, 12:42:27

Erwartet ihr irgendwelche Überraschungen für Kepler? Jetzt egal ob an Performance oder Features.

Performanceseitig könnte zumindest nen bisschen mehr drin sein als von GT200b auf GF110, auch wenn das auch um die 100% waren.

Immerhin ist der Sprung bei 40 zu 28nm größer als bei 55 zu 40nm.

aylano

2011-06-29, 13:17:48

Erwartet ihr irgendwelche Überraschungen für Kepler? Jetzt egal ob an Performance oder Features.

Ich hätte mal im Schnitt ohne Rosinenpickerei wieder gerne 90+% Zuwachs. Und irgendwas zum Spielen, irgendein aufregendes Feature :biggrin:
Wann gabs denn das letzte mal einen 90+%igen Zuwachs?

Eher habe ich im Schnitt so 60-75% in Erinnerung.

Dazu wird Nvidia & AMD diesesmal kaum noch den Stromverbrauch steigern können.

boxleitnerb

2011-06-29, 13:20:56

Sowohl 8800GTX als auch HD4870 haben das tendenziell geschafft.

AnarchX

2011-06-29, 13:37:05

Dazu wird Nvidia & AMD diesesmal kaum noch den Stromverbrauch steigern können.
Warum keine 2x 8-Pin Designs für Single-GPU-Karten?

ndrs

2011-06-29, 13:38:29

Sowohl 8800GTX als auch HD4870 haben das tendenziell geschafft.
Allerdings war damals noch Platz nach oben was die Leistungsaufnahme angeht. Ob das so weitergehen kann möchte ich bezweifeln.

aylano

2011-06-29, 13:42:35

60-75 ist ja tendenziell zu 90%+ wenn ich mir die Tests bei Computerbase ansehe.

Und wie gesagt, AMD & Nvidia werden kaum noch den Stromverbrauch steigern können und zweitens, ist das noch eine neue Fertigung.
500mm²-Dies werden Ende 2011 höchstwahrschlich mehr Probleme haben als Low-End & mainstream mit 60-160mm²

Ich beschäftigte mich noch nicht mit Kepler, aber paar mehr Einheiten & etwas mehr Takt wird Ende 2011/Anfang 2012 kaum drinnen, sein, sodass eventuell +30% mehr Performance bei weniger Stromverbrauch rauskommt, wenn es überhaupt möglich ist.
Oder noch weniger Performance (+15%) aber dafür einen noch viel geringeren Stromverbrauch.

Warum keine 2x 8-Pin Designs für Single-GPU-Karten?
Ist das schon Standard?

PS: Bei kaum meinte ich, dass ein etwas (bis zu 10-15%) höherer Stromverbrauch möglich ist. Aber da dachte ich eher an den Durchschnittsverbrauch, der dann bei bestimmten Programme auf <300TDP runterregelt.

boxleitnerb

2011-06-29, 13:45:30

Nur 30% mehr als die 580 GTX? Nie im Leben. Oder erwartest du von der 7970 auch nur 30% mehr als von der heutigen Generation?

Ich schätze 70-80%, hoffe auf 90-100%.

AnarchX

2011-06-29, 13:48:52

Ist das schon Standard?

Im Ultra High-End wohl schon: HD 6990, GTX 590 und diverse Custom GTX 580/480, HD 6970.

Im Bezug auf die ALU-Leistung kann man wohl für GK100 wohl mindestens einen Faktor 2 erwarten.

Duplex

2011-06-29, 13:52:04

G92, GT200 & GF100 sind alle über 500mm², das ist bei NvidiA Standard und wird auch so bleiben, hat DOCH bis jetzt immer gut funktoniert, wenn die Yields bei TSMC befriedigend sind ist das auch kein Problem :)

Kepler mit GTX590 Leistung sollte man schon erwarten, die konkurrenz schläft nicht

Edit: AMD wird wahrscheinlich mit der neuen Radeon Architektur & 28nm einen größeren Sprung nach oben machen, der wird bestimmt größer als RV770 > RV870. Nvidia wird deshalb viel wert auf Leistung legen müssen!!!

n00b

2011-06-29, 13:57:23

Ist es eigentlich wahrscheinlich daß man Kepler Karten noch Ende dieses Jahres kaufen kann? Bei Fudzilla steht was daß die Dinger das Tape-Out (was immer das genau heisst) bereits hatten.

Duplex

2011-06-29, 13:58:48

@n00b
Wenn der 28nm Prozess bei TSMC im Q4 keine Probleme macht, dann kann man 6 Monate nach Tapeout mit erste Retail Karten rechnen, hoffentlich pünktlich zum Weihnachtsgeschäft :)

LovesuckZ

2011-06-29, 14:00:49

G92, GT200 & GF100 sind alle über 500mm², das ist bei NvidiA Standard und wird auch so bleiben, hat DOCH bis jetzt immer gut funktoniert, wenn die Yields bei TSMC befriedigend sind ist das auch kein Problem :)

Kepler mit GTX590 Leistung sollte man schon erwarten, die konkurrenz schläft nicht

Edit: AMD wird wahrscheinlich mit der neuen Radeon Architektur & 28nm einen größeren Sprung nach oben machen, der wird bestimmt größer als RV770 > RV870. Nvidia wird deshalb viel wert auf Leistung legen müssen!!!

Und? Wer sagt, dass der Schritt von Fermi -> Keplar nicht genauso groß sein wird ist wie von GT200b -> Fermi?

Duplex

2011-06-29, 14:08:57

@LovesuckZ
Kann sein das Kepler einen ähnlichen Sprung machen wird, 80-90% halte ich auch für möglich.
GTX480 > GTX590, das sind ca. 65% Unterschied, deswegen hab ich geschrieben man sollte bei Kepler mit GTX590 Leistung rechnen, das gilt als minimum.

LovesuckZ

2011-06-29, 14:11:27

Duplex

2011-06-29, 14:23:47

Dural

2011-06-29, 14:57:36

weder G80 noch G92 sind über 500mm² ;)

Neurosphere

2011-06-29, 15:05:54

Das ist richtig, ich erwarte aber mehr als ein VLIW5 Shrink mit Faktor2 Einheiten, der RV870 war 70% schneller als der RV770, die neue Architektur könnte auf 100%+ kommen, diesmal wirds wieder spannend.

Hmm, sollte durch AMDs Änderung der Architektur (Takt etc mal außen vor gelassen) die Leistung von VLIW auf CU pro Einheit nicht abnehmen? Kann aber auch sein das ich da was in den falschen Hals bekommen habe. AMD spricht zwar selbst davon das es nicht so wäre, aber irgendwo müssen die FLOPs von Cayman gegen Fermi ja herkommen...

aylano

2011-06-29, 15:22:33

G92, GT200 & GF100 sind alle über 500mm², das ist bei NvidiA Standard und wird auch so bleiben, hat DOCH bis jetzt immer gut funktoniert, wenn die Yields bei TSMC befriedigend sind ist das auch kein Problem :)
Sicher haben die dann irgendwann super funktioniert, aber eben nicht als die Fertigung neu war.

Diesesmal hätte es eine erheblichere Auswirkungen, wenn es bei Nvidia wieder so Verzögerungen & Probleme wie beim 90-55nm & 55nm-->40nm-Umstieg geben sollte.

Nvidia brauchte damals beim 90nm-->65/55nm-Umstieg nicht so schnell sein. Beim 55nm-->40nm wäre es auch nicht so schlimm gewesen, da AMD in Low-End & Mainstream erst später mit DX11 daherkam.

Aber diesesmal wechselt AMD einerseits von Anfang an voll auf die ganze Palette (Low-End bis Hinauf) und andererseits ist ihre Architektur stark.

Nvidia weiß das natürlich und es könnte dann auch sein, dass der 40nm--->28nm-Umstieg aufgrund richtiger Reaktion so wie bei AMD verlaufen könnte

Und AMD muss ihre GPUs auch mal hinbringen.

Kepler mit GTX590 Leistung sollte man schon erwarten, die konkurrenz schläft nicht

Edit: AMD wird wahrscheinlich mit der neuen Radeon Architektur & 28nm einen größeren Sprung nach oben machen, der wird bestimmt größer als RV770 > RV870. Nvidia wird deshalb viel wert auf Leistung legen müssen!!!
Sollte könnte mögen.
Noch unpräziser gehts wohl nicht mehr.

Im Ultra High-End wohl schon: HD 6990, GTX 590 und diverse Custom GTX 580/480, HD 6970.
Ich denke, er meint Standard-Single-GPU-Karten.
Ich schätze 375W-TDP-Karten werden von den vielen/meisten High-End-Gamer nicht mehr angenommen.

und 500W-TDP-X2-Karten schon garnicht.

500mm²-Dies wird es IMO nicht so schnell geben.

Vernünftige Yields @ 40nm gabs mit
140mm² ... Aug/Sept 2009 (RV740)
333mm² ... März 2010 (RV870)
Also, so 1 Jahr nach 40nm-Einführung konnte AMD gerade seine High-End-GPU vernünftig rausbringen (((, während es bei Nvidia damals 2-3 Monate länger brauchte.)))

Oder GT200b musste noch 10 Monate nach RV670 & G92b einen Respin machen.

Hingegen hat AMD jetzt größerer Dies als damals mit RV670 & RV870, wobei RV870 wegen den Yields auch nicht mehr so ein gelungener Umstieg wie beim RV670 war.

Also, die Frage bleibt, ob Nvidia & AMD gleich zum Start Big Dies (350-500mm²) rausbringt.
Da wäre ich mir nicht so sicher.

200-350mm²-Dies mit 15-35%-Mehr-Performance (+ ?%-Mehr-Performance durch Architektur-Verbesserungen) & weniger Stromverbrauch klingt IMO für Anfang 2012 vernünftiger/realistischer.

Nightspider

2011-06-29, 16:37:44

Hätte auch nix dagegen, wenn die neuen HighEnd Karten mit Triple-Slot Kühlung und damit mit einem größeren Leistungssprung daherkommen.

Und Wasser kommt die Karte sowieso.

Gipsel

2011-06-29, 16:41:35

Hmm, sollte durch AMDs Änderung der Architektur (Takt etc mal außen vor gelassen) die Leistung von VLIW auf CU pro Einheit nicht abnehmen? Kann aber auch sein das ich da was in den falschen Hals bekommen habe. AMD spricht zwar selbst davon das es nicht so wäre, aber irgendwo müssen die FLOPs von Cayman gegen Fermi ja herkommen...
Die theoretische Maximalleistung von so einer CU von AMDs neuer GCN-Architektur ist genau gleich zu einer SIMD-Engine von Cayman. Praktisch dürfte die Leistung einer CU aber meist deutlich höher sein.
Die Frage für die Gesamtperformance lautet, wie viel größer wird eine CU im Vergleich zu einer alten SIMD-Engine (die im OpenCL-Sprech auch schon CU heißt), sprich wie viel mehr CU als SIMD-Engines kann AMD in 28nm noch verbauen und natürlich wie sieht der Rest vom Chip aus?

Hugo78

2011-06-29, 16:48:18

@Nightspider
Ref.design wird wohl kaum ein Triple-Slot.
Wozu auch, die GTX 590 zeigt ja wie man selbst 450W ausreichend leise kühlen kann, wenn man nur will.
Die GTX 590 ist in BC2 auch nicht lauter als eine HD 6870.
-> Link (http://www.pcgameshardware.de/aid,817166/Geforce-GTX-590-im-Test-Triumphiert-der-doppelte-Fermi-ueber-die-Radeon-HD-6990/Grafikkarte/Test/?page=2)
Und bei einer Single GPU Karte passt dann auch wieder der Idle Mode, mit unter einem Sone Lautheit.

wizardSE

2011-06-30, 18:53:40

Mit Kepler siehts für 2011 schlecht aus...siehe

http://www.heise.de/newsticker/meldung/Grafik-Geruechte-Spaete-Tape-Outs-der-28-Nanometer-GPUs-von-AMD-und-Nvidia-1270711.html

Und bei AMDs 28nm-GPUs hatten im Q2 ihr Tape-Out.

Nightspider

2011-06-30, 19:17:43

Nvidias Fermi-Nachfolger namens Kepler soll Preemption- und Virtual-Memory-Funktionen mitbringen

Was soll das sein?

dargo

2011-06-30, 19:39:35

@Nightspider
Ref.design wird wohl kaum ein Triple-Slot.
Wozu auch, die GTX 590 zeigt ja wie man selbst 450W ausreichend leise kühlen kann, wenn man nur will.

Die GTX590 ist aber kein guter Anhaltspunkt dafür. Die Karte ist länger und aus Designgründen in der Mitte auch mehr Platz für einen großen Lüfter vorhanden. Da wo der Lüfter bei der GTX590 platziert ist ist in der Regel die GPU bei einer Single-GPU-Lösung.

Die GTX 590 ist in BC2 auch nicht lauter als eine HD 6870.
-> Link (http://www.pcgameshardware.de/aid,817166/Geforce-GTX-590-im-Test-Triumphiert-der-doppelte-Fermi-ueber-die-Radeon-HD-6990/Grafikkarte/Test/?page=2)

Mit 3,7 Sone aber auch gewiss kein Leisetreter. Und mit 2,0 Sone in Idle ist die Karte schon ziemlich laut. Wobei die 2,0 Sone völlig unnötig sind wenn ich mir die Idletemps. so anschaue.

Aquaschaf

2011-06-30, 20:04:34

Was soll das sein?

Preemption heißt dass ein laufender Prozess unterbrochen und wiederaufgenommen werden kann. Fermi kann zwar mehrere Prozesse gleichzeitig ausführen, aber ein Prozess der einmal gestartet wurde läuft immer bis er fertig ist.

Gipsel

2011-06-30, 20:04:40

Was soll das sein?
Präemption bedeutet, das Betriebssystem/Treiber kann einen laufenden Shader/Kernel anhalten und was anderes dafür starten. Das ist für Multitasking recht wichtig, ansonsten ist man darauf angewiesen, daß die Programme selber mal Platz machen (kooperatives Multitasking wie vor Win95). Präemptives Multitasking soll sicherstellen, daß ein Programm nie die komplette CPU/GPU blockieren kann, das Betriebssystem/Treiber kann sich (und in der Folge dann auch ein anderes Programm) so immer dazwischen quetschen. Damit kann ein "faires" Scheduling erreicht werden, indem z.B. alle paar Millisekunden eine andere Aufgabe drankommt (so funktioniert das bei CPUs).

Tja und virtueller Speicher bedeutet, daß jedes Programm nicht auf die echten Speicheradressen zugreift, sondern eben einen "virtuellen" Adressraum hat, aus dem dann beim Speicherzugriff erst in echte physikalische Adressen übersetzt wird.
Vorteile sind zum Beispiel, daß die Adressräume mehrerer gleichzeitig laufender Programme isoliert werden können (jedes Programm hat einen eigenen Adressraum) oder daß es für das Programm erstmal nicht wichtig ist, wo der Speicher genau liegt, er kann also z.B. durch Ändern der Übersetzungstabellen "umgelegt" werden. Dies wird besonders interessant, wenn das System zwischen CPU und GPU kompatibel ist (wie AMD das für Fusion auch schon angekündigt hat), da dann beide über entsprechende Mechanismen auf den gleichen Speicher zugreifen können.

Edit: Da war Aquaschaf 6 Sekunden schneller. Dafür habe ich auch mehr geschrieben ;)

G 80

2011-06-30, 21:01:50

weder G80 noch G92 sind über 500mm² ;)

Naja zumindest erster hat 484 mm2 - da würde ich keinen Stein werfen. ;)

Also, die Frage bleibt, ob Nvidia & AMD gleich zum Start Big Dies (350-500mm²) rausbringt.
Da wäre ich mir nicht so sicher.

200-350mm²-Dies mit 15-35%-Mehr-Performance (+ ?%-Mehr-Performance durch Architektur-Verbesserungen) & weniger Stromverbrauch klingt IMO für Anfang 2012 vernünftiger/realistischer.

Meine Zustimmung. Ich frage mich überhaupt was aus der Doktrin geworden ist die besagt: Neue Arch + neuer Prozess + Schlachtschiff-Größe = scheiß Idee.

AnarchX

2011-06-30, 21:40:18

Theoretisch müssten GK104 und Co. parallel in Entwicklung sein.

Außerdem soll es in Zukunft vom Marktstart einer neuen Grafikgeneration durch einen High-End-Chip maximal 3 Monate dauern, bis man alle Marktsegmente bis zum Low End mit Grafikkarten besetzt hat. Fermi-ähnliche Zustände will Nvidia also zukünftig offenbar nicht wieder erfahren.
http://www.heise.de/newsticker/meldung/GTC-Nvidia-gibt-Ausblick-auf-kommende-Grafikchips-1083430.html

Ailuros

2011-07-01, 17:38:05

Theoretisch müssten GK104 und Co. parallel in Entwicklung sein.

http://www.heise.de/newsticker/meldung/GTC-Nvidia-gibt-Ausblick-auf-kommende-Grafikchips-1083430.html

Hoere ich schon seit kurz nach dem Fermi release. Es gibt einen Unterschied zwischen vielen kleinen Teams die eng zusammenarbeiten und einen sehr grossen Team wo sich einige mit einigen nicht einig werden wollen. Kann natuerlich hinhauen und ist durchaus wuenschenswert, aber trotz allem abwarten und Tee trinken.

fondness

2011-07-05, 11:06:13

We got word that Kepler, Nvidia's successor to Fermi architecture and its first 28nm part won’t launch until Q1 2012.

http://www.fudzilla.com/graphics/item/23282-kepler-28nm-to-launch-in-q1-2012

mapel110

2011-07-05, 21:30:21

http://semiaccurate.com/2011/07/05/nvidias-kepler-comes-in-to-focus/
Charlie hat auch wieder viel geschrieben. Haters gonna hate.

Neurosphere

2011-07-05, 21:53:09

http://www.fudzilla.com/graphics/item/23282-kepler-28nm-to-launch-in-q1-2012

Wenn man mal weiter liest hört sich das wieder schlecht für beide Hersteller an. Warten wirs mal ab.

Es scheint sich laut Text ja nicht zu lohnen so früh in den Mark zu gehen wenn man im Hintergrund mit Zicken der Architektur und der Fertigung zu kämpfen hat...

Ailuros

2011-07-05, 22:34:34

http://semiaccurate.com/2011/07/05/nvidias-kepler-comes-in-to-focus/
Charlie hat auch wieder viel geschrieben. Haters gonna hate.

Man brauch nicht einen so langwierigen Artikel durchlesen um zu verstehen dass ein komplizierterer chip schwerer herzustellen ist als ein weniger komplizierter. Ob AMD wirklich noch dieses Jahr in die Produktion gehen wird mit SI bleibt abzusehen; aber selbst wenn bezweifle ich ernsthaft eine anstaendige Verfuegbarkeit.

Ich hab mal sicherheitshalber nachgefragt ob seine DP at full rate These erstmal Sinn macht. Mal sehen ob und was zurueckkommt.

Skysnake

2011-07-06, 01:07:55

aylano

2011-07-06, 10:42:32

Wenn man mal weiter liest hört sich das wieder schlecht für beide Hersteller an. Warten wirs mal ab.

Das Kann man lesen wie man will.

Mit "Same Problems" könnte z.B eine Firma viel besser damit umgehen als eine andere. Vorellem, wenn eine Firma viel öfters vor so einer Situation steht (bzw. mit Llano & Bulldozer schon seit Monaten inkl. HKMG steht.)

Witzig, der Nvidia-Hasser gegen Nvidia.

Zusammen-gefasst aus ihren Vorlieben bzw. Hass kann man es auch so interpretieren.

Der Eine bewertet die "Same Problems" als übliche "Null-Problemo" (Optimistischer Falle) für Sept (Anf 4Q) und berwertet Nvidias Situations so zwischen 1Q-2Q (Feb "Optimistischer Fall" bis Juni "Pessimistischer Fall")

Der Andere bewertet die "Same Problems" sehr ähnlich wie Nvidia (Pessimistischer Fall) und bewertet Nvidias Situation so 1Q ("Opimistischer Fall")

Wobei der Pessimistischer Fall IMO bei beiden noch fast optimistisch Kling.

Denn Einführen ist eine Sache. Die Verfügbarkeit eben die andere.
Ich halte die 28nm-Probleme schon länger problematischer ein, da es von AMD & Nvidia (quasi) keine Proble-chips gibt um erste Erfahrungen zu sammeln.

Allein mit RV740 brauchte AMD 2-3 Monate, bis dieser dann gut Verfügbar war.

Neurosphere

2011-07-06, 11:35:53

Sicherlich schreibt Fuad das ganze irgendwie poitiv für NV, zumindest hört es sich danach an.

Trotzdem bleibt das Problem das wohl beide Entwickler wieder vor schlechten Yields stehen könnten. Was bleibt ist dann wieder nur das Prestige als erstes am Markt zu sein, mit Verfügbarkeit hat das dann aber wieder mal nichts zu tun.

fondness

2011-07-06, 11:57:59

Offiziell: Nvidia „Kepler“ 2012 und „Maxwell“ 2014
http://www.computerbase.de/news/hardware/grafikkarten/nvidia/2011/juli/offiziell-nvidia-kepler-2012-und-maxwell-2014/

Es ist jedoch nicht völlig gesichert, auf welche Produktreihe sich die Folie genau bezieht. Denn es ist möglich, dass sich diese ausschließlich auf das Kernthema der Veranstaltung rund um professionelle Tesla-Karten bezieht und die GeForce-Serie für den Desktop-PC einem leicht anderen Zeitplan unterliegt.

aylano

2011-07-06, 11:59:28

Trotzdem bleibt das Problem das wohl beide Entwickler wieder vor schlechten Yields stehen könnten.
Wirtschaftlich kurzfristig ja.

Eine frühe Serienreife für das High-End-Produkt hat den Vorteil einer frühen Serien-reifen im Low-End & Mainstream-Markt, der so 3 Monate später kommt, wo man mit erheblichen Vortielen (Yields wirkt sich da nicht so auch) gegenüber den Konkurrenten gut verdienen/Marktanteile aufholen könnte.

Vorallem, wenn AMD eine breite Verfügbarkeit zum Ive-Bridge-Start schafft.

Verfügbarkeit kann man über den Preis regeln.

Durch den niedrigen Preis konnte AMD kaum negative Kritik einhandeln bzw. AMD kam in der Zeit fast schon positiv rüber, weil nur die "bösen" Händler die Preise erhöhten.

Was bleibt ist dann wieder nur das Prestige als erstes am Markt zu sein, mit Verfügbarkeit hat das dann aber wieder mal nichts zu tun.
Als erster mit einer Neuen Fertigung und nochen Performance-Bereichen, steht man auch entsprechend positiv im Mittelpunkt, wo man Offene Standards (OpenPhysiks & OpenCL) promoten kann.

Dazu, je länger der Konkurrent dann braucht aufzuholen bzw. dann mit Komprimissen in den Markt geht (hoher Stromverbrauch & Teil-Deaktivieren) desto öfters wird dann das Wort Probleme in den Mund genommen, was dann langfristig bei Noobs im Ohr hängen bleibt und somit das Image langfristige schadet.

Hinzu ist der ersterer mehr ein Verlässiger GPU-Partner & Glaubwürdiger, wenn sie die Termine einhalten, was bei Langzeit-Projekten (Fusion, Denver) eventuell entsprechend auswirken können.

Lange Rede kurzer Sinn.
Die Auswirkungen können erheblich größer sein, als nur ein Prestige zu haben.
Das Image von AMD hat sich IMO mit HD 5870 viel positiver & anders entwickelt, as es mit RV770 machten, wo sie trotz Überraschung nicht erster bei Single-GPU-Karten waren.

Ailuros

2011-07-06, 12:18:27

Ja ich frag mich auch wie das gehen soll :ugly:

Also wenn ich jetzt nicht GANZ auf dem Holzweg bin, dann ich eigentlich bei jeder Architektur, die 64Bit unterstützt stattdessen einfach 2 32Bit Werte berechnen lassen.

Würde mal voll keinen Sinn machen, die paar Transistoren etc. zu sparen um statt einem DP Wert 2 SP Werte berechnen zu können :ugly:

Natuerlich ist es moeglich, nur wuerde es (wie ich mir auch schon selber vorstellte) verdammt teur in hw sein. So viel Transistoren zu verschwenden fuer etwas dass ueberhaupt im desktop nicht zu der Rate (siehe auch moegliche absichtliche Reduzierungen) je benutzt werden koennen waere Bloedsinn.

Knuddelbearli

2011-07-06, 12:47:47

wtf? kann mich NV ungläubiger jemand aufklären? nach kepler dauerts bei NV 2 Jahre bis zur nächsten Serie? oder sind diese Codenamen immer nur für neue Fertigungstechniken?

boxleitnerb

2011-07-06, 12:55:20

Wenn das dann immer 2 Jahre dauert, ist SLI gar keine schlechte Sache, um die Durststrecke zu überbrücken.

2 Jahre find ich recht lang, auch wenn es in jüngster Vergangenheit nicht wirklich schneller ging.

Ailuros

2011-07-06, 13:01:15

wtf? kann mich NV ungläubiger jemand aufklären? nach kepler dauerts bei NV 2 Jahre bis zur nächsten Serie? oder sind diese Codenamen immer nur für neue Fertigungstechniken?

Die roadmap bezieht sich erstens nur auf DP Werte und daher offensichtlich auf HPC. Selbst wenn NV die Moeglichkeit haette frueher naechster Generation desktop GPUs vorzustellen, bezweifle ich dass sich fuer HPC irgend etwas aendern wuerde. Noch schlimmer fuer Quadros die meistens als letzte ankommen nach desktop und HPC.

Wenn das dann immer 2 Jahre dauert, ist SLI gar keine schlechte Sache, um die Durststrecke zu überbrücken.

2 Jahre find ich recht lang, auch wenn es in jüngster Vergangenheit nicht wirklich schneller ging.

2 Jahre fuer jede Technologie-Generation. Zwischendrin gibt es immer den von NV selber genannten "mid-life kicker". Im Fall von Fermi war es nur GF110, haette aber auch nicht anders sein koennen da 32nm entfallen ist bei TSMC.

boxleitnerb

2011-07-06, 13:04:18

Früher war alles besser, als man noch ohne neue Prozess neue Chips raushauen konnte :freak:
Naja hoffen wir, dass man ein paar Hundert Karten im Dezember/Januar bestellen kann.

Ailuros

2011-07-06, 13:08:00

Früher war alles besser, als man noch ohne neue Prozess neue Chips raushauen konnte :freak:
Naja hoffen wir, dass man ein paar Hundert Karten im Dezember/Januar bestellen kann.

Fuer Kepler? Ich bezweifle dass vor 1Q2012 irgend etwas vom Laufband kommt.

Hugo78

2011-07-06, 13:33:56

oder sind diese Codenamen immer nur für neue Fertigungstechniken?

Nvidia hat halt nicht für jeden Furz einen Codename.
Bzw. es gibt einen Überbegriff für die Technik hinter der Generation (Tesla (GT), Fermi (GF), Kepler (GK)),
und dann unterscheidbare Codenames mit entsprechenden Zahlen (GT200, GT218, GF100, GF104 ect.) für die einzelnen Chips.

Knuddelbearli

2011-07-06, 13:49:06

Ailuros

2011-07-06, 13:51:53

ähm also NV macht genau das verkehrte wie Intel ? "neue" Architektur zusammen mit neuem Fertigungsprozes und den mid-life kicker dann mit der gleichen Fertigungsgröse ? ähm ja ...

Macht NVIDIA schon seit Fermi (GF100) und daran wird sich wohl schwer etwas aendern. Anders geht es ueberhaupt nicht mehr.

ok macht AMD zuletzt auch aber trotzdem

ATI macht es schon seit Jahren, nur haben sie seit R600@80nm aufgehoert die Enthusiast-Sparte mit einem einzelnen grossen chip zu bedienen.

V2.0

2011-07-06, 13:59:54

Wobei bei AMD der Top-Chip auch wieder immer "dicker" wurde.

Hugo78

2011-07-06, 14:05:43

ähm also NV macht genau das verkehrte wie Intel ? "neue" Architektur zusammen mit neuem Fertigungsprozes und den mid-life kicker dann mit der gleichen Fertigungsgröse ? ähm ja ...

Machen alle ausser Intel, weil keiner ausser Intel sich das leisten kann, ein Jahr lang auf einem Prozess zusitzen, nur um die Marge noch weiter in die Höhe zutreiben.

Oder?

Nightspider

2011-07-06, 14:24:05

Ist doch super dann braucht man nicht so oft aufrüsten, wegen den scheiß Zwischenschritten.

Wer vor 1,5 Jahren ein oder zwei GTX480 gekauft hat, hat immenoch einen HighEnd PC, erst recht weil diese unter Wasser der GTX580 in nichts nachstehen.

Bei mir wirds auch eine GTX680 zum Release.

Knuddelbearli

2011-07-06, 14:50:15

ich wart mit meiner 5870 eher noch bis zu 8er reihe läuft 99% der Zeit eh mit 435 statt 745 Mhz und ist Luft bis knapp 1100 da

Botcruscher

2011-07-06, 19:08:49

Auf Softwareseite zeigt sich ja auch kein Bedarf. Konsole ahoi.

Thunder99

2011-07-06, 20:54:21

Auf Softwareseite zeigt sich ja auch kein Bedarf. Konsole ahoi.
Man kann sie aber dennoch in die Knie zwingen,

DX11 Effekte oder teure DX9 Effekte Ahoi ;) oder man betreibt SGSAA bzw OGSAA. ;)

Für den normal Gamer haste recht, für den interessierten an max. BQ kann es immer schneller Karten geben :)

Nightspider

2011-07-07, 00:39:39

Auf Softwareseite zeigt sich ja auch kein Bedarf. Konsole ahoi.

Blödsinn!

Bilde deine niedrigen Ansprüche nicht auf andere ab.

Zumal nächstes Jahr genug Spiele kommen werden, die nach Leistung lechzen werden.

BigKid

2011-07-07, 17:36:42

Zumal nächstes Jahr genug Spiele kommen werden, die nach Leistung lechzen werden.

Wenn ich als Maßstab nehme wie meine GPU "schnauft" (also Lüfterdrehzahl und Temp oder die AUslastung der GPU) dann sind diese Spiele bereits da...

Bis vor ein 1-2 Monaten scheint sich meine GPU (GTX570) gelangweilt zu haben aber nun...

Dragon Age 2 hat den Anfang gemacht...

Mit Witcher2 ist das erste DX9 Spiel da, dass es schafft meine GPU zu nahezu 100% auszulasten und richtig böse zum schnaufen zu bringen...

Wow im DirectX11 Modus scheint interessanter Weise auch deutlich mehr zu "heizen" als im DirectX9 Modus (hier in eher in Form von mehr FPS und weniger in Form von sichtbaren Effekten).

Wie aussagekräftig ist diese GPU Load eigentlich - ist ganz interessant zu beobachten, dass gerade Witcher2 (dessen Grafik ich für ein DirectX9 Spiel für beachtenswert gut halte) es auch gleichzeitig als eines der wenigen Spiele mit DirectX9 schafft die GPU last auf 100% zu bringen...

Skysnake

2011-07-07, 17:46:59

NAja, wie bei der CPU halt. Selbst warten wird als Auslastung gezählt.

Es geht halt wirklich nur darum, ob die GPU gerade ne Aufgabe bearbeitet oder nicht. Kommt also sehr auf den Code drauf an, ob die wirklich richtig schafft wie blöd, oder ob die ALUs mehr auf Daten warten als alles andere.

G 80

2011-07-07, 18:52:24

Naja und Auslastung ist nicht gleich Auslastung. Spiele ich CoD 4 ohne Vsync und mit ingame MSAA gehen die FPS durch die Decke und die Karten sind gut ausgelastet bei 90+ %.

Schalte ich dann aber Hybride mit SSAA-Anteil dazu sieht man erst was Auslastung wirklich ist ... nicht die numerische steigt, aber die Karte heizt wie blöde.

Bestes Beispiel ist auch der DX Level: Unter 9 kann die Tess-Einheit gar nicht ausgelastet sein, auch wenn die restlichen Komponenten/Karte sonnst bei 90+ röchelt.

Furmark, schließlich, ist dann das extremste Bespiel bei der es nichtmehr um eine relistische Auslastung der Komponentengruppen, sondern nur noch ums heizen geht.

Ailuros

2011-07-07, 21:26:17

Man kann sie aber dennoch in die Knie zwingen,

DX11 Effekte oder teure DX9 Effekte Ahoi ;) oder man betreibt SGSAA bzw OGSAA. ;)

Für den normal Gamer haste recht, für den interessierten an max. BQ kann es immer schneller Karten geben :)

Ich weiss zwar nicht was er genau meinte, aber falls er eher meinte dass die Konsolen generell eine laengere Lebenszeit heutzutage haben und teilweise eine quasi Technologie-bremse fuer so manche Spiel-entwicklung sein kann stimmt dann schon.

Natuerlich hat der PC total andere Ansprueche und Du hast mit dem obrigen auch recht.

Ich wuerde aber Botcrusher anders antworten: sobald die neue Generation ankommt wird der Otto Normalverbraucher heutige GTX580 bzw. 6970 Leistung um einiges billiger in der Form einer mainstream GPU kaufen koennen. Es zwingt keiner keinen >500 Euro GPUs zu kaufen und diejenigen die dazu kommen sind so oder so das kleinste Prozentual.

Mir selber fehlt aber wirklich ein sehr gutes Spiel mit innovativem Gameplay dass mich tagelang auf den PC fesseln wuerde. Das meiste was mir heutzutage in die Hand faellt ist meistens der gleiche Brei mit besserer Grafik serviert; ich spiel halt ab und zu eine Stunde oder so und wenn ich es nicht vergesse spiele ich das Zeug eher wehmuetig irgendwann zu Ende.

Skysnake

2011-07-07, 21:41:46

Ja und vor allem hat man in 80-95% der aktuellen Spiele eigentlich nen God-Mode :ugly:

Hab mal Max Payne gezockt, weils bei steam im Angebot war, und ich es früher geliebt habe. Das war eigentlich ziemlich locker zu spielen, außer halt im höchsten Schwierigkeitsgrad.

Jetzt krebs ich selbst auf normal rum wien Boon :ugly:

Man verweichlicht total durch die neuen Games -.-

Thunder99

2011-07-07, 21:44:13

Ich weiss zwar nicht was er genau meinte, aber falls er eher meinte dass die Konsolen generell eine laengere Lebenszeit heutzutage haben und teilweise eine quasi Technologie-bremse fuer so manche Spiel-entwicklung sein kann stimmt dann schon.

Natuerlich hat der PC total andere Ansprueche und Du hast mit dem obrigen auch recht.

Ich wuerde aber Botcrusher anders antworten: sobald die neue Generation ankommt wird der Otto Normalverbraucher heutige GTX580 bzw. 6970 Leistung um einiges billiger in der Form einer mainstream GPU kaufen koennen. Es zwingt keiner keinen >500 Euro GPUs zu kaufen und diejenigen die dazu kommen sind so oder so das kleinste Prozentual.
Gebe ich dir recht :) . Meinte ja wenn man will kann man die Leistung aktueller Generation inkl. vorheriger schon ausnutzen

Mir selber fehlt aber wirklich ein sehr gutes Spiel mit innovativem Gameplay dass mich tagelang auf den PC fesseln wuerde. Das meiste was mir heutzutage in die Hand faellt ist meistens der gleiche Brei mit besserer Grafik serviert; ich spiel halt ab und zu eine Stunde oder so und wenn ich es nicht vergesse spiele ich das Zeug eher wehmuetig irgendwann zu Ende.
Wenn man das Genre mag finde ich Starcraft II als sehr fesselnd.

Aber um beim Thema zu bleiben: Ist es nicht so dass die IHV´s in den News genannte "Änderungen die Gaming-Eigenschaften" darin auslegen, dass die teuren Effekte sehr viel effizienter = schneller gerendert/berechnet werden können? :confused:
Siehe u.a. SSAO, was in Starcraft II verdammt viel Leistung kostet (und mit 4xAA meine GTX470 @ 700Mhz die FPS an den Rand der Spielbarkeit (afv 25fps drückt)

Ailuros

2011-07-07, 22:55:13

Aber um beim Thema zu bleiben: Ist es nicht so dass die IHV´s in den News genannte "Änderungen die Gaming-Eigenschaften" darin auslegen, dass die teuren Effekte sehr viel effizienter = schneller gerendert/berechnet werden können? :confused:

Mehr oder weniger ja. Generell bei einer neuen Technologie-Generation (wie z.B. bei DX11) sorgen sich die IHVs eher darum dass die Vorraussetzungen gedeckt werden und kuemmern sich spaeter fuer um einiges hoehere Effizienz bzw. Leistung.

Es bleibt aber auch dabei dass viele ISVs fuer PC und Konsolen Spiele parallel entwickeln und in solchen Faellen ist eben die heutige Konsolen-hw schon leider eine Technologie-Bremse. Fuer solche Faelle wird es dann wohl doch einige Zeit dauern bis wir in solchen Spielen etwas von programmierbarer Tessellation als Beispiel sehen werden.

Siehe u.a. SSAO, was in Starcraft II verdammt viel Leistung kostet (und mit 4xAA meine GTX470 @ 700Mhz die FPS an den Rand der Spielbarkeit (afv 25fps drückt)

Fuer mich persoenlich wenn ein jeglicher zusaetzlicher Effekt so viel Leistung kostet, schau ich mir zwar gern ausfuehrlich an aus technologischem Interesse, aber ich lass es eben dann doch beim echten spielen am Ende weg oder wenn es flexibel genug ist es etwas zu reduzieren such ich eben eine quasi Mittelloesung zwischen Einstellungen und Leistung.

Entschuldigt das sich wiederholende OT aber mein groesstes Problem mit Spielen der letzten Jahr ist weder Bildqualitaet noch features sondern eher im Bereich gameplay.

Fuer Kepler bzw. Southern Islands um aufs Thema zurueckzukommen haben beide IHVs erstmal den Vorteil dass sie nicht den Kopfschmerz haben fuer X% Transistoren fuer Y zusaetzliche Faehigkeiten und koennen sich voll auf die Steigerung der Effizienz ihrer existierenden DX11 Architekturen konzentrieren.

Die von NV selber angegebene Steigerung von 2.5x der DP FLOPs gegenueber Fermi heissen IMHO nicht (wie Charlie es illustriert) eine noch staerkere Konzentration auf HPC, sondern sind eher ein Resultat der Steigerung der insgesamten Rohleistung. Wobei uebrigens Tesla 2050 lediglich 515 GFLOPs/s DP schafft. Dazu verglichen sind hypothetische ~2.5x mehr nichts besonderes, ueberhaupt wenn man bedenkt wie der Unterschied zwischen Fermi und T10 im Bereich DP aussieht (und um wieviel sich NV dank Problemen mit Fermi fuer T20 ueberschaetzt hat).

Ich hab zwar noch nicht die blasseste Ahnung wie Kepler aussehen koennte, aber nach einer eher naiven Refresh-Logik reichen schon 1024SPs bei unter 1.3GHz aus um 2.5x Mal die DP Leistung einer Tesla2050 zu erreichen. Da ALUs relativ billig sind sind doppelt so viele SPs von 40 auf 28nm kein besonderes Problem. Das Fragezeichen ist eher wie das Ganze verteilt wurde und was sonst noch an der Architektur verbessert wurde, denn sterile Zahlen sagen wie immer nichts besonderes.

mapel110

2011-07-07, 23:42:35

Hugo

2011-07-08, 09:10:38

Die von NV selber angegebene Steigerung von 2.5x der DP FLOPs gegenueber Fermi heissen IMHO nicht (wie Charlie es illustriert) eine noch staerkere Konzentration auf HPC, sondern sind eher ein Resultat der Steigerung der insgesamten Rohleistung. Wobei uebrigens Tesla 2050 lediglich 515 GFLOPs/s DP schafft. Dazu verglichen sind hypothetische ~2.5x mehr nichts besonderes, ueberhaupt wenn man bedenkt wie der Unterschied zwischen Fermi und T10 im Bereich DP aussieht (und um wieviel sich NV dank Problemen mit Fermi fuer T20 ueberschaetzt hat).

Was ist ein T10 oder T20?

AnarchX

2011-07-08, 09:55:49

Tesla 10 (GT200)
Tesla 20 (GF100/GF110)

Ailuros

2011-07-08, 23:57:14

nvidia scheint ja im Gegensatz zu Fermi-Zeiten absolut dicht zu halten. Es gibt schlicht keine verlässlichen Gerüchte über Leistungszahlen. Hat man die letzten Launchphase gar dazu genutzt, undichte Stellen zu finden?! Es macht irgendwie den Eindruck.

Unter normalen Umstaenden sollte Kepler's Ziel sein bis zu 2x Mal Fermi Leistung zu erreichen; wenn alles nach Plan laufen sollte klingt es auch gar nicht so merkwuerdig denn der Schritt von 40 auf 28nm (ueberhaupt da 32nm entfallen ist) ist alles andere als klein.

Kepler soll laut NV's roadmap in DP 2.5x Mal potenter sein als Fermi. Tesla 2050 = 515 GFLOPs/s * 2.5x = 1287.5 GFLOPs/s

Umgekehrte spekulative Mathe:

1024SPs * 1 FLOP (fuer DP) * 1.26GHz = 1290 GFLOPs, wobei die Tesla 2050 auch nur bei 1.15GHz taktet.

Wenn man jetzt die These weiterstrickt waere etwas wie [16*(4*16-3 warp schedulers)] vielleicht gar nicht so bloed. Das einzige was mir dann schwer faellt zum glauben ist dass sie wieder auf nur 4 GPCs geblieben sind. Keine Ahnung ob es ueberhaupt Sinn machen wuerden auf 8 GPCs zu gehen (8 raster units, 8 trisetup) mit jeweils nur 2 SMs/GPC. Wenn's nicht total aburd ist waeren es dann vielleicht 4 pixels/SM oder 8 pixels/raster bzw. GPC. Ach ja und dann noch 8 TMUs/SM.

Ist zwar nur frei erfundene Spekulation momentan, aber falls es mindestens halbwegs Sinn machen wuerde, gibt es keinen besonderen Grund darueber fett zu blubbern.

Skysnake

2011-07-09, 00:31:04

Ähm warum:

*1 (fuer DP)

Meinest du nicht *2 ??? DP Werte werden ja wie 2 SP Werte gerechnet.

Oder war das bewusst so gemacht aufgrund der komischen Aussage von nVidia mit dem fullspeed DP?

Gipsel

2011-07-09, 02:11:33

Ähm warum:

Meinest du nicht *2 ??? DP Werte werden ja wie 2 SP Werte gerechnet.

Oder war das bewusst so gemacht aufgrund der komischen Aussage von nVidia mit dem fullspeed DP?
1 FMA pro Einheit mit halfspeed = 1 Flop/Takt und Einheit ;)

Edit:
Da wir gerade bei solchen Leistungsextrapolationen sind, Tahiti mit 32 CUs (2048 ALUs) und 0,85 GHz koennte wohl 1741 GFLOP/s in DP.

Skysnake

2011-07-09, 02:30:57

Ne 2 Flops/takt :ugly:

Eine FMA wird als 2 Flops gerechnet, und ein DP Wert eben auch als 2 Flops. Zumindest rechnen so die Hersteller, wenn Sie von GFlop/s reden.

Ailuros

2011-07-09, 20:12:39

Ne 2 Flops/takt :ugly:

Eine FMA wird als 2 Flops gerechnet, und ein DP Wert eben auch als 2 Flops. Zumindest rechnen so die Hersteller, wenn Sie von GFlop/s reden.

Wenn ich 1024 mit 2 FLOPs multipliziere (was auch richtig ist fuer 1D ALUs) dann bekomm ich single precision GFLOP Raten. Da double precision wohl so oder so wieder bei halber Rate sein wird, spar ich mir gleich das Resultat am Ende mit 2 zu dividieren und benutz nur 1 anstatt 2 FLOPs.

Was soll die Haarspalterei ueberhaupt? Ja natuerlich ist auch ein DP Wert 2 FLOPs, ergo haettest Du wohl keinen Einwand gehabt wenn ich so gerechnet haette?

512SPs (da stets 2 zusammengeschaltet werden muessen um DP zu erreichen bei half rate) * 2 FLOPs * 1.26GHz....

Es wird wohl besseres geben um Zeit zu verschwenden oder?

Skysnake

2011-07-10, 12:53:59

Coda

2011-07-10, 13:20:38

DP Werte werden ja wie 2 SP Werte gerechnet.
Werden sie nicht. Wie kommst du darauf?

Ja natuerlich ist auch ein DP Wert 2 FLOPs
Nö.

FLOP = Floating Point Operation. Eine DP-Operation, bleibt eine Operation. FMA wird nur als zwei gezählt, weil es eben Addition+Multiplikation ist.

Skysnake

2011-07-10, 13:30:05

Weil ich das ganze Semester nichts anderes gemacht habe als die Leistungsfähigkeit verschiedener Accelerators miteinander zu vergleichen?

Also angefangen bei CPUs, über GPU bis hin zu FPGAs etc.

Wenn von GFlop/s die Rede ist, dann immer von SP Flops. Erst wenn AUSDRÜCKLICH "DP GFlop/s" dasteht, sind auch wirklich echte DP-Flops gemeint. Ansonsten wird für jeder DP-Flop einfach mal 2 genommen.

Daher spricht auch eigentlich kaum ein Hersteller von DP-Flops. Ist nämlich um einen Faktor 2 kleiner.

Ganz lustig wird meistens, wenn davon gesprochen wird, dass in DP Anwendungen X GFlops erreicht werden. Da wird teils auch mit SP-Flops-Äquivalent gerechnet :lol:

Da muss man echt wie sau aufpassen.

Ist mir z.B. erst passiert. Wir hatten die Anforderung mit ner GTX460 mehr als 100 GFlop/s zu erreichen bei ner Matrixmultiplikation. Hab da den Faktor 2 von MAD vergessen, tja deswegen ewig viel Zeit rein gesteckt, und am Ende dann 110 geschafft, der schnellste war bei 111 GFlop/s. Tja in der Woche danach ist mir aufgefallen, dass ich den Faktor 2 vergessen hatte. :ugly: Da war ich dann selbst schneller als unser Tutor :ugly:

@Coda:

Dann schau dir mal an, wie die Hersteller teils "bescheisen"... Naja, eigentlich sagen Sie ja nichts falsches, Sie reden halt nur von Flop/s und verwenden da halt SP-GFlop/s-Äquivalent. Man muss wirklich extrem aufpassen. Ist mir auch erst so richtig bewusst geworden, als ich viele Unterschiedliche Architekturen vergleichen durfte. Man muss da schon sehr aufpassen.

Coda

2011-07-10, 13:49:42

Sorry, aber das ist doch Unsinn. Bei CPUs ist der Durchsatz von DP nämlich in der Regel überhaupt nicht halb so hoch (außer bei SIMD). Die Unterschiede zwischen SP und DP sind dort weit geringer.

Zeig mir eine Publikation in der das so gemacht wird. Es entbehrt einfach völliger Logik, da einfach einen Faktor zwei reinzubringen. Wenn überhaupt wird einfach SP angegeben und DP unterschlagen, das ist aber etwas anderes.

Die Top-500-Liste ist übrigens rein DP-Linpack und da wird auch nichts verdoppelt.

Skysnake

2011-07-10, 16:40:55

Ailuros

2011-07-10, 17:00:02

Naja, ein Faktor 2 ist jetzt nicht vernachlässigbar. Entscheidet das doch oft zwischen gut und schlecht.

Und btw. ich reite darauf so rum, da von nVidia ja diese ominöse Aussage gab, das Sie FULLSPEED! DP mit Kepler bringen wollen. Sollte weiter hinten aufgegriffen sein.

Da war ja die große Frage, wie das funktionieren soll, und wie warum man nicht nochmals etwas Hardware investiert um statt einen SP/DP Wert halt 2SP/1DP Wert zu ermöglichen.

Wie gesagt, die Aussage bzgl. Fullspeed DP ist halt schon sehr seltsam in meinen Augen.

Moment hat es jetzt Charlie behauptet oder NVIDIA selber? Im zweiten Fall aendert sich so manches.

Wie dem auch sei falls NV tatsaechlich so weit gegangen ist, verschwenden sie eine sehr grosse Anzahl an Transistoren fuer etwas dass ausserhalb Teslas nur gering oder gar nicht gebraucht werden wird (da sie auf GeForces so oder so DP begrenzen).

Aber noch mal zurueck zur Milchmaedchen-rechnung und angenommen SP=DP:

512SPs * 2 FLOPs * 1.26GHz = 1290 GFLOPs/s FP32 oder FP64

von mir aus auch so:

1024SPs * 2 FLOPs * 0.63GHz = 1290 GFLOPs/s ergo keine hotclocks.

Wenn NV's roadmap selber eine Steigerung von Fermi zu Kepler um 2.5x Mal angibt was DP betrifft, kann DP throughput eben nicht gleich SP sein, ausser sie haben etwas gebaut dass um 2.5x Mal so schnell ist mit DP als Fermi und ein klein bisschen schneller mit SP.

Falls es tatsaechlich 1:1 DP/SP sein sollte dann kann Kepler nicht nur um 2.5x Mal schneller sein als Fermi, sondern um einiges mehr.

Hugo

2011-07-10, 17:32:23

Wie dem auch sei falls NV tatsaechlich so weit gegangen ist, verschwenden sie eine sehr grosse Anzahl an Transistoren fuer etwas dass ausserhalb Teslas nur gering oder gar nicht gebraucht werden wird (da sie auf GeForces so oder so DP begrenzen)

was genau meinst du damit?

Ailuros

2011-07-10, 17:44:35

was genau meinst du damit?

1:1 DP/SP ist theoretisch moeglich aber auch verdammt teuer in hw. Fuer was soll der Aufwand gut sein ausserhalb von Teslas genau? Auf GF1x0 desktop GPUs ist so oder so schon der DP throughput via sw begrenzt. Ergo kostest 1:1 eine Unmenge an Transistoren die nur fuer einen einzigen und relativ winzigen Markt gut sein soll.

Du kannst locker wetten dass Kepler um 2.5x Mal mehr DP ausspucken kann als Tesla 20x0 und natuerlich ueber 5.0x Mal mehr SP da es nach wie vor bei 2:1 DP/SP bleiben wird und GeForces typisch hoehere Frequenzen haben als Teslas.

Coda

2011-07-10, 17:53:00

Das ist aber ja genau in vielen Angaben der "Trick". Das Ding kann z.B. ein FMA DP Wert ausrechnen, ODER einen FMA SP Wert. Einmal kommst du auf 2, das andere mal auf 4 Flops (SP Äquivalent). Was glaubst du jetzt, mit was Werbewirksam gerechnet wird?
Was für ein "Ding"?

GPU-FLOPs-Angaben sind natürlich traditionell für SP angegeben, was auch sinnvoll ist.

Skysnake

2011-07-10, 18:39:34

Ailuros,

Also wenn ich mich jetzt nicht GANZ arg doll irre, dann war das von nVidia. Das war ja auch ein Punkt, der mich absolut am Kopf hat kratzen lassen. Also das Sie FullSpeed DP unterstützen werden und nicht nur HalfSpeed.

Das hat ja bei mir auch die Frage aufgeworfen, wie Sie das ohne riesige Hardwareverschwendung schaffen wollen. :ka:

Damit wäre die SP-Leistung aber nicht wirklich viel größer als die bei Fermi. Würde aber auch erklären, warum Sie nur noch von DP-Werten sprechen.
Eventuell zieht sich nVidia aus dem Consumer-Bereich ja auch komplett zurück, da Sie begriffen haben, dass mit IB etc. bei Intel und Fusion bei AMD einfach der gesamte Low- und Midrange-Bereich wegfällt.

nVidia kann sich ja auch absolut nicht entscheiden, wie Sie ihre Firma ausrichten sollen. Gab es mit Fermi noch die Aussage, man sei eine Software/HPC Firma, sehen Sie sich jetzt selbst als Mobile Firma...
Spricht also auch dafür, das man die Gamer einfach fallen lässt, bzw. eben mit einer auf HPC ausgerichteten Karte abspeist.

Alternativ wäre für den Highend-Gamer ja noch ein Fermi-shrink drin.

So wirklich gut siehts aber auf jeden Fall für nVidia atm nicht aus. An allen Ecken und Kanten brechen die Kernmärkte weg, und eine klare Ausrichtung fehlt mir im Moment.

Ich würde daher im Moment wirklich nichts mehr für unmöglich halten, selbst nicht, dass mit Kepler die SP Performance wirklich nur um rund 15% steigt.

Coda

2011-07-10, 18:42:08

Also das Sie FullSpeed DP unterstützen werden und nicht nur HalfSpeed.
Es ergibt kaum Sinn in GPUs Fullspeed-DP zu unterstützen.

Mit dem dafür nötigen Silizium-Aufwand bekommt man fast schon wieder zwei SP-ALUs die sich zu DP zusammenschalten lassen.

Skysnake

2011-07-10, 19:01:02

Echt?....

Jetzt rate mal, warum ich mir am Kopf gekratzt habe -.-

klar macht es kaum einen Sinn, aber was will man machen, wenn man so einen Informationsbrocken hingeworfen bekommt? Sagen ah NE das macht keinen Sinn, also werdet ihr das nicht bringen? :ugly:

Ist schon feist die Aussage :D

Coda

2011-07-10, 19:03:25

Man kann schon komische Designentscheidungen treffen, aber sich das Messer selbst in die Brust rammen wäre schon selten dämlich.

Dein angesprochener Kern-Markt ist für NVIDIA immer noch die GPU, und da brauchen sie mindestens 2x SP-Leistung für die neue Generation. Besser eher mehr.

AffenJack

2011-07-10, 19:04:29

Wer hat ihn dir denn hingeworfen? ich wüsste gerne ne quelle für fullspeed-dp außer charlie hirngespinsten. Ich wüsste nicht, dass nv sowas jemals erwähnt hätte.

Skysnake

2011-07-10, 19:47:40

Es kann sein, dass das von Charlie kam, aber ich meine mich erinnern zu könne, dass es auch in nem Video-Interview gesagt wurde. Hab auch mal danach gesucht, aber jetzt nichts gefunden.

Kann mich da aber eventuell auch falsch erinnern bzgl. GCN, wo es ja auch darum ging, dass man die DP-Leistung flexibel machen wird.

Ich schließe es also nicht kategorisch aus, aber meine mich eben daran erinnern zu können, dass ich das nicht nur dort gelesen/gesehen habe.

Ich hoffe man versteht, dass ich mir nicht zu allen Gerüchten/Quellen Notizen mache, um diese später nochmals nachprüfen zu können.

Ailuros

2011-07-11, 16:46:22

Es kann sein, dass das von Charlie kam, aber ich meine mich erinnern zu könne, dass es auch in nem Video-Interview gesagt wurde. Hab auch mal danach gesucht, aber jetzt nichts gefunden.

Tja ich wuerde es trotz allem ausser Charlie mal hoeren oder lesen koennen. Wie ich schon sagte wenn es von jemand von NV kam, dann aendert sich natuerlich einiges, aber ich hab es bis jetzt nur von Charlie lesen koennen und dieses lediglich eher als seine eigene Spekulation und nicht mehr.

Kann mich da aber eventuell auch falsch erinnern bzgl. GCN, wo es ja auch darum ging, dass man die DP-Leistung flexibel machen wird.

Eine verkorkste Idee waere einen getrennten bin zu haben fuer Teslas, aber dieses ist auch ziemlich aufwaendig und der chip kraenkelt dann woanders was eher absurd ist fuer ein Produkt das etliche tausend $ kosten soll.

Ich schließe es also nicht kategorisch aus, aber meine mich eben daran erinnern zu können, dass ich das nicht nur dort gelesen/gesehen habe.

Ich hoffe man versteht, dass ich mir nicht zu allen Gerüchten/Quellen Notizen mache, um diese später nochmals nachprüfen zu können.

Sicher es kann bei allen vorkommen. Wie dem auch sei, wenn jemand in der Zwischenzeit zu irgend einer Art Dokumentation seitens NV fuer full speed DP kommen sollte, ist sie mehr als willkommen. Ich hab im Hintergrund nachgefragt und man sagte mir von einer neutralen unabhaengigen (aber zuverlaessigen) Quelle dass es mit hoechster Wahrscheinlichkeit nur half rate sein kann. Sicher ist es natuerlich aber trotz allem nicht aber auf jeden Fall zuverlaessiger als Charlie's Hirngespinste falls es sich nur um diese handeln sollte.

V2.0

2011-07-11, 17:00:04

Ailuros

2011-07-11, 17:36:21

Fullspeed DP ist doch eine relative Aussage. Dies kann auch nur bedeuten, dass jede Recheneinheit, eine DP Instruktion pro Takt schafft. Das bedeutet aber nicht, dass diese Recheneinheit nicht auch Dual-Issue-SP in der gleichen Weise schafft.

Man kann aus SA Artikeln nicht mehr copy/paste vornehmen ohne sich eine Lizenz zu holen (pah....):

http://semiaccurate.com/2011/07/05/nvidias-kepler-comes-in-to-focus/

Erster Update, dritter Paragraph. Es klingt verdammt danach als ob er nur spekuliert. Anders er "denkt" an um die 750SPs (was aber dann wohl eher 768 sein wird) wobei man aber dann tatsaechlich full rate DP braucht um 2.5x Mal Fermi DP zu erreichen. Anders ein quasi "GF104" als high end welches mir total absurd klingt. 104/114 haben 8 SMS und 2 GPCs und ich kann mir nicht vorstellen dass der Fermi successor weniger SMs bzw. GPCs als Fermi haben wird.

Wenn schon denn schon eine GF1x4 abgeleitete These dann wohl schon eher etwas in der Richtung dass ich schon erwaehnt habe:

16 cluster mit jeweils 4*16SPs pro cluster, vielleicht 8 TMUs/cluster und 8 GPCs. Mit den etlichen +/- zwischen GF114 und "GK100" koennte das Resultat sehr wohl ein vergleichbares die estate mit Fermi/GF1x0 haben unter 28nm.

Auf jeden Fall klingt mir 4*16 SP <-> 2*16 DP eleganter als Idee als 3*16 DP/SP, ueberhaupt wenn man das restliche drum und dran bedenkt.

V2.0

2011-07-11, 17:52:24

Ich würde Fermi nicht zu sehr beachten.

Skysnake

2011-07-11, 18:16:19

Ailuros, BITTE nicht so ne verkorkste GF104 Architektur wieder :ugly:

Die Anzahl der Strem-Cores pro Unit ist mal EXTREM hässlich....

Für GPGPU ist das einfach nicht richtig zu gebrauchen. Ich musste mit dem drecks Teil dieses Semester arbeiten, und habe echt NUR gekotzt, weil die ganzen Zahlen keinen schönen gemeinsamen Teiler haben -.- Da ist es dann wirklich extrem schwer, sowohl Cache als auch Recheneinheiten gut aus zu lasten... Mit dem GF100/GF110 wäre das deutlich besser gegangen.

Ailuros

2011-07-11, 23:54:10

Ich würde Fermi nicht zu sehr beachten.

Wir reden immer noch ueber Kepler und nicht Maxwell oder?

Ailuros, BITTE nicht so ne verkorkste GF104 Architektur wieder :ugly:

Die Anzahl der Strem-Cores pro Unit ist mal EXTREM hässlich....

Für GPGPU ist das einfach nicht richtig zu gebrauchen. Ich musste mit dem drecks Teil dieses Semester arbeiten, und habe echt NUR gekotzt, weil die ganzen Zahlen keinen schönen gemeinsamen Teiler haben -.- Da ist es dann wirklich extrem schwer, sowohl Cache als auch Recheneinheiten gut aus zu lasten... Mit dem GF100/GF110 wäre das deutlich besser gegangen.

Erzaehl es nicht mir sondern Charlie; er ist derjenige der ~750 SPs vorschlaegt.

Hugo78

2011-07-12, 00:38:27

Zuletzt gab es immer eine ungefähre Verdoppelung.
G80 = 128 SPs
GT200 = 240 SPs
GF100/110 = 480/512 SPs

Da dürfte doch klar sein wohin die Reise geht.

Nightspider

2011-07-12, 00:51:47

Hoffentlich schafft man diesmal wirklich die doppelte Game-Performance, selbst wenn einige Transistoren für bessere Stromeffizienz oder Server-Features drauf gehen.

aylano

2011-07-12, 01:33:20

Zuletzt gab es immer eine ungefähre Verdoppelung.
G80 = 128 SPs
GT200 = 240 SPs
GF100/110 = 480/512 SPs

Da dürfte doch klar sein wohin die Reise geht.
Aber der Stromverbrauch zeigte mit so +25% auch eine Klare Richtung.
Dazu die gesteigerten Die-Größe

Sowohl GTX580 & GTX285 (=ausgreifte Produkte in Half-Mode) kamen 14 Monate nach RV870 & RV670.

Somit wäre ein Kepler mit 1024SP in 575-600 mm² und 300W @ Spiele ausgereift für Anf 2013 und unausgereift/non-Zielttakt Mitte 2012 (zum Kongress) die Logische Folgerung?

Das wäre eigentlich eine Katastrophe für Nvidia, wenn wenn wenn AMD dann schon Ende 2011 eine 28nm-Nen-GPU-Gen-HighEnd-GPU, in welchen Zustand auch immer, rausbringen könnte.

Vielleicht hat Nvidia bei Kepler die höchste Priorität in Energie- & Die-Effizienz sowie Frühe Einführung anstatt noch mehr Big-Features reinzupumpen, sodass im Vergleich zu den Vorgänger relativ wenig dazukam und somit ein Kepler ähnlich wie Fermi ein 500-525mm²-Die und ein 235-250 W-Spiele-Verbrauch möglich ist.

+25% Stromverbrauch könnte bei Fermi durch Tesselation erklärt sein.
Wo die so +25% von G80 --> GT200 daherkamen, kann ich noch nicht erkären.

Im Vergleich zum G80-->GT200-Umstieg, war der Die-Zuwachs trotz Tesselation bei GT200-->GF100 erheblich kleiner, sodass beim GT200 --> Kepler eine Die-Reduktion möglich ist?

Und einen verkürtzen Einführungs-Abstand zwischen Nvidia-High-End & AMD-High-End könnte auch durch einen größeren AMD-High-End-GPU möglich sein.

Wenn ich mir es so überlegen, dann könnte es bei Nvidia mit einem 1028SP-Kepler ziemlich kritisch werden.
Nicht so wegen der Die-Größe, sondern wegen dem Stromverbrauch, wenn sich Nvidia relativ viel Strom-Einsparungen durch HKMG erwartet hat, aber wegen den 28nm-HKMG-Problemen, gar nicht so viel möglich ist.
Bei 240W-Spiele-Verbrauch sind die Reserven erheblich geringer als noch mit 190W-Spiele-Verbrauch davor.

Andererseits kann ich mir Nvidia nicht so naiv vorstellen, indem sie alte Fehler nochmals wiederholen.

V2.0

2011-07-12, 06:53:00

580 (GF110) nutzt den gleichen Prozess wie 480 (GF100).

Eine Verspätung und einen hohen Energieverbrauch darf man aber trotzdem als gegeben ansehen.

Ob AMD allerdings davon profitieren kann wird man sehen müssen, da bei denen auch ein großer Technologiewechsel ansteht und man sich deutlich näher an NV annähert, wenn es um das ganz grobe Design geht. Ergo dürfte es aber auch schwerer werden gleiche Leistung mit einem kleinerne Die zu erreichen.

Hugo78

2011-07-12, 08:33:31

aylano

2011-07-12, 10:54:22

Vorstellbar wäre natürlich wieder ein Fermi Szenario.
Target 1024Sps, aber GK100 kommt dann doch erst nur mit 960 oder gar nur 896SPs.

Kam mir auch so in den Gedanken.

Ein teildeaktivierter Kepler hätte den Vorteil nicht nur (viel) früher & besser am Markt zu sein, sondern 6-9 Monate später kann Nvidia mit einer ausgereiften Fertigung so +15-20 in der Performance mittels eines "kleinen Updates" zulegen.

V2.0

2011-07-12, 11:06:00

Und wer sagt, dass nicht GK104 als erster erscheint.....

aylano

2011-07-12, 11:39:34

Bis jetzt keiner

Ich bin "nur" den Gedanken-Weg von Hugo78 weitergegangen, der die verdoppelte SP-Anzahl aufzählte.

Aufgrund der erheblichen Fermi-Verzögerungen und darausfolgenden Fermi-Junior (GF106 & GF108) Verzögerungen, muss man sich die Frage stellen, warum Low-End & Mainstream nicht als erster rauskommen.
Wobei das bei der GK104-Variante vielleicht am meisten Sinn mancht, Low-End & Mainstream mit GK104 gleichzeitig rauszubringen

Das hatte ich schon bei SI angesprochen.
Gleichzeitig könnte deshalb möglich sein, weil GK104 mit ihrer Größe eher 1. Stepping mehr für bessere Yield braucht, als Low-End & Mainstream.

Wobei man diesen Schritt ablösen kann, wenn man einfach 28nm-Shrinks für Low-End & Mainstream rausbringt.
Aber IMO das merkwürdige ist aus momentaner Sicht, dass es diesen Schritt wahrscheinlich nicht geben wird.

Gaestle

2011-07-12, 13:58:28

Ich vermute, die nächste NV-Generation wird noch sehr viel mit Fermi zu tun haben.

Als Gründe sehe ich die

a) die immensen Entwicklungskosten der GF100-Reihe, die ja noch reingespielt werden müssen

b) die längeren Entwicklungszyklen wegen den hohen Entwicklungskosten und der stetig steigenden Chipkomplexität (klar, früher haben sie die Chips auch nicht an einem Tag entworfen)

und daraus resultierend
c) die Strategie der Vergangenheit
NV40 - 3 Generationen (6800, 7800, 7900)
G80 - 4 Generationen (8800, G92, GT200A, GT200B)
GF100 - bislang erst 2 Generationen (GTX400, GTX500)
falls ich nichts vergessen habe.

[Edith:] Mist, zu spät, dafür aber mit der Erwartung, dass der Stromverbrauch sowohl bei NV als auch bei AMD um einen sichtbaren Anteil steigen wird.

Dural

2011-07-12, 14:06:44

16 cluster

64SP / 1024SP
8TMUs / 128TMUs

64ROPs

800/1600MHz

2,5TF SP / 1,25TF DP

Bei rund 280Watt :freak:

Hoffentlich schafft man diesmal wirklich die doppelte Game-Performance, selbst wenn einige Transistoren für bessere Stromeffizienz oder Server-Features drauf gehen.

wie so diesmal? das gab es doch fast immer: G71 auf G80 sind es rund 80%, von G80 auf GT200b sind es rund 80% und von GT200 auf GF110 sind es rund 80% :) obwohl der GT200 etwas geschwächelt hat kann man aktuell GF110 sehr gut mit dem G80 in dieser hinsicht vergleichen

V2.0

2011-07-12, 14:23:46

Coda

2011-07-12, 15:38:59

Wenn du G80 und GT200 zusammenmischt, dann solltest du das auch bei NV30 und NV40 tun.

aylano

2011-07-12, 16:02:14

Mit kleinen Chips anfange lohnt sich nur, wenn das Problem alleine beim Chipdesign liegt und die kleinen Chips nicht betroffen sind. Liegt das Problem aber auch oder primär bei der Foundry, dann hilft das wenig, denn man hat zwar mehr Chips, diese haben aber ne schlechtere Gewinnmarge und treten gegen die Vorgängergeneration an, während man immer noch hohe Preise für die Wafer des neuen Verfahrens zahlt.

Wenn der Preis anhand der Performance-pro-Watt (Notebook) bzw. Performance (Destkop) angepasst wird, dürfte die Gewinn-Marge nicht sinken, wenn die Performance-pro-Watt mit dieser neuen Fertigung entsprechend steigt.

Dazu könnte man die kleinen Teil-deaktivierten GPUs bei OEMs besser "verramschen".

Aber die kleinen GPUs zuerst zu verkaufen, wäre IMO ein großer Schritt in der Verkaufsstrategie.

Als Gründe sehe ich die

a) die immensen Entwicklungskosten der GF100-Reihe, die ja noch reingespielt werden müssen

b) die längeren Entwicklungszyklen wegen den hohen Entwicklungskosten und der stetig steigenden Chipkomplexität (klar, früher haben sie die Chips auch nicht an einem Tag entworfen)

und daraus resultierend
c) die Strategie der Vergangenheit
NV40 - 3 Generationen (6800, 7800, 7900)
G80 - 4 Generationen (8800, G92, GT200A, GT200B)
GF100 - bislang erst 2 Generationen (GTX400, GTX500)
falls ich nichts vergessen habe.

Grundsatzlich gab es mit G80 --> G92 --> GT200 --> GT212 immer Architektur-Verbesserungen, wo es auf der G80-Architektur basierte.

Wenn man sie die letzten 2 Generation Ansicht, dann gabs es im 3 Jahres-Rhytmus zuerst quasi die Einführung der Architektur und dann in der Mitte (=1,5 Jahre) das Update.

Das Update hatte so quasi eine Verdopplung der "Shaders" sowie eine kleinere Fertigung.
Aber das Update hatte keine Verdopplung der "Clusters", sondern auch zusätzlich eine "Shader"-Steigerung pro "Cluster"

6000er-->7000 ... 4 auf 6 Quads
G92-->GT200 ... 8 auf 10 Cluster

Aus der Sicht, wäre Kepler ein Fermi-Update mit 960 Shaders.
GF100 --> GK100 ... 16 auf 20 Cluster und 32 auf 48 SP-pro-Cluster

Kepler als Fermi-300mm²-Shrink kann ich mir jetzt nicht mehr so vorstellen.
Wenn, wäre er IMO mit 32nm logischer. (siehe G92 (reife Fertigung) sowie den gecancelten GT212 (unreife Fertigung))
Aber da 32nm eine unreife Fertigung war, könnte er wie GT212 gecancelt worden sein.

PS: Klingt ja eigentlich sehr logisch. Gäbe es da einen Hacken?

V2.0

2011-07-12, 16:50:03

32nm gab es nie bei TSMC im realen Einsatz.

aylano

2011-07-12, 18:39:34

Kein Wunder, da er schon recht früh gecancelt wurde.

Wenn welche geplant waren, dann müssten sie schon recht lange in Arbeit gewesen sein, auch wenn sie es dann doch nicht aufs Silicium schafften.
Die Frage ist ob, aber das könnten andere eventuell wissen.

Ailuros

2011-07-12, 22:13:58

Vorstellbar wäre natürlich wieder ein Fermi Szenario.
Target 1024Sps, aber GK100 kommt dann doch erst nur mit 960 oder gar nur 896SPs.
Nach den letzten Meldungen über die niedrige 28nm Yield wäre das auch gar keine schlechte Option.
Und GK110 will ja auch noch was zutun bekommen. *g*

Binning Probleme hatten ueberhaupt nichts mit dem Herstellungsprozess bzw. Chip-komplexitaet zu tun. GF100 hatte nur 15 cluster eingeschaltet wegen dem inter-die connectivity Problem und nichts anderes. Da das Problem mit 16SMs und 10% hoeherer Frequenz und leicht niedrigerem Stromverbrauch auf GF110 nicht existiert, erklaert mir mal wieso es nochmal passieren sollte?

Auszuschliessen ist es zwar nicht, aber man wird ja wohl nicht soooo bloed sein und das abkacken dass man gerade gefixt hat oder?

Das muss aber nicht heißen, dass 28nm wieder so laggy wird wie 40nm.

Ach ja wieso denn? Der Wind aus Taiwan riecht alles andere als gut und davon werden beide IHVs betroffen sein.

Und so dramatisch anderes als Fermi wird Kepler sicher auch nicht.

*ding ding ding* zurueck zum ersten Paragraph :P:P:P

PS: Klingt ja eigentlich sehr logisch. Gäbe es da einen Hacken?

Ja siehe oben.

16 cluster

64SP / 1024SP
8TMUs / 128TMUs

64ROPs

800/1600MHz

2,5TF SP / 1,25TF DP

Bei rund 280Watt :freak:

Und wie viel Speicherfrequenz auf dem angeblichen 512bit bus? :D

Wenn du G80 und GT200 zusammenmischt, dann solltest du das auch bei NV30 und NV40 tun.

G80 war bis zu 3.0 Mal schneller wenn nicht mehr als G71 und das mit um einiges hoeherer Bildqualitaet; solche Phaenomaene sind selten und treten bei jeglichem IHV hoechstwahrscheinlich nur einmal jedes Jahrzehnt auf. Ich sehe in diesem Aspekt keine Parallele zwischen GF110 und GT200.

Die positiven Aspekte fuer Kepler sind dass NV diesmal keinen DX11 Feature-Overhead sprich zusaetzliche Transistoren hat und natuerlich dass 40 zu 28 eigentlich zwei full nodes Abstand ist vereinfacht und nicht nur einer.

Bevor hier einige bunte Prognosen auf die Beine versuchen zu stellen, man sollte hier erstmal wissen wieviel die GCN Aenderungen fuer AMD/SI kosten und ob wirklich alles auf Anhieb so wie projeziert laeuft (es reicht oefters wenn nur der compiler abkackt als Beispiel). Kurz NV wird wahrscheinlich nichts grossartiges in Kepler aendern und dieses heisst automatisch auch ein kleineres insgesamt Risiko.

Im schlimmsten Fall kommt eben AMD wieder frueher, kleiner und effizienter an waehrend Jensen sich wieder fuer seinen Holzschrauben-moment vorbereitet ;D

Gaestle

2011-07-12, 22:29:45

Wenn du G80 und GT200 zusammenmischt, dann solltest du das auch bei NV30 und NV40 tun.

Also in meinem Verständnis war der GT200 im Wesentlichen ein breiterer G80. Liege ich damit so falsch? Wenn nein: Waren NV30 und NV40 auch so eng zusammen?

Wenn NV30 mit zur NV40-Linie zu zählen wäre (oder eher andersrum), hätte die ... Moment ... CineFX-Architektur vier Modelle:
NV30
NV35
NV40/45
G70/71 (G70 / G71 hatte ich ursprünglich separat gezählt).

@aylano:
Die kleineren Architektur-verbesserungen (die manchmal große Wirkung hatten, siehe die NV30 -> NV40 Verbindung, die Coda angedeutet hat), habe ich nicht in Frage gestellt. Und so super exakt war es sowieso nicht. Mir ging es eher ums Grundprinzip, und dass sie vermutlich (aus wirtschaftlichen Gründen) die Fermi-Architektur weiter nutzen (müssen?). Natürlich mit Verbesserungen, aber im Grund "immer noch viel Fermi". Wenn meine Vermutung halbwegs realistisch sein sollten, müsste außerdem nach der kommenden Generation (Kepler?) noch ein weiterer Fermi-Ableger im High-End-Bereich kommen. Ob das dann schon Maxwell ist, oder irgendetwas, was vor Maxwell aber nach Kepler kommt ...

So oder so werden sie wohl (wie Dural schon geschrieben hat) für das kommende Modell mehr oder weniger 80% Steigerung ggü. 580GTX anpeilen und vor allem in hohen Auflösungen auch liefern. Es wird mehr Strom kosten und Verfügbarkeit wird zu Beginn schlecht sein. So trivial wie es ist, aber es werden keine Wunder geschehen.
Aber AMD wird auch nicht zaubern können.

@Ail: IMHO sprach Coda nirgends von G80 vs. G71, oder habe ich was übersehen?

aylano

2011-07-12, 23:08:03

@aylano:
Die kleineren Architektur-verbesserungen (die manchmal große Wirkung hatten, siehe die NV30 -> NV40 Verbindung, die Coda angedeutet hat), habe ich nicht in Frage gestellt.
Dein Gedankengang war mir sehr hilfreich, da ich die Entwicklung vor G80 nicht so kenne. Da sah ich erstmals parallelen zu G80-Gt21x.

Nachdem einige die Meinung abgegeben haben, dürfte wir einer Meinung sein, dass Kepler keine großen Zusatz-Maßnahmen erhält und eher in Effizienz (Performance, Die-Größe, Stromverbrauch, oder was auch immer)

Binning Probleme hatten ueberhaupt nichts mit dem Herstellungsprozess bzw. Chip-komplexitaet zu tun. GF100 hatte nur 15 cluster eingeschaltet wegen dem inter-die connectivity Problem und nichts anderes. Da das Problem mit 16SMs und 10% hoeherer Frequenz und leicht niedrigerem Stromverbrauch auf GF110 nicht existiert, erklaert mir mal wieso es nochmal passieren sollte?

Auszuschliessen ist es zwar nicht, aber man wird ja wohl nicht soooo bloed sein und das abkacken dass man gerade gefixt hat oder?
...
Ach ja wieso denn? Der Wind aus Taiwan riecht alles andere als gut und davon werden beide IHVs betroffen sein.

Irgendwie ein Widerspruch in sich.

Einerseits wird Nvidia nicht nomal den selben Fehler machen, aber andererseits ist die 28nm-Fertigung schlecht bzw. riecht alles andere als gut.

Schon kurz nach GT200-B3 sagte ich, dass Nvidia nicht nochmal den selben Fehler machen werden, sondern bei einem Fehleranfälligen Design eben andere Fehler schneller/schwerwiegender auftreten.

Beim 40nm wars Binning.
Was war noch mal der Grund, warum Nvidia 1 Jahr nach AMD-RV670 ein GT200-B3-Stepping brauchte?
Und was war noch mal der Grund, warum Nvidia mit GT200-65nm nicht das Takt-Ziel erreichte?

Ich denke, wir stehen wieder vor der selben Situation.

Eventuell hat Nvidia ein Fehleranfälliges Desgin, und könnte wieder ernsthafte Probleme bekommen.
Oder AMD hat wegen der damals eigenen Fabriken, so viel Know-How, dass sie (viel) schneller sowie sehr problematische Fertigungen besser handeln können.

Aber wie du es schon andeutest.
GCN könnte nicht nur größer werden, sondern vielleicht auch ein generell komplizierteres Design, was dann schwerer in eine reife Fertigung zu bringen ist.
Oder eben nicht.

Da heißt es ja abwarten, da der Sprung bei GCN viel zu groß ist.
Genauso bei Bulldozer, der auch so extrem lang entwickelt wurde bzw. etwas länger.

Hugo78

2011-07-12, 23:09:49

*ding ding ding* zurueck zum ersten Paragraph :P:P:P

Kurz NV wird wahrscheinlich nichts grossartiges in Kepler aendern und dieses heisst automatisch auch ein kleineres insgesamt Risiko.

Ja, was jetzt?

Überhaupt ... was ist dir denn über die Leber gelaufen?
Teildeaktivierte Chips wären doch das Mittel der Wahl um mehr verkaufen zukönnen, bei anfänglich schlechter Ausbeute.
Auch wenn der Chip selber keine Probleme hat, die dazu zusätzlich zwingen würden.

Und ob der 28nm gut oder schlecht wird, woher soll ich das wissen?!
Nur steht es ebend nicht in Stein gemeißelt, dass er wieder so kacke sein muss. (die Hoffnung stirbt ja bekanntlich zuletzt)
Aber bitte erleuchte er mich mit zusätzlichen Infos, wie es um den 28nm in Q1 2012 steht.

Skysnake

2011-07-13, 00:18:13

Naja, AMD scheint ja ganz optimistisch zu sein, und auch ansonsten hört man bis jetzt ansonsten nichts negatives über den 28nm Prozess bei TSMC.

Es kann schon sein, dass Nvidia es einfach wieder verbockt hat. Die Chips sind ja nicht wirklich trivial....

Beim GF100 hatten Sie ja auch einfach das Problem, dass die OnChip-Interconnects einfach nicht funktioniert haben, also gar nicht :ugly: Da wars auch klar, dass dann beim Refresh die Verlustleistung zu hoch ist. Da schmeist man dann ja das Zeug unter Zeitdruck mehr oder weniger einfach nur noch irgendwie drauf, dass es halt funktioniert. Man hat ja auch das Design praktisch komplett ausgereizt gehabt...

Darin sehe ich halt auch ein Problem beim GF100. nVidia ist direkt an die absolute Grenze des machbaren gegangen, weil die Masken für den einzelnen Chip gar nicht größer sein konnten :ugly:

dildo4u

2011-07-13, 00:35:30

Skysnake

2011-07-13, 01:10:05

Sagt wer :ugly:

Also nach allen Andeutungen kommt zumindest in gewissen Teilen eine komplett neue Architektur noch dieses Jahr.

Nightspider

2011-07-13, 01:54:53

dildo4u

2011-07-13, 02:37:39

Sagt wer :ugly:

Also nach allen Andeutungen kommt zumindest in gewissen Teilen eine komplett neue Architektur noch dieses Jahr.
http://hardforum.com/showthread.php?t=1622024

Brillus

2011-07-13, 02:46:44

http://hardforum.com/showthread.php?t=1622024
Das stütz aber gerade Skysnakes Aussage.

Skysnake

2011-07-13, 03:56:46

ja, ich verweise mal ganz dezent auf die rechte obere Ecke ;)

Ailuros

2011-07-13, 08:49:20

Ja, was jetzt?

Überhaupt ... was ist dir denn über die Leber gelaufen?

Gar nichts. Ich sehe lediglich ein Loch in der obrigen Logik...

Teildeaktivierte Chips wären doch das Mittel der Wahl um mehr verkaufen zukönnen, bei anfänglich schlechter Ausbeute.
Auch wenn der Chip selber keine Probleme hat, die dazu zusätzlich zwingen würden.

GF100 hatte aber ein architektur-bedingtes Problem welches nicht erlaubte alle 16SMs zu aktivieren. Da dieses aber seit GF110 nicht mehr existiert, ist es eher unwahrscheinlich dass sie das korrigierte nochmal verpatzen.

Und ob der 28nm gut oder schlecht wird, woher soll ich das wissen?!
Nur steht es ebend nicht in Stein gemeißelt, dass er wieder so kacke sein muss. (die Hoffnung stirbt ja bekanntlich zuletzt)

Es gibt einen sehr grossen Unterschied zwischen Architektur-bedingten und Herstellungs-Prozess bedingten Problemen. GF100 hatte beides gleichzeitig. Wenn jetzt die yields bei 28nm zu beschissen sein sollten, dann wird NV die Herstellung so lange verzoegern bis die yields auf dem Nivaeu liegen bis es sich erstmal lohnt herzustellen.

Nochmal NV haette auch in Q4 09' in die Herstellung gehen koennen mit 15 SM/GF100 nur haette dank niedriger yields der chip so viel gekostet dass sie nur rote Zahlen generiert haetten. Haetten sie damals hergestellt haette sie jeder chip in Q4 09' fast $200 gekostet; ergo warteten sie auf Q1 2010 schmierten noch ein A3 drauf und stellten am Anfang bei ungefaehr $120 her. Dieses kann sich diesmal durchaus wiederholen da Kepler wohl nicht winzig sein wird; es hat aber nach wie vor nichts mit Architektur-bedingten Problemen zu tun.

Aber bitte erleuchte er mich mit zusätzlichen Infos, wie es um den 28nm in Q1 2012 steht.

Siehe oben. Die yields werden nicht besonders gut sein am Anfang nach allen Indizien. Wenn Kepler wieder irgendwo zwischen 480-520mm2 liegen sollte (Zahl frei erfunden), dann koennten guite Chancen bestehen dass sich NV nicht mit dem Zeug vor Q1 in die Produktion wagt oder anders genau zum Zeitpunkt wo sich die yields verbessern. Fuer so einen grossen chip muessen die yields nach meiner Schaetzung zumindest irgendwo um die 50% liegen damit es sich lohnt. Irgendwo zwischen 30 und 45% ist ein definitives no no.

Irgendwie ein Widerspruch in sich.

Einerseits wird Nvidia nicht nomal den selben Fehler machen, aber andererseits ist die 28nm-Fertigung schlecht bzw. riecht alles andere als gut.

Wie ich oben schon Hugo erklaerte man muss Architektur-bedingte und Prozess-bedingte Probleme auseinander halten.

Schon kurz nach GT200-B3 sagte ich, dass Nvidia nicht nochmal den selben Fehler machen werden, sondern bei einem Fehleranfälligen Design eben andere Fehler schneller/schwerwiegender auftreten.

Kein GT200 hatte keine so ernsthafte Architektur-bedingte Probleme wie GF100.

Was den Prozess betrifft ging GT200@65nm mit allen clusters aktiviert in die Produktion mit 62,5% yields. GF100@40nm ging mit einem Quartal Verspaetung in die Produktion mit ca. 50+% yields.

Den problematischen interdie-connect im GF100 gab es nicht in vorigen Designs.

Beim 40nm wars Binning.

Nein es wahr eine Kombination von interdie-connectivity (Architektur-bedingt), schlechten yields (Prozess-bedingt) und zu maessiger TSMC Kapazitaet (TSMC-bedingt). NV verzoegerte sogar Tegra2@49mm2 unter 40G obwohl dieser seinen tape out schon Ende 2008 hatte. Tegra2 ging Hand in Hand mit GF100 in die Produktion. Warum wohl?

Was war noch mal der Grund, warum Nvidia 1 Jahr nach AMD-RV670 ein GT200-B3-Stepping brauchte?

GTX295; wie sonst stellt man ein solches Ding auf die Beine mit einem ~290W TDP?

Und was war noch mal der Grund, warum Nvidia mit GT200-65nm nicht das Takt-Ziel erreichte?

Welches war denn Deiner Meinung nach das Taktziel genau in GT200/65nm? Selbst G80 hatte einen respin bekommen fuer die 8800 Ultra um dort 1.5GHz zu erreichen.

Eventuell hat Nvidia ein Fehleranfälliges Desgin, und könnte wieder ernsthafte Probleme bekommen.
Oder AMD hat wegen der damals eigenen Fabriken, so viel Know-How, dass sie (viel) schneller sowie sehr problematische Fertigungen besser handeln können.

AMD's chips sind bis jetzt kleiner ausgefallen. AMD ging schon in 2009 in die Produktion mit Cypress weil dieser damals ungefaehr pro Stueck um die $110-120 gekostet hat ihn herzustellen. Im Vergleich zu den fast $200 pro GF100 in Q3/4 2009 ist das vorige schon ein brutaler Unterschied.

Wie zum Teufel willst Du aus einem $200 chip keinen Schaden einbussen wenn Du davon auch bins fuer GTX470 brauchst? Die einzige Loesung waere dann jegliche Variante so teuer zu verkaufen dass das Resultat so brutal laecherlich ist was das Preis-/Leistungs-Verhaeltnis zur Konkurrenz betrifft dass es nicht mehr schoen ist.

Selbst AMD hat die 40G yields anfangs unterschaetzt und genau deshalb wurden nachtraeglich nochmal $20 Aufpreis auf die 5950-er gesteckt.

In Q1 2010 als die yields sich um einiges verbessert haben, kostete jeder Cypress um die $75-80 und jeglicher GF100 um die $110-120.

Ich hab's schon mal gepostet und das Zeug bekam ich in Q3 2009 vertraulich direkt von jemand bei TSMC. Heutzutage kann man das Zeug wohl schon posten.

Wenn man schlau ist kann man eventuell sogar ausrechnen was jeder der beiden IHVs ungefaehr pro wafer bezahlt hat und man wird leicht sehen dass keiner der beiden "pro operativem chip" bezahlt oder im genau umgekehrten Fall tausend von $ pro chip wenn die yields beschissen sind. Beider IHVs Vertraege scheinen beide Seiten quasi zu schuetzen von zu extremen Faellen. NV duerfte einen kleinen Bonus haben dank hoeherer Vorbestellung.

Aber wie du es schon andeutest.
GCN könnte nicht nur größer werden, sondern vielleicht auch ein generell komplizierteres Design, was dann schwerer in eine reife Fertigung zu bringen ist.
Oder eben nicht.

Wenn AMD schon andeutet dass sich noch dieses Jahr etwas erwarten wird wohl alles nach Plan gelaufen sein. Es scheint trotz allem ein groesseres Risiko zu sein.

Da heißt es ja abwarten, da der Sprung bei GCN viel zu groß ist.
Genauso bei Bulldozer, der auch so extrem lang entwickelt wurde bzw. etwas länger.

Wenn SI genauso klein und effizient wie seine Vorgaenger ist, hat NV wohl genau das gleiche Problem wie schon seit RV770; anders es wird sich wohl die gleiche Geschichte mit jeweils anderen Bedingungen wiederholen *gaehn*

Gaestle

2011-07-13, 14:16:53

Wenn Kepler die Fermi-Architektur in verbesserter UND verbreiterter Form weiter nutzt (was IMHO zu erwarten ist), sind Design-Probleme zwar nicht ausgeschlossen, aber eben auch nicht sehr wahrscheinlich. Aber dazu habe ich bislang noch keine Infos gelesen.

Wenn CoreNext ein neues Design ist, sind Designprobleme zwar wahrscheinlicher, müssen deswegen aber trotzdem nicht zwingen eintreten. Und offenbar sind keine probleme TROTZ neuem Design aufgetreten.

Ergo sind beide Designs anscheinend relativ problemlos über die Bühne gegangen.

Für mich stellt es sich so dar, dass der DIE von Kepler größer als der von AMDs CoreNext ist. Da beide auf dem gleichen TSMC-Prozess produzieren, kann AMD wahrscheinlich eher raus kommen, weil sie durch die geringere DIE-Größe wahrscheinlich eher produktionsfähige Yields erreichen.

In dem Zusammenhang nochmal ein explizites Dankeschön an Ailuros, war sehr interessant, die konkreten Zahlen zu lesen.

und auch ansonsten hört man bis jetzt ansonsten nichts negatives über den 28nm Prozess bei TSMC.

Allerdings predigt Ailuros ja schon seit ein paar Wochen, dass es aus "Taiwan nicht so gut klingt". Das bedeutet für mich, dass TSMC Probleme mit dem 28nm-Prozess hat, was ja aber auch nichts ungewöhnliches ist, bei so komplexen Designs auf einem neuen Prozess.

Skysnake

2011-07-13, 15:22:00

Dural

2011-07-13, 16:24:06

wie so diesmal? das gab es doch fast immer: G71 auf G80 sind es rund 80%, von G80 auf GT200b sind es rund 80% und von GT200 auf GF110 sind es rund 80% :) obwohl der GT200 etwas geschwächelt hat kann man aktuell GF110 sehr gut mit dem G80 in dieser hinsicht vergleichen

Imho hat der G80 nen größeren Sprung als 80% gemacht und der GF100 teilweise einen kleineren, da zu wenig TMUs.
In Crysis war ja sogar ne HD5870 vor der GTX480.

7900GTX vs 8800GTX
Rating 1600x1200 4xAA/16xAF
86%

http://www.computerbase.de/artikel/grafikkarten/2006/test-nvidia-geforce-8800-gtx/28/#abschnitt_performancerating_qualitaet

GTX285 vs GTX580
Rating - 1920x1200 4xAA/16xAF
rund 85%

http://www.computerbase.de/artikel/grafikkarten/2010/test-nvidia-geforce-gtx-480/21/#abschnitt_performancerating_qualitaet

plus / minus exakt die selbe Leistung! ;)

AnarchX

2011-07-13, 16:36:04

Ein halbes Jahr später sah es schon so aus:
http://www.computerbase.de/artikel/grafikkarten/2007/test-nvidia-geforce-8800-ultra/24/#abschnitt_performancerating_qualitaet

8800 GTX ~150%
8800 Ultra ~180%

Die GTX 580 kommt mit ihren +16% Leistung auf etwa 100% Mehrleistung, dass aber ~ 28 Monate nach dem Release der GTX 280.
Die 7900 GTX war zum 8800 Ultra Launch gerade mal ~15 Monate alt.

Dural

2011-07-13, 16:38:29

ist doch normal... neuere chips legen in der regel immer deutlich bei neueren spielen zu :)

Gerade auch mit 8AA drüfte GF110 kreise um GT200 ziehen, da sind es im durchschnitt über 100% :)

zudem G71 nicht gerade der High End Chip war, GT200A ist bis heute die grösste GPU die es jemals gab ;)

Gaestle

2011-07-13, 17:34:17

Naja, es fragt sich eben WO und WIE die Probleme bestehen.

nVidia hat wahrscheinlich noch immer einen komplexeren Interconnect auf seinen Chips, und naja, größere Chips machen mehr als linear ansteigende Probleme.

Naja, und es kommt halt dann noch drauf an, wie Fehleranfällig das eigene Design gegen Produktionsschwankungen ist. Da kann man verdammt viel falsch machen, wenn man zu kleine Tolleranzen einplant.

Kann also schon sein, dass einfach durch die Eigenheiten des nVidia Designs es mehr Probleme gibt. Ich vermute nämlich auch, dass Sie wieder die Chipgröße komplett ausreizen, obwohl man eigentlich inzwischen erkannt haben sollte, dass das eine VERDAMMT schlechte Idee ist bei einem neuen Produktionsverfahren...

Fang doch mal, die Äußerungen von anderen auch zur Kenntnis zu nehmen.

Du erzählst, dass es vom TSMC keine schlechten Nachrichten gäbe, Ailuros, der i.d.R. sehr gut infomiert ist, erzählt seit Wochen das Gegenteil!

Einige erzähle Dir, dass Kepler im Wesentlichen ein Fermi-Design ist, und Ailuros erzählt Dir gleichzeitig, dass das Interconnect-Problem mit GF110 gelöst ist und wohl einmal gelöste Probleme nicht nochmal auftreten, wenn es sich um das gleiche Grunddesign handelt. Und Du kommst wieder mit dem großen "ABER der Interconnect".

Nvidia baut schon lange Designs an der Grenze des Machbaren, bei NV30 ist es daneben gegangen, oder vielmehr, ATI hatte einen außergewöhnlich exorbitant guten Wurf gelandet, aber auch NV40, G80, GT200, GF100 ... alles riesen DIEs für die jeweiligen Prozesse. Kritische Prozesse gibt's auch nicht erst seit drei Wochen, wenn ich da z.B. an den ebenfalls kritischen 130nm-Prozess denke, wo es auch vor allem NV betraf. Die fahren diese Strategie also schon ein paar Jahre und ich gehe davon aus, dass sie sehr genau wissen wie es geht und dass sie sehr gute Gründe haben, das so zu machen, wie sie es machen.

Die Leier mit der "VERDAMMT schlechten Idee" hören sie sich seit Jahren von den immer gleich gestrickten Leuten an, und? Schau Dir die Erfolge von NV40, G70, G80, GT200 und ja, auch von GF110 an und erzähle einfach immer weiter was von "VERDAMMT schlechte Idee". Wer im Wettbewerb der Beste sein will, muss hart am Wind segeln. Und der zweitbeste, naja, der regelt's eben über den Preis.

Skysnake

2011-07-13, 18:43:22

Ein Chipdesign das in 40nm funktioniert, muss aber nicht mehr so gut in 28nm funktionieren, oder kann sogar komplett versagen.

Du musst ja bedenken, dass die Quanteneffekte je kleiner du wirst immer mehr zu tragen kommen. Und GENAU deswegen bleiben die Interconnects noch immer kritisch. Die Tunnelströme erhöhen sich nämlich nochmals, und die Leiterbahnen sind ja vergleichsweise verdammt lange. Das kann sich dann schon sehr aufsummieren.

Auch wird das übersprechen etc. auch immer kritischer bei kleineren Strukturen.

Ganz so einfach ist es eben nicht mehr, wenn man bei so kleinen Strukturen angekommen ist, wie wir aktuell.

Und es ist auch immer eine Frage, wie die Probleme bei TSMC aussehen. Angefangen von Verzerrungen etc. durch Temperaturschwankungen, über nicht 100% funktionierende Filter bis hin zu Problemen mit den Masken.

Es gibt also Probleme die können alle Kunden von TSMC treffen und welche die eben nur eine Anlage betreffen. Manche Probleme hängen eventuell auch von der Größe des DIEs/Positionierung der DIEs auf dem Wafer. Wenn irgend nen Fehler auf der Maske ist, ist halt min 1 Chip fürn Arsch. Das trifft einen bei großen DIEs härter als bei kleinen.

Auch ein Fehler an den Spiegeln trifft dich bei kleinen DIEs im Allgemeinen weniger hart als bei großen.

Was ich damit sagen will ist, große DIEs sind anfälliger als kleine, und das in jedem Belang.

Am Anfang gibt es immer kleinere oder größere Schwierigkeiten, und damit rechnet man auch. Für 2 Chips kann das aber einmal bedeuten, dass man noch gewinnbringend produzieren kann, und das andere mal, dass man eben drauf legt.

|MatMan|

2011-07-13, 18:58:35

Das ist doch alles bekannt! Die Leute designen / produzieren nicht erst seit letzter Woche Chips. Du bist nicht der Erste dem diese Problemquellen und noch viel mehr einfallen... :rolleyes:

Der "Interconnect" könnte aber wirklich ein interessanter Punkt sein. Nicht wegen den GF100 Problemen, sondern weil sich besonders beim Thema "Datenlokalität" noch einiges tun wird bei zukünftigen GPU Designs, u.a. auch wegen dem Stromverbrauch...

Skysnake

2011-07-13, 19:04:14

Das ist mir auch klar...

Es geht nur darum, dass man nicht ganz trivial ein funktionierendes Design in 40nm nimmt und halt in 28nm packt und es funktioniert. Das kann eben auch in einem mehr oder weniger nicht funktionierenden Chip resultieren.

Ergo muss man da eben doch Hand an legen, und das ist dann halt wieder eine Quelle für Fehler. Zudem ist es gar nicht so einfach die ganzen Effekte die auftreten wirklich richtig zu quantifizieren. Irgendwo nen kleiner Fehler in den Algorithmen etc etc. und schon hat man die Scheiße am dampfen.

Ich wundere mich eh, warum so ein "Debakel" wie beim GF100 inzwischen nicht öfters passiert. Die Strukturgrößen werden ja einfach immer extremer. Und wie schnell ein Fehler sich einschleichen kann hat man ja an Intels Sata-Gate-Bug gesehen.

Für die Zukunft erwarte ich solche Sachen sehr viel öfters, wenn nicht gar in jeder Generation.

kruemelmonster

2011-07-13, 19:59:21

Auch ein Fehler an den Spiegeln trifft dich bei kleinen DIEs im Allgemeinen weniger hart als bei großen.

Was ich damit sagen will ist, große DIEs sind anfälliger als kleine, und das in jedem Belang.

Nicht in jedem Belang. IIRC hat Ailuros mal geschrieben, das NV die Transistoren wie AMD auch enger packen könnte und so ebenfalls kleinere DICE erzielen würde. Sie packen aber absichtlich nicht so eng und nehmen größere DICE in Kauf um einen "luftigeren" Chip zu haben der sich dann eben problemloser herstellen lässt. Man schaue sich dazu nur den Transistorcount an...

Kurzum: beide IHVs haben fähigere Leute als dich und mich um solche Sachen zu beurteilen, und beide kochen nur mit Wasser. Das Architekturproblem Interconnect ist mit GF110 gelöst und Prozessprobleme bekommen immer beide zu schmecken. Jeder versucht halt auf seine Weise damit klar zu kommen.

Ich persönlich bin sehr gespannt wie der mit Fermi gelegte und sehr gelungene Grundstock weiter ausgebaut und hochskaliert wird, der Werdegang vom G80 zum GT200 war ja auch sehr interessant.

Skysnake

2011-07-13, 20:29:17

Klar, aber es ist eben alles andere als trivial, und wo etwas nicht trivial ist, können auch Fehler passieren, die man erst sieht, wenn das Produkt vom Band laufen sollte.

Auf Hardwareluxx.de (http://www.hardwareluxx.de/index.php/news/hardware/grafikkarten/19210-tsmc-verspricht-massenproduktion-von-28-nm-chips-noch-in-diesem-jahr-zu-starten.html) gibts btw. ne Meldung, dass TSMC weiterhin daran festhalten will, in Q3 mit der Massenproduktion zu starten. Je nach dem, ob Sie damit die nächsten Wochen meinen oder halt den letzten Tag von Q3, kann es für AMD vielleicht wirklich noch reichen, zumindest kleinere Stückzahlen in den Handel zu bringen vor Weihnachten.

Gipsel

2011-07-13, 20:33:14

IIRC hat Ailuros mal geschrieben, das NV die Transistoren wie AMD auch enger packen könnte und so ebenfalls kleinere DICE erzielen würde. Sie packen aber absichtlich nicht so eng und nehmen größere DICE in Kauf um einen "luftigeren" Chip zu haben der sich dann eben problemloser herstellen lässt. Man schaue sich dazu nur den Transistorcount an...Oder die Taktfrequenzen. Man sollte nicht vergessen, dass nicht nur das Pipeline-Design selber ueber den erzielbaren Takt in einem bestimmten Prozess bestimmt, sondern auch das Layout einen Einfluss hat. Insbesondere bei hohen Frequenzen gibt es mehr elektrische Probleme, die sich oft dadurch vermindern, dass man das Ganze nicht ganz so dicht packt. Nicht umsonst liegen GPUs in der Packdichte im allgemeinen vor CPUs (und AMD auch vor nv, allerdings hat AMD auch etwas mehr SRAM und weniger Logik verbaut).

Skysnake

2011-07-13, 20:47:43

Genau das mein ich doch, was ja insbesondere beim Interconnect auf dem DIE für neue Probleme sorgen kann.

nVidia hat ja seine "Fabric" in der Mitte des Chips liegen (soweit ich verstanden habe nen großer Multiplexer) und da laufen halt verdammt viele Leitungen. Wenn man das hat ja wohl schon beim GF100 für Probleme gesorgt, und jetzt packt man diese ganzen Leitungen mit noch weniger Abstand zueinander. Und damit werden eben Übersprechen und Tunnelströme noch relevanter.

aylano

2011-07-13, 22:03:14

GTX295; wie sonst stellt man ein solches Ding auf die Beine mit einem ~290W TDP?

AFAIK hätte GT200-B2 keine Performance-pro-Watt-Vorteile gegenüber GT200A gebracht.

Welches war denn Deiner Meinung nach das Taktziel genau in GT200/65nm?

Laut damaligen Meldungen von dir, was erst mit GTX285 im 3. Stepping erreicht wurde.

Selbst G80 hatte einen respin bekommen fuer die 8800 Ultra um dort 1.5GHz zu erreichen.
Und genau daran "sehe" ich das Problem.

Nvidia braucht bisher oft 1. Stepping mehr, um mit der "Performance" zufrieden zu sein.

Damals fiel das nicht auf, weil R600 nicht vorhanden war.
Für GT200A sowie GT200B war RV770 noch zu langsam, sodass Nvidia "in Ruhe" das GT200-B3 Stepping machen konnte.

Bei Fermi war es deshalb kritisch, weil sie in der Verspätung Nvidia keine GPUs hatten, die mit AMD-High-End mithalten konnte.

GF100-GTX480 mag zwar Interconnect-Probleme haben, aber trotzdem wäre der Stromverbrauch mit einem funktionierenden 16.Cluster nicht besser geworden.
Ohne diesen Interconnect-Probleme wäre der Takt wohl auch kaum auf GTX580-Niveau gesteigert worden.

Und die ganz große Zeit war eben, wo Nvidia keine DX11-GPUs liefern konnte und AMDs eine Verfügbarkeit bringen konnte.
Und das waren auch nur paar Monate.

Kurz gesagt:
Nvidia braucht eben etwas länger, bis sie die "volle Performance" aus dem Die rausbringen können (, was ja anhand des viel größeren Dies nicht verwundert)

Interessant wird nur die Geschichte, wenn wenn wenn Nvida schon mal 1-2 Monate länger braucht sowie AMD mit der neuen Architektur "aufholen kann", und eine High-End-GPU bringen kann, die in Sachen Performance sowie Performance-pro-Watt "ein Hauch besser" ist als Nivdia-High-End im 2. Stepping.
Da wird es nähmlich interessant, ob Nvidia sich zuerst etwas hinter AMD anstellt mit nur 1-2 Monaten Verspätung oder noch einen Spinn wagt und 4-5 Monate später inkl. gesamtes Portfolie daherkommt.

Vorallem wenn AMD, im Gegensatz zu 40nm, vorerst alleinige 28nm-Wafer bestellt anstatt Nvidia aufgrund des Portfolies (GT218, GT216, Tegra2) mehr bestellen kann.

Also, es wird eine interessante Zeit aufgrund der vielen Variablen.

DavChrFen

2011-07-13, 23:33:53

Um nochmal zu diesem Faktor 2,5 zwischen Fermi DP und Kepler DP zurückzukommen: Reicht dafür überhaupt 1024 SPs oder braucht man dafür eher so 1536 SPs? Natürlich hat man noch gewisse Verbesserungen abseits der theoretischen Rechenleistung, z.B. durch die neuen Caches, aber mehr als 20% macht das doch nicht aus, oder?

AffenJack

2011-07-13, 23:53:55

Tesla hat im Moment nur 448 Cuda Cores bei 575mhz. Das sind 515DP Glops. 1024 Sps mit leicht erhöhten Taktraten erreichen die 2,5x Gflops locker.

Gipsel

2011-07-13, 23:58:22

Tesla hat im Moment nur 448 Cuda Cores bei 575mhz. Das sind 515DP Glops. 1024 Sps mit leicht erhöhten Taktraten erreichen die 2,5x Gflops locker.
Ja, da wuerden 630/1260 MHz reichen. Das sollte doch wohl drin sein.

Hugo78

2011-07-14, 07:21:38

AFAIK hätte GT200-B2 keine Performance-pro-Watt-Vorteile gegenüber GT200A gebracht.

20-30W weniger bei +45Mhz

|MatMan|

2011-07-14, 10:38:30

Tesla hat im Moment nur 448 Cuda Cores bei 575mhz. Das sind 515DP Glops. 1024 Sps mit leicht erhöhten Taktraten erreichen die 2,5x Gflops locker.
Es gibt auch ne Tesla M2090 mit 512 CUDA Cores @ 1,3 GHz = 665 DP GFLOPS - da muss man dann doch noch ein klein wenig höher springen...

AnarchX

2011-07-14, 10:52:13

NV verspricht keine 2,5-fache Leistung, sondern ~ 5 DP GFLOPs pro Watt.

Laut HP hat die 2090 eine TDP von 250W: http://h18000.www1.hp.com/products/quickspecs/13743_div/13743_div.pdf
=> 2,66 DP GFLOPs pro Watt

aylano

2011-07-14, 11:58:46

20-30W weniger bei +45Mhz
Ich glaube, du redest von GT200-B3 vs. GT200-A.

AFAIK wurde B3 nur in GTX285 verbaut, sowie war B2 quasi auf A-Niveau.
http://www.hardware-infos.com/news.php?news=2652
http://www.hardware-infos.com/tests.php?test=54&seite=14

PS: Ich muss zu den Nvidia Verzögerungs-Risken auch erwähnen, dass wenn es bei AMD zu Verzögerungen kommt, es recht spät bekanntgeben wird und bis zur Bekanntgabe "nur" den Plan bestätigt wird.
War ja bei Bulldozer jetzt auch nicht anders.

Und momentan kann ich mir noch nicht vorstellen, wenn wenn wenn sich 28nm-High-End verpätet sich Nvidia die Low-End & Mainstream in diesem Zeitraum auch verzögern lassen.

Leonidas

2011-07-14, 16:11:30

NV verspricht keine 2,5-fache Leistung, sondern ~ 5 DP GFLOPs pro Watt.

Und das ist der springende Punkt. Sie brauchen letztlich nur die doppelte Performance bieten - wenn sie dafür etwas weniger Strom verbrauchen, reicht es auch so.

Anders wird es, wenn sie wieder die Verlustleistung hochsetzen. Dann müssten sie um die Performance deutlich mehr als um den Faktor 2 steigern.

AnarchX

2011-07-14, 16:45:05

Und das ist der springende Punkt. Sie brauchen letztlich nur die doppelte Performance bieten - wenn sie dafür etwas weniger Strom verbrauchen, reicht es auch so.
Aber warum sollte man die durch die aktuellen Teslas geschaffene Infrastruktur nicht mit Kepler ausnutzen?
Bei High-End-Endkunden-GraKas sind >225W mittlerweile auch etabliert.

Anders wird es, wenn sie wieder die Verlustleistung hochsetzen. Dann müssten sie um die Performance deutlich mehr als um den Faktor 2 steigern.
Wenn man weg von Half-Rate-DP geht, wäre im Bezug auf die SP-Leistung wohl ein relativ hoher Sprung möglich. Natürlich nicht auf jeden Code, wenn man Superskalarität verwendet, aber auf die häufigsten Anwendungsfälle.

|MatMan|

2011-07-14, 17:16:21

Wenn man weg von Half-Rate-DP geht, wäre im Bezug auf die SP-Leistung wohl ein relativ hoher Sprung möglich. Natürlich nicht auf jeden Code, wenn man Superskalarität verwendet, aber auf die häufigsten Anwendungsfälle.
Und wenn man in "GF104-Superskalar-Style" von 48 auf 64 CUDA Cores pro SM geht? Dann sollte doch wieder Half-Rate-DP drin sein?! Natürlich gesetzt den Fall dass der Code passt...

Skysnake

2011-07-14, 17:16:54

Ja das ist es halt.

Die Sache ist wirklich extrem schwer ein zu schätzen.

Sie können ja auch einfach die Taktraten nicht steigern, oder gar noch etwas senken, dann steigt auf die Flop/Watt Leistung. Ich bin mal gespannt was denn jetzt wirklich aus Kepler wird.

Neurosphere

2011-07-14, 19:30:57

http://www.gamestar.de/hardware/news/grafikkarten/2324086/nvidia_kepler_gpu.html

Entweder bin ich zu doof zum lesen oder der Herr kann kein Englisch und deutet einfach mal was Digitimes da so schreibt.

boxleitnerb

2011-07-14, 19:38:31

Der Newsautor kann kein Englisch und schreibt Mist. Und sowas arbeitet in einer Newsredaktion...peinlich!

y33H@

2011-07-14, 20:00:53

Also von "Leistung" lese ich bei Digitimes nichts - nur die Verzögerung und die ist offiziell von NV (alte und neue Slide):

http://www.abload.de/thumb/nvidia_gpu_roadmaplk1q.jpg (http://www.abload.de/image.php?img=nvidia_gpu_roadmaplk1q.jpg) http://www.abload.de/thumb/2011-07-06_132747dmk1.png (http://www.abload.de/image.php?img=2011-07-06_132747dmk1.png)

EDIT
Der Autor der Meldung sagt, Digitimes habe etwas von "less than expected performance" geschrieben - ist nun aber weg.

Ailuros

2011-07-14, 20:17:53

Also von "Leistung" lese ich bei Digitimes nichts - nur die Verzögerung und die ist offiziell von NV (alte und neue Slide):

Also um mal ein bisschen zu ulken ich sehe fuer Kepler auf dem linken slide 201- und Jensen's Hintern ;D

Hugo78

2011-07-14, 20:56:21

Entweder bin ich zu doof zum lesen oder der Herr kann kein Englisch und deutet einfach mal was Digitimes da so schreibt.

Was dort passiert nennt sich Boulevardisierung.
Wenn deine abgeschriebene "News", allein nicht interessant genug ist, dann erfinde noch etwas dazu.

boxleitnerb

2011-07-14, 21:02:26

Das Zitat kam nicht von mir, sondern von Neurosphere ;)

y33H@

2011-07-14, 21:11:05

Also um mal ein bisschen zu ulken ich sehe fuer Kepler auf dem linken slide 201- und Jensen's Hintern.OK, dann mache ich mal mit: Ich sehe bei Kepler gar kein Jahr ;D

http://www.abload.de/thumb/nvidia-gtx-600-to-be-raqpf.jpg (http://www.abload.de/image.php?img=nvidia-gtx-600-to-be-raqpf.jpg)

Also nehmen wir lieber dieses Bild hier:

http://www.abload.de/thumb/ic989e0277cffbd8e4c7b2mozj.jpg (http://www.abload.de/image.php?img=ic989e0277cffbd8e4c7b2mozj.jpg)

fondness

2011-07-15, 12:40:36

EDIT
Der Autor der Meldung sagt, Digitimes habe etwas von "less than expected performance" geschrieben - ist nun aber weg.

Kann ich bestätigen, es stand bei Digitimes defintiv "less than expected performance" als Grund für die Verschiebung.

Skysnake

2011-07-15, 13:15:24

Ja ich hatte das auch gelesen!

Dural

2011-07-18, 09:43:08

war ja klar... die chips werden immer wie grösser und die fertigung immer wie kleiner, da sind die probleme vorprogrammiert ;)

AnarchX

2011-07-22, 15:02:59

http://www.4gamer.net/games/120/G012093/20110722064/
Of course, NVIDIA is a step forward towards the exa-scale, GPU generation, for example "Kepler" (Kepler, code-named), the "performance per watt, reached three times the ratio of Fermi", and He is introduced in the form of complete Malachowsky. Data have been obtained at trial, might be a visible and the fact that three times the power efficiency can be achieved.
However, Kepler is mostly in power efficiency, he said that due process technology 28nm. Mr. Malachowsky the "improvement of the process as there will, ultimately, electronic circuits, that will depend on the power architecture," words followed, and only process technology computer Exa-scale suggests that not possible was.

http://www.forum-3dcenter.org/vbulletin/attachment.php?attachmentid=40277&stc=1&d=1311340782
Stream: http://gtc2011.ds.ipcasting.jp/en.php (ab 59:00)

"Shipping at end of the year"

Hugo78

2011-07-22, 16:19:31

Die Leistungsversprechen mal bei Seite ist ...
"Shipping at end of the year"

... doch mal ne Aussage.

Skysnake

2011-07-22, 17:27:30

3 mal Energieeffizienter als Fermi. Aha...

Als Fermi so wie er kommen sollte, oder so wie er dann als GF100 auf den Markt kam???

Fermi sollte ja im Vergleich zum realen GF100 ja rund 25-60% Energieeffizienter sein.

Hugo78

2011-07-22, 17:29:11

@Skysnake

Sagte wer?

AnarchX

2011-07-22, 17:31:10

Interessant wäre, ob man auch die Infrastruktur bei der Grafik an den Fortschritt anpasst oder von der gleichen ausgeht, dann wäre die GPUs allein noch deutlich effizienter.
Aber im Endeffekt wird das wohl nur eine grobe Marketingfolie sein.

dildo4u

2011-07-22, 17:40:06

Schätze mal NV wird dann den Stromverbrauch bei Kepler senken,(um 200W)damit sie 2012 noch ein Mitlife Kicker bringen können der sich deutlich(30%+) von Kepler abhebt.

Skysnake

2011-07-22, 17:45:35

@Skysnake

Sagte wer?

Sagen die alten Folien zu den TESLA Karten, die an die Systemhersteller im HPC Bereich raus gingen. Da musste nVidia die Taktraten deutlich senken UND gleichzeitig die Stromaufnahme recht stark erhöhen. Am Ende wars glaub ich rund 45% schlechteres Performance/Watt Verhältnis im Vergleich zu den ursprünglichen Zielen.

Hugo78

2011-07-22, 22:22:08

@Skysnake
Gibts dazu auch einen Link?

Skysnake

2011-07-22, 22:56:34

Wie lang ist jetzt der GF100 raus?

Ende Q1 2010? Die Folie die ich mein sind noch von Q2-3 2009. Sorry, aber dafür hab ich jetzt wirklich keinen Link mehr. Das ist ja schon asbach uralt. Ich erinnere mich nur noch SEHR gut daran, da nVidia eben sehr große Versprechungen gemacht hat bzgl Performance/Watt und dies am Ende halt überhaupt nicht gehalten werden konnte, aufgrund der Probleme mit dem OnChip Interconnect.

EDIT:

Hab jetzt doch noch 2 Links gefunden, die das widerspiegeln, was eben damals auch so durch die HPC-Welt ging. Die Leute waren extrem begeistert von den Werten, aber durch die bekannten Probleme mit Fermi, wurden es eben schon mal 12,5% weniger Cores, dann auch noch bei niedrigerer Taktrate und zu allem Überfluss auch noch ein höherer Verbrauch als erwartet. Ich verfolge halt immer die HotChip sowie die SCC in Amerika und Hamburg.

Soweit mir bekannt, hat sich daran auch nicht wirklich etwas geändert bisher. Btw. Die Leute waren natürlich auch EXTREM pissed, dass die Karten so viel später kamen als erwartet... Bei uns an der Uni/Institut mit dem die Uni zusammen arbeitet, sollte ein Tesla-Cluster her. Da waren die Leute ziemlich enttäuscht. Hab das halt mitbekommen, da ich zu der Zeit in der IT gearbeitet habe.

Hier die beiden Links:
http://semiaccurate.com/2010/05/05/nvidia-downgrades-tesla-again/
http://semiaccurate.com/2009/12/21/nvidia-castrates-fermi-448sps/

Hugo78

2011-07-23, 09:13:10

Ah wie immer die SA.
Keine weiteren Fragen, danke.

AnarchX

2011-07-23, 09:47:40

Skysnake

2011-07-23, 11:46:47

ja haben Sie gemacht. Wie gesagt, ich habe mich zu dem Zeitpunkt schon sehr lange mit Fermi in die Richtung der Tesla Karten beschäftigt gehabt, und gerade Leistung/Watt war da sehr wichtig. Zudem hatte ich halt die Info aus erster Hand, wo sich die Betreiber darüber aufgeregt haben, dass die Performance/Watt so stark gefallen sei.

Zahlen gabs von denen natürlich nicht, aber der Unmut war GANZ klar raus zu hören.

Hugo78

2011-07-23, 11:58:02

Und jetzt?

... halten wir mal kurz fest, Nvidia hatte seine eigenen Folien mit steigendem Erkenntissgewinn nach dem 1. Tape Out,
nach unten korrigiert anfang 2010, noch vor Marktstart.
Und dennoch kommt bezogen auf aktuelle Folien, dann die Frage auf, welcher Fermi in diesen aktuellen Folien wohl gemeint wäre.

Nicht nur das es offensichtlich ist, dass NV sich heute wohl kaum selber das Leben schwer machen wird und bei einer "x3 mehr Perf./Watt" Angabe,
reichlich behämmert sein müsste, würden sie sich auf einen imaginären "was wäre wenn alles perfekt gelaufen wäre" Fermi beziehen.
Nein, es wird lieber wieder ein Spin probiert, irgendwie infantil, indiskret nachzutretten, obwohl es immer noch kein vergleichbares Produkt zum Fermi im HPC Bereich gibt.

Skysnake

2011-07-23, 12:31:17

1. Retorische Fragen kennst du oder?

2. Es ist natürlich schon interessant, ob Sie sich bei der Angabe auf die GeForce oder Tesla Reihe bezieht. Denn wenn es die GeForce sind, stehen GF100 und GF110 zur Auswahl. Bei den Teslas gibt es meines Wissens noch keine GF110 Version.

Beim GF110 sieht das Performance/Watt Verhältnis ja deutlich besser aus als beim GF100.

Je nachdem was man als Grundlage für das x mal bessere DP/Watt Verhältnis nimmt, siehts nämlich gar nicht mehr so toll aus. Man geht ja auch von 40 auf 28nm runter, und hat den 40nm Prozess ziemlich verkackt, wenn man das mal so offen sagen darf.

Und bzgl. Semiaccurate. Man kann über Charlie denken was man will, und ja er hat eine Freude daran nVidia zu bashen, aber seine Aussagen zu Fermi waren in meinen Augen leider überwiegend zutreffend.

Und was meinst du mit "indiskret nachzutreten"?

Kann ich etwas dafür, dass nVidia einem den Heilsbringer versprochen hat, und von vorne bis hinten belogen hat? Ich sag nur Vorstellung einer Karte ohne GPU und so "Späße"....

Mit Fermi hat sich nVidia mehr als einen Bock erlaubt. Das hat der gesamten GPGPU-Branche geschadet. Btw. ich hab nochmals gesucht, ob Sie nicht doch einen vollen Fermi in einer Tesla Karte anbieten. Gibts sogar wirklich; die M2090. Auf welchen Chip die jetzt aufsetzt ist aber nicht ersichtlich, auch nicht wie viel Sie verbraucht. Zumindest habe ich auf der nVidia Seite nichts dazu gefunden. Die Karte gibt es aber scheinbar auch erst seit Mai/Juni 2011. Im Mai wurde Sie auf jeden Fall angekündigt.

EDIT:
Sorry Hugo, aber man darf ja wohl noch sagen, wenn eine Firma scheiße baut oder? nVidia hat mit Fermi sehr viel versprochen und im Vergleich dazu nur sehr wenig davon halten können. Klar sind die Karten gut, bestreitet ja auch keiner, aber im Vergleich zu dem was großmundig versprochen wurde, sind Sie eben nicht mehr wirklich toll geworden.
So und jetzt kommts. Vor Fermi sah sich nVidia als Software/HPC Firma. Jetzt sehen Sie sich selbst als Mobile Firma, bzgl. Kepler werden aber in meinen Augen wieder die gleichen vollmundigen Versprechungen raus gehauen wie schon bei Fermi. Ich will es nicht verschreien, und wünsche mir, dass es so NICHT kommt, aber wenn man an die angeblichen Probleme bei TSMC denkt, dann schießt einem Sofort der Begriff Termi 2.0 in den Kopf mit allem was dazu gehört. Wie gesagt, ich hoffe, dass es NICHT so kommt, aber ich habe definitiv ein sehr ungutes Gefühl bei der Sache, da es einfach wieder gewisse Parallelen gibt. TSMC mit angeblichen Problemen, sehr große Versprechungen von Seiten nVidia.

Hugo78

2011-07-23, 16:16:24

Ja nur ob man es sagen darf oder ob man es wieder und wieder bei jeder vermeintlich, passenden Gelegenheit hervor würgt,
ist mittlerweile schon ein Unterschied.
Die Sache ist doch nun mehr als einmal durchgekaut worden.

Anyway...
Ob NV sich auf Geforce oder Tesla bezieht, auf einer Veranstaltung die sich um GPU Computing dreht, sollte auch klar sein.

Das ein M2090 erst ~7 Monate nach der GTX 580 kommt, wird wohl an vielen Faktoren liegen.
Einmal an der mangelnden Konkurrenz da kann man sich Zeit lassen.
Dann stellt der Profibereich auch ganz andere Anforderungen, was den 24/7 Betreib angeht und eventuell hat man hier auch stärker selektiert.
+30% DP bei immernoch max. 225 Watt, ist ja nicht ohne.
Oder es gab schlicht noch viele GF100er, die eher im HPC Bereich ihre Abnehmer fanden als woanders.

Btw ... wobei der HPC Bereich doch aktuell die letzte Fraktion ist, die sich sorgen machen müsste, dass sie nicht die Leistung mit Kepler bekommt, die sie sich wünscht.
Denn der Focus wird aktuell bei beiden Firmen nicht mehr primär bei den Zockern sein, nachdem doch AMD PR mässig in die Offensive gegangen mit ihrem GCN.
Erstaunlicherweise wird hier wieder ein Kunststück erwartet...

Aber man kann sich auch hier in was reinsteigern, Hype lebt von beiden Seiten.
http://www.youtube.com/watch?v=ieVfruM818k&t=14s

Skysnake

2011-07-23, 16:41:44

Naja, die Aktion, die nVidia damals abgezogen hat, war schon beispiellos. Im HPC Bereich haben Sie eigentlich nur dadurch nicht richtig eine auf die Mütze bekommen, weil Sie die einzigen am Markt mit ECC waren. AMD hat es da ja einfach, sorry für die klaren Worte, so richtig verkackt mit der 6k Serie. Bei der 5k Serie wars ja noch irgendwo akzeptabel, wenn man sich auch schon dort etwas geärgert hat, da die Ankündigung von nVidia eben schon länger da war. AMD hatte aber dennoch in mittleren Systeme seine Berechtigung, und teils auch in großen, da zumindest die SP-Leistung extrem gut war und noch immer ist. Ganz zu schweigen vom SP/Watt-Verhältnis. Das ist bei der 5k wirklich gut. Daher hat es AMD trotz fehlendem ECC in den einen oder anderen Cluster gefunden. Hätte nVidia aber alles so gehalten wie versprochen, hätte AMD wohl kein Land gesehen.

AMD hat inzwischen aber wohl Gott sei dank.... etwas daraus gelernt und bringt auch ECC. nVidia gerät damit wohl ziemlich unter druck, denn jetzt gibt es einen echten Konkurrenten.

Dieses mal dürfen Sie sich definitiv kein Debakel wie bei Fermi erlauben. Die stehen eh unter "Beobachtung" im HPC-Bereich. Man setzt immer noch sehr viele Hoffnungen in GPUs von nVidia und AMD, aber nVidia hat definitiv viele Sympathien und vor allem VERTRAUEN! verspielt, und gerade das ist halt bei den ganz großen Systemen auch nicht unwichtig. Da gibt es ja lange Vorlaufzeiten. Zumal man sich dort auch nicht einfach mal 10% Mehrverbrauch leisten kann. Wenns dumm läuft darf man dann die komplette Klima/Stromversorgung überdenken... So etwas ist fatal.

Aber ja, wir HPCler dürfen im Moment wirklich nicht meckern :biggrin:

Im Moment erfüllen sowohl AMD als auch nVidia praktisch "alle" Wünsche, die man so hat. ("alle" da wir nie den Hals voll bekommen können :rolleyes: Gibst du uns den doppelten Cache, wollen wir den vierfachen :freak:)

Im Grafiksegment gibt es im Moment auch einfach kaum ein Betätigungsfeld und für Exaskale brauch man eben VIELE Karten :D

Man muss aber schauen, wie die Entwicklung weiter geht. FPGAs sind in meinen Augen auch wieder verstärkt im kommen. Die sind halt einfach sehr Energieeffizient. Die "Programmierung" ist dafür ein echter Grauß :uhammer2:

Tesseract

2011-07-23, 17:46:16

Und bzgl. Semiaccurate. Man kann über Charlie denken was man will, und ja er hat eine Freude daran nVidia zu bashen, aber seine Aussagen zu Fermi waren in meinen Augen leider überwiegend zutreffend.

charlie hat sehr gute quellen und die sind auch der einzige grund von ihm was zu lesen - die information zwischen den zeilen.
das was direkt von ihm kommt ist meistens dünnschiss.

Ailuros

2011-07-23, 18:41:26

charlie hat sehr gute quellen und die sind auch der einzige grund von ihm was zu lesen - die information zwischen den zeilen.
das was direkt von ihm kommt ist meistens dünnschiss.

Bei AMD und TSMC u.a. Ueber tape outs z.B. ist er eine der sehr guten Quellen; sonst wenn es zu GPUs selber und Einzelheiten der Architekturen kommt handelt es sich tatsaechlich um Duennschiss. Zwei ziemlich bekannte Schlager waren dass NV mit Fermi einen Larabee entwickelt haben und dass GF104 eine 1:1 Kopie zu GF100 ist.

Bis zu einem Zeitpunkt war er fest darueber ueberzeugt dass LRB scheiterte weil Intel nicht genug Moneten links und rechst verstreute :D

---------------------------------------------------------------------------------

Ja NV hat einigen Mist gebaut mit GF100 aber da so oder so 32nm entfallen ist und GF110 den Platz eines Refreshes unter 40G ehrte ging nicht gerade die Welt unter. Der GTX480 waere womoeglich ohne Probleme mit allen 16 clusters angekommen aber keine besonders hoehere Frequenz als 700MHz und auf keinen Fall so hoch wie 770MHz wie bei der 580.

Was jetzt HPC und andere Profi-Maerkte betrifft: NV haelt sich dort hauptsaechlich dank sw und Unterstuetzung.

Skysnake

2011-07-23, 22:33:08

Sag ich ja auch. Charlie ist mir teilweise wirklich SEHR unsympatisch und teils labert er einfach nur Müll, er hat aber teilweise doch recht gut Quellen. Dagegen kann man nichts sagen. Man muss halt nur immer daran denken, dass es Charlie ist, und er Dinge in die eine oder andere Richtung gern aufplustert.... :rolleyes:

Hugo78

2011-07-24, 10:08:09

. Zwei ziemlich bekannte Schlager waren dass NV mit Fermi einen Larabee entwickelt haben und dass GF104 eine 1:1 Kopie zu GF100 ist.

Mein Liebling ist ja der angebliche Paperlaunch der GTX 580.
Nvidia will ‘launch’ the GTX580 as a ‘spoiler’. ... a few loyal Nvidia ‘partner sites’ may even get a card.

If you are a buyer, you will be waiting until 2011.

Mancko

2011-07-24, 11:56:31

Mein Liebling ist ja der angebliche Paperlaunch der GTX 580.

Einer der größten Lacher war aber die "selling at a loss" story. Komischerweise sind Nvidia's Ergebnisse genau dann besser geworden mit sattem Plus, als GTX480, 470, 465 und 460 am Markt waren.

Captain Future

2011-07-24, 13:58:11

Es geht wohl darum:
http://i47.tinypic.com/hry4ae.jpg
War so in einem Whitpaper öffentlich bei NV zu finden.
http://www.forum-3dcenter.org/vbulletin/showpost.php?p=7020417&postcount=1

1,25-1,4GHz bei <=225W, woraus 1,15GHz bei 238W wurden.
Also 15-29% bessere Pro-Watt-Leistung für den Whitepaper GF100.

Wohl möglich propagierte NV ein noch besseres Verhältnis in älteren Whitepapers.

Die Cluster-Modelle sind auch ohne GF110 immer noch bei <=225 Watt. Grund: Kein Lüfter, der braucht auf 100% allein schon >20 Watt. Natürlich sind die mit 1,15 GHz niedriger getaktet als geplant, keine Frage.

AnarchX

2011-07-24, 14:09:21

Im Whitepaper ging es aber nicht um S-Teslas, sondern C-Teslas.
Und da liegt eine 2050 bei 238W TDP: http://www.nvidia.com/docs/IO/43395/BD-04983-001_v04.pdf
Im Whitepaper wurde auch die 2070 in die <=225W eingeordnet. Und der Speichertakt lag bei 1,8-2,0GHz, woraus dann 1,5GHz wurden.

Skysnake

2011-07-24, 15:09:42

Ailuros

2011-07-24, 15:51:43

Jup. Deswegen waren auch sehr viel Leute ernüchtert/sauer. Ganz zu schweigen von der langen Wartezeit. Es ist ja nicht so, dass die Leute mit den Rechnern fest geplant hatten und dann Monate lang warten mussten...

Ich wäre da auch stinke sauer.

Und hat sich dadurch AMD irgend einen Marktanteil erobern koennen oder waren die Kaeufer lediglich sauer/empoert und kauften am Ende doch von NV? (100% ehrliche Frage).

Skysnake

2011-07-24, 17:36:44

aylano

2011-07-24, 19:25:15

@Ailuros
http://img853.imageshack.us/img853/6136/1001caymanfirepro.jpg

AFAIK
Rote Linie - Gesamt-Ohne-Mobil-Profi-GPU
Orange Linie - Gesamt(-mit Mobil-Profi-GPU)

Im 3Q & 4Q 2010 konnte AMD wieder einen Sprung bei den Marktanteilen erreichen.

Ich bilde mir ein, eine Grafik gesehen zu haben, wo es im 1Q 2011 dann konstant blieb.

Richard Bergman - 2Q 2011 Geschäftsbericht-Call
No. We still have a lot of opportunities in that Graphics business. We haven't talked on this call much about our workstation graphics, but we just hit record revenue and record unit shipments last quarter, and we can continue to grow that particular part of the business.

Grundsätzlich hat Nvidia bei Fermi die selben Fehler gemacht wie AMD mit Barcelona (Zeit & Verfügbarkeit und Zuvor versprochene Performance-pro-Watt), wovon AMD noch heute leidet.

Mal sehen, vielleicht war diese nichteingehaltende Fermi-Versprechungen der Anfang vom lange Cuda-Ende, da sich in der Fermi-Verspätung viele erstmals auf Alternativen umsahen.

Edit: Text korrigiert

Skysnake

2011-07-24, 21:04:38

Das Ende von CUDA im Consumerbereich ist faktisch schon da. Nicht ohne Grund pusht nVidia die eigene OpenCL Unterstützung und Portierbarkeit von CUDA Code nach OpenCL so stark.

Auf dem Fusion Developer Summit wurde ja auch eine schöne Marktübersicht bezüglich Multithread-Programmierung gezeigt. Da war OpenCL auf Platz 2 bzw. 3 in USA/Europa. CUDA lief unter ferner liefen.

nVidia hat noch immer die Chance aus CUDA einen Fortran verschnitt zu machen, da wären die HPC Leute auch durchaus bereit einiges an Geld ab zu drücken, so lange die Leistung stimmt. "Gute"-GPU-Programmierer sind halt noch viel teurer und seltener als gute Multi-Thread-Programmierer.

Tesseract

2011-07-24, 21:19:44

Grundsätzlich hat Nvidia bei Fermi die selben Fehler gemacht wie AMD mit Barcelona (Zeit & Verfügbarkeit und Performance-pro-Watt), wovon AMD noch heute leidet.

mal abwarten wie es bei AMDs next-gen mit der perf/watt aussieht. so viel unterschied ist da schon heute nicht (von ein paar sonderfällen mal abgesehen) und die next-gen wird fermi viel ähnlicher.

aylano

2011-07-24, 21:40:22

mal abwarten wie es bei AMDs next-gen mit der perf/watt aussieht. so viel unterschied ist da schon heute nicht (von ein paar sonderfällen mal abgesehen) und die next-gen wird fermi viel ähnlicher.
Sorry,
ich meinte die "Versprochenen" Performance-pro-Watt und nicht die Performance-pro-Watt gegenüber den Konkurrenten.

Nvidia wurde jetzt gegenüber des HPC-Marktes unglaubwürdig bzw. hatte bei Fermi jene abgeschreckt, die etwas skeptisch gegenüber HPC-GPUs waren.
Glaubwürdigkeit ist im HPC-Markt aufgrund der langen Planungen viel wichtiger und daran leidet AMD noch.

Und da 28nm wieder so problematischer wird, werden viele jetzt vorsichtiger sein. Bis dahin könnte AMD mit ECC ebenfalls schon am Markt sein.
Wie die Performance-pro-Watt der neuen Architektur gegenüber dem Konkurrenten sein wird, müssen wir noch abwarten.
Aber ich sehe es so wie du. Mit einer Fermi-Ähnlicheren Architektur wird Performance/Watt & Co Fermi-Ähnlicher.

Sonder-Positiv-Überraschungen sind zwar net, aber vorher nicht erwartbar & spekulierbar.

Skysnake

2011-07-24, 23:12:24

Ja ich versteh AMDs Zurückhaltung da wirklich auch nicht so ganz. :(

Es wird zwar besser, aber warum nicht gleich eine Sonderserie mit Cray oder whot ever, wo man einen kompletten AMD Server auf die Beine stellt, wo alles perfekt zusammen passt.

Sprich 2 CPUs mit massig Kernen, dazu richtig dick RAM und 2-4 GPUs ebenfalls mit HT angebunden inkl. Cachekohärenz, gesteigertet Bandbreite etc.

Sprich mal so RICHTIG in die vollen gehen.

Oder noch besser, nen 500+mm² Chip mit 8 CPU Kernen und einer vollwertigen GPU drauf und einem Octachannel Interface. Sau teuer, aber da kann man dann wirklich richtig rein holzen mit der Leistung. Zudem sind die Latenzen dann endlich mal kein Problem mehr.

Ich fänds echt geil wenn mal so etwas kommen würde :biggrin:

aylano

2011-07-25, 02:47:23

Ja ich versteh AMDs Zurückhaltung da wirklich auch nicht so ganz. :(

Ich schon.

Auf GPU-Seite denke ich, dass sie mit Fusion "und OpenCL" einmal Vorreiter in Sachen GPGPU sein wollten und vielleicht auf die neue AMD-Next-GPU-Generation "warteten" und dann erst voll durchstarten wollte.
Nvidia dürfte da nicht mitgespielt haben und in der Sache selber und sehr agressiv vorpreschte.

Gleichzeitig kam hinzu, dass sie mit K10-65nm-Probleme (= Unbugged-Version (B3) kam 1 Jahr später als geplant) sowie R600-Probleme (Performance-Rückgang & Co) in große Wirtschaftliche Probleme war und so generell keine neue Projekte & Nischen-Produkte mit Marketing & Kunden-Pflege starten konnte.

Sowie gleichzeitig generell kein/kaum Geld für Nischen-Produkte wie 8-Kern-Server-CPU & Co hatte und sich nur auf den Massen-Markt konzentieren konnte.

Nachdem AMD merkte, dass sie mit einer Top-CPU noch immer mäßige Marktanteile erobern konnte, hoffte sie mit dem ATI-Kauf dies zu ändern. Nachdem es Jahre brauchte, aus der R600 & K10-Krise und somit aus den Wirtschaftlichen Verlusten rauszukommen, merkte AMD, dass es nicht mehr reicht nur Massen-Markt zu bedienen und brauchte am Schluss mit Danube dann viel mehr CPU-Kategorien. Als AMD merkte, dass das nicht reichte, wurden extra Gelder für einen besseren Channel-Betrieb ausgegeben. Als sie merkten, dass das nicht reicht, wurden mehr Geld für Software-Ausbildungen (Unis & Kongresse & Lern-Plattformen) sowie bessere Software-Qualität (Treiber, OpenCL) ausgegen usw usw usw usw.

AMD dürfte einfach viel schwierigere Probleme gehabt haben, die sie zuerst lösen mussten und dabei die Schwierigkeit anderer Probleme in dieser Zeit nicht gut einschätzen konnte.

Aber das war jetzt etwas Off-Topic.

-----

Interessant finde ich den Wechsel der Zukunft-Aussichten von AMD & Nvidia in den letzten Monaten.

Zu der 6000er-Serie spekulierte ich schon etwas mit ECC + C++, weil ersteres vielleicht schon eine Reaktion wäre und zweiters weil gerade beim Shader-Umbau VILW5 --> VILW4 neue Features kommen sollen.

Und weil dies nicht kam, glaubte ich, es wird bei AMD jetzt lange (2-3 Jahre) dauern bis ECC + C++ kommen kann.
Und in dieser Zeit hätte sich IMO Nvidia mächtig mit Cuda ausbreiten können bzw. in der Breite festigen.
Nach dem AMD GPU/Fusion Developer day, sieht die Welt IMO wieder komplett anders aus indem ECC + C++ sowie einer neuen ("effizienteren") Architektur (und vielleicht bessere AF-Flimmern) nicht nur bald kommt, sondern dieses Jahr noch vor Nvidia kommen soll.

Fazit:
Interessant, wie die Welt bzw. die Aussicht in Wenigen Moanten sich extrem änderten. Da kann man gespannt sein, wie die Welt aussieht, wenn AMD & Nvidia ihre GPUs drausen haben.

Skysnake

2011-07-25, 03:11:21

Ja mit der 6k Serie und dem fehlenden ECC/C++ war ich auch sehr enttäuscht.

Bzgl. dem Rest:

Ja da hast du schon Recht. Da fehlts es wohl einfach am Geld. leider :(

V2.0

2011-07-25, 06:56:32

Und was hat das mit Keppler zu tun?

mboeller

2011-07-25, 10:58:54

Oder noch besser, nen 500+mm² Chip mit 8 CPU Kernen und einer vollwertigen GPU drauf und einem Octachannel Interface. Sau teuer, aber da kann man dann wirklich richtig rein holzen mit der Leistung. Zudem sind die Latenzen dann endlich mal kein Problem mehr.

Vielleicht wird ja Trinity das was ich eigentlich schon für den Llano erhofft hatte; ein HPC-Monster. Das könnte auch der Grund sein, warum Komodo und Trinity den gleichen Unterbau (FM2) bekommen. Ein Server-Board mit 4 Trinity wäre doch schon mal eine Hausnummer.

Ailuros

2011-07-25, 13:01:38

Es ist sehr stark die Frage aufgekommen, ob es nicht Alternativen zu nVidia gibt. Klar es gibt noch immer einige/viele, die sich in CUDA eingearbeitet haben und dabei bleiben, OpenCL hat gerade dadurch aber auch mit an Bedeutung gewonnen. Man hat halt gemerkt, wie extrem abhängig man ist, und dass die AMD Karten eben trotz fehlendem ECC teils ganz interessant sind, vor allem im DP Bereich, da man eben bei nVidia die Consumerkarten auch noch beschnitten hat in diesem Bereich.

Zudem hat es Ati/AMD in einige große Cluster geschufft. Top 20/22 glaub ich ist es, ist ja ein Ati System, und dabei sehr Energieeffizient. Das hat auch einige Leute aufmerksam gemacht.

Summa Summarum hat es AMD wirklich einige Türen geöffnet. Ich hab z.B. bei uns an der Uni für eine Arbeitsgruppe mir anschauen sollen, ob OpenCL also AMD eine Alternative zu CUDA darstellt. Die Leute waren zwar recht skeptisch, am Ende aber alles in allem doch sehr aufgeschlossen.

Man sollte es echt nicht glauben, aber im wissenschaftlichen Bereich sind die Leute teils wirklich extrem unflexibel, und nVidia hat mit CUDA halt einen echten Stein im Brett. Die Leute kennen es, es funktioniert, es ist Support da etc. Dazu kommt noch ein relativ gutes Marketing. nVidia hat teils echt glück, dass Sie sich bereits so eine gute Position gesichert haben und AMD eben kein 100% Konkurrenzfähiges Produkt hatte.

Es beantwortet aber trotz allem nicht meine Frage. Tesla ist im HPC Markt auch ein Juengling und nichts etabliertes wie z.B. Quadros. Ohne eine halbwegs anstaendige Statistik wieviele Einheiten beide vergleichsmaessig verkauft haben sagt mir das obrige langwierige OT erstmal gar nichts.

@Ailuros

AFAIK
Rote Linie - Gesamt-Ohne-Mobil-Profi-GPU
Orange Linie - Gesamt(-mit Mobil-Profi-GPU)

Im 3Q & 4Q 2010 konnte AMD wieder einen Sprung bei den Marktanteilen erreichen.

Ich bilde mir ein, eine Grafik gesehen zu haben, wo es im 1Q 2011 dann konstant blieb.

Richard Bergman - 2Q 2011 Geschäftsbericht-Call
No. We still have a lot of opportunities in that Graphics business. We haven't talked on this call much about our workstation graphics, but we just hit record revenue and record unit shipments last quarter, and we can continue to grow that particular part of the business.

Grundsätzlich hat Nvidia bei Fermi die selben Fehler gemacht wie AMD mit Barcelona (Zeit & Verfügbarkeit und Zuvor versprochene Performance-pro-Watt), wovon AMD noch heute leidet.

Mal sehen, vielleicht war diese nichteingehaltende Fermi-Versprechungen der Anfang vom lange Cuda-Ende, da sich in der Fermi-Verspätung viele erstmals auf Alternativen umsahen.

Edit: Text korrigiert

Genauso nutzlos das es um workstation GPUs geht. Ja natuerlich hat AMD hier um einiges besser gepunktet und wird hoechstwahrscheinlich auch weiter zunehmen, aber wird reden hier nicht ueber Quadros sondern Teslas.

Und was hat das mit Keppler zu tun?

Eigentlich gar nichts. Ich hab das Gefuehl dass hier so manches in den gleichen Topf gestopf wird wie z.B. workstation, HPC, GPGPU, ECC und weiss der Geier was noch.

Desktop GF1xx GPUs sind sowohl von der FP64 als auch von der Geometrie Seite quasi kastriert damit fuer den ersten Fall NV mehr Teslas verkaufen kann und fuer den zweiten Fall mehr Quadros.

Wir wissen bisher von oeffentlichen Aussagen seitens AMD dass sie bei GCN/SI auch die desktop GPUs fuer FP64 kastrieren wird. Es wuerde mich auch nicht im geringsten ueberraschen wenn es bei AMD auch Geometrie-relative Aenderungen in der Zukunft geben wuerde.

Skysnake

2011-07-25, 14:03:22

Es beantwortet aber trotz allem nicht meine Frage. Tesla ist im HPC Markt auch ein Juengling und nichts etabliertes wie z.B. Quadros. Ohne eine halbwegs anstaendige Statistik wieviele Einheiten beide vergleichsmaessig verkauft haben sagt mir das obrige langwierige OT erstmal gar nichts.

Die Statistik gibt es aber leider nicht, da nVidia eben den gesamten Profibereich zusammen fasst.

Ich würde nVidia mit CUDA/Tesla aber nicht als "Jüngling" bezeichnen. Sie haben halt ein gutes Marketing hingelegt und waren mit interessanten Produkten am Start, wo AMD erst mit GCN gleichwertig nachziehen wird können.

Vor dem Fermi-Debakel hat eigentlich keiner sich um AMD gekümmert. Von nVidia wurde ja praktisch alles versprochen. Sieht man ja auch an den Papers die so im GPGPU-Bereich veröffentlicht wurden. Die haben sich fast alle mit CUDA beschäftigt. nVidia war/ist da schon noch der Platzhirsch. Wobei eben nach Fermi eben auch mal rechts und links (also zu AMD) geschaut wird, und vor Fermi eben gar nicht.

Aber lasse wir das, denn wie du richtig festgestellt hast, das hat eigentlich nichts mit Kepler/Maxwell zu tun :freak:

PCGH_Carsten

2011-07-25, 14:58:07

mrt

2011-07-25, 16:26:51

Vielleicht wird ja Trinity das was ich eigentlich schon für den Llano erhofft hatte; ein HPC-Monster. Das könnte auch der Grund sein, warum Komodo und Trinity den gleichen Unterbau (FM2) bekommen. Ein Server-Board mit 4 Trinity wäre doch schon mal eine Hausnummer.
Opteron mit integrierter GPU sehen wir wohl erst, wenn es eine neue SIMD-Erweiterung gibt, wo Instruktionen auf der GPU ausgeführt werden. Haben übrigens sowohl Intel als auch AMD in der Roadmap. Vorher zahl sich das IMO nicht aus, da nur ein kleiner Teil der Käufer die Funktionalität der GPU mittels API nutzen würden.
Wird wohl auch Nvidia mit einer ARM/Neon-Erweiterung in der Roadmap haben, mit den CPU-Kernen wirds aber schwierig.

aylano

2011-07-25, 17:17:56

Genauso nutzlos das es um workstation GPUs geht. Ja natuerlich hat AMD hier um einiges besser gepunktet und wird hoechstwahrscheinlich auch weiter zunehmen, aber wird reden hier nicht ueber Quadros sondern Teslas.
Im Vergleich zum Workstation ist Tesla aber mit vielleicht so 25%-Umsatz immer noch unbedeutend. Dazu begannen die Leute wegen Quadro/Worktstation Cuda zu lernen.

- Der erste HPC-AMD-FirePro 7800P kam erst Mai 2010. Also 3 Jahre nach Tesla-G80 (und 2 Monate vor Tesla-C2050)
Somit gabs es erst kurz vor C2050 ersmals eine Tesla-Konkurrenz. Der Rest waren davor Beta-Lösungen (siehe China-HPC mit Radeons.)
- AFAIK begann AMD Anfang 2010 OpenCL bzw. GPGPU viel ernster zu nehmen.
- Gleichzeitig (Anfang bis Mitte 2010) ist das Fermi-Chaos dazugefallen, sodass der "deutliche" deutliche Anstieg nach diesen obengenannten 3 Ereignissen, dann doch nicht mehr so verwundert.

Klar hat das jetzt nicht direkt mit dem Kepler zu tun.
Aber es geht um die Konkurrenz-Situation/Entwicklung vor Kepler. Und die ist nicht uninteressant, wenn Kepler wieder etwas mehr Probleme als die Konkurrenz haben soll, wie es momentan spekuliert wird.

... , wo AMD erst mit GCN gleichwertig nachziehen wird können.
Und das ist für Nvidia schon ein ziemliches Worst-Case Szenario, da diese Sparte moemtan den meisten Profit abwirft.

Skysnake

2011-07-25, 17:22:27

Hat das überhaupt was mit Fermi zu tun oder vielleicht damit, dass AMD erst so ca. Mitte letzten Jahres ernst gemacht hat mit der Open CL Unterstützung und die Treiber davor einfach nicht brauchbar waren. IIRC war der 10.10er Catalyst der erste, bei dem OpenCL zumindest optional mitgeliefert wurde. Davor war ziemlich viel gefrickel nötig, auch die Umbenennung der Treiber-Dateien von Atical.. in Amdcal oder umgekehrt und den damit verbundenen nicht laufenden Programmen - das war halt mehr Nerv als man sich antun mag wenn man nicht muss.

Seitdem ist es einfach viel viel besser geworden, Open CL funktioniert größtenteils, die Zusammenarbeit mit dem CPU-Treiber klappt.

Ich würde sagen ja, denn vorher haben viele AMD nicht mal mim Arsch angeschaut :ugly:

Die Probleme mit OpenCL kenne ich jetzt aber nicht :ka: Also seit die OpenCL Treiber im SDK mitgeliefert wurden klappts ohne Probleme bei mir. Es war halt nur nervig, dass man das SDK installieren musste, wenn man ein OpenCL Programm nutzen wollte. Mit OpenCL 1.0 oder 1.1 sind ja aber auch die Zertifikate bla blub eingeführt worden, womit man von mehreren Herstellern die Implementierungen auf einem Rechner haben kann.

Hat aber sicherlich auch sein Pfund mit beigetragen, wobei ich im HPC/Uni/Server Bereich den Effekt aus den nicht gehaltenen Versprechungen nVidias als deutlich höher einschätze. Ich habs halt echt total mitbekommen, wie vor den Fermi-Problemen die Leute nicht mal im mindesten an einer Alternative interessiert waren, und erst als dann die Kacke am Dampfen war, sich mal umgeschaut haben ob es denn überhaupt was anders gibt, und wenn ja was da so kann.

Ist jetzt aber auch meine ganz subjektive Sichtweise der Sache, die nicht allgemeingültig sein muss.

Und das ist für Nvidia schon ein ziemliches Worst-Case Szenario, da diese Sparte moemtan den meisten Profit abwirft.
Das bittere ist ja für nVidia, dass AMD wenn wirklich alles kommt UND funktioniert, richtig in die Vollen gegangen ist. Ich sag nur Rekursionen, Preemptive Scheduling, globaler kohärenter Adressraum, etc. etc. etc.

Gerade Rekursionen und der kohärente Adressraum bieten komplett neue Einsatzfelder. Gibt ja genug Leute, die in ihren Programmen Rekursionen nutzen. Preemptive Scheduling ist für mich aber mit einer der größten Sachen. Damit wird endlich Syncronisation über Blockgrenzen hinweg möglich etc.

Btw. ich hab aus einer ganz vertrauenswürdigen Quelle erfahren, dass mit der neuen GPU Generation auch die neue OpenCL Version kommen soll. Ich glaub daher, dass nVidia schon recht viel davon auch bringen wird, aber mit Gewissheit kann man es nicht sagen. Mit Kepler müssen Sie also nochmals genau so rein hauen wie Sie es schon mit Fermi gemacht haben, ansonsten ist aus dem Vorsprung ein Rückstand geworden.

Schon verdammt krass wie schnell sich das Blatt wenden kann. Ich glaub mit so einer Knalleransage wie GCN hat niemand gerechnet.

Gipsel

2011-07-25, 17:49:36

Das bittere ist ja für nVidia, dass AMD wenn wirklich alles kommt UND funktioniert, richtig in die Vollen gegangen ist. Ich sag nur Rekursionen, Preemptive Scheduling, globaler kohärenter Adressraum, etc. etc. etc.

Gerade Rekursionen und der kohärente Adressraum bieten komplett neue Einsatzfelder. Gibt ja genug Leute, die in ihren Programmen Rekursionen nutzen. Preemptive Scheduling ist für mich aber mit einer der größten Sachen. Damit wird endlich Syncronisation über Blockgrenzen hinweg möglich etc.

Btw. ich hab aus einer ganz vertrauenswürdigen Quelle erfahren, dass mit der neuen GPU Generation auch die neue OpenCL Version kommen soll. Ich glaub daher, dass nVidia schon recht viel davon auch bringen wird, aber mit Gewissheit kann man es nicht sagen.
Fermi kann von der Hardware her allerdings wohl auch schon etwas mehr, als von CUDA/OpenCL momentan unterstuetzt wird. Soo viel mehr muss Kepler gar nicht mehr draufpacken.

Kohaerenter Adressraum und Preemption sind sicherlich wichtig, aber den Support von Rekursionen wuerde ich jetzt mal nicht zu hoch haengen. Wenn man irgendwie ohne auskommen kann, sollte man das wahrscheinlich machen (das kann man oft gut in Iterationen transformieren), wenn einem die Performance wichtig ist. Ich koennte mir schon vorstellen, dass die Performance eine Bauchlandung hinlegt, wenn man staendig den kompletten Registerspace (8 MB bei 32 CUs, 10 MB bei 40 CUs) ins global memory und wieder zurueck schieben muss (es sei denn, die Kernel sind sehr gross). Auch auf CPUs ist Rekursion meist nicht die schnellste Variante eines Algos.

Skysnake

2011-07-25, 19:21:03

Ja, es ist oft nicht die schnellste, aber eben oft recht einfach zu implementieren. Zumindest wenn ich da manche reden höre. Ich mag Rekursionen nicht. Ich meide Sie sogar eher wie die Pest, aber hab schon genug Leute getroffen, die das ganz toll und nützlich finden :ka:

Bei Näherungsverfahren ist es glaub ich teils ganz praktisch.

Gipsel

2011-07-25, 19:57:52

Ich mag Rekursionen nicht. Ich meide Sie sogar eher wie die Pest,+1 ;)

Skysnake

2011-07-25, 20:18:46

Woher das wohl kommt :biggrin:

aber noch was zu deiner Aussage bzgl. Fermi:

Was soll Fermi denn noch können, was im Moment nicht unterstützt wird.

Mir fällt da spontan wirklich nichts ein. Sync über mehrere Blöcke wäre vielleicht noch etwas, ohne Preemption kannst du das aber auch knicken, da die Tasks ja laufen und laufen und laufen, wenn Sie etwas zu tun haben. Mann kann also maximal so viele Software Threads wie Hardware Threads haben. So kann man das aber heute auch schon umsetzen über Umwege. Klar ein API-Aufruf wäre schick, aber verschmerzbar.

Ansonsten fällt mir halt echt NICHTS ein, was noch möglich wäre ohne gemeinsamen Adressraum und Preemption. Die zwei Sachen zusammen eröffnen viele neue Möglichkeiten.

Ach so, mir fallen doch noch 2 Sachen ein. auf der einen Seite vielleicht doch eine Implementierung für Rekursionen, wobei dass sicherlich dann auch Einschränkungen hat, bzw. eklig zu nutzen ist wegen fehlendem Preemption etc. Da frag ich mich sowieso wie AMD das performant machen will :freak: Ich glaub der Punkt wird nicht so berauschend werden.

Naja und dann halt noch, dass man Templets vernünftig nutzen kann mit dem sharedMemory. Im Moment spackt CUDA da noch ganz schön rum teils...:ubash3:

Was schwebt dir denn noch so vor, was mit Fermi möglich sein sollte? :confused:

EDIT:

Das mit dem cohärenten Speicher stell ich mir für nVidia eh SEHR schwierig vor. Hab bis heute keinen so richtigen Plan, wie AMD das performant ohne Hardwaresupport auf beiden Seiten implementieren will. Und naja, ich glaube nicht, dass nVidia auf solche Infos dann zugriff hat aktuell. Ich glaub auch nicht, dass alle Funktionen von GCN mit einem Intel verfügbar sein werden.... leider... :(

Irgendwie hab ich richtig Bauchschmerzen, wenn ich an nVidia denke und die ganze APU Entwicklung etc. Ich hoffe mal AMD nutzt da seine Möglichkeiten der CPU-GPU-Sparte nicht aus und fängt an propritäre Sachen hin zu stellen... Irgendwie hab ich diesbezüglich aber ein sau schlechtes Gefühl :/

Naja, und wenn man weiter denkt und sich mal Vorstellt, nVidia würde ins straucheln kommen, dann gute Nacht um SECHS, denn dann bleibt eigentlich nur Intel als Käufer übrig, und dann siehts für AMD plötzlich verdammt schlecht aus, wobei ich mir nicht vorstellen kann, dass die Kartellämter dem zustimmen würden... Aber vielleicht bin ich auch paranoid :biggrin: