nVidia - Kepler - 28nm - 2012 [Archiv] - Seite 3

Archiv verlassen und diese Seite im Standarddesign anzeigen : nVidia - Kepler - 28nm - 2012

Hugo78

2011-07-25, 22:00:16

Tja, wenn man hier und da für paar Lizenzen zahlen muss, dann ist das halt so.
Das nagt dann an der Marge, aber bisher steht NV ohne Schulden da, also das Potential und die Kohle ist vorhanden.

Wenn nicht Nvidia gegen IBM, Intel und AMD stinken kann, wer dann?
Wobei "anstinken" müssen sie ja garnicht, sie müssen nur in erster Linie die überzeugendere GPGPU Lösung bringen, ihr täglich Brot.

Denver ist dann nur die kostengünstige (monetär, als auch stromverbrauchsmässig) Alternative, für Kunden die eigentlich nur die GPGPU für ihre Server brauchen.
Ob das jetzt ein nenneswerter Anteil am Gesamtmarkt ist, keine Ahnung.
Aber ich glaube, grade so Code den man zb. für Renderfarmen oder auch Wettervorhersagen braucht, kommt im Grunde doch auch ganz gut ohne fette CPU aus.

Skysnake

2011-07-25, 22:12:07

Kommt drauf an.

AMD hat aber gerade für den von dir beschriebenen Markt was neues gebracht. Ein GPU-Server bei dem man GPU-Virtualisierung macht. Keine Ahnung wie das genau funktioniert, aber du kannst halt viele Nutzer drauf zugreifen lassen wie auf einem virtuellen Server halt.

Ich hoffe nVidia hat mit Denver etc. Erfolg. Wir brauchen im GPU Markt eine gute Konkurrenz zu AMD, die nicht Intel heißt.

Ailuros

2011-07-25, 22:27:18

Im Vergleich zum Workstation ist Tesla aber mit vielleicht so 25%-Umsatz immer noch unbedeutend. Dazu begannen die Leute wegen Quadro/Worktstation Cuda zu lernen.

- Der erste HPC-AMD-FirePro 7800P kam erst Mai 2010. Also 3 Jahre nach Tesla-G80 (und 2 Monate vor Tesla-C2050)
Somit gabs es erst kurz vor C2050 ersmals eine Tesla-Konkurrenz. Der Rest waren davor Beta-Lösungen (siehe China-HPC mit Radeons.)
- AFAIK begann AMD Anfang 2010 OpenCL bzw. GPGPU viel ernster zu nehmen.
- Gleichzeitig (Anfang bis Mitte 2010) ist das Fermi-Chaos dazugefallen, sodass der "deutliche" deutliche Anstieg nach diesen obengenannten 3 Ereignissen, dann doch nicht mehr so verwundert.

Klar hat das jetzt nicht direkt mit dem Kepler zu tun.
Aber es geht um die Konkurrenz-Situation/Entwicklung vor Kepler. Und die ist nicht uninteressant, wenn Kepler wieder etwas mehr Probleme als die Konkurrenz haben soll, wie es momentan spekuliert wird.

Von Problemen zumindest von zuverlaessigen Quellen ist noch nicht die Rede bis heute. Da NV sich wohl nicht so schnell von ALU hotclocking loesen wird, klingt 28HP/HKMG die einzige logische Loesung und es ist eben nun mal so dass vor Q1 2012 (selbst wenn dann) kein komplizierter chip in anstaendigen Mengen antanzen kann.

Im Gegensatz wenn Charlie recht haben sollte und SI liegt auf HPL dann ja hat AMD natuerlich Chancen schon dieses Jahr damit anzukommen selbst wenn es kurz vor Weihnachten sein sollte. Das dumme fuer NV eben ist dass HPL nichts fuer ihr hotclocking/Kepler ist.

Was mich generell stoert (und bisher nicht erwaehnt wurde) ist dass viele bisher (und ueberhaupt mit Fermi) gemeckert haben dass NV angeblich zu viel Transistoren in HPC investiert. Komischerweise folgt AMD diesem Trend nun doch auch mit GCN, weil eben doch Geld hinter der Geschichte stecken kann. Und nein natuerlich hat bis jetzt weder NV noch AMD irgend etwas besonderes mit HPC GPUs daraus verdient.

Im groben Gegensatz zu Quadros wo NV zwar auch keine Uebermengen verkauft, trotz allem einen sehr hohem Marktanteil pflegt mit sehr hohen Margen.

Und das ist für Nvidia schon ein ziemliches Worst-Case Szenario, da diese Sparte moemtan den meisten Profit abwirft.

Welche denn genau? Teslas gewiss nicht. Der groesste Umsatz/Gewinn kommt immer noch von GeForces. Nebenbei hoert man heutzutage viel mehr ramtamtam seitens NV fuer Tegras (egal ob es momentan mehr Rauch und Qualm ist als Realitaet) als alles andere. Drei Mal darfst Du raten welcher AMD's groesster Vorteil momentan ist.

Kommt drauf an.

AMD hat aber gerade für den von dir beschriebenen Markt was neues gebracht. Ein GPU-Server bei dem man GPU-Virtualisierung macht. Keine Ahnung wie das genau funktioniert, aber du kannst halt viele Nutzer drauf zugreifen lassen wie auf einem virtuellen Server halt.

Ich hoffe nVidia hat mit Denver etc. Erfolg. Wir brauchen im GPU Markt eine gute Konkurrenz zu AMD, die nicht Intel heißt.

Also den letzten Paragraphen kann ich ohne weiteres Bedenken unterschreiben. SoCs fuer desktops/notebooks sind die groessten Mengen der vorhersehbaren Zukunft und mir schaudert es nur so von Intel's GPU Treibern.

aylano

2011-07-26, 05:37:18

Im Gegensatz wenn Charlie recht haben sollte und SI liegt auf HPL dann ja hat AMD natuerlich Chancen schon dieses Jahr damit anzukommen selbst wenn es kurz vor Weihnachten sein sollte. Das dumme fuer NV eben ist dass HPL nichts fuer ihr hotclocking/Kepler ist.

Ehrlich gesagt, glaube ich nicht so daran.
Denn eigentlich sollte HPL später als HP fertig sein.
Es wäre IMO ziemlich Spekulativ, wenn AMD sich für SI vor einem Jahr oder-so für einen schnellen Umstieg eine "spätere" Fertigung (HPL) entscheiden haben, die dann aber doch früher sinnvoll produktionsreif sein sollte/wird.
Das wäre eigentlich ein genialer Schachzug, den man sich eigentlich nicht erwarten dürfte/kann.

Was mich generell stoert (und bisher nicht erwaehnt wurde) ist dass viele bisher (und ueberhaupt mit Fermi) gemeckert haben dass NV angeblich zu viel Transistoren in HPC investiert. Komischerweise folgt AMD diesem Trend nun doch auch mit GCN, weil eben doch Geld hinter der Geschichte stecken kann.

Als die Leute über Nvidia meckerten, war GCN schon längst in der Entwicklung.
Und wie die Leute dann über GCN meckern (eventuell zu GPGPU-Lastig?), wissen wir ja noch nicht, da wir noch nicht die Performance & Performance-pro-Watt & Performance-pro-mm² @ Games kennen.
Ich glaube, vielen ist das noch nicht ganz sooo bewusst, dass diese zusätzlichen Sachen eben auch zusätzliche Transistoren & Stromverbrauch & mm² bedeutet, ohne dass sie so wirklich einen Nutzen haben.

Als viele über Fermi meckerten, wussten fast alle eben noch nicht, dass eh bald ein abgespeckter Fermi (GF104) derherkommt, der dann fürs >aktuelle< Gamen besser geeignet ist.

Ab einen bestimmten Punkt, ist es halt Sinnvoller einen GPGPU-Chip zu erstellen. Und das hat Nvidia ja letztes Jahr eigentlich schon fast mit GF104 gemacht.
Mal sehen, ob ein "Server-Only-GPU" schon mit Kepler daherkommt. Denn es ist schon riskant, wenn eine Server-lastige-GPU, die dann nur 10% Geforce-Umsatz macht, dann die ganze Geforce-Portfolie nach hinten verschiebt bzw. im Zeitplan sehr gefährdet.

Welche denn genau? Teslas gewiss nicht. Der groesste Umsatz/Gewinn kommt immer noch von GeForces.
Ich meinte das nur aus Tesla Sicht, wäre ein Gleichwertiges-Produkt ein Worst-Case-Version, da Nvidia in diesem Bereich extrem!!! überlegen war.

Aus Nvidia-Gesamt-Sicht, hätte es den Nachteil, dass ihnen eine bisher sichere Profit-Basis ihnen wegbricht, was sie dann stärker spürend würden, wenn die Geforce-Produkte (siehe Fermi) Probleme macht.
Denn Tegra macht noch Verluste.
Aber das wäre immer noch kein Untergang, da sie ja noch ziemlich viel Geld besitzen und noch genug Umsätze aus Lizenzen bekommen.

(Bzw. jetzt muss man nur noch wissen, wo die Intel-Lizenzen reingerechnet werden.)

Im groben Gegensatz zu Quadros wo NV zwar auch keine Uebermengen verkauft, trotz allem einen sehr hohem Marktanteil pflegt mit sehr hohen Margen.
Natürlich, aber die letzten Quartale stagniert dieser Gesamt-Profi-Markt trotz Fermi-Tesla bzw. ist jetzt kaum höher als G80-Cuda 1.0 zu seiner besten Zeit.
In welche Richtung (Rauf, Stagnation, Runter) es gehen wird, werden wir sehen, aber durch die Konkurrenz-Situation (Marktanteile & Co - siehe oben) lassen schon Tendenzen erkennen.

Dural

2011-07-26, 09:41:42

einige vergessen wohl dass gerade der GPGPU Markt sich nicht von heute auf morgen ändert, die nächsten Jahre wird da NV sicher keine Probleme haben. Der NV vorsprung in diesem Markt ist gewaltig, da wie schon angemerkt AMD nie wirklich was gemacht hat, wer jetzt da wirklich das gefühl hat das sich dies von heute auf morgen ändert ist aber schon "etwas" naiv ;)

Aber zuerst muss AMD erst mal die Hardware bringen, die es mit der aktuellen NV Hardware auch aufnehmen kann. :wink:

Zudem Konkurenz für NV ganz gut sein kann, wenn man ein überlegens Produkt anbietet und die Mitbewerber da nicht mit ziehen können ist das Wirtschalftlich gsehen ganz klar besser als wenn man alleine da steht und man keine richtige vergleichsbasis hat, man kann da durch höhere Preise viel besser rechtfertigen.

Skysnake

2011-07-26, 10:01:54

Also zu dem Punkt, dass die Leute vergessen, dass bei GCN viel für GPGPU drauf geht, also mir ist das absolut bewusst, und ich hätte gern noch mehr GPGPU Anteil in den Karten :biggrin:

Was aber auf der anderen Seite auch teils vergessen wird, ist, dass durch die Sachen wie gemeinsamer Adressraum etc. eben auch manche Sachen vereinfacht werden. Megatexturs wie ID sie einsetzt, sollen damit wohl sehr leicht zu implementieren sein. Der Gameing Bereich kann also durchaus auch seine Vorteile daraus ziehen.

@Dural:
Du hast durchaus Recht, allerdings hat sich nVidia eben auch sehr viele Sympathien verspielt. Die Leute werfen inzwischen eben auch mal einen Blick rechts und links. Zudem, wenn nur die Hälfte von dem kommt und funktioniert, was AMD angekündigt hat, dann muss nVidia sich aber ran halten.

Ailuros

2011-07-26, 10:54:32

Ehrlich gesagt, glaube ich nicht so daran.
Denn eigentlich sollte HPL später als HP fertig sein.
Es wäre IMO ziemlich Spekulativ, wenn AMD sich für SI vor einem Jahr oder-so für einen schnellen Umstieg eine "spätere" Fertigung (HPL) entscheiden haben, die dann aber doch früher sinnvoll produktionsreif sein sollte/wird.
Das wäre eigentlich ein genialer Schachzug, den man sich eigentlich nicht erwarten dürfte/kann.

Es waere aber momentan eine der wenigen wenn nicht die einzige logische These die einen SI release noch dieses Jahr unterstuetzen kann. Fuer 28HP sind TSMC's eigene Andeutungen was Prozente betrifft sogar beschissener als 40G bei seinem Anlauf und ich bezweifle ernsthaft dass AMD so doof ist Unsummen fuer die Produktion von chips bezahlen will nur um eine geringe Menge auf die Ladentische zu bekommen.

Als die Leute über Nvidia meckerten, war GCN schon längst in der Entwicklung.

Und als die AMD engineers vom Fermi Wind bekamen waren sie selbst mit Cypress noch nicht fertig. Was soll mir da obrige genau sagen?

Charlie hat seitenlange Meckerartikel darueber geschrieben und sein heutiges Zeug ueber Kepler ist auch nicht besonders besser. Mehr als die Haelfte von dem Geschreibsel macht nicht mal Sinn, denn Fermi ist mit 4 raster/4 trisetups wohl alles andere als ein "Larabee" sondern das brutale Gegenteil. Wie dem auch sei weder bei Fermi noch bei GCN kostet das dedizierte HPC Zeug keine Uebermengen an Transistoren oder besser ausgedrueckt nicht zu dem Grad dass es allzu viel von der desktop GPU Leistung entfernt.

Es sind eben leider meistens die typische Uebertreibungen die links und rechts erscheinen und in der Mehrzahl der Faelle von Leuten zusammengekritzelt die keine besondere Ahnung von GPUs haben.

Und wie die Leute dann über GCN meckern (eventuell zu GPGPU-Lastig?), wissen wir ja noch nicht, da wir noch nicht die Performance & Performance-pro-Watt & Performance-pro-mm² @ Games kennen.

Siehe oben vorletzter Paragraph.

Ich glaube, vielen ist das noch nicht ganz sooo bewusst, dass diese zusätzlichen Sachen eben auch zusätzliche Transistoren & Stromverbrauch & mm² bedeutet, ohne dass sie so wirklich einen Nutzen haben.

So bombastisch wie sich manche antun ist es eben nicht.

Als viele über Fermi meckerten, wussten fast alle eben noch nicht, dass eh bald ein abgespeckter Fermi (GF104) derherkommt, der dann fürs >aktuelle< Gamen besser geeignet ist.

Dass GF104 bzw. 114 ein besseres Preis-, Leistungs-,Stromverbrauch-Verhaeltnis haben werden, brauchte man wohl keine Glaskugel um es sich auszuraten. GF1x4 ist im Grund weder streng "abgesteckt" noch streng "aufgemoebelt" sondern eher eine Kombination von beiden stets im Rahmen was bei der spezifischen Architektur und dessen Preisziel moeglich war.

Ab einen bestimmten Punkt, ist es halt Sinnvoller einen GPGPU-Chip zu erstellen. Und das hat Nvidia ja letztes Jahr eigentlich schon fast mit GF104 gemacht.

Seit wann ist 104 ein "GPGPU-chip"?

Mal sehen, ob ein "Server-Only-GPU" schon mit Kepler daherkommt. Denn es ist schon riskant, wenn eine Server-lastige-GPU, die dann nur 10% Geforce-Umsatz macht, dann die ganze Geforce-Portfolie nach hinten verschiebt bzw. im Zeitplan sehr gefährdet.

Dafuer sind die Kosten zu gross und ich bezweifle dass sich jeglicher IHV dazu wagen wuerde. Selbst Intel mit ihrem gefloppten LRB Design hatte nie vor in die Richtung zu gehen; heutzutage verkaufen sie die Dinger als Knights Ferry fuer nur HPC, aber auch nur weil sie das Ding mit seinem brutalen Stromverbrauch nirgends anders verkaufen koennen.

Aus Nvidia-Gesamt-Sicht, hätte es den Nachteil, dass ihnen eine bisher sichere Profit-Basis ihnen wegbricht, was sie dann stärker spürend würden, wenn die Geforce-Produkte (siehe Fermi) Probleme macht.
Denn Tegra macht noch Verluste.

Der entfallene IGP Markt fuer NVIDIA hat auch keine Gewinne gebracht. Und?

Natürlich, aber die letzten Quartale stagniert dieser Gesamt-Profi-Markt trotz Fermi-Tesla bzw. ist jetzt kaum höher als G80-Cuda 1.0 zu seiner besten Zeit.
In welche Richtung (Rauf, Stagnation, Runter) es gehen wird, werden wir sehen, aber durch die Konkurrenz-Situation (Marktanteile & Co - siehe oben) lassen schon Tendenzen erkennen.

NV's groesstes Problem IMHO ist dass sie momentan keine anstaendige Antwort gegen AMD's Fusion haben und dieses wohl nicht bis zu 20nm/TSMC. Wenn sie jetzt noch zusaetzlich keinen einzigen Konsolen-Design gewonnen haben dann schrumpft ihre insgesamte Markt-Existenz noch mehr.

Jetzt wo Fusion bald auch fuer tablets geeignet sein wird, fehlt im Grund AMD lediglich ein smart-phone SoC Design.

Skysnake

2011-07-26, 12:24:16

NV's groesstes Problem IMHO ist dass sie momentan keine anstaendige Antwort gegen AMD's Fusion haben und dieses wohl nicht bis zu 20nm/TSMC. Wenn sie jetzt noch zusaetzlich keinen einzigen Konsolen-Design gewonnen haben dann schrumpft ihre insgesamte Markt-Existenz noch mehr.

Jetzt wo Fusion bald auch fuer tablets geeignet sein wird, fehlt im Grund AMD lediglich ein smart-phone SoC Design.

Verschreis bitte nicht... Ich hab diesbezüglich schon ziemliche Bauchschmerzen... PS4 kommt ja vielleicht nächstes oder übernächstes Jahr. Wenn nVidia da nicht zum Zuge kommt, dann wirds bitter. Microsoft wird nach dem was man hört ja anscheinend auf eine APU setzen, naja und die Wii/Migu whot ever sind/werden ja auch wieder von Ati/AMD befeuert.

Ich hoffe es wird bald mal echte Informationen zu Kepler geben.

aylano

2011-07-26, 15:47:43

Es waere aber momentan eine der wenigen wenn nicht die einzige logische These die einen SI release noch dieses Jahr unterstuetzen kann.

Was jetzt aus unserer Sicht logisch klingt, muss aber nicht damals logisch geklungen haben.
Wann musste sich AMD für eine Fertigung entscheiden, wenn sie Ende 2011 ihre SI-GPUs rausbringen wollen?

Wer weiß, vielleicht hatte AMD einfach die SiGe Problematik bei 40HP gesehen und dann beim 28HP wiedergesehen (aufgrund damaliger eigener Fabriken??), sodass sie dann auf eine frühere Reife des 28HPL spekulierten. Dann klingt das ja nicht so unlogisch, aber bei mir sind schon viel logischere Ansichten nicht eingetreten bzw. erst bei den Nachfolger.
Und nur weil ich nicht so daran glaube (= geringere Wahrscheinlichkeit), halte ich es nicht für Unmöglich (Unmöglich entspricht Null-Wahrscheinlichkeit)

Und als die AMD engineers vom Fermi Wind bekamen waren sie selbst mit Cypress noch nicht fertig. Was soll mir da obrige genau sagen?
...
Es sind eben leider meistens die typische Uebertreibungen die links und rechts erscheinen und in der Mehrzahl der Faelle von Leuten zusammengekritzelt die keine besondere Ahnung von GPUs haben.
Mekern tun die Leute gerne.
Und je schlechter die Informations-Lage, desto größer ist die Abweichung.
Würde man konkretere Zahlen über GPGPU-Auswirkungen auf Transistoren & Stromverbrauch & mm² wissen bzw. mitbekommen, dann wären die Abweichungen (=Fehler) der Meckerer geringer.

Dass GF104 bzw. 114 ein besseres Preis-, Leistungs-,Stromverbrauch-Verhaeltnis haben werden, brauchte man wohl keine Glaskugel um es sich auszuraten. GF1x4 ist im Grund weder streng "abgesteckt" noch streng "aufgemoebelt" sondern eher eine Kombination von beiden stets im Rahmen was bei der spezifischen Architektur und dessen Preisziel moeglich war.
Ich sehe den kleinen Unterschied anders bzw. größer.

Denn der Unterschied von nur paar % in Sachen Effizienz (Performance-pro-Watt (& Performance-pro-mm²)) ist teils schon die halbe Welt.

Ich glaub, zwischen von-der-Masse-genannte-Thermi GF100 und RV870 war der Effizienz/Performance-pro-Watt-Unterschied "nur" 15%.
Absolut gesehen, finde ich die 15% gering, wenn man bedenkt, wie vernichtend die Kritik der Komentare in Massen-Zeitungs-Foren wr.

Seit wann ist 104 ein "GPGPU-chip"?
Das war jetzt von mir falsch gesagt.

Mit GF100 & GF104 ist IMO Nvidia den Weg gegangen, wo ersteres mehr auf GPGPU optimiert wurde und GF104 auf aktuelle Games.
Mal sehen, vielleicht wird der Abstand dieser zwei GPUs in Zukunft größer, sodass in paar Jahren Nvidia eine GPU entwirft, die dann nur mehr für Server verwendet wird.

Dafuer sind die Kosten zu gross und ich bezweifle dass sich jeglicher IHV dazu wagen wuerde. Selbst Intel mit ihrem gefloppten LRB Design hatte nie vor in die Richtung zu gehen; heutzutage verkaufen sie die Dinger als Knights Ferry fuer nur HPC, aber auch nur weil sie das Ding mit seinem brutalen Stromverbrauch nirgends anders verkaufen koennen.
Na ja, wenn man bedenkt wie groß der Gewinn-Einbruch in der Geforce-Sparte war, und da ging es um viel Mio. Euro, dann würde es sich vielleicht schon bald x-fach auszahlen, 20-40 Mio. $ für eine extra GPU zu entwickeln.

Es geht mir ja "nur" darum, dass die "Server-optimierte-GPU" das ganze Geforce-Portfolie (Performance bis Low-End) gefährdet und zu Verschiebungen zwingt.

Intel zeigt ja, dass sie Nachteile aufgrund "Server-Optimierungen" haben und diesen nicht am Markt bringt. Aber die können sich es auch leisten, weil sie einerseits genug Geld haben und andererseits eh nicht am GPU-Markt tätig sind.

Der entfallene IGP Markt fuer NVIDIA hat auch keine Gewinne gebracht. Und?

AFAIK war der IGP-markt für Nvidia am Schluss sogar sehr Profitable. Vorallem, in der WirtschaftsKrise war der Profit sehr stabil, wo in der Zeit Geforce & Profi-GPU-Gewinne "einbrachen".

Mittlerweile dürften diesen Platz die Lizenz-Einnahmen eingenommen haben, sodass Nvidia die nächsten 5 Jahre recht ruhig weiterentwickeln kann.
Man hat ja bei AMD gesehen, wenn man keine sicheren Profit-Einnahmen hat und in einer Wirtschafts-/Eigenverschuldete-Krise in erhebliche Verluste rutschen kann, dann Einscheidungen trifft, die sich dann später negativ Auswirkt bzw. sich später als Fehler erweißt.

Aber Nvidia ist momentan mit Abstand noch nicht in so einer Lage.

Ailuros

2011-07-26, 17:46:25

Was jetzt aus unserer Sicht logisch klingt, muss aber nicht damals logisch geklungen haben.
Wann musste sich AMD für eine Fertigung entscheiden, wenn sie Ende 2011 ihre SI-GPUs rausbringen wollen?

Wer weiß, vielleicht hatte AMD einfach die SiGe Problematik bei 40HP gesehen und dann beim 28HP wiedergesehen (aufgrund damaliger eigener Fabriken??), sodass sie dann auf eine frühere Reife des 28HPL spekulierten. Dann klingt das ja nicht so unlogisch, aber bei mir sind schon viel logischere Ansichten nicht eingetreten bzw. erst bei den Nachfolger.
Und nur weil ich nicht so daran glaube (= geringere Wahrscheinlichkeit), halte ich es nicht für Unmöglich (Unmöglich entspricht Null-Wahrscheinlichkeit).

Charlie ist ziemlich gut wenn es zu TSMC/tape out Informations-Fetzen kommt. Hat er jetzt recht und SI hatte seinen tape out irgendwo Februar in diesem Jahr dann haut die Zeitspanne fuer einen ~Q4 2011 release hin, es bleibt aber dabei dass es fuer 28HP und anstaendige Mengen noch schlechter aussieht als bei 40G bei seinem Anlauf.

Natuerlich spekuliert dann Charlie weiter und blubbert von der HPL Moeglichkeit, aber absurd ist die These durchaus nicht. Ich sag ja "These" und nicht "Theorie" mit Absicht ;)

Mekern tun die Leute gerne.
Und je schlechter die Informations-Lage, desto größer ist die Abweichung.
Würde man konkretere Zahlen über GPGPU-Auswirkungen auf Transistoren & Stromverbrauch & mm² wissen bzw. mitbekommen, dann wären die Abweichungen (=Fehler) der Meckerer geringer.

Spaetestens mit der Erscheinung vom 104 wurde einiges klarer. Hierbei ist "klarer" auch relativ denn sie haben 2 GPCs entfernt, einen 16-er SIMD pro cluster dazugesteckt mit 4 TMUs mehr und den angeblichen "superskalaren" Krampf dazugesteckt u.a. und mal schnell vereinfacht. Alles in allem kommt bei diesem komischen +/- ca. 70% des die estates eines GF100 raus.

Ich sehe den kleinen Unterschied anders bzw. größer.

Denn der Unterschied von nur paar % in Sachen Effizienz (Performance-pro-Watt (& Performance-pro-mm²)) ist teils schon die halbe Welt.

Ich glaub, zwischen von-der-Masse-genannte-Thermi GF100 und RV870 war der Effizienz/Performance-pro-Watt-Unterschied "nur" 15%.
Absolut gesehen, finde ich die 15% gering, wenn man bedenkt, wie vernichtend die Kritik der Komentare in Massen-Zeitungs-Foren wr.

Tja zu anderen Vergleichen wird es wohl erst ab GCN kommen und natuerlich noch mehr zwischen dessen high end und mainstream oder kleineren chips.

Uebrigens ist der perf/W Vergleich auch technisch unfair da GF100 problematisch war. Das Bild aendert sich um einiges zwischen GF110 und Cayman was perf/W betrifft.

Mit GF100 & GF104 ist IMO Nvidia den Weg gegangen, wo ersteres mehr auf GPGPU optimiert wurde und GF104 auf aktuelle Games.
Mal sehen, vielleicht wird der Abstand dieser zwei GPUs in Zukunft größer, sodass in paar Jahren Nvidia eine GPU entwirft, die dann nur mehr für Server verwendet wird.

Man koennte 1x4 als auch aufgepumpten mainstream chip bezeichnen, da es zwischen diesem und 1x0 keinen eigentlichen performance chip gibt. Die Masche ist alles andere als schlecht, nur verwirren eben etwas die rohen Spezifikationen.

Wenn man im high end =/>4 GPCs hat (mehr fuer eine moegliche zukuenftige Steigerung) dann sollte es klar sein dass fuer kleinere GPUs man nicht Unmengen von Geometrie fuer die heutigen Verhaeltnisse braucht.

Wieso sollten high end GPUs noch groesser werden? Fuer HPC Rechenmonster braucht man hauptsaechlich Rechenkraft und ALUs sind nach wie vor relativ billig im Vergleich zu anderen Einheiten. Arithmetische Leistung ist auch nicht unbedingt irrelevant; mag sein dass man aus einem GF114 nicht alles aus den 384SPs quetschen kann in Echtzeit fuer Spiele aber im Gegensatz waeren 256SPs auch wieder zu wenig gewesen.

Na ja, wenn man bedenkt wie groß der Gewinn-Einbruch in der Geforce-Sparte war, und da ging es um viel Mio. Euro, dann würde es sich vielleicht schon bald x-fach auszahlen, 20-40 Mio. $ für eine extra GPU zu entwickeln.

ROFL wenn es nur so wenig waere. Jeglicher tape out bis zum finalen duerfte um die 5Mio kosten, mal alle andere R&D Kosten zur Seite.

AFAIK war der IGP-markt für Nvidia am Schluss sogar sehr Profitable. Vorallem, in der WirtschaftsKrise war der Profit sehr stabil, wo in der Zeit Geforce & Profi-GPU-Gewinne "einbrachen".

Den muss ich verpasst haben :D

Ailuros

2011-07-26, 18:02:43

Verschreis bitte nicht... Ich hab diesbezüglich schon ziemliche Bauchschmerzen... PS4 kommt ja vielleicht nächstes oder übernächstes Jahr. Wenn nVidia da nicht zum Zuge kommt, dann wirds bitter. Microsoft wird nach dem was man hört ja anscheinend auf eine APU setzen, naja und die Wii/Migu whot ever sind/werden ja auch wieder von Ati/AMD befeuert.

Ich hoffe es wird bald mal echte Informationen zu Kepler geben.

http://www.fudzilla.com/home/item/23539-nvidia-shares-slide-amidst-strong-competition

Nicht direkt relevant, aber das Klima ist momentan alles andere als berauschend.

Skysnake

2011-07-26, 18:54:37

Wieso sollten high end GPUs noch groesser werden? Fuer HPC Rechenmonster braucht man hauptsaechlich Rechenkraft und ALUs sind nach wie vor relativ billig im Vergleich zu anderen Einheiten. Arithmetische Leistung ist auch nicht unbedingt irrelevant; mag sein dass man aus einem GF114 nicht alles aus den 384SPs quetschen kann in Echtzeit fuer Spiele aber im Gegensatz waeren 256SPs auch wieder zu wenig gewesen.

Ailuros, der große Vorteil von Fermi sind die großen Caches. Bei den meisten Anwendungen hapert es daran, da man zu viele Speicherzugriffe hat und daher nicht die Leistung der ALUs auf den Boden bekommt.

Bei der Matrix-Mul hab ich z.B. mit einem schon SEHR optimierten Code gerade mal so 1/5 der theoretischen Leistung hin bekommen, einfach weil mir der Cache ausgegangen ist. ALUs hat nVidia genug, und AMD gleich 10 mal. Die Caches müssen nur größer werden, da man die ganzen ALUs auch mit Daten füttern muss, und eben in vielen Anwendungen die Datenlokalität (Wiederverwendung der gleichen Daten) zu gering ist.

|MatMan|

2011-07-26, 19:55:52

Bei der Matrix-Mul hab ich z.B. mit einem schon SEHR optimierten Code gerade mal so 1/5 der theoretischen Leistung hin bekommen, einfach weil mir der Cache ausgegangen ist.
Ist zwar OT, aber 1/5 ist bei so einer simplen Operation wohl doch etwas wenig. Andere (http://www.accelereyes.com/products/benchmarks_libjacket) schaffen da schon ein wenig mehr als die Hälfte der Rohleistung. Am Fermi Cachesystem kann es auch nicht liegen, da eine Tesla C1060 auch schon ca. die Hälfte der Peak Leistung schafft - hier (http://blog.accelereyes.com/blog/2010/08/03/tesla_c2050_versus_c1060_matlab_jacket/) im Vergleich mit ner C2050 und ein paar anderen GPUs.

Klar müssen AMD und nVidia sich was einfallen lassen wie sie die ALUs füttern können - mit großen Caches allein wird das aber nicht gehen. Zumal der Transport von Daten quer über die GPU auch ne Menge Energie kostet.

Gipsel

2011-07-26, 20:24:24

Ailuros, der große Vorteil von Fermi sind die großen Caches.Fermi hat gar nicht so viel mehr (L1 ist in Standardkonfiguration doppelt so groß wie bei AMD, L2 hat genauso einen 128kB Slice pro 64Bit Speichercontroller). Der Hauptunterschied ist eher die Kohärenz.
Bei der Matrix-Mul hab ich z.B. mit einem schon SEHR optimierten Code gerade mal so 1/5 der theoretischen Leistung hin bekommen, einfach weil mir der Cache ausgegangen ist. ALUs hat nVidia genug, und AMD gleich 10 mal. Die Caches müssen nur größer werden, da man die ganzen ALUs auch mit Daten füttern muss, und eben in vielen Anwendungen die Datenlokalität (Wiederverwendung der gleichen Daten) zu gering ist.Fermi oder AMD? Da liefert doch schon das simple_matmult Sample mehr Performance, oder?
Die Strategie (für große Matrizen) bei AMD ist eigentlich einfach: Vergiß shared memory (ist eh' nicht schnell genug, übrigens auch bei nv nicht), ordne die Daten (und Operationen) so um, daß Du blockweise lineare Speicherzugriffe hast, gruppiere die Speicherzugriffe im Kernel und packe soviel Du kannst in Register, rechne alles was damit geht, schreibe zurück in Speicher.
Bei B3D hat jemand (prunedtree) schon vor 2 Jahren seinen Code so getuned, daß er auf einem Cypress bei 92% der theoretischen Peakleistung mit einem DGEMM kernel angekommen ist (glatte 500 GFLop/s in DP mit 2048x2048 Matrizen, 544 GFlop/s sind theoretical peak). Die Bandbreitenanforderungen sind bei SP grob doppelt so hoch, aber auch da kommt er auf über 80% (2,22 TFlop/s von 2,72 Tflop/s Peak).
Bei Fermi liegt das Limit wohl irgendwo bei 70%. Da reichen die Register nicht, um genügend Werte darin zu halten und shared memory/Cache ist dann einfach etwas zu langsam.

Aber um die Kurve zu Kepler/Maxwell wieder zu kriegen, soweit ich weiß, hat nv schon für Kepler eine höhere Effizienz bei Matrixoperationen versprochen. Das heißt also entweder größere Registerfiles und/oder schnelleren local memory/cache (und dann wohl auch nochmal etwas größer?).
Edit: Oder gesenkte Latenzen, so daß jeder Warp/Thread mehr vom Registerfile nutzen kann.

aylano

2011-07-26, 21:23:10

Tja zu anderen Vergleichen wird es wohl erst ab GCN kommen und natuerlich noch mehr zwischen dessen high end und mainstream oder kleineren chips.

Uebrigens ist der perf/W Vergleich auch technisch unfair da GF100 problematisch war. Das Bild aendert sich um einiges zwischen GF110 und Cayman was perf/W betrifft.

Wobei der Cayman, wenn ich es richtig mitbekommen habe, viele zusätzliche Einheiten (2 getrennte Was-auch-immer-Front-End mit je ein Tesselator) hat, die von aktuellen Games kaum genutzt werden und ineffizient wirkt.
Bart vs. Caymann erinnert mich etwas an GF1x4 und GF1x0.

Die Abkömmliche von Cayman haben nicht diesen "Infeffizienten Zusatz-Feature".
Denn im Low-End & Mainstream & höheres Mainstream-Bereich sieht es AFAFIK wieder anders aus, wo Nvidia ungewöhnlich große Die-Größen hat.

Aber gut, da es eh bald Schnee von Gestern ist, interessant eine momentane genaue Betrachtung bald eh keinen mehr, wenn dann die Situation mit GCN wahrscheinlich anders/neu sein wird.

Wieso sollten high end GPUs noch groesser werden?

Ich meinte damit den Abstand zwischen Server-optimierte und Gamer-optimierte GPU größer wird und nicht nur den Abstand bezogen auf die Die-Größe.
Den Abstand kann man in diesem Fall auch als Performance-pro-Watt / Perofmrnace-pro-mm² und somit auch Absolut-Performance & -Die-Größe sehen bei aktuellen Spielen sehen.

ROFL wenn es nur so wenig waere. Jeglicher tape out bis zum finalen duerfte um die 5Mio kosten, mal alle andere R&D Kosten zur Seite.

Meine Zahlen waren aus der Luft gegriffen bzw. ich bilde mir ein, einmal 30 Mio. $ pro ??? gelesen zu haben.

Es wäre überhaupt mal interessant eine genaue Auflistung zu hören, wie viel die ganzen Zwischen-Schritte kosten (und dauern).
Denn dann könnte man mit Gesamt-Kosten versuchen, irgendwie etwas im Geschäftsbericht zu vergleichen.

Skysnake

2011-07-26, 22:00:49

Fermi hat gar nicht so viel mehr (L1 ist in Standardkonfiguration doppelt so groß wie bei AMD, L2 hat genauso einen 128kB Slice pro 64Bit Speichercontroller). Der Hauptunterschied ist eher die Kohärenz.
Fermi oder AMD? Da liefert doch schon das simple_matmult Sample mehr Performance, oder?
Die Strategie (für große Matrizen) bei AMD ist eigentlich einfach: Vergiß shared memory (ist eh' nicht schnell genug, übrigens auch bei nv nicht), ordne die Daten (und Operationen) so um, daß Du blockweise lineare Speicherzugriffe hast, gruppiere die Speicherzugriffe im Kernel und packe soviel Du kannst in Register, rechne alles was damit geht, schreibe zurück in Speicher.
Bei B3D hat jemand (prunedtree) schon vor 2 Jahren seinen Code so getuned, daß er auf einem Cypress bei 92% der theoretischen Peakleistung mit einem DGEMM kernel angekommen ist (glatte 500 GFLop/s in DP mit 2048x2048 Matrizen, 544 GFlop/s sind theoretical peak). Die Bandbreitenanforderungen sind bei SP grob doppelt so hoch, aber auch da kommt er auf über 80% (2,22 TFlop/s von 2,72 Tflop/s Peak).
Bei Fermi liegt das Limit wohl irgendwo bei 70%. Da reichen die Register nicht, um genügend Werte darin zu halten und shared memory/Cache ist dann einfach etwas zu langsam.

Aber um die Kurve zu Kepler/Maxwell wieder zu kriegen, soweit ich weiß, hat nv schon für Kepler eine höhere Effizienz bei Matrixoperationen versprochen. Das heißt also entweder größere Registerfiles und/oder schnelleren local memory/cache (und dann wohl auch nochmal etwas größer?).
Edit: Oder gesenkte Latenzen, so daß jeder Warp/Thread mehr vom Registerfile nutzen kann.

Gipsel, wir hatten mit ner primitiven CUDA Implementierung zunächst 8 GFlops auf ner GTX460. Also komplett ohne Shared mem. Mit Shared mem und Submatrix bin ich dann schließlich bei 240 GFlops gelandet. Ok sind nicht 1/5 sondern 26% vom Peak, aber mehr haste aus dem Ding nicht wirklich raus bekommen, da der Shared mem so ungeschickt von der Größe her war. Bei nem GF1x0 wäre deutlich mehr drin gewesen, da dort mehr Cache/ALU zur Verfügung steht.

Mir ist total schleierhaft, wie du mit den Registern mehr Leistung raus quetschen willst :freak:
Auf die Register kannst du ja nur jeweils mit dem Thread zugreifen, der die Daten geschrieben hat, und wir waren rein Bandbreitenlimitiert. Hatte da die maximale Performance für die Bandbreite raus bekommen mit ner GTX460. Falls du da aber was hast, bin ich sehr interessiert ;)

Naja, und ich finde den Cache schon deutlich größer Dank des Shared mem, und mir wäre auch völlig neu, dass die Zugriffslatenzen zwischen L1 und Shared mem unterschiedlich sind.:freak:

Captain Future

2011-07-26, 22:18:51

Fermi kann aber durch die L2s schreiben, bei Cypress/Cayman sind die nur für's Lesen. Geschrieben wird über Color/Z/Rop-Caches.
Fermi hat gar nicht so viel mehr (L1 ist in Standardkonfiguration doppelt so groß wie bei AMD, L2 hat genauso einen 128kB Slice pro 64Bit Speichercontroller). Der Hauptunterschied ist eher die Kohärenz.

http://www.realworldtech.com/page.cfm?ArticleID=RWT121410213827&p=8

Skysnake

2011-07-26, 22:27:24

Die Seite vorher ist interessanter ;)

32KB HD5k/6k Fermi 48+16K. Bei den 32KB kann glaub ich auch jeweils nur 1 Thread auf die Daten zugreifen, bin mir da aber im Moment nicht mehr sicher. Wenn nicht, sind es dennoch 50% mehr.

Dazu kommt, dass es bei Fermi wenn ich mich jetzt nicht verzählt habe 32 ALUs pro L1/SM sind und bei AMD eben 80/64.

Gipsel

2011-07-27, 02:06:13

Gipsel, wir hatten mit ner primitiven CUDA Implementierung zunächst 8 GFlops auf ner GTX460. Also komplett ohne Shared mem.Läuft CUBLAS nicht auf GF104? Wie schnell ist das eigentlich?
Mir ist total schleierhaft, wie du mit den Registern mehr Leistung raus quetschen willst :freak:Na, wenn die Daten im schnellsten Speicher aka Register stehen, schadet das ja nichts, oder? Und die Bandbreite von dort ist immer noch am höchsten 768 Byte pro Takt pro SIMD aus den Registerfiles bei Cayman/Cypress + 256 Byte/Takt aus den "Pipelineregistern", also 20 kB/Takt bei Cypress, das sind 17 TB/s für den kompletten Chip. Das schafft kein Cache der Welt. Fermi steht übrigens irgendwo bei 8,5 TB/s aus den Registern, die zudem noch deutlich kleiner sind, deswegen nutzen auch die besten Algos für Fermi shared memory, bei AMD aber nicht.
Wie das funktioniert? Im Prinzip ähnlich wie die Cacheblocking-Strategien, die man schon von CPUs kennt (und die Anforderungen an die Speicherbandbreite drastisch senken), nur eben daß der kleinste Block nicht im L1 steht, sondern direkt in den Registern. Prunedtrees Variante nutzt dazu in DP 8x8 Blöcke (128 32bit Register pro data element, also 32kB Register pro Wavefront nur dafür, da wird dann auch klar, warum das bei nv nicht ganz so gut funktioniert ;)), in SP noch ein wenig größere (ich glaube 12x8). Jedes data element (Thread im nv-Sprech) bearbeitet also gleich eine 8x8 Werte große Submatrix.
Naja, und ich finde den Cache schon deutlich größer Dank des Shared mem, und mir wäre auch völlig neu, dass die Zugriffslatenzen zwischen L1 und Shared mem unterschiedlich sind.:freak:Mit Geschwindigkeit meinte ich auch eher Bandbreite, die limitiert ja hier. Und shared mem ist shared mem und Cache ist cache, auch wenn das bei nv das gleiche SRAM-Array darstellt, ist es logisch getrennt, man kann keine 64kB L1 bekommen, meist sind es 16kB (afaik der Default-Wert und und bei DX11 Compute Shader sowieso).http://www.realworldtech.com/page.cfm?ArticleID=RWT121410213827&p=8Ja, und? Da steht doch auch, daß sowohl Fermi als auch Cypress pro 64 Bit Controller 128 kB L2 haben, nur wird das da pro 32bit Memory Channel aufgeführt, ändert aber nix dran.
Und die 64kB L1 sind ja im Vergleich zu AMD sozusagen geschönt, das das die Summe aus L1 und shared Mem ist (wären bei AMD 40kB, die sich die Bandbreite im Gegensatz zu nv nicht teilen müssen).
32KB HD5k/6k Fermi 48+16K. Bei den 32KB kann glaub ich auch jeweils nur 1 Thread auf die Daten zugreifen, bin mir da aber im Moment nicht mehr sicher.Das Zugriffsmodell ist bei HD5k/6k und Fermi identisch. 48k+16k vs. 32k+8k. Habe ja gesagt, daß Fermi da etwas mehr bietet, ist aber kein Gamechanger, die Kohärenzgeschichte erfüllt das schon eher.
Dazu kommt, dass es bei Fermi wenn ich mich jetzt nicht verzählt habe 32 ALUs pro L1/SM sind und bei AMD eben 80/64.Dafür sind die ALUs hotclocked und laufen mit grob doppelter Frequenz. Der arithmetische Durchsatz sollte also in etwa ähnlich sein ;)

Fermi liest maximal 128 Byte/Base clock (64 Byte pro hotclock), AMDs schaffen 64 Byte aus L1 und 128Byte aus dem shared mem, also in der Summe sogar mehr.

Skysnake

2011-07-27, 08:56:59

Thx für den Hinweis mit den 64/128 Byte/clk.

Zum Cache/SM, also ich finde die doppelte Größe da schon sehr wichtig, wenn die Datenlokalität steigt damit ja drastisch an! Bei ner Verdoppelung hab ich ja glaub das 4 oder 8 Fache an Wiederverwendung (bin grad zu faul zum ausrechnen..). Da kann man effektiv schon sehr viel Bandbreite einsparen :D

Was die Sache mit L1/SM angeht, so ist aber gerade der große SM ja nice, da man dort größere Submatrizen unterbringen kann und damit die Datenlokalität steigern. Im L1 kann ja jeweils nur der eine Thread drauf zu greifen. Aber ich glaub du hast mich grad noch auf die Idee zu einer weiteren Optimierung gebracht :biggrin: DANKE Muss ich mir mal anschauen

Das mit den Registern versteh ich jetzt aber nicht wirklich. In CUDA kannst du gar nicht direkt auf die Zugreifen und in OpenCL sollte es eventuell möglich sein. Die Sache ist aber die. Auf das jeweilige Register kann doch nur der Thread zugreifen, der auch den Wert in das entsprechende Register geschrieben hat. Mir wäre zumindest nichts gegenteiliges bekannt.

Zu CUBLAS bzw. dem Bsp. oben, da wird aber soweit ich das weiß kein CUDA/OpenCL mehr verwendet, sondern näher an der Hardware... Das programmiert dir aber schon gleich 10 mal keiner mehr, genau wie CAL bei Ati/AMD.

Prof. Lindenstruht hat mit seinen Leuten in Frankfurt für den Linpak Benchmark vom Loewe CES auch in CAL und halt direkt assembler teile der Algorithmen geschrieben, dass kannste aber in den meisten fällen dann wirklich komplett vergessen. Das know-how haben die Leute nicht UND auch gar nicht die Zeit. Man sollte sich schon auf CUDA/OpenCL beschränken in der Diskussion, denn ansonsten ändert sich diese auch bei CPUs massiv, denn da kann ich auch noch sehr viel raus holen wenn ich selbst anfange Assembler zu schreiben, Spaß macht das aber keinen mehr und Effizient (Kosten/Nutzen für den Programmierer) ist das auch nicht mehr.

LovesuckZ

2011-07-27, 11:53:35

Ich hoffe nVidia hat mit Denver etc. Erfolg. Wir brauchen im GPU Markt eine gute Konkurrenz zu AMD, die nicht Intel heißt.

Was passiert eigentlich mit der anderen Firma namens AMD, die heutzutage Grafikkarten produziert?
Und hast du weiterführende Informationen zu der oben genannten Firma? Ich suche mir hier ein Wolf, aber es ist auch schwierig bei gleichen Abkürzungen die richtigen Informationen und Daten zu finden...

Skysnake

2011-07-27, 12:26:07

Captain Future

2011-07-27, 12:30:24

Ja, und?
Lesen? Das was ich geschrieben hab zum Beispiel. Dann wüsstest du, dass es mir nicht um Größe oder Breite geht, sondern darum, dass bei Fermi die SMs auch über den Cache schreiben. Schreibzugriffe über den Cache. Cypress/Cayman nicht (über den großen L2).

LovesuckZ

2011-07-27, 12:56:57

Wat? :ugly:

Ich glaub du hast den Satz nicht verstanden. Es ging in der Diskussion darum, dass nVidia mit Denver Erfolg haben muss/sollte, damit es weiterhin nVidia gibt und wir nicht plötzlich nur noch mit Intel/AMD dastehen, weil nVidia unter gegangen ist und von Intel aufgekauft wurde....

War das so schwer zu verstehen?

Ich habe das doch verstanden. Deswegen frage ich nach weiterführenden Informationen über die Firma. Die müsste nämlich ein riesiges Goldgrab sein. Von 0 -> 100% innerhalb von ein paar Jahren? Da gibt es riesige Rendite.

Das heutige AMD kann daher wohl kaum gemeint sein. "ATi" von heute erwirtschaftet bei 50% Marktanteil nur 45% des Umsatzes von nVidia's Grafikkartenbereich, hat in den letzten 10 Jahren schon ohne Berücksichtigung der Inflation ein negatives Umsatzwachstum, spielt im High-Margin Markt keine Rolle und kanabalisiert sich dem eigenen diskreten GPU-Markt, der mehr als 50% des Umsatzes ausmacht, durch Fusion.
nVidia investiert genauso viel in R&D für ihren Grafikkartenbereich wie AMD nach Abzug der Produktionskosten als verteilbares Geld zur Verfügung hat.

Skysnake

2011-07-27, 13:17:03

Ach das kann durchaus schnell gehen.

nVidia Chipsätze: waren ein mal
nVidia low-End-Karten: werden von Intel und AMD CPUs mit iGPU verdrängt
nVidia HPC-Karten: bekommen demnächst echte Konkurrenz
nVidia Handy-Chips: machen meines Wissens nach noch immer ziemliche Verluste und kommen nicht so toll an

Was bleibt da noch groß übrig? Consumer Midrange/Highend Bereich und Mobile-Highend, wobei lezteres mit der Zeit durch die APUs wohl auch immer mehr an Bedeutung verlieren wird. Im Consumer GPU Markt kann man aber von einer Generation auf die andere schnell ins Hintertreffen kommen, und das wird nicht besser in Zukunft, da die Produktionsprobleme nicht kleiner werden.

nVidia hat aktuell mehr oder weniger ein Standbein, und das wars. Wenn es da nicht rund läuft, dann haben Sie sehr schnell Probleme. Was ist daran schwer zu verstehen?

Aktuell siehts um nVidia noch nicht schlecht aus, aber was würde passieren, wenn es ein Thermi 2.0 geben würde mit Kepler? Also auch wieder Monate an Verzögerung? Meinst du nicht, dass das sehr schnell sehr hässlich werden würde?

nVidia fehlt die Perspektive. Ihre bisherigen Märkte sind entweder schon komplett weggebrochen oder werden in Zukunft schrumpfen. Abgesehen von HPC/Mobile Markt. Das ist einfach keine gute Perspektive für die Zukunft, daher sind so Sachen wie Denver ja auch wichtig. Das ermöglicht ein komplett alternatives Geschäftsfeld, oder was glaubst du, warum nVidia die Chips für Tablets/Handys etc ins Programm aufgenommen hat, wenn der reine GPU Markt so so ein sicheres und bequemes Pflaster ist :ugly:

|MatMan|

2011-07-27, 13:22:56

Zu CUBLAS bzw. dem Bsp. oben, da wird aber soweit ich das weiß kein CUDA/OpenCL mehr verwendet, sondern näher an der Hardware... Das programmiert dir aber schon gleich 10 mal keiner mehr, genau wie CAL bei Ati/AMD.
Was willst du damit eigentlich sagen? Warum sollte man ein Matrix-Mul selbst programmieren wollen? Dazu noch nah an der Hardware? Wenn es gute optimierte Bibliotheken gibt (und die gibt es inzwischen, jedenfalls bei nVidia) dann nimmt man die doch auch. Die sind wahrscheinlich noch auf unterschiedliche Hardware optimiert...

|MatMan|

2011-07-27, 13:27:14

nVidia HPC-Karten: bekommen demnächst echte Konkurrenz
Software verkauft Hardware. Das ist auch IMO der größte Vorteil von nVidia. Die CUDA Entwicklungsumgebung ist eben schon ziemlich weit entwickelt. Wie weit ist denn im Vergleich hier AMD was Debugging und Profiling Tools betrifft? (wie Ailuros immer schreibt: ehrliche Frage)

Skysnake

2011-07-27, 13:29:30

Weil man auch ganz viele Probleme hat, wo man nicht einfach ne Bibliothek raus ziehen kann und gut ist? Ne Matrix-Mul ist ja verdammt leicht zu implementieren, womit man mal abschätzen kann, was mit CUDA/OpenCL halt realistisch aus der GPU raus zu holen ist.

Was machst du z.B. bei ner nBody Simulation? Da kannste deine Bib nicht so trivial raus ziehen.

Gipsel

2011-07-27, 13:54:19

Lesen? Das was ich geschrieben hab zum Beispiel. Dann wüsstest du, dass es mir nicht um Größe oder Breite geht, sondern darum, dass bei Fermi die SMs auch über den Cache schreiben. Schreibzugriffe über den Cache. Cypress/Cayman nicht (über den großen L2).Das stand aber bevor Du mich zitiert hast, dachte, das waere nicht an mich adressiert (zumal ich praktisch das Gleiche anders formuliert ja auch schrieb).
Und ich dachte es waere klar, dass die von mir erwaehnte und als der wesentliche Unterschied herausgestellte Kohaerenz der Caches das einschliesst (fuer read-only Caches spielt das naemlich keine Rolle). :rolleyes:

Aber egal, dann sind wir uns ja einig! ;)

LovesuckZ

2011-07-27, 14:01:26

Ach das kann durchaus schnell gehen.

Nein, wird es nicht. Siehe "ATi".

nVidia Chipsätze: waren ein mal

Haben nichts mit Grafikkarte zu tun. BTW nVidia erhält dafür 1,5 Mrd. von Intel.

nVidia low-End-Karten: werden von Intel und AMD CPUs mit iGPU verdrängt

Und fällt somit auch für AMD weg, die den Großteil des Umsatzes mit Low-End und unteres Mid-range machen. Da der Marktanteil von nVidia hier deutlich geringer ist als in anderen Bereichen, wird es sie nicht annährend so stark berühen.

nVidia HPC-Karten: bekommen demnächst echte Konkurrenz

Konkurrenz gibt es überall. Das Geforce-Geschäft hat deutlich stärkere Konkurrenz und trotzdem erwirtschaftet nVidia 70% mehr Umsatz als das gesamte Grafikgeschäft von AMD.

nVidia Handy-Chips: machen meines Wissens nach noch immer ziemliche Verluste und kommen nicht so toll an

Hat nichts mit Grafikkarten zu tun. Davon abgesehen hat nVidia ca. $130 Millionen Umsatz mit Tegra 2 erreicht. In einem Markt, der für sie vollkommen neu war.
BTW das Tegra Geschäft wächst um ein vielfaches schneller als der GPGPU-Bereich um Tesla.

Was bleibt da noch groß übrig? Consumer Midrange/Highend Bereich und Mobile-Highend, wobei lezteres mit der Zeit durch die APUs wohl auch immer mehr an Bedeutung verlieren wird. Im Consumer GPU Markt kann man aber von einer Generation auf die andere schnell ins Hintertreffen kommen, und das wird nicht besser in Zukunft, da die Produktionsprobleme nicht kleiner werden.

nVidia hat nv3x, GT200 und GF100 gehabt und hat im Gegensatz zu "ATi" ihr Umsatz im Geforce-Business deutlich steigern können seit dem letzten Jahrtausend.

nVidia hat aktuell mehr oder weniger ein Standbein, und das wars. Wenn es da nicht rund läuft, dann haben Sie sehr schnell Probleme. Was ist daran schwer zu verstehen?

Und AMD hat auch nur ein Standbein - x86 CPUs. nVidia verkauft Grafikkarten. Also ist das Grafikkartengeschäft ihr Standbein. Du wirfst einem Bäcker auch nicht vor, dass er vom Getreibegeschäft abhängig ist und deswegen auch eine Fleischabteilung umsetzen sollte.

Aktuell siehts um nVidia noch nicht schlecht aus, aber was würde passieren, wenn es ein Thermi 2.0 geben würde mit Kepler? Also auch wieder Monate an Verzögerung? Meinst du nicht, dass das sehr schnell sehr hässlich werden würde?

2012 soll die Zivilisation zu grunde gehen. Ich glaube es ist für nVidia daher belanglos, ob es noch einem Thermi 2.0 geben könnte.

nVidia fehlt die Perspektive. Ihre bisherigen Märkte sind entweder schon komplett weggebrochen oder werden in Zukunft schrumpfen. Abgesehen von HPC/Mobile Markt. Das ist einfach keine gute Perspektive für die Zukunft, daher sind so Sachen wie Denver ja auch wichtig. Das ermöglicht ein komplett alternatives Geschäftsfeld,

Nur so, dass wir auf der selben Ebene sind (pro Quartal):
Umsatz nVidia: $840 Millionen mit Grafikkarten.
Umsatz AMD: $377 Millionen mit Grafikkarten + Lizenzen.

Der Umsatz mit Workstation Karten beträgt dabei $200 Millionen, rund $30 kamen vom HPC Markt.

Achja, bzgl. Perspektive:
ION kam ende 2009 auf dem Markt, AMD brachte Bobcat Anfang 2011.
nVidia hat den Quadro Markt seit 2003 in Angriff genommen, "ATi" nichtmal richtig heute.
Fermi gibt es seit über einem Jahr zu kaufen, AMD kommt erst 18 Monate nach nVidia mit einer HPC Karte.
Tesla und Cuda sind seit 2007 relevant. AMD hat zichmal die Meinung geändert (noch Ende 2009 wurde HPC als unwichtig tituliert).
Optimus für Notebooks gibt es seit letztem Jahr, nichtmal heute kann AMD ihre Grafikkarte komplett vom Stromkreis trennen.
Tegra, nVidia's Fusionkonzept.

Richtig, nVidia fehlt es an Perspektive, weil sie vieles, was AMD heute als Perspektive ausgibt, schon längst umgesetzt haben. Du siehst also garnicht, dass nicht nVidia eine fehlende Perspektive besitzt, sondern das Copy-Cat aus Sunnyvale.

oder was glaubst du, warum nVidia die Chips für Tablets/Handys etc ins Programm aufgenommen hat, wenn der reine GPU Markt so so ein sicheres und bequemes Pflaster ist :ugly:

Um zu wachsen und Geld zu verdienen?! :rolleyes:

Bist du sicher, dass du jemals eine Universität abseits des Tages der offenen Tür besucht hast? Dein Wissen über die Wirtschaftlichkeit von nVidia und AMD und die daraus resultierenden Schlussfolgerungen entbehren jeglicher Realität. Du solltest also wirklich erstmal dich in vergangenes und gegenwärtiges einlesen.

Das durchgestrichene ist mal wieder der uebliche Ueberfluss. Entweder Du laesst solche Anpielungen in Zukunft weg oder es werden so viele Massnahmen gezogen, bis Du endlich kapierst dass es Regeln gibt die genauso fuer Dich gelten.

Gipsel

2011-07-27, 14:16:35

So, und jetzt kommen wir mal wieder zum Thema, was da lautet: "Next-Gen-Architekturen: Kepler und Maxwell"!

|MatMan|

2011-07-27, 15:02:32

Weil man auch ganz viele Probleme hat, wo man nicht einfach ne Bibliothek raus ziehen kann und gut ist?
Das ist mir klar. In der Regel versucht man sein Problem halt so anzupassen um möglichst viel "fertiges" zu benutzen, zumindest für die erste Version. Wenn es läuft, man viel Zeit übrig hat und auf die letzten paar % Leistung angewiesen ist kann man dann immernoch "Hand" anlegen...

Ne Matrix-Mul ist ja verdammt leicht zu implementieren, womit man mal abschätzen kann, was mit CUDA/OpenCL halt realistisch aus der GPU raus zu holen ist.
Da kannst du auch einen beliebigen synthetischen Benchmark nehmen - der sagt dann genauso viel darüber aus (nämlich fast nichts) wie gut eine GPU für dein Problem geeignet ist.
Die Herangehensweise von oben ist vielleicht dazu geeignet um zu schauen wie gut jemand im optimieren von (low level) Code ist im Vergleich zum Stand der Technik.

Skysnake

2011-07-27, 23:19:33

Ja und genau das ist halt wichtig. Was erreiche ich mit "normalem" Aufwand.

Klar nutzt man Bibs wann immer es geht, aber an diesem wirklich einfachen Beispiel sieht man halt, dass man sich schon mehr Gedanken machen sollte/muss als bei ner CPU und eben doch auch etwas länger braucht. Insgesamt aber doch noch recht human umsetzbar. Das man low lvl noch das eine oder andere raus holen kann ist klar, aber so 1/5-1/4 der theoretischen Leistung passt halt mit normalem Code recht gut. Kommt relativ häufig vor, so lange man halt keine hoch optimierten Bibliotheken verwendet, oder halt selbst low lvl programmieren anfängt.

Ich denke da wird in Zukunft aber noch so einiges gehen, was die Sache einfacher machen wird. Ich denke grad ein Printf wird noch etwas komfortabler mit Kepler/Maxwell zu nutzen sein. Macht die Arbeit halt einfacher/schneller.

Gibt es eigentlich schon irgendwelche Details zu Kepler? Also grad dahingehend ob Preemption möglich wird?

Dural

2011-07-29, 13:01:30

Nakai

2011-07-29, 15:02:01

ganz ehrlich, um NV würde ich mir weniger sorgen machen als um AMD ;) aber da Intel AMD braucht wird das so wie es derzeit ist noch laaaange weiter gehen :)

Solange X86 ein marktdominierender Faktor ist, bleibt AMD bestehen. Die einzige Gefahr für NV ist, wenn Intel im Grafikbereich ordentlich Gas gibt. Im Onboard-Bereich ist man bereits verschwunden(obwohl man dort frühers eine Macht war). Natürlich ist NV nicht dumm, ganz und gar nicht. Die haben ihre Marktbereiche schon erweitert, nämlich SOC und GPGPU-Bereich. Das war auch bitter nötig...

NVs Erfolg hängt davon ab, wie man in diesen Bereichen abschneidet. Diskrete Grafikkarten zu verkaufen ist immer noch ein Kerngeschäft(wird es auch noch länger sein), doch mittlerweile ist hohe Leistung nicht mehr so gefragt, wie früher. Es wird auch zunehmend schwieriger die Technologien für hohe Leistungssprünge bereitzustellen.
NV wird früher oder später eine vollkommene Wandlung durchführen.

DavChrFen

2011-07-30, 02:08:29

Gipsel

2011-07-30, 02:13:41

http://www.computerbase.de/news/wirtschaft/unternehmen/2011/juli/tsmc-28-nm-fertigung-verzoegert-sich/

Von knapp 3% auf gut 1% runter im Q4, wobei das 1% AMD sein soll. Also doch eine Verzögerung? Und wenn ja: Auf wann?
Gibt halt wohl noch yield-Probleme (mindestens) mit dem HP-Prozeß.
Solche Verschiebungen gehen immer in kleinen Schritten, also erstmal ins nächste Quartal.

Skysnake

2011-07-30, 09:56:46

Ja und man kann es nicht wirklich fix machen, wann es dann wirklich gut ist. Da wird halt an dem Schräubchen gedreht und jenem, dann wird da bischen mehr gesputtert/bedampft, dann mal bischen weniger etc etc.

Man tastet sich halt langsam ran. Deswegen sind ja auch nach längerer Laufzeit noch Verbesserungen drin, obwohl man ja die gleichen Maschinen verwendet und auch die gleichen Masken, einfach die Fertigung an sich "versteht" (eher man kennt dann endlich die Parameter für die Fertigung DIESES Chips) die Parameter endlich.

LovesuckZ

2011-07-30, 12:21:43

Gibt halt wohl noch yield-Probleme (mindestens) mit dem HP-Prozeß.
Solche Verschiebungen gehen immer in kleinen Schritten, also erstmal ins nächste Quartal.

Nö, gibt keine Yield-Probleme.

Gipsel

2011-07-30, 12:48:09

Nö, gibt keine Yield-Probleme.
Dann verzögert TSMC also den Ramp, weil Kepler noch nicht fertig ist? Das wäre natürlich auch eine Erklärung. ;)

Und/oder all die anderen 28nm Interessenten haben sich auch an TSMC gewandt: "Och nöö. Wir wollen nicht in 28nm produzieren. Laß uns mal noch bis nächstes Jahr warten, die Wirtschaft läuft gerade schlecht." Sicher. Das kann TSMC zwar behaupten, glauben tut das doch aber kaum einer. Auch da einige TSMC-Kunden selbst von yield-issues reden und das ganz allgemein die Nummer 1 unter den Gründen ist, den Production-Ramp zu verzögern. Außerdem muß es ja wie erwähnt gar nicht alle 28nm Prozesse betreffen.

Skysnake

2011-07-30, 12:52:06

Was soll man dazu noch sagen :ugly:

LovesuckZ

2011-07-30, 13:30:27

Dann verzögert TSMC also den Ramp, weil Kepler noch nicht fertig ist? Das wäre natürlich auch eine Erklärung. ;)

Und/oder all die anderen 28nm Interessenten haben sich auch an TSMC gewandt: "Och nöö. Wir wollen nicht in 28nm produzieren. Laß uns mal noch bis nächstes Jahr warten, die Wirtschaft läuft gerade schlecht." Sicher. Das kann TSMC zwar behaupten, glauben tut das doch aber kaum einer. Auch da einige TSMC-Kunden selbst von yield-issues reden und das ganz allgemein die Nummer 1 unter den Gründen ist, den Production-Ramp zu verzögern. Außerdem muß es ja wie erwähnt gar nicht alle 28nm Prozesse betreffen.

Jaja, nur AMD hat keine Probleme. Alle anderen Firmen auf dieser welt sind an Unfähigkeit nicht zu überbieten, wenn es zu Ramps von neuen Prozessen kommt.
Schon lustig, dass auch die Aussagen von Morris ignoriert werden, die den Status des Prozesses beschreiben. Aber die Wirtschaft, nein, die kann kein Grund sein. Nie. Seit wann bestimmt auch die Lage der (Welt-)Wirtschaft die Aktivitäten einer Firma. :rolleyes:

Und hier die vollkommen ignorierte, weil nicht ins Weltbild passenden Aussage(Transcript):
dwin Mok – Needham & Company

I see and then my fourth quarter is regarding 28-nanometer, you mentioned that 28-nanometer is taking a bit longer. Can you kind of describe if that is relate to just maturity of the process? Was it related to just customer not ramping the design that they have and you were previously, maybe previously expect them to ramp. And finally, how much of yourself do you expect to come with 28-nanometer for the second half or for the fourth quarter of this year?

Lora Ho

Okay. The delay of 28-nanometer is not due to their quality issue, actually we have regular tape out and it is unplanned. The July ramping is mainly because of softening economy for our customers, so customers delayed a tape out to us. So therefore, the 28-nanometer revenue contribution by the end of fourth quarter this year will be roughly above 1% of our total wafer revenue.
http://seekingalpha.com/article/282679-taiwan-semiconductor-manufacturing-ceo-discusses-q2-2011-results-earnings-call-transcript?part=qanda

Und die Aussage von Morris:

Now, I’d like to report on our technology progress specifically first on 28-nanometer. We reported earlier that we had tape outs for 89 individual products and the tape out of each of those is on schedule. The first silicon of every tape out was fully functional would consistently satisfactory. In fact density reduction is on plan. The ramp of 28-nanometer however is taking longer than expected due to the softening economy and the demand outlook of 2011.
http://seekingalpha.com/article/282679-taiwan-semiconductor-manufacturing-ceo-discusses-q2-2011-results-earnings-call-transcript

Skysnake

2011-07-30, 13:37:45

Mit neuen Produkten kann man sich aber Vorteile gegenüber der Konkurrenz beschaffen, die sich dann positiv in den Verkaufszahlen bemerkbar machen. Zumal auch die Marktsättigung mehr oder weniger wieder auf 0 geht ;)

Gerade bei den GPUs kann ich mir nicht vorstellen, dass da was zurück gehalten wird. Der Sprung von 40 auf 28nm ist einfach schon ziemlich ordentlich und zusätzlich profitieren GPUs doppelt davon, da Sie in Flop/Watt Konkurrenz zu CPUs stehen, mal ganz abgesehen davon, dass die neuen Karten die Arbeit von Programmierern wohl deutlich erleichtern werden. nVidia wird sicherlich etwas ähnliches bringen wie AMD, vom Umfang her.

Zudem ist die Finanzkrise eigentlich recht gut überstanden. In den USA läuft es zwar noch nicht rund, aber in der Finanzkrise war es deutlich schlimmer.

Die einzige Sache, die wirklich relevant wäre, wäre wenn die USA Zahlungsunfähig werden am 2. August. Ich glaube aber nicht, dass nur deswegen jetzt die Produkte zurück gehalten werden, denn wenn das Schreckenszenario passiert, dann ist es auch scheiß egal, ob man den neuen Chip gebracht hat oder nicht, dann gehts in den USA was IT-Hardware angeht eh ziemlich böse nach unten.

EDIT:
Das sagt aber nicht über die Yeald-Rate an sich aus. Nur weil es läuft wie geplant heißt das noch lange nicht, dass die Yeald-Raten gut genug sind, damit es sich für die Hersteller lohnt. Da kommt viel zusammen. Unterm Strich ist das fischen im Trüben mit ner 10 Meter Stange....

Gipsel

2011-07-30, 13:51:41

Jaja, nur AMD hat keine Probleme. Alle anderen Firmen auf dieser welt sind an Unfähigkeit nicht zu überbieten, wenn es zu Ramps von neuen Prozessen kommt.Von AMD existiert die Aussage, sie hätten SI am laufen. Production Ramp in diesem Jahr klingt da erstmal realistisch.

Du mußt Dich entscheiden, woran es Deiner Meinung nach liegt, daß die 28nm Produktion langsamer als bisher prognostiziert hochgefahren wird:
1. Kepler (bzw. die anderen Chips) ist noch nicht fertig
2. die yields sind nicht zufriedenstellend für die Auftraggeber
3. nvidia meinte, "laß AMD doch SI in Ruhe launchen, wir warten mal noch bis 2012, bis die Wirtschaftslage besser wird" :freak:
4. ???
Schon lustig, dass auch die Aussagen von Morris ignoriert werden, die den Status des Prozesses beschreiben. Aber die Wirtschaft, nein, die kann kein Grund sein. Nie. Seit wann bestimmt auch die Lage der (Welt-)Wirtschaft die Aktivitäten einer Firma. :rolleyes:Wieviel von TSMCs Aussagen zu "satisfactory yields" zu halten ist, solltem einem die 40nm Episoden doch eigentlich zeigen. Für die meisten Kunden waren sie offensichtlich nicht befriedrigend und es dauerte meiner Erinnerung nach recht lange, bis TSMC öffentlich yield-Probleme eingestanden hat.

Und zur Wirtschaftslage nochmal, was bringt es nvidia, Kepler komplett fertig liegen zu lassen und freiwillig später zu verkaufen? Kaum etwas verfällt so schnell wie die Leistung im GPU-Markt, Wirtschaftslage hin oder her. So mies ist die nun auch nicht.

Edit:
Daß ich die TSMC-Aussagen nicht ignoriert habe, erkennst Du schon daran, daß ich bereits mehrfach (nicht nur in diesem Thread) auf das Statement mit der Wirtschaftslage eingegangen bin. :rolleyes:

LovesuckZ

2011-07-30, 14:04:49

Von AMD existiert die Aussage, sie hätten SI am laufen. Production Ramp in diesem Jahr klingt da erstmal realistisch.

Du mußt Dich entscheiden, woran es Deiner Meinung nach liegt, daß die 28nm Produktion langsamer als bisher prognostiziert hochgefahren wird:
1. Kepler (bzw. die anderen Chips) ist noch nicht fertig
2. die yields sind nicht zufriedenstellend für die Auftraggeber
3. nvidia meinte, "laß AMD doch SI in Ruhe launchen, wir warten mal noch bis 2012, bis die Wirtschaftslage besser wird" :freak:
4. ???

Ich habe hier überhaupt nichts geschrieben. Im Gegensatz zu dir, der hier Behauptungen aufstellt. Du bist also erstmal dran zu beweisen, dass es Yield-Probleme gäbe.

Und zur Wirtschaftslage nochmal, was bringt es nvidia, Kepler komplett fertig liegen zu lassen und freiwillig später zu verkaufen? Kaum etwas verfällt so schnell wie die Leistung im GPU-Markt, Wirtschaftslage hin oder her. So mies ist die nun auch nicht.

Ich habe desweiteren auch keine Aussagen zu Kepler getroffen. Das warst wiederum du. Wenn du Informationen über den Stand hast, dann gerne her damit. Ansonsten lasse doch deine Anti-nVidia Propaganda einfach für dich.
Achja, laut Morris solle der Wendepunkt ab Dezember stattfinden. Da du dich so sehr auf Kepler eingeschossen hast, heißt das dann wohl: Produktion in Dezember, Launch in Januar.

Skysnake

2011-07-30, 14:05:42

LovesuckZ kannst du vielleicht einfach einen neuen Post machen, statt 10 mal zu editieren, obwohl schon neue Posts unter deinem da sind, oder liest du die nicht?

Hugo78

2011-07-30, 14:28:27

Und zur Wirtschaftslage nochmal, was bringt es nvidia, Kepler komplett fertig liegen zu lassen und freiwillig später zu verkaufen? Kaum etwas verfällt so schnell wie die Leistung im GPU-Markt, Wirtschaftslage hin oder her. So mies ist die nun auch nicht.

Beim GT200 war man auch vorsichtig, was die Bestellungen anging.

Und mit Blick auf das vergiftete Klima in den USA, wäre es tatsächlich nicht sonderbar, wenn man hier wieder vorsichtig handelt.
http://www.zdf.de/ZDFmediathek/beitrag/video/1397498/Zahltag---Amerika-in-der-Schuldenfalle#/beitrag/video/1397498/Zahltag---Amerika-in-der-Schuldenfalle

Gipsel

2011-07-30, 15:17:12

Ich habe desweiteren auch keine Aussagen zu Kepler getroffen. Das warst wiederum du.Nun, wir sind hier ja auch im Kepler-Speku-Thread. Wenn Du dazu nichts schreibst, was machst Du dann hier? :freak:

Beim GT200 war man auch vorsichtig, was die Bestellungen anging.War das nicht das größte Die, was jemals bei TSMC vom Band lief? Da ist man natürlich besonders vorsichtig, bis man voll in die Produktion geht.
Und mit Blick auf das vergiftete Klima in den USA, wäre es tatsächlich nicht sonderbar, wenn man hier wieder vorsichtig handelt.Und ich dachte , daß ~80% des IT-Marktes außerhalb der USA stattfindet. ;)

Wenn eine Firma wegen der möglichen Pleite der USA (die wohl selbst im schlimmsten Fall voraussichtlich nur ein paar Tage anhalten wird, wenn überhaupt, zumindest sagt das die Geschichte), die Produktion ihrer neuesten GPU-Generation verschiebt, dann sollte sich mal der Aufsichtsrat dieser Firma mit der Besetzung des CEO-Postens beschäftigen. Es macht einfach keinen Sinn. Eine Reduzierung der georderten Wafer um 20% oder so vielleicht, aber keine komplette Verschiebung.

Hugo78

2011-07-30, 15:34:52

Beim GT200, meinte ich auch die Bestellungen in 2009, da gab es ja an Spätsommer fast keine schnellen Geforces mehr.
Das war ja auch eine Folge der Krise, denn Nvidia ist von weniger Verkäufen ausgegangen.

Und auch wenn 80% des IT Marktes ausserhalb der USA liegen, so wird eine Pleite der USA einen rundum Schlag auslösen.
China zeigt sich ja schon offen angepisst, weil die um ihre Rücklagen fürchten, Russland ist in der selben Situation.
http://www.tagesschau.de/ausland/chinakritik100.html

Und Europa ist ebend so pleite.
Wir in D. sind bei 2Billionen Verschuldung angelangt, das macht 25.000 Euro oder 36.000 USD pro Mann und Maus.
In den USA liegt die pro Kopfverschuldung bei 46.000 USD aktuell.

Gipsel

2011-07-30, 15:50:27

Wenn Du den späteren Zeitraum bei GT200 meinst, dann gibt es ebenfalls Alternativen.
Wenn ich mich nicht täusche, hat LS damals sehr stark darum gestritten, daß die Karten sehr wohl noch gut verfügbar wären. Die damalige alternative Erklärung kam nämlich von Charlie, daß nv die Produktion runtergefahren hätte, da der Druck durch die sehr günstigen RV770 zu einem kaum mehr kostendeckendem Verkauf der GT200-Karten geführt hätte.

Aber das wird hier OT.

Edit:
Ach, fast vergessen: Staatsverschuldung führt erstmal zu keiner direkten Beinflussung des privaten Konsums. China ist besorgt, weil Sie der USA Unmengen an Geld geliehen haben, da China im Prinzip nicht mehr wußte wohin damit (die haben einen deutlich positiven Haushalt). Wenn das weg wäre, wären die natürlich schon sauer, auch wenn es erstmal keine direkten Auswirkungen auf China hätte. Ein Einbruch des Exports würde China viel eher treffen. Aber das ist jetzt noch mehr OT und sollte vielleicht irgendwo im Politik-Subforum weiterdiskutiert werden.

Hugo78

2011-07-30, 16:52:53

Also bei den späteren GT200 hatte iirc NV selber auf Nachfrage, die Erklärung mit der Wirtschaftslage und so weniger Bestellungen abgegeben.
Damit wäre es aktuell sicher nicht ungewöhlich, wenn man die Lage heute wieder so angespannt beurteilt wie in 2008/2009.

Natürlich könnte NV auch einfach nur noch genug 40nm Chips liegen haben und auf den großen Abverkauf zu Weihnachten spekulieren.
Denn selbst wenn die HD7k kurz vor Weihnachten aufschlagen, werden sie nicht die Mengen bieten, hier die vorweihnachtlichen Abverkäufe zugefährden.

Und ende Januar kommt man dann mit den 600er Geforces.

edit

Wobei NV in Japan zuletzt ja noch sagte.
"Shipping at end of the year"
.. bezogen auf die Profikarten
http://www.forum-3dcenter.org/vbulletin/showpost.php?p=8847085&postcount=454

Ailuros

2011-07-30, 17:54:12

Kepler hatte schon seinen tape out vor etlichen Wochen und nein die yields sind nicht gut genug zu grosse chips unter 28HP noch dieses Jahr herzustellen. Ausser NV waere es wurscht wenn jeglicher chip $150-200 fuer die Herstellung kostet. Bei irgendwo $120/chip geht normalerweise NV dann in die Produktion und dieses war bei GT200@65nm und GF100@40G genauso.

Und ja ich hab noch ein paar Fetzen, aber da es sofort wieder ein Punkt fuer angebliche anti-NV Propaganda werden wird und einige dann ihre Medikamente suchen werden halt ich lieber dicht.

Hugo78

2011-07-30, 18:56:46

Immer her mit den Fetzen. :cool:

Skysnake

2011-07-30, 19:15:37

/sign :D

AwesomeSauce

2011-07-30, 19:25:18

+1 :D

mapel110

2011-07-30, 21:04:13

Kann sich ja nur um die Leistungsaufnahme drehen, die sich in neue Spähren aufschwingt. :ugly:

Winter[Raven]

2011-07-30, 21:29:05

Kann sich ja nur um die Leistungsaufnahme drehen, die sich in neue Spähren aufschwingt. :ugly:

Ich glaube ich brauche etwas Kleingeld für ein MiniAKW ^_^

mboeller

2011-07-30, 21:32:44

Zudem ist die Finanzkrise eigentlich recht gut überstanden. In den USA läuft es zwar noch nicht rund, aber in der Finanzkrise war es deutlich schlimmer.

Die einzige Sache, die wirklich relevant wäre, wäre wenn die USA Zahlungsunfähig werden am 2. August. Ich glaube aber nicht, dass nur deswegen jetzt die Produkte zurück gehalten werden, denn wenn das Schreckenszenario passiert, dann ist es auch scheiß egal, ob man den neuen Chip gebracht hat oder nicht, dann gehts in den USA was IT-Hardware angeht eh ziemlich böse nach unten.

OT:
Träum süß weiter....die Finanzkrise ist bei weitem noch nicht überstanden (weltweit!). Sie wurde nur unter den Teppich gekehrt.

Am 2.8. wird die USA nicht Zahlungsunfähig wenn sie keine weiteren Schulden mehr machen. Zahlungsunfähig würden sie nur, wenn sie ihre Schulden nicht mehr bezahlen könnten, aber dafür brauchen sie nur ca. 10-15% ihrer normalen Steuereinnahmen von 2200 Mrd. Dollar pro Jahr.

Die nehmen nur keine neuen Schulden mehr auf (in den letzten ca. 3 Jahren pro Jahr ca. 1500-1700 Mrd. Dollar!!) und damit wird aus einem wackeligen "Aufschwung" eine satte Depression (ca. 15-20% des Bruttosozialprodukts gehen flöten, 12% direkt weil die ca. 1700 Mrd. pro Jahr fehlen, der Rest durch Folgeeffekte). Ich glaube davor haben viele Angst, wenn man die panischen Kommentare im TV so sieht und hört. :)

Skysnake

2011-07-30, 21:37:37

....

Die Banken etc. drehen schon wieder gut am Rat, und wenn du so kommst, man kann immer erst im Nachhinein sagen, wann etwas vorbei war oder nicht. Aber lassen wir das.

Wichtig wäre allerdings mal, dass du folgendes realisierst...

Zahlungsunfähigkeit=unliquide != Pleite

Das sind GANZ andere Sachen. Wie würdest du es denn bitte sonst nennen, wenn nicht Zahlungsunfähig, wenn man seine laufenden Ausgaben nicht tätigen kann, weil man kein Geld hat -.-

Gipsel

2011-07-31, 05:49:25

Das gehört hier nun nicht wirklich rein. Dieses Thema kann zum Beispiel hier (http://www.forum-3dcenter.org/vbulletin/showthread.php?t=511914) diskutiert werden.
Danke!

DavChrFen

2011-07-31, 15:18:02

Das war ja auch eine Folge der Krise, denn Nvidia ist von weniger Verkäufen ausgegangen.
Aber die haben doch bestimmt dazugelernt und machen den selben Fehler nicht 2x.

Kepler hatte schon seinen tape out vor etlichen Wochen und nein die yields sind nicht gut genug zu grosse chips unter 28HP noch dieses Jahr herzustellen. Ausser NV waere es wurscht wenn jeglicher chip $150-200 fuer die Herstellung kostet. Bei irgendwo $120/chip geht normalerweise NV dann in die Produktion und dieses war bei GT200@65nm und GF100@40G genauso.

Na dann passt das doch: Bei dem typischem 3/4 Jahr bei einem neuen Prozess und neuer GPU-Generation kommt dann Kepler in Q1 2012. Bis dahin ist dann auch die Yield gut genug. Außer NVidia drückt extrem aufs Tempo und will was gegen ATI zu Weihnachten in den Ragalen stehen haben. Glaub ich aber nicht.

LovesuckZ

2011-07-31, 22:44:05

Wenn Kepler sein Tape-Out erst vor Wochen hatte, dann sind die Chips im besten Fall erst vor kurzem bei nVidia. Das heißt: Niemand außerhalb von nVidia hat irgendwelche Informationen über den Zustand.

Nun, wir sind hier ja auch im Kepler-Speku-Thread. Wenn Du dazu nichts schreibst, was machst Du dann hier? :freak:

Vielleicht möchte ich hier reale Spekulationen über Kepler lesen und nicht den Nonsens von Leuten, die keine Informationen haben?

Und ich finde es lächerlich ein Punkt als Ausrede zu neben und sobald die Leute darauf anspringen, sie aufzufordern die Diskussion zu unterlassen. Denn immerhin hast du die Aussagen von TSMC als falsch hingestellt, deswegen ein Satz dazu:

Edit:
Ach, fast vergessen: Staatsverschuldung führt erstmal zu keiner direkten Beinflussung des privaten Konsums.

Sag das mal den Portugiesen, die bald 15%+ mehr für den ÖPNV bezahlen dürfen. Wobei, die haben wohl alle ihren eigenen Geldspeicher, deswegen tangiert denen auch die Reduzierung des verfügbaren Geldes für privaten Konsum auch nicht.

Cyphermaster

2011-08-01, 09:31:26

Wenn dir beim Lesen selber der Widerspruch in "reale Spekulationen" nicht auffällt, lies bitte das Ganze nochmal durch, oder google den Begriff "Spekulation".
Auf jeden Fall wirst DU hier nicht bestimmen, wer was sagen darf, und auch nicht schon wieder ins Flamen übergehen - sonst gibts den "Feuerlöscher". Ich hoffe, die Ansage ist angekommen.

BigKid

2011-08-01, 09:32:34

Sag das mal den Portugiesen, die bald 15%+ mehr für den ÖPNV bezahlen dürfen. Wobei, die haben wohl alle ihren eigenen Geldspeicher, deswegen tangiert denen auch die Reduzierung des verfügbaren Geldes für privaten Konsum auch nicht.
Was gehen mich die Portugiesen an - bei uns kostet EINE Kugel Eis mittlerweile 90cent ! Verdammt - ich kann mich noch daran erinnern, dass die mal 50 Pfennig(!) gekostet hat ! Nur gut dass dieser Sommer auch fürn Eimer ist - da ärgert man sich dann nicht so oft drüber ;D
Und was hat das nun mit dem Thema zu tun ? Achso...nix... Mist...

Coda

2011-08-01, 09:47:49

Inflation unso.

Edit: Okay, das ist selbst mit der Inflation krank :ugly:

boxleitnerb

2011-08-01, 10:00:20

Um mal wieder zum Thema zurueckzukommen:

Wann wird es wohl mehr Infos zu Features und Performance geben? Also erste Geruechte aus Fernost. So langsam koennte mal was durchsickern, und wenn es nur erste Haeppchen sind.

Schaffe89

2011-08-01, 10:32:10

Für mich sieht es nach bescheidener Informationslage so aus, als ob Nvidia die zweite Geige spielen müsse und AMD erstmals im evtl. angepasst/veränderten Low Power Prozess die ersten kleinen bis midrange Chips fertigen kann.
Ob das technologisch gesehen ein Vorteil ist, wage ich aber mal zu bezweifeln.
Auf jeden Fall wird man, wenn es so kommt wieder die ersten Produkte am MArkt haben und kann somit evtl. einige Zeit glänzen und Marktanteile an sich reißen.

Vielleicht möchte ich hier reale Spekulationen über Kepler lesen und nicht den Nonsens von Leuten, die keine Informationen haben?

Ich weiß nicht was du hast, das war bisher alles ziemlich real, oder hast etwa du Informationen? Wegen dir hält ein Moderator evtl. welche zurück. ;-)
Niemand weiß exakt über den Zustand der Yields bescheid, wenngleich über den Zustand der Produkte selbst man noch weniger sagen kann.
Aus Erfahrung scheint es aber so, als ob sich der Prozess erneut hinzieht, siehe die Prognose von TSMC selbst.
Ich tippe mal für Nvidia ende Februar für die erste Serienreife Fertigung und dann mitte März mit den ersten Launches.

V2.0

2011-08-01, 10:47:34

Was geht ihr euch so an, was man hört sind doch eigentlich nur Dinge, die jedem schon lange bekannt sein sollten.

a) die Yields sind bei neuen Prozessen am Anfang nicht toll
b) größere Chips machen mehr Porbleme
c) bei vergleichbaren Preispunkten für den Chip, kann man den kleineren eher in Produktion bringen ohne Verlust zu machen

Warum streitet man sich über Offensichtlichkeiten.

LovesuckZ

2011-08-01, 11:16:13

Und genau diese Punkte lassen sich nichtmal aus der Vergangenheit beweisen. Werden aber immer wieder hervorgeholt.

Wenn nVidia eine GTX590 in den Markt bringt, dann werden sie auch keine Probleme haben eine GTX680 für den selben Preis anzubieten. Fakt ist, dass Designs nicht liegen bleiben, bis die Yields besser sind. Sobald man produktionsreif ist, wird auch produziert.

Wenn Kepler sein Tape-Out anfang Juni gehabt haben sollte, dann kann nVidia spätesten in Januar launchen.

V2.0

2011-08-01, 11:31:10

Gipsel

2011-08-01, 11:31:39

was man hört sind doch eigentlich nur Dinge, die jedem schon lange bekannt sein sollten.

a) die Yields sind bei neuen Prozessen am Anfang nicht toll
b) größere Chips machen mehr Porbleme
c) bei vergleichbaren Preispunkten für den Chip, kann man den kleineren eher in Produktion bringen ohne Verlust zu machen
Im Prinzip ja richtig, allerdings wird es bei 28nm eben dadurch verkompliziert, daß nv und AMD gerüchteweise unterschiedliche Prozesse nutzen. Vor allem da der (höchstwahrscheinlich für GK100 eingesetzte) HP Prozeß mehr potentielle Probleme aufweist (höhere leakage, zusätzliche Prozeßschritte für SiGe), könnte es schon darauf zurückzuführende Unterschiede bei der Serienfertigung geben, eben zusätzlich zu den altbekannten Gründen.

LovesuckZ

2011-08-01, 11:38:32

Sie können die Single-GPU 680 nur für den Preis der 590 bringen ,wenn die Perfrormance im Konkurrenzumfeld dazu paßt. Dies etzt aber eine entsprechende Prozessreife und auch ein entsprechend gelungenes Zusammenspiel von GPU-Design und Prozess vorraus.

Und wenn das Design final ist, geht man erst in die Massenproduktion wenn die Yields (und damit die Erträge stimmen). Niemand verballert Waffer in der Serienproduktion die 20% nutzbare Chips abwerfen.

Am Anfang einer neuen Produktion bezahlt man immer pro funktionierenden Chip. Ist auch logisch, benötigt TSMC auch eine laufende Fertigung, um Verbesserungen herbeizuführen. Siehe hier 40nm, wo nVidia und AMD durchproduziert haben, trotz 6-monatiger Probleme. Wer würde sowas machen, wenn die Fertigung problematisch ist?
Dazu kommt, dass wir die Yields eben nicht wissen. Es wird zwar immer behauptet, dass diese bei AMD besser wären, aber einen Beweis gibt es nicht. Die Unterschiedlichkeit der Architekturen spielt eine wesentliche Rolle, wie Produktionsfehler sich auswirken. Guckt man sich die Marge an, dann hat nVidia anscheinend keine Probleme mit der Chipgröße und somit den Fertigungskosten.

Und um auf die Optionen von Kepler zu kommen. Wenn das erste Tape-Out im Juni war und die Chips komplett tot von TSMC zurück kamen, dann kann es noch einige Respins und Redesigns dauern bis Kepler produktionsreif ist. NV könnte daher gezwungen sein Kepler erst im Sommer 2012 zu launchen. Oder hast Du belegbare Infos zur Funktionalität und Prduktionsreife des Tape-Outs?

Sie könnten auch genauso mit A1 launchen, was Dezember ermöglicht.
Es gibt zur Zeit keine Informationen über irgendwas.
Die CC für Q2 ist in 2 Wochen, vielleicht wird man dort etwas sagen.

V2.0

2011-08-01, 11:51:07

Im Prinzip ja richtig, allerdings wird es bei 28nm eben dadurch verkompliziert, daß nv und AMD gerüchteweise unterschiedliche Prozesse nutzen. Vor allem da der (höchstwahrscheinlich für GK100 eingesetzte) HP Prozeß mehr potentielle Probleme aufweist (höhere leakage, zusätzliche Prozeßschritte für SiGe), könnte es schon darauf zurückzuführende Unterschiede bei der Serienfertigung geben, eben zusätzlich zu den altbekannten Gründen.

Sehe ich doch auch so, es spricht einiges dafür, dass wir erste Mitgleider der neuen Generation von AMD vor den ersten Keplers sehen werden. Wieviel eher ist imho haltlose Spekulation.
Und wie sich das am Ende dann auswirkt wenn beide am Markt sind, könnte noch spannender werden, gerade weil man angeblich unterschiedliche Prozesse nutzt. (was ich aber bei AMD für die großen GPUs nur bedingt glaube)

Skysnake

2011-08-01, 11:54:56

Man fährt die Produktion aber mit kleinen Chips an, und nicht mit einem GPU-Monster-Chip (ich mein damit allgemein GPUs). Da ist son "kleiner" FPGA etc. deutlich lohnender, um die Produktion zu optimieren. Kein Mensch haut bei niedrigen Yields die komplexesten Chips in die Produktion. Wenn man nämlich für nen Chip MEHR zahlen muss als man später damit verdient, dann lässt man es einfach bleiben... Hat man doch auch mit den GTX2?? gesehen, als die HD5k Serie draußen war. Die Karten waren immer schlechter verfügbar, weil nichts oder fast nichts nach kam. Es hat sich schlicht nicht mehr gelohnt.

Und selbst WENN pro funktionierenden Chip gezahlt wird, wovon eigentlich nicht aus zu gehen ist, schließlich hat man nie etwas über einen derartigen Vertrag gehört im Gegensatz zum AMD/GF Fall, dann bleibt noch der Faktor TSMC. Die werden sich 100% nicht solche Knebelverträge aufbinden lassen, in denen Sie selbst mit 10-30% Yields produzieren müssen wie die Weltmeister... TSMC hat auch NICHTS zu verschenken.

Ailuros

2011-08-01, 16:21:28

Es gab afaik erstmal keine "tote" chips was GK100 betrifft oder besser gesagt nichts ausserhalb der Norm. So etwas hatten sie nur als der erste Schub von NV30 chips von TSMC damals zurueckkam.

Man fährt die Produktion aber mit kleinen Chips an, und nicht mit einem GPU-Monster-Chip (ich mein damit allgemein GPUs). Da ist son "kleiner" FPGA etc. deutlich lohnender, um die Produktion zu optimieren. Kein Mensch haut bei niedrigen Yields die komplexesten Chips in die Produktion. Wenn man nämlich für nen Chip MEHR zahlen muss als man später damit verdient, dann lässt man es einfach bleiben... Hat man doch auch mit den GTX2?? gesehen, als die HD5k Serie draußen war. Die Karten waren immer schlechter verfügbar, weil nichts oder fast nichts nach kam. Es hat sich schlicht nicht mehr gelohnt.

Bei GF100 war mit dem test chip irgendwo vor dem Anfang Sommer 2009 alles ok. Sein eigentliches Problem tauchte leider erst bei der Massen-produktion auf. Angenommen es stimmt dass GF100 tatsaechlich ein hw Problem mit seinem interdie-connect ab einer Anzahl von clusters hatte; wie willst Du so etwas mit einem test chip erkennen?

Und selbst WENN pro funktionierenden Chip gezahlt wird, wovon eigentlich nicht aus zu gehen ist, schließlich hat man nie etwas über einen derartigen Vertrag gehört im Gegensatz zum AMD/GF Fall, dann bleibt noch der Faktor TSMC. Die werden sich 100% nicht solche Knebelverträge aufbinden lassen, in denen Sie selbst mit 10-30% Yields produzieren müssen wie die Weltmeister... TSMC hat auch NICHTS zu verschenken.

Weder AMD noch NVIDIA bezahlten bis zu 40G nicht pro funktionierendem chip. Die paar Einzelheiten die ich damals von TSMC direkt bekam deuteten eher auf eine "Mittel-loesung" fuer beide, wobei NV ein geringes premium beim Herstellungspreis hoechstwahrscheinlich hatte dank hoeherem Volumen.

Was jetzt die neue Vertraege betrifft keine Ahnung. Es ist schon zwischen den Linien herumgeschwirrt dass NVIDIA fuer 28nm einen besseren deal vielleicht gelandet hat was aber noch von nirgends bestaetigt wurde.

Unter 40G hat keiner der beiden unter 50% yields produziert und es hat keiner der beiden mehr als $120-125 pro chip bezahlt und das sowohl fuer Cypress als auch fuer GF100 (man muss halt mitberechnen dass der letztere um einiges spaeter produziert wurde und mit um einiges besseren yields als er z.B. in Q3-4 2009 erreicht haette).

Skysnake

2011-08-01, 16:52:09

Also nach den Ausführungen die es von Huang (? der CEO halt) gegeben habt, war es ja ein Interconnect Problem in der neu designten "Fabric", wo schlicht keine Signale zwischen den Clustern ausgetauscht werden konnten.

Da die Leistungsaufnahme massiv nach oben ging, gehe ich mal davon aus, das man entweder die Dämpfung/Leckströme unterschätzt hatte, und nun stärkere Signaltreiber benötigt hat, oder aber, dass das Übersprechen etc. stärker war als vermutet.

So etwas merkt man natürlich erst dann, wenn man alles zusammen baut, aber was willst du mir gerade damit sagen???

Es ist doch klar, dass das erst bei den ersten vollständigen Chips auffällt, aber dann lässt man halt nicht die Fertigung anfahren und "gut" ist.

Ailuros

2011-08-01, 17:51:42

Also nach den Ausführungen die es von Huang (? der CEO halt) gegeben habt, war es ja ein Interconnect Problem in der neu designten "Fabric", wo schlicht keine Signale zwischen den Clustern ausgetauscht werden konnten.

NV konnte aus den ersten bins eine sehr gesunde Anzahl von 14 cluster chips produzieren, um einiges weniger 15 cluster chips und wenn sie alle 16 eingeschaltet haben wollten 1 oder 2 chips maximal pro wafer.

So etwas merkt man natürlich erst dann, wenn man alles zusammen baut, aber was willst du mir gerade damit sagen???

Dass die testruns in Q2 2009 nichts davon gezeigt haben. Anders in solchen Faellen laesst sich kurzfristig gar nichts mehr anstellen. Weisst Du ja selber ohnehin schon ;)

Bei Kepler waeren sie schoen bloed wenn sich aehnliches wiederholen wuerde (anders ein gefixtes Problem - siehe GF110 - dass dann sich wieder reinschleicht?); so etwas hat IMO Null Chancen.

Kepler's erstes "erkennbares" Problem koennte sein wenn AMD mit einem anderen Prozess als 28HP wieder frueher erscheint. Kein Hals und Beinbruch so lange es sich nur um ein Quartal maximal Unterschied handelt und AMD's GCN (welcher der eigentliche groessere "Unbekannte" hier ist) mehr liefert als man normalerweise erwarten wuerde.

V2.0

2011-08-02, 08:22:03

UPDATE – JUNE 2, 2011: The dates for GTC have changed from our original announcement. We are now happy to announce that GTC 2012 will be held at the San Jose Convention Center from May 14-17. For more information on the date change, please visit the NVIDIA press room. Stay up-to-date on GTC news and announcements at www.gputechconf.com.

Launch von Kepler in Q2/2012?

Hugo78

2011-08-02, 08:37:25

Ailuros

2011-08-02, 09:30:27

In der Vergangenheit gab es tatsaechlich etwas geplant fuer einen Herbst 2011 release, aber ich hatte stets das Gefuehl dass es sich eher um einen performance chip handelt (war ja auch kein Zufall dass ich es in der Vergangenheit immer und immer wieder "vorgeschlagen" habe). Ob diese Moeglichkeit besteht keine Ahnung, aber IMO sieht es nicht danach aus.

NV hat an einem 28HP Fermi herumgefunkelt welcher ich bezweifle dass er je das Tageslicht sieht; es klang eher nach irgend einer "Lernphase" fuer 28HP. Der naechste high end chip wird hoechstwahrscheinlich auf Kepler basieren und Kepler hat natuerlich seine Unterschiede im Vergleich zu Fermi.

Ein hint waere was JC wohl fuer zukuenftige game engines gut gebrauchen koennte :P

Skysnake

2011-08-02, 12:11:23

Ein hint waere was JC wohl fuer zukuenftige game engines gut gebrauchen koennte
:ugly: Wat?

Mir fällt da grad nur eins zu ein: "Nix verstehn in Athen" :lol:

Erklär mal bitte den Insider ;)

LovesuckZ

2011-08-02, 12:16:16

Es gibt im Dez. auch noch eine GTC in Peking und wir hatten grad letzten Monat eine in Japan.
Insgesamt fünf dieses Jahr, mit den drei aus dem vergangen Mai.
http://www.gputechconf.com/page/worldwide-events.html

San Jose wird nur wieder die erste in den USA und hat dann grade mal 6 Monate abstand zu der in Peking.

Dann gibt es noch die Supercomputer im November in den USA. Aber es ist eben einfacher sich seine eigene kleine News zu machen als den beschissenen PR-Text vollständig zu lesen. :rolleyes:

NVIDIA will leverage the Supercomputing Conference (SC) as the annual venue for GPU computing in the fall, and the North American GTC will become an annual spring event. GPU computing has grown tremendously at SC, as evidenced by the increasing number of technical papers, presentations, and hardware and software vendor participation. This year's GTC is being shifted from October 2011 to spring 2012.
http://pressroom.nvidia.com/easyir/customrel.do?easyirid=A0D622CE9F579F09&version=live&releasejsp=release_157&xhtml=true&prid=749979

Doch hey, 2014 wird es dann bestimmt wieder Oktober werden. :lol:

Hugo78

2011-08-02, 12:45:40

Nahliegend wäre dann ja die Kepler Preview + Technik whitepaper auf der SC im November.
Einen Monat später in Peking dann eine ausführliche Demo mit einem Vorserien Modell + event. Termine für die Auslieferung, für die HPC Leute.
Und dann anfang Januar die Vorstellung der neuen Geforce 600er auf der CES 2012.

Dafür müsste man aber auch im November in Produktion gegangen sein ... schauen wir mal.

LovesuckZ

2011-08-02, 12:50:14

Wenn sie in November in Produktion gehen sollten, dann könnten sie schon auf der Supercomputer lauffähige Samples vorweisen. Immerhin zeigten sie eine Realtime-Demo von Fermi auf der GTC 2009, eine Woche nachdem die ersten Samples aus der Fab kamen. Sollte Fud's Tape-Out Termin stimmen, dann läge im September November bei normalen Verlauf das produktionsreife A2 (annehmen, dass sie ein Respin machen) ja schon vor.

Hugo78

2011-08-02, 12:54:21

Ok, dann ist es halt nur die Frage, ab wann sich die Serienproduktion auch lohnt.

AwesomeSauce

2011-08-02, 13:05:56

:ugly: Wat?

Mir fällt da grad nur eins zu ein: "Nix verstehn in Athen" :lol:

Erklär mal bitte den Insider ;)
Ganz deiner Meinung. Was hat Jesus Christus mit Games zu tun:freak:

Gipsel

2011-08-02, 13:30:26

:ugly: Wat?

Mir fällt da grad nur eins zu ein: "Nix verstehn in Athen" :lol:

Erklär mal bitte den Insider ;)
JC = John Carmack (Technical Director von id Software)

Und was letztens so ein wenig in der Presse rumgeisterte, waren z.B. die Megatextures (http://en.wikipedia.org/wiki/MegaTexture), auf die sich auch AMD bei der GCN-Präsentation explizit bezog (gibt Hardwaresupport in Form von PRT="partially resident texture" dafür). Der hat allerdings wohl auch noch ein paar andere Ideen am Start, so daß ich das nicht darauf einschränken würde.

Gaestle

2011-08-02, 16:17:11

Man könnte jetzt Spekulieren, wie ernst gemeint bzw. auf was AiLs Andeutung bezogen war.
*kicher*
AFAIR sollte NV30 auch der ideale Chip für Doom3 sein...
Andererseits hat Carmack in der Vergangenheit immer wieder Sachen "gefordert" bzw. "angemahnt" (wie auch Mark Rein und Andere), die ab und an bei den IHVs Gehör und somit den Weg in die DX-Spezifikation bzw. die Hardware fanden.

LovesuckZ

2011-08-02, 16:19:02

Naja, da Doom3 keine FP-Genauigkeit verwendete, gab es keine Probleme mit CineFX.

Ailuros

2011-08-02, 16:33:46

JC = John Carmack (Technical Director von id Software)

Und was letztens so ein wenig in der Presse rumgeisterte, waren z.B. die Megatextures (http://en.wikipedia.org/wiki/MegaTexture), auf die sich auch AMD bei der GCN-Präsentation explizit bezog (gibt Hardwaresupport in Form von PRT="partially resident texture" dafür). Der hat allerdings wohl auch noch ein paar andere Ideen am Start, so daß ich das nicht darauf einschränken würde.

Nagel auf den Kopf getroffen. Es gibt noch ein ziemlich altes Geruecht dass sich auf weniger oder gar keine hohe ALU Frequenzen bezieht aber ich bin mir nicht mehr sicher auf welche Generation ich es zuteilen sollte :confused:
Gleiches gilt auch fuer das two level cache Zeug. Beides klingt eher IMO nach Maxwell.

V2.0

2011-08-02, 16:59:42

Naja, ich würde sagen die Tendenz kann man schon auf Kepler und Maxwell beziehen, der Grad der Umsetzung wird natürlich anders sein.

Skysnake

2011-08-02, 17:27:14

JC = John Carmack (Technical Director von id Software)

Und was letztens so ein wenig in der Presse rumgeisterte, waren z.B. die Megatextures (http://en.wikipedia.org/wiki/MegaTexture), auf die sich auch AMD bei der GCN-Präsentation explizit bezog (gibt Hardwaresupport in Form von PRT="partially resident texture" dafür). Der hat allerdings wohl auch noch ein paar andere Ideen am Start, so daß ich das nicht darauf einschränken würde.

AHHHHHHHHHHHHHH.......... Jetzt hats geschnackelt ;D

Ja gut der John Carmack ist mir natürlich ein Begriff. An die Sache mit den Megatextures musste ich auch sofort denken, als Sie von kohärenten gemeinsamen Adressraum gesprochen hatten.

Das würde sich durch swapping etc. wirklich SEHR elegant implementieren lassen. Ich glaub so etwas wird definitiv kommen, zumal es dann wirklich sehr einfach zu implementieren ist.

Ailuros

2011-08-02, 17:29:57

Naja, ich würde sagen die Tendenz kann man schon auf Kepler und Maxwell beziehen, der Grad der Umsetzung wird natürlich anders sein.

Das Geruecht bezieht sich darauf dass entweder die hotclocks niedriger sein werden in der Zukunft oder ganz abgeschafft (was wenn es ueberhaupt Haende und Fuesse hat erstmal bedeuten wuerde dass die SP Anzahl radikal zunimmt), innerhalb der gleichen Generation.

Sinnlose Haarspalterei eigentlich aber ich bezweifle momentan dass davon Kepler betroffen sein koennte. Dass es erstmal Sinn macht muesste heissen dass zukuenftige Herstellungsprozesse zunehmend problematischer sein koennten mit Leckstroemen als Beispiel. Ich lass mich gerne eines besseren belehren aber mir klingen solche Thesen heute besonders merkwuerdig.

Klar hotclocking ist sicher nicht umsonst, aber zumindest bis zu GF1xx war/ist es ein definitiver Gewinn und dazu unter 40G welches alles andere als optimal fuer Leckstroeme ist.

Es waere mal interessant ein paar Thesen zu lesen was fuer groessere hypothetische Aenderungen Maxwell bringen koennte, damit die hypothetische Abschaffung von hotclocking eher eine Architektur-bedingte Einbahnstrasse werden koennte.

deekey777

2011-08-02, 17:36:12

Naja, da Doom3 keine FP-Genauigkeit verwendete, gab es keine Probleme mit CineFX.
Natürlich verwendete Doom 3 FP-Genauigkeit (ARB2).
Was du meinst, ist, ob Doom 3 durchgehend mehr als FP16 verwendet hat.

V2.0

2011-08-02, 17:39:46

Ich denke man könnte Caches und Registerbereiche relativ stärker ausweiten, so dass die Leerlaufzeiten der SPs reduziert werden. Gerade Cache sollte in der Fertigung weit weniger problematisch sein als die SPs @ hotclock. Eine Abwägung über Effizienz und wirtschaftlicher Sinnigkeit traue ich mir da abernicht zu.

Ailuros

2011-08-02, 17:40:23

Hoert mir bitte auf mit dem oeden Doom3. Man koennte Kristof Beets zitieren: when JC says "jump", IHVs ask "how high"...oder so aehnlich.

Zurueck zum Thema.

Gipsel

2011-08-02, 19:37:41

Es gibt noch ein ziemlich altes Geruecht dass sich auf weniger oder gar keine hohe ALU Frequenzen bezieht ...
Das Geruecht bezieht sich darauf dass entweder die hotclocks niedriger sein werden in der Zukunft oder ganz abgeschafft (was wenn es ueberhaupt Haende und Fuesse hat erstmal bedeuten wuerde dass die SP Anzahl radikal zunimmt), innerhalb der gleichen Generation.Nvidia kopiert GCN! http://forum.beyond3d.com/images/smilies/new/runaway.gif
:wink:

Sinnlose Haarspalterei eigentlich aber ich bezweifle momentan dass davon Kepler betroffen sein koennte. Dass es erstmal Sinn macht muesste heissen dass zukuenftige Herstellungsprozesse zunehmend problematischer sein koennten mit Leckstroemen als Beispiel. Ich lass mich gerne eines besseren belehren aber mir klingen solche Thesen heute besonders merkwuerdig.
Du, so merkwürdig ist das gar nicht. Die Skalierung des Stromverbrauchs pro Transistor ist schon seit einigen Generationen deutlich schlechter als die Verkleinerung des Flächenverbrauchs (was also bei der üblichen Verdopplung der Transistorzahl zu einer Erhöhung des Stromverbrauchs führt, wenn keine weiteren Anpassungen vorgenommen werden). Und insbesondere Leakage ist ein nicht zu unterschätzendes Problem, die geht nämlich normalerweise gar nicht runter, sondern sogar hoch bei jeder Verkleinerung (HKMG durchbricht das mal, aber bei weiterer Verkleinerung geht ohne weitere Neuerungen die Leakage auch wieder hoch, FinFets helfen gegen subthreshold Leakage, aber dann wird's bald wieder eng). Das ist also ein sehr ernst zu nehmendes und schlimmer werdendes Problem.
Klar hotclocking ist sicher nicht umsonst, aber zumindest bis zu GF1xx war/ist es ein definitiver Gewinn und dazu unter 40G welches alles andere als optimal fuer Leckstroeme ist.Soo schlimm ist hotclocking gar nicht, da es ja meist durch eine deutlich längere Pipeline realisiert wird, also daß das delay pro Pipeline-Stufe deutlich kleiner ist. Deshalb müssen gar nicht so viel mehr low threshold-Transistoren verbaut werden, die z.B. die Leakage hochtreiben. Im Prinzip kann man damit den Flächenverbrauch für die gleiche arithmetische Leistung verringern (bei gleichem oder im Optimalfall sogar niedrigerem Stromverbrauch, weil weniger Transistoren leaken).
Allerdings ist es in der Praxis dann eben doch nicht so einfach. Eine längere Pipeline benötigt eben an anderer Stelle mehr Aufwand, damit sie immer schön gefüllt bleibt, was eben auch Transistoren und damit Stromverbrauch kostet. Außerdem limitiert heutzutage (und erst recht in Zukunft) auch häufig das Layout bzw. die Leitungen zwischen den Transistoren die Geschwindigkeit einer Schaltung (weswegen die Transistorperformance dann gar nicht mehr so die Rolle spielen muß, da kann man dann auch Modelle nehmen, die auf geringe Leakage optimiert sind wie z.B. TSMCs HPL ;)). Dies sind Punkte, die bei entsprechenden Problemen mit hoher Parallelität eine höhere Anzahl langsamer taktende Einheiten sowohl flächenmäßig als auch vom Stromverbrauch günstiger werden lassen können.

Es waere mal interessant ein paar Thesen zu lesen was fuer groessere hypothetische Aenderungen Maxwell bringen koennte, damit die hypothetische Abschaffung von hotclocking eher eine Architektur-bedingte Einbahnstrasse werden koennte.Vielleicht muß man sich die nach dem GCN-Launch wohl erscheinenden in-depth-Artikel zur Architektur durchlesen, um noch ein paar Gründe gegen hotclocking zu finden. Ich finde die oben (deutlich einfacheres Scheduling, Möglichkeit zur Verkleinerung der Fläche/ALU und Möglichkeit der stärkeren Verwendung von low leakage Transistoren) schon mal gar nicht so ungewichtig.

Ailuros

2011-08-02, 21:42:24

Nvidia kopiert GCN!

Ich haette schwoeren koennen von fans vom anderen Ufer gelesen zu haben dass AMD nie von VLiW abweichen wird :biggrin: Spass beiseite es ist wohl offensichtlich dass beide IHVs stets hoehere Effizienz anstreben und stets im Raum des moeglichen Zeit-angepasste Loesungen finden.

Du, so merkwürdig ist das gar nicht. Die Skalierung des Stromverbrauchs pro Transistor ist schon seit einigen Generationen deutlich schlechter als die Verkleinerung des Flächenverbrauchs (was also bei der üblichen Verdopplung der Transistorzahl zu einer Erhöhung des Stromverbrauchs führt, wenn keine weiteren Anpassungen vorgenommen werden). Und insbesondere Leakage ist ein nicht zu unterschätzendes Problem, die geht nämlich normalerweise gar nicht runter, sondern sogar hoch bei jeder Verkleinerung (HKMG durchbricht das mal, aber bei weiterer Verkleinerung geht ohne weitere Neuerungen die Leakage auch wieder hoch, FinFets helfen gegen subthreshold Leakage, aber dann wird's bald wieder eng). Das ist also ein sehr ernst zu nehmendes und schlimmer werdendes Problem.
Soo schlimm ist hotclocking gar nicht, da es ja meist durch eine deutlich längere Pipeline realisiert wird, also daß das delay pro Pipeline-Stufe deutlich kleiner ist. Deshalb müssen gar nicht so viel mehr low threshold-Transistoren verbaut werden, die z.B. die Leakage hochtreiben. Im Prinzip kann man damit den Flächenverbrauch für die gleiche arithmetische Leistung verringern (bei gleichem oder im Optimalfall sogar niedrigerem Stromverbrauch, weil weniger Transistoren leaken).

Ich fragte mal einen NV engineer privat (vor dem Fermi launch) wie die ganze Geschichte mit hotclocking vorgeht und er sagte mir dass sie bei jeder neuen Architektur verstaendlicherweise Simulationen durchfuehren um zu sehen ob und wo es Sinn macht. Bis jetzt hat es sich verstaendlicherweise nur fuer ALUs gelohnt und nicht fuer irgendwelche andere Einheiten.

Ich verstehe zwar das obrige, aber was nicht in meinen Schaedel passen will ist wieso CPUs bei knapp ueber 3.0GHz nicht zu aehnlichen Problemen kommen und ueberhaupt da das bisherige hotclocking sowieso eher selten ueber die 1.5GHz fuer die ALUs gestiegen ist.

Allerdings ist es in der Praxis dann eben doch nicht so einfach. Eine längere Pipeline benötigt eben an anderer Stelle mehr Aufwand, damit sie immer schön gefüllt bleibt, was eben auch Transistoren und damit Stromverbrauch kostet. Außerdem limitiert heutzutage (und erst recht in Zukunft) auch häufig das Layout bzw. die Leitungen zwischen den Transistoren die Geschwindigkeit einer Schaltung (weswegen die Transistorperformance dann gar nicht mehr so die Rolle spielen muß, da kann man dann auch Modelle nehmen, die auf geringe Leakage optimiert sind wie z.B. TSMCs HPL ;)). Dies sind Punkte, die bei entsprechenden Problemen mit hoher Parallelität eine höhere Anzahl langsamer taktende Einheiten sowohl flächenmäßig als auch vom Stromverbrauch günstiger werden lassen können.

Hat in dem Fall V2.0 nicht einen Punkt mit seinem vorigem cache relevantem Post? Ich wuerde das two level cache + register cache eher Maxwell zuteilen und insgesamt passen mir eben Thesen zu radikaleren Aenderungen eher in die Maxwell als in die Kepler Richtung.

Vielleicht muß man sich die nach dem GCN-Launch wohl erscheinenden in-depth-Artikel zur Architektur durchlesen, um noch ein paar Gründe gegen hotclocking zu finden. Ich finde die oben (deutlich einfacheres Scheduling, Möglichkeit zur Verkleinerung der Fläche/ALU und Möglichkeit der stärkeren Verwendung von low leakage Transistoren) schon mal gar nicht so ungewichtig.

Du weisst besser als ich dass alle Architekturen schoen in PPPs bzw. whitepapers illustriert werden koennen. Wenn ich einen jeglichen GCN, Kepler oder was noch nicht in Echtzeit Tests gemessen sehen ist es alles zwar hoechst-interessantes Material aber ich bin dann eben auch so "banal" und will trotz allem ein paar bunte Balken sehen.

Noch schlimmer und ich will hoffen dass ich nicht schon wieder Oel ins Feuer werfe aber wenn AMD wieder nichts anstaendiges fuer AF angerichtet haben, verdienen sie einen heftigen Tritt unter den Guertel.

Skysnake

2011-08-02, 22:15:47

Ailuros

2011-08-02, 22:30:34

Die Taktraten bei den ALUs ist wohl nicht so hoch wie bei den CPUs, weil einfach das Transistorbudget bei den CPUs ganz anders aussieht. Bei GPUs ist ja ein Großteil der Transistoren wirklich in den ALUs drin. Bei der CPU sieht das GANZ anders aus. Die wirklich extrem hoch getakteten Bereiche sind da gar nicht so groß wie man meinen Könnte. Die ganzen Caches mit ihrem SRAM fliegen ja eh gleich raus.

Mehr als schaetzungsweise 1/4 des insgesamten die estates?

Auf den AF bin ich auch gespannt. Ich versteh eh bis heute nicht, warum es da Unterschiede gibt. Das sollten doch eigentlich alles nur "Optimierungen" der Treiber sein. Die ALUs sind ja alle IEEE Konform. Ob ich da jetzt auf nVidia rechne oder auf AMD ist ja total fürn Poppes.

Ich bezweifle dass beide bis heute eine identische Implementierung ihrer TMUs und noch weiter AF haben. Von dem abgesehen kommt es wohl eher darauf was fuer ein mickriges Prozentual an zusaetzlicher Leistung jegliche Optimierung mit sich bringen kann. Fuer Dich oder mich moegen 2-3% als Beispiel aeusserst laecherlich klingen, fuer eine jegliches IHV Market-Tier eben nicht.

Mir sind die Optimierungen auch ziemlich wurscht; das einzige was ich als Verbraucher haben will ist den Bloedsinn jederzeit abschalten zu koennen das ist im Grund alles. Von mir aus koennen sie im schlimmsten Fall sogar negativen LOD als eine "AF Optimierung" verkaufen; so lange ich es nur wahlweise einschalten kann ist es mir auch ziemlich egal.

Gipsel

2011-08-02, 22:40:14

Ich verstehe zwar das obrige, aber was nicht in meinen Schaedel passen will ist wieso CPUs bei knapp ueber 3.0GHz nicht zu aehnlichen Problemen kommen und ueberhaupt da das bisherige hotclocking sowieso eher selten ueber die 1.5GHz fuer die ALUs gestiegen ist.
Nun, ein einfacher Grund ist, daß in einem CPU-Kern irgendwas bei zwei bis 4 ALUs rumschwirren, in einem SM/CU/SIMD einer GPU allerdings 32 bis 80 ALUs. Und davon gibt es eben nicht nur 4 oder auch mal sechs, sondern bis zu 24. Die schiere Anzahl verschiebt den Punkt des Optimums. Und es ist ja nicht so, als wäre man bei CPUs nicht auch mit hotclocking schon mal an die Grenzen gestoßen (P4 mit grob 7GHz hotclock-ALUs).
Hat in dem Fall V2.0 nicht einen Punkt mit seinem vorigem cache relevantem Post?Ich habe das eher auf die konkrete Implementierung der Schaltung auf Transistorebene bezogen, nicht Features.
Noch schlimmer und ich will hoffen dass ich nicht schon wieder Oel ins Feuer werfe aber wenn AMD wieder nichts anstaendiges fuer AF angerichtet haben, verdienen sie einen heftigen Tritt unter den Guertel.
Ist zwar hier OT, aber Coda hat mehr oder weniger bestätigt, daß das ein Bug in der Implementation des AF-Algos war und mit GCN/SI abgestellt wird.
Edit: Achja, ebenfalls laut Coda hat dieser Bug auch keinerlei Performancevorteile gebracht. Die Skalierung der Tex-Performance mit dem AF-Grad hat darauf ja schon vorher hingewiesen.

Skysnake

2011-08-03, 01:54:59

Mehr als schaetzungsweise 1/4 des insgesamten die estates?

estates? Sorry, steh grad auf dem Schlauch :uconf3:

Ansonsten gebe ich Gipsel absolut Recht. Auf ner GPU geht einfach ein Großteil des Transistorbudgets für die ALUs drauf. Das ist ja auch der Grund, warum die Dinger so ne Krasse Rechenleistung haben. Man hat halt nur das Problem der Einschränkungen bzgl. Datenlokalität, SIMD etc etc etc. :rolleyes:

Captain Future

2011-08-03, 10:35:43

"die estate" -> AIL-dt -> "chip grundbesitz" -> normales dt. -> Chipfläche.

Captain Future

2011-08-03, 10:43:25

Ailuros

2011-08-03, 11:21:41

Ist das ein GF1xx? Wenn und Du hast die ALUs richtig eingezeichnet, klingt meine 1/4 Schaetzung auf jeden Fall nicht so abwegig.

Gipsel,

Ok so viel kann ich verstehen. Was moegliche grundsaetzliche Cache-Aenderungen fuer die Zukunft betrifft war es nicht als zusaetzliches "feature" per se gemeint sondern eher eine Effizienz-Steigerung die moeglicherweise eine Abschaffung von hotclocks zu einem begrenzten Teil des ganzen Puzzle unterstuetzt. IMHO ist eine two level cache sowieso nichts besonderes und ich wundere mich sogar warum es so etwas nicht schon seit gestern in high end GPUs gibt.

Ein algorithmitischer bug ist eine Blamage fuer die verantwortlichen AMD engineers. Wenn man bedenkt wie lange wir schon fast kostenloses AF haben, gibt es keine anstaendige Entschuldigung egal ob das Problem jetzt am Algorithmus selber oder dessen Implementierung liegt.

Fuer die heutigen Verhaeltnisse wuerde ich sogar so langsam noch bessere Filterung als das was wir bisher haben und dieses gilt natuerlich fuer beide IHVs.

Captain Future

2011-08-03, 11:44:59

Oh mist, vergessen. G80. Das Bild hatte ich extra dafür noch richtig benannt.

Da es aus einem Artikel von Lindholm, Oberman und Montrym ist und ich die Lokation der SMs nur kopiert habe, gehe ich mal davon aus, dass es stimmt.

Ein algorithmitischer bug ist eine Blamage fuer die verantwortlichen AMD engineers. Wenn man bedenkt wie lange wir schon fast kostenloses AF haben, gibt es keine anstaendige Entschuldigung egal ob das Problem jetzt am Algorithmus selber oder dessen Implementierung liegt.

Zumindest eine Blamage, wenn man bedenkt, wie lange das Geflimmer nun schon kritisiert wird.

Skysnake

2011-08-03, 12:05:42

Ich glaub du hättest lieber ein Bild von der DIE-"Oberseite" nehmen sollen, wie man es hier findet:

http://forum.beyond3d.com/showthread.php?t=59430

http://burntelectrons.org/img/ctho-chip1.jpg

Beim GF100 sieht es wieder etwas anders aus. Da ist es so 1/4 grob geschätzt für die Stream-Multiprozessoren. Der Anteil für ROPs etc, ist schon recht stark zurück gegangen.

Captain Future

2011-08-03, 12:13:11

Und was hätte die Oberseite für einen Unterschied beim G80 gemacht?
Beim GF100 sind's ca. 31.2% übrigens - auch noch lange kein "Großteil".

Skysnake

2011-08-03, 12:29:40

Großteil im Verhältnis zu was.

Schau dir ne CPU an. Da gibt es nur ganz wenige ALUs. Die machen deutlich weniger des Gesamtchips aus als bei GPUs. Allein, weil es viel weniger sind, aber auch weil die Caches viel größer sind bei CPUs.

Das Großteil bezog sich auf das Verhältnis im Vergleich zu CPUs, wo es wirklich nur ein winziger Bruchteil ist. Absolute Zahlen, also 50% war damit nicht gemeint. Kann ja auch gar nicht sein. Allein Memory-Controller etc. nehmen ja schon recht viele Transistoren/Platz weg. Dazu kommt noch das PCI-E Interface, was nicht wirklich klein ist und am Ende noch der Onchip Interconnect.

Captain Future

2011-08-03, 12:32:03

Großteil kann nur auf den Anteil am selben Chip bezogen sein. Das was du jetzt in deine Aussage interpretierst, steht da so nicht - und nur darauf kann ich Bezug nehmen. Du solltest dann vielleicht lieber etwas genauer formulieren was du meinst.

Skysnake

2011-08-03, 12:43:32

Ja das sollte ich :rolleyes: Geb ich auch ganz offen und ehrlich zu :P

Ich denk einfach zu oft "das ist doch klar"... Großer Fehler, aber ich gelobe Besserung ;)

Die ganzen I/O SAchen etc. hab ich halt raus genommen, da diese eben fixed sind und man daran nichts ändern kann. Damit reduziert sich der Chip eigentlich nur noch auf Caches und ALUs und par Sachen nebenbei, die aber nicht sooo viel ausmachen bei ner GPU. Bei ner CPU ist es wenn man die ganzen Interfaces etc weg nimmt halt eher so von der Aufteilung:

CPU: Caches>Decoder/etc>ALUs

Bei GPU siehts eher so aus: ALUS>=Caches>Decoder/etc

Ich hoffe jetzt ist klar, wie ich das meinte. Wenn nicht, einfach mit dem Knüppel ankommen und nochmals nachfragen ;)

Captain Future

2011-08-03, 12:51:04

Nee, kein Knüppel. Aber du hast doch 'nen Blog. Da musst du schon drauf achten, das so zu schreiben dass die Leut das gleich beim ersten Mal verstehn.

Skysnake

2011-08-03, 12:59:23

Naja, das ist nicht meiner. Ich schreib da nur für Nyso. Daher muss ichs auch verlinken. :rolleyes: Sonst gibts haue

Ailuros

2011-08-03, 13:04:56

Geehrte Herren,

Ich erinnere daran dass die Debatte davon ausging dass ich die ALU die-Flaeche auf irgendwo 1/4 der gesamten chip-Flaeche einschaetzte. Koennen wir uns einig werden das dem mehr oder weniger so ist?

Die genau naechste Frage waere ob man vorhersehen koennte dass diese Analogie der ALUs in Zukunft zunehmen koennte und wenn ja um wieviel. Irgendwo kann ich mir schwer vorstellen dass sich zumindest fuer das naechste halbe Jahrzehnt etwas radikal daran aendern wird, denn wenn man caches und weiss der Geier noch dazufuegt brauchen diese dann auch eine sehenswerte die-Flaeche.

Ausser natuerlich eine Architektur wie Maxwell entbehrt ein sehenswertes Prozentual an ff hw und diese wird dann als zusaetzliche Funktionalitaet in die ALUs geschleusst. Mir klingt das Ganze aber so oder so als immer noch zu frueh, egal ob Intel fans behaupten wuerden dass z.B. ein 22nm Larabee2 durchaus die Konkurrenz in die Ecke dringen wuerde.

V2.0

2011-08-03, 13:35:17

Du musst das Problem von der Fertigungsseite angehen. ALU sind vergleichsweise sensibel im Gegensatz zu Caches. Wenn man davon ausgeht dass die Bedeutung der ALU-Leistung in Zukunft wächst, dann ergeben sich 3 Ansätze um dies zu erreichen.

1. der offensichtliche Ansatz ist mehr ALUs und damit auch einer höhere prozenutaler Anteil an der Die-Fläche
2. die zweite Option wäre stärkeres Hotclocking
3. die dritte Option ist die Auslastung der ALUs zu verbessern durch Chache usw.

Wenn ich mir so die Entwicklung der Fertigungsprozesse bei TSMC anschaue, dann scheint ein großer Die problematisch, aber auch die Nutzung der High-Takt-Prozesse ist im Hinblick auf Leckströme und auch der Verfügbarkeit der Prozesse weniger interesant. Die LP Prozesse gewinnen für den Fertiger hingegen an Bedeutung. Werfen wir einen Seitenblick auf die CPUs, so erscheint eine Vergrößerung des Caches weniger problematisch in der Fertigung. Evtl. ist es zukünftig erfolgversprechender auf hotclocks zu verzichten und lieber einen größeren Chip (mit mehr Cache und einer begrenzten Anzahl an mehr ALUs) zu fertigen, als einen kleineren Chip mit einer hohen Hotclock. Kann man FF HW in ALUs umlagern eröffnet das weitere Optionen.

Oder einfach gesagt, wenn ich mehr ALUs brauche und die prozentual an Die-Fläche zunehmen, wieviel Hotclock kann ich mir dann noch erlauben?

Skysnake

2011-08-03, 13:54:20

Die Caches müssen definitiv anwachsen für GPGPU. Schon heute ist es doch oft so, dass die theoretische Leistung der ALUs nicht auf den Boden gebracht werden kann, da einfach die Bandbreite fehlt um die ALUs mit Daten zu füttern. Durch größere Caches erhöht man die Datenlokalität/Datenwiederverwendung und spart damit extrem viel an Bandbreite.

Klar gibts auch reine Brut-Force Sachen, wo man praktisch gar keine Daten groß austauschen muss, aber das ist doch eher die Ausnahme. Größere Caches vergrößern halt den sinnvollen Einsatzbereich für GPUs. Mehr ALUs erhöhen "nur" die reine theoretische Rechenleistung und in Verbindung mit entsprechend gestiegenen Bandbreiten/Caches eben auch die tatsächliche.

Recheneinheiten hat man eigentlich eh mehr als genug, wenn ich als AMD mit ~1600 parallelen Threads denke, oder an Fermi mit 512.

Daher Cache>mehr ALUs

Gipsel

2011-08-03, 13:58:07

Ich erinnere daran dass die Debatte davon ausging dass ich die ALU die-Flaeche auf irgendwo 1/4 der gesamten chip-Flaeche einschaetzte. Koennen wir uns einig werden das dem mehr oder weniger so ist?Für nvidia wird das schon etwa stimmen. Bei Radeons ist es etwas mehr, zumindest bei den Top-Modellen (RV770 hatte bereits 29% für ALUs inklusive Registern, ohne TMUs/Caches; danach ist es tendentiell noch etwas hochgegangen). Aber Größenordnung 1/3 bis maximal 40% kann man auch da ganz grob ansetzen.
Ausser natuerlich eine Architektur wie Maxwell entbehrt ein sehenswertes Prozentual an ff hw und diese wird dann als zusaetzliche Funktionalitaet in die ALUs geschleusst. Mir klingt das Ganze aber so oder so als immer noch zu frueh, egal ob Intel fans behaupten wuerden dass z.B. ein 22nm Larabee2 durchaus die Konkurrenz in die Ecke dringen wuerde.Rasterizer, ROPs und sogar TMUs sind heutzutage noch ziemlich gut, solange zumindest ab und zu mal auch Grafik gerendert werden soll und das kein reiner Compute-Chip werden soll. In letzterem Fall könnte man das natürlich für mehr ALUs/Cache rauskicken. Das dürfte aber noch ein wenig dauern. Und den Rasterizer als FF-Hardware zu behalten, dürfte m.M. nach noch sehr lange besser sein. Bei ROPs kann man darüber grübeln, ob man die in ein paar Jahren zugunsten aufgepumpter (global) atomic units rauskickt und die TMUs halt gegen Filtern in den ALUs tauscht (was bei Texturformaten mit weniger als FP32 breiten Komponenten aber [Strom-]Verschwendung ist).

Skysnake

2011-08-03, 14:13:33

Seh ich auch so. Die FixedFunktion-Units werden uns ziemlich lange noch erhalten bleiben. Sooooo viel Platz brauchen die jetzt nicht, wenn man mal bedenkt, was die an Leistung bringen in Grafikanwendungen. Für einen Chip der auch für Gamer interessant sein soll, wäre eine Streichung der FF-Units reinster Selbstmord.

Ailuros

2011-08-03, 15:02:42

Für nvidia wird das schon etwa stimmen. Bei Radeons ist es etwas mehr, zumindest bei den Top-Modellen (RV770 hatte bereits 29% für ALUs inklusive Registern, ohne TMUs/Caches; danach ist es tendentiell noch etwas hochgegangen). Aber Größenordnung 1/3 bis maximal 40% kann man auch da ganz grob ansetzen.

Entschuldige aber das es hotclocked ALUs ging, bezog ich mich wohl offensichtlich nur auf GFs.

Rasterizer, ROPs und sogar TMUs sind heutzutage noch ziemlich gut, solange zumindest ab und zu mal auch Grafik gerendert werden soll und das kein reiner Compute-Chip werden soll. In letzterem Fall könnte man das natürlich für mehr ALUs/Cache rauskicken. Das dürfte aber noch ein wenig dauern. Und den Rasterizer als FF-Hardware zu behalten, dürfte m.M. nach noch sehr lange besser sein. Bei ROPs kann man darüber grübeln, ob man die in ein paar Jahren zugunsten aufgepumpter (global) atomic units rauskickt und die TMUs halt gegen Filtern in den ALUs tauscht (was bei Texturformaten mit weniger als FP32 breiten Komponenten aber [Strom-]Verschwendung ist).

Auch nach privaten Besprechungen ueber GPU Architekturen generell, weisst Du dass ich genau der Meinung bin. Anders ich denke mir ganz grob vereinfacht dass es fuer NV keinen "Drang" zur Abschaffung fuer das ALU hotclocking geben koennte, ausser sie kommen zu radikaleren Aenderungen (wie z.B. ab Maxwell und nein das hat jetzt nichts mit ff hw zu tun).

Ich werde nach wie vor das Bauchgefuehl nicht los dass Kepler keinen besonderen Abstand haben wird zu Fermi was die Architektur betrifft. Oder anders nicht so gross wie zwischen G7x zu G80 oder GT200 zu GF100.

Gipsel

2011-08-03, 15:24:02

Ich werde nach wie vor das Bauchgefuehl nicht los dass Kepler keinen besonderen Abstand haben wird zu Fermi was die Architektur betrifft. Oder anders nicht so gross wie zwischen G7x zu G80 oder GT200 zu GF100.
Ich glaube irgendwo weit vorne im Thread findet sich noch mein alter Tipp, daß man die GF104 SMs auf vier Vec16 ALU-Blöcke aufblasen könnte. Würde dann bis auf das hotclocking und die Skalar-Einheit auf den ersten Blick GCN recht ähnlich sehen. Bei Maxwell können die dann ja immer noch mehr umstricken.

PCGH_Carsten

2011-08-03, 19:36:50

GF1x4 tut sich aber bei einigen Compute-Sachen noch ziemlich schwer im Vergleich zu GF1x0 (Luxmark bsw.). Mag zwar auch ein Treiber-/Compiler-Problem sein.

Soundwave1983

2011-08-03, 19:56:52

War bzw. ist es nicht ohnehin so, das der GF104 von seinen Einheiten her gar nicht richtig ausgelastet wird/werden kann? Hatte da mal hier im Forum etwas darüber gelesen, von wegen nicht alle Cores können ausgelastet werden.

Hugo

2011-08-03, 20:15:18

Kepler vielleicht doch noch 2011?
http://hartware.net/news_52335.html

Skysnake

2011-08-03, 20:41:18

GF1x4 tut sich aber bei einigen Compute-Sachen noch ziemlich schwer im Vergleich zu GF1x0 (Luxmark bsw.). Mag zwar auch ein Treiber-/Compiler-Problem sein.

War bzw. ist es nicht ohnehin so, das der GF104 von seinen Einheiten her gar nicht richtig ausgelastet wird/werden kann? Hatte da mal hier im Forum etwas darüber gelesen, von wegen nicht alle Cores können ausgelastet werden.

Ne Carste, das ist kein Compiler Problem, das ist eher ein Problem damit, das man den Cache in vielen Fällen nicht so geschickt ausnutzen kann, da die Anzahl der Cores im Verhältnis zum Cache schlecht gewählt ist, ganz abgesehen davon, dass es beim GF1x4 eh schlechter ist als beim GF1x0, und selbst da würde man sich ja oft genug über mehr L1&SharedMem freuen.

EDIT:

Nvidia will mit Kepler zudem neue Funktionen einführen, wie etwa Virtual Memory Space, was CPUs und GPUs erlaubt gemeinsamen virtuellen Speicher zu nutzen. Pre-emption soll der GPU dagegen ermöglochen Daten komplett ohne CPU-Unterstützung zu verarbeiten.

Wie preemtion halt mal GAR NICHTS damit zu tun hat, dass die GPU die Aufgaben ohne CPU ausführen kann.....

Wie zu erwarten war, bringt auch nVidia für CPU und GPU einen gemeinsamen Adressraum. Hätte mir nicht vorstellen können, das nur AMD das macht. Die Softwarehersteller hätten die Hände überm Kopf zusammen geschlagen... :rolleyes:

Was mich allerdings etwas verunsichert ist, dass nvidia von "Virtual Memory Space" spricht....

Das klingt für mich eher nach einer Software Lösung, denn einer Hardware wie bei AMD. Wenn es wirklich rein auf Software setzt, dann würden sich meine Befürchtungen bewahrheiten, dass nVidia hier eben den Nachteil hat, nur die GPUs zu fertigen und daher bei solchen Integrationen mit Intel oder AMD nicht mit halten kann. Hoffen wir mal, dass der "Virtual Memory Space" in die gleiche Kategorie fällt wie Preemption->GPU unabhängig von der CPU. Sprich da hat einfach jemand nicht richtig aufgepasst :rolleyes:

Gipsel

2011-08-03, 21:11:11

GF1x4 tut sich aber bei einigen Compute-Sachen noch ziemlich schwer im Vergleich zu GF1x0 (Luxmark bsw.). Mag zwar auch ein Treiber-/Compiler-Problem sein.
Oder der krummen Anzahl von drei Vec16-ALU Blöcken pro SM.
Das wäre dann bei 4 Blöcken nicht mehr so. Das ganze noch mit 2 multi (triple?) issue Schedulern garniert, den L1/shared memory leicht vergrößert (oder wie GCN 64kB nur für shared memory und L1-Cache mit dem L1-Tex-Cache vereinen) und das sollte dann schon ganz passabel laufen.

Skysnake

2011-08-03, 21:21:03

sprich mal alles zumindest geringfügig umgekrempelt ;P

Ailuros

2011-08-04, 12:18:38

Kepler vielleicht doch noch 2011?
http://hartware.net/news_52335.html

Wenn ja dann wuerde mich eine erste performance Variante kein bisschen wundern und IMHO eine Eulogie fuer NVIDIA.

AnarchX

2011-08-04, 12:31:36

Die Konferenz bezog sich auf die Profi-Version:

Kepler vielleicht doch noch 2011?
http://hartware.net/news_52335.html
http://www.forum-3dcenter.org/vbulletin/showthread.php?p=8847085#post8847085

Die Frage ist was und zu wem ausgeliefert werden wird. Vielleicht ein paar Tesla Samples für die HPC-Anbieter.

LovesuckZ

2011-08-04, 12:33:39

Es ist vollkommen belanglos, da es die Chips vom selben Wafer sind. Shippen sie für Tesla, dann auch für Geforce und Quadro.

Was mich allerdings etwas verunsichert ist, dass nvidia von "Virtual Memory Space" spricht....

Das klingt für mich eher nach einer Software Lösung, denn einer Hardware wie bei AMD. Wenn es wirklich rein auf Software setzt, dann würden sich meine Befürchtungen bewahrheiten, dass nVidia hier eben den Nachteil hat, nur die GPUs zu fertigen und daher bei solchen Integrationen mit Intel oder AMD nicht mit halten kann. Hoffen wir mal, dass der "Virtual Memory Space" in die gleiche Kategorie fällt wie Preemption->GPU unabhängig von der CPU. Sprich da hat einfach jemand nicht richtig aufgepasst :rolleyes:

Ach, AMD hat angekündigt, dass sie ihre neuen diskreten Karten direkt mit dem Speicher der CPU anbinden werden? Wow.

/edit: Gerade nachgeguckt: AMD nennt es - Trommelwirbel - ebenfalls so: "Unified Virtual Address Space".

Dural

2011-08-04, 12:34:22

Wie so sollten die Tesla Karten zuerst komme?

Bis jetzt kammen die GeForce immer deutlich vor den Tesla Karten raus :)

Das liegt underanderem sicher auch daran das die Tesla Chips und Karten "höherwertiger" sein müssen und somit eine längere herstellungs / entwickungs / testzeit benötigen :)

AnarchX

2011-08-04, 12:35:50

Wie so sollten die Tesla Karten zuerst komme?

Bis jetzt kammen die GeForce immer deutlich vor den Tesla Karten :)
T20 wurde noch Ende 2009 vorgestellt.
Aber wohl möglich sollte man so viel Wert auf diesen Nebensatz auch nicht legen.

LovesuckZ

2011-08-04, 12:38:23

Und Geforce wurde als erstes geshipt - nämlich noch in Q1 mit Verfügbarkeit Mitte April. Wohingegen Tesla und Quadro erst im Mai zur Verfügung standen.

Dural

2011-08-04, 12:39:24

T20 wurde noch Ende 2009 vorgestellt.
Aber wohl möglich sollte man so viel Wert auf diesen Nebensatz auch nicht legen.

ja mit lieferzeit mitte 2010 ;)

ich spreche hier von auslieferung und ich kann mir in keinsterweisse vorstellen das irgend eine Tesla Karte zuerst kommen sollte :)

AnarchX

2011-08-04, 12:41:01

Außer Kepler ist mit seinen "Full-Rate-DP-ALUs" kaum schneller als GF110 im GeForce-Markt. ;D

LovesuckZ

2011-08-04, 12:44:58

Außer Kepler ist mit seinen "Full-Rate-DP-ALUs" kaum schneller als GF110 im GeForce-Markt. ;D

Vergess nicht: Das ganze muss noch auf 1/4 limitert werden. :freak:

Skysnake

2011-08-04, 13:19:42

Ach, AMD hat angekündigt, dass sie ihre neuen diskreten Karten direkt mit dem Speicher der CPU anbinden werden? Wow.

/edit: Gerade nachgeguckt: AMD nennt es - Trommelwirbel - ebenfalls so: "Unified Virtual Address Space".

Sie haben immer von "coherent x86 Adressspace" gesprochen. Von "Unified Virtual Adress Space" hab ich AMD noch nie etwas sagen gehört. Hast du dafür ne Quelle?

AMD Sprich von cohärentem gemeinsamen Adressraum. Von Cohärenz hab ich bei nVidia noch nichts gehört. Denn ein gemeinsamer Adressraum ist nicht wirklich das große Problem. Das gibts schon seit Jahren/Jahrzehnten für Cluster per Software. Ist also eine reine Treiber Sache. Die Cohärenz kannst du auch haben, aber die kostet nochmals einiges an Leistung.

LovesuckZ

2011-08-04, 13:23:14

Sie haben immer von "coherent x86 Adressspace" gesprochen. Von "Unified Virtual Adress Space" hab ich AMD noch nie etwas sagen gehört. Hast du dafür ne Quelle?

Ab Seite 14: http://developer.amd.com/documentation/presentations/assets/6-Demers-FINAL.pdf

aylano

2011-08-04, 13:33:02

T20 wurde noch Ende 2009 vorgestellt.
Aber wohl möglich sollte man so viel Wert auf diesen Nebensatz auch nicht legen.
So ist es.
Man kann sich noch mal die Fermi-Aussagen im Sommer bzw. September ansehen und damals hatten sie schon erste Samples.

Wie große ist die Chance, dass Nvidia schon erste Kepler-Chips hat?

LovesuckZ

2011-08-04, 13:35:03

So ist es.
Man kann sich noch mal die Fermi-Aussagen im Sommer bzw. September ansehen und damals hatten sie schon erste Samples.

Interessant. Laut nVidia hatten sie erste Samples frühsten am Ende von September. Achja - Char-Lie arbeitet nicht für nVidia.

Wie große ist die Chance, dass Nvidia schon erste Kepler-Chips hat?

Zwischen 0-100%.

Skysnake

2011-08-04, 13:37:55

AHHHHHHHHH...... ok, jetzt seh ich was du meinst. Das geht im Video ziemlich unter, bzw. durch den Zusammenhang mit IOMMU, 64 bit Pointern, cohärenten Adressraum und page faults.

Der "Unified Virtual Adress space" ist hier so zu verstehen, dass ja keine echten Adressen verwendet werden. Jedes Programm hat ja seinen eigenen virtuellen Adressraum. Sonst könntest du ja auch nicht mehrere Programme nebeneinander laufen haben.

Damit ist nur gemeint, dass man nicht auf ECHTEN Adressen arbeitet. Daher brauch man ja auch eine MMU.

Gut, dann muss man das bei nVidia wohl wieder etwas entschärfen. So komplett ohne Zusammenhang, hab ich das komplett anders verstanden.

Na dann wollen wir mal sehen, ob beide das Selbe darunter verstehen.

LovesuckZ

2011-08-04, 14:05:33

Na dann wollen wir mal sehen, ob beide das Selbe darunter verstehen.

Wie soll AMD es mit ihren diskreten Karten denn anders lösen?

Skysnake

2011-08-04, 14:54:08

AMD fertigt auch CPUs und Chipsätze?

Wie Sie die Cohärenz realisieren wird sehr spannend! Leider hat AMD diesbezüglich rein gar nichts erzählt.

Auffällig ist aber auf jeden Fall, dass es einen TLB auf der GPU gibt. Dazu kommt, dass die IOMMU wohl gewisse Syncs vornehmen soll. AMD kann hier perfekt die Arbeitsweise aufeinander abstimmen. Es ist ja z.B. auch noch gar nicht klar, unter welchen Voraussetzungen die genannten Features verfügbar sind. Ich geh davon aus, das man die volle Leistungsfähigkeit nur mit einem kompletten AMD System haben wird.

Gerade der Einsatz der IOMMU bietet sehr viel Spielraum für Optimierungen, denn die Latenz CPU<->IOMMU < IOMMU<->GPU Da wird AMD sicherlich nicht alles auf den schlechtesten Wert runter klopfen, sondern etwas asynkrones aufbauen, und da AMD an allen Schrauben drehen kann, werden Sie dies wahrscheinlich auch machen. Sie wären zumindest SEHR dumm, wenn Sie diesen Vorteil nicht gnadenlos ausnutzen würden!

Denn weder Intel noch nVidia haben eine wirklich komplette geschlossene Plattform zur Verfügung um so etwas auf die Beine zu stellen. Intel fehlen die GPUs und nVidia hat nur die GPUs. Die könnten sich zusammen tun, aber da sollte man nicht davon ausgehen, das sich Intel sonderlich für das interessiert, was nVidia von denen will.

Also kurz um:
AMD hat zumindest einige Teile, wenn nicht sogar einen Großteil der gesamten Mechanismen in Hardware. Für nVidia ist es sehr viel schwieriger, die Sachen ebenfalls in Hardware zu realisieren, da Sie eben nur eine Ende haben. Ergo wird wohl zumindest einiges über Software gelöst werden müssen. Und wir wissen ja, Hardware>Software

LovesuckZ

2011-08-04, 16:45:11

Und ich sehe nach ein paar Minuten Wikipedia nicht, wie AMD es weiterbringen sollte, dass sie Chipsätze und CPUs fertigen. Das Problem liegt doch in der Trennung von GPU und CPU. Die Kommunikations erfolgt bei GCN ebenfalls über PCIe oder hat AMD eine andere Kommunikationstechnologie angekündigt? DMA und IOMMU gibt es heute schon. Der CPU sollte es ja egal sein, woher die Signale kommen. Aber wahrscheinlich fehlt mir hierzu auch einfach das Hintergrundwissen.

Skysnake

2011-08-04, 17:01:36

Naja, also erst mal wichtig ist, dass die GPU einen TLB bekommt etc. Ansonsten funktioniert die Sache nicht wirklich. Dann muss nämlich nicht mehr auf die IOMMU zugegriffen werden.

AMD hat nun den Vorteil in die IOMMU gewisse Mechanismen ein zu bauen, die folgendes z.B. erlauben würden:

CPU->HT->IOMMU
Mit einem write. Die IOMMU schaut, ob von der GPU ein write vor liegt, wenn ja, wird die CPU darüber informiert, das bereits dirty whot ever, Ausnahmebehandlung halt.
Wenn kein write vor liegt, passiert nichts, nach Ablauf von Latenz x weiß die CPU, dass der write erfolgreich war, oder aber Sie bekommt ein Signal und gut ist
Wenn in der Zwischenzeit ein Write von der GPU eingeht, dann übernimmt die IOMMU selbstständig die Ausnahmebehandlung

GPU->PCIE->IOMMU
GPU schreibt etwas. Die IOMMU sendet dies gleich weiter an die CPU und gibt ein Signal zurück an die GPU, wenn alles ok ist
Wenn ein Fehler auftritt, weil bereits dirty, übernimmt die IOMMU wieder die Ausnahmebehandlung etc.

Mir ist jetzt allerdings nicht bekannt, was die IOMMU der 800er und 900er Serie genau alles können und welche Änderungen es dabei gibt. Ganz zu schweigen von der Situation bei Intel.

Ein Vorteil besteht weiterhin darin, dass AMD eben den Aufbau der IOMMU hierfür gleich nehmen auslegen kann für beide Richtungen, da ja HT ab 2.0 oder 3.0 die Möglichkeit bietet PCI-E über HT zu tunneln. Es wäre auch daher denkbar, das gewisse Flags etc. von der CPU aus direkt an die GPU geleitet werden, ohne einen nochmaligen Zwischenschritt auf der IOMMU.

Sprich kurz um, man hat einfach viel mehr Möglichkeiten, die Sachen dort hin zu packen, wo es geschickt ist. AMD hat dabei sogar wie gesagt, die Möglichkeit jedwede Optimierung vor zu nehmen für ihre Plattform, und damit nur dort die volle Leistungsfähigkeit bereit zu stellen. nVidia wird wohl kaum auf AMD optimieren, auf der anderen Seite macht Intel alles was interne Bussysteme etc angeht total dicht. Dort kann also nVidia nicht optimieren, AMD aber auch nicht.

Wie gesagt, ich gehe davon aus, dass man nur auf reinen AMD Systemen die volle Leistungsfähigkeit bekommen wird.

Gipsel

2011-08-04, 17:53:36

@LS, hier mal eine krude Analogie:
Nur weil Sprache auch immer per Schallwelle in der Luft oder als Reihe von grafischen Symbolen übertragen wird, verstehen sich trotzdem nicht alle Menschen, ohne das sie sich auf eine Sprache geeinigt haben.

Und um in einem gemeinsamen Adressraum den Speicher an zwei physischen Orten (CPU- sowie GPU-Speicher) schlußendlich kohärent halten zu können, da bedarf es eines gemeinsamen Protokolls zwischen CPU und GPU. Wie will denn z.B. die CPU anderweitig erfahren, ob ein auf der GPU laufendes Programm eine Änderung irgendwo im Speicher vorgenommen hat, wenn diese Änderung erstmal nur in den Caches der GPU steht?

Skysnake

2011-08-04, 22:39:21

Naja, die Caches sollen denke ich mal ausgenommen werden. Erst wenn aus dem Cache in den RAM ein Schreibvorgang stattfindet, sollte syncronisiert werden. Sonst würden Sie nicht sagen, dass es ein cohärenter x86 Adressraum ist, sondern Cachecohärenz erwähnen. Das ist nochmals deutlich schwieriger und per PCI-E eigentlich nicht realisierbar. Da müsste schon eine HT-Version der GPU kommen.

Und naja Gipsel, man kann ein SharedMemory System ja per Software erstellen. Ist halt nicht so wirklich performant, vor allem nicht wenn es auch noch cohärent sein soll.

AMD wird aber sicherlich die IOMMU nutzen, um zwischen CPU und GPU direkt zu vermitteln, bzw. der GPU die Fähigkeit geben mit einer AMD CPU zu kommunizieren.

Hier könnte es sich als Vorteil erweisen, das der Chipsatz per HT angebunden ist. Für die CPU ist es damit wahrscheinlich nicht erkennbar (transparent), dass da eine GPU und keine CPU sitzt.

mapel110

2011-08-05, 07:42:03

Tarkin

2011-08-05, 07:51:31

wenns "early silicon" Ende 2011 bekommen... was heißt das im Klartext? Retail frühestens April/Mai?

V2.0

2011-08-05, 08:14:30

Das ist ja kein Tape-Out sondern wahrscheinlich die ersten Produktionschargen. Ich vermute Januar/Februar.

Wären es erste Tape-Outs, dann würde ich Ende Q2/12 sagen.

fondness

2011-08-05, 10:26:38

Bekommst Du für Dein Bias-Geposte eigentlich Geld?

Was soll denn das jetzt? Wenn das nicht irgendwie falsch zitiert wurde, bewusstes understatement ist, etc. dann hat er vollkommen recht. Alleine von Produktionsbeginn bis zur guten Verfügbarkeit im Handel rechnet man mit drei Monaten. Und da steht ausdrücklich production 2012. Was genau gemeint ist mit "early-silicon this year" ist natürlich schwer zu sagen, aber hoffentlich ist es schon sehr weit fortgeschrittenes Silicon.

Captain Future

2011-08-05, 10:35:29

Mancko

2011-08-05, 11:01:51

Im Endeffekt ist es doch wurscht. Wenn Sie Q1 2012 schaffen passts doch. Bis dahin brennt nix an.

Duke Nukem

2011-08-05, 11:02:07

Offiziell: Nvidia „Kepler“ 2012 und „Maxwell“ 2014
http://www.computerbase.de/news/hardware/grafikkarten/nvidia/2011/juli/offiziell-nvidia-kepler-2012-und-maxwell-2014/

LovesuckZ

2011-08-05, 11:03:44

Offiziell: Nvidia „Kepler“ 2012 und „Maxwell“ 2014
http://www.computerbase.de/news/hardware/grafikkarten/nvidia/2011/juli/offiziell-nvidia-kepler-2012-und-maxwell-2014/

Im Beyond3d.com gibt es eine schöne Übersicht über die einzelnen Folien:
http://forum.beyond3d.com/showpost.php?p=1569364&postcount=396

Im Endeffekt ist es doch wurscht. Wenn Sie Q1 2012 schaffen passts doch. Bis dahin brennt nix an.

Vorallem, wenn die Wirtschaft weiterhin schwächelt und mehr Staaten Probleme bekommen Geld als Schulden aufzunehmen. Das werden noch lustige Monate bis zum Ende des Jahres.

aylano

2011-08-05, 11:07:52

@Captain Future
Man kann es eh Interpretieren wie mal es will.

Denn es steht auch "production in 2012".
Und da ist dann der früheste Termin der März/April.

Falls dann wieder ein Respin nötig ist, was sie & wir nicht wissen, dann winkt eh schon der Juni/Juli.
Oder man interpretiert, dass Nvidia diesesmal sicherheitshalber einen Respin miteinkalkuliert und AMD Nov/Dez daherkommt, sodass der Abstand mit 4 Monaten noch erträglich ist.

LovesuckZ

2011-08-05, 11:24:14

Ich find's cool, wie aus simplen Aussagen irgendwas hineinprojektiert wird.
Fehlt ja nur noch jemand, der behauptet, Kepler kommt 2013, weil 2012 auch Dezember meinen kann. :lol:

Captain Future

2011-08-05, 11:24:35

Gipsel

2011-08-05, 11:34:16

Dann hätten wir auch schon mal einen Hinweis auf die passende Antwort, warum der 28nm Ramp bei TSMC nicht so stark ausfällt wie geplant.
Von AMD existiert die Aussage, sie hätten SI am laufen. Production Ramp in diesem Jahr klingt da erstmal realistisch.

Du mußt Dich entscheiden, woran es Deiner Meinung nach liegt, daß die 28nm Produktion langsamer als bisher prognostiziert hochgefahren wird:
1. Kepler (bzw. die anderen Chips) ist noch nicht fertig
2. die yields sind nicht zufriedenstellend für die Auftraggeber
3. nvidia meinte, "laß AMD doch SI in Ruhe launchen, wir warten mal noch bis 2012, bis die Wirtschaftslage besser wird" :freak:
;)

aylano

2011-08-05, 11:35:05

@Captain Future
Es ist schon ein Unterschied ob das "Products 2012" oder "to go into production 2012" drinnsteht.

Und zweitens, ist 2012 nicht nur ein langer Zeitraum sondern die Bewertung einer möglichen Verspätung hängt sehrwohl auch von der Konkurrenz ab, was ich im Interpretations-Spielraum miteinrechne.

1. Kepler (bzw. die anderen Chips) ist noch nicht fertig
2. die yields sind nicht zufriedenstellend für die Auftraggeber
Wobei Punkt zwei allein für Nvidia nicht bekannt ist, wenn Punkt 1 eintrifft.
Somit sind weitere Verspätungen möglich.

AFAIK hat AMD schon laufendes Material und danach noch betont, Ende 2011 noch liefern zu können.
Also, ein wesentlicher Unterschied.
Wobei das bei AMD wieder nicht viel heißen kann, wenn man sich an die Llano & Bulldozer-Aussagen davor erinnert, wo die ebenfalls schon laufendes Material hatten.

LovesuckZ

2011-08-05, 11:38:44

Klar, weil auch 2/3 von den 3% alleine für Kepler draufgegangen wären.

Schon lustig, dass Gipsel den Börseneinbruch von gestern ignoriert. Aber das wäre auch Realität und die ist ja nie möglich, wenn es nach Mr. "Ein 30% besseres Perf/Watt verhältnis erreicht man zu 99% durch den Wechsel eines Kühlers" geht.

Gipsel

2011-08-05, 11:39:35

Lies mal genau. Tarkin schreib:"wenns "early silicon" Ende 2011 bekommen..."

Entweder das ist seine Interpretation oder er hat den Gehalt der Meldung nicht erfasst. Such's dir aus - von late 2011 steht da (noch) nichts.
Aber "early silicon" heißt das allererste Stepping, wahrscheinlich nicht reif für die Produktion. Egal, das wird Wortklauberei.
Fakt ist, daß nv gesagt hat, daß der Produktionsstart in 2012 liegt. Bis die Karten dann im Handel aufschlagen ist das best case ganz am Ende des 1. Quartals, wenn nv es nicht schaffen sollte, daß doch noch irgendwie in 2011 zu quetschen.

Gipsel

2011-08-05, 11:43:05

Klar, weil auch 2/3 von den 3% alleine für Kepler draufgegangen wären.Hat nv nicht gesagt, daß man diesmal mit den kleineren Ablegern schneller sein will? Außerdem war das Gefettete nicht nur Kepler bezogen (da steht noch was in Klammern ;)).

Zum Rest:
Jaja LS.
Wie oft willst Du eigentlich noch Deine falsche Wiedergabe meiner Aussagen wiederholen. Ich habe Dir bestimmt schon 3 mal erklärt, was ich gesagt habe (was komischerweise so ziemlich jeder verstanden und von dem einen oder anderen PCGH-Redakteur auch praktisch bestätigt wurde]), aber du bestehst ja auf Deiner verdrehten Interpretation, die sich lediglich aus Deiner Fantasie speist), zumal sie immer vollkommen OT sind?

Nur schön ruhig bleiben, okay?

Captain Future

2011-08-05, 11:50:13

Aber "early silicon" heißt das allererste Stepping, wahrscheinlich nicht reif für die Produktion. Egal, das wird Wortklauberei.
Fakt ist, daß nv gesagt hat, daß der Produktionsstart in 2012 liegt. Bis die Karten dann im Handel aufschlagen ist das best case ganz am Ende des 1. Quartals, wenn nv es nicht schaffen sollte, daß doch noch irgendwie in 2011 zu quetschen.
Ja, early silicon dürfte das erste stepping sein. Darüber hinaus interpretierst Du allerdings auch nur:
- was early silicon heissen könnte
- wann genau es kommt -> remember: "later 2011" kann, muss aber nicht Ende 2011 heissen, außer man definiert H2/2011 insgesamt schon als Ende 2011...
- daraus folgend interpretierst du, wann die Massenproduktion startet, die könnte - achtung interpretation - natürlich deutlich früher als Ende 2011 losgehen, wenn "later 2011" bsw. September/October bedeutet. Dann - achtung Spekulation - könnte 2012 nur noch die Produktion der Karten anliegen. Das geht dann etwas schneller, sodass Q1 nicht nur "knapp" drin ist.

Keine Ahnung, welche Spekulation besser ist - aber es sind beides Spekulationen. Die Fakten habe ich oben bereits geschrieben. Es hängt sicherlich auch viel mit TSMC zusammen und wie gut Nvidia diesesmal direkt beim Design auf die Problemstellen großer stromfressender Chips geachtet haben wird.

Captain Future

2011-08-05, 11:54:06

@Captain Future
Es ist schon ein Unterschied ob das "Products 2012" oder "to go into production 2012" drinnsteht.

Du hast völlig recht. Ich habe es oben ergänzt. Wir wissen natürlich nicht, ob sie davon ausgehend, dann noch 2012 auch fertig werden oder erst 2013/4 oder nocht später.

Gipsel

2011-08-05, 11:58:53

Ja, early silicon dürfte das erste stepping sein. Darüber hinaus interpretierst Du allerdings auch nur:
- was early silicon heissen könnte
Muß ich das verstehen?
- wann genau es kommt -> remember: "later 2011" kann, muss aber nicht Ende 2011 heissen, außer man definiert H2/2011 insgesamt schon als Ende 2011...Darüber habe ich gar nichts gesagt ;)
- daraus folgend interpretierst du, wann die Massenproduktion startet, die könnte - achtung interpretation - natürlich deutlich früher als Ende 2011 losgehen, wenn "later 2011" bsw. September/October bedeutet. Dann - achtung Spekulation - könnte 2012 nur noch die Produktion der Karten anliegen. Das geht dann etwas schneller, sodass Q1 nicht nur "knapp" drin ist.
Nein, ich interpretiere und spekuliere da gar nicht. NV hat in dem von Dir selbst gebrachtem Zitat explizit gesagt, daß die Produktion in 2012 startet ("scheduled to go into production in 2012"). Da kann man sich höchstens noch darauf berufen, daß das schon die Grafikkarten selber sein könnten und nicht die Chips. Dann wäre vielleicht ein Termin im Februar drin.

V2.0

2011-08-05, 12:04:39

early silicon ist schon kein gutes Wort. Das muss keineswegs produktionsreif sein, weshalb die Produkte deutlich später erscheinen können. Ich würde Ende Q1 für den besten Fall und Q3 für den schlimmsten halten. Paßt ja auch zum langsamen Ramp den TSMC verkündet hat.

aylano

2011-08-05, 12:05:43

Keine Ahnung, welche Spekulation besser ist - aber es sind beides Spekulationen.

Siehst du, ich sagte schon, dass es einen großen Interpretions-Radius gibt.

Wobei man auch spekulieren kann, dann Nvidia eben einen Respin mehr miteinrechnet und in Best-Case diesen Auslassen kann und ebenfalls Anfang Q1 liefern kann.

Oder eben umgekehrt, sodass es in Worst-Case 6 Monate später sein könnte.

Die Fakten habe ich oben bereits geschrieben.

Das sind keine Fakten, sondern Erwartungen bzw. die Pläne von Nvidia.

LovesuckZ

2011-08-05, 12:08:23

"Early Silicon" ist die Bezeichnung für die Chips vom Tape-Out - bei nVidia also A1.
Produktion kann dagegen alles bedeuten.

Captain Future

2011-08-05, 12:10:32

Muß ich das verstehen?
Wenn du drüber nachdenkst, bestimmt: ICh stimme deiner Interpretation, was early silicon bedeutet, zu. Es könnte (achtung, alternative interpretation) aber auch eine Risk-Wafer-Allokation sein, die bsw. für einen frühen Launch benötigt würde. Wie gesagt: Interpretation, early silicon heisst ja nicht zwangsweise "first silicon"…

Darüber habe ich gar nichts gesagt ;)
-> "Bis die Karten dann im Handel aufschlagen ist das best case ganz am Ende des 1. Quartals, wenn nv es nicht schaffen sollte, daß doch noch irgendwie in 2011 zu quetschen. " ???
Nein, ich interpretiere und spekuliere da gar nicht. NV hat in dem von Dir selbst gebrachtem Zitat explizit gesagt, daß die Produktion in 2012 startet ("scheduled to go into production in 2012"). Da kann man sich höchstens noch darauf berufen, daß das schon die Grafikkarten selber sein könnten und nicht die Chips. Dann wäre vielleicht ein Termin im Februar drin.
von dir: "Bis die Karten dann im Handel aufschlagen ist das best case ganz am Ende des 1. Quartals, wenn nv es nicht schaffen sollte, daß doch noch irgendwie in 2011 zu quetschen." Interpretation.

fondness

2011-08-05, 12:13:28

Schon lustig, dass Gipsel den Börseneinbruch von gestern ignoriert.

Was genau soll denn der Börseneinbruch deiner Meinung nach mit Kepler zu tun haben?

Captain Future

2011-08-05, 12:13:45

Siehst du, ich sagte schon, dass es einen großen Interpretions-Radius gibt.
Dann sind wir uns ja einig:
http://www.forum-3dcenter.org/vbulletin/showthread.php?p=8869561#post8869561

Wobei man auch spekulieren kann, dann Nvidia eben einen Respin mehr miteinrechnet und in Best-Case diesen Auslassen kann und ebenfalls Anfang Q1 liefern kann.

Oder eben umgekehrt, sodass es in Worst-Case 6 Monate später sein könnte.
Kann man auch, klar. 2013?

Das sind keine Fakten, sondern Erwartungen bzw. die Pläne von Nvidia.
Das sind die bei Xbitlabs enthaltenen Fakten - ohne Interpretation. Denn: (öffentlicher) Fakt ist, dass Nvidias derzeitiger Planungsstand so aussieht. Wie es intern aussieht, naja, ich bin gern für andere Quellen offen! :eek:

Gipsel

2011-08-05, 12:14:37

@CF:
Das ist keine Interpretation, das ist eine Schlußfolgerung aus dem Produktionsstart 2012.
Und darüber, wann in 2011 nv ihr "early silicon" in den Händen hält (was in diesem Fall auch first silicon ist, denn sie haben bisher noch nichts zurück), habe ich wirklich kein einziges Wort verloren.

LovesuckZ

2011-08-05, 12:15:17

Was genau soll denn der Börseneinbruch deiner Meinung nach mit Kepler zu tun haben?

Frag Gipsel. Laut ihm läuft alles bestens auf der Welt(wirtschaft).

Duke Nukem

2011-08-05, 12:21:09

Solangs nicht so kommt wie bei der Generation 5 er ATIs und Fermi. Fermi 1 Jahr später und dann mit ner Heizbirne die 10% schneller ist und 50% mehr strom braucht 1 Jahr danach.
Ist alles halb so wild.;D

V2.0

2011-08-05, 13:19:11

Es könnte schlimmer werden.

Gipsel

2011-08-05, 13:26:26

Ach, was sollen diese Kassandra-Rufe?
Im Prinzip war für Kepler Anfang 2012 schon immer ein realistisches Launch-Datum. Insofern hat sich doch kaum was geändert, nur ist es jetzt eben offiziell so verkündet. :wink:

Ailuros

2011-08-05, 13:32:07

http://www.xbitlabs.com/news/graphics/display/20110804175446_Nvidia_Denies_Plans_to_Release_Kepler_GPU_in_2011.html
"Although we will have early silicon this year, Kepler-based products are actually scheduled to go into production in 2012. We wanted to clarify this so people wouldn’t expect product to be available this year," said Ken Brown, a spokesman for Nvidia, in an email statement.

Ken ist ein ziemlicher netter Kerl der in der PR Abteilung arbeitet.

Wie schon erwaehnt Kepler hatte schon seinen tape out, aber da ich mir nichts anderes als 28HP dafuer vorstellen kann (ihre Fermi 28nm "Lern-phasen-chips" waren auch auf HP) sah es nie nach anstaendigen yields vor Q1 2012 aus.

Wenn sie etwas noch in 2011 veroeffentlicht haetten von Kepler dann lediglich einen performance chip, aber es wundert mich nicht dass auch dieser moeglicherweise verspaetet wird dank 28HP yields.

V2.0

2011-08-05, 16:02:04

Es ist das erste mal seit langer Zeit, dass AMD und NV nicht den Exakt gleichen Prozess verwenden. Imho erhöht das die Chance für stärkere Differenzen zwischen beiden - und zwar in jeder Hinsicht.

LovesuckZ

2011-08-05, 16:09:36

Es steht doch überhaupt noch nicht fest, wer welchen Prozess verwendet. Hat sich AMD denn schon dazu geäußert oder basiert das hier alles auf eine Nachricht von Scharlie?

Gipsel

2011-08-05, 16:15:34

Ja, noch nicht mal das ist sicher. Alles Spekulation bisher, obwohl es durchaus Sinn machen könnte.

Ailuros

2011-08-05, 16:20:04

Ja, noch nicht mal das ist sicher. Alles Spekulation bisher, obwohl es durchaus Sinn machen könnte.

Wie schon erwaehnt, es ist lediglich eine These die Sinn macht. Denn wenn mich jemand ueberzeugen will dass SI auf 28HP ausgelegt wurde und AMD noch dieses Jahr veroeffentlichen will zockt dann schon automatisch die eine Augenbraue. Zumindest fuer TSMCs 28HP klingt es momentan als ein besonders teures Abenteuer.

labecula

2011-08-05, 19:09:10

Hat das spekulieren für dieses Jahr ein Ende:

http://www.heise.de/newsticker/meldung/Nvidia-bestaetigt-Kepler-kommt-erst-2012-1319070.html

AnarchX

2011-08-05, 19:23:22

Da wird es wohl Zeit, dass NV neue Architekturen von dem neuesten Prozess entkoppelt. Einen 40nm Kepler Mitte 2011 mit theoretisch 50% mehr Leistung pro Transistor wäre auch begrüßenswert gewesen.

Ähnliches bei Maxwell, wo der Gewinn durch die Architektur noch höher ausfallen sollte. Sofern sich NV nicht nur auf wage Versprechungen der Foundries stützt.

Captain Future

2011-08-05, 20:06:45

Das ist doch derselbe Krams wie bei Xbit, ist sogar verlinkt dort. Warum jeden Link 10x neu posten?

Gipsel

2011-08-05, 20:50:57

Da wird es wohl Zeit, dass NV neue Architekturen von dem neuesten Prozess entkoppelt. Einen 40nm Kepler Mitte 2011 mit theoretisch 50% mehr Leistung pro Transistor wäre auch begrüßenswert gewesen.Wo sollen die 50% denn herkommen, wenn sogar neue Features eingebaut werden? So mies ist die Fermi-Architektur ja nun nicht, das man da mal so eben +50% pro Transistor im gleichen Prozeß rausholen kann. Mal zum Vergleich, der etwas langsamere Cayman hat ja auch nur 13% oder sowas in der Region weniger Transistoren. Die nehmen sich da nicht wirklich viel.

AnarchX

2011-08-05, 21:00:44

GF104 zeigt einen Weg.

Gipsel

2011-08-05, 21:13:20

GF104 zeigt einen Weg.
Mal das erstbeste Performancerating nachgeschlagen (Gamestar, k.A. ob das was taugt), und eine GTX560 Ti liegt bei ~71% einer GTX580 bei etwa 65% der Transistoren (die meistgenannten Zahlen von 1.95/3.0 Milliarden benutzt). Ist jetzt nicht so umwerfend besser, insbesondere wenn man noch den 6,5% höheren Takt der 560Ti (822MHz) gegenüber der GTX580 (772MHz) berücksichtigt.
0,65*1,065 = 0,69 vs. 0,71 im Rating. Dann noch kein half-rate-DP ...

Ergo, die nehmen sich eigentlich nicht viel.

Skysnake

2011-08-05, 21:18:10

@aylano: Ich sehe bei dem einzigen neuen Satz ""Although we will have early silicon this year, Kepler-based products are actually scheduled to go into production in 2012. We wanted to clarify this so people wouldn’t expect product to be available this year," said Ken Brown, a spokesman for Nvidia, in an email statement." ehrlich gesagt keinen Interpretationsspielraum, was Zitatauswahl betrifft.

Was einzelne davon ausgehen dort hineininterpretieren, dürfte vom Farbton ihrer Weltsicht abhängen.

Objektiv sind dort zwei Fakten:
• Early Silicon later this year (expected -> "will have")
• Kepler-based Products going into production 2012
Seh ich auch so. Kepler geht erst 2012 in Produktion und bisher haben Sie noch keine Chips erhalten.

@Captain Future
Es ist schon ein Unterschied ob das "Products 2012" oder "to go into production 2012" drinnsteht.

Und zweitens, ist 2012 nicht nur ein langer Zeitraum sondern die Bewertung einer möglichen Verspätung hängt sehrwohl auch von der Konkurrenz ab, was ich im Interpretations-Spielraum miteinrechne.

Wobei Punkt zwei allein für Nvidia nicht bekannt ist, wenn Punkt 1 eintrifft.
Somit sind weitere Verspätungen möglich.

AFAIK hat AMD schon laufendes Material und danach noch betont, Ende 2011 noch liefern zu können.
Also, ein wesentlicher Unterschied.
Wobei das bei AMD wieder nicht viel heißen kann, wenn man sich an die Llano & Bulldozer-Aussagen davor erinnert, wo die ebenfalls schon laufendes Material hatten.
Der Punkt ist SEHR wichtig. AMD hat schon vor Wochen(?) gesagt, Sie hätten nicht nur lauffähige sondern es hieß doch glaub ich sogar, dass Sie "functional" seien. Also richtig arbeiten. Wäre also nur noch die Möglichkeit offen, dass Performance/Watt noch nicht stimmt. Dafür hätten Sie aber extrem viel Zeit, wenn man davon ausgeht, das jeder Respin zwischen 3 und 6 Monaten dauert, könnten Sie wohl 2 Respins schaffen, bis nVidia mit ihrer ersten Version auf den Markt kommen. Das wäre schon sehr heftig.

Aber "early silicon" heißt das allererste Stepping, wahrscheinlich nicht reif für die Produktion. Egal, das wird Wortklauberei.
Fakt ist, daß nv gesagt hat, daß der Produktionsstart in 2012 liegt. Bis die Karten dann im Handel aufschlagen ist das best case ganz am Ende des 1. Quartals, wenn nv es nicht schaffen sollte, daß doch noch irgendwie in 2011 zu quetschen.
Sehe ich auch so. Von "early silicon" spicht man eigentlich immer nur bei den aller aller ersten Chips, die man zurück bekommt, wo noch nicht mal klar ist, ob die auch nur ansatzweise das machen, was Sie sollen. Da heißt es erst mal Daumen drücken und hoffen, das überhaupt etwas passiert, wenn man den chip anschmeißt. Danach muss noch die Validierung ALLER Funktionalitäten erfolgen, was so Größenordnungsmäßig zwischen 4 und 8 Wochen dauern sollte bei einem komplett neuen Design.

Da nVidia auch sagt, dass Sie es erst noch erwarten, und mit einem Produktionsstart in 2012 gerechnet wird, kann man davon ausgehen, dass Sie frühestens mitte September die ersten Chips bekommen. Das wären grob 2-3 Monate nachdem AMD verkündet hat, sie hätten korrekt laufende Chips :ugly: Gar nicht gut in meinen Augen... (sofern man AMD glaubt, wobei ich da keinen Grund sehe, dies nicht zu tun. Trinity haben Sie laufend gezeigt, und der war auch erst ganz frisch da)

Also fassen wir mal zusammen. Produktionsstart frühestens am 01.01.2012-> erste Produkte frühestens Anfang/Mitte Februar, dann aber wohl in geringen Stückzahlen.

Falls ein Respin nötig wird, wovon man wohl leider ausgehen wird müssen, da ja wahrscheinlich auch PCI-E 3.0 Einzug hält, und ja auch Intel so seine Schwierigkeiten damit hat, wird sicherlich ein Respin nötig werden->Produktion wohl frühestens Februar-April 2012. -> Produkte erst im März-Mai 2012, bzw. je nach dem auch erst ganz knapp vorm Ende H1 2012.

Da gehen wir jetzt aber davon aus, dass die Performance nur noch nicht akzeptabel ist, der Chip an sich aber schon mal grob funktioniert. Wenn jetzt aber z.B. der Chip schon Fehler hat, und gar nicht funktioniert, dann könnte sich eventuell ein Fehler im PCI-E Controller verstecken.

Also ich seh grad LEIDER! sehr schwarz, und hab wegen PCI-E 3.0, was sehr sicher kommen wird, ziemliche Bauchschmerzen.

Hugo78

2011-08-06, 09:27:33

Dural

2011-08-06, 12:09:42

Es wird so wie so alles am 28HP prozess liegen wann und wie wir die ersten Karten im Handel sehen werden...

Aber ganz ehrlich, ich habe derzeit gar kein verlangen nach einem Chip mit mehr Leistung! GF110 @ 1GHz ist einfach eine Macht, für mich neben R300 und G80 einer der bessten GPUs die es je gab, zudem die aktuellen Spiele gar nicht mehr verlangen :)

Deswegen dürfen die ersten 28nm Karten von mir aus gerne erst mitte 2012 kommen, dafür hoffentlich ausgereift den halbe sachen wie man sie von AMD und NV gesehen hat braucht man derzeit jetzt wirklich nicht!

Das einzige was besser wäre, wäre etwas weniger Verbrauch :)

Ich erwarte so wie so nicht wirklich viel von Kepler, GF110 ist derzeit einfach zu "gut" und der zeit abstand zwischen Fermi und Kepler ist zu gering um da grosse sprünge erwarten zu können, der grösste Vorteil von Kepler wird 28nm sein...

Gipsel

2011-08-06, 12:24:19

Was hier wieder alles in "early silicon" reininterprtiert wird ... :uup: *hust*
Es wird sich um die erste Charge der Serienproduktion handeln, die dann an die Bordpartner geht.
Das Tapeout war schon mindestens im Juli, wenn nicht gar früher.Der Begriff "early silicon" bedeutet keineswegs Produktionssamples. Das ist schon ein gebräuchlicher Begriff für die ersten Samples von A1/A0/A10 oder wie auch immer eine Firma das nennen will. Nicht nur LS stimmt damit überein (http://www.forum-3dcenter.org/vbulletin/showthread.php?p=8869732#post8869732).

Falls man mal ewig viele Revisionen benötigt und erst mit B3 oder C2 oder so die Produktion anfängt, dann kann "early silicon" im Rückblick auch mal nicht die allererste bezeichnen, sondern ein Sammelbegriff eben für alle frühen sein, also z.B. die A1 bis A3 oder meinetwegem auch noch B0.

Die email von nvidia spricht aber ausdrücklich von der Zukunft ("we will have early silicon this year"), man hat also noch keine Kepler-Chips von TSMC zurück (sehr wahrscheinlich aber schon andere 28nm Testchips), was bei dem von Dir für Juli vermutetem Tapeout auch vollkommen normal ist. Das dauert normalerweise mindestens 6 Wochen, bis die Wafer durch die Fab gelaufen sind.

LovesuckZ

2011-08-06, 13:00:57

Was mich verwundert, ist die Freizügigkeit. Da wird einfach mal so eine solche Meldung rausgegeben. Könnte man fast meinen, dass wir in diesem Jahr einen g92 auf 28nm sehen...

GF104 zeigt einen Weg.

Ist nicht effizienter. Der Grund für die Veränderung lag wohl eher in der Verdrahtungslogik. Immerhin sind es nur 2 GPC und 8 Geometrieinheiten, die untereinander kommunizieren müssen.

AnarchX

2011-08-06, 13:12:53

25% größere SMs bei 50% mehr SP-Peak und fast 100% mehr Tex-Peak.

Oder sollte Kepler allein durch 28nm mehr als 100% Leistung gewinnen gegenüber GF100?

Gipsel

2011-08-06, 13:16:44

Entscheidend ist, was hinten rauskommt, hat schon mal ein Altkanzler gesagt. Und das ist pro Transistor eben nicht wirklich mehr.

Und mehr als 100% muß 28nm doch gar nicht bringen, die 100% wären doch schon mal okay. Bei den 3x DP-Perf/W von Kepler gegen Fermi muß man erstmal sehen, was nv, damit genau gemeint hat und was da verglichen wird, den HPL-Benchmark auf dem Topmodell von Kepler mit dem ersten Fermi-Tesla (die GF110 basierte M2090 ist inzwischen ja besser)?
Fermi hängt bei HPL (DGEMM dominiert) momentan bei ~65% Effizienz. Da kann nv auch mit einer kleinen Architekturänderung an den Caches/SM/Registerfiles auf 90%+ wie die Radeons kommen, dann hast Du dann schon bald Deine fehlenden ~50%.

Skysnake

2011-08-06, 13:17:54

Ist das mit den 100% jetzt eine Ansage, oder eine Frage?

Zur absoluten Leistung von Kepler gibt es ja nur die Aussage von ~1,4 TFlops in DP-Leistung. Hab ich die Tage zumindest wo gelesen.

LovesuckZ

2011-08-06, 13:20:46

25% größere SMs bei 50% mehr SP-Peak und fast 100% mehr Tex-Peak.

Und macht sich genau wo bemerkbar? GF110 ist 44% größer bei ca. 41% durchschnittlicher Mehrleistung. Und redet man über Geometrieleistung ist GF110 weitaus schneller als diese 44%.

Hugo78

2011-08-06, 13:39:42

@Gipsel

Da NV aktuell den schnellsten Chip hat, wird Nvidias Marketing Abteilung doch den Teufel tun und den Fokus schon auf Kepler legen.

Nachdem Chris A. Malachowsky als Co Founder von Nvidia, mit "shipping at end of the year" sehr hohe Erwartungen geweckt hatte,
musste Ken Brown als PR-Sprecher seine Worte gut gewählen um diese Erwartung wieder zudämpfen, um so nicht die aktuellen Verkäufe zu gefährden.

Gipsel

2011-08-07, 21:17:26

Gerade im B3D-Forum gesehen (http://forum.beyond3d.com/showthread.php?p=1572761#post1572761), es gibt Aussagen zum Umbau des Jaguar-Clusters mit Bulldozer und Kepler-GPUs zu Titan (Upgrade von Cray XT5 auf XK6):
http://www.olcf.ornl.gov/wp-content/uploads/2011/07/TitanWebinar.pdf

Final System
* 2nd half of 2012.
* 2nd socket in each XK6 board populated with Kepler GPU.
* Precise timeline unknown at this time.
Die Ausstattung mit den Bulldozer-CPUs beginnt übrigens in der dritten Septemberwoche. Nur die Kepler kommen eben erst später, bis dahin testen die ~5% des Clusters mit Fermi-Karten (10 Racks, knapp tausend Teslas x2090).
Und weiter:
If we work backwards from ORNL's claim of 20PF and the leaked Bulldozer clock speeds of ~2.3Ghz for the 16-core parts the peak DP flops on Kepler doesn't look so outstanding.

Interlagos: 2.3Ghz * 200 cabinets * 96 CPUs * 8 FPU * 4 FMA =~ 2.8PF.
Kepler: 17.2PF / (200 cabinets * 96 GPUs) =~ 0.9 TF per GPU.

The Fermi based x2090 is already at 0.66 TF per GPU.

LovesuckZ

2011-08-07, 21:40:54

Immerhin - der Stromverbrauch wird wohl nicht bei 238 Watt liegen pro Kepler Karte. :D

Skysnake

2011-08-07, 23:18:52

boxleitnerb

2011-08-07, 23:20:53

0,66 ist Fermi.

Gipsel

2011-08-07, 23:28:28

hm... ich muss den Beitrag nochmal raus suchen, in dem es hieß Kepler 1,4 TFlop/s DP Leistung.

Ok, hab gesucht wie blöd, find ihn aber einfach nicht mehr -.- ich muss mir so was echt sichern....

0,66 TFlop/s wären auf jeden Fall nicht sonderlich berauschend, auch wenn die Leistungsaufnahme extrem nach unten gehen würde. Die PCI-E Slots bleiben einfach beschränkt.
0,66 TFlop/s machen die GF110 Teslas (2090). Nach den Daten vom Titan-Cluster rechen die momentan wohl maximal mit nem knappen TFlop/s für Kepler. Wenn das Ding dann <~200W verbraucht, schafft nv doch das Versprechen von ~5-6 GFlops/W. Die 1,4TFlop/s kamen doch nur über zwei Ecken aus der 3fachen DP-Leistung/Watt (wo man nicht genau weiß, wie das gemeint ist), die standen nirgendwo mal explizit.

Ein Verbrauch von <~200W wäre dort übrigens ziemlich wünschenswert bei 96 davon in einem Rack.
96*200W+96*100W für die 16Kerner BD sind schon alleine 30kW pro Rack, das ist schon sportlich. Die Interconnectgeschichten, RAM usw. kommen ja noch dazu.

Dural

2011-08-08, 01:13:35

interessant finde ich eher das die AMD und keine Intel CPUs verwenden, die stecken das Geld wohl lieber in die Tesla Karten :) oder die AMD sind wirklich mal gut ;)

0,9TF DP / 1,8TF SP (das ist theoretisch eine etwas bessere GTX580) klingen für mich aber nicht nach rund 1000SP... das muss schon eine beschnittene GPU sein... oder wohl einfach das min. was NV versprechen kann, derzeit...

12x64 = 768SP @ 1200MHz = 1.8TF SP ;)

ich tendiere derzeit aber eh nicht nach doppelten einheiten im vergleich zum GF110, das risiko geht NV bei 28nm nach GT200 und GF100 wohl kaum ein...

Gipsel

2011-08-08, 01:30:14

interessant finde ich eher das die AMD und keine Intel CPUs verwenden, die stecken das Geld wohl lieber in die Tesla Karten :) oder die AMD sind wirklich mal gut ;)
Cray benutzt schon eine Weile Opterons. Bei einem Umstieg müßten die ihre Vernetzung neu gestalten, die direkt an HT ankoppelt und mit extra Prozessoren (Seastar, ist praktisch eine PowerPC-CPU mit ein wenig proprietärem Cray-Zeugs und HT-Interface, eigenem Speicher und einem 6-Port-Router für die Ankopplung nach außen, mit den 6 Ports kann man gut vernetzte 3D-Topologien basteln oops, das heißt jetzt Gemini, hat 2 HT-Ports und einen deutlich größeren Router mit 48 Ports) die Kommunikation über die üblichen Schnittstellen (wie z.B. MPI) beschleunigen.
Ich denke mal, für so ein Projekt würde Intel sogar eine QPI-Lizenz rausrücken ;)

Hugo78

2011-08-08, 06:16:51

Beziehen sich die 20PF auf den LINPACK?
Da gäbe es ja einen markanten Unterschied zwischen Rmax und Rpeak.

Skysnake

2011-08-08, 09:21:21

Cray benutzt schon eine Weile Opterons. Bei einem Umstieg müßten die ihre Vernetzung neu gestalten, die direkt an HT ankoppelt und mit extra Prozessoren (Seastar, ist praktisch eine PowerPC-CPU mit ein wenig proprietärem Cray-Zeugs und HT-Interface, eigenem Speicher und einem 6-Port-Router für die Ankopplung nach außen, mit den 6 Ports kann man gut vernetzte 3D-Topologien basteln oops, das heißt jetzt Gemini, hat 2 HT-Ports und einen deutlich größeren Router mit 48 Ports) die Kommunikation über die üblichen Schnittstellen (wie z.B. MPI) beschleunigen.
Ich denke mal, für so ein Projekt würde Intel sogar eine QPI-Lizenz rausrücken ;)
DA wäre ich mir gar nicht so sicher! Intel zickt da wirklich extrem rum, was die Sachen angeht. Zudem bekommst du für Pi-mal-Daumen 100k€ (glaub ich warns) nur einen groben Einblick in QPI. Den wirklich tiefgehenden, wie bei HT bekommst du für "kein" Geld der Welt. Vor QPI gab es ja z.B. auch FPGAs für Intel Sockel, seit QPI gibt es meines Wissens nach gar keinen mehr, oder zumindest von den ganzen Firmen die das davor gemacht haben nicht mehr. Zudem ändert Intel halt nach Lust und Laune Sachen an QPI. Da hast du keine Stabilität in der Entwicklung... Wobei man muss sagen, es soll meines Wissens nach wieder ein FPGA für einen neuen Intel sockel geben, aber genaues hab ich dazu jetzt nicht verfügbar.

AMD hat mit HT halt einen echten Vorteil! im HPC Bereich. Man kann einige FPGAs über HT betreiben, man kann seinen eigenen NIC entwickeln wie Cray und man kann halt auch z.B. die Latenzen nochmals etwas mehr drücken für NICs im Vergleich zu PCI-E. Extoll (http://www.extoll.de/) ist da z.B. auch ein NIC mit extrem niedrigen Latenzen, der über HT funktioniert. Das tolle dabei, die sind niedriger als bei Myrinet und wie Sie alle heißen :biggrin:

Zudem stehen die Opterons was FP-Leistung angeht von den theoretischen Werten besser da als die aktuellen Intel (wenn ich mich gerade nicht schwer täusche). Das sollte sich auch relativ gut in reale Leistung umsetzen lassen.

fondness

2011-08-08, 10:03:10

interessant finde ich eher das die AMD und keine Intel CPUs verwenden, die stecken das Geld wohl lieber in die Tesla Karten :) oder die AMD sind wirklich mal gut ;)

Es ist kein Zufall das 1/3 aller Top 100 Supercomputer einen Opteron beinhalten. Im HPC-Markt ist AMD nach wie vor besser aufgestellt als Intel, schon aktuelle Opterons erreichen > 1 DP FLOPs/Watt, Intel bleibt da deutlich darunter.

Gipsel

2011-08-08, 10:48:37

Beziehen sich die 20PF auf den LINPACK?
Da gäbe es ja einen markanten Unterschied zwischen Rmax und Rpeak.Die sprechen im pdf von Peak, nicht Rmax, also wohl eher theoretische Peak-Leistung. Im gleichen Pdf heißt es auch ~9x so viel Leistung (als Unterpunkt bei 20 PF Peak) wie der jetzige Jaguar, der bei 1.76 PFlop/s Rmax und 2.33 PFlop/s Rpeak steht. Man könnte spekulieren, ob die Angabe "10-20 PF Peak" als untere Grenze RMax einschließt. Fände ich dann aber fast schon ein bißchen wenig bei den von nv versprochenen Verbesserungen bei LinPack. Vielleicht meinen die 10 PFlop/s auch den Wert bei einer alternativen Ausstattung mit Fermis?

Hugo78

2011-08-08, 11:21:03

Ja gut andersrum wäre es halt stimmig, wenn man auf nur 0,9 für Rmax kommt, welcher ja aktuell so run ~60% des Peak ausmacht.

Aber so bliebe nur noch, dass Cray dann einfach nicht den schnellsten Ausbau von Kepler nutzt.
Die High End Teile haben ja meist nicht den "Sweet Spot" im Sachen Perf/W.

edit:
Und eventuell könnte man einen M3050 (als vermeindlichen Nachfolger vom M2050) auch schneller liefern.

Gipsel

2011-08-08, 11:59:33

Eine andere Idee habe ich gerade im B3D-Forum beschrieben (http://forum.beyond3d.com/showthread.php?p=1572934#post1572934).

Wenn erst mal nur die Hälfte aller GPUs bestückt würden, plant nvidia doch mehr als 0,9TFlop/s in DP.

Die Titan-(Cray XK6-)Racks sind übrigens für insgesamt maximal 54kW ausgelegt. Da müssen 96 CPUs, 96GPUs und 48 Kommunikationsprozessoren reinpassen (und natürlich RAM, alle Wandlerverluste + etc. pp.). Insofern würde das Design wohl vielleicht gerade so 300W GPUs verkraften (Die Kommunikationsprozessoren haben in der luftgekühlten Version nur Alu-Kühler, der Rest Kupfer).

Edit:
Eins der Interviews mit den 30 PFlop/s (gibt mehrere) (http://blogs.knoxnews.com/munger/2011/07/ornls-titan-could-become-30-pe.html):
As for the size of Titan and its capabilities, Mason said that'll depend on Congress and the funding that becomes available.

"We think we can get to 30 (petaflops) when it's fully built up," he said. "Now how quickly we get there will depend on what happens in the budget discusions and so forth. But it'll be somewhere in the 10 to 30 petaflops (range), depending on the funding and how quickly we can populate these GPU slots."

Is it conceivable that Titan could become a 30-petaflops machine in 2012?

''It's all dependent on money," Mason said.

Also dann nochmal neu 30 PFlop/s mit 19200 GPUs und 19200 16core-BDs:

BD: 8 FPUs*4 FMAs*2 Flops*2,5 GHz = 160 GFlop/CPU = 3,07 PFlop/s
Bleiben ~27 PFlop/s für 19200 GPUs => 1,4 TFlop/s pro GPU.

@Skysnake: Da sind sie wieder, die 1,4 TFlop/s ;)

Dural

2011-08-08, 12:12:21

1,8TF in DP ist etwas sehr viel, meinst du nicht auch? :rolleyes:

Da müssten 1024SP ja schon mit rund 1800MHz takten um das zu erreichen :rolleyes:

Gipsel

2011-08-08, 12:24:50

1,8TF in DP ist etwas sehr viel, meinst du nicht auch? :rolleyes:

Da müssten 1024SP ja schon mit rund 1800MHz takten um das zu erreichen :rolleyes:
Ich habe das mal an die Aussage "somewhere in the 10 to 30 PF range" angepaßt. Die Sache mit der halben Bestückung liegt dann wohl etwas unter 20 PFlops. Da aber im auf der Vorseite verlinkten pdf davon gesprochen wird, daß der Zeitraum unklar ist, und offensichtlich auch das Budget (vielleicht liegt es deswegen ja auch für die zweite Hälfte 2012 an), gibt es da wohl auch nur die 10-20 PFlops Angabe für die erste Ausbaustufe.

Skysnake

2011-08-08, 17:47:55

Sehr interessant Gipsel! :)

Ich glaub in dem Zusammenhang sind sogar mal die 1,4 DP TFlop/s gefallen. Was ich allerdings weniger nice finde, ist die folgende Aussage:

depending on the funding and how quickly we can populate these GPU slots.

Das es vom Geld abhängt ist ja klar, wobei die Gelder ja schon eingeplant sein sollten... Wird Kepler etwas teurer als erwartet?

So wirklich Bauschmerzen, macht mir aber der Teil, das es auch davon abhängt, wie schnell man die GPU-Slots füllen kann. :ugly: WTF? Paperlaunch/Fermi 2.0 bzgl. der Verfügbarkeit oder was??? Ich hoffe doch mal WIRKLICH NICHT!

Ich hab aber auch noch etwas "Neues" von der ISC2011 in Hamburg:

Sehr geehrter Herr X,

danke für Ihr Interesse. Leider durfte der Vortrag nicht aufgezeichnet
und veröffentlicht werden. In diesem Fall können wir nicht weiter
helfen.

Viele Grüße,
Y

Am 07.08.2011 um 00:41 schrieb X

> Sehr geehrte Damen und Herren,
>
> ich habe mit sehr großem Interesse ihre Liveübertragungen von der
> ISC2011 in Hamburg gesehen. Leider musste ich feststellen, dass der
> Beitrag von nVidia nicht übertragen wurde. Wäre es eventuell möglich,
> eine Aufzeichnung, die Folien der Präsentation oder etwas derartiges
> zu erhalten? Wenn ich mich recht erinnere, war dieser Beitrag von
> nVidia in der HotSession2.
>
> Ich bedanke mich bereits im Voraus für ihre Mühen.
>
> Mit freundlichen Grüßen
>
> X
>
> _______________________________________________
> Lecture2Go Team
> http://lecture2go.uni-hamburg.de

---

Y
Regionales Rechenzentrum der Universität Hamburg
Medienkompetenzzentrum

Web: http://lecture2go.uni-hamburg.de

Ich denke mal, darüber, was das jetzt bedeutet, lässt sich mehr als vorzüglich spekulieren ;)

Ich für meinen Teil hol mir schon mal einen Kaffee :biggrin:

LovesuckZ

2011-08-08, 17:51:43

Gipsel

2011-08-08, 18:41:38

Wieso? Die Verfügbarkeit von fermi war doch klasse. Schon in der TOP500 der Supercomputer für 1.h 2010 war ein System mit Fermi-Karten ganz vorne vertreten.

Es geht bei denen wohl eher darum, wie schnell die Umstückung dauert. Immerhin müssen die Systeme ausgebaut, bestückt, getestet und wieder integriert werden.
Das dauert bei der Umrüstung auf die Bulldozer auch nur von Mitte September bis irgendwann im Dezember. Dabei wird ja noch viel mehr umgerüstet (die kompletten Racks von einer XT4/XT5 Mixtur auf XK6 inklusive dem neuen Gemini Interconnect, die müssen da also alles neu verkabeln usw.). Damit das Ding nicht komplett stillsteht, wird ab der 3. Septemberwoche die Hälfte der Racks auf XK6 umgestellt. Damit sind die bereits Ende Oktober fertig, also in ~6Wochen (inklusive Tests). Danach kommt die zweite Hälfte dran (während die erste schon wieder rechnet) und wird schließlich im Dezember mit der ersten Hälfte zusammengeschaltet und nochmals getestet (während dieser Tests des Gesamtsystems ist kein Nutzerbetrieb möglich). In der zweiten Hälfte enthalten 10 Racks übrigens bereits Fermi-Teslas (wohl als Test, damit die Leute sich schon mal ein halbes Jahr damit vertraut machen können).

Dagegen ist das Dazustecken der Kepler-GPUs ja fast ein Klacks. Rack aus, die GPUs reinstecken, Kühler drauf, Rack wieder an, Test. Das sollte eigentlich viel schneller gehen, als die komplette Infrastruktur umzubauen.

Meine Vermutung ist eher, das neben der vielleicht im Moment noch unklaren Verfügbarkeit (wobei das in H2 2012 kein Problem mehr sein sollte), hauptsächlich das Geld eine Rolle spielt. Sprich, wann bekommt das ORNL die Kohle, um sich das Upgrade leisten zu können? Und wenn sie es bekommen, für wieviele Kepler-GPUs reicht es?

Hugo78

2011-08-08, 20:02:06

@Gispel (und/oder besser @Skysnake dem Schwarzmaler *g*)

Budgets sind in den USA aktuell natürlich nicht in trockenen Tüchern.
Aber in dem speziellen Fall, da Nvidia ja die Entwicklergruppe für DARPA's HPC Entwicklung leitet,
zusammen mit Cray und ONRL, da sollte ONRL die GPUs in jedem Fall bekommen, und sei es auf Pump *lol*.

H2 2012 wird einfach nur ein Datum sein, dass alle Eventualitäten einplant, zumal ja in der Vergangheit Tesla und Quadro,
immer erst nach den Geforces auf den Markt kamen.

Und das waren ja nicht paar Tage und Wochen, sondern bei den letzten Teslas der C reihe war schon im Herbst 2009 klar, dass zb. die kleine C2050 in Q2 2010 kommt und die größere C2070 erst in Q3 2010.
Da gabs ja schon entsprechend Folien damals.
Nur die Geforces waren bis zuletzt fraglich und wurden ja sicher auch von NV schon viel früher eingeplant.

Kurzum, Software/Treiberentwicklung und Qualitätstests/-sicherung für den Profibereich sind halt zeitintensive Geschichten.
Egal ob 600er Geforces jetzt anfang oder erst ende Q1 2012 kommen ...

Skysnake

2011-08-08, 20:24:38

Hugo, ich würde jetzt nicht gerade Schwarzmaler sagen, aber ich geh lieber vom schlechtesten Fall aus und lass mich positiv überraschen ;)

mapel110

2011-08-11, 01:29:09

http://www.xbitlabs.com/news/other/display/20110810153308_TSMC_Lowers_Expectations_for_28nm_Revenue_in_2011.html
TSMC Lowers Expectations for 28nm Revenue in 2011.

"The delay of the 28nm ramp up is not due to a quality issue, we have very good tape-outs. The delay of ramp up is mainly because of softening economy for our customers. So, customers delayed the tape-outs. The 28nm revenue contribution in the Q4 2011 will be roughly about 1% of total wafer revenue," said Lora Ho, senior vice president and chief financial officer or TSMC.

V2.0

2011-08-11, 06:49:01

Very good tape-outs sind nicht very good Yields.

Hugo78

2011-08-11, 06:53:56

Na sagen sie ja auch nicht, sie sprechen von durchgänig befriedigend.
We reported earlier that we had tape-outs for 89 individual products on 28nm and the tape-outs of each of those is on schedule.
The first silicon of every tape out was fully functional with consistently satisfactory yield.

Nur wird "befriedigend" noch lange nicht so hohe Yields und damit Margen abwerfen wie der laufende 40nm.
Und wenn man mit 40nm mehr Kohle macht, als mit 28nm, dann dauert es halt noch.

V2.0

2011-08-11, 07:00:45

Ailuros

2011-08-11, 11:03:51

Exakt, selbst wenn man im Erwartungsrahmen liegt und man leicht besser las bei 40nm wäre, bedeutet dies eben nicht, dass die Auftraggeber in heutigen wirtschaftlichen Lage, die gleichen Risiken hinsichtlich des Gewinns eingehen wollen oder können.

Forecasts bevor den 40G Produktions-start waren wenn ich mich nicht irre bei 4%. Das nun projezierte 1% ist laecherlich klein ueberhaupt im Vergleich zu den vorigen 4%.

Uebrigens wenn eine foundry N Anzahl von guten tape outs angibt und nirgends definiert um was es sich genau handelt sagt es mir gar nichts was hoch komplizierte high end GPU chips betrifft und schon gar nicht was yields fuer diese betrifft.

So wie es aus Taiwan schon seit einiger Zeit klingt, koennte es wieder eine Kombination von niedrigen yields und niedrigen Kapazitaeten sein, denn sonst passt das 1% auch nicht ins Bild. "Consistently satisfactory" kann in diesem Fall vieles heissen. Koennte durchaus sein dass es keine so brutalen yield Schwankungen gibt wie beim Anfang bei 40G. Beim Cypress Produktions-start gab es gelegentlich wafer die nur 4% operative chips hatten, aber das Problem bezog sich insgesamt lediglich auf eine handvoll hundert wafer. Egal wie klein aber beinflusst es doch leider den durchschnittlichen yield eines jeglichen chips wenn so etwas vorkommt.

Angenommen 28nm hat nicht solche Schwankungs-probleme bleibt abzusehen mit was verglichen "befriedigend" genau gemeint ist. Mit 65nm wohl schwer.

BlackBirdSR

2011-08-11, 12:21:40

Angenommen 28nm hat nicht solche Schwankungs-probleme bleibt abzusehen mit was verglichen "befriedigend" genau gemeint ist. Mit 65nm wohl schwer.

Das heißt übersetzt wohl nichts anderes, als gleichbleibend auf niedrigem Niveau, wobei bisherige Bemühungen nicht dazu geführt haben die Qualität maßgeblich zu steigern.

aylano

2011-08-11, 14:09:13

Forecasts bevor den 40G Produktions-start waren wenn ich mich nicht irre bei 4%. Das nun projezierte 1% ist laecherlich klein ueberhaupt im Vergleich zu den vorigen 4%.

Uebrigens wenn eine foundry N Anzahl von guten tape outs angibt und nirgends definiert um was es sich genau handelt sagt es mir gar nichts was hoch komplizierte high end GPU chips betrifft und schon gar nicht was yields fuer diese betrifft.

Eigentlich ist es schon fast heftig, dass bei 89-Tape-Outs kaum eines in Volume-Production geht. Denn somit müsste die Performance-Pro-(Watt-&-Dollar(Kosten)) des 28nm schlechter sein als die von 40nm.

Oder ander gesagt, der Performance-&-Pro-Watt-Gewinn ist geringer als die Produktionskosten-pro-mm².
Das eine Prozenterl wird vielleicht nur die Prestige bzw. Oberklassen versorgen, die sowieso überteuer verkauft werden.

Und wenn die schon nicht in Produktion gehen, wie sollen dann 350+mm²-GPUs in Produktion gehen?
Wobei die 89-Tape-Outs wahrscheinlich fast nur 28LP sind.
Nicht nur, dass dieser einfacher sein sollte, sondern dieser hätte schon im 3Q 2011 kommen sollen

http://www.xbitlabs.com/news/other/display/20110222123955_TSMC_Begins_Shipments_of_28nm_Wafers_to_Clients.html
Although TSMC yet has to confirm that it had started to ship certain 28nm chips, the information may be correct as initially TSMC wanted to start supplies of 28LP chips in Q3 2010.

Skysnake

2011-08-11, 14:15:29

Also Xilinx kommt wohl noch dieses Jahr mit ihren 28nm FPGAs, soweit ich das mitbekommen habe, und die sind auch wirklich nicht gerade klein....

Man muss halt mal schauen, wie sich die ganze Sache weiter entwickelt.

PS: Kennt niemand von euch jemanden, der auf der ISC2011 in Hamburg war, oder direkt bei nVidia? Falls doch, bitte PM an mich.

LovesuckZ

2011-08-11, 14:17:11

Eigentlich ist es schon fast heftig, dass bei 89-Tape-Outs kaum eines in Volume-Production geht. Denn somit müsste die Performance-Pro-(Watt-&-Dollar(Kosten)) des 28nm schlechter sein als die von 40nm.

Oder ander gesagt, der Performance-&-Pro-Watt-Gewinn ist geringer als die Produktionskosten-pro-mm².
Das eine Prozenterl wird vielleicht nur die Prestige bzw. Oberklassen versorgen, die sowieso überteuer verkauft werden.

Man sollte nicht alles durcheinander würfeln. Für die Produktion sind alleinig nur die Kosten für die verwendbaren Dies von Verwendung. Und diese sind natürlich beim Start eines neuen Prozesses am höhsten: Teure Wafer + deutlich niedrige Yieldrate.

Das andere sind Vorteile, die nichts mit den Kosten zu tun haben.

aylano

2011-08-11, 14:28:23

Also Xilinx kommt wohl noch dieses Jahr mit ihren 28nm FPGAs, soweit ich das mitbekommen habe, und die sind auch wirklich nicht gerade klein....

Man muss halt mal schauen, wie sich die ganze Sache weiter entwickelt.

Aber das ist LP, was meist so 3 Monate vor HP kommt/kommen soll.
Und wenn LP schon stark reduziert wird und das erst im 4Q, dann kann man die Schwierigkeiten besser erahnen.

Wobei das nicht verwundert, wenn man überlegt wie "gut" 40nm vor 2 Jahren war.

Skysnake

2011-08-11, 14:31:21

Naja, nVidia war jetzt auch nicht gerade super schnell mit dem TapeOut, wenn man dran denkt, wann AMD das schon gemacht hat.

Wie gesagt, wir sitzen alle nicht dort und können die ganzen unterschiedlichen Einflüsse die zu einem Ergebnis führen nicht beurteilen. Die Zeit wird zeigen, wo jetzt genau die Probleme liegen, und was für Konsequenzen das hat.

Gipsel

2011-08-11, 15:18:26

Aber das ist LP, was meist so 3 Monate vor HP kommt/kommen soll.
Und wenn LP schon stark reduziert wird und das erst im 4Q, dann kann man die Schwierigkeiten besser erahnen.Xilinx produziert ausschließlich in 28 HPL (wie HP HKMG, LP benutzt dagegen das althergebrachte SiON), Altera will Versionen in LP und in HP produzieren.
Xilinx sprach sogar explizit davon, daß HPL weniger yield Probleme hat, da es anders als LP und HP nur sehr simples strained silicon ohne SiGe benutzt. Sowohl LP als auch HP setzen auf recht aufwendigen SiGe strain, was durchaus Unterschiede erklären könnte (falls es daran liegt). Insofern ist das von Charlie in die Welt gesetzte Gerücht über unterschiedliche Prozesse bei Kepler (HP) und SI (HPL) durchaus interessant in diesem Zusammenhang.

Übrigens verteilt Xilinx schon seit März Samples seiner 28 HPL FPGAs (das Mainstream-Modell, die Einsteiger- und High-End kommen ab Ende August bzw. November) und für diese Mainstream-FPGAs kann man jetzt wohl schon regulär bestellen gibt es jetzt schon alle Ordering-Informationen (für die anderen beiden Linien noch nicht), Lieferbarkeit dann angeblich Q4/2011.

LovesuckZ

2011-08-11, 23:23:20

Huang:
Wir sind wesentlich besser auf 28nm vorbereitet als es bei 40nm der Fall war. Wir haben eine komplette Abteilung für diesem Prozeß. Wir haben verschiedene Test-Chips und haben "working silicon". Wir werden Produkte zum "Ramping" bringen, wenn der Prozeß bereit ist und sehen uns wesentlich besser als es bei 40nm der Fall war.

Englisch gib's morgen aus dem Transcript.

Und ein Schmankel für Skysnake:
Huang:
Unser "Marketshare" im Tesla-Markt ist gleichgeblieben. Wir haben aber auch 100% des Marktes. :D

Ailuros

2011-08-12, 00:21:31

Wehe wenn sie sich nicht besser sehen wuerden diesmal. Wenn sie nochmal hw Problem mit diesem chip haben wuerden waere es verheerend.

Verschiedene test chips deckt sich mit dem was ich selber gehoert habe.

aylano

2011-08-12, 00:33:25

Ailuros

2011-08-12, 00:40:09

Das sie aus Fehlern lernen indem sie entsprechende Abteilungen nachjustieren/optimieren, haben wohl die meisten erwartet.

Und das sie diesesmal ohne Teil-Deaktivierte Chips daherkommen.

Also, nichts neues im Westen.

Es wird eben so formuliert, dass einem das rein selbstverstaendliche einen besonderen Eindruck machen sollte.

Skysnake

2011-08-12, 02:28:35

LovesuckZ und was sind dann die ATI Karten in LoeweCES?

Geister?...

Und wenn du schon so kommen musst, kann ich dir auch mal einen GANZ interessanten Link hier posten...

http://lecture2go.uni-hamburg.de/konferenzen/-/k/12304#

Hör mal bei ~10:30 GANZ GENAU hin....

LovesuckZ

2011-08-12, 02:36:03

Ich kenn das System. Und ich weiß bis heute nicht, ob es Consumer oder Workstation-Karten sind.

Achja, nett das der Typ fragt, wieso AMD keine Bedeutung hat. Liegt wohl daran, dass die Leute auch was mit den Karten machen wollen. :D

Nicht jeder ist interessiert mit umständlichen Mittel etwas zu programmieren. Aber das ist eben die Ignoranz von Leuten, die denken, dass alles von alleine geht.

Skysnake

2011-08-12, 03:00:19

Aha, da beweist du ja wirklich extrem viel Wissen :ugly:

OpenCL unterscheidet sich von CUDA nur marginal. OpenCL ist sogar an einigen Stellen eleganter zu nutzen, ganz abgesehen, das es eben auf allem läuft...

Ist ja auch total verwunderlich... Ist ja nicht so, das OpenCL auf CUDA beruht in sehr großen Bereichen :-_-:

Und es sind die Consumer-Karten, da diese zu dem Zeitpunkt verfügbar waren. Kann aber sein, dass da noch ein Update kommt auf die 5k oder 6k Serie. Vielleicht gibt es zur nächsten ISC was neues.

Die Aussage an sich von Huang ist demnach also schon mal als Lüge entlarvt.

Mal ganz davon abgesehen, das AMD mit der 5k und der 6k Serie durchaus sehr interessante Produkte im Angebot hat, ihnen aber ECC fehlt, was Sie für viele Systeme halt ausschließt, wenn man mit Fermi eben eine Alternative mit ECC hat. Mit den nächsten GPUs hat sich dies aber erledigt, und AMD bietet erstmals eine echte Alternative. Wenn man dies berücksichtigt, hat sich AMD gar nicht schlecht geschlagen.

Auch profitiert nVidia von ihrem CUDA-Marketing aus den Anfangstagen noch SEHR stark. Das ist halt schon immer das Problem von AMD gewesen. Sie wissen nicht so recht ihre Produkte aggressiv zu bewerben. Wie aber schon an vielen anderen Stellen gesagt, nVidia hat mit dem Fermi Debakel, sorry anders kann man es nicht nennen, den Leuten die Gefahren eines einzelnen Herstellers mit propritären Schnittstellen aufgezeigt. nVidias Image-Schaden ist gewaltig. Denn der HPC Bereich hält durchaus lange an bewährtem fest, solange es keine Konkurrenz gibt, die eine signifikante Verbesserung bietet, es sei denn Sie werden enttäuscht und genau das hat nVidia vorzüglich gemacht. Ich erinnere nur an den FP-Bug bei Intel. Der wird ihnen teils noch immer sehr stark nachgetragen, und das ist nun wirklich schon ne Weile her.

Zudem, welche Erfahrung hast du denn bitte, um solche Aussagen zu tätigen?

Ich kann von mir behaupten, sowohl CUDA als auch OpenCL zu programmieren, und die Sachen geben sich nicht viel, wobei ich eigentlich lieber OpenCL nutze, da das Debugging doch etwas angenehmer ist.

Für mich klingt das aber bei dir gerade nach absolut sinnbefreitem Bashing...

LovesuckZ

2011-08-12, 03:08:49

Und es sind die Consumer-Karten, da diese zu dem Zeitpunkt verfügbar waren. Kann aber sein, dass da noch ein Update kommt auf die 5k oder 6k Serie. Vielleicht gibt es zur nächsten ISC was neues.
Die Aussage an sich von Huang ist demnach also schon mal als Lüge entlarvt.

Na dann. Wir wollen doch wohl nicht jede Consumer-Karte als "HPC" Karte gelten lassen, oder? :freak:

Mal ganz davon abgesehen, das AMD mit der 5k und der 6k Serie durchaus sehr interessante Produkte im Angebot hat, ihnen aber ECC fehlt, was Sie für viele Systeme halt ausschließt, wenn man mit Fermi eben eine Alternative mit ECC hat. Mit den nächsten GPUs hat sich dies aber erledigt, und AMD bietet erstmals eine echte Alternative. Wenn man dies berücksichtigt, hat sich AMD gar nicht schlecht geschlagen.

Stimmt. Garnicht schlecht. 0 verkaufte HPC Karten. ;D

Auch profitiert nVidia von ihrem CUDA-Marketing aus den Anfangstagen noch SEHR stark. Das ist halt schon immer das Problem von AMD gewesen. Sie wissen nicht so recht ihre Produkte aggressiv zu bewerben. Wie aber schon an vielen anderen Stellen gesagt, nVidia hat mit dem Fermi Debakel, sorry anders kann man es nicht nennen, den Leuten die Gefahren eines einzelnen Herstellers mit propritären Schnittstellen aufgezeigt. nVidias Image-Schaden ist gewaltig. Denn der HPC Bereich hält durchaus lange an bewährtem fest, solange es keine Konkurrenz gibt, die eine signifikante Verbesserung bietet, es sei denn Sie werden enttäuscht und genau das hat nVidia vorzüglich gemacht. Ich erinnere nur an den FP-Bug bei Intel. Der wird ihnen teils noch immer sehr stark nachgetragen, und das ist nun wirklich schon ne Weile her.

Und wie sich die Enttäuschung erst offenbart hat. Von Platz 5x auf Platz 1,2 und 4 der TOP500 Liste im November 2010. Gleichzeitig krallt man sich das neue Crey-System.
Und was hat der Überraschungskandidat AMD erreicht? Na, einen Anstieg von 7 auf 22.

Zudem, welche Erfahrung hast du denn bitte, um solche Aussagen zu tätigen?

Welche Erfahrung hast du denn gemacht, die uns dazu führen, dass AMD eine Alternative darstellt, die die Leute auch haben wollen?!
Ich muss nicht programmiert haben, um Zahlen interpretieren zu können.

Ich kann von mir behaupten, sowohl CUDA als auch OpenCL zu programmieren, und die Sachen geben sich nicht viel, wobei ich eigentlich lieber OpenCL nutze, da das Debugging doch etwas angenehmer ist.

Für mich klingt das aber bei dir gerade nach absolut sinnbefreitem Bashing...

Das ist eben dein Problem: Ich <> Welt.
Es geht wie bei Quadro nicht um, das mögliche. Sondern einzig um das vorhandene. Sowie bei GPU-Physik. Ja, es ist auch dank OpenCL auf AMD möglich. Aber das bringt nichts, wenn es weder ausgereift noch unterstützt wird.

Es geht eben nicht von alleine. So simpel.

Skysnake

2011-08-12, 03:37:20

Was auf einer Karte drauf steht ist doch absolut fürn Poppes... Es kommt drauf an, für was etwas eingesetzt wird, und da hat nVidia eben definitiv NICHT 100% des Marktes. Zudem hat AMD eben atm keine explizite HPC Karte, dennoch sind Sie im HPC-Markt vertreten. Die FirePro, oder wie Sie jetzt heißen, sind auch gar nicht so unbeliebt.

Das AMD nicht in den Top Systemen vertreten ist, ist auch kein Wunder. Ihnen fehlt ECC. nVidia bietet ECC, zu was wird man also bei großen Systemen greifen? Ah ja genau, hab ich ja schon gesagt, zu nVidia.
Ändert sich etwas an dieser Situation? Ah ja richtig, hab ich ja schon gesagt... Ja dieser Punkt fällt mit der nächsten Generation weg. Erst danach kann man wirklich sagen, wie die Marktposition von AMD realistisch aussieht, da eben nicht für >=50% des Marktes eben ein Keyfeature fehlt, das nicht zu ersetzen ist.

Die 5k und 6k Serie sind z.B. bei SP Brutforce Sachen deutlich performanter als jedwede nVidia Karte. Da können Sie nämlich ihre Stärken voll ausspielen, und ECC juckt da eigentlich keine Sau. Auch ansonsten gibt es eben Unterschiede zwischen beiden Produkten. Wie es auch Unterschiede zwischen GPUs und CPUs gibt. Es gibt Sachen, die laufen auf dem einem besser, und es gibt Sachen, die laufen auf dem anderen besser.

Und was interessiert PhysX etc. bei ner Quadro oder einer Tesla-Karte? Das musst du mir mal erklären. Sorry, aber das interessiert da keine Sau. Der Fortran Support ist für manche noch nett bei nVidia, genau wie der C/C++ Support, aber das wars dann auch.

Die Standardbibs gibt es inzwischen auch für OpenCL, und das Wachstum hier ist auch höher als bei CUDA, da eben alle dran arbeiten, und kein Entwickler abgeschreckt wird, dadurch, das 50% vom Markt schon mal per se ausgeschlossen sind.

Und Lovesuckz, was Accelerated Computing angeht, hast du dir leider wirklich absolut den falschen ausgesucht um irgendwelchen Quatsch zu verzapfen. Die Sache ist für mich seit mehreren Semestern mein Steckenpferd, und ich hatte mitm genug Leuten aus dem Bereich auch schon sehr interessante Gespräche, wie eben dem Prof Lindenstruth, der für den LoeweCES verantwortlich ist, und der Mann hat es gewaltig drauf. Was er sich da mit seinen Leuten zusammengebaut hat ist wirklich beeindruckend, da er eben als Vorreiter daher kam/kommt.

Und wie gesagt, mit GCN fällt ein gewaltiger Vorteil von nVidia weg. Allein durch die Features werden Sie sich nicht mehr von AMD absetzen können. Nach allem was man bisher über GCN und Kepler gehört hat, wird da Gleichstand herrschen, was die Features angeht, mit einer kleinen Chance, das sich das Blatt eben gewendet hat und AMD die bessere Implementierung bietet als nVidia, da Sie eben eine komplette Plattform bieten können und so alles aufeinander abstimmen können.

Und bzgl. "dein Problem":
Das ist wohl eher DEIN Problem. Du siehst nur was du sehen willst, und kehrst dabei sehr viele Faktoren, die dir in dein Weltbild nicht passen einfach unter den Teppich, die aber mit entscheidend sind für die aktuelle Situation, wie eben das Fehlen von ECC, UND sich auch noch bekannter weise in absehbarer Zeit völlig ändern werden.

LovesuckZ

2011-08-12, 03:49:47

Was auf einer Karte drauf steht ist doch absolut fürn Poppes... Es kommt drauf an, für was etwas eingesetzt wird, und da hat nVidia eben definitiv NICHT 100% des Marktes. Zudem hat AMD eben atm keine explizite HPC Karte, dennoch sind Sie im HPC-Markt vertreten. Die FirePro, oder wie Sie jetzt heißen, sind auch gar nicht so unbeliebt.

Ja - mit jeder x-beliegen Karte. Dann gibt es keinen HPC Markt. Damit kann ich mitgehen.

Das AMD nicht in den Top Systemen vertreten ist, ist auch kein Wunder. Ihnen fehlt ECC. nVidia bietet ECC, zu was wird man also bei großen Systemen greifen? Ah ja genau, hab ich ja schon gesagt, zu nVidia.
Ändert sich etwas an dieser Situation? Ah ja richtig, hab ich ja schon gesagt... Ja dieser Punkt fällt mit der nächsten Generation weg. Erst danach kann man wirklich sagen, wie die Marktposition von AMD realistisch aussieht, da eben nicht für >=50% des Marktes eben ein Keyfeature fehlt, das nicht zu ersetzen ist.

Nochmal: Software. Hardware ist belanglos. Siehe Quadro-Markt.

Die Standardbibs gibt es inzwischen auch für OpenCL, und das Wachstum hier ist auch höher als bei CUDA, da eben alle dran arbeiten, und kein Entwickler abgeschreckt wird, dadurch, das 50% vom Markt schon mal per se ausgeschlossen sind.

Und OpenGL wird von 100% des Marktes unterstützt und trotzdem hält nVidia 85%+ im lukrativen Workstationmarkt. Du denkst, nur weil es standardisierte offene APIs gibt, ist es ein Erfolgsgarant? Das ist ein ziemlicher Irrglaube.

Und Lovesuckz, was Accelerated Computing angeht, hast du dir leider wirklich absolut den falschen ausgesucht um irgendwelchen Quatsch zu verzapfen. Die Sache ist für mich seit mehreren Semestern mein Steckenpferd, und ich hatte mitm genug Leuten aus dem Bereich auch schon sehr interessante Gespräche, wie eben dem Prof Lindenstruth, der für den LoeweCES verantwortlich ist, und der Mann hat es gewaltig drauf. Was er sich da mit seinen Leuten zusammengebaut hat ist wirklich beeindruckend, da er eben als Vorreiter daher kam/kommt.

Ich sage überhaupt nichts über diese Leute.
Ich würde aber gerne Wissen, ob er sich auch dann für AMD entschieden hätte, wenn er für den selben Preis nVidia-Karten bekommen hätte, die bei der DP-Leistung mithalten.

Und wie gesagt, mit GCN fällt ein gewaltiger Vorteil von nVidia weg. Allein durch die Features werden Sie sich nicht mehr von AMD absetzen können. Nach allem was man bisher über GCN und Kepler gehört hat, wird da Gleichstand herrschen, was die Features angeht, mit einer kleinen Chance, das sich das Blatt eben gewendet hat und AMD die bessere Implementierung bietet als nVidia, da Sie eben eine komplette Plattform bieten können und so alles aufeinander abstimmen können.

Du kennst doch garnichts über Kepler. Und trotzdem fängst du schon an Aussagen zu treffen, die einfach nur auf Glaube basiert.
Vielleicht sollte man einfach abwarten?

Und bzgl. "dein Problem":
Das ist wohl eher DEIN Problem. Du siehst nur was du sehen willst, und kehrst dabei sehr viele Faktoren, die dir in dein Weltbild nicht passen einfach unter den Teppich, die aber mit entscheidend sind für die aktuelle Situation, wie eben das Fehlen von ECC, UND sich auch noch bekannter weise in absehbarer Zeit völlig ändern werden.

Und dann fehlt irgend ein anderes Feature, dass man als Ausrede heranzieht.
Sage doch einfach, wieso die Leute plötzlich AMD anstatt nVidia einbauen sollten, wenn AMD erst jetzt mit Software und Hardware erscheint, aber eine schlechtere Infrastuktur hat? Denkst du, die gehen alle umsonst soviel Geld aus?

Gipsel

2011-08-12, 04:11:41

Könnten wir bitte das Gestreite hier sein lassen?

Ansonsten kommen noch die Argumente, daß nvidia zwar 100% des Tesla-, Quadro und Geforce-Maktes hat, aber AMD dafür immerhin auch 100% des Firestream, Firepro- und Radeon-Marktes. :freak:

Achja LS, es gibt durchaus Leute, die sehen AMD-Karten als Alternative und wollen darauf unbedingt ihre Codes laufen lassen. Und zwar aus dem einfachen Grund, daß für einige Sachen die eben deutlich schneller sind.
Und da muß man auch nicht BitCoin-Mining (wie groß ist da der Performanceunterschied unter OpenCL? Faktor 4 oder so?) oder die zwei, drei BOINC-Projekte mit ATI-Support rausholen, ich behaupte mal ganz frech, daß sogar die Kepler-Teslas Mühe haben werden, z.B. bei einer exact-force-calculation Molekulardynamik-Simulation*) die Performance eines Cypress oder Caymans zu übertreffen.
Einfache Faustregel: massiv (daten-)paralleles brute-force-Numbercrunching => Du willst als eine AMD-GPU (gibt noch ein oder zwei Gründe mehr, aber es soll ja einfach bleiben)

Und bevor Du damit anfängst, Du würdest Dich wahrscheinlich wundern, wieviel ohne ECC gerechnet wird, auch bei CPU-Code. Sehr viele wenn nicht sogar die meisten Theoretiker rechnen nämlich gar nicht auf Clustern sondern auf stinknormalen PCs ;)

*)
Für Skysnake: heißt manchmal auch direct summation, also kein cutoff, kein Treecode, bei dem dann ~1% Fehler der Kräfte rauskommen sondern wirklich die Berechnung aller Kräfte zwischen allen Teilchen. Das skaliert zwar mies [O(N²)], aber das ist eben der Preis, den man für den Verzicht auf Näherungen zahlen muß. Übliche Treecodes werden übrigens auch erst irgendwo bei 50k oder mehr Teilchen schneller, die schleppen ganz schön Overhead mit sich rum.

Ailuros

2011-08-12, 08:22:01

Koennen wir bitte die Diskussion wieder zu Kepler und/oder Maxwell zuruecksteuern?

Hat irgend jemand einen Einblick und darf etwas ueber DX11.1 bzw. DX12 schon etwas sagen oder will es noch keiner wagen?

Ein sehr grobes Bild ueber 11.1 konnte ich schon bekommen; so wie es aussieht duerfte es sich zwar um einen update handeln aber etwas erweitert als zwischen 10 und 10.1. Unter normalen Umstaenden sollten IHVs kein Problem haben auch 11.1 zu unterstuetzen und es wuerde mich sehr wundern wenn Kepler nicht 11.1 sein wuerde oder im schlimmsten Fall verdammt nahe daran.

Fuer DX12 hoerte ich von einer kompletten tabula rasa momentan, welches mir verdammt merkwuerdig klingt. Jeglicher Fetzen ueber das obrige ist aeusserst willkommen. Wenn ja koennen sich die IHVs nicht einig werden oder schlampert Microsoft einfach?

boxleitnerb

2011-08-12, 08:49:25

Tabula Rasa in welcher Richtung? Raytracing?

Skysnake

2011-08-12, 09:41:13

Ja, das kenn ich ;)

Wir hatten uns auch die Frage gestellt, ob wir den Barnes-Hut-Algorithmus verwenden sollen bei unserer n-Body Simulation. Haben uns dann aber doch für eine Sim ohne Näherung entschieden, und die Kommunikation etc. an sich optimiert. Das ging einfacher und schneller, da wird das schon vorher machen mussten für net Mat-Mul im Prinzip :D Und ja, der Overhead ist wirklich übel bei Barnes-Hut :ugly:

Und Gipsel, ja das mit den Theoretikern stimmt :biggrin: Ich hab auch schon einen Cluster aus so kleinen Cubes gesehen :D sieht sehr lustig aus, so ein komplettes regal und die Dinger immer doppelt übereinander stehend. Müssen wohl Mini-ATX/ITX Boards gewesen sein. War von nem Mathematiker.

Ich meinte jetzt mit Brute-Force aber eher Berechnung von Hash-Werten etc. wo man halt extrem wenig Kommunikation zwischen den einzelnen Teilen hat und auch die Datenlokalität sehr hoch ist. Die HD5k und 6k haben einfach zu viel Rechenleistung im Verhältnis zur Datentransferbandbreite. Daher bekommt man auch öfters einfach nicht die Power auf den Boden leider. Ist bei nVidia aber auch so, nur eben nicht so stark ausgeprägt, da Sie bei SP halt um einen Faktor ~2 hinterher hinken. Bei DP ist der Verlust bei den 5k und 6k dann gar nicht mehr so groß.

Bzgl. ECC:
Das stimmt schon, das viele ECC gar nicht verwenden, aber da bezieht sich das viele halt auf die Leute in den Instituten etc. Hab auch bei uns in der Uni geschafft, haben haben ich mit einem geredet, und der hat mir erzählt, das auf 90% der Servern ECC aus ist, weil man es nicht braucht, und ansonsten immer schauen muss was denn nun alles so passiert ist, weil sich die Leute dann natürlich auch drauf verlassen das es immer alles korrekt funktioniert. So gehen Sie halt auf die paar Maschinen wenn Sies brauchen und gut ist.

Für die ganz großen Cluster, die halt in den TOP500 stehen, kannst du das aber eigentlich kaum bringen, es sei denn dein Nutzungsumfeld ist ganz klar umrissen und du kannst damit leben, das es kein ECC gibt, bzw. kannst die doppelte theoretische SP Leistung nutzen und rechnest die Sachen einfach 2 mal :biggrin:

Naja, ich gehe daher davon aus, dass die Leistung sowohl bei AMD als auch bei nVidia pro Karte von den theoretischen Werten nicht sooo stark ansteigen wird, dafür aber nochmals die Caches halt aufgeblasen werden und Interconnect, damit man einfach die Leistung besser auch auf den Boden bekommt. GPUs müssen nämlich auch mit dem Vorurteil kämpfen, dass man grad mal so 1/5 der theoretischen Leistung umgesetzt bekommt. Das trifft zwar auf einige Arten von Anwendungen zu, aber durch Hirnschmalz und andere Algorithmen, die die Datenlokalität erhöhen, kann man da doch einiges noch reißen. GPUs sind halt keine Allround-Wunderwaffen :rolleyes: Für manche Sachen sind Sie genial und für andere absolut unbrauchbar, daran wird sich auch nichts ändern, da Konzeptbedingt.

EDIT:

BTT:
Gipsel, was hast du denn über 11.1 und 12.0 schon gehört? Mir ist da absolut noch nichts zu Ohren gekommen leider :(

Die nächste OpenCL Version kommt aber auf jeden Fall noch dieses Jahr. Mir wurde gesteckt, etwas Zeitgleich mit ner neuen GPU. Leider wohl kein nVidia.

Naja, 11.1 wird sicherlich irgendwelche Sachen für Ivy Bridge enthalten. Intel hat da sicherlich ein paar nette Sachen, die Sie dann drin haben wollen. Zudem verkauft es sich dann auch einfach gut. Ich sehe schon die Sprüche ala "Kaufen Sie Ivy Bridge, die erste iGPU mit DX 11.1!!!!1111111einseinself"

y33H@

2011-08-12, 10:58:18

Laut Roadmap ist IB 11.0 und Haswell 11.1 ;)

Ailuros

2011-08-12, 11:26:33

Tabula Rasa in welcher Richtung? Raytracing?

Afaik bevor Microsoft und IHVs fuer eine API Version und dessen Inhalt abstimmen gibt es mehrere drafts wo es von allen Seiten pro und contra Vorschlaege gibt fuer's neue API. Im gegebenen Fall verstehe ich unter tabula rasa dass noch gar nichts handfestes vorliegt, welches aber wie gesagt ziemlich merkwuerdig und auch beunruhigend ist.

Ich weiss zwar nicht fuer wann 12 genau projeziert ist momentan, aber ich bezweifle dass es bis jetzt je so aussah in der Vergangenheit.

LovesuckZ

2011-08-12, 11:27:02

Hans Mosesmann - Raymond James & Associates, Inc.

And if I can, just a quick follow-up. 28 nanometer, how does that look relative to 40-nanometer? That was a tough industry transition. Can you give comment there?

Jen-Hsun Huang

28, we are far, far better prepared for 28 than we were for 40. Because we took it so much more seriously. We were successful on so many different nodes for so long that we all collectively, as an industry, forgot how hard it is. And so one of the things that we did this time around was to set up an entire organization that is dedicated to advanced nodes. And we've had many, many tests chips run on 28-nanometer. We have working silicon and, momentarily, about to go to production with 28-nanometer. And it's looking really good, it's looking much, much better than our experience with 40-nanometer. It's just a comprehensive, across-the-board engagement between TSMC and ourselves, and making sure that we're ready for production ramp when the time comes. So I feel really good about 28.
http://seekingalpha.com/article/286901-nvidia-s-ceo-discusses-q2-2012-results-earnings-call-transcript?part=qanda

Botcruscher

2011-08-12, 13:17:28

Alles wird gut. :rolleyes:Wie belastbar die Aussage ist muss sich im Laden beweisen.

Ailuros

2011-08-12, 13:39:01

Alles wird gut. :rolleyes:Wie belastbar die Aussage ist muss sich im Laden beweisen.

Ich kann es durchaus glauben dass sie diesmal dafuer gesorgt haben dass mit der Architektur nichts schief gelaufen ist. Wenn jetzt TSMC irgendwelche Kapazitaets- bzw. yield Probleme hat, dann ist es offensichtlich nicht NV's Fehler.

V2.0

2011-08-12, 13:55:43

Afaik bevor Microsoft und IHVs fuer eine API Version und dessen Inhalt abstimmen gibt es mehrere drafts wo es von allen Seiten pro und contra Vorschlaege gibt fuer's neue API. Im gegebenen Fall verstehe ich unter tabula rasa dass noch gar nichts handfestes vorliegt, welches aber wie gesagt ziemlich merkwuerdig und auch beunruhigend ist.

Ich weiss zwar nicht fuer wann 12 genau projeziert ist momentan, aber ich bezweifle dass es bis jetzt je so aussah in der Vergangenheit.
Die Frage ist halt wer momentan wirklich eine neue API will. DX11/11.1 reichen für den embedded Market noch sehr lange und im Zeitalter von APUs fällt mir kaum ein Marktteilnehmer ein, der Interesse an gestiegenen Hardwareanforderungen an eine GPU haben könnte. Und ob MS ne neue DX Version braucht. Ich habe da Zweifel.

Man kann die alten Projektionen weit gehend vergessen, weil sie noch nicht den embedded / mobil Trend berücksichtigten.