Aus Jaguar wird Titan: BD jetzt, Kepler nächstes Jahr [Archiv]

Bucklew

2011-10-13, 22:56:28

/EDIT: Dass die Interlagos-CPUs mit unter 2 GHz takten, glaube ich übrigens aus dem Grund nicht, da die aktuell noch verbauten Six-Core-Opterons bereits mit 2,6 GHz takten. Und da man pro Node zwei Six-Cores durch einen Bulldozer-basierenden 16-Core ersetzt, sollte die Taktrate schon im selben Bereich bleiben oder sogar steigen, damit der Wechsel aus Performancesicht Sinn ergibt. Man könnte natürlich argumentieren, dass man die CPUs durch welche mit mehr Cores und weniger Takt ersetzt, um das System energieeffizienter zu machen, aber das dürfte in diesem Fall ein schwieriges Unterfangen werden. Die Investitionskosten in die neuen CPUs müssen ja auch noch reingeholt werden.
Hast du dir mal den Stromverbrauch vom Bulldozer angeschaut? Wie willst du das Kühlen mit 2,6Ghz?

dildo4u

2011-10-13, 23:05:17

Hast du dir mal den Stromverbrauch vom Bulldozer angeschaut? Wie willst du das Kühlen mit 2,6Ghz?
Die CPU kommt so 140Watt sind jetzt nicht so das Problem imo.
http://www.cpu-world.com/news_2011/2011100701_Pre-order_prices_of_AMD_Opteron_3200_4200_and_6200_processors.html

Gipsel

2011-10-13, 23:08:31

Hast du dir mal den Stromverbrauch vom Bulldozer angeschaut? Wie willst du das Kühlen mit 2,6Ghz?
Na da ein BD-16core wohl selbst bei 3GHz weniger verbraucht als eine High-End-GPU, sollte das kein wesentliches Problem darstellen. Im Übrigen läuft die Kiste sowieso mit Wasserkühlung (wenn das ORNL die Option nicht gezogen hat, sind sie blöd). Der maximale Verbrauch, für den ein Rack (96 CPUs und GPUs) ausgelegt ist (egal ob mit Luft oder Wasser gekühlt), beträgt übrigens 54kW bei den XK6. Also selbst wenn man 300W für die GPU abzieht, bleibt da noch genug für die CPU übrig. Da ist also genug Reserve eingeplant.

Edith sagt, daß der Opteron 6282 (16C) mit 2,6GHz bei 105W ACP läuft. Den 6276 gibt es mit 2,3GHz bei 80W ACP.

Bucklew

2011-10-13, 23:24:10

Da ist also genug Reserve eingeplant.
Eben. Und die macht man jetzt weg, nur weil man auf Biegen und Brechen 2,6Ghz haben will? Wenn AMD eben im Limit nur 2Ghz liefern können, gibt es eben nur 2Ghz.

edit: Nicht umsonst wird einfach nur allgemein von "Opteron 6200" geredet und nicht dem exakten Typen.

Gipsel

2011-10-13, 23:28:13

Eben. Und die macht man jetzt weg, nur weil man auf Biegen und Brechen 2,6Ghz haben will? Wenn AMD eben im Limit nur 2Ghz liefern können, gibt es eben nur 2Ghz.
Was soll der Schwachsinn? Bei AMD steht die 2,6GHz Version mit 105W ACP (was vielleicht 140W TDP entspricht) in der Preisliste (edit: und die 2,3GHz mit 80W ACP/~110W TDP?). Was soll da auf "Biegen und Brechen" sein?
So eine XK6-Blade würde im Zweifelsfall auch 200W CPUs vertragen (das wäre dann vielleicht auf Kante genäht), zumal Titan wohl sowieso Wasserkühlung haben wird. Die können ja auch ~250W GPUs angemessen kühlen (X2090). :rolleyes:

Bucklew

2011-10-13, 23:33:42

Was soll der Schwachsinn? Bei AMD steht die 2,6GHz Version mit 105W ACP (was vielleicht 140W TDP entspricht) in der Preisliste. Was soll da auf "Biegen und Brechen" sein?
So eine XK6-Blade würde im Zweifelsfall auch 200W CPUs vertragen (das wäre dann vielleicht auf Kante genäht), zumal Titan wohl sowieso Wasserkühlung haben wird. Die können ja auch ~250W GPUs angemessen kühlen (X2090). :rolleyes:
Was erzählt du da für einen Quatsch? Glaubst du ernsthaft man legt so ein Kühlsystem auf eine 200W CPU (*18688 = 3,7MW) aus, nur um dann eine 140W zu verbauen?

Mal ehrlich, was glaubst du eigentlich wie so Dinger geplant und gebaut werden?

Gipsel

2011-10-13, 23:37:45

Was erzählt du da für einen Quatsch? Glaubst du ernsthaft man legt so ein Kühlsystem auf eine 200W CPU (*18688 = 3,7MW) aus, nur um dann eine 140W zu verbauen?

Mal ehrlich, was glaubst du eigentlich wie so Dinger geplant und gebaut werden?
Da Du nicht täglich hundert Kühler/Lüfter tauschen willst: Ja, die Dinger werden mit ordentlich Sicherheitsmarge ausgelegt. Alles andere kostet im Unterhalt (und durch die Ausfallzeiten) mehr als die einmalige Aufwendung bei der Anschaffung.
Hast Du jemals so ein wassergekühltes Rack von Cray von innen gesehen? Die Dinger sind schon ziemlich gut designed. Zudem ist der Kühlung wohl herzlich egal, wo die Wärme abfällt (GPU, CPU oder Kommunikationsprozessoren, in der Reihenfolge).

Edit:
Und wie schon erwähnt spezifiziert Cray 54kW pro Rack, also für Titan insgesamt 10,8 MW maximal. Und das kann das Ding dann auch sicher (selbst wenn es das nicht ganz brauchen sollte).

Edit2:
Die luftgekühlte Variante pustet übrigens 1,41 m³ pro Sekunde durch so ein Rack. Das spricht also nicht gerade dafür flüsterleise zu sein, aber immerhin für eine passable Kühlung (zumal das nicht für 30° Lufttemperatur spezifiziert ist, sondern eher für frostige, klimatisierte Rechenzentren). ;) Aber da Jaguar bereits flüssigkeitsgekühlt ist, wird es Titan wohl auch sein.

Captain Future

2011-10-13, 23:39:33

Sind in so `nem Blade nicht noch paar andere Dinge drin als nur CPU und GPU? Bei 54,1 kW/96 Nodes oder Blades wären knapp 564 Watt pro Stück drin. Von der Netzseite aus, also abzüglich Verlusten.

Allein Lüfter/Pumpen dürfen bei so `nem Ding schon 40 Watt und mehr brauchen, dann noch 3072 Gbyte RAM, die Boards, die Highspeed COnnection Gemini usw.

Ich glaub zwar auch nicht, dass man bei 140 Watt in Probleme rennt, aber die knackt ja schon der 8kernige FX8150 fast lt. HT4U.

Bucklew

2011-10-13, 23:41:57

Da Du nicht täglich hundert Kühler tauschen willst: Ja, die Dinger werden mit ordentlich Sicherheitsmarge ausgelegt. Alles andere kostet im Unterhalt (und durch die Ausfallzeiten) mehr als die einmalige Aufwendung bei der Anschaffung.
Hast Du jemals so ein wassergekühltes Rack von Cray von innen gesehen (es gibt auch im Netz Fotostrecken vom Zusammenbau eines Racks, such mal danach! ;))? Die Dinger sind schon ziemlich gut designed.
Ja und GENAU DESWEGEN hast du eine geplante TDP und daran wird sich gehalten. Wenn AMD nachherin diesem TDP-Limit CPUs mit 3 Ghz liefern kann, dann werden diese verbaut, wenn sie nur 2Ghz liefern können, werden eben nur 2 Ghz verbaut. Ganz einfach.

Glaubst du ernsthaft, da plant man jahrelang dran rum und dann baut man statt 100W auf einmal 140W rein, nur weil AMD nichts anderes liefern kann? Ne ist klar....

Und das ganze dann nochmal mal 20.000. Jedes Watt mehr bedeutet 18kW mehr Leistung die sowohl als Strom zugeführt als auch als Wärme abgeführt werden muss. Als ob man da jetzt anfängt 20 oder 30% mehr zuzulassen, ihr habt echt Vorstellungen manchmal...

Wahrscheinlich overclocken die auch noch :rolleyes:

Gipsel

2011-10-14, 00:16:10

Ja und GENAU DESWEGEN hast du eine geplante TDP und daran wird sich gehalten.Und da Cray sicher eingeplant hat, daß ein paar Kunden wohl auch CPUs in der schon lange bekannten 105W ACP/140W TDP Klasse haben wollen, dürfte dem Einbau der 2,6GHz Versionen wohl nichts im Wege stehen, oder? Worüber diskutierst Du hier überhaupt (mal ganz abgesehen vom OT Charakter)?

Gipsel

2011-10-14, 00:25:30

Sind in so `nem Blade nicht noch paar andere Dinge drin als nur CPU und GPU?Ja na klar. Aber allein von der Größe und Ausführung der Kühlkörper (bei der luftgekühlten Version) kann man die Reihenfolge der Stromfresser festlegen.
GPU (Kupfer, recht groß) > CPU (Kupfer, kleiner) > Gemini-Prozessoren (Alu, nur ein Gemini-Chip pro 2 CPUs) > Speicher (nur Heat-Spreader) > Chipsatz (sehr kleine Alu-Kühler).
Bei 54,1 kW/96 Nodes oder Blades wären knapp 564 Watt pro Stück drin. Von der Netzseite aus, also abzüglich Verlusten.Also ~2000W sekundär pro Blade mit 4 GPUs, 4 CPUs und 2 Geminis.
dann noch 3072 Gbyte RAMDie XK6 werden 2 GB pro Kern haben, also 32GB pro CPU (bisher 16GB für 12 Kerne).
Ich glaub zwar auch nicht, dass man bei 140 Watt in Probleme rennt, aber die knackt ja schon der 8kernige FX8150 fast lt. HT4U.Der läuft aber auch mit 3,6 GHz Grundtakt (4,2GHz Turbo). 2,3 oder 2,6 GHz sind da ein ganz anderer Schnack, der Verbrauch geht ja durch die Spannungsanpassungen sehr nichtlinear mit dem Takt hoch.

Spasstiger

2011-10-14, 00:57:47

Bisher liefen in den Nodes je ZWEI "Istanbul" mit je 115 Watt TDP, zusammen also 230 Watt TDP. Diese werden ersetzt durch EINEN "Interlagos". Wo ist da jetzt das Problem, die Variante mit 2,6 GHz und 140 Watt TDP zu wählen? Wäre immer noch sparsamer als vorher.
Es ist völlig absurd, anzunehmen, dass das ORNL Interlagos-Varianten mit unter 2 GHz verwendet, nur damit die genannten Zahlen, die wohl gerundet sind oder gar nur Größenordnungen angeben, zusammenpassen.
Das ORNL verspricht sich vom Interlagos-Einsatz sicherlich Performancesteigerungen bei wohl auch sinkender Leistungsaufnahme. Das ist beides mit einem Interlagos mit 2,6 GHz möglich, zumindest bei einigen Applikationen. Rein von der Leistungsaufnahme her wäre auch Spielraum für höher taktende Varianten von Interlagos, sofern es die gibt.

Wenn die 20 PFlops nur eine schwammige Angabe für Systemaufbau mit möglicherweise auch weniger als 18.000 GPUs sind, dann können die Kepler-GPUs natürlich auch über 1 TFlops an dp-Rechenleistung haben. In dem Fall traue ich auf jeden Fall der NV-eigenen Angabe.
Leider scheint dieses Supercomputer-Projekt am ORNL im Vorfeld keine echten neuen Erkenntnisse in Bezug auf Kepler zu bringen, außer dass die Rechenleistung steigt und die Leistungsaufnahme zumindest bei der Tesla-Variante nicht übermäßig hoch sein wird.

AffenJack

2011-10-14, 08:38:19

Bisher liefen in den Nodes je ZWEI "Istanbul" mit je 115 Watt TDP, zusammen also 230 Watt TDP. Diese werden ersetzt durch EINEN "Interlagos". Wo ist da jetzt das Problem, die Variante mit 2,6 GHz und 140 Watt TDP zu wählen? Wäre immer noch sparsamer als vorher.

Es ist nicht sparsamer als vorher, weil jetzt jeweils auch ne GPU dabei ist. Man kann da durchaus 200W von Kepler erwarten als TDP und dann noch ne 140W CPU, dann biste bei 340 Watt. Fast 50 % mehr als früher für die Großverbraucher im Blade, da muss ne Kühlung schon drauf ausgelegt sein.
Allerdings bringt das ganze Kühlungsgequatsche eher etwas Offtopic.

Bucklew

2011-10-14, 08:59:25

Und da Cray sicher eingeplant hat, daß ein paar Kunden wohl auch CPUs in der schon lange bekannten 105W ACP/140W TDP Klasse haben wollen, dürfte dem Einbau der 2,6GHz Versionen wohl nichts im Wege stehen, oder? Worüber diskutierst Du hier überhaupt (mal ganz abgesehen vom OT Charakter)?
Was weiß ich, du stellst ständig irgendwelche haarsträubenden Theorien auf was Cray mal geplant hat und was nicht. Ich frag mich ja echt warum man an so einem Cluster so lange plant, wenn man doch nach deiner Theorie einfach mit 200W plant und dann irgendwas verbaut :rolleyes:

Gipsel

2011-10-14, 10:31:33

Was weiß ich, du stellst ständig irgendwelche haarsträubenden Theorien auf was Cray mal geplant hat und was nicht. Ich frag mich ja echt warum man an so einem Cluster so lange plant, wenn man doch nach deiner Theorie einfach mit 200W plant und dann irgendwas verbaut :rolleyes:
Du quatscht hanebüchenen OT-Blödsinn, wenn Du meinst, Cray setzt maximal 2GHz ein, weil BD so viel verbrauchen würde, daß es nicht mehr zu kühlen wäre. Wie gesagt, für die Kühlung dürfte es weniger ein Problem sein, die kommt ja auch mit den X2090 Karten klar.
Mehrfach wurde Dir schon gesagt, daß AMD die 140W TDP/105W ACP Klasse ja nicht erst gestern aus dem Hut gezaubert hat. Die wird Cray schon auf dem Radar gehabt haben, um die Stromversorgung entsprechend zu dimensionieren. Das sind doch keine Amateure. Selbst wenn die darauf zielen, den Stromverbauch pro Sockel nicht steigen zu lassen (obwohl sie nur noch die Hälfte an CPU-Sockeln haben, d.h. von Jaguar zu Titan den CPU-Verbrauch zu halbieren), dann gibt es auch immer noch die 2,3GHz Variante mit 80W ACP. Das wären dann 1,33 mal so viele Kerne in der halben TDP wie bei Jaguar.

Ich hoffe, jetzt hört das OT hier mal auf. Es geht um Kepler und Maxwell!

Captain Future

2011-10-14, 10:44:02

Schön, dass du noch OT schreibst, dann aber gemahnst, On-Topic zu bleiben... :ugly:
edit: Splitten war eine gute Idee! :up:

Gerade im HPC-Bereich ist ACP aber nutzlos. BD geht beim Linkpack lt. HT4U schon an seine Grenzen 137 Watt (inkl. Wanderl daher will ich dann mal nicht von "drüber hinaus" sprechen).

Bucklew

2011-10-14, 10:55:39

Du quatscht hanebüchenen OT-Blödsinn, wenn Du meinst, Cray setzt maximal 2GHz ein, weil BD so viel verbrauchen würde, daß es nicht mehr zu kühlen wäre. Wie gesagt, für die Kühlung dürfte es weniger ein Problem sein, die kommt ja auch mit den X2090 Karten klar.
:facepalm:

Ich würde jetzt ja was dazu schreiben, aber dann holst du wieder die Modkeule raus, um die Diskussion zu gewinnen. Hab ich ja jetzt schon oft genug von dir erlebt. Ich weiß wieder, warum ich dieses Forum lieber meide, solange Leute wie du ihre Modrechte missbrauchen um ihren Blödsinn unters Volk zu streuen.

Was krieg ich denn, wenn im Titan nachher KEINE 2,6Ghz sind? Gibst du dann endlich mal öffentlich zu Blödsinn zu erzählen?

Captain Future

2011-10-14, 11:22:36

Die XK6 werden 2 GB pro Kern haben, also 32GB pro CPU (bisher 16GB für 12 Kerne).

Sag i doch! 3072 Gbyte pro 54,1 kW Cabinett bei 96 Nodes à 32 Gbyte.

Gipsel

2011-10-14, 11:26:55

Wer unbedingt ein anderes Thema diskutieren will, soll entweder ein neues Thema aufmachen oder einen Mod um einen Split bitten.
Es ist vollkommen unnötig, einem ohne Verwendung der Modfunktionen diskutierenden Mitglied die Verwendung der "Modkeule" vorzuwerfen. Dafür wird die höchstens rausgeholt. ;)

Gipsel

2011-10-14, 11:44:24

Was krieg ich denn, wenn im Titan nachher KEINE 2,6Ghz sind? Gibst du dann endlich mal öffentlich zu Blödsinn zu erzählen?
Was bekomme ich, wenn es mehr als 2 Ghz (>=2,3 GHz) sind?

Du solltest Dir vielleicht mal vor Augen halten, daß Titan eine signifikante Zeit ohne Kepler-GPUs laufen wird. Das ORNL will sicher keine wesentlich niedrigere Performance haben, wie Spasstiger schon ganz am Anfang angemerkt hat.

Zudem solltest Du auch mal die Realität im HPC-Bereich betrachten. Da sieht es nämlich so aus, das längst nicht alle Codes überhaupt die GPUs irgendwie effizient nutzen können. Die werden also häufig längst nicht an ihrer TDP kleben. Die verbauen ja nicht umsonst einen 16-Kerner pro GPU. Wenn alles auf den GPUs laufen würde, täte es auch ein kleiner Quad. ;)

Dieser Charakter ermöglicht dann übrigens auch interessante Powermanagement-Strategien. Bei Code, die die GPUs effizient nutzen können, werden die CPUs eingebremst (Opterons ermöglichen das Heruntersetzen der TDP, also im Prinzip das Sperren der höchsten P-States durch das OS), bei fast reiner CPU-Last, takten die natürlich dann, was sie maximal können.

Gipsel

2011-10-14, 11:49:01

Sag i doch! 3072 Gbyte pro 54,1 kW Cabinett bei 96 Nodes à 32 Gbyte.
Ups, da hatte ich mich wohl verlesen. :redface:

Bucklew

2011-10-14, 12:28:48

Was bekomme ich, wenn es mehr als 2 Ghz (>=2,3 GHz) sind?
Aha, jetzt sind wir also von 2,6Ghz schon bei 2,3....

Ich wart dann noch die zwei Tage, bis du dann auch bei 2Ghz angekommen bist ;)

Gipsel

2011-10-14, 13:44:14

Aha, jetzt sind wir also von 2,6Ghz schon bei 2,3....

Ich wart dann noch die zwei Tage, bis du dann auch bei 2Ghz angekommen bist ;)
Wenn Du Dir durchliest, was ich schrieb, dann habe ich von Anfang an auf die Möglichkeiten von 2,3 bis 2,6 GHz hingewiesen. Es wurden von mehreren Leuten Argumente vorgebracht, warum Dein Punkt mit der mangelnden Kühlmöglichkeit, welche diese CPUs ausschließt, nicht viel Sinn ergibt. Wenn von Dir jetzt keine Argumente mehr kommen, gut, dann nehme ich das zur Kenntnis. :rolleyes:

Bucklew

2011-10-14, 15:37:35

Wenn Du Dir durchliest, was ich schrieb, dann habe ich von Anfang an auf die Möglichkeiten von 2,3 bis 2,6 GHz hingewiesen. Es wurden von mehreren Leuten Argumente vorgebracht, warum Dein Punkt mit der mangelnden Kühlmöglichkeit, welche diese CPUs ausschließt, nicht viel Sinn ergibt. Wenn von Dir jetzt keine Argumente mehr kommen, gut, dann nehme ich das zur Kenntnis. :rolleyes:
Und die Relativierung geht weiter. Ich habe ziemlich eindeutig von 2,6Ghz geschrieben und du hast das als (ich zitiere dich)

"Also selbst wenn man 300W für die GPU abzieht, bleibt da noch genug für die CPU übrig. Da ist also genug Reserve eingeplant."

"Was soll da auf "Biegen und Brechen" sein? So eine XK6-Blade würde im Zweifelsfall auch 200W CPUs vertragen"

bezeichnet.

Aber kennt man ja von dir. Wenn ich das dann in nem halben Jahr rauskrame kann die PN mit den Punkten ja nicht lange auf sich warten lassen. Da kann man sich dann halt auch weit aus dem Fenster lehnen, wenn man die "Wahrheit" per Modrechte anpassen kann :cool:

Gipsel

2011-10-14, 16:07:53

Nix Relativierung. Es ging darum, wieviel die (Flüssigkeits-)Kühlung im Titan schaffen würde. Und da die auch X2090 kühlen kann, kann eine 140W TDP-CPU gar kein fundamentales Problem sein. Entscheidend für die Kühlung ist die Summe des Verbrauchs aller Komponenten (laut Cray ~54 kW maximal pro Rack, also gute 500W pro Knoten für alles zusammen), darauf ist die Kühlung ausgelegt (innerhalb der Racks wohl sogar mit Reserven, aber das RZ wird natürlich auch ein Limit haben, was sich an der Spezifikation orientiert).

Das eigentliche Limit dürfte (wie von mir bereits angesprochen) die Versorgung der CPUs auf dem Board sein. Aber falls das nicht für 140W ausgelegt sein sollte (ein doch eher unwahrscheinliches "falls", meinst Du nicht?), dann gibt es immer noch die 80W ACP Versionen (z.B. mit 2,3GHz), die ebenfalls höher takten als die von Dir erwähnten 2 GHz. Es macht einfach nicht übermäßig viel Sinn, die 12 Kern-Knoten mit 2,6GHz durch 16 Kern-Knoten mit nur 2 GHz zu ersetzen, weil man dann für einige Probleme Performance verliert, was sicher nicht Sinn des Upgrades sein kann. Cray wird einen Kompromiß anstreben, der in möglichst vielen Fällen Performancesteigerungen erlaubt, nicht nur, wenn fast nur die GPUs rechnen (dann hätten wie gesagt auch Knoten mit 4 Kernern gereicht).

boxleitnerb

2011-10-14, 16:16:39

Mal eine Laienfrage:
Lohnt sich das überhaupt, den Interlagos da zu verbauen? Sagen wir 10% weniger Takt, 33% mehr Kerne. Man muss die CPUs kaufen, alles auseinanderbauen (braucht man noch andere Hardware?) und durchtesten (?). Ob der Stromverbrauch besser wird, ist fraglich.

Oder ist P/L da nicht wichtig und man verbrät halt das ganze Budget?

YfOrU

2011-10-14, 16:16:47

Bucklew unterschlägt einfach die Faktenlage:

Opteron 6180 SE 12C 45nm
Opteron 6282 SE 8M/16C 32nm

Beide haben eine identische ACP von 105 und eine TDP von 140W wobei die Basisfrequenz praktisch identisch ist (~2,5 Ghz). Zusätzlich kann der 6282 SE seine TDP (alle Kerne ~3.1Ghz) aufgrund des Turbo bei Bedarf besser ausschöpfen.

Zum Vergleich genügt bereits das jeweilige Topmodell denn beide Architekturen skalieren bei Frequenz/Leistungsaufnahme ähnlich. Mit dieser Maximalkonfiguration + einen gesunden Spielraum nach oben werden Systeme entwickelt. Somit ist die hier geführte Diskussion unnötig. Was schlussendlich verbaut wird bestimmen die Anforderungen des Kunden.

Mal eine Laienfrage:
Lohnt sich das überhaupt, den Interlagos da zu verbauen? Sagen wir 10% weniger Takt, 33% mehr Kerne. Man muss die CPUs kaufen, alles auseinanderbauen (braucht man noch andere Hardware?) und durchtesten (?). Ob der Stromverbrauch besser wird, ist fraglich.

Es sind keine 10% weniger Takt sondern die Frequenz liegt bei gleicher TDP und den 4 zusätzlichen Kernen eher höher ;). Es ist das gleiche Spiel wie bei den mobilen Llano. Bei vergleichsweise niedrigen Frequenzen scheint die 32nm Fertigung durchaus brauchbare Produkte abzuwerfen. Problematisch wird es vor allen bei den am Desktop nötigen, hohen Frequenzen.

Die Modelle sind logisch strukturiert und Drop In kompatibel, weiteres Beispiel:
Opteron 6176 (12C) zu Opteron 6276 (8M/16C) mit 80W ACP und 115W TDP
Beide bei 2,3 Ghz Basis und der 6276 mit Turbo über alle Kerne bis 2,9Ghz

Gipsel

2011-10-14, 16:28:41

Es sind keine 10% weniger Takt sondern die Frequenz liegt bei gleicher TDP und den 4 zusätzlichen Kernen eher höher ;).Na das vielleicht auch nicht gerade. In den bisherigen XT5-Knoten laufen ja keine 12Kerner, sondern 2 CPUs mit jeweils 6 Kernen (TDP-Summe der verbauten CPUs ist 230W oder so). In den neuen XK6-Knoten läuft anstatt dessen nur noch ein einziger 16Kerner. Die Taktfrequenz kann durch die Halbierung der Sockelzahl also nicht wirklich zulegen, aber zumindest der Stromverbrauch der CPUs sinkt auf jeden Fall.

YfOrU

2011-10-14, 16:44:37

Doch denn die komplette Leistungsaufnahme von zwei 6 Kern CPUs ist zwangsläufig höher als die einer einzelnen mit 12 Kernen - selbst wenn diese sich genau genommen nur auf einem gemeinsamen Package befinden. Mehr als 2,8 Ghz gibt es bei den älteren (6 Kern) Opteron nicht und darüber sollten die meisten BD Opteron bei deutlich niedrigerer Leistungsaufnahme im Vergleich zu zwei Opteron 4100 durchaus kommen.

Gipsel

2011-10-14, 16:51:44

Doch denn die komplette Leistungsaufnahme von zwei 6 Kern CPUs ist zwangsläufig höher als die einer einzelnen mit 12 Kernen - selbst wenn diese sich genau genommen nur auf einem gemeinsamen Package befinden.
Okay, dann mal ganz direkt: AMD bietet keine 16-Kerner an, die höher als die in den alten Jaguar XT5-Blades verbauten 6-Kerner getaktet sind (IIRC 2x115W TDP mit 2,6GHz). Deswegen können keine höher getakteten Versionen zum Einsatz kommen. ;)

Mit dem (deutlich) niedrigeren Verbrauch hast Du natürlich vollkommen Recht (weswegen das Kühlargument auch an der Sache vorbei geht). Allerdings verteilt sich das jetzt auch auf die halbe Zahl von Sockeln, weswegen eben im Moment nur grob Gleichstand bei den Takten möglich ist.

YfOrU

2011-10-14, 16:56:29

Okay, dann mal ganz direkt: AMD bietet keine 16-Kerner an, die höher als die in den alten Jaguar XT5-Blades verbauten 6-Kerner getaktet sind (IIRC 2x115W TDP mit 2,6GHz). Deswegen können keine höher getakteten Versionen zum Einsatz kommen. ;)

Turbo und konfigurierbare TDP -> höhere Frequenz bei Bedarf ;)
Sinn macht die Turbofunktion in solchen Systemen eigentlich sowieso nur über alle Kerne und da haben die BD Opteron 400 - 500 Mhz Spielraum.

Worauf ich oben eigentlich hinaus wollte ist das es zum Design der XT6 Blades 12C G34 Opteron gab die Drop In kompatibel zu den neuen BD 8M Varianten sind. Entsprechendes Material und Informationen waren also sehr lange im Vorfeld verfügbar. Eine besser Ausgangslage kann man für die Produktentwicklung kaum haben und deshalb ist die Diskussion über die Höhe der Leistungsaufnahme und daraus eventuell resultierende Einschränkungen bei der Frequenz hinfällig. Der Sockel G34 geht bis 140W und darauf wird das dann mit gesunder Toleranz auch ausgelegt.

Skysnake

2011-10-15, 01:52:47

So siehts aus, zumal man eben da schon einiges an Toleranz drin lässt, gerade bei ner Flüssigkeitskühlung. Man will ja auch in einem Emergency-Fall nicht, dass das Ding innerhalb von Sekundenbruchteilen abraucht. Bei ner reinen Luftkühlung kann das bei so nem großen Cluster btw. schon passieren, wenn die Klima plötzlich den Geist auf gibt. Da bleibt nicht mal mehr genug Zeit zum abschalten teilweise.

Mit der Flüssigkeitskühlung hat man da mehr Spielraum, aufgrund der hohen spezifischen Wärmekapazität. Das verschenkt man nicht so einfach, bzw. rechnet es nicht auf biegen und brechen runter. Kostet nämlich nicht so viel, bei dieser Art der Kühlung sich etwas Luft zu verschaffen.

Man kann sich also überlegen, was man will. Paar Sekunden längerer Betrieb ohne Kühlung, oder aber einfach größere Verbraucher rein, wobei man dort dann natürlich schon aufpassen muss, das man die Sachen noch angeschlossen bekommt ans E-Netz.

Mit Flüssigkeitskühlung hat man aber auf jeden Fall weniger scherereien als mit Luftkühlung, was jetzt die reine Kühlleistung anbelangt. Unterhalt/Betrieb/Wartung ist wieder etwas anderes ;)

Bucklew

2011-10-15, 02:12:44

Nix Relativierung. Es ging darum, wieviel die (Flüssigkeits-)Kühlung im Titan schaffen würde.
Nein, geht es überhaupt nicht. Es geht darum, was VERBAUT wird. Was die Kühlung theoretisch schaffen würde ist das eine und spielt bei solchen Planung auch eher am Rande eine Rolle. Das ist ja auch genau das, was ich die ganze Zeit versuche dir zu erklären, auch wenn du das scheinbar nicht verstehen willst. Oder kannst. Was auch immer da jetzt das Problem ist.

Das du auch genau weißt, dass ich nicht allzu falsch liege zeigt ja auch dein herumrudern. Erst 2,6Ghz, die die Kühlung ja locker vertragen würde und jetzt isses plötzlich nur noch 2,3....

Bucklew unterschlägt einfach die Faktenlage:

Opteron 6180 SE 12C 45nm
Opteron 6282 SE 8M/16C 32nm

Beide haben eine identische ACP von 105 und eine TDP von 140W wobei die Basisfrequenz praktisch identisch ist (~2,5 Ghz). Zusätzlich kann der 6282 SE seine TDP (alle Kerne ~3.1Ghz) aufgrund des Turbo bei Bedarf besser ausschöpfen.
Wo findet in der Milchmädchenrechnung jetzt die Kepler-GPU ihren Platz?

YfOrU

2011-10-15, 15:27:31

Die hat in der Rechnung nichts verloren denn es geht einzig und allein um das Blade. Das dieses aufgrund des Austausches weniger Leistung aufnimmt und damit die Effizienz steigt ist ein netter Nebeneffekt aber nichts mit dem bei der Planung (in Bezug auf die maximal benötigte Kühlleistung) ernsthaft kalkuliert werden kann. Dafür ist die Differenz schlichtweg zu gering bzw. deutlich unter dem was als Sicherheitspuffer bei solchen Systemen sowieso immer vorhanden ist.

Bucklew

2011-10-15, 15:57:33

Die hat in der Rechnung nichts verloren denn es geht einzig und allein um das Blade.
Und worauf sitzt die GPU deiner Meinung nach?

Gipsel

2011-10-15, 16:52:34

Es ging darum, wieviel die (Flüssigkeits-)Kühlung im Titan schaffen würde.Nein, geht es überhaupt nicht.
Du selber hast die Kühlung zum Thema gemacht. Siehe Deinem Eingangsposting. Oder der Bequemlichkeit halber:
Hast du dir mal den Stromverbrauch vom Bulldozer angeschaut? Wie willst du das Kühlen mit 2,6Ghz?
So, alles klar? :rolleyes:

Die Antwort auf diese Frage lautet übrigens: Genauso wie die X2090-Karten und später mal die Kepler-GPUs gekühlt werden, die allesamt mehr als ein 16Kern-BD bei 2,6GHz verheizen. Da fragst Du ja auch nicht: "Und wie willst Du die GPUs mit 250W Stromverbrauch kühlen?". Also, Frage beantwortet, Thema erledigt.

YfOrU

2011-10-15, 17:09:03

Und worauf sitzt die GPU deiner Meinung nach?
Je nach Variante wird sowas in einem eigenen 1 - 2 HE Einschub verbaut oder denkst du das es sich dabei um PCIe x16 Steckkarten handelt ?

Skysnake

2011-10-15, 17:19:44

Die Dinger sollten schon mit in der Pizzaschachtel befinden. Die Latenzen über PCI-E sind schon hoch genug. Das muss man nicht noch künstlich verschlimmern.

Gipsel

2011-10-15, 17:24:43

Je nach Variante wird sowas in einem eigenen 1 - 2 HE Einschub verbaut oder denkst du ernsthaft das es sich dabei um PCIe x16 Steckkarten handelt ? ;)
Bei Titan stecken (bzw. werden) in einem hochkant stehenen Blade-ähnlichem Einschub 4 Knoten, die mit einem gemeinsamen Mainboard realisiert werden. Auf diesem befinden sich in einer Hälfte 4 BD-GPUs mitsamt Speicher und den 2 Interconnect-Prozessoren, in der anderen Hälfte die maximal 4 GPUs auf MXM-ähnlichen Tochterkarten, siehe z.B. hier (ist allerdings die luftgekühlte Variante mit den X2090 Fermi-GPUs, bei Titan kommen flüssigkeitgekühlte Racks zum Einsatz) (http://forum.beyond3d.com/showthread.php?p=1572875#post1572875). Auf 4 Ebenen befinden sich dann jeweils 6 solcher Blades nebeneinander in einem Rack (insgesamt 24 Blades/96 Knoten).

YfOrU

2011-10-15, 17:37:05

Ja, habs mir grad im PDF angeschaut, allerdings ist das auch ein eigener Formfaktor der praktisch fast zwei normalen Einschüben entspricht.

Bucklew

2011-10-15, 18:38:39

Du selber hast die Kühlung zum Thema gemacht. Siehe Deinem Eingangsposting. Oder der Bequemlichkeit halber:

So, alles klar? :rolleyes:
Mir ging es darum was nachher effektiv verbaut wird (und dann im 24/7 Betrieb läuft) und nicht darum, was die Kühlung schaffen KÖNNTE - da hackst du ja die ganze Zeit herum. Das du diese Feinheit nicht verstehst wundert mich natürlich gar nicht...

edit: Hier nebenbei ein PDF vom ORNL selbst:
http://www.olcf.ornl.gov/wp-content/uploads/2011/07/TitanWebinar.pdf

Da schreiben sie sogar in der Überschrift (für ganze Doofe), dass die Steigerung der Taktraten vorbei ist (weil höhere Taktraten mit niedrigeren Spannungen aufgefangne werden müssen) und das ihr Hauptproblem ist das Ganze zu kühlen.

Spricht unheimlich dafür, dass sie die dicksten Opterons verwenden werden, die sie kriegen können, weil auch ne 200W CPU ist ja kein Problem, nicht wahr Gipsel? :freak:

Die Antwort auf diese Frage lautet übrigens: Genauso wie die X2090-Karten und später mal die Kepler-GPUs gekühlt werden, die allesamt mehr als ein 16Kern-BD bei 2,6GHz verheizen. Da fragst Du ja auch nicht: "Und wie willst Du die GPUs mit 250W Stromverbrauch kühlen?". Also, Frage beantwortet, Thema erledigt.
Offensichtlich immer noch nichts verstanden....

Je nach Variante wird sowas in einem eigenen 1 - 2 HE Einschub verbaut oder denkst du das es sich dabei um PCIe x16 Steckkarten handelt ?
Danke das du einducksvoll zeigst, dass du keine Ahnung hast worüber du redest. Aber hauptsache anderen Leute vorwerfen die Fakten zu ignorieren ;D

Tipp: Google mal nach "X2090" und dann such mal ne PCIe-Stecker...

Skysnake

2011-10-15, 21:21:23

Naja, HT ist es nicht, und außer PCI-E bleibt da nicht mehr viel übrig. Wie der Stecker aussieht ist erst mal pups egal.

Btw. Gipsel läuft das dann alles über ne dicke Backplane? Sieht sehr lustig aus, das MB :D

Muss mir wohl doch mal das PDF durchlesen, wenn ich Zeit finde

Bucklew

2011-10-15, 22:05:46

Naja, HT ist es nicht, und außer PCI-E bleibt da nicht mehr viel übrig. Wie der Stecker aussieht ist erst mal pups egal.
Gut, ich gucke dann mal zu wie du so eine X-Karte in deinen PCI-E steckst.

Skysnake

2011-10-15, 22:22:54

lesen ftw.welches Protokoll wird denn verwendet?

mir wäre nicht bekannt, das nvidia was anderes als einen PCI-E-Controller im Chip hat. Kannst mich aber gern vom Gegenteil überzeugen.

Bucklew

2011-10-15, 22:28:15

Ist trotzdem ein proprietärer Stecker.

Was bringt dir ein Standardprotokoll, wenn die Hardware nicht passt?

Skysnake

2011-10-15, 22:47:56

vertausch 2 Pins und du hast Men neuen Stecker, weil es ja dann propritär ist.trotzdem bleibst doch effektiv das selbe oder?

Bucklew

2011-10-15, 23:07:15

Du kannst beides untereinander nicht verwenden. Machts da jetzt einen großen Unterschied obs nur zwei Pins sind oder ein völlig anderes Protokoll? Reine Defitionsfrage....

Ausgangspunkt war ja eh, dass YforU behauptet hat, dass die Teslas in einem extra Gehäuse sind. Und das ist defakto falsch, es spielt also für die Kühlung der CPU die GPU sehr wohl eine Rolle (wobei sie das natürlich auch im Falle eines extra Gehäuses tun würde, wenn auch nicht so stark).

Gipsel

2011-10-16, 01:24:10

Mir ging es darum was nachher effektiv verbaut wird (und dann im 24/7 Betrieb läuft) und nicht darum, was die Kühlung schaffen KÖNNTEDann schreibe das doch gleich und frage nicht nach der Kühlung! :rolleyes:
Hier nebenbei ein PDF vom ORNL selbst:
http://www.olcf.ornl.gov/wp-content/uploads/2011/07/TitanWebinar.pdf

Da schreiben sie sogar in der Überschrift (für ganze Doofe), dass die Steigerung der Taktraten vorbei ist (weil höhere Taktraten mit niedrigeren Spannungen aufgefangne werden müssen) und das ihr Hauptproblem ist das Ganze zu kühlen.Und für "ganz Doofe" muß man wahrscheinlich noch erwähnen, daß es die Sprüche schon seit einigen Jahren gibt. Es bedeutet nicht, daß die Taktfrequenzen deutlich sinken (oder liest Du da was von "negative clock scaling" oder "frequence decrease"?), sondern daß Performancesteigerungen nicht mehr von möglichen Taktsteigerungen dominiert werden, sondern diese deutlich langsamer verlaufen. Ist aber wie gesagt im Prinzip kalter Kaffee. Wie stark sind gleich nochmal die Frequenzen bei CPUs oder auch GPUs in den letzten Jahren gestiegen? ;)

Im konkreten Beispiel kann man übrigens dagegen halten, daß bei BD im Vergleich zum K10 die Pipelines anders ausgelegt sind, so daß rein vom Design eine höhere Frequenz rauskommt (bei gleichem Stromverbrauch).
Spricht unheimlich dafür, dass sie die dicksten Opterons verwenden werden, die sie kriegen können, weil auch ne 200W CPU ist ja kein Problem, nicht wahr Gipsel? :freak:Wenn Du das Unsachliche mal weglassen könntest, dann hättest Du vielleicht diesen (http://www.forum-3dcenter.org/vbulletin/showthread.php?p=8983159#post8983159) oder auch diesen Post (http://www.forum-3dcenter.org/vbulletin/showthread.php?p=8983630#post8983630) zur Kenntnis genommen. Wenn man nämlich mal 1 und 1 zusammenzählt, kann Cray im Prinzip in vielen Fällen (also im Durchschnitt) eine größere Performance innerhalb des nominellen Powerbudgets (von wahrscheinlich so grob 10 MW) anbieten, wenn sie schnellere CPUs verbauen. Gerade weil weder GPU noch CPU alleine an das Limit kommen, sind da sehr interessante Powermanagement-Modi möglich.

Gipsel

2011-10-16, 01:41:31

Naja, HT ist es nicht, und außer PCI-E bleibt da nicht mehr viel übrig. Wie der Stecker aussieht ist erst mal pups egal.
Gut, ich gucke dann mal zu wie du so eine X-Karte in deinen PCI-E steckst.
Die GPUs sind natürlich über jeweils 16 PCI-Express-Lanes angekoppelt.

Und ich schrieb ja nicht umsonst schon, daß es ein wenig wie eine aufgebohrte MXM-Karte aussieht (die auch PCI-Express über einen Anschluß nutzt, der durch den Einsatzzweck natürlich auch anders als die normalen x16 Slots aussieht).

Skysnake

2011-10-16, 02:54:03

Über was auch sonst. Für etwas anderes hat nVidia keinen Controller parat. Ich fände zwar HT cool, mit dem kompletten Kohärenzprotokoll dazu, aber tja, da können wir noch lange drauf warten.

Wie die Ausführung eines Anschlusses aussieht ist doch echt egal. Form follows Funktion...

Btw. auf Seite 9 im Titan PDF stehts ja sogar dick umrandet drin, das es PCI-E Gen 2.0 ist. Bin grad erst zum lesen gekommen

Bucklew

2011-10-16, 13:07:08

Dann schreibe das doch gleich und frage nicht nach der Kühlung! :rolleyes:
Die Kühlung ist nunmal das Hauptproblem.

Dafür, dass du glaubst, dass man bei einer Kühlung die theoretisch 200W abführen kann sofort eine 200W-CPU verbaut, kann ich nichts. Das ist dein mangeldes Wissen über die Planung von HPC-Clustern.

Und für "ganz Doofe" muß man wahrscheinlich noch erwähnen, daß es die Sprüche schon seit einigen Jahren gibt. Es bedeutet nicht, daß die Taktfrequenzen deutlich sinken (oder liest Du da was von "negative clock scaling" oder "frequence decrease"?), sondern daß Performancesteigerungen nicht mehr von möglichen Taktsteigerungen dominiert werden, sondern diese deutlich langsamer verlaufen. Ist aber wie gesagt im Prinzip kalter Kaffee. Wie stark sind gleich nochmal die Frequenzen bei CPUs oder auch GPUs in den letzten Jahren gestiegen? ;)
Angesichts der Probleme, die AMD mit der Stromaufnahme/Wärmeentwicklung des Bulldozers hat, kann man 1 und 1 zusammenzählen und kommt bei 2 raus - du allerdings behauptest weiter steif und fest es ist 3.

Ich errinnere an den ersten Cluster mit Fermi-Tesla Karten, bei dem die erwartete Leistung heruntergeschraubt werden musste, weil die Fermikarten in ihrem 225W-Fenster bleiben mussten und nicht genug Takt liefern konnten wie vorher geplant.

Im konkreten Beispiel kann man übrigens dagegen halten, daß bei BD im Vergleich zum K10 die Pipelines anders ausgelegt sind, so daß rein vom Design eine höhere Frequenz rauskommt (bei gleichem Stromverbrauch).
Also doch locker 2,6Ghz deiner Meinung nach? Ach ne, warst ja schon bei 2,3....

Wenn Du das Unsachliche mal weglassen könntest, dann hättest Du vielleicht diesen (http://www.forum-3dcenter.org/vbulletin/showthread.php?p=8983159#post8983159) oder auch diesen Post (http://www.forum-3dcenter.org/vbulletin/showthread.php?p=8983630#post8983630) zur Kenntnis genommen. Wenn man nämlich mal 1 und 1 zusammenzählt, kann Cray im Prinzip in vielen Fällen (also im Durchschnitt) eine größere Performance innerhalb des nominellen Powerbudgets (von wahrscheinlich so grob 10 MW) anbieten, wenn sie schnellere CPUs verbauen. Gerade weil weder GPU noch CPU alleine an das Limit kommen, sind da sehr interessante Powermanagement-Modi möglich.
Also doch wieder 2,6Ghz? Oder doch wieder nur 2,3? Und warum sollte man jetzt unbedingt die CPUs aufrüsten und noch dazu GPUs dazu packen, wenn man gar keine Möglichkeit hat diese parallel beide auszunutzen?

Natürlich Quatsch was du da wieder erzählst, man will (und darauf wird der Cluster auch ausgelegt) natürlich nach Möglichkeit BEIDE Prozessoren, sowohl GPU als auch CPU, zu 100% ausnutzen. Alles andere ergibt überhaupt keinen Sinn. Also ergibt 1 und 1 dann eben doch wieder weniger als 2,6Ghz...

Die GPUs sind natürlich über jeweils 16 PCI-Express-Lanes angekoppelt.
Ja, aber eben NICHT im PCIe-Format, sondern preprietär. Und noch dazu (das war der Ausgangspunkt) auf dem Bladeboard selbst und mitnichten in einem extra Gehäuse.

Und ich schrieb ja nicht umsonst schon, daß es ein wenig wie eine aufgebohrte MXM-Karte aussieht (die auch PCI-Express über einen Anschluß nutzt, der durch den Einsatzzweck natürlich auch anders als die normalen x16 Slots aussieht).
Ist selbstverständlich kein MXM, die sind für mobil ausgelegt und vertragen grob maximal 100W. Das ganze ist ein völlig anderer Anschluß, schon alleine weil die verwendeten Boards zigmal größer sind als so ein normales MXM-Modul.

Screemer

2011-10-16, 14:47:08

Die Kühlung ist nunmal das Hauptproblem.

Dafür, dass du glaubst, dass man bei einer Kühlung die theoretisch 200W abführen kann sofort eine 200W-CPU verbaut, kann ich nichts. Das ist dein mangeldes Wissen über die Planung von HPC-Clustern.
hierzu wurde dir schon mehrfach gesagt, dass pro node ca. 500W- und pro rack ca. 54KW-Kühlleistung zur verfügung stehen. irgendwie drehst du dich im kreis.

Ja, aber eben NICHT im PCIe-Format, sondern preprietär. Und noch dazu (das war der Ausgangspunkt) auf dem Bladeboard selbst und mitnichten in einem extra Gehäuse.

und was ändert das daran, dass die "kärtchen" per pcie angesprochen werden?

Ist selbstverständlich kein MXM, die sind für mobil ausgelegt und vertragen grob maximal 100W. Das ganze ist ein völlig anderer Anschluß, schon alleine weil die verwendeten Boards zigmal größer sind als so ein normales MXM-Modul.du bist wohl eine die nicht verstehen wollen, oder? er sagt doch expliziet "sieh sehen aus wie". er hat mit keinem wort behauptet, dass mxm-slots/module sind. das ändert im übrigen immer noch nichts an der anbindung per pcie.

komm mal wieder runter von deinem ross, du goldener reiter.

Bucklew

2011-10-16, 14:49:37

hierzu wurde dir schon mehrfach gesagt, dass pro node ca. 500W- und pro rack ca. 54KW-Kühlleistung zur verfügung stehen. irgendwie drehst du dich im kreis.
Nein ihr lest nur nicht. Das man 500W kühlen kann heißt noch lange nicht, dass man da 500W arbeiten lässt. Da ist eine nicht unwesentliche Sicherheitsmarge drin, weil das Ding 24/7 auf Volldampf laufen soll. Das ist nicht euer übliches "Ich overclocke mal etwas und das passt schon wenn die CPU auf 80°C läuft", das ist was VÖLLIG anderes.

Screemer

2011-10-16, 15:00:36

dir ist aber bewusst, dass derzeit im gleichen node jeweils zwei 115W cpus + tesla + io-krimskrams werkeln?

Bucklew

2011-10-16, 15:44:49

dir ist aber bewusst, dass derzeit im gleichen node jeweils zwei 115W cpus + tesla + io-krimskrams werkeln?
Nein, so ein Quatsch.

Das aktuelle System heißt "Jaguar" und basiert auf dem Cray XT5 - der ist CPU-Only. Verbaut sind dort Nodes mit jeweils zwei Opteron 2435, Istanbul. Also noch die alte Architektur als 6-Kerner.

So und dieser CPU-only Cluster wird auf den XK6 umgestellt, der neben einer Interlagos-CPU eine X2090 vorsieht. Und genau darum geht es. Weil man nämlich 2xCPU gegen 1xCPU+1xGPU tauscht. Und noch dazu die CPU nach dem was wir bisher von Bulldozer wissen wahrscheinlich deutlich mehr Strom konsumieren und Hitze prodzieren wird als der Alte. Von der GPU mal ganz zu schweigen, die sicherlich bei über 200W liegen wird...

Gipsel

2011-10-16, 15:51:54

Ach Bucklew, weder habe ich geschrieben, daß eine 200W CPU verbaut wird, noch daß die X2090 MXM-kompatibel sind. Du bist offensichtlich nicht bereit, ein paar elementaren Regeln einer Diskussion zu folgen.

Aber noch mal kurz hierzu:
Ich errinnere an den ersten Cluster mit Fermi-Tesla Karten, bei dem die erwartete Leistung heruntergeschraubt werden musste, weil die Fermikarten in ihrem 225W-Fenster bleiben mussten und nicht genug Takt liefern konnten wie vorher geplant.
Und wo ist das Problem, wenn die Telas in ihrem 225W-Fenster bleiben und die Opterons in ihrem 140W-Fenster?!? Die 140W bei 2,6GHz sind nämlich inzwischen keine Planung mehr, die stehen so auf der Preisliste und werden auch so geliefert. Oder hast Du da andere Informationen?
Natürlich Quatsch was du da wieder erzählst, man will (und darauf wird der Cluster auch ausgelegt) natürlich nach Möglichkeit BEIDE Prozessoren, sowohl GPU als auch CPU, zu 100% ausnutzen. Alles andere ergibt überhaupt keinen Sinn. Also ergibt 1 und 1 dann eben doch wieder weniger als 2,6Ghz...Offenbar ist das Prinzip des Hybrid-Computing bisher an Dir vorbei gegangen. Da geht es nicht nur darum, die Berechnung zu beschleunigen sondern eben in der Endkonsequenz darum, die Teile der Berechnung auf den jeweiligen Part der Maschine zu schieben, wo er schneller läuft (was meist heißt, wo er mit weniger Energieverbrauch erledigt wird). Das ist zwar meistens deckungsgleich, aber es gibt eben noch ein paar kleine Ecken, wo sich die Strategien leicht unterscheiden.

Machen wir mal ein ganz einfaches Modell auf, in dem CPU und GPU gleich viel Strom verbrauchen, die GPU die 10 mal so hohe Peakleistung hat, aber eben nicht für alle Probleme effizient genutzt werden kann.
Ein Problem kann jetzt die GPUs perfekt nutzen und liefert die Performance Y bei Verbrauch X rein auf den GPUs ohne Nutzung der CPUs (außer für minimale Verwaltungaufgaben, d.h. <5% Auslastung, praktisch idle). Lohnt es sich, die Arbeitsverteilung jetzt zu verkomplizieren (wodurch die Skalierung meist etwas schlechter wird) und einen Teil er Aufgabe auf die CPUs zu schieben?
Die Performance beträgt dann vielleicht Y+8%, Der Stromverbrauch Aber X+95%. Im Sinne der Performance/W fällt die Entscheidung da leicht.

Schlußfolgerung: Man will vielleicht doch nicht immer beide Prozessortypen maximal auslasten (mal abgesehen davon, daß das praktisch oft nicht geht).

Soll ich noch etwas kompliziertere Szenarien schildern, um das Powermanagement-Argument zu unterfüttern? Okay.

Man hat einen Worklad, in dem nur 80% perfekt auf GPUs laufen, die anderen 20% passen überhaupt nicht und müssen auf der CPU berechnet werden, die beide Teile können aber parallel zueinander laufen. Die CPU benötigt Zeit T, die GPU T*0,4 (GPU sollte ja 10 mal so schnell für geeignete Probleme sein). Die CPU hat also Vollast anliegen, die GPU ist nur zu 40% ausgelastet. Der Stromverbrauch beträgt demzufolge auch 1,4*X.
Angenommen die CPU unterstützt eine Art Turbo, die die Taktfrequenz um 25% anhebt auf Kosten von 40% mehr Stromverbrauch. Die CPU erledigt dann die Arbeit in 0,8*T (also 25% Performancesteigerung), die CPU in immer noch 0,4*T (GPU-Auslastung jetzt aber 50% statt 40%). Der Gesamtstromverbrauch beträgt jetzt 1,4*X+0,5*X=1,9*X, also 35% höher als ohne den Turbo. Dafür geht es aber jetzt auch 25% schneller und man bleibt immer noch in den Kapazitäten des Kühlsystems (was natürlich auf 2*X ausgelegt ist). Dabei ist das Stromverbrauchsmodell sogar ziemlich schlecht für das Szenario. Berücksichtigt man noch die lastunabhängigen Komponenten (der Verbrauch geht ja ohne Last nicht auf 0), kann der Speedup durch so einen Turbo manchmal auch größer sein als der Mehrverbrauch.

Umgekehrt kann natürlich bei geringer Last auf einer Komponente auch der Takt runtergefahren werden. Das ist ja nicht neu. Auf das Thema bezogen, man kann die Opterons der höheren TDP-Klassen im Prinzip instruieren (durch das OS), sich so zu verhalten wie der aus einer niedrigeren. Dies wird möglich, da jede Taktstufe eine spezifizierte TDP hat, nicht nur die maximale. Man kann also sogar das Kühlsystem für sagen mir mal nur 1,8*X spezifizieren und limitiert bei hoher GPU-Nutzung (die dann ja sowieso effizienter als die CPU sein dürfte, spart also mehr Power als es Performance kostet) die TDP der CPU auf 0,8*X. Damit gibt man auch keine Performance auf für Probleme, die weiterhin an den CPUs hängen und nicht an den GPUs. Dies würde man, falls von vornherein langsamere CPUs verbaut werden würden.

Überlagert wird das Ganze von dem allgemeinen Trend, daß niedriger getaktete (+angepaßte Spannung) Versionen von CPUs und GPUs eine höhere Performance/W aufweisen, was allerdings die Schwierigkeiten für den Interconnect (kostet ja auch Strom) und die Parallelisierung erhöht, ein bestimmtes Performancetarget zu erreichen.

Disclaimer für Bucklew:
Das oben sind allgemeine Überlegungen. Wie genau Cray diese Möglichkeit nutzt und für welchen Kompromiß sie sich entschieden haben, ist damit noch nicht gesagt.

Gipsel

2011-10-16, 15:58:11

Was erzählt du da für einen Quatsch? Glaubst du ernsthaft man legt so ein Kühlsystem auf eine 200W CPU (*18688 = 3,7MW) aus, nur um dann eine 140W zu verbauen?
Dafür, dass du glaubst, dass man bei einer Kühlung die theoretisch 200W abführen kann sofort eine 200W-CPU verbaut, kann ich nichts. Das ist dein mangeldes Wissen über die Planung von HPC-Clustern.
Nein ihr lest nur nicht. Das man 500W kühlen kann heißt noch lange nicht, dass man da 500W arbeiten lässt. Da ist eine nicht unwesentliche Sicherheitsmarge drin, weil das Ding 24/7 auf Volldampf laufen soll.
Wir lesen schon, allerdings scheint das, was Du schreibst, nicht wirklich konsistent zu sein. :wink:

Bucklew

2011-10-16, 16:02:44

Ach Bucklew, weder habe ich geschrieben, daß eine 200W CPU verbaut wird, noch daß die X2090 MXM-kompatibel sind. Du bist offensichtlich nicht bereit, ein paar elementaren Regeln einer Diskussion zu folgen.
"So eine XK6-Blade würde im Zweifelsfall auch 200W CPUs vertragen" (Zitat du).

Und wo ist das Problem, wenn die Telas in ihrem 225W-Fenster bleiben und die Opterons in ihrem 140W-Fenster?!? Die 140W bei 2,6GHz sind nämlich inzwischen keine Planung mehr, die stehen so auf der Preisliste und werden auch so geliefert. Oder hast Du da andere Informationen?
Vielleicht solltest du mal die Grundrechenarten lernen.

Aktuell reden wir von 2x115W, das ist wieviel? Rechne mal.

Und jetzt reden wir von 140W+225W, wieviel ist das? Und ist das weniger oder mehr als 2x115? Ach? Siehe da!

Offenbar ist das Prinzip des Hybrid-Computing bisher an Dir vorbei gegangen. Da geht es nicht nur darum, die Berechnung zu beschleunigen sondern eben in der Endkonsequenz darum, die Teile der Berechnung auf den jeweiligen Part der Maschine zu schieben, wo er schneller läuft (was meist heißt, wo er mit weniger Energieverbrauch erledigt wird). Das ist zwar meistens deckungsgleich, aber es gibt eben noch ein paar kleine Ecken, wo sich die Strategien leicht unterscheiden.
Wenn ich mir deine Aussagen so anschaue frage ich mich an wem was vorbeigegangen ist.

Schlußfolgerung: Man will vielleicht doch nicht immer beide Prozessortypen maximal auslasten (mal abgesehen davon, daß das praktisch oft nicht geht).
So ein Quatsch. Man kauft sich einen Millionen Dollar teuren Supercomputer und dann muss man mit der Workload aufpassen GPU und CPU nicht gleichzeitig auszulasten, weil man das nicht darf. Merkst du selbst nicht wie bescheuert die Argumentation ist?

Zumal deine Argumentation ja noch zu Beginn war, dass man auf jeden Fall 2,6Ghz einbauen wird, weil man die Performance ja haben will und nicht langsamere CPUs verbauen will. Und jetzt will man die Performance ja doch irgendwie nicht haben. Zumindest nich ständig. Und erst Recht nicht gleichzeitig. Also was denn jetzt?

Natürlich wird so ein Cluster auf Volllast ausgelegt und zwar von allem. Alles andere macht überhaupt keinen Sinn.

Wir lesen schon, allerdings scheint das, was Du schreibst, nicht wirklich konsistent zu sein. :wink:
Was ist da denn inkonsistent?

Wenn du meinst das da irgendwas inkonsistent ist, dann bist du der lebende Beweis für die absolut mangelhafte Lesekompetenz in unserem Schulsystem.

LovesuckZ

2011-10-16, 16:05:50

85% des Workloads soll für GPUs ausgerichtet sein. Wenn man sowieso nicht vorhat, dass man die CPUs voll auslastet, holt man sich geringtaktete CPUs.

Gipsel

2011-10-16, 16:08:30

"Vielleicht solltest du mal die Grundrechenarten lernen.

Aktuell reden wir von 2x115W, das ist wieviel? Rechne mal.

Und jetzt reden wir von 140W+225W, wieviel ist das? Und ist das weniger oder mehr als 2x115? Ach? Siehe da!Was willst Du jetzt damit sagen? Das der 16Kerner-Opteron nur 2*115-225=5 Watt verbrauchen darf? :freak:

Alles klar! Gut daß wir darüber gesprochen haben.

Und zur Inkonsistenz, wenn Du den leisen Widerspruch der zweiten und dritten Deiner Aussagen zur ersten nicht erkennst, kann ich auch nichts dafür.

Gipsel

2011-10-16, 16:12:44

85% des Workloads soll für GPUs ausgerichtet sein. Wenn man sowieso nicht vorhat, dass man die CPUs voll auslastet, holt man sich geringtaktete CPUs.
85% der Leistung (wahrscheinich beim HPL-Benchmark) soll von den GPUs kommen.

In der Praxis ist es nicht so einfach in großen GPU-Clustern beides ordentlich auszulasten. Viele Codes nutzen die GPUs nur rudimentär (z.T. prinzipbedingt), da bleibt es also weiterhin an den CPUs hängen. Wäre es anders, hätte ja auch ein 8- oder gar 4Kerner pro GPU gereicht (wie ich schon im Thread schrieb).

Bucklew

2011-10-16, 16:20:49

Was willst Du jetzt damit sagen? Das der 16Kerner-Opteron nur 2*115-225=5 Watt verbrauchen darf? :freak:
Nein. Aber das du das wie üblich nicht verstehst ist mir schon klar ;)

Und zur Inkonsistenz, wenn Du den leisen Widerspruch der zweiten und dritten Deiner Aussagen zur ersten nicht erkennst, kann ich auch nichts dafür.
Hä? In allen Fällen sage ich genau das gleiche: Nur weil man X W theoretisch kühlen kann heißt das noch lange nicht, dass man diese Kapazität voll ausschöpft, im Gegenteil.

Das hast du scheinbar immer noch nicht verstanden: Das TDP-Limit für die Komponenten steht vorher fest. Lange bevor es eine offizielle AMD-Angabe gibt. Und da rechnet man nicht mit theoretischen 200W, auch wenn du das glaubst. Das wollte ich mit der ersten Aussage sagen.

Man rechnet mit einer realistischen TDP, plant entsprechend Kühlung ein und dann wird eben die richtige CPU gekauft.

Das du ständig mit irgendwelchen Phantasiezahlen um die Ecke kommst, kann ich nichts für.

Gipsel

2011-10-16, 16:39:47

Nein. Aber das du das wie üblich nicht verstehst ist mir schon klar ;)Ich bin Deiner Aufforderung zum Rechnen nachgekommen und habe eine sich daraus ergebene Frage gestellt. Beantworte sie doch einfach! ;)
Hä? In allen Fällen sage ich genau das gleiche: Nur weil man X W theoretisch kühlen kann heißt das noch lange nicht, dass man diese Kapazität voll ausschöpft, im Gegenteil.Achso, und ich dachte schon ich hätte als erster hier im Thread von den eingeplanten Reserven im Kühlsystem geschrieben, woraufhin Du geantwortet hast:
Was erzählt du da für einen Quatsch? Glaubst du ernsthaft man legt so ein Kühlsystem auf eine 200W CPU (*18688 = 3,7MW) aus, nur um dann eine 140W zu verbauen?

Mal ehrlich, was glaubst du eigentlich wie so Dinger geplant und gebaut werden?Nur um dann hinterher auf die alte (meine ;)) Linie umzuschwenken. :rolleyes:
Das hast du scheinbar immer noch nicht verstanden: Das TDP-Limit für die Komponenten steht vorher fest. Lange bevor es eine offizielle AMD-Angabe gibt. Und da rechnet man nicht mit theoretischen 200W, auch wenn du das glaubst. Das wollte ich mit der ersten Aussage sagen.Man legt sich auf eine der lange bekannten TDP-Klassen fest und plant eine gewisse Reserve ein, ja. Wie lange gibt es schon die 105W ACP/140W TDP-Klasse oder die 80W ACP/115W TDP-Klasse? Kannst Du irgendeinen Grund vorbringen, warum sich Cray auf eine niedrigere als diese festgelegt haben soll? Dann schaust Du mal ins Angebot von AMD, was es da für Taktraten in den Fenstern gibt und Du bist fertig.
Man rechnet mit einer realistischen TDP, plant entsprechend Kühlung ein und dann wird eben die richtige CPU gekauft.

Das du ständig mit irgendwelchen Phantasiezahlen um die Ecke kommst, kann ich nichts für.
Schau mal in meinen allerersten Post hier im Thread. Da gebe ich zwei möglicherweise passende CPUs mitsamt dem TDP-Limit an. Fantasiezahlen? ;D

Bucklew

2011-10-16, 16:51:52

Ich bin Deiner Aufforderung zum Rechnen nachgekommen und habe eine sich daraus ergebene Frage gestellt. Beantworte sie doch einfach! ;)
Warum? Du spekulierst doch auch nur und legst dich überhaupt nicht fest. 2,6 vs. 2,3, remember?

Achso, und ich dachte schon ich hätte als erster hier im Thread von den eingeplanten Reserven im Kühlsystem geschrieben, woraufhin Du geantwortet hast:
Nur um dann hinterher auf die alte (meine ;)) Linie umzuschwenken. :rolleyes:
DEINE Linie? Deine Linie ist, dass 2,6Ghz verbaut werden, weil die Kühlung überhaupt kein Problem ist:
http://www.forum-3dcenter.org/vbulletin/showpost.php?p=8982659&postcount=3

Man legt sich auf eine der lange bekannten TDP-Klassen fest und plant eine gewisse Reserve ein, ja. Wie lange gibt es schon die 105W ACP/140W TDP-Klasse oder die 80W ACP/115W TDP-Klasse? Kannst Du irgendeinen Grund vorbringen, warum sich Cray auf eine niedrigere als diese festgelegt haben soll? Dann schaust Du mal ins Angebot von AMD, was es da für Taktraten in den Fenstern gibt und Du bist fertig.
Bereits bei "nur" 2xCPU hat man sich auf 115W TDP festgelegt und nicht 140W genutzt. Wie realistisch sind jetzt also die 2,6Ghz Bulldozer mit 140W TDP? Ja, da ist man wirklich fertig, wie realistisch die 2,6Ghz sind.

Aber vielleicht fragen die dich ja noch, dann kannst du ja einfach die 2,6 nehmen, weil das ist ja überhaupt kein Problem ;D

Schau mal in meinen allerersten Post hier im Thread. Da gebe ich zwei möglicherweise passende CPUs mitsamt dem TDP-Limit an. Fantasiezahlen? ;D
Und wo stehen deine ominösen 200W?

Gipsel

2011-10-16, 19:43:34

Warum? Du spekulierst doch auch nur und legst dich überhaupt nicht fest. 2,6 vs. 2,3, remember?

DEINE Linie? Deine Linie ist, dass 2,6Ghz verbaut werden,
:freak: :D
Bereits bei "nur" 2xCPU hat man sich auf 115W TDP festgelegt und nicht 140W genutzt. Wie realistisch sind jetzt also die 2,6Ghz Bulldozer mit 140W TDP?Wenn man keinen realen Performance-Verlust durch die Sockelhalbierung haben will, wäre das gar nicht so schlecht, die 140er-TDP-Klasse zu nehmen, auch wegen dem Hybridcharakter der Knoten. Auf die seltene gleichzeitige Vollauslastung von CPU und GPU habe ich ja schon hingewiesen (was man durch Limitierung der P-States der CPU in diesem Fall auffangen kann).
Aber ich habe ja auch von Anfang an die 80W ACP/115W TDP-Typen als wahrscheinliche Möglichkeit genannt, die bei 2,3 GHz und 33% mehr Kernen zumindest die Fließkomma Peak-Leistung ebenfalls noch etwas steigen lassen würden. Und unter 2,1 GHz (das langsamste Modell mit 115W TDP) gibt es nur noch ein Modell mit 85W TDP (60W ACP?) und 1,6GHz. Das wäre doch wohl ein zu offensichtlicher Rückschritt bei der Leistung im Vergleich zu 12 K10-Kernen mit 2,6 GHz pro Knoten.
Dies war es wohl auch, was Spasstiger ganz am Anfang dazu bewog, CPU-Frequenzen unter 2 GHz auszuschließen.

Edit:
Der Teil des XK6-Boards, in dem die Opterons stecken ist übrigens laut Cray physisch identisch zu den XE6-Blades. Und wenn man mal so ein wenig rumschaut, setzen die allermeisten XE6-Cluster als CPUs die Standardmodelle (also weder SE noch HE) mit 80W ACP/115W TDP ein. Es ist also mit einiger Wahrscheinlichkeit zu vermuten, daß das ORNL bei Titan genau so verfahren wird, was dann laut aktuellem Angebot von AMD in einem Fenster zwischen 2,1 und 2,3 GHz Grundtakt resultiert.

Hugo

2011-10-23, 14:28:36

in der aktuellen Ct (Prozessorgeflüster S.20) steht dass 18688 Kepler GPUs verbaut werden sollen.
Ein Knoten mit je 4 Interlagos CPUs und 4 Kepler GPUs. Also 18688 CPUs und 18688 GPUs.
und Bill Daily sagt Kepler soll über 90% Effiziens besitzen was auch immer das heißen mag

Skysnake

2011-10-23, 14:30:22

Bezieht sich wahrscheinlich auf Peak/Theoretische Rechenleistung

Das wäre für ne GPU schon ein SEHR guter Wert, wobei man halt schauen muss, wie gut das Programm optimiert ist. Oft hat man ja für ne GPU so einen Wert um ~50-75%

Gipsel

2011-10-23, 17:58:21

in der aktuellen Ct (Prozessorgeflüster S.20) steht dass 18688 Kepler GPUs verbaut werden sollen.Bis zu 18688. Das ORNL selber sagt, daß die genaue Anzahl noch nicht feststeht. Und auch in der Cray Pressemeldung finden sich entsprechende Passagen.

Hugo

2011-10-23, 18:33:23

Bis zu 18688. Das ORNL selber sagt, daß die genaue Anzahl noch nicht feststeht. Und auch in der Cray Pressemeldung finden sich entsprechende Passagen.

bis zu kann ich im Artikel nicht lesen ;)

Gipsel

2011-10-23, 19:31:57

bis zu kann ich im Artikel nicht lesen ;)
Das ein Heise Schreiberling (sorry AS, falls Du das liest) das nicht mitbekommen hat, ändert aber auch nichts daran. ;)

Edit: Und das an der Abbildung einer XK6-Blade dransteht, da wären Kepler GPUs drin (es sind X2090 der Fermi-Generation), ist ja auch nur ein kleiner Fehler. Im Titan werden in frühestens 9 Monaten Kepler GPUs drinstecken.

Hugo

2011-10-23, 19:58:58

ich möcht mich auch nicht streiten, wollte nur auf den Artikel hinweisen
dass da keine Kepler drunter sind hab ich auch schon vermutet