PDA

Archiv verlassen und diese Seite im Standarddesign anzeigen : Riesenchipsies für Supercomputer!


Mastermind
2007-04-21, 22:26:29
Mir hats neulich die Frage durch den Kopf geschossen, warum wir eigentlich immer diese winzigen Chips bauen. Für die meisten Anwendungen mag das sinnvoll sein, aber für Supercomputer wäre es meiner Vorstellung nach doch viel sinnvoller, wenn man einen gigantischen Chip baut, wo viele Dies direkt auf Chip-Ebene miteinander verbunden sind. Ähnlich wie bei einer Multicore-CPU, aber noch viel größer. Im Extremfall sogar dreidimensional. Die Latenzen dürften doch unvergleichlich besser sein als bei herkömmlichen Lösungen und es wäre eine enorme parallele Leistung möglich.

Ich wüsste auf Anhieb auch nicht was technisch dagegen spräche. Was sagen die Experten zu diesem Gedanken? Als Kühlung könnte man z.B. beim dreidimensionalen Gebilde auf von Kühlflüssigkeit durchströmte Kanäle zwischen den Kernen zurückgreifen.

Crazy_Chris
2007-04-21, 22:30:44
Die Kosten sprechen dagegen

Mastermind
2007-04-21, 22:31:37
Die Kosten sprechen dagegen
Warum sollten die Kosten für einen großen Chip überproportional größer sein als für mehrere kleine?

Coda
2007-04-21, 22:31:56
Und die Kühlbarkeit...

Gast
2007-04-21, 22:33:07
Momentan ist sowas noch günstiger:
http://www.cs.utah.edu/classes/cs3710/power5_8way_144MBcache.jpg
Da kann man defekte Cores einfach wegschmeissen und nur funktionierende verbauen.

Ihm
2007-04-21, 22:39:07
Was verstehst du unter einem "Supercomputer"?
Opteron-Cluster, IBM Blue Gene, NEC SX5, SX6, SX7, SX8?

Mastermind
2007-04-21, 22:40:26
Und die Kühlbarkeit...
Sollte wie gesagt kein Problem darstellen.

Momentan ist sowas noch günstiger:
http://www.cs.utah.edu/classes/cs3710/power5_8way_144MBcache.jpg
Da kann man defekte Cores einfach wegschmeissen und nur funktionierende verbauen.
Das mit der Fehleranfälligkeit hat mir auch schon zu denken gegeben. Mein Gedanke dazu war: könnte man diese Riesenchips nicht aus vielen kleinen herkömmlich hergestellten wie ein Puzzle zusammenbauen, indem man am Ende nur noch zwischen den selektierten Teilen die Verbindungsbrücken anbringt bzw. diese schon vorbaut und die Chips dann nur noch aneinander "andocken" lässt?

Mastermind
2007-04-21, 22:45:33
Was verstehst du unter einem "Supercomputer"?
Opteron-Cluster, IBM Blue Gene, NEC SX5, SX6, SX7, SX8?
Ich folge da der allgemeinhin gebräuchlichen Definition und orientiere mich an den Top-Modellen dieser Liste hier
http://www.forum-3dcenter.org/vbulletin/newreply.php?do=newreply&p=5428156

Insofern wäre Blue Gene ein gutes Beispiel, weil bei solchen Prozessormengen natürlich die Organisation sehr trickreich wird.

Es gibt ja Berechnungen, wo das weniger Problematisch ist, weil die einzelnen Kerne länger ihr eigenes Süppchen kochen und größtenteils unabhängig agieren können. Bei bestimmten Berechnungen ist es aber essentiell z.B. auf die Ergebnisse der anderen Kerne zuzugreifen. Da ist eine geringe Latenz bei der Kommunikation zwischen den einzelnen Kernen entscheidend und wird normalerweise in der Architektur auch berücksichtigt. Trotzdem ist man mit herkömmlichen Verfahren ja sehr viel langsamer, als z.B. die Kommunikation zwischen zwei Kernen bei einem Dualcore-Prozessor. :wink:

Hamster
2007-04-21, 23:17:41
selbst wenn es möglich wäre, es ist schlicht zu teuer. alleine die entwicklungskosten würden immense kosten verursachen.

es kommt nun malgünstiger bestehende chips zu verwenden und diese in massen zu verbauen.

Gouvernator
2007-04-21, 23:22:19
So ein 300mm Wafer mit nur einem Chip drauf wäre nicht schlecht...

Spasstiger
2007-04-21, 23:28:51
So ein 300mm Wafer mit nur einem Chip drauf wäre nicht schlecht...
Die Ausbeute wäre unter aller Kanone und so ein 300mm-Wafer ist alles andere als günstig.

Gast
2007-04-21, 23:36:01
Das mit der Fehleranfälligkeit hat mir auch schon zu denken gegeben. Mein Gedanke dazu war: könnte man diese Riesenchips nicht aus vielen kleinen herkömmlich hergestellten wie ein Puzzle zusammenbauen, indem man am Ende nur noch zwischen den selektierten Teilen die Verbindungsbrücken anbringt bzw. diese schon vorbaut und die Chips dann nur noch aneinander "andocken" lässt?
Dann kannst du die Dinger auch über den Träger, wie beim Power5, verbinden.
Die nächste Stufe wird sein, dass man die Caches unter dem Prozessor verbaut (siehe Larrabee). Auf ein solches Modul kriegt man dann ja schon doppelt soviele Dies unter. Mehrere Logikschichten übereinander ist von der Wärmeabgabe momentan nicht vertretbar. In Zukunft wird man das aber bestimmt auch sehen.
Wesentlich bessere Fertigungtechniken wird man im Serverbereich aber nie sehen. Es wäre auch reichlich blöd diese nicht auch im Desktopsegment zu nutzen. Einziger Unterschied im Serverbereich sind einfach größere Dieflächen, da der Gewinn höher ist.

Gouvernator
2007-04-21, 23:36:35
Die Ausbeute wäre unter aller Kanone und so ein 300mm-Wafer ist alles andere als günstig.
Finde ich trotzdem gut :D

Trap
2007-04-21, 23:44:29
Für welche Anwendung braucht man kleinere Latenz und höhere Bandbreite?

Mastermind
2007-04-22, 15:18:19
Für welche Anwendung braucht man kleinere Latenz und höhere Bandbreite?
Das wären z.B. physikalisch möglichst korrekte Strömungssimulationen. Generell sind das Simulationen, bei denen Rückkopplungsprozesse eine wichtige Rolle spielen.

pancho
2007-04-22, 16:00:18
So ein 300mm Wafer mit nur einem Chip drauf wäre nicht schlecht...
Das ist aus technischer Sicht eine Katastrophe. Man landet wieder im niedrigen MHz-Bereich, falls man so ein design überhaupt zum Laufen bringt.

huha
2007-04-22, 16:06:43
Ein 300mm-Wafer mit einem einzigen Chip ist nicht realisierbar. Jeder Wafer hat Fehler, weshalb auch jeder Chip Fehler hätte ;)
Außerdem teuer und schon allein der Signallaufzeiten wegen unpraktikabel.

-huha

Coda
2007-04-22, 16:18:06
Wäre trotzdem mal was für Intel zum Angeben. Die Montecitos sind ja auch nicht weit weg davon :ugly:

Spasstiger
2007-04-22, 16:30:07
und schon allein der Signallaufzeiten wegen unpraktikabel.
Jopp, im Gigahertz-Bereich bräuchte ein Signal mehrere Takte, um von der einen Seite des Chips bis zur anderen Seite des Chips wandern (bei 300 mm Durchmesser).
Und mit 100 MHz würde man niemand mehr hinter dem Ofen hervorlocken können, selbst wenn der Chip 1000 paralle Recheneinheiten hätte.

Trap
2007-04-22, 18:13:24
Das wären z.B. physikalisch möglichst korrekte Strömungssimulationen. Generell sind das Simulationen, bei denen Rückkopplungsprozesse eine wichtige Rolle spielen.
Ich bin da kein Experte, aber werden solche Sachen nicht schrittweise gelöst? Rückkopplung existiert dann nur in den Daten, nicht in der Berechnung.

Achso, es gibt Firmen die stellen auf 200er (oder waren es 160er?) Wafern nur 2 Chips her. Sensoren für Hochleistungskameras, da sind die Defekte nicht so tragisch.

BBB
2007-04-22, 21:40:19
Achso, es gibt Firmen die stellen auf 200er (oder waren es 160er?) Wafern nur 2 Chips her. Sensoren für Hochleistungskameras, da sind die Defekte nicht so tragisch.

Außerdem ist die Herstellung von einem Bildsensor sicher einfacher als die von einer CPU. Bei Canons 35mm Sensoren zum Beispiel belichten die Stepper die Wafer pro Sensor zwei mal hintereinander, weil es keine Stepper gibt die die komplette Fläche abdecken könnten. Ich weiß nicht ob man das auch mit CPUs hinkriegt.

Gast
2007-04-22, 21:48:33
Ich weiß nicht ob man das auch mit CPUs hinkriegt.

vor allem werden bei einem bildsensor ähnlich wie bei einer festplatte defekte pixel einfach maskiert.

huha
2007-04-22, 21:51:59
...und die Strukturbreiten sind höher als bei CPUs, was die Produktion zuverlässiger und günstiger macht.

-huha

Brainwave007
2007-04-22, 21:54:56
Die Wärmeentwicklung spricht dagegen....
je größer der Chip um so schwerer ist die Kühlung...
d.h.Bei einem Core2Duo der gerade mal 4 mal größer ist als der handelsüblicher Core2Duo. muss die Oberfläche mit weniger als -100°C gekühlt werden, damit er funktionstüchtig bleibt....

Wuge
2007-04-22, 22:59:06
Jopp, im Gigahertz-Bereich bräuchte ein Signal mehrere Takte, um von der einen Seite des Chips bis zur anderen Seite des Chips wandern (bei 300 mm Durchmesser).
Und mit 100 MHz würde man niemand mehr hinter dem Ofen hervorlocken können, selbst wenn der Chip 1000 paralle Recheneinheiten hätte.

Man könnte das Design aber so gestalten, dass gemeinsam genutzte Teile z.B. Cache, Registerfile etc. in der Mitte liegen.

Generell sotte es möglich sein, die Logic so anzuordnen, dass ein Signal nicht über den ganzen Wafer muss. Notfalls gibts Drive.

Aber wie schon gesagt, Ausbeute <1% - daher nicht umsetzbar.

Gast
2007-04-22, 23:15:20
Man könnte das Design aber so gestalten, dass gemeinsam genutzte Teile z.B. Cache, Registerfile etc. in der Mitte liegen.



sehr schlechte wahl, kernlogik lässt sich im gegensatz zu cache nur recht schlecht mit redundanzen fertigen und am rand ist tendenziell die qualität des wafers am schlechtesten.

huha
2007-04-22, 23:32:39
So riesige Chips würden sinnvollerweise sowieso aus hunderten identischer Einheiten bestehen und eben nur nicht auseinandergesägt werden. Dann ist die Waferqualität zwar weiterhin ein Problem, aber wenn wir dies einmal kurz vernachlässigen, wäre es ein halbwegs praktikabler Ansatz. Lediglich die Strom- und Datenversorgung könnte sich als problematisch herausstellen, die Kühlung wäre nicht besonders schwierig, ein Wasserkühlsystem mit 30cm Kühlblockdurchmesser würde den 30cm-Wafer durchaus ordentlich und halbwegs preisgünstig kühlen können ;)

-huha

Wuge
2007-04-23, 17:22:27
Noch ein Problem: Das Taktsignal auf dem kompletten Wafer muss synchron sein. Ob das noch realisierbar ist bei so einem riesen Chip?

Gast
2007-04-23, 21:12:23
Noch ein Problem: Das Taktsignal auf dem kompletten Wafer muss synchron sein. Ob das noch realisierbar ist bei so einem riesen Chip?

nicht zwangsläufig, es wäre durchaus ein massiver multicore denkbar, da kann jeder einzelne kern ein eigenes taktsignal haben.

zappenduster
2007-04-23, 22:16:01
So riesige Chips würden sinnvollerweise sowieso aus hunderten identischer Einheiten bestehen und eben nur nicht auseinandergesägt werden. Dann ist die Waferqualität zwar weiterhin ein Problem, aber wenn wir dies einmal kurz vernachlässigen, wäre es ein halbwegs praktikabler Ansatz. Lediglich die Strom- und Datenversorgung könnte sich als problematisch herausstellen, die Kühlung wäre nicht besonders schwierig, ein Wasserkühlsystem mit 30cm Kühlblockdurchmesser würde den 30cm-Wafer durchaus ordentlich und halbwegs preisgünstig kühlen können ;)

-huha

ist nur ein problem was bleibt das zwichen 1 und 30% der flaeche auf einem wafer sowieso schrott sind 100% ausbeute gibts sogut wie nicht (und wenn dann nur in stueckzahlen die sich nicht lohnen)

Xmas
2007-04-24, 15:29:41
Es gibt zunächst mal eine ganze Reihe produktionstechnischer Gründe wieso sich das nicht lohnt. Große Dies lassen sich schwer herstellen und verarbeiten, beim Packaging jedes Dies können nochmal Fehler auftreten (weshalb Multi-Die-Packages ab einer bestimmten Zahl nicht mehr praktikabel sind), das ganze will auf kleinem Raum mit Strom versorgt und gekühlt werden, und irgendwie wollen alle Kerne ja auch auf Speicher zugreifen.

Dann gibt es die Probleme Ausfallsicherheit und Skalierbarkeit. Bei einem Supercomputer der aus vernetzten Rechnern besteht kann man leicht mal einen Rechner austauschen oder weitere hinzufügen. Höhere Integrationsdichte heißt weniger Modularität.

Und letztlich bringt das ganze gar nicht viel. Wenn hunderte oder gar tausende Kerne miteinander kommunizieren sollen, bringt das automatisch eine gewisse Latenz mit sich. Man braucht ein komplexes Kommunikationsnetzwerk, egal ob die äußere Grenze nun Die, Package, Rechner oder LAN ist. Und diese Latenz zusammen mit dem Problem der Synchronisation sorgt bereits dafür, dass Software die auf hunderten oder tausenden CPU-Kernen parallel laufen soll einfach nicht viel kommunizieren darf. Entsprechend werden die Algorithmen entworfen.


Die Wärmeentwicklung spricht dagegen....
je größer der Chip um so schwerer ist die Kühlung...
d.h.Bei einem Core2Duo der gerade mal 4 mal größer ist als der handelsüblicher Core2Duo. muss die Oberfläche mit weniger als -100°C gekühlt werden, damit er funktionstüchtig bleibt....
Wie kommst du darauf?

Noch ein Problem: Das Taktsignal auf dem kompletten Wafer muss synchron sein. Ob das noch realisierbar ist bei so einem riesen Chip?
Verschiene Chipteile müssen ja nicht einmal denselben Takt haben, das ist also ein gelöstes Problem. Alternativ gäbe es ja auch noch asynchrone Logik.