PDA

Archiv verlassen und diese Seite im Standarddesign anzeigen : Cerebras. Wer kauft sie?


Badesalz
2021-08-19, 09:16:07
Moin.
Kauft, im Sinne von Aufkauft ;)
Vorweg: Mir wäre es natürlich lieber, wenn sie eine eigene Firma bleiben würden bzw. sich einfach nicht kaufen lassen möchten, aber sie würfeln grad alles neu und das sieht nicht nach Eintagsfliege aus. Dafür sind sie jetzt schon viel zu gut.

Ist AI/DL also auf diskreten GPUs tot? Ist das der Grund warum AMD sich eher auf FP konzentriert als auf Nvidias Spezialitäten? Oder, hat Cerebras später auch FP32/FP64 in der Größenordnung vor?

Größenordnung von CS-1 (System) bzw. WSE-1 (der Chip selbst), mit der Info im Hinterkopf, daß der Speedup CS-2/WSE-2, bereits fertiggestellt, bei der langsamsten Aufgabe 2x ist. Meist mehr als 3x.
Kundenurteile: 2 Tage statt 2 Wochen, 80fach schneller als das Produktive System, hundertfach (mehrere!) schneller...
https://en.wikipedia.org/wiki/Cerebras#Deployments

Anderes Beispiel: Die erste reale Möglichkeit über Teilergebnisse einer Simulation maschinell nachzudenken um ihre Parameter zu optimieren. Theoretischer Ansatz der erst mit Cerebras real schnell genug möglich ist
https://www.osti.gov/servlets/purl/1643766
Sozusagen, 1000 GPUs rechnen einen klassischen FP32/FP64 Job und ein CS-x analysiert und optimiert die Simulation während der Laufzeit...

Was man an den Links erkennt: Sie finden ihre Softwarebasis 1:1 so wichtig wie die Hardwareentwicklung. Es hat keine 6 Monate gedauert bis early adopters ihre bisherigen AI/DL Lösungen auf WSE umgeschrieben haben und das auch direkt in Produktiv. 1x adaptiert, ist der Aufwand bei neuen WSEs nur noch geringfügig. Sie hatten und haben also schon mit der ersten Version ein komplett erwachsenes und fertiges System.

Mit diesen Speedups zu aktuell und bisher genutzten AI/ML/DL Lösungen macht man doch ALLES platt?
Ein System aus (hypothetisch) 700 Hopper wird ja nicht 80x schneller als mit 700 Ampere (?) Und das war CS-1. CS-2 ist bei gleicher Größe und gleichem Verbrauch 2x bis 4x schneller als CS-1.

edit:
Großteil des PR-Journalismus der allgemein auch über CPUs und GPUs berichtet, schweigt mehr oder weniger. Die einzigen die das Thema gelegentlich aber richtig aufgreifen ist überraschenderweise Luxx. Die meisten anderen meiden es nahezu =)

konkretor
2021-08-19, 20:41:01
Also hier wird fleißig berichtet


https://www.youtube.com/watch?v=FNd94_XaVlY

y33H@
2021-08-19, 21:57:27
Großteil des PR-Journalismus der allgemein auch über CPUs und GPUs berichtet, schweigt mehr oder weniger. Die einzigen die das Thema gelegentlich aber richtig aufgreifen ist überraschenderweise Luxx. Die meisten anderen meiden es nahezu =)Ich sehe Artikel bei Computerbase, Golem, usw

Badesalz
2021-08-20, 07:43:26
Golem ist ja auch an keinen gebunden ;) Klar ergoogelt man ab und zu was. Dafür aber, daß es eine waschechte Revolution ist und man das BFP16 und INT8 Gezauber auf der GPU nun wieder vergessen kann...

Aber ok. Wenn der Edit das wichtigste war ;)

mboeller
2021-08-20, 09:39:00
Golem ist ja auch an keinen gebunden ;) Klar ergoogelt man ab und zu was. Dafür aber, daß es eine waschechte Revolution ist und man das BFP16 und INT8 Gezauber auf der GPU nun wieder vergessen kann...


warum?

Badesalz
2021-08-20, 11:15:59
Wegen der Sicherheit.

mboeller
2021-08-20, 11:26:50
Wegen der Sicherheit.

kannst du das genauer ausführen?

Badesalz
2021-08-20, 12:35:58
Sorry. Das war die Antwort die ich irgendwie gebührend der Frage entsprechend fand. Ein bestimmter Gedanke, wie auch bei der Frage halt auch, steckte nicht dahinter.

Davor, ging es darum, daß man in8 + Quantisation beim deep neural network nicht mehr auf der GPU benötigt, wenn ein System mit einem/einer WSE mit dem Verbrauch von 50 solchen einzelnen GPUs, es 80x schneller macht als Systeme mit mehreren Hunderten GPUs.
Ging mir vorher nicht in den Kopf was es dabei noch zu grübeln gibt. Dachte du hast einen Joke machen wollen. Sorry.

HPVD
2021-08-20, 14:47:12
oder doch auf Tesla setzen, falls sie bald in den KI-Chip Markt einsteigen?

Das Aufsetzen der Chips auf einem Wafer behebt Probleme, die Cerebras' Wafer Scale Engine 2 hat. Cerebras belichtet einen riesigen Prozessor auf einem einzelnen Wafer, muss aufgrund der üblichen Defektquote beim Belichten aber ordentlich Redundanz einbauen, zudem gestalten sich Kühlung, Stabilität und Stromversorgung aufwendig.

Tesla löst das vertikal: Im Wafer sind Bohrungen, um Wasserkühlungsrohre und Stromversorgungen durchzuführen. Selbstentworfene Spannungswandlermodule sitzen direkt über den Prozessoren, die 15 Kilowatt Strom kommen von unten, oben wird die Abwärme per Wasser abgeführt.

https://www.heise.de/news/Dojo-Tesla-baut-mit-fast-ganzen-Wafern-eigene-Riesen-KI-Prozessoren-6170867.html

Tobalt
2021-08-20, 14:52:25
klar ist, dass sich sowohl Training als auch Inference extrem gut parallelisieren lassen. Wie ich schon mehrfach schrieb, wenn Perf/W king ist, dann sollte man versuchen sehr niedrig zu takten.. Performance kommt dann halt von paralleler Hardware. Nachteil davon sind die Kosten, weil mehr Si. GPU (und CPU noch mehr) sind halt einem gewissen Kostendruck unterlegen, wodurch die mit viel Takt und wenig Si betrieben werden. Bei CPU kommt noch dazu, dass er Parallelität auch Grenzen gesetzt sind.

Wenn man sich nur AI als Aufgabe auf die Stirn schreibt und Perf/€ nebensächlich ist, da die Dinger eh 24/7 laufen, ist ein breites Design natürlich sehr gut. WSE ist also für diesen Sektor (maximum Perf/W) eine konsequente Entwicklung und erzeugt gegenüber Multichip auch noch einige Synergien. Wird wohl für solche Aufgaben bleiben und sich schließlich auch bei Perf/€ mit Großrechnern messen müssen

mboeller
2021-08-20, 17:40:16
Sorry. Das war die Antwort die ich irgendwie gebührend der Frage entsprechend fand. Ein bestimmter Gedanke, wie auch bei der Frage halt auch, steckte nicht dahinter.

Davor, ging es darum, daß man in8 + Quantisation beim deep neural network nicht mehr auf der GPU benötigt, wenn ein System mit einem/einer WSE mit dem Verbrauch von 50 solchen einzelnen GPUs, es 80x schneller macht als Systeme mit mehreren Hunderten GPUs.
Ging mir vorher nicht in den Kopf was es dabei noch zu grübeln gibt. Dachte du hast einen Joke machen wollen. Sorry.


Das warum war schon ernst gemeint. Ich denke du vergisst bei deiner Argumentation IMHO den entscheidenden Punkt: der Preis für das System beträgt min. 2Mio; incl. allem wahrscheinlich eher 4Mio.

Ein Server mit 4 A100 kostet (hab das aber bei ASUS nur mal kurz gegoogelt) so 60-80 TEuro.

Nicht für alles braucht man ein System das 2-4 Mio oder gar mehr kostet.

Badesalz
2021-08-20, 20:29:00
Ok. Das ist richtig. Das ist natürlich eine Frage wie schnell es sein muss für welches Geld. Ich hab leider erstmal nur dicke Rechenzentren im Kopf gehabt. Das ist mit viel niedriger dotierten Einrichtungen natürlich anders.
Es ist wie alles andere auch, eine Kosten/Nutzen Rechnung.

basix
2021-08-21, 08:52:24
Cerebras ist eine der wenigen (einzige?) ML/AI Startups, die Geld verdienen. Die allermeisten anderen verbrennen einfach Geld oder hatten das Glück, von einem der grossen wie Intel aufgekauft worden zu sein. Und dann oftmals eingestampft worden sind.

Badesalz
2021-08-21, 09:43:17
Man sollte auch nicht die Stückzahlen vergessen. Momentan kostet ein CS was es halt kostet, weil man das nicht gleich verschenken will und halt nicht 100 pro Woche verkauft. Wenn die Anfragen aber steigen sollten?

20kW für die Leistung wäre bei GPUs eher ULV :tongue: Es ist dabei um Potenzen schneller als ein Rack mit DGX A100 Kisten der 20kW zieht.
Aktuell hat man sich halt für Paukenschläge entschieden. Was auch wichtig ist, wenn man den Markt erstmal begrüssen will.

Was sollte aber Designs verhindern die 2 oder 4 WSEs aus einem Waffer zaubern? Perf/W bleibt auch bei 10kW und 5kW.
Die CS können kleiner ausfallen, die Anschaffungskosten sinken, auch durch größere Verkaufszahlen?

Ein DGX A100 6.5kW + 3 Jahre Support für knappe 151T €.
https://www.deltacomputer.com/nvidia-dgx-a100-320gb-3ys-edu.html
Wie würde sich ein 5kW CS der 11x so schnell ist für 320T € verkaufen? Hmm.