Archiv verlassen und diese Seite im Standarddesign anzeigen : AMD - AMDs CPU-Architekturen-Strategie (Skybridge, K12, Zen, ...)
Seiten :
1
2
3
4
5
6
7
8
9
[
10]
11
12
13
14
15
16
17
18
19
20
AnarchX
2016-01-02, 15:14:51
1GB sollten doch erstmal für Buffer&Co ausreichen. Texturen und andere Daten kann man auch mit ~48GB/s aus dem Hauptspeicher nachladen. Anders macht es Intel mit den eDRAM auch nicht und da sind es nur 128MiB. Mit dem aufgezeigten könnte man wohl eine 16CU APU gut füttern.
fondness
2016-01-02, 15:19:15
Mit HBM2 schafft man vor allem mit einem HBM-Modul eh schon 4-8GB und 256GB/s Bandbreite.
Unicous
2016-01-02, 15:21:29
@z3ck3
1GB dedizierter RAM für eine iGPU wäre mehr als ordentlich. Der Rest geht dann in den Hauptspeicher. Sogar 512MB wären noch mehr als ok.
Zum Vergleich: Der Haswell-eDRAM ist 128MB groß und schafft 102GB/s. Ich glaube in der Zwischenzeit hat sich da nicht viel getan.
edit: AnarchX war schneller.:frown:
AnarchX
2016-01-02, 15:30:52
Mit HBM2 schafft man vor allem mit einem HBM-Modul eh schon 4-8GB und 256GB/s Bandbreite.
So eine virtuelle PS4 auf einer Zen+ APU wäre sicherlich eine nette Sache. :D
fondness
2016-01-02, 15:34:05
So eine virtuelle PS4 auf einer Zen+ APU wäre sicherlich eine nette Sache. :D
Da denke ich eher an eine 600mm² Zen-APU mit 32-64 GB HBM2 shared RAM/VRAM. :D
Unicous
2016-01-02, 15:36:38
Steam Machine.
Snafu
2016-01-02, 15:36:49
1GB sollten wirklich genug sein.
Intel verwendet gerade mal 128MB und meinte, dass das mehr als genug ist.
There’s only a single size of eDRAM offered this generation: 128MB. Since it’s a cache and not a buffer (and a giant one at that), Intel found that hit rate rarely dropped below 95%. It turns out that for current workloads, Intel didn’t see much benefit beyond a 32MB eDRAM however it wanted the design to be future proof. Intel doubled the size to deal with any increases in game complexity, and doubled it again just to be sure
http://www.anandtech.com/show/6993/intel-iris-pro-5200-graphics-review-core-i74950hq-tested/3
fondness
2016-01-02, 15:41:16
1GB sollten wirklich genug sein.
Intel verwendet gerade mal 128MB und meinte, dass das mehr als genug ist.
http://www.anandtech.com/show/6993/intel-iris-pro-5200-graphics-review-core-i74950hq-tested/3
Naja, die Erklärung kommt mir doch etwas seltsam vor. Siliziumfläche ist sehr teuer, und eDRAM benötigt eine ganze Menge davon. Wenn man glaubt das es in Zukunft knapp werden könnten, kann man den eDRAM bei zukünftigen Chips ja noch immer verdoppeln. Aber vielleicht benötigt Intel was, um die Fabs auszulasten, außerdem profitiert die CPU ja auch von den zusätzlichen L4Cache.
AnarchX
2016-01-02, 15:45:43
Da denke ich eher an eine 600mm² Zen-APU mit 32-64 GB HBM2 shared RAM/VRAM. :D
PS4-Exclusives nur mit AMD APU wäre aber auch ein nettes Marketing.
Wenn es vielleicht Pläne von Sony gibt den PS4-SoC auf HBM2 zu portieren, wäre so eine Virtualisierung der PS4-Performance-Characteristik vielleicht durchaus denkbar.
Interessant wäre natürlich auch, wenn so eine HBM-Zen APU sich auch als dedizierte GPU einsetzen lässt. AMD war ja in den letzten Jahren eher geizig mit Tapeouts.
Naja, die Erklärung kommt mir doch etwas seltsam vor. Siliziumfläche ist sehr teuer, und eDRAM benötigt eine ganze Menge davon. Wenn man glaubt das es in Zukunft knapp werden könnten, kann man den eDRAM bei zukünftigen Chips ja noch immer verdoppeln. Aber vielleicht benötigt Intel was, um die Fabs auszulasten, außerdem profitiert die CPU ja auch von den zusätzlichen L4Cache.
Kabylake GT4e kommt dann schon mit 2x128MB.
https://benchlife.info/wp-content/uploads/2015/06/kaby-lake.png
Selbst 64MB bringen richtig viel, das sieht man aktuell an der GT3e ULV von Skylake. Das muss aber nicht zwangsläufig für AMD reichen, je nach Anbindung und Rechenleistung der schnelleren Modelle.
Unicous
2016-01-02, 15:56:51
@Snafu
Der Vergleich hinkt dann aber ab einem gewissen Punkt schon. Wie ja geschrieben wird ist der L4 bei Haswell/Broadwell "nur" ein victim cache. Wie mir gerade wieder eingefallen ist, gab es bei Skylake Änderungen und der Cache ist jetzt "fully coherent". Und das müsste der HBM-RAM in dem Fall auch sein um mit der Heterogenous System Architecture kompatibel zu sein.
http://images.anandtech.com/doci/9582/27_575px.jpg
Haswell/Broadwell
http://images.anandtech.com/doci/9582/28_575px.jpg
Skylake
http://www.anandtech.com/show/9582/intel-skylake-mobile-desktop-launch-architecture-analysis/5
Ergo wäre der Leistungszugewinn nochmals höher als wir ihn jetzt bei Haswell/Broadwell sehen. Zudem muss Intel (e: bei HW/BW) den eDRAM über den Treiber mühsam optimieren, was natürlich auch zu einem entsprechenden Overhead führt.
z3ck3
2016-01-02, 20:30:33
Wenn Bandbreite nur für einen kleinen Teil der Grafikberechnungen wichtig wäre und das mal eben einfach mit Caching zu lösen wäre, oder man schon beim Ablegen der Daten in den Speicher weiß was man wie schnell später mal braucht, dann würde AMD/NV auch nur 1GB performanten Speicher bei Midrange/Performance Karten verbauen und den Großteil langsamer anbinden. Die Probleme die z.b. bei der GTX970 durch das verfuschte Interface auftauen, tauchen erst recht auf wenn man nur 1GB performant anbindet.
Erinnert ein wenig an den TurboCache Quatsch den Nvidia mal verbrochen hat und klingt für mich immer noch meher nach einem marketing Gag. HBM Speicher macht für mich nur dann Sinn wenn 2GB davon verbaut werden und die iGPU ungefähr auf einen 3dc Performance Index von 350% kommen würde (GTX950/960, R9 285/380). Alles da drunter kann man auch mit dem normalen RAM versorgen, da die Performance eh nicht für aktuelle Spiele reicht. Ich kann mir auch schon vorstellen das AMD aus Imagegründen eine solche APU auflegt. Mit 4C/8T und einem Preis von <=250€ sicher auch nicht uninteressant. Man muss immer bedenken, das eine Grafikkarte mit ähnlicher Leistung bei Zen Release etwa 120 Euro kosten wird (wenn überhaupt), und ein aktueller Intel Vierkerner kostet aktuell 180€ (warum auch immer).
Das wir in den nächsten 5 Jahren eine kompromislose APU sehen bezweifel ich aber stark.
Unicous
2016-01-02, 21:01:27
Ich verstehe nicht worauf du hinaus willst.
Ein hypothetische Zen-APU mit 16CUs wie sie AnarchX entspräche ungefähr Pitcairn Pro der in Form der HD 7850 mit einem 256-Bit Bus eine Speicherbandbreite von ca. 150 GB/s erreichte. Da ist das Delta zu 128 GB/s mit HBM nicht der Rede wert. Hinzu kommt ja auch noch Delta Color Compression. Diese Konfiguration ist 2016 bzw. 2017 aber schon längst im Entry-Level Bereich anzusiedeln und schafft auch heutzutage nur aktuellere Spiele in 1080p mit niedrigen Details darzustellen.
Und die APU ist ein Produkt voller Kompromisse. Das wird sich auch so schnell nicht ändern. Entweder "leidet" der CPU-Teil oder der GPU-Teil.
Die Dreifaltikgeit (Trinity) ist noch weit entfernt. Denn den GPU-Teil aufzublasen, bedeute den Die zu vergrößern, die Speicheranbindung anzupassen (siehe Fiji), einen riesigen Interposer herzustellen und alles was damit zusammenhängt. Es ist also eine aufwendige und kostenintensive Sache.
Dem kann man begegnen, indem man das Ganze modular aufbaut. Aber auch ist man technologisch noch nicht weit genug um das zu realisieren.
Ich verstehe es nicht. Warum wird hier mit so unglaublich wenig HBM spekuliert? Warum sollte es nur 1 GiB oder gar noch weniger geben?
Wenn das Teil wirklich einen GPU Part vom Ausmass Hawaii Pro bekommen soll, ergibt das doch ueberhaupt keinen Sinn. Vermutlich ist der Takt deutlich geringer, dafuer gibt es Polaris-Verbesserungen. Ausserdem laesst sich so wenig HBM ja kaum noch machen. Wenn schon HBM drauf kommt, warum nicht gleich HBM2 (= 4/8 GiB pro Stack). Zwei stacks koennten es aber doch durchaus sein, also 16 GiB.
Das Teil soll wohl das Stueck Hardware schlechthin fuer HPC mit HSA werden, warum soll der GPU Teil einer APU weiterhin 'verhungern', wenn die Loesung mit HBM jetzt da ist?
Skysnake
2016-01-03, 11:07:26
Eine Doktorarbeit muss natürlich publiziert werden, selbst für Diplomarbeiten gilt das schon. Vielleicht ist er nur "zu früh" fertig geworden, oder die Infos wurden von AMD als unkritisch eingestuft.
du hast es ja selbst schon gemerkt ;)
Vor allem kann man eine solchen Arbeit bis zu fünf Jahre sperren lassen, wenn vom Unternehmen gewünscht. Aber mag sein, dass das in anderen Ländern/Hochschulen anders aussieht.
Eine Dis oder auch ne "einfache" Bachelor/Master/Diplomarbeit kann man zumindest in BW sperren lassen. Im Prinzip kannste wohl sogar eine gekürzte/geschwärzte Version erstmal veröffentlichen und den Rest dann eben einige Jahre später. (De 5 passen glaube ich)
Ich hatte mir auch überlegt, so etwas zu machen bei meiner, einfach um in gewissen Punkten weiter ins Detail zu gehen, es dann aber doch gelassen, weil es 1. eben Mehraufwand/Stress ist, 2. es nicht DER gewaltige Mehrgewinn gewesen wäre und 3. TSMC wohl selbst nach 5 Jahren nicht damit einverstanden gewesen wäre...
Ansonsten:
Wer eine Dis schreibt, dem sollte man auch zutrauen, sich mit den rechtlichen Fragen auseinander gesetzt zu haben. Für so jemanden sollte/darf/braucht man nicht das Denken übernehmen müssen.
AnarchX
2016-01-03, 11:13:20
Ich verstehe es nicht. Warum wird hier mit so unglaublich wenig HBM spekuliert? Warum sollte es nur 1 GiB oder gar noch weniger geben?
Wenn das Teil wirklich einen GPU Part vom Ausmass Hawaii Pro bekommen soll, ergibt das doch ueberhaupt keinen Sinn. Vermutlich ist der Takt deutlich geringer, dafuer gibt es Polaris-Verbesserungen. Ausserdem laesst sich so wenig HBM ja kaum noch machen. Wenn schon HBM drauf kommt, warum nicht gleich HBM2 (= 4/8 GiB pro Stack). Zwei stacks koennten es aber doch durchaus sein, also 16 GiB.
Das Teil soll wohl das Stueck Hardware schlechthin fuer HPC mit HSA werden, warum soll der GPU Teil einer APU weiterhin 'verhungern', wenn die Loesung mit HBM jetzt da ist?
Auf der Folie steht erstmal nur HBM, möglicherweise das was man relativ sicher 2016 zur Produktion dieser APU zur Verfügung hat. Selbst NV musste ja bei HBM2 auf 16GiB zurückrudern.
Langfristig (Zen APU Gen2) wäre da sicherlich auch HBM2 denkbar und mit den von dir genannten Speichergrößen, bräuchte es dann wohl auch keinen externen DRAM mehr. Der nutzen von vielleicht noch 32GiB DDR4 für den Endkunden ist wohl eher gering, wenn die Daten fix von einer SSD mit ~1GB/s kommen.
=Floi=
2016-01-03, 12:31:58
Ich verstehe es nicht. Warum wird hier mit so unglaublich wenig HBM spekuliert? Warum sollte es nur 1 GiB oder gar noch weniger geben?
Wenn das Teil wirklich einen GPU Part vom Ausmass Hawaii Pro bekommen soll, ergibt das doch ueberhaupt keinen Sinn. Vermutlich ist der Takt deutlich geringer, dafuer gibt es Polaris-Verbesserungen. Ausserdem laesst sich so wenig HBM ja kaum noch machen. Wenn schon HBM drauf kommt, warum nicht gleich HBM2 (= 4/8 GiB pro Stack). Zwei stacks koennten es aber doch durchaus sein, also 16 GiB.
Das Teil soll wohl das Stueck Hardware schlechthin fuer HPC mit HSA werden, warum soll der GPU Teil einer APU weiterhin 'verhungern', wenn die Loesung mit HBM jetzt da ist?
Preis!
wer soll das mitzahlen? wir reden hier von geschätzten ~50-100€ mehrkosten.
basix
2016-01-03, 14:42:58
Wieso sollten die Mehrkosten ein grosser Nachteil sein? Schon mal daran gedacht, dass so eine Zen+GCN+HBM Kombination der praktisch perfekte HPC-Chip sein würde? Dort hat man ganz andere Margen. Vor allem beim Stichwort Energieeffizienz sollte diese Kombo neue Rekorde aufstellen, ganz im Sinne des APU-Gedankens. Es geht nicht immer nur um Consumer, obwohl mir so eine Power-APU sehr gefallen würde.
Sollte die grosse APU für den Consumermarkt erscheinen und die geeigneten Tools um sie zu Nutzen, darf man ausserdem den Marketing-Effekt nicht unterschätzen. Dies kann sich positiv auf die kleineren APUs auswirken.
Auf der Folie steht erstmal nur HBM, möglicherweise das was man relativ sicher 2016 zur Produktion dieser APU zur Verfügung hat. Selbst NV musste ja bei HBM2 auf 16GiB zurückrudern.
Langfristig (Zen APU Gen2) wäre da sicherlich auch HBM2 denkbar und mit den von dir genannten Speichergrößen, bräuchte es dann wohl auch keinen externen DRAM mehr. Der nutzen von vielleicht noch 32GiB DDR4 für den Endkunden ist wohl eher gering, wenn die Daten fix von einer SSD mit ~1GB/s kommen.
Nun wissen wir aber, das Raven Ridge erst 2017 kommt, die "big APU" wird doch sicher nicht vorher erscheinen. Die Massenproduktion von HBM bei Samsung/HBM2 bei Hynix soll in Q1 starten. Ab diesem Zeitpunkt war es noch etwas ueber ein halbes Jahr bis es Fiji auf dem Markt zu kaufen gab.
Warum soll es bei 8 oder 16 GiB keinen externen Speicher brauchen? wir reden hier von HPC. Selbst Tahiti hatte ja als FirePRO schon 12 GiB dedizierten Speicher und die angeblichen 16 CPU Kerne wollen ja auch noch was abbekommen.
Preis!
wer soll das mitzahlen? wir reden hier von geschätzten ~50-100€ mehrkosten.
Und? Wenn das glatt laeuft reden wir hier von der HPC Hardware, der Mehrwert der durch HSA moeglich ist, kaeme hier erstmals voll zum Tragen, nicht nur weil die eigentlichen Recheneinheiten eine voellig neue Dimension erreichen, sondern auch weil die Bandbreite einerseits zum gemeinsam nutzbaren Speicher, andererseits auch zwischen Chips dieser Groesse deutlich aufgebohrt wird.
AnarchX
2016-01-03, 15:45:20
Die genannte Roadmap bezieht sich wohl auf Endkunden APUs und für einen guten Start von Raven Ridge in 2017 muss man dann Mitte 2016 auch schon erste Samples verteilen. Insofern könnte da die momentane Option vielleicht wirklich erstmal 1GiB HBM1 sein.
Ich kann mir nicht vorstellen, dass man sich den Aufwand einen Interposer einzubauen macht um dann nur einen einzigen HBM-Stack als kleinen Cache draufzupappen. Der Mehraufwand gleich 2 oder 4 zu nehmen wäre mMn vergleichsweise gering.
Weiterhin stellt sich mir noch die Frage wie es eigentlich mit den Latenzen bei HBM aussieht. Will man ihn bloß als Cache nutzen (also alles < 4GB) ist das entscheidend, da sonst die Zugriffe im Fall eines Misses sehr stark ansteigen.
Für mich gibt es daher nur die Optionen entweder richtig (>=8GB HBM und kein DDR4; alles größeren Speicher über PCIe) oder garnicht (nur DDR4).
Unicous
2016-01-03, 19:00:17
@iuno
Die roadmap ist eindeutig "alt". Wie alt wissen wir nicht, aber ich schätze mal es ist frühes 2015, oder noch spätes 2014 in der Zeit wurde die roadmap ja umgemodelt.
Aber wie AnarchX sagte, sind das Consumer-Plattformen, daher ist die Zen APU auch kein 40CU Monster wie von dir veranschlagt, sondern könnte wie AnarchX sich bei 16CU einpendeln. Wäre an sich auch eine gute Kombi und die 128 GB/s würden zusammen mit DCC nicht zu einem bottleneck werden. AMD hat es in der Vergangenheit nicht geschafft Bandbreite und Rechenleistung zusammenzubringen, die CUs sind schlicht am verkümmerten ARM...ääh RAM verhungert. Mit HBM könnte man dem ein Ende setzen. Nur zu welchem Preis fragt sich.:uponder: Günstig kann das eigentlich nicht sein und man muss schauen, dass man nicht bei der Preisgestaltung gegenüber CPU+dGPU in Hintertreffen gerät.
AnarchX
2016-01-03, 19:10:26
Ich kann mir nicht vorstellen, dass man sich den Aufwand einen Interposer einzubauen macht um dann nur einen einzigen HBM-Stack als kleinen Cache draufzupappen. Der Mehraufwand gleich 2 oder 4 zu nehmen wäre mMn vergleichsweise gering.
Interessant wäre ob man den HBM-Stack vielleicht direkt an das Pin-Out bekommt, dann müsste man halt nur noch das Package durchbrechen und könnte auf den Interposer verzichten.
OBrian
2016-01-03, 19:25:57
Es scheint ja offenbar gar nicht so schwierig zu sein, den gleichen Die auf Interposern und direkt im Package zu verbauen. Das hat mich erst gewundert, aber es gab ja wohl sogar Test-Chips mit Cypress auf einem Interposer, und wenn die das Cypress nennen, dann ist es auch exakt Cypress und nicht ein sehr ähnlicher Die.
In die APU wird man also sowieso einen DDR4-Controller einbauen, denn man muß ja auch billigere Systeme damit ausstatten, die dann ohne HBM auskommen, und ebenso Server (als Karten in einem Bladeserver), die einfach mehr RAM benötigen als HBM liefern kann. Mit nur der durch einen Stack festgelegten Menge RAM kommt man schlicht nicht hin.
Ich schätze, dann könnte man das auch flexibel handhaben und verschiedene Stacks verbauen, mit unterschiedlichen Bandbreiten und Größen. So kann man Abstufungen erzeugen auch mit nur einem Stack.
@Unicous sorry, habe da wohl alles in einen Topf geworfen (war ja auch schon spaet :freak: ). Dachte, es geht um die "Big APU", aber da muesste man ja nochmal abgrenzen. Die waere, sollte so eine kommen, sicher nicht fuer consumer.
Das Consumer-Modell staende dagegen natuerlich auch mit einem Stack schon sehr gut da, verglichen mit dem was wir heute sehen. Jetzt ergeben auch die Vergleiche mit dem kleinen eDRAM Sinn...
Die 40 CUs habe natuerlich nicht ich mir aus der Nase gezogen, die werden im Ausblick auf die "big APU" noch genannt, allerdings verstaendlicherweise als Geruecht.
z3ck3
2016-01-03, 20:38:31
Ich weiß nicht, ob das wirklich Sinn bei HPC macht eine fette APU zu produzieren. Der CPU Part ist bei der Anwendung quasi irrelevant und es lassen sich wesentlich einfacher 4 und meher "Grafikkarten" in ein Case stecken, als ein Mainboard mit vier APUs zu bestücken. Auch müsste die DP Leistung ja entsprechend hoch sein, also Einheiten her, die im Consumerbereich nicht in der Anzahl gebraucht werden.
Und HBM als Systemspeicher ist mit Kanonen auf Spatzen geschossen. Selbst DDR4 hat keinen größeren Mehrwert zur Zeit.
Und ganz allgemein denke ich wäre es wichtig das AMD vor allem ersteinmal die Single Thread Performance in den Griff bekommen muss. Im Alltag ist die immer noch sehr viel wichtiger als Multithread. 8C/16T ist sicher nett für den Schwanzvergleich, mehr aber auch nicht. Vor allem wenn ein Kern nur 70% der Leistung eines i3 oder i5 aufweist.
Zero-11
2016-01-04, 10:05:17
Preis!
wer soll das mitzahlen? wir reden hier von geschätzten ~50-100€ mehrkosten.
Massenproduktion macht die Sache günstig.
mboeller
2016-01-04, 10:17:01
ich hoffe ja auf HBM2. Ein Stack erlaubt damit zw. 128GB/sec und 256GB/sec und bis zu 8GB Speicher. Das sollte für nahezu alle Notebooks reichen (das mit dem HPC/Server klammere ich mal aus :) )
http://electroiq.com/insights-from-leading-edge/2015/09/iftle-254-semicon-taiwan-part-1-gatech-interposer-workshop/
Sunrise
2016-01-04, 10:19:40
Ich weiß nicht, ob das wirklich Sinn bei HPC macht eine fette APU zu produzieren. Der CPU Part ist bei der Anwendung quasi irrelevant und es lassen sich wesentlich einfacher 4 und meher "Grafikkarten" in ein Case stecken, als ein Mainboard mit vier APUs zu bestücken. Auch müsste die DP Leistung ja entsprechend hoch sein, also Einheiten her, die im Consumerbereich nicht in der Anzahl gebraucht werden.
Und HBM als Systemspeicher ist mit Kanonen auf Spatzen geschossen. Selbst DDR4 hat keinen größeren Mehrwert zur Zeit.
Und ganz allgemein denke ich wäre es wichtig das AMD vor allem ersteinmal die Single Thread Performance in den Griff bekommen muss. Im Alltag ist die immer noch sehr viel wichtiger als Multithread. 8C/16T ist sicher nett für den Schwanzvergleich, mehr aber auch nicht. Vor allem wenn ein Kern nur 70% der Leistung eines i3 oder i5 aufweist.
Knights Landing beantwortet dir alle Fragen. Eine reine CPU fällt bzgl. Die-Fläche auch kaum mehr ins Gewicht, vor allem nicht bei den HPC-Preisen. CPUs alleine sind winzig.
dargo
2016-01-04, 10:37:31
Mal eine blöde Frage... wie hoch ist eigentlich der Durchsatz vom L3 Cache? Könnte man auf den nicht komplett dank HBM(2) verzichten? Oder würden die Latenzen zu hoch steigen? Ich meine der L3 frisst unheimlich viel Platz wenn ich mir das bei Haswell so anschaue.
http://www.umpcportal.com/files/2013/06/Intel-Haswell-Die-Shot.jpg
Edit:
Hab hier was gefunden.
http://www.computerbase.de/forum/showthread.php?t=879930&p=9652836#post9652836
Damit könnte man wirklich komplett auf den L3 verzichten wenn die Latenzen durch die längeren Wege zum HBM nicht zu hoch steigen. Vorallem bei so fetten Octacores wie zb. Haswell-E mit 20MB L3 wäre das interessant.
http://www.extremetech.com/wp-content/uploads/2014/08/haswell-e-die-shot-high-res.jpg
Ich meine wen würde das jucken wenn man bei HBM2 20MB weniger Speicher hat? :tongue: Dafür wäre die Platzersparnis enorm.
fondness
2016-01-04, 11:18:05
Bei Cache ist leider die Latenz das mit Abstand wichtigste, die Daten müssen nach wenigen Clockcycles da sein. Selbst eDRAM ist da noch zu langsam. Mit off-Die-Speicher verliert man da viel zu viel Leistung, höchstens als L4-Cache vielleicht interessant.
z3ck3
2016-01-04, 11:40:06
Knights Landing beantwortet dir alle Fragen. Eine reine CPU fällt bzgl. Die-Fläche auch kaum mehr ins Gewicht, vor allem nicht bei den HPC-Preisen. CPUs alleine sind winzig.
Ja. Wenn man von Bladesystemen ausgeht, dann macht das ggf. Sinn. Aber nur wenn es eher eine Highhend GPU mit zusätzlichen CPU Kernen ist, aber nicht wenn es eine CPU mit Midrange GPU wäre. Aber für normale 4HE Server machen dGPUs + dCPU viel mehr Sinn. Das ist jedenfalls meine bescheidene Meinung.
Und KL ist quasi eine große CPU und hat gar keine GPU, hat also mit dem APU Konzept von AMD rein gar nichts zu tun.
fondness
2016-01-04, 12:24:34
Ja. Wenn man von Bladesystemen ausgeht, dann macht das ggf. Sinn. Aber nur wenn es eher eine Highhend GPU mit zusätzlichen CPU Kernen ist, aber nicht wenn es eine CPU mit Midrange GPU wäre. Aber für normale 4HE Server machen dGPUs + dCPU viel mehr Sinn. Das ist jedenfalls meine bescheidene Meinung.
Und KL ist quasi eine große CPU und hat gar keine GPU, hat also mit dem APU Konzept von AMD rein gar nichts zu tun.
Nur verlieren solche Systeme je nach Anwendung extrem viel Leistung durch den getrennten RAM. Nicht ohne Grund versucht Nvidia mit ihren NV-Link dem irgendwie entgegen zu wirken, langfristig wird man aber keine Chance haben gegen einen shared RAM. Da helfen dann auch 4 dGPUs nichts, wenn sie ständig auf Daten warten müssen.
Skysnake
2016-01-04, 21:36:45
Genau das!
dGPU+CPU sind einfach in verdammt vielen Bereichen nicht wirklich auszulasten, so das man kaum oder auch gar keinen Vorteil dadurch hat.
Zudem gibt es UNMENGEN an altem Code, der nie irgendetwas in die Richtung GPUs gesehen hat.
Mal ganz davon abgesehen, das es auch mehr als genug reinen CPU Code gibt, der Memory bound ist, man also rein am Speicherinterface hängt. Da wäre so ein HBM stack oder gar mehrere richtig nett.
z3ck3
2016-01-05, 00:33:32
Unmengen alter Code kann mit der iGPU aber auch nichts anfangen. Und für GPUs optimierter Code kann nichts mit der CPU anfangen. Da bringt einem eine APU auch nicht weiter. Sicher kann HBM ein ggf. vorhandenes Bandbreitenproblem des normalen DDR4 Speicherinterfaces beheben, nicht aber die genannten Probleme fehlender Optimierung.
Und auch bei einem Multi APU System müssen die Chips untereinander kommunizieren, wo wäre der Vorteil also für Multi APU gegenüber Multi dGPU? Und auch die Nodes eines Clusters untereinander haben eine im Vergleich sehr geringe Bandbreite.
Die CPU in einem Multi dGPU System dient ja auch vor allem dazu System und Verwaltungsaufgaben zu übernehmen, hat mit der Berechnung der Aufgabe nichts zu tun. Ich weiß jetzt nicht wo eine APU mit der GPU Performane einer Mittelklasse Grafikkarte irgendwelche Vorteile bei HPC hat. Und wie wir ja bereits festgestellt haben macht HBM den L3 Cache nicht überflüssig. Für mehr als Mittelklasse wird die iGPU nicht taugen, der PLatz ist nicht vorhanden.
Ich seh für APUs nur ein wirkliches Einsatzfeld und das sind lowend Causual Gamingsysteme, Multimedia und Office. Der Markt dafür ist riesig, geht aber nur über den Preis/Leistung/Verbrauch da AMD als Markenname momentan keinen Euro mehr wert ist. Und ich sehe einen kleinen Markt bei Notebooks, wenn die APU da überzeugt sogar einen wirklich großen Markt. Aber auch hier herscht das AMD Imageproblem. Für Workstations, Gamingsysteme und Server machen APUs einfach keinen Sinn. Noch jedenfalls nicht. AMD kann bei Servern aber z.b. einen großen Wurf machen wenn sie z.b. eine 16C/32T CPU zu einem akzeptablen günstigen Preis anbietet (oder ggf. auch Features anbietet die bisher vor allem von ASPEED gedeckt werden). Es gibt z.b. viele Hosting Anbieter die AMD schon zu Athlon (XP/MP/X2) Zeiten eingesetzt haben. Und dann gibt es sicherlich auch einen klitze kleinen Markt bei HPC, aber nur wenn das Gesamtpaket und die Performance absolut überzeugen. Hier muss man aber an Intel und an NVidia vorbei, ersterer hat den Vorteil der x86 Kerne und letzterer den Vorteil das NV einfach schon länger einen Fuß in der Tür hat (CUDA). Momentan würde ich es als Marketing Gang abtun eine entsprechende APU aufzulegen.
Nakai
2016-01-05, 01:26:38
Für Zen wird es eh erstmal nur zwei SKUs geben.
Zen 8C/16T /wo iGPU
Zen 4C/8T /w iGPU mit oder ohne HBM
Später evtl:
Zen 2C/4T /w iGPU ohne HBM
Im Servermarkt:
MCPU Zen 2x8C/2x16T
Im HPC:
Zen 8C/16T + (embedded) Enthusiast-GPU + HBM
--------------
Also im Ernst, falls Zen nicht völlig verhunzt wird und 40%+ IPC bringt, dann wird damit ein Rechner gebaut und ich warte auf ein nettes Notebook für 2017.
Und wie es aussieht wird Zen ein kleiner feiner Kern. Gute allgemeine Performance, aber wohl Einsparungen an der FPU (ohne große Multiplizierer), was der Performance keinen Abbruch tun sollte. Dafür gibt es mehr Kerne.
BD war einfach nur fett und sperrig. Ein Zenkern sollte kleiner als ein BD-Modul sein (gleicher Prozess).
Skysnake
2016-01-05, 16:46:34
Unmengen alter Code kann mit der iGPU aber auch nichts anfangen. Und für GPUs optimierter Code kann nichts mit der CPU anfangen. Da bringt einem eine APU auch nicht weiter. Sicher kann HBM ein ggf. vorhandenes Bandbreitenproblem des normalen DDR4 Speicherinterfaces beheben, nicht aber die genannten Probleme fehlender Optimierung.
Und auch bei einem Multi APU System müssen die Chips untereinander kommunizieren, wo wäre der Vorteil also für Multi APU gegenüber Multi dGPU? Und auch die Nodes eines Clusters untereinander haben eine im Vergleich sehr geringe Bandbreite.
Die CPU in einem Multi dGPU System dient ja auch vor allem dazu System und Verwaltungsaufgaben zu übernehmen, hat mit der Berechnung der Aufgabe nichts zu tun. Ich weiß jetzt nicht wo eine APU mit der GPU Performane einer Mittelklasse Grafikkarte irgendwelche Vorteile bei HPC hat. Und wie wir ja bereits festgestellt haben macht HBM den L3 Cache nicht überflüssig. Für mehr als Mittelklasse wird die iGPU nicht taugen, der PLatz ist nicht vorhanden.
BLA
Wer redet denn von iGPU?
Natürlich läuft das Zeug erstmal nur auf der CPU, falls man nicht ähnlich wie bei HSA die iGPU doch noch überreden kann. OpenMP in der neuesten Version ist da ja durchaus denkbar.
Um was es mir aber ging ist, das selbst ganz normale reine CPUs heutzutage oft genug schlicht nur mit einem Bruchteil der eigentlichen Leistung fahren, einfach weil Sie nicht genug Daten aus dem RAM bekommen. Und das durchaus auch bei optimierten Anwendungen. Jetzt rate mal, was die Leute dazu sagen würden, die nicht bis ins letzte Optimieren?
Richtig die währen froh über sehr viel mehr Speicherbandbreite, weil es einfach den Bedarf an Optimierung auf die Caches reduziert.
Von dem ganzen BigData geraffel fangen wir lieber erst garnicht an.
z3ck3
2016-01-05, 18:06:10
Ist das so? KL in gesockelter Form wird auch "nur" sechs DDR4-2400 Speicherkanäle haben (115 GByte/s). Und das "Monster" bietet angeblich >3TF Rechenleistung. Wie viele Zen Cores bräuhte eine entsprechende CPU um das zu erreichen? Aber klar macht dann auch HBM theoretisch Sinn bei CPUs, Quantität vorrausgesetzt (>64GB?).
Skysnake
2016-01-06, 14:55:49
Auch bei weniger macht es sinn. Es gibt durchaus Anwendungen bei denen du nicht alle kerne sinnvoll nutzen kannst weil die Speicherbandbreite einfach nicht ausreicht. Und das trotz tili gs um die caches optimal auslasten zu können.
In die Richtung geht ja auch der hbm auf knl, wobei der ja sowohl als cache als auch als direkt adressierbarer Speicher.
z3ck3
2016-01-06, 15:33:09
KL versteh ich so das bei der Kartenversion der HBM Speicher als alleiniger Speicher dient, wärend bei der gesockelten Version der HBM die Aufgabe als L4 Cache übernimmt.
Es gibt sicher Bereiche in denen die Bandbreite limitiert, ich frag mich halt nur welche das sein können und ob es bei einem vergleichsweise langsamen Prozessor Sinn macht. Ein Intel Core i7-6700K (4C/8T) kommt bei Whetstone Single-Float auf grad mal ca. 113 GFLOPS (http://techgage.com/article/intels-skylake-core-i7-6700k-a-performance-look/) und ist damit weit entfernt von den 3 TFLOPS des KL. Zen wird pro Kern nicht mehr schaffen als ein i7 mit einem Kern. Was nützt einem dann die Bandbreite wenn man die Daten nicht schneller verarbeiten kann? Den Bandbreitenbedarf seh ich somit nur dort wo auch viele Daten parallel verarbeitet werden können.
fondness
2016-01-06, 19:53:01
Hm, Zen bzw. AM4 Refkühler?
soc5x_4IACQ
Hm, Zen bzw. AM4 Refkühler?
Gut moeglich, aber erstmal kommt ja auch noch Bristol Ridge. Soll dort das Topmodell eigentlich auch wieder 95 Watt TDP haben? Sonst waere das Teil wohl fast schon etwas ueberdimensioniert.
Die "Standard AMD Thermal Solution" passt jedenfalls zu den FX CPUs, nicht zu aktuellen APUs. TDP > 100 Watt
CompuJoe
2016-01-06, 21:02:08
Gut moeglich, aber erstmal kommt ja auch noch Bristol Ridge. Soll dort das Topmodell eigentlich auch wieder 95 Watt TDP haben? Sonst waere das Teil wohl fast schon etwas ueberdimensioniert.
Die "Standard AMD Thermal Solution" passt jedenfalls zu den FX CPUs, nicht zu aktuellen APUs. TDP > 100 Watt
Lieber überdimensioniert und leise als gerade so an der Grenze und laut
Das war auch nicht negativ gemeint, sondern eine Ueberlegung, ob es realistisch ist, dass wir den Kuehler schon mit BR sehen.
Allerdings ist das Teil so schon auch recht hoch und wird nicht in jedes super-flache Gehaeuse passen.
Btw: AMD hat wohl endgueltig vom urspruenglichen Gruen Abstand genommen, wenn schon das Logo auf dem Lueftergehaeuse Intel-blau leuchtet ;)
Skysnake
2016-01-06, 21:16:34
KL versteh ich so das bei der Kartenversion der HBM Speicher als alleiniger Speicher dient, wärend bei der gesockelten Version der HBM die Aufgabe als L4 Cache übernimmt.
Es gibt sicher Bereiche in denen die Bandbreite limitiert, ich frag mich halt nur welche das sein können und ob es bei einem vergleichsweise langsamen Prozessor Sinn macht. Ein Intel Core i7-6700K (4C/8T) kommt bei Whetstone Single-Float auf grad mal ca. 113 GFLOPS (http://techgage.com/article/intels-skylake-core-i7-6700k-a-performance-look/) und ist damit weit entfernt von den 3 TFLOPS des KL. Zen wird pro Kern nicht mehr schaffen als ein i7 mit einem Kern. Was nützt einem dann die Bandbreite wenn man die Daten nicht schneller verarbeiten kann? Den Bandbreitenbedarf seh ich somit nur dort wo auch viele Daten parallel verarbeitet werden können.
Nimm die dp leistung aller kerne mal 8 dann haste die maximal benötigte bandbreite. Und ja die wird auch gebraucht. Man hat also nie wirklich zu viel bandbreite
Novum
2016-01-06, 22:10:12
Die allerwenigsten Algorithmen brauchen so viel Bandbreite. Das ist ja wohl der Extremfall.
OBrian
2016-01-07, 00:06:44
In normalen PCs sicherlich, wo immer gemischte Last auftritt. Aber in HPC-Anwendungen? Möglicherweise eignet sich Zen von der Architektur her besonders dafür, und dann muß man sich die Marktchance ja nicht kaputtmachen, indem man die Bandbreite knapp hält.
Ich erinnere daran, daß AMD im Sockel G34 Vierkerner gebracht hat, d.h. zwei zu 3/4 deaktivierte Dies, nur um den doppelten Speichercontroller zu nutzen. Auf die Frage, warum man sowas "Unsinniges" brächte, war die Antwort, weil es nachgefragt worden wäre (soweit ich mich erinnere aus dem Bankensektor).
z3ck3
2016-01-07, 00:08:40
Ließe sich ja einfach feststellen. Zeig mal einen Benchmark wo ein Haswell E bei gleicher Takrate, Kern und Threadanzahl, zum normalen Haswell doppelt so schnell ist. Oder auch nur wirklich signifikant schneller. Das wären immerhin DDR3 Dualchannel vs. DDR4 Quadchannel.
Wenn ich die 82GFlops DP leistung eines 4C/8T i7 mit 8 multipliziere komm ich auf etwa 650. Ich weiß nur nicht was. Gehe ich von GB/s aus, dann wären das viel zu viel (bzw. es sollte eine Leichtigkeit sein einen Bencchmark zu finden wo der Haswel E mehr als doppelt so schnell wäre, da auch mehr als doppelt so viel Speiccherbandbreite zur Verfügung steht). Wären es MB/s halte ich es für viel zu wenig. Also irgendwie komm ich mit der Angabe "Nimm die dp leistung aller kerne mal 8 dann haste die maximal benötigte bandbreite" nicht klar ^^
Skysnake
2016-01-07, 06:26:25
Cachelines sind 64 Byte groß. DP sind 8 Byte, also nimmst du mindestens 8 Byte pro Cacheline.
Im Worstcase nimmst du pro Cacheline nur genau einen Wert. Ergo nutzt du nur 1/8 der RAM Bandbreite. Jetzt klar? (btw. ich habe mal kurz noch einen Faktor 3 bzw 4 unterschlagen, wenn man write allocate noch dazu nimmt. Man hat ja ganz einfach gesagt A=B+C)
Im Optimalfall nimmste aber die ganze Cacheline. Dann ist es also nur nur ein Faktor 3 statt 24.
So etwas kann durchaus auch vorkommen. Stream Benchmark ist da ein Beispiel für 3x. Und wenn du Listen hast für deine Datenstrukturen dann geht das auch mal in die Richtung das du fast nichts aus einer Cacheline nutzt, aber die Daten auch noch verteilt sind wie Sau...
Es ist also eher sogar relativ normal, dass der RAM limitiert. Die meisten normalen Server nippeln am RAM, einfach weil Sie viele kleine unstrukturierte Probleme zu bearbeiten haben.
Und ja, selbst im HPC-Bereich ist man ziemlich oft/meist Bandbreiten limitiert.
Novum
2016-01-07, 07:08:28
Welcher HPC-Code liest bitte zufaellig Daten aus dem Speicher und hat noch dazu keinerlei Cache-Lokalitaet?
Und ich halte es immer noch fuer unwahrscheinlich, dass man in den "meisten Faellen" ein double per flop uebertragen muss. Sorry, ich seh's einfach nicht. Was fuer eine Berechnung soll das denn sein? Zwei Arrays addieren?
Bei GPU-Applikationen ist man eigentlich auch nur Bandbreiten limitiert wenn man fast nichts im Pass rechnet, also z.B. G-Buffer-Laydown oder rendern von Shadow-Maps. Sowas gibt's in CPU-Code eigentlich nicht.
mczak
2016-01-07, 07:47:40
Ich erinnere daran, daß AMD im Sockel G34 Vierkerner gebracht hat, d.h. zwei zu 3/4 deaktivierte Dies, nur um den doppelten Speichercontroller zu nutzen. Auf die Frage, warum man sowas "Unsinniges" brächte, war die Antwort, weil es nachgefragt worden wäre (soweit ich mich erinnere aus dem Bankensektor).
Dabei ging es aber wohl eher um die maximal mögliche Speichermenge als um die Speicherbandbreite. Ist jedenfalls ansonsten schwer vorstellbar bei der lahmen CPU... Für mehr Speicher hingegen gibt es immer irgendwelche Anwendungen...
z3ck3
2016-01-07, 09:09:06
@Skysnake: Nope, ich versteh die Rechnung nicht (dafür fehlt mir das Background Wissen). Ich weiß immer noch nicht was jetzt deiner Meinung nach im Worst Case der Bedarf an Bandbreite ist. Und es sieht auch nicht so aus als wenn man das Szenario in einem synthetischen Benchmark abbilden kann der auch nur entfernt ein reales (HPC) Szenario bedient.
Mehr Bandbreite ist immer toll, nur muss der Nutzen zum Aufwand passen. Vor allem dann wenn die Rechenleistung des Prozessors vergleichsweise bescheiden ist (16C/32T 0,5? TFlops Zen vs. 60C/240T 3 TFlops KL).
Ich versuchs nochmal mit einfacheren Worten darzustellen. Deine CPU hat also 82GFlops/s, also 82 Mrd mal A=B+C. Bei einem Speicherzugriff müssen mindestens 8 Byte übertragen werden. Falls also A, B und C nicht direkt nebeneinander liegen musst du für jeden Wert 8 Byte übertragen, also 24 Byte pro Flop. Pro Sekunde macht das dann 24*82*10^9 ~2*10^12 = 2TByte/s.
Korrigiert mich, wenn ich was durcheinander gebracht habe. Ich lerne auch gern noch dazu :)
z3ck3
2016-01-07, 11:01:52
Ja dann ist das Speicherinterface in der Tat absolut Unterdimensioniert. XD XD XD
Die Rechnung ist kompletter Mumpitz (wie die ursprüngliche Annahme zum Bedarf an Bandbreite). Ein(sehr) hoher Anteil der Daten welche die CPU benötigt (>90%) liegt bereits im Cache.
Dass die Annahme von 100% Cache Misses weit her geholt ist, ist klar. Wenn aber genau dieser Fall eintritt (Es ging ja um eine Worst-Case-Betrachtung): Wo ist der Rechenfehler?
mksn7
2016-01-07, 13:38:39
HPC Bereich ist fast nur Numerik. Ein ganz großer Teil hier sind Stencil Codes. Der einfachte Five-Point-Stencil macht 4 Flops, 4 Loads, 1 Store. Mit cache blocking lässt sich das auf 1 Load, 1 Store reduzieren, also eine Code Balance von 0.25 Flops/Byte. Ein Vier Kanal Speicherinterface mit ~40 GB/s langt dann nur für 10 GFlops, was nur ein kleiner Teil der ~200 GFlop/s einer 10 core, 2.5GHZ CPU wären.
CPUs sind bei etwa 5 Flops/Byte, KNC bei 6.25, Tesla K40 bei 7.
N-Body Simulationen und Matrixmultiplikationen erreichen typischerweise hohe arithmetische Intensitäten und man kann nahe Peak Performance erreichen (deswegen die hohen Linpackwerte, das ist hauptsächlich Matrix Multiplikation). Die allermeisten anderen Codetypen die im HPC verwendet werden haben deutlich niedrigere arithmetischen Intensitäten. Wegen der großen data sets sind sehr kleine cache hit raten nicht ungewöhnlich.
Application Code ist meistens viel mehr Control Flow und Latency bound, und arbeitet mit kleineren Data Sets. Das macht Caching effektiver und die Bandbreite oft irrelevant. Deswegen zeigen viele Benchmarks oft keinen Effekt höherer Speicherbandbreiten. Viele HPC Codes skalieren fast linear mit der Bandbreite.
Novum
2016-01-07, 18:11:13
Das ist im Prinzip numerische Integration, ja? Ergibt Sinn, danke.
Skysnake
2016-01-07, 19:59:55
Welcher HPC-Code liest bitte zufaellig Daten aus dem Speicher und hat noch dazu keinerlei Cache-Lokalitaet?
Und ich halte es immer noch fuer unwahrscheinlich, dass man in den "meisten Faellen" ein double per flop uebertragen muss. Sorry, ich seh's einfach nicht. Was fuer eine Berechnung soll das denn sein? Zwei Arrays addieren?
Ja z.B.
Ein beliebtes Beispiel sind aber auch Sparse Matrix Operationen. Da biste schnell bei verdammt wenig Nutzdaten pro Load.
Und wie gesagt, ansonsten eben Dinge die man über Listen abhandelt sind schnell sehr sehr langsam.
Für dense Matrix gilt das natürlich nicht, nur leider lässt sich eben nicht alles auf Dense-Matrix gut mappen...
Bei GPU-Applikationen ist man eigentlich auch nur Bandbreiten limitiert wenn man fast nichts im Pass rechnet, also z.B. G-Buffer-Laydown oder rendern von Shadow-Maps. Sowas gibt's in CPU-Code eigentlich nicht.
Ähm... not.
Gerade GPUs leiden extrem unter zu wenig Memory Bandbreite in vielen Fällen. Du brauchst rund 30 Operationen PRO! Load, damit du eine GPU wenigstens theoretisch voll auslasten kannst. Das schaffen viele Anwendungen nicht mal Ansatzweise.
Ich versuchs nochmal mit einfacheren Worten darzustellen. Deine CPU hat also 82GFlops/s, also 82 Mrd mal A=B+C. Bei einem Speicherzugriff müssen mindestens 8 Byte übertragen werden. Falls also A, B und C nicht direkt nebeneinander liegen musst du für jeden Wert 8 Byte übertragen, also 24 Byte pro Flop. Pro Sekunde macht das dann 24*82*10^9 ~2*10^12 = 2TByte/s.
Korrigiert mich, wenn ich was durcheinander gebracht habe. Ich lerne auch gern noch dazu :)
Jup, genau so sieht es aus.
Novum
2016-01-07, 20:29:35
Ähm... not.
Gerade GPUs leiden extrem unter zu wenig Memory Bandbreite in vielen Fällen. Du brauchst rund 30 Operationen PRO! Load, damit du eine GPU wenigstens theoretisch voll auslasten kannst. Das schaffen viele Anwendungen nicht mal Ansatzweise.
Shading in heutigen Engines hat wesentlich mehr als 30 Ops pro Load :)
Skysnake
2016-01-07, 20:54:42
Wer redet von 3D Grafik?
EDIT:
Btw. hier mal ein Link bezüglich der Klasse an Problemen, bei denen man oft wenig Datenreuse hat: http://view.eecs.berkeley.edu/wiki/Graph_Traversal
Wie gesagt anders rum eben oft Dinge, die über Linked Lists dargestellt werden müssen, weil es anders nicht geht.
mksn7
2016-01-07, 21:43:17
Alles was pointer chasing macht wie graph traversal oder linked lists dürfte aber latency und nicht bandbreiten bound sein, oder?
Das beste Beispiel für zero data reuse hast du schon genannt, die STREAM kernels.
Skysnake
2016-01-07, 21:58:15
Ja, STREAM würde ich jetzt aber nicht unbedingt eine "echte" Anwendung nenne, auch wenn es praktisch auf ziemlich viele/alle Datenbankanwendungen wohl gut zutrifft. Stichwort Warehouse Systeme, Banken usw.
bezüglich Latency vs Bandbreite:
Kann man sooo nicht so einfach beantworten. Durch SMT kann man ja mehr Threads/Prozesse ohne Probleme auf einen Kern laufen lassen und damit Latenzen verstecken. Die SystemZ, SPARC64 usw haben nicht ohne Grund ein hohes SMT.
mksn7
2016-01-08, 00:43:57
Ja, da kann SMT dann mal wirklich scheinen. Weder bei compute noch bei bandwidth Limitierung bringt das sonst ja was.
Bei Sparse Matrix-Vector Multiplikation (x = Ab) dürfte noch gar nicht mal der indirekt indizierte b-Vektor das Problem sein, da ist ja doch meistens ein bisschen locality da, aber die Matrix samt column index usw. muss gestreamt werden. Und das hat dann auch zero reuse.
Deswegen wird HBM und Co auch so wichtig für HPC. Flops sind nur für den ***-Vergleich aka Linpack.
Novum
2016-01-08, 00:47:48
Weder bei compute noch bei bandwidth Limitierung bringt das sonst ja was.
Wuerde ich so nicht sagen. Wenn der Prozessor nicht genuegend Paralleitaet aus dem Instruktions-Strom extrahieren kann bringt SMT auch ohne Bandbreiten-Limitierung Gewinne.
OBrian
2016-01-08, 02:31:22
Die Rechnung ist kompletter Mumpitz (wie die ursprüngliche Annahme zum Bedarf an Bandbreite). Ein(sehr) hoher Anteil der Daten welche die CPU benötigt (>90%) liegt bereits im Cache.
ja aber warum gibt es denn den Cache? Weil der RAM nicht schnell genug ist. Zu 286er Zeiten hat es noch gereicht, die CPU war sozusagen lahm genug.
Mit dem Auseinandergehen der Schere Bandbreitenbedarf<->Bandbreitenangebot muß man nicht nur Cache einführen, sondern auch die Arbeitsweise der CPU anpassen und dabei sicherlich Kompromisse eingehen. Wenn nun diese Diskrepanz dauerhaft durchbrochen würde und wesentlich mehr Bandbreite verfügbar wäre, dann kann man die CPU ja auch möglicherweise ganz anders auslegen. Und ich meine jetzt nicht nur eine Verkleinerung des Caches.
Wie hätte die CPU-Entwicklung denn ausgesehen, wenn in den letzten 2-3 Jahrzehnten für doppelte CPU-Leistung auch doppelte Speicherbandbreite zur Verfügung gestanden hätte?
Novum
2016-01-08, 03:08:09
Wer redet von 3D Grafik?
3DCenter.org
Mal was anderes: Ich hoffe irgendwie dass sie wieder "Athlon" als Namen benutzen, falls Zen wirklich gut wird :)
Skysnake
2016-01-08, 07:19:13
Wuerde ich so nicht sagen. Wenn der Prozessor nicht genuegend Paralleitaet aus dem Instruktions-Strom extrahieren kann bringt SMT auch ohne Bandbreiten-Limitierung Gewinne.
Haste nur im HPC-Bereich nur an sich nie ;)
Das liegt einfach an der Struktur der Probleme, die man überhaupt erst angeht.
ja aber warum gibt es denn den Cache? Weil der RAM nicht schnell genug ist. Zu 286er Zeiten hat es noch gereicht, die CPU war sozusagen lahm genug.
Die Caches haben wir, weil es die Einzige Möglichkeit ist, um etwas gegen den Bandbreitenmangel zu tun, und eben nicht ALLE Probleme reine zero reuse Probleme sind.
Ein Cache bringt ja schon etwas, sobald du ein Datum auch nur zwei mal anfässt, und es im Cache verbleibt.
Deswegen haben ja sogar die Vektorrechner Caches bekommen gegen Ende.
Das Problem ist ja nicht, das Caches nichts bringen, sondern das die Bandbreite trotz Caches sehr oft einfach zu gering ist.
Kleines Beispiel. Du reused ein Datum 4 mal und nutzt die Cacheline optimal aus, die Memory Bandbreite ist aber 4*Flops/8 groß. Damit kannste dann nur maximal 50% der Flops erreichen.
Also was würde dir hier nur helfen um mehr Rechenleistung zu bekommen? Richtig mehr Bandbreite.
Mit dem Auseinandergehen der Schere Bandbreitenbedarf<->Bandbreitenangebot muß man nicht nur Cache einführen, sondern auch die Arbeitsweise der CPU anpassen und dabei sicherlich Kompromisse eingehen.
Immer nur her mit neuen Ansätzen, du kannst da viel Geld verdienen!
Wenn nun diese Diskrepanz dauerhaft durchbrochen würde und wesentlich mehr Bandbreite verfügbar wäre, dann kann man die CPU ja auch möglicherweise ganz anders auslegen. Und ich meine jetzt nicht nur eine Verkleinerung des Caches.
Wie hätte die CPU-Entwicklung denn ausgesehen, wenn in den letzten 2-3 Jahrzehnten für doppelte CPU-Leistung auch doppelte Speicherbandbreite zur Verfügung gestanden hätte?
Diese "Diskrepanz" gibt es schon seit Jahrzehnten, an sich seit es Computer gibt, und genau so lang arbeiten die Leute daran, eine Lösung zu finden.
Du siehst ja wo wir heute sind...
@Novum:
Wenn ich mit Leuten über HPC rede, dann rede ich mit Leuten über HPC, egal was der NAme eines Forums ist....
Sorry, aber so viel Aufmerksamkeitsspanne das zu merken erwarte ich von meinem Gegenüber.
Hübie
2016-01-08, 08:42:41
Ja nur stehst du da ziemlich allein auf weiter Flur hier. 46% erwarten Zen als das Produkt 2016 und jetzt rate mal wieviel HPC-User da abgestimmt haben. :D Diese Tatsache macht deine Aussage vielleicht nicht verkehrt, jedoch etwas fehl am Platze und ich denke dass unser Axel genügend Erfahrungen hat was 3D Grafikengines angeht.
Zum Thema: Ich bin zwar nicht so versiert wie einige von euch, aber du kannst Bandbreite erweitern indem du Prefetching, branch prediction, compression und multichannel (alternierende Speichercontrollerzugriffe) einführst. Das kannst du nicht in Flops mal vier, durch acht oder so etwas ausdrücken. Wirkt zu abstrakt um use cases darzustellen.
Ich habe schon oft Entwickler erlebt, die entweder deutlich bessere oder deutlich schlechtere Performance erhalten haben als erwartet, weil die Hardware einfach in vielen Bereichen schlecht dokumentiert ist oder einfach secret sauce hat. Das gilt besonders nVidia.
Und bitte rede nicht so von oben herab. Das passt nicht zu dir. ;)
robbitop
2016-01-08, 09:26:37
Branch Prediction erweitert Bandbreite?
Hübie
2016-01-08, 09:33:24
So gesehen sparst du, wenn die Vorhersage korrekt war. Obwohl das eher seriell ist und nicht das beste Beispiel. :redface:
Moment, da stimme ich jetzt aber nicht überein.
Zum Thema: Ich bin zwar nicht so versiert wie einige von euch, aber du kannst Bandbreite erweitern indem du Prefetching
erhöht nicht die Bandbreite, sondern erlaubt es nur die Interfaces schneller zu takten als die Speicherzellen. Ersteres sollte aktuell der limitierende faktor sein.
branch prediction, compression
hilft beides die vorhandene Bandbreite besser auszulasten, vergrößert sie aber nicht.
und multichannel (alternierende Speichercontrollerzugriffe) einführst.)
Mehrere Speichercontroller in einer CPU gibt's doch schon.
Was willst du dann jetzt mit alternieren erreichen? Verdrahtet werden muss ja trotzdem alles. Verstehe den Vorteil da nicht.
Edit: Post war lange geöffnet. Da gab's robbitops noch nicht.
Hübie
2016-01-08, 10:03:04
Bandbreite auslasten ist doch diese zu vergrößern? :confused: natürlich nicht über den theoretischen Höchstwert, aber gegenüber der bisher genutzten Bandbreite.
Wenn ein IMC einen write-Refresh macht kann der andere eben schon mal auf Daten zugreifen. Zwei oder vier sind schon ein Unterschied. So erhöht man ebenfalls effektive Bandbreite, oder etwa nicht? Cache misses/hits sind ja ebenfalls Variablen die man schlecht einkalkulieren kann. Es gibt Code mit 66% Hit und welchen mit 3%.
Phonon
2016-01-08, 11:44:07
[klugscheiß]
Bandbreite ist erstmal eine Angabe in Hz. Was ihr meint ist die Übertragungsrate.
[/klugscheiß]
Ich würde sonst gerne noch mehr zur Diskussion beitragen, aber stecke nicht tief genug in dieser Materie.
http://www.computerbase.de/2016-01/amd-ceo-lisa-su-interview/
Wie es aussieht, wird Zen in breiter Verfügbarkeit erst Anfang 2017 kommen, wenn es Ende 2016 erst zu Samples reicht.
€: fixed (kursiven Eintrag hinzugefügt)
fondness
2016-01-08, 11:55:46
Es steht nach wie vor da, dass Ende des Jahres erste Chips verfügbar sein sollen.
Bandbreite auslasten ist doch diese zu vergrößern? :confused: natürlich nicht über den theoretischen Höchstwert, aber gegenüber der bisher genutzten Bandbreite.
Eigentlich spricht man soweit ich weiß in dem zusammenhang immer vom Maximalwert. Das andere würde ich eher als "übertragene Daten" o.ä. bezeichnen. Dann lag es nur an verschiedener Begriffsdefinition.
Wenn ein IMC einen write-Refresh macht kann der andere eben schon mal auf Daten zugreifen.
Das geht? Wenn ja klingt das plausibel.
Skysnake
2016-01-08, 13:23:50
Ich weiß nicht, ob das wirklich Sinn bei HPC macht eine fette APU zu produzieren. D...
Ja nur stehst du da ziemlich allein auf weiter Flur hier. 46% erwarten Zen als das Produkt 2016 und jetzt rate mal wieviel HPC-User da abgestimmt haben. :D
Diese Tatsache macht deine Aussage vielleicht nicht verkehrt, jedoch etwas fehl am Platze und ich denke dass unser Axel genügend Erfahrungen hat was 3D Grafikengines angeht.
Hübie, die Diskussion ging von obiger Aussage von z3ck3 aus. Darauf habe ich und andere uns die letzten 2(?) Seiten bezogen.
Mir ist schon klar, dass die Anforderungen sehr sehr unterschiedlich sind. Daher sollte man doch bitte bei EINEM Thema bleiben, ansonsten geht nämlich alles durcheinander, und dann können wir uns das auch gleich sparen.
Zum Thema: Ich bin zwar nicht so versiert wie einige von euch, aber du kannst Bandbreite erweitern indem du Prefetching, branch prediction, compression und multichannel (alternierende Speichercontrollerzugriffe) einführst. Das kannst du nicht in Flops mal vier, durch acht oder so etwas ausdrücken. Wirkt zu abstrakt um use cases darzustellen.
Bitte was?
Welches Prefetching meinst du? Von der CPU über die MMU oder innerhalb des RAM-Riegels? Gleicher Name aber zwei total unterschiedliche Dinge, wobei beide nicht wirklich hier passen.
Branch prediction reduziert wenn dann nur unnötige Datenfetches aus dem RAM, erhöht aber diese nicht. Man macht einfach nur wenig Müll
Compression funktioniert für Grafiken usw gut. Für Nutzdaten ist das aber so eine Sache. Du musst ja auf jeden Fall lossles sein, und dann gibt es auch keine definierten Datenformate usw usf. Das kannste für General Purpose voll knicken. (Meine Meinung, lasse mich da aber gerne vom Gegenteil überzeugen)
Multichannel sind einfach mehrere RAMs nebeneinander. Das skaliert nicht und ist doch nichts anderes als über HBM diese zu steigern.
Ich habe schon oft Entwickler erlebt, die entweder deutlich bessere oder deutlich schlechtere Performance erhalten haben als erwartet, weil die Hardware einfach in vielen Bereichen schlecht dokumentiert ist oder einfach secret sauce hat.
Dann haben Sie in der Regel ihren Code nicht genau genug angeschaut, oder aber eben irgendewas nicht bedacht-/ichtig verstanden.
Gerade bei x86 sind an sich die Sachen schon extrem gut dokumentiert.
Das gilt besonders nVidia.
Das ist aber hauptsächlich ein nVidia Problem. Die Jungs/Mädels geben halt auch einfach praktisch gar keine Doku raus....
Und bitte rede nicht so von oben herab. Das passt nicht zu dir. ;)
Meinem Gefühl nach habe ich das auch nicht. Ergo war es nicht meine Absicht
Unicous
2016-01-08, 16:12:05
Hm, Zen bzw. AM4 Refkühler?
Weder noch.;)
http://techreport.com/r.x/2016_1_8_AMD_condenses_its_desktop_platforms_with_Socket_AM4/wraithbox.jpg
In the meantime, AMD wants to make systems built around select AM3+ FX CPUs easier on the ears of system builders. It's introducing a new boxed CPU cooler called Wraith that represents a major improvement over its past stock heatsink solution. The Wraith cooler offers more of what we want in a heatsink, like more surface area and airflow, while reducing the one thing we don't want: noise.
Interestingly, the Wraith uses a constant-speed fan that produces 39 dBA at all times. While that may sound like nothing special for a CPU cooler, AMD says that figure comes from testing in its own anechoic chamber. The company thinks that in the real world, the Wraith cooler will be one of the quieter components in a PC. The constant-speed fan could also be less noticeable than a cooler that has to ramp its fan speed up and down often.
http://techreport.com/news/29577/amd-condenses-its-desktop-platforms-with-socket-am4
N0Thing
2016-01-08, 16:36:25
Konstante Drehzahl bei 39 dBA klingt recht laut.
Unicous
2016-01-08, 17:14:30
Das ist ein stock cooler? Was erwartest du denn?:confused:
While overclockers will still want to set the Wraith aside for a more capable solution, this boxed heatsink is a nice improvement over the older boxed cooler for FX CPUs, which could reach 53 dBA under load in AMD's testing.
Der Intel stock cooler erreicht die 53dbA auch spielend, glaube der wird sogar wenn er gequält wird noch lauter.
Das ist ein stock cooler? Was erwartest du denn?:confused:
Der Intel stock cooler erreicht die 53dbA auch spielend, glaube der wird sogar wenn er gequält wird noch lauter.
Ich habe meinen Intel Stock-Kühler im Büro noch nie bewusst wahrgenommen. Und da läuft "bißchen" mehr als Word.
Der Kühler kommt mir eher vor wie ein meisterhaft entworfener weißer Elefant. Der Endanwender schnallt sich ohnehin einen towerkühler drauf, und in einem Office-Rechner sind knappe 40 dba welche ständig Anliegen so ziemlich das letzte was man braucht.
Unicous
2016-01-08, 18:35:08
Und was willst du uns mit dieser Anekdote erzählen? Dass der Stock-Kühler bei normaler Last in einem Büro nicht wahrnehmbar ist?
Oder zockst du im Büro den ganzen Tag auf Vollast und hörst den Lüfter nicht?:confused:
Niemand hat gesagt, dass der Intel Stock Cooler bei normalen Betrieb unerträglich laut wäre. Es sollte aber dennoch klar sein, dass ein stock cooler einem aftermarket-design zumindest bei der Lautstärke unter Last meist (deutlich) unterlegen ist.
Hübie
2016-01-08, 19:32:44
Wieso entscheidet man nun wieder fixe Geschwindigkeit? :confused: AMD glaubt immer viel am Markt vorbei.
Man kann ja auch 3-Pin-Lüfter regeln. Muss ja nicht gleich das teure PWM sein.
z3ck3
2016-01-08, 20:59:46
Meiner Meinung nach sollten alle CPUs ohne Kühler ausgeliefert werden. Oder alternativ immer auch ohne Kühler (nicht Tray, sondern Boxed) angeboten werden und mind. 5 Euro Preiswerter. Wäre mal ne Maßnahme für eine EU Richtlinie.
Laut heise kommt Bristol Ridge erst mit Summit Ridge :frown: :facepalm:
Unsere Rückfrage, ob AM4 mit Bristol Ridge starten würde und Summit Ridge dann später hinzu käme, wurde allerdings explizit verneint: Es ergäbe keinen Sinn, einen neuen Sockel mit tendenziell langsameren CPUs zu starten und High-End-Prozessoren dann später nachszuchieben, so AMD.
http://www.heise.de/newsticker/meldung/CES-2016-AMD-kuendigt-einheitlichen-CPU-Sockel-fuer-Desktop-PCs-an-3067495.html
Zu Bristol Ridge für Notebooks waren AMD ebenfalls keine Informationen zu entlocken: Man sei hier mit dessen technisch eng verwandten Carrizo-APUs gut aufgestellt.
Also kein BR fuer Notebooks? Keine Notebooks mit Carrizo + DDR4?
Ich waere stark davon ausgegangen, dass BR jetzt bald mal mit AM4 Boards auf den Markt kommt und im gleichen Zuge BR Notebooks. So bleibt aber wohl alles beim alten, es gibt keine anstaendigen AMD Notebooks, es gibt keine moderne AMD-Plattform auf dem Desktop. Und das wird demnach auch noch bis naechstes Jahr so bleiben. dann interessiert mich BR aber auch nicht mehr, denn dann will ich wenn ueberhaupt gleich Raven Ridge...
tm0975
2016-01-09, 17:44:24
iuno, das hast du falsch verstanden. amd sagt, fm4 AM4 kommt erst mit zen. fm4 AM4 mit ner nicht-high-end-plattform zu bringen, macht lauf amd keinen sinn. das ganze wird bedeuten, dass bristol ridge noch auf fm2+ kommen wird. hat ja nen kombi-speichercontroller drin, soweit mir bekannt.
zum thema aktuelle plattform: mir fehlt an fm2+ derzeit nichts, zumindest an der mainboard-plattform. ddr 2400 und usb 3.0 reichen mir. die anschlußmenge reicht auch locker.
Hübie
2016-01-09, 17:50:42
Jedes AMD Board ist den Intel-Brettern in den jeweiligen Preispunkten überlegen. DAS ist nun wirklich kein Anlass zur Kritik bei AMDs Plattformen.
z3ck3
2016-01-09, 19:01:00
Was fehlt ist u.a. M.2 @PCIe 3.0 4x, bzw. generell M.2, von dem was bei AM3+ alles fehlt reden wir lieber mal nicht ;) AMDs aktuelle Boards und CPUs taugen doch nur noch für HTPCs, Word, Web und anspruchsloses Daddeln ;) :D
Edit: Sagt mal, PCIe 4.0 wird vermutlich nicht mit AM4/Zen verfügbar, oder?
iuno, das hast du falsch verstanden. amd sagt, am4 kommt erst mit zen. am4 mit ner nicht-high-end-plattform zu bringen, macht lauf amd keinen sinn. das ganze wird bedeuten, dass bristol ridge noch auf fm2+ kommen wird. hat ja nen kombi-speichercontroller drin, soweit mir bekannt.
ftfy (am4 statt fm4 (gibt's nicht, es gibt noch fp4 -> mobile))
Ja, Carrizo laeuft ja aktuell auch mit DDR3.
Aber wie kommst du darauf? Das ist voellig neu und imho unwahrscheinlich. BR war schon die ganze Zeit fuer AM4 angekuendigt. Dass BR jetzt noch auf FM2+ kommen soll ergibt einfach keinen Sinn. Warum sollte man das machen? Ist der Chipsatz zu teuer/noch nicht fertig (auf dem Desktop soll BR's integrierter FCH ja deaktiviert sein)?
http://pics.computerbase.de/6/4/7/9/2/2-1080.3860947675.jpg
http://1.f.ix.de/imgs/18/1/7/2/6/5/7/2/am4-4be4f3cbea146021.jpeg
Das untere Bild ist von der CES, dort kommen ja die Infos her. Waere mit der Aussage, die heise nennt gemeint gewesen, dass man BR noch auf FM2+ bringen will, haette man das auch so gesagt.
Auch andere Seiten schreiben von BR zu Jahresende, jetzt nur der neue Boxed-Kuehler, angeblich neue Boards fuer die alte Plattform und sowas...
Zudem kommt die 7890k (http://www.computerbase.de/2016-01/kaveri-flaggschiff-amd-a10-7890k-gezeigt-in-wenigen-wochen-im-handel/), eine nochmals aufgewaermte 7850k/7870k. Ergo wird BR nicht demnaechst erscheinen.
auch schoen: im demo System zum neuen "Wraith"-Kuehler, das auf der CES steht, hat AMD ein Case genommen, in das der Kuehler gar nicht rein passt :facepalm:
http://pics.computerbase.de/6/9/8/9/5/7-1080.3665200297.jpg
Im Demo-Modell blockierte der neue Kühler nicht nur einen der beiden RAM-Slots, auch der PCI-Express-Slot wird vom Kühler überragt. Das Silverstone-Gehäuse ist zudem nicht hoch genug für den Kühler
grobi
2016-01-09, 22:03:08
Was fehlt ist u.a. M.2 @PCIe 3.0 4x, bzw. generell M.2, von dem was bei AM3+ alles fehlt reden wir lieber mal nicht ;) AMDs aktuelle Boards und CPUs taugen doch nur noch für HTPCs, Word, Web und anspruchsloses Daddeln ;) :D
Das stimmt so nicht, M2 gibt es. Aber ich denke das der Markt die AM3+ Plattform schon abgeschrieben hat.
https://geizhals.de/gigabyte-ga-970-gaming-a1371426.html?hloc=de
tm0975
2016-01-09, 22:38:39
auch schoen: im demo System zum neuen "Wraith"-Kuehler, das auf der CES steht, hat AMD ein Case genommen, in das der Kuehler gar nicht rein passt :facepalm:
http://pics.computerbase.de/6/9/8/9/5/7-1080.3665200297.jpg
AMD-Marketing-Blödsinn als Running gag?
BR ist fertig. dass sie das zeugs n ganzes jahr liegen lassen, kann ich fast nicht glauben. die mobilen gehen vor. aber das im sommer kein BR kommt, glaube ich nicht so recht.
http://dresdenboy.blogspot.de/2016/01/amd-a10-9600p-bristol-ridge-laptop-left.html
einziges argument für verzögerung sind volle lager mit trinity, richland und kaveri.
richland+trinity gibts noch reichlich, vor allem richland:
http://geizhals.de/?cat=cpuamdfm2&asuch=&bpmax=&v=l&hloc=at&hloc=de&plz=&dist=&mail=&sort=-eintr
kaveri +refresch sowieso:
http://geizhals.de/?cat=cpuamdfm2p
Knuddelbearli
2016-01-09, 23:48:50
PCIe 2.0 x2
ist für M2 ja eher ein Witz ^^
OBrian
2016-01-10, 00:30:02
einziges argument für verzögerung sind volle lager mit trinity, richland und kaveri.oder es gab eine Verzögerung beim Promontory-Chipsatz. Ohne Chipsatz kann man keine Bretter bauen. Kann ich mir zwar nicht so richtig vorstellen, was soll an dem Chipsatz so schwierig sein, den kann man ja auch lange vorher fertig haben. Aber rein theoretisch denkbar wär's.
Skysnake
2016-01-10, 09:22:44
Edit: Sagt mal, PCIe 4.0 wird vermutlich nicht mit AM4/Zen verfügbar, oder?
Theoretisch wohl möglich. PCI-E 4.0 IP gibt es bereits von Cadence zu kaufen. Ich wollte mir eigentlich auch einen Workshop dazu anschauen Ende letzten Jahres, bin aber nicht dazu gekommen :(
Ich weiß jetzt allerdings nicht inwieweit PCI-E 4.0 sich von 3.0 unterscheidet. Es wird aber sicherlich Einschränkungen bezüglich der Distanzen ohne Repeater geben, oder man kann halt kein FR4 mehr nehmen für die Mainboards.
Wie man es auch dreht und wendet. PCI-E 4.0 wird mit Einschränkungen einherkommen, die man nicht wirklich will, wenn man nur PCI-E 3.0 braucht/will.
Was natürlich sein kann ist, dass die CPUs schon 4.0 unterstützen, aber eben nur den 3.0 Mode aktiviert haben. Das halte ich sogar für ziemlich wahrscheinlich, auch wenn man damit ein gewisses Risiko eingeht. Die 3.0er hat man ja schon lange verbaut, kennt also an sich den Workflow um einen funktionierenden 3.0er zu bauen, und in den APUs sind doch auch schon welche drin die von GF kommen oder?
Man müsste also keine neuen 3.0er bauen.
Aber um zurück auf deine Frage zu kommen. Ich glaube nicht, das wir 4.0 zum Start von Zen sehen werden, es sei denn Intel prescht vor, was ich aber nicht glaube.
2018 wird wohl das Jahr von 4.0 meiner Meinung nach.
AnarchX
2016-01-10, 09:50:43
Trotz Verdopplung ist das wohl doch recht wenig Bandbreite für High-End-GPUs, die dann in Richtung 2TB/s marschieren. Mal sehen ob es dafür Lösungen gibt: x32-Slots bzw. eine Bridge mit welcher eine Karte an zwei x16-Slots angeschlossen werden kann. Auf der anderen Seite könnte AMD davon profitieren, wenn sie mit Zen+ eine x86-Architektur bieten, die ähnlich wie NV-Link einen High-End-Connector als Option hat. NV muss da sich wohl vorerst mit Power oder Denver begnügen.
robbitop
2016-01-10, 10:12:43
Im sGPU Betrieb ist selbst die Bandbreite von PCIe 2.0 kein Bottleneck in herkömmlichen Anwendungen. Selbst für mGPU reicht es eigentlich.
AnarchX
2016-01-10, 10:39:47
Ist hat die Frage ob durch die aktuellen Konsolen es Anwendungsfälle geben wird, die mehr Daten zwischen CPU und GPU bewegen.
PCIe4 wird sicherlich diese Anbindungen (Onion3 40GB/s) überbieten, aber im Verhältnis zur Rechenleistung wäre es immer noch etwas wenig.
fondness
2016-01-10, 11:31:22
Die Specs von PCIe 4.0 sind noch nicht final und werden das wohl auch nicht vor 2017.
Skysnake
2016-01-10, 11:36:21
PCI-E 4.0 hat auf nem 16x Slot 32GB/s, also einfach das doppelte von 3.0. Wie bisher halt auch mit jeder neuen PCI-E Gen.
Wenn müsste man also 32x Slots verbauen, die zar spezifiziert sind, aber meines Wissens nach noch nirgends jemals verwendet wurden.
An sich ist das mit der Bandbreite von PCI-E halt auch immer so eine Sache. Es kommt IMMER! darauf an, wie groß die Datensets sind und wie lange man auf diesen Rechnen kann, bis man wieder Daten übertragen muss, also quasi die Computeintensity.
Läuft am Ende halt quasi auf eine analoge Argumentation hinaus wie bei den Caches.
Es kommt also stark auf die Anwendung drauf an, was denn nun am Ende mehr Bamdbreite braucht oder nicht. Wenn man glück hat mit der Anwendung, wie Gamer/3D-Grafik, dann braucht man die Bandbreite nicht wirklich. Wenn man aber Strong Scaling sich anschaut von GPGPU-Sachen, dann braucht man es eher schon.
Der Punkt ist halt, man muss die Daten AUF JEDEN FALL! kopieren bei dGPUs. Daher sind diese architektonisch bei solchen Problemen einer iGPU Lösung einfach unterlegen. Schneller als die Daten gar nicht kopieren geht halt nicht. Da kann PCI-E so schnell sein wie Sie wollen. Nichts machen müssen ist halt die optimale Lösung :ugly:
EDIT:
@fondness:
Ja, Sie sind noch nicht final, aber wirklich dran ändern wird sich wohl nichts mehr. Wie gesagt, es gibt schon IP zu kaufen. Da darf es höchstens noch detailiertere Spezifikationen geben, aber keine grundlegenden Änderungen mehr. Ansonsten sehen wir PCI-E 4.0 erst Richtung 2019 oder gar erst 2020. I/O-Interfaces zu designen und zu verifizieren braucht einfach seine Zeit.
z3ck3
2016-01-10, 13:13:24
Ist eigentlich wirklich sicher das es nur einen Sockel für Desktop/Server Boards gibt? Wird es keinen extra Sockel für Server geben? Und wie will man das Problem lösen das manche CPUs vielleicht 25W verbrauchen, andere jedoch 120W? Für LP CPUs wären Boards die auch 120W+ CPUs versorgen können vermutlich reichlich ineffizient. Für Multiprozessor Boards braucht man ja auch noch zusätzlich Pins für einen Link, der bei SP Boards nicht vorhanden sein muss. Und rein Theoretisch, falls man eine CPU für HPC auflegen würde, also mit z.b. 32 oder 64 Cores und HBM oder Performance GPU + HBM + 8C oder ähnliches, dann würden selbst die 120W nicht im entferntesten ausreichen.
Wird AMD das ggf. so machen das es von Anfang an eine hohe Anzahl an Pins gibt, die aber je nach CPU genutzt werden oder brach liegen? Und das es Boards zwar mit gleichem Sockel aber unterschiedlicher TDP gibt, so das ein Low Power Board zwar einen 16C CPU aufnehmen kann, dieser dann aber gedrosselt wird, bzw. eine Low Power CPU zwar in einem Highend Board nutzbar wäre, jedoch eben ineffizient und ggf. PCIe Lans etc. fehlen?
Bis vor ein paar Jahren hat man ja quasi sämtliche Features für die Chipsätze abgebildet. Mitlerweile ist es ja so das z.b. von der CPU eine gewisse Anzahl der PCIe Lanes bereit gestellt werden. Die Differenz des Bedarfs an ihrer Anzahl ist ja reichlich Groß zwischen Highend (32 PCI-E 3.0 Lanes und mehr) und Low Power (8 PCI-E 3.0 Lanes oder gar nur 4). Auch möchte man ja in ITX Systemen teilweise auch lieber wenig Platz für den Sockel aufbringen, während es bei E-ATX Boards an Platz weniger mangelt.
Momentan befürchte ich das AM4 ein Kompromiss wird der das Leben nur für OEMs einfacher macht. ^^
P.s.:
@grobi: M.2 @ PCIe 2.0 x2 ist reichlich Banane ;)
fondness
2016-01-10, 13:15:43
Server benötigt ECC mem, außerdem will man da wohl wieder zwei Dies auf einem Träger verbauen und ein LGA verwenden. Nur Desktop wird bestätigt auf AM4 "fusioniert", Server ebenfalls auf AM4 würde mich stark wundern. Da sehe ich auch keine Synergien zwischen Server und Desktop, wo sich ein gemeinsamer Sockel lohnen würde.
z3ck3
2016-01-10, 15:35:16
ECC oder nicht spielt keine Rolle, da das eine Sache der CPU ist ob es unterstützt wird oder nicht. Reine Produktpolitik. Eine AM4 Server-, oder generell eine Highend CPU kann also durchaus ECC unterstützen, wärend Low End CPUs der Support genommen wird. Und anders herum kann man eine CPU die ECC unterstützt mit ganz normalem Ram betreiben.
Intel bitete beim S1051 und auch bei den Vorgängern, auch Server/Workstation Chipsätze mit leicht anderen Funktionen an. Xeons unterstützen z.b. ECC Speicher. AM3+ CPUs haben aucch ECC Speicher unterstützt. Der S2011-3 und seine Vorgänger sind auch als Server/Workstation Plattform erhältlich.
Die größte Differenz liegt zwischen Highend und Lowend CPUs, nicht zwischen Server und Desktop CPUs. Bei letzterem ist außer dem produktpolitischen Features nur der Interconnect bei Multiprozessorsystemen relevant, der bei Singleprozessorplattformen nicht in der Breite benötigt wird.
OBrian
2016-01-11, 08:26:33
Wenn diese Gerüchte über fette Server-APUs mit CPU- und GPU-Die und HBM nicht völlig aus der Luft gegriffen sind, dann braucht man sowieso einen anderen Sockel, der einfach von der Fläche her schon größer sein muß und außerdem größere TDPs verdaut (mit Server-Stabilität). Außerdem will/kann man sicherlich nicht mit der mageren Zahl Speicherslots auskommen, die man an AM4 hängen kann. Und es sind auch ganz andere I/O-Anbindungen gefordert, mit ein paar PCIe-Lanes, USB 3.0 und HDMI ist da keinem geholfen.
Aber bisher hat AMD ja noch gar nicht gesagt, welche Segmente sie genau angreifen wollen, das ist sicherlich auch Absicht, die Konkurrenz möglichst lange im Dunkeln zu lassen. Wenn man sich z.B. nur auf Bladeserver konzentrierte, dann würde sowas wie AM4 ja reichen, aber wenn es was mit mehr als einem Sockel pro Board werden soll, dann muß man was Neues konstruieren. Und im Serverbereich krankt es ja meistens an I/O und RAM-Menge, weniger an der puren Rechenleistung, also ist der Sockel fast noch entscheidender als die CPU darin.
Ich denke mal, in der Desktop-CPU wird es nichts geben, was für den Server gedacht und nur deaktiviert ist (ECC im MC evtl.). Stattdessen werden sie wohl eher eine extra Server-CPU (wahlweise mit und ohne GPU) bauen, wo man dann richtig mit I/O klotzen kann.
Der ARM Opteron A1100 sollte wohl morgen kommen. TPU hat einen Frühstart gemacht: http://webcache.googleusercontent.com/search?q=cache:www.techpowerup.com/219214/amd-announces-the-opteron-a1100-series-64-bit-arm-processor-for-the-datacenter.html
Skysnake
2016-01-13, 22:09:13
Naja, klingt gar nicht mal so schlecht.
Waren aber nicht mal 40Gb Ethernet Ports angedacht? 2x10Gb finde ich jetzt nämlich nicht gerade soooo viel, wobei man es auch wiederum in Relation zur Performance der CPU sehen muss.
Bin mal gespannt, was die so leisten kann.
Novum
2016-01-13, 22:15:11
Server benötigt ECC mem, außerdem will man da wohl wieder zwei Dies auf einem Träger verbauen und ein LGA verwenden. Nur Desktop wird bestätigt auf AM4 "fusioniert", Server ebenfalls auf AM4 würde mich stark wundern. Da sehe ich auch keine Synergien zwischen Server und Desktop, wo sich ein gemeinsamer Sockel lohnen würde.
Alle AMD-Sockel konnten schon immer ECC man braucht nur das richtige Board. Ich hab einen Athlon X4 am laufen mit ECC (AM2 soweit ich weiss).
Der einzige Unterschied ist 72 statt 64 Kontakte pro DIMM-Channel. Kein grosses Ding.
Ravenhearth
2016-01-14, 23:19:29
Dass BR wirklich auf Jahresende verschoben wurde, kann ich irgendwie nicht glauben. Der ist doch praktisch fertig, zumal die geleakten Folien von einem Start zur Jahresmitte sprachen. Wobei da auch noch von einem Mobile-Portfolio auf BR-Basis die Rede war...
Novum
2016-01-14, 23:27:11
Was ist BR?
Akkarin
2016-01-14, 23:35:53
Bristol Ridge ?
Ravenhearth
2016-01-15, 03:45:27
Na worum gings denn auf der letzten Seite?
y33H@
2016-01-20, 09:48:52
[...] reentering the high performance desktop market late in the year with our Zen based Summit Ridge CPU
http://seekingalpha.com/article/3820126-advanced-micro-devices-amd-ceo-lisa-su-q4-2015-results-earnings-call-transcript?part=single
OBrian
2016-01-20, 13:57:59
Dass BR wirklich auf Jahresende verschoben wurde, kann ich irgendwie nicht glauben. Der ist doch praktisch fertig, zumal die geleakten Folien von einem Start zur Jahresmitte sprachen. Wobei da auch noch von einem Mobile-Portfolio auf BR-Basis die Rede war...für den Notebookbereich muß man ja auch nicht AM4 starten. Carrizo gibt es ja bereits, da muß einfach nur jeder Notebookhersteller für sich entscheiden, wann er auf DDR4 umschalten will, dann lötet er eben dafür passende Slots an. Viel mehr ist das ja nicht.
reaperrr
2016-01-20, 19:29:18
Aus AMD's Wachstumsplänen für 2016:
"Zen"-based CPU development is on track to achieve greater than 40% IPC uplift from our previous generation.
Also über 40% mehr IPC, allerdings mit der kleinen Einschränkung, dass AMD es unter Datacenter auflisten, wo streng genommen ja Piledriver und nicht Excavator die vorherige Generation darstellt. Naja, wollen wir mal hoffen, dass sie sich trotzdem auf Excavator bezogen haben. Über 40% ggü. XV wären wohl über 55% ggü. PD.
Nightspider
2016-01-20, 20:04:54
Da ich bzgl. AMD CPUs nicht auf dem Laufenden bin:
Sollen die 2017er APUs von AMD (teilweise?) mit HBM verkauft werden? Wenn nein: wann wird das in etwa zu erwarten sein?
Der eDRAM bei Intel schafft ja auch "nur" 102 GByte/s (http://www.golem.de/news/intel-cpu-edram-mit-102-gbyte-s-bei-1-watt-und-effiziente-grafikkerne-1402-104485.html) und wenn HBM2 256GB/s pro Stack liefert könnte AMD damit ja recht schnell 512GB/s erreichen mit 2 Stacks.
Da der eDRAM bei Intel ja auch die CPU-Kerne dezent beschleunigt sollten bei der 5fachen Bandbreite ja auch einige Prozent Mehrleistung bei den CPU Kernen rausspringen - je nach Anwendung.
Selbst wenn mit dem eDRAM nicht der RAM ersetzt werden würde (weil nicht erweiterbar oder vllt zu wenig) könnte man diesen ja zumindest als großen L4 Cache und VRAM verwenden. 2*2GB HBM kosten 2017 sicherlich auch nicht mehr viel, es wären halt nur die Mehrkosten wegen dem Interposer, wobei wir da ja im dunkeln stochern wie teuer das genau ist aber man hätte halt fette 512GB/s für die CPU zur Verfügung.
Ich fände das zumindest sehr interessant und cool, selbst wenn dieser L4 HBM Speicher/Cache dann nur bei den HighEnd CPUs verbaut werden würde, quasi als Krone oben drauf. Da wäre es mir dann auch Wurscht ob das Teil dadurch 100-150 Euro teurer werden würde wenn dadurch alle 8 Zen Kerne nochmal hypothetische 5%-40% schneller werden würden. :D
Zumindest im Computerbase Test (http://www.computerbase.de/2015-10/intel-core-i5-6500-5675c-4690-test/3/#diagramm-f1-2015-720p) wurden die Broadwell CPU-Kerne durch den eDRAM teils extrem beschleunigt im Vergleich zu Skylake:
F1 |+38%
GTA5 |+31%
Witcher 3 |+7%
Total War |+59%
CoD |+6%
AC:U |+53%
Gesamtrating |+28%
Als Enthusiast würde ich mir sowas natürlich nicht nur für die APUs wünschen sondern vor allem für die CPUs ohne integrierte Grafik. Selbiges könnte ich mir natürlich auch bei Intel wünschen.^^
Noch weiß ja eh niemand wie die zukünftigen AMD Kerne auf mehr Speicherbandbreite reagieren werden. Vielleicht sind da wirklich nur die Intel CPUs am Limit.
del_4901
2016-01-20, 20:30:51
Ich will die ja nicht die Hoffnung nehmen, aber Cache ist ein bissel mehr als einfacher (D)RAM.
z3ck3
2016-01-20, 20:32:33
Ich glaube die Latenz spielt bei eDRAM auch eine sehr große Rolle. Ich glaube wir hatten das am Rande hier angeschnitten. HBM würde vermutlich nicht den gleichen Effekt haben wie eDRAM, bzw. einen kleineren Effekt wenn er als L4 Cache für die CPU dient.
Der Effekt von einer höheren Bandbreite der Speicheranbindung bei CPUs in Spielen ist ja oft im 1 FPS Bereich. Ich hab vor kurzem dazu auch einen Test gelesen, wo alle Speicher mal durch getestet wurden. Weiss gerade den Link nimmer. Jedenfalls war dort quasi ab DDR4 2400 kein Unterschied mehr sichtbar messbar. Ausser natürlich in synthetischen Benchmarks. Und auch der Unterschied zwischen 2133 und 2400 war eher esotherischer Natur.
Ravenhearth
2016-01-20, 20:38:35
Ich bezweifle, dass die normalen Raven-Ridge-APUs mit HBM kommen, da dürfte man DDR4 ausreizen wollen. Aber AMD hat für 2017 auch eine HPC-APU in Aussicht gestellt, die wohl mit HBM kommen muss. Aber es ist fraglich, ob die auch ins Consumer-Segment kommt, denn auf AM4 wird die dann wohl nicht passen...
Angesichts dessen, dass Bristol Ridge ("Carrizo fuer Desktop") nun erst mit Summit Ridge (Zen-CPU) Ende 2016 kommen soll, gehe ich davon aus, dass Zen-APUs (Raven Ridge) erst spaet 2017 kommen. Waere gleich eine mit HBM dabei, wuerde das in meinen Augen als Zugpferd absolut Sinn ergeben, ich bezweifle aber, dass das direkt kommt. Erstmal wird man den vermutlich trotzdem sehr grossen Sprung ggue. BR durch Polaris+Zen vermarkten und spaeter mit HBM einen drauf setzen. Aber dazu weiss man noch ueberhaupt nichts, nur dass irgendwann mal eine APU mit HBM kommen soll. Vielleicht haengt es auch ein bisschen davon ab, was Intel mit der Kaby Lake iGPU hinbekommt.
Wie ist denn die Latenz des DRAM im Vergleich zu HBM?
Der Vergleich hinkt im Uebrigen gewaltig. Du kannst nicht eine CPU mit 8 Threads gegen eine mit 4 stellen und sagen der Vorsprung kaeme vom Cache. Man sieht ja an den Speichertests, dass mehr Speicherbandbreite der CPU fast gar nichts bringt.
z3ck3
2016-01-20, 20:56:38
Broadwell DDR3 1600
http://www.aida64.com/sites/default/files/shot4_cachemem_broadwell_h.png
Skylake DDR4 2133
http://www.aida64.com/sites/default/files/shot3_cachemem_skylake.png
Skylake DDR4 3866
http://www.legitreviews.com/wp-content/uploads/2015/08/ddr4-3866.jpg
Da der Skylake mit DDR4 3877 den Broadwell bei der Latenz scheinbar weg pustet, kann es das aber auch nicht sein. ^^
Angesichts dessen, dass Bristol Ridge ("Carrizo fuer Desktop") nun erst mit Summit Ridge (Zen-CPU) Ende 2017 kommen soll, gehe ich davon aus, dass Zen-APUs (Raven Ridge) erst spaet 2017 kommen.
Wenn das wirklich der Plan derzeit wäre für eine Zen APU, wird es am Ende wahrscheinlich erst H1 2018 werden.
Nightspider
2016-01-20, 21:10:07
Ich glaube die Latenz spielt bei eDRAM auch eine sehr große Rolle. Ich glaube wir hatten das am Rande hier angeschnitten. HBM würde vermutlich nicht den gleichen Effekt haben wie eDRAM, bzw. einen kleineren Effekt wenn er als L4 Cache für die CPU dient.
Meine Hoffnung ist eben die das die deutlich höhere Bandbreite von HBM (512GB/s bei 2 Stacks) im Vergleich zu eDRAM (102 GB/s) die höhere Latenz aufwiegen könnte.
Und wie du mit dem Bild zeigst scheint der eDRAM mit 44ns auch keine Größenordnungen besser zu sein als von DRAM. Zumal HBM ja auch kürzere Latenzen hat als DRAM.
Eventuell liegen eDRAM und HBM sogar auf gleichem Niveau bzgl. Latenz?
In dem Falle könnte HBM voll punkten durch die Bandbreite. Allerdings weiß ich jetzt nicht ob eine CPU den HBM überhaupt als L4 ansprechen könnte da dazwischen ja noch der Speichercontroller liegt.
AlphaTier könnte das ein Problem werden?
Der Vergleich hinkt im Uebrigen gewaltig. Du kannst nicht eine CPU mit 8 Threads gegen eine mit 4 stellen und sagen der Vorsprung kaeme vom Cache.
Wo vergleich wer 4 mit 8 Thread? :confused:
i5-5675C und i5-6500 haben beide 4 Threads und gleiche Turbo-Taktrate, lassen sich also nahezu perfekt vergleichen.
dargo
2016-01-20, 21:13:27
Broadwell DDR3 1600
http://www.aida64.com/sites/default/files/shot4_cachemem_broadwell_h.png
Skylake DDR4 2133
http://www.aida64.com/sites/default/files/shot3_cachemem_skylake.png
Skylake DDR4 3866
http://www.legitreviews.com/wp-content/uploads/2015/08/ddr4-3866.jpg
Da der Skylake mit DDR4 3877 den Broadwell bei der Latenz scheinbar weg pustet, kann es das aber auch nicht sein. ^^
Was soll der Vergleich mit drei verschiedenen Taktraten bei der CPU jetzt genau beweisen?
Nightspider
2016-01-20, 21:16:23
Reicht doch für einen ersten Vergleich. Ging ja jetzt primär um die Latenzen und die ungefähren Bandbreiten der Cache-Stufen.
Wenn das wirklich der Plan derzeit wäre für eine Zen APU, wird es am Ende wahrscheinlich erst H1 2018 werden.
Das war natuerlich ein Tippfehler, sollte aber auch daraus hervorgehen, dass danach nochmal "2017" steht.
Fuer BR/SR gilt natuerlich: Ende 2016
Wo vergleich wer 4 mit 8 Thread? :confused:
i5-5675C und i5-6500 haben beide 4 Threads und gleiche Turbo-Taktrate, lassen sich also nahezu perfekt vergleichen.
Sorry, mein Fehler. Ging von dem 5775C aus. Haettest aber ruhig die Modelle auch dazuschreiben koennen:tongue:
Das Thema mit Broadwell hatte ich gar nicht mehr auf der Liste, ist aber auch mehr als Merkwuerdig. Im urspruenglichen Test war der 5775C (!) noch hinter dem 4790k, hier soll der 5765C(!) ploetzlich vor dem 4790k und sogar vor dem 6700k liegen. Im Skylake-Test (6700k/6600k) wird dann dagegen wieder gar kein Broadwell mehr aufgefuehrt... Vergleichbarkeit at it's best
z3ck3
2016-01-20, 21:30:47
@Drago: Es ging nur um die Latenzen der jeweiligen Speicher inkl. des eDRAM (L4) vom Broadwell
Ravenhearth
2016-01-20, 21:51:57
Wenn AMD es schaffen sollte, 8 Kerne+SMT mit IPC auf Sandy-Niveau (entspräche Excavator +40%) und 4 GHz Grundtakt zu liefern, dann könnte man @Stock so schnell sein wie der kommende Broadwell-E i7-6900K (3,2 GHz) für $999. Natürlich hat der Intel dann immer noch ein breiteres Speicherinterface und mehr PCI-E-Lanes und ein besseres OC-Potenzial, aber der AMD dürfte auch wesentlich günstiger sein. Das wäre zumindest das erwartbare Maximum.
dargo
2016-01-20, 21:56:13
Reicht doch für einen ersten Vergleich. Ging ja jetzt primär um die Latenzen und die ungefähren Bandbreiten der Cache-Stufen.
@Drago: Es ging nur um die Latenzen der jeweiligen Speicher inkl. des eDRAM (L4) vom Broadwell
Euch ist aber schon klar, dass der Durchsatz und die Latenzen auch mit dem CPU-Takt skalieren?
54535 54536 54537
PS: bei den 3,7Ghz bin ich mir nicht sicher was das Programm nimmt. Es könnten auch 3,5Ghz sein.
Edit:
Gerade mit CoreTemp geprüft. Bei der 3,7Ghz Anzeige liegen 3,5Ghz an.
Nightspider
2016-01-20, 21:58:47
Euch ist aber schon klar, dass der Durchsatz und die Latenzen auch mit dem CPU-Takt skalieren?
54535 54536 54537
Nicht so sehr als das sich deswegen jemand hier (außer dir:tongue:) ins Hemd machen würde.
dargo
2016-01-20, 22:04:19
Nicht so sehr als das sich deswegen jemand hier (außer dir:tongue:) ins Hemd machen würde.
Belege das erstmal.
Zumal ich noch gerade dabei sehe, dass der L3 im Post von z3ck3 beim Broadwell mal eben 700Mhz langsamer als beim Skylake läuft. Der Vergleich ist einfach für die Mülltonne, sonst nichts.
Ravenhearth
2016-01-20, 22:06:09
Niemand erwartet IPC auf Skylake-Niveau. Und in gewissen Grenzen kann man IPC mit mehr Kernen kompensieren. Wenn dann die Kerne noch vergleichsweise kompakt bauen und das ganze effizient bekommt, dann hat man eine CPU mit der man Geld verdienen kann.
Korrekt. Hauptsache man kommt überhaupt in die Nähe von Intel. Und mit Zen + 14nm stehen die Chancen vermutlich so gut wie seit K8-Zeiten nicht mehr. Bei allem was danach kam hatte AMD fast immer einen großen Fertigungsnachteil und bedeutend weniger IPC und/oder Takt.
z3ck3
2016-01-20, 22:11:02
Ja sicher ist das alles nicht vergleichbar. habe ich auch nicht gesagt. Ich wollte nur den L4 Wert finden und habe eben dann noch mal aus interesse vergleichen Wollen wie das so bei DDR4 Latenzen aussieht. Die 40ns bei DDR4 3866 habe ich nicht erwartet. Bei Broadwell macht der Latenzunterschied auch "nur" etwa 50% zwischen L4 und DDR3 aus.
Um das überhaupt vergleichbar zu machen müsste man natürlich geziehlt Benchen und entsprechende Prozessoren nehmen, so das vor allem der L4 und der RAM die Variablen sind, nicht aber CPU Takt etc.
Nightspider
2016-01-20, 22:11:26
Belege das erstmal.
Wegen 10-20% mehr Takt wird sich ja wohl kaum die Latenz halbieren. :freak:
Sieht man ja schon an den Bildern das Broadwell trotz niedrigerer Taktrate fast gleiche Latenzen hat.
Zumal das CPU OC sich nicht auf den eDRAM auswirkt wenn ich mich nicht irre. Hier gings um eDRAM vs. HBM und die liegen scheinbar gleich auf laut den Aida Werten.
Der Vergleich ist einfach für die Mülltonne, sonst nichts.
Liegst du wieder auf der Erbse oder versuchst du absolut exakte Werte zu ermitteln für.... ....Bruce Wayne?
Nochmal: Es ging nur darum erstmal eDRAM von der Latenz her einzuordnen im Vergleich zu L1,L2,L3 und dem Hauptspeicher.
dargo
2016-01-20, 22:19:02
Wegen 10-20% mehr Takt wird sich ja wohl kaum die Latenz halbieren. :freak:
Habe ich das irgendwo behauptet?
Nochmal: Es ging nur darum erstmal eDRAM von der Latenz her einzuordnen im Vergleich zu L1,L2,L3 und dem Hauptspeicher.
Liest du auch worauf ich mich ursprünglich bezogen habe?
http://www.forum-3dcenter.org/vbulletin/showpost.php?p=10919675&postcount=2372
Anscheinend nicht.
Um das überhaupt vergleichbar zu machen müsste man natürlich geziehlt Benchen und entsprechende Prozessoren nehmen, so das vor allem der L4 und der RAM die Variablen sind, nicht aber CPU Takt etc.
Genau darum gings mir. Beide CPUs mit dem gleichen Takt sowie L3 vergleichen.
Nightspider
2016-01-20, 22:27:38
Ach dir gings um den DRAM Durchsatz vers. RAM-Geschwindigkeiten bei vers. CPU Taktraten?
Ist doch genauso Wurst. Wir sehen das die Latenz vom DRAM bei viel höherem Takt merklich sinkt und damit sogar eDRAM Niveau erreicht.
Damit sehen wir immerhin das der eDRAM scheinbar in keiner völlig anderen Liga gespielt hat.
Broadwell eDRAM L4 Cache: 44ns
Skylake DDR4 3866: 40ns
HBM soll, soweit ich weiß, kürzere Latenzen haben als DRAM. Ergo ist HBM womöglich eine Alternative. Ergo, die Bilder die er gepostet hat waren sinnvoll.
YfOrU
2016-01-20, 22:35:07
Angesichts dessen, dass Bristol Ridge ("Carrizo fuer Desktop") nun erst mit Summit Ridge (Zen-CPU) Ende 2016 kommen soll, gehe ich davon aus, dass Zen-APUs (Raven Ridge) erst spaet 2017 kommen. Waere gleich eine mit HBM dabei, wuerde das in meinen Augen als Zugpferd absolut Sinn ergeben, ich bezweifle aber, dass das direkt kommt. Erstmal wird man den vermutlich trotzdem sehr grossen Sprung ggue. BR durch Polaris+Zen vermarkten und spaeter mit HBM einen drauf setzen. Aber dazu weiss man noch ueberhaupt nichts, nur dass irgendwann mal eine APU mit HBM kommen soll. Vielleicht haengt es auch ein bisschen davon ab, was Intel mit der Kaby Lake iGPU hinbekommt.
Eine typische Consumer APU mit HBM halte ich mittelfristig für unwahrscheinlich. Da HBM nicht als Cache sondern als klassischer Speicher (mit entsprechender Größe) fungiert würde die effektive Speicherbandbreite gegenüber einer reinen Anbindung mit DDR4 massiv ansteigen.
Meiner Ansicht nach macht das nur Sinn wenn hierfür eine separate APU mit wesentlich potenterer GPU aufgelegt wird. Mit nur einem Design dürfte das vor allen mit Blick auf Entry/Mainstream kaum wirtschaftlich realisierbar sein. Deutlich wahrscheinlicher ist hier der Weg über MCM. Allerdings sehe ich entsprechendes abgesehen von evtl. Mobile/SFF als BGA nicht im Consumer Bereich. Der hierfür potentielle Markt am Full Size Desktop ist einfach winzig.
Dazu muss man sich doch nur einmal vor Augen fuehren, wie die integrierte Grafikleistung beider Hersteller mit der Speichertaktrate skaliert, dann noch der Boost bei Intel durch dem eDRAM. HBM macht auf einer APU absolut Sinn.
Sunrise
2016-01-20, 22:42:40
Eine Consumer-APU mit HBM ist viel zu teuer, wir hatten das doch schon öfter auch in anderen Threads. AMD kann dies erstmal nur dort anbieten, wo die Stückzahlen niedriger und die Margen gleichzeitig hoch sind. Wurde auch im entsprechenden Call für Q4 nochmal klargestellt, in der Q&A Session.
In 1-2 Jahren vielleicht, vorher ist das pure Träumerei.
AMD benötigt jetzt erstmal wieder Traktion im GPU- und CPU-Markt, die Integration trägt dann bei Server-APUs und generell den OEM-Serverpartnern Früchte.
Erst danach und wenn die Kostenkette bei HBM deutlich niedriger ist als aktuell, wird das sicher kommen.
AMD sagt, sie können etwa 80% des Serverangebots von Intel mit Zen abdecken. Das ist nicht in 5 Minuten erledigt.
YfOrU
2016-01-20, 22:47:14
Dazu muss man sich doch nur einmal vor Augen fuehren, wie die integrierte Grafikleistung beider Hersteller mit der Speichertaktrate skaliert, dann noch der Boost bei Intel durch dem eDRAM. HBM macht auf einer APU absolut Sinn.
Ist am klassischen Desktop aber ziemlich irrelevant denn am Ende wird die Kombination aus CPU und dGPU zum gleichen Preis wie schon in der Vergangenheit tendenziell schneller sein. Wirklich interessant ist es im Consumer Bereich nur für SFF und Mobile. Dafür ein separates APU Design aufzulegen kostet aber Ressourcen und HBM ist allgemein nicht gerade günstig.
Screemer
2016-01-20, 22:48:26
Eine consumer APU mit 8-16gb, was für normale consumer Geräte erst mal ausreichen sollte, als unified memory macht einen Mittelklasse Rechner bei breiter Verfügbarkeit sicher nicht teurer, sondern wohl eher günstiger. Die APU mag an sich hochpreisiger als eine CPU seib, man spart aber bei zig anderen Komponenten. Bis hin zu einfacheren boards etc.
z3ck3
2016-01-20, 22:51:57
Im Dektop Markt haben wir aber auch eine Bewegung hin zu Nettops und Gamingsystemen im Mini ITX Format. Die Steammachines sind auch eher Nettops. Die meisten Konsumenten brauchen aktuell genau eine Erweiterungskarte: Die Grafikkarte. Mit einer wirklich Potenten APU, auch wenn diese "nur" 380X Niveau erreicht und auf 2GB dedizierten Speicher zugreifen kann, wäre das eine runde Sache. Das System wäre vermutlich sogar vergleichsweise Preiswert umzusetzen (nur ein Hotspot, SoC, etc.).
STX währe als Plattform für eine derartige APU z.b. sehr interessant:
http://www.asrock.com/news/images/20160108-2.jpg
In 1-2 Jahren vielleicht, vorher ist das pure Träumerei.
Und was willst du damit jetzt sagen? Vorher kommt sowieso kein Raven Ridge und wie gesagt kommt eine HBM-APU vermutlich nicht direkt zum Start.
Was ihr mir weismachen wollt ist, dass AMD das Konzept der APU im consumer-Markt nicht weiter voranbringen will? Die Bandbreite ist jetzt schon mehr als knapp und das Problem verschaerft sich ja in Zukunft noch deutlich. Ihr wollt mir nicht erzaehlen, dass RR in Sachen Grafikleistung nicht zulegen wird?
Wir haben schon lange 8 CUs in APUs, mit 14 LPP packt man wenn man will das Doppelte drauf, wenn man wirklich will und Bandbreite hat, auch mehr, aber das ist imho auch mittelfristig wirklich Traeumerei. Mit einer hypothetischen Verdoppelung kommt man dann mit den architektonischen Verbesserungen schon in Bereiche von Pitcairn, der mit 180 GiB/s Bandbreite daherkommt, wohingegen dual-channel DDR4 bei 3 GHz gerade einmal 48GiB/s liefern kann.
Mit HBM kann eine APU endlich der ersehnte Ersatz fuer die Einstiegs-dGPU werden. Das gilt auch und vor allem fuer Notebooks, wo AMD aktuell wahnsinnig schlecht da steht.
Fuer dGPU + CPU wird AMD in Zukunft auch wieder moderne FX-CPUs anbieten. Ich sehe daher euer Problem nicht.
on top kommt noch, dass HSA in dem Zeitraum vielleicht auch endlich mal an Fahrt aufnimmt.
In meinen Augen macht es einfach absolut keinen Sinn, diesen Bereich zurueckzufahren. Und nichts anderem kaeme es gleich, wenn nicht die naechsten Jahre eine APU mit HBM am Start ist. Intel faehrt mit seiner Iris Pro samt eDRAM auch schon jede APU an die Wand, auch das koennen sie sich einfach nicht bieten lassen.
YfOrU
2016-01-20, 23:11:33
Was ihr mir weismachen wollt ist, dass AMD das Konzept der APU im consumer-Markt nicht weiter voranbringen will? Die Bandbreite ist jetzt schon mehr als knapp und das Problem verschaerft sich ja in Zukunft noch deutlich. Ihr wollt mir nicht erzaehlen, dass RR in Sachen Grafikleistung nicht zulegen wird?
Mehr als +50% zu heute (Carrizo) sind mit DDR4 für AMD problemlos möglich und drüber hinaus muss man sich zwangsläufig die Frage nach dem Marktsegment der APUs und den verbundenen Kosten stellen. GCN 1.2 geht zwar effizienter mit der Speicherbandbreite um aber das Ende der Fahnenstange ist es sicherlich nicht. Bei Nvidia bekommt man das wie vor allen die mobilen Entry Level GPUs mit 64 Bit SI zeigen noch immer deutlich besser hin.
Je weiter man nach oben geht desto geringer wird beispielsweise die Stückzahl. Wenn man jetzt Richtung SFF und Mobile schaut lässt sich das auch mit einem BGA MCM auf welchem sich SoC, dGPU und HBM befinden realisieren. Hätte für AMD vor allen auch den großen Vorteil das entsprechende Produkte schneller, flexibler und günstiger als monolithische Designs auf den Markt gebracht werden können. Auf AM4 rechne ich mit solchen Produkten aber nicht.
Intel faehrt mit seiner Iris Pro samt eDRAM auch schon jede APU an die Wand, auch das koennen sie sich einfach nicht bieten lassen.
Die 64MB eDRAM werden von Intel im eigenen LP SoC Prozess gefertigt. Sind deshalb vergleichsweise spottbillig und landen genauso wie die PCH ohne Interposer auf dem Package (-> Iris 540/550 bei Skylake-U).
Sunrise
2016-01-20, 23:14:49
@iuno:
Das kommt ja voraussichtlich auch, nur hat AMD für 2017 erstmal genug zu tun bei CPUs und die Ressourcen sind vor allem bei AMD stark begrenzt.
Wenn sie das alles was sie aktuell auf den Roadmaps ankündigen auch pünktlich liefern, ist das schon beeindruckend genug. Dass Polaris Mitte 2016 kommt ist ein sehr strammer Zeitplan, Ende des Jahres dann Zen-Desktop und direkt danach will man Intel im Servermarkt wieder angreifen.
Dass eine solche APU sehr gut einschlagen könnte, steht außer Frage.
Nightspider
2016-01-20, 23:14:56
Ja HBM ist atm noch zu teuer für den Mainstream-Bereich aber geil wäre es schon wenn man das als optionale Enthusiasten-CPU auf den Markt bringen würde.
Falls HBM wie eDRAM wirklich etliche Programme und Games so immens beschleunigen sollte wie der Computerbase-Artikel zeigt dann würden sicherlich einige den Aufpreis zahlen und man könnte damit vllt sogar vor Intel liegen, rein hypothetisch.
Schade das es nicht mehr Tests zu eDRAM gibt.
Botcruscher
2016-01-20, 23:28:46
Im Dektop Markt haben wir aber auch eine Bewegung hin zu Nettops und Gamingsystemen im Mini ITX Format.
Die Werbeabteilungen hätten das wohl gerne um total überteuerten Mist absetzen zu können. Die Steammaschienen sind genau so ein Witz. Paar cm größer mit ATX Board und der Preis würde sich ohne irgendwelche mülligen Notebookkomponenten gleich halbieren.
Solange APUs den Grafikteil nicht generell als Co-Prozessor einsetzen können ist es Geldverschwendung.
Ein Blick zu den MF Verkaufszahlen zeigt dann wo ITX liegt: Das meist verkaufte Brett schafft es auf 500. ATX ist mit über 7000 dabei. Dazu ist der Wettbewerb bei ATX noch viel größer.
Aus sicht eines Spielers ist HBM für die APU eigentlich nur als L4 interessant. BW profitiert ja ganz gut.
Gute +50% zu heute (Carrizo) sind mit DDR4 für AMD problemlos möglich
Das widerspricht nicht im geringsten meinen Aussagen, ganz im Gegenteil:
ich bezweifle aber, dass das [HBM-APU] direkt kommt. Erstmal wird man den vermutlich trotzdem sehr grossen Sprung ggue. BR durch Polaris+Zen vermarkten und spaeter mit HBM einen drauf setzen.
und drüber hinaus muss man sich zwangsläufig die Frage nach dem Marktsegment der APUs und den verbundenen Kosten stellen.
Stellst du dir die Frage auch bei immer staerker werdenden dGPUs und CPUs? Ich weiss ehrlich nicht, was die Diskussion soll.
Im Uebrigen sprechen wir hier von Zeitraeumen wo sich die FinFET Fertigung eingefahren hat, da wird der Kram in der Herstellung nicht mehr viel teurer sein als heute. Aktuell kostet die schnellste APU keine 140 €. Da ist noch imho ordentlich Luft nach oben. Ein lappriger i3 wird haufenweise teurer verkauft.
Die Preise von HBM sind auch ein viel genannter Punkt, der eigentlich voellig absurd ist, weil keiner die wahren Preise kennt. AMD kann eine voll aktivierte 600mm² GPU mit HBM zu einem Preis anbieten, der dem einer 7970 oder 290X zum Release entspricht. Zudem wird es hier in Zukunft durch Samsung auch eine Konkurrenzsituation geben.
del_4901
2016-01-20, 23:43:53
Der Name vom eDRAM ist eigentlich falsch gewaehlt, weil es sich um echten Cache handelt. Die ganze Cachinglogic und tagging frisst einfach unheimlich viel Transistoren. Man kann nicht einfach einen HBM DRAM Chip hernehmen und den einfach als Cache ranflanschen, das funktioniert so einfach nicht.
Sunrise
2016-01-20, 23:44:28
@iuno:
Lies doch einfach mal den Transcript des Q4-Calls durch, da steht alles drin. Und nein, 14nm bzw. 16nm Wafer alleine (ohne überhaupt HBM, Interposer und den Rest zu berücksichtigen) werden so schnell NICHT mit Preisen von 28nm Wafern konkurrieren können. Die kosten ein Vielfaches davon, auch noch nach 1-2 Jahren.
dargo
2016-01-20, 23:52:10
Wir sehen das die Latenz vom DRAM bei viel höherem Takt merklich sinkt und damit sogar eDRAM Niveau erreicht.
Damit sehen wir immerhin das der eDRAM scheinbar in keiner völlig anderen Liga gespielt hat.
Broadwell eDRAM L4 Cache: 44ns
Skylake DDR4 3866: 40ns
Hier passt mir was nicht zusammen. Der eDRAM soll die Daten mit 102GB/s schaufeln.
Der 128 MByte große Speicher schaufelt Daten mit 102 GByte pro Sekunde in Richtung Prozessorkerne, das ist etwa das Vierfache dessen, was der DDR3-1600-Arbeitsspeicher im Dual-Channel-Betrieb schafft.
http://www.golem.de/news/broadwell-c-im-test-spaet-aber-spitze-1507-115218-2.html
Wenn ich dann max. Werte von ~45GB/s hier sehe:
http://www.forum-3dcenter.org/vbulletin/showpost.php?p=10919649&postcount=2369
muss ich auch die 44ns in Frage stellen.
Novum
2016-01-20, 23:53:46
Die Uebertragungsrate hat nichts mit der Latenz zu tun.
@iuno:
Lies doch einfach mal den Transcript des Q4-Calls durch, da steht alles drin. Und nein, 14nm bzw. 16nm Wafer alleine (ohne überhaupt HBM, Interposer und den Rest zu berücksichtigen) werden so schnell NICHT mit Preisen von 28nm Wafern konkurrieren können. Die kosten ein Vielfaches davon, auch noch nach 1-2 Jahren.
Hat das hier einer gepostet?
Es geht auch nicht um die Kosten pro Wafer, sondern pro Transistor/Leistung. Ein doppelt so schnelles Produkt darf ja ruhig auch mehr kosten.
YfOrU
2016-01-21, 00:05:16
Stellst du dir die Frage auch bei immer staerker werdenden dGPUs und CPUs? Ich weiss ehrlich nicht, was die Diskussion soll.
Im Uebrigen sprechen wir hier von Zeitraeumen wo sich die FinFET Fertigung eingefahren hat, da wird der Kram in der Herstellung nicht mehr viel teurer sein als heute. Aktuell kostet die schnellste APU keine 140 €. Da ist noch imho ordentlich Luft nach oben. Ein lappriger i3 wird haufenweise teurer verkauft.
Hat AMD in der Vergangenheit jemals aus der in Relation zu Intel lange deutlich potenteren integrierten GPU ernsthaft Profit ziehen können ? Die Antwort ist ganz klar nein denn die GPU Performance ist bezogen auf das gesamte Volumen an Entry und Mainstream Prozessoren zweitrangig. Nur eine Minderheit ist bereit für eine potente integrierte GPU die entsprechenden Aufpreise zu bezahlen. Ansonsten hätte zum einen AMD trotz schwächeren CPU Part viel mehr APUs verkauft und Iris mit eDRAM wäre weiter verbreitet. Dabei ist der Aufpreis für die Iris 540/550 heute sogar moderat. Trotzdem werden wieder fast ausschließlich SKUs mit HD 520 verbaut.
Sollte man bei AMD hier wieder anfangen Kapital und Ressourcen im großen Stil zu verpulvern wäre das meiner Ansicht nach richtig bescheuert. Statt eine zusätzliche fette APU zu entwickeln kann AMD auch eine von der Stange nehmen und mit einer geeigneten dGPU aus dem Sortiment kombinieren.
Die Preise von HBM sind auch ein viel genannter Punkt, der eigentlich voellig absurd ist, weil keiner die wahren Preise kennt. AMD kann eine voll aktivierte 600mm² GPU mit HBM zu einem Preis anbieten, der dem einer 7970 oder 290X zum Release entspricht. Zudem wird es hier in Zukunft durch Samsung auch eine Konkurrenzsituation geben.
Das gegenüber DDR4 und GDDR5 vergleichsweise geringe Volumen und die Notwendigkeit eines Interposers führen kaum zu Preisen welche auf absehbare Zeit geeignet für typische Mainstream Produkte sind. Bei einem low volume Produkt am oberen Ende ist das ein völlig anderes Thema.
dargo
2016-01-21, 00:07:48
Die Uebertragungsrate hat nichts mit der Latenz zu tun.
Natürlich hat sie das. Mit höheren Frequenzen (egal ob CPU- oder Speichertakt) steigen die Bandbreiten und somit fallen auch die Latenzen.
Mir gings aber in erster Linie darum... man sollte erstmal klären was AIDA da beim L4 überhaupt misst wenn hinten weniger als 50% der tatsächlichen Bandbreite rauskommen.
Novum
2016-01-21, 00:10:57
DRAM-Latenz ist seit Jahren fast unveraendert und unabhaengig von der Frequenz. Was glaubst du warum DDR4 CL ~15, DDR3 CL ~10 und DDR2 CL ~5 ist?
Sunrise
2016-01-21, 00:11:39
Hat das hier einer gepostet?
Es geht auch nicht um die Kosten pro Wafer, sondern pro Transistor/Leistung. Ein doppelt so schnelles Produkt darf ja ruhig auch mehr kosten.
Schau mal auf Seekingalpha.com, musst dich aber registrieren (kostenlos).
Es geht immer um Kosten und Ressourcen, die man hat, vor allem weil jedes Design, das du zur Massenproduktion bringst Geld in mehrstelliger Millionenhöhe kostet und Ressourcen bindet. Gerade FinFET ist verflucht teuer und wird auch erstmal teuer bleiben, und mit diversen CPUs für Desktop und Servern, GPUs für Desktop und Workstation/HPC und AMDs finanzieller Situation ist der aktuelle Plan schon recht stramm. Wenn der so durchgezogen wird und man in 2017 dann diese Prioritäten abgearbeitet hat kommt der Rest.
dargo
2016-01-21, 00:19:06
DRAM-Latenz ist seit Jahren fast unveraendert und unabhaengig von der Frequenz. Was glaubst du warum DDR4 CL ~15, DDR3 CL ~10 und DDR2 CL ~5 ist?
Oh man... ich meine natürlich unter den ansonsten gleichen Randbedingungen, das sollte doch logisch sein. Als Beispiel DDR3-1600, CL9 vs. DDR3-2400, CL9. Oder halt DDR4-2133, CL15 vs. DDR4-3200, CL15.
Locuza
2016-01-21, 00:36:01
Hier passt mir was nicht zusammen. Der eDRAM soll die Daten mit 102GB/s schaufeln.
http://www.golem.de/news/broadwell-c-im-test-spaet-aber-spitze-1507-115218-2.html
Wenn ich dann max. Werte von ~45GB/s hier sehe:
http://www.forum-3dcenter.org/vbulletin/showpost.php?p=10919649&postcount=2369
muss ich auch die 44ns in Frage stellen.
Es sind ~ 50 GB/s pro Richtung, insgesamt ~100 GB/s.
Novum
2016-01-21, 00:38:17
Oh man... ich meine natürlich unter den ansonsten gleichen Randbedingungen, das sollte doch logisch sein. Als Beispiel DDR3-1600, CL9 vs. DDR3-2400, CL9. Oder halt DDR4-2133, CL15 vs. DDR4-3200, CL15.
Oh man... Es ist trotzdem falsch. DRAM wird nicht magisch durch hoehere Frequenz schneller was Zugriffszeiten angeht. Die ~40ns fuer das eDRAM sind korrekt, da hat die hoehere Uebertragungsrate ueberhaupt nichts zu sagen.
Nightspider
2016-01-21, 00:40:48
Der Name vom eDRAM ist eigentlich falsch gewaehlt, weil es sich um echten Cache handelt. Die ganze Cachinglogic und tagging frisst einfach unheimlich viel Transistoren. Man kann nicht einfach einen HBM DRAM Chip hernehmen und den einfach als Cache ranflanschen, das funktioniert so einfach nicht.
Hast du da mehr Details?
Ist die Cachinglogic nicht im Prozessor drin anstatt im Speicher selbst? Was ist Tagging?
Habe da nur begrenztes Viertelwissen.
YfOrU
2016-01-21, 01:05:18
Bei Anandtech gabs etwas zum eDRAM bei Skylake im Vergleich zu Haswell/Broadwell:
http://www.anandtech.com/show/9582/intel-skylake-mobile-desktop-launch-architecture-analysis/5
(im unteren Drittel der Seite)
So wie ich das interpretiere ist es genaugenommen kein L4 Cache mehr sondern ein recht flexibel einsetzbarer Zwischenspeicher.
Nightspider
2016-01-21, 01:17:57
Wenn der eDRAM bei Skylake kein echter Cache mehr ist dürfte HBM diesen ja noch problemloser in der Theorie ersetzen können oder?
Der letzte Satz ließt sich mal wieder nach "wir könnten für die Enthusiasten eine eDRAM Version anbieten aber haben keine Lust". -.-
Enthusiasten mit sinnlosen 1000 Euro OctaCores oder 1500 Euro DecaCores abzocken wollen die bei Games nix bringen aber nicht mal eine Option auf eDRAM anbieten. Schwachsinn.
Wird Zeit das AMD den Markt erstürmt.
dargo
2016-01-21, 09:01:48
Es sind ~ 50 GB/s pro Richtung, insgesamt ~100 GB/s.
Ok, danke für die Aufklärung. Dann hat sich Intel das schön zusammengerechnet, aus Marketingsicht. :wink:
YfOrU
2016-01-21, 09:39:17
Wenn der eDRAM bei Skylake kein echter Cache mehr ist dürfte HBM diesen ja noch problemloser in der Theorie ersetzen können oder?
Ein Cache ist es natürlich schon.
Der letzte Satz ließt sich mal wieder nach "wir könnten für die Enthusiasten eine eDRAM Version anbieten aber haben keine Lust". -.-
Da geht es nur um eine LGA Variante denn als BGA für Mobile und SFF durchaus geplant. Aufgrund der gestreckten Roadmap kann es gut sein das sich Intel ein entsprechendes Produkt für Kaby Lake aufhebt.
Wird Zeit das AMD den Markt erstürmt.
Eine sehr flotte integrierte GPU auf einem Sockel ist grundsätzlich ein Nischenprodukt. Wenn es wirklich kompakt sein soll ist BGA das Mittel der Wahl. Passendes aktuelles Beispiel (Intel NUC mit Iris 540, 2C+GT3e):
http://nucblog.net/2016/01/skylake-i5-nuc-review-nuc6i5syh-nuc6i5syk-benchmarks/
http://nucblog.net/2016/01/skylake-i5-nuc-review-nuc6i5syh-part-33-gaming-conclusions/
Später im Jahr kommt noch eine NUC Variante mit 45W TDP (Iris 580, 4C+GT4e). Würde man das noch deutlich weiter nach oben skalieren kommt die Verlustleistung in Bereiche bei denen das Gehäuse zwangsläufig Abmessungen haben muss das auch der Raum für eine dGPU vorhanden ist. Dadurch wird der potentielle Markt automatisch sehr viel kleiner.
dargo
2016-01-21, 09:50:00
Oh man... Es ist trotzdem falsch. DRAM wird nicht magisch durch hoehere Frequenz schneller was Zugriffszeiten angeht.
Aha...
54539 54540
Hübie
2016-01-21, 10:36:23
Wobei ich mich schon zu Release von Broadwell gefragt habe nach welchen Kriterien getagged wird. Die Software hat ja Null Kontrolle darüber und afaik war es eher ein ungewollter Effekt soviel Leistungszuwachs durchweg zu erhalten. Das hat man mit Skylake nun korrigiert. Ich weiß gar nicht ob es unbedingt erforderlich ist den Cache zu "sehen".
Gipsel
2016-01-21, 13:44:14
Aha...
54539 54540
Na das ist doch Bullshit. Die doppelte Frequenz bei gleichen Einstellungen des Speichers (gezählt in Zyklen der nun doppelten Frequenz), ist doch klar, daß die Latenz (in absoluter Zeit) da geringer ist. Darum ging es doch gar nicht. :rolleyes:
DRAM hat nunmal ein Limit, wie schnell man (in absoluter Zeit) wahlfrei auf irgendeine Speicherzelle des Arrays zugreifen kann. Da spielt der Takt des Interfaces zu diesem Speicherarray so ziemlich keine Banane. Genausowenig spielt es eine Rolle, ob man DDR3, DDR4, GDDR5, HBM oder sonstwas nimmt. (Gleich guter) DRAM wird immer bei den gleichen absoluten minimalen Latenzen rauskommen. Arbeitet man nahe dieser Grenze und erhöht den Takt, muß sich somit automatisch die Latenz (in Zyklen) erhöhen, damit man innerhalb des durch das DRAM-Array vorgegebenen Limits (in absoluter Zeit gemessen) bleibt.
Der richtige Vergleich oben wäre also gewesen, wenn die Speichereinstellungen oben beim halben Takt auch nur halb viele Zyklen wie beim hohen Takt betragen hätten (bzw. beim doppelten Takt dann auch doppelt so viele Zyklen, wenn der RAM jeweils am Limit betrieben wird, kommt das nämlich so raus). Dann hätte man vermutlich immer noch einen (deutlich) kleineren Vorteil für den hohen Takt gemessen, der dann vom Speichercontroller herrührt, der natürlich für den maximalen Takt ausgelegt sein muß und dort dann auch am latenzärmsten funktioniert (der Speichercontroller addiert seine eigene Latenz, die bei höherem Takt des identischen Speichercontrollers am geringsten ausfallen dürfte, ein Speichercontroller, der nicht so hoch takten kann, kann bei niedrigem Takt allerdings im Prinzip latenzärmer arbeiten). Das hat aber mit der ursprünglichen Aussage (nämlich daß der DRAM selber in jeder möglichen Inkarnation prinzipiell die gleichen Latenzen aufweist) nicht mehr viel direkt zu tun.
dargo
2016-01-21, 14:53:58
Na das ist doch Bullshit. Die doppelte Frequenz bei gleichen Einstellungen des Speichers (gezählt in Zyklen der nun doppelten Frequenz), ist doch klar, daß die Latenz (in absoluter Zeit) da geringer ist. Darum ging es doch gar nicht. :rolleyes:
Doch, genau darum gings. Wenn ihr da was anderes reininterpretiert ist das nicht mein Problem.
Edit:
Ich beziehe mich immer noch auf diesen Vergleich hier.
http://www.forum-3dcenter.org/vbulletin/showpost.php?p=10919649&postcount=2369
Und die Aussage von z3ck3 mit
Da der Skylake mit DDR4 3877 den Broadwell bei der Latenz scheinbar weg pustet, kann es das aber auch nicht sein.
In diesem Vergleich sind so viele Variablen die das Ergebnis verfälschen, dass man die Aussage so nicht stehen lassen kann. Sowohl der CPU-Takt als auch die Taktrate vom Speicher sowie Timings beeinflussen die tatsächliche Latenz die das Programm ermittelt. Wir haben dort drei verschiedene Speicherlatenzen.
* Broadwell mit DDR3-1600, CL11 = 13,75ns
* Skylake mit DDR4-2133, CL14 = 13,13ns
* Skylake mit DDR4-3866, CL17 = 8,79ns
Dass der letzte Skylake den Broadwell unter diesen Bedingungen "weg pustet" sollte nicht verwundern. Zumal der Skylake hier noch mit 900Mhz schneller taktet. Die beiden ersten Systeme haben eine ähnliche Speicherlatenz. Würde man den Skylake mit 3,7Ghz takten, beim Speicher eventuell DDR4-2133 mit CL15 nehmen wette ich mir dir, dass der Skylake irgendwas um die 69ns bei AIDA rausspuckt.
z3ck3
2016-01-21, 18:06:21
Wenn der Unterschied in Spielen zwischen DDR4 2133 und DDR4 3866 nicht ernsthaft Messbar ist, dieses aber nicht nur die Speicherbandbreite essentiell erhöht, sondern auch die Latenz von etwa 60 auf 40 runter drückt, dann kann weder die Latenz noch die Speicherbandbreite des L4 für den scheinbaren Boost bei manchen Spiele Szenarien der Broadwell CPU verantwortlich sein.
Das war meine eigentliche Aussage. Die Performance des Broadwell L4 Caches wirkt zu Nahe an dem was auch mit DDR4 möglich wäre. Es ging hier ja eigentlich da drumm ob HBM als L4 Sinn machen würde. Das habe ich jedenfalls für Spieler in Frage gestellt.
dargo
2016-01-21, 18:14:59
Wenn der Unterschied in Spielen zwischen DDR4 2133 und DDR4 3866 nicht ernsthaft Messbar ist...
Und wie kommst du da drauf jetzt? Skylake profitiert sehr gut von hoch getaktetem DDR4. Das hatte zuletzt einer hier mit pCars bewiesen. Ich meine dort ging es sogar nur um DDR4-2133 vs. DDR3-3000. Leider finde ich den Link aktuell nicht.
Edit:
Habs gefunden.
http://www.forum-3dcenter.org/vbulletin/showpost.php?p=10777962&postcount=520
Und hier noch ein Vergleich mit verschiedenen Speicherlatenzen.
http://www.forum-3dcenter.org/vbulletin/showpost.php?p=10785039&postcount=534
z3ck3
2016-01-21, 18:33:50
Ich habe bisher zwei Reviews gesehen die sich explizit damit befasst hatten und der Leistungsgewinn war eher esoterischer Natur. Die grösste Differenz ist von 2133 zu 2400 messbar. Aber das war schon immer so, das die Speicherperformance in Spielen quasi unwichtig war. Dabei ist diese Zielgruppe die einzige die sich mit dem schnellsten und teuersten Speicher eindeckt. ^^
http://www.legitreviews.com/ddr4-memory-scaling-intel-z170-finding-the-best-ddr4-memory-kit-speed_170340/5
http://www.anandtech.com/show/8959/ddr4-haswell-e-scaling-review-2133-to-3200-with-gskill-corsair-adata-and-crucial/7
AngelDust 32
2016-01-22, 09:57:37
http://wccftech.com/samsung-14nm-lpp-finfet-amd-x86-zen/
Ravenhearth
2016-01-22, 10:09:43
Wo ist die News?
OBrian
2016-01-22, 10:59:05
Daß es immer noch keine Verzögerung gibt. Es warten doch alle auf die Bekanntgabe der bei AMD üblichen und so allseits beliebten 1-Jahres-Verzögerung :] Dabei gab's die schon seit Jahren nicht mehr, Chips wie Richland, Kaveri, Carrizo usw. sind alle (ungefähr) im Zeitplan gekommen.
Nakai
2016-01-22, 13:35:25
Aus dem Transcript zum Earnings Call Q4 2015, Lisa Su:
Our Zen based CPU development is on track to achieve greater than 40% IPC uplift from our previous generation and we're on schedule to sample later this year.
Mehr als 40%. Es kann auch 41% sein. ;D
Ich hoffe mal es ist nicht die gleiche IPC-Steigerung wie bei Steamroller.
Botcruscher
2016-01-22, 13:48:30
Bleibt auch offen wo diese 40% mehr erreicht werden.
Sunrise
2016-01-22, 13:52:16
Bleibt auch offen wo diese 40% mehr erreicht werden.
Es wäre für AMD nicht sonderlich vorteilhaft, hier nur Grenzfälle anzugeben. Das sollten sie wissen. Ich denke das 40% der Durchschnitt sind, und "mehr als 40%" eben eher die Grenzfälle beschreibt, dann ergibt sich zumindest ein stimmiges Bild (Folien stimmen, AMDs Aussagen stimmen).
z3ck3
2016-01-22, 14:33:46
4 komplette Kerne statt 2 * 1.5 Kerne sind ja schon mal + 33% :freak:
BlacKi
2016-01-22, 14:46:51
Es wäre für AMD nicht sonderlich vorteilhaft, hier nur Grenzfälle anzugeben. Das sollten sie wissen. Ich denke das 40% der Durchschnitt sind, und "mehr als 40%" eben eher die Grenzfälle beschreibt, dann ergibt sich zumindest ein stimmiges Bild (Folien stimmen, AMDs Aussagen stimmen).
dennoch werden amd marketing angaben die man als durschnitt angenommen hat nicht erreicht. siehe fiji. in welchen fällen braucht die nano nur die hälfte einer hawaii 290x? das hat man auch als durschnittswert ermittelt. demnach müsste eine hawaii 350 bis 370 watt verbrauchen. oder seit wann ist furmark als referenz zu sehen?
robbitop
2016-01-22, 15:09:03
40 % mehr IPC ggü der Bulldozer Familie sollte mit dem vorgestellten Design absolut realistisch sein. Das Ding ist total breit und es sieht auch so aus als ob man soziemlich alle wesentlichen modernen "Zutaten" enthält, die die IPC auf ein ordentliches Niveau bringen. Ivy/Haswell IPC sollte schon ein realistisches, erreichbares Ziel sein.
Sunrise
2016-01-22, 15:16:55
dennoch werden amd marketing angaben die man als durschnitt angenommen hat nicht erreicht. siehe fiji. in welchen fällen braucht die nano nur die hälfte einer hawaii 290x? das hat man auch als durschnittswert ermittelt. demnach müsste eine hawaii 350 bis 370 watt verbrauchen. oder seit wann ist furmark als referenz zu sehen?
AMD gab an "Up to 2X" (ggü. Hawaii) und 175W TDP, passt doch.
Die Angabe "doppelt" ist einfach wie bei Autoherstellern ein fast nie erreichbarer Grenzfall, das verstehe ich bei "über 40% IPC" eben genauso.
fondness
2016-01-22, 17:26:40
Das "greater than 40% IPC uplift" bezieht sich allerdings auf den Severmarkt und da ist Piledriver nach wie vor die letzte Ausbaustufe. Von daher würde ich weiterhin von ~40% ggü. Excavator ausgehen.
Hübie
2016-01-25, 02:07:37
Aus dem Transcript zum Earnings Call Q4 2015, Lisa Su:
Mehr als 40%. Es kann auch 41% sein. ;D
Ich hoffe mal es ist nicht die gleiche IPC-Steigerung wie bei Steamroller.
Das dürfte knapp über Ivy und etwas unter Haswell sein. Klingt schon mal interessant. Aber ist eine sehr grobe Angabe. Ich gehe jedoch stark davon aus, dass die typische, starke Abgeschlagenheit von AMDs Prozessoren (selbst in GPU-Benchmarks:rolleyes:) dann der Vergangenheit angehören.
@all: Wenn interesse für die Benchmark-Diskussion besteht dann kann Gipsel das ja auslagern. Wollte hier nicht so eine Debatte auslösen. :freak: Ich wäre dabei.
Korvaun
2016-01-25, 08:38:36
Das dürfte knapp über Ivy und etwas unter Haswell sein. Klingt schon mal interessant. Aber ist eine sehr grobe Angabe. Ich gehe jedoch stark davon aus, dass die typische, starke Abgeschlagenheit von AMDs Prozessoren (selbst in GPU-Benchmarks:rolleyes:) dann der Vergangenheit angehören.
Sehe ich auch so. Das wäre für AMD schon ein guter Anfang, WENN sie dann noch mehr Kerne und gute Preise bieten.
Also grob Intels 4-Kerner mit 6-Kernern zum selben Preis kontern... wenn sie nur etwas billiger sind (bei gleicher Kernzahl) ist das glaube ich nicht genug um im Endkundenmarkt/"Hardcore"-Markt wieder Fuß zu fassen.
BlacKi
2016-01-25, 09:48:56
Sehe ich auch so. Das wäre für AMD schon ein guter Anfang, WENN sie dann noch mehr Kerne und gute Preise bieten.
Also grob Intels 4-Kerner mit 6-Kernern zum selben Preis kontern... wenn sie nur etwas billiger sind (bei gleicher Kernzahl) ist das glaube ich nicht genug um im Endkundenmarkt/"Hardcore"-Markt wieder Fuß zu fassen.
also ein 6kerner für 300€? jede summe darüber wäre zuviel, denn für etwas mehr wird kabylake 4k+ht ja erwartet. die höhere ipc dem gegenüber würde den 2 weiteren kernen vom 6k zen gegenüberstehen.
der 8 kerner müsste sich mit dem 6 kerner broadwell e messen. da die ipc der intel enthusiast cpu nicht ganz so weit entfernt ist wie beim kabylake 4k, könnte man beim 8k zen auch etwas mehr ansetzten. so 500-700?
um das genauer zu testen müsste man erst 720p benchmarks sehen:wink:
Hübie
2016-01-25, 10:12:47
Intel 4K+HT vs AMD 6K+HT für das gleiche Geld, wäre zumindest bei fast identischer IPC-Performance (+/- 5%) eine klare Ansage. Hier würde der Sechskerner wohl den längeren Atem haben. Gespannt bin ich auch was das OC-Potenzial angeht. Hier hat Intel ja seit SB gut vorgelegt.
MORPHiNE
2016-01-25, 10:23:23
Hier hat Intel ja seit SB gut vorgelegt.
Meinten Sie: abgebaut?
BlacKi
2016-01-25, 10:41:35
ich denke aber auch der takt ist entscheidend, was wäre wenn man wie bei broadwell oft nichtmal die 4,4 sieht? ist halt leider noch zuviel speku.
und wenn jetzt welche meinen das amd es garnicht nötig hat intel zu unterbieten, warum wird so oft gegen intels hohe preise geschimpft?
Hübie
2016-01-25, 11:11:05
Na ja, Takt alleine reißt es nicht heraus wie du an Bulldozer und Nachfolger gut sehen kannst. Viele packen die 5 GHz Marke und mehr, aber erreichen gerade die Performance eines i3 @3,8 GHz. Da versaut es einen nicht nur den Tag, sondern auch die Effizienz.
Gipsel
2016-01-25, 15:29:05
Die Diskussion über das möglichst sinnvolle Benchmarking von Spielen wurde hier hin ausgelagert (https://www.forum-3dcenter.org/vbulletin/showthread.php?p=10923102#post10923102). Bitte die entsprechende Diskussion dort fortsetzen.
Danke.
Na ja, Takt alleine reißt es nicht heraus wie du an Bulldozer und Nachfolger gut sehen kannst. Viele packen die 5 GHz Marke und mehr, aber erreichen gerade die Performance eines i3 @3,8 GHz. Da versaut es einen nicht nur den Tag, sondern auch die Effizienz.
Kommt auf das Anwendungsszenario an. So allgemein/absolut stimmt es jedenfalls nicht. Bzgl. der neuerdings uuunglaublich wichtigen "Effizienz" sollte bspw. auch der Herstellungsprozess und der Compiler beachtet werden...
z3ck3
2016-01-25, 18:09:08
Ich glaube die Verantwortlichen für Bulldozer schrauben mitlerweile an Traktoren in Sibirien und trinken Abends Kaffee mit den Kollegen von Netburst. ^^
Kein Compiler kann die Schwächen von Bulldozer ausbügeln, genau so wenig wie der Herstellungsprozess. Ich behaupte mal das selbst mein ca. 6 Jahre alter i7 einen aktuellen A10/X4 platt macht. Das wäre eigentlich mal ein Benchmark wert. Hab nur leider keinen A10/X4 hier. :D
Eine aktuelle 4M/8C CPU, quasi eine X8, hat AMD ja nicht mehr aufgelegt. Diese wäre vermutlich auf Augenhöhe mit meiner i7, würde diese vermutlich in Anwendungsbenchmarks auch manchmal hinter sich lassen. Im Vergleich einer CPU aus dem Jahr 2016 mit einer aus dem Jahr 2009...
Auch heute noch gilt das singlethread Performance absolut wichtig ist. Und da ist der Bulldozer einfach unterste Schublade. Sich so auf das APU Konzept zu versteifen war für AMD doch der einzige Ausweg von der katastrophalen Leistung ihrer Prozessoren abzulenken.
tm0975
2016-01-25, 18:13:25
bin mir nicht sicher, dass amd unbedingt mehr liefern muß zum selben preis als intel. sie müssen nur besseres marketing betreiben als intel. abgesehen davon bin ich bereit, für firmen, die sich korrekt verhalten und nicht durch marktmissbrauch in erscheinung getreten sind, etwas mehr zu bezahlen. ein sexualstraftäter dürfte aus meiner sicht auch nach der entlassung nicht mehr als kindererzieher arbeiten, nicht mal zum halben preis ;-)
aber zu allererst muß amd liefern, dann wird es genügend leute geben, die gerne auch mal wieder amd kaufen würden, davon bin ich überzeugt. und wenn zu 40%+x ein etwas größeres x kommt oder eine fertigungsbedingte hohe übertaktungsfreudigkeit, dann wären auch schon sehr viele glücklich.
BlackBirdSR
2016-01-25, 18:59:37
Auch heute noch gilt das singlethread Performance absolut wichtig ist. Und da ist der Bulldozer einfach unterste Schublade. Sich so auf das APU Konzept zu versteifen war für AMD doch der einzige Ausweg von der katastrophalen Leistung ihrer Prozessoren abzulenken.
Ich glaube ja,das lief wie damals beim P4. Irgendwer hat sein schlaues Konzept gegen alle Widerstände von oben herab durchgeboxt und leider ging die Idee dann hält nicht auf...
Aber was soll man groß Vorwürfe machen? Ohne solche Alpha Entscheidungen gäbe es z.b. den p6 nicht. Wer weiß wo wir dann heute wären...
disap.ed
2016-01-25, 21:03:56
Ich glaube die Verantwortlichen für Bulldozer schrauben mitlerweile an Traktoren in Sibirien und trinken Abends Kaffee mit den Kollegen von Netburst. ^^
Kein Compiler kann die Schwächen von Bulldozer ausbügeln, genau so wenig wie der Herstellungsprozess. Ich behaupte mal das selbst mein ca. 6 Jahre alter i7 einen aktuellen A10/X4 platt macht. Das wäre eigentlich mal ein Benchmark wert. Hab nur leider keinen A10/X4 hier. :D
Eine aktuelle 4M/8C CPU, quasi eine X8, hat AMD ja nicht mehr aufgelegt. Diese wäre vermutlich auf Augenhöhe mit meiner i7, würde diese vermutlich in Anwendungsbenchmarks auch manchmal hinter sich lassen. Im Vergleich einer CPU aus dem Jahr 2016 mit einer aus dem Jahr 2009...
Auch heute noch gilt das singlethread Performance absolut wichtig ist. Und da ist der Bulldozer einfach unterste Schublade. Sich so auf das APU Konzept zu versteifen war für AMD doch der einzige Ausweg von der katastrophalen Leistung ihrer Prozessoren abzulenken.
Werde nie verstehen warum man keinen Phenom 3 (inklusive Octacore) auf 32nm gebracht hat. Die Probleme mit BD mussten doch schon bekannt gewesen sein und so hätte man sich zumindest bis Piledriver drüberretten können oder das Konzept gleich einstampfen.
Sunrise
2016-01-25, 21:21:02
Wird beim CPU-Teil eigentlich weiterhin nur minimal verbessert, Caches vergrößert und auf neue Prozesse optimiert? Selbst Intel achtet doch fast nur noch auf Kostenoptimierung und geht immer weiter runter mit dem Verbrauch.
Wenn das wie damals läuft, und AMD bringt etwa direkt Haswell-IPC mit bis zu 8 Cores und man hat eine Skalierbarkeit bis ca. 4GHz bei 125W TDP im Desktop, dann müssten sie wieder über den Preis gehen. Es ist zwar müßig, hier zu spekulieren, weil man einfach garkeine Eckdaten hat, aber wer erwartet da allen Ernstes Broadwell oder Skylake-IPC? Das wäre eine mächtige Überraschung.
Wenn das also so kommt, dann hätte man zumindest eine ähnliche Situation wie damals zu Athlon-Zeiten. Leider würde aber das FX-Zugpferd nicht auf Intel-Niveau spielen, man hätte "nur" die Käufer, die auch auf den Preis verstärkt achten, was zugegebenermaßen eine ganze Menge sind.
Noch fast ein Jahr warten, diesen Thread sollte man Cryo-gefrieren und am Ende des Jahres wieder auftauen. ;)
fondness
2016-01-25, 21:26:51
Naja, es ist ja nicht gerade so, als wären Skylake oder gar Broadwell Welten vor Haswell. Intel verlangt für 8 Kernen $999, da ist eine große Flanke offen für AMD. Klar wird man Intel nicht schlagen, das anzunehmen wäre angesichts der RnD Ausgaben für Intel ein Armutszeugnis.
Wenn das wie damals läuft, und AMD bringt etwa direkt Haswell-IPC mit bis zu 8 Cores und man hat eine Skalierbarkeit bis ca. 4GHz bei 125W TDP im Desktop, dann müssten sie wieder über den Preis gehen. Es ist zwar müßig, hier zu spekulieren, weil man einfach garkeine Eckdaten hat, aber wer erwartet da allen Ernstes Broadwell oder Skylake-IPC? Das wäre eine mächtige Überraschung.
Fuer viele waere schon Haswell eine riesige Ueberraschung. Haswell halte ich fuer realistisch und reicht imho auch fuers erste, angesichts der geringen Steigerungen bei Intel.
Was sehr schade ist (auch fuer mich persoenlich), dass die APUs erst viel spaeter kommen, so kann man diesen Vorteil nicht ausspielen und mit KBL kann Intel dann auch hier wieder maechtig dagegenhalten. Solange von AMD keine APU mit HBM kommt, kann sich Intel da relativ ruhig zuruecklehnen.
Klar wird man Intel nicht schlagen, das anzunehmen wäre angesichts der RnD Ausgaben für Intel ein Armutszeugnis.
Und ausserdem sehr naiv. Intel hat einfach alle Moeglichkeiten.
DDR4 würde auch schon viel bringen bei den APUs und würde AMD wieder ermöglichen, ihren Vorteil auszuspielen.
edit: nagut, praktisch scheint DDR4 gar nicht unbedingt soo viel besser zu sein, als DDR3:uponder:
Sunrise
2016-01-25, 21:49:25
Naja, es ist ja nicht gerade so, als wären Skylake oder gar Broadwell Welten vor Haswell. Intel verlangt für 8 Kernen $999, da ist eine große Flanke offen für AMD. Klar wird man Intel nicht schlagen, das anzunehmen wäre angesichts der RnD Ausgaben für Intel ein Armutszeugnis.
Ich denke der Knackpunkt ist, dass man nicht viel teurer werden darf als jeweils die dicksten Intel-Mainstream-Quads. Bei deutlich über 500 EUR und geringerer Leistung kann man auch gleich zu Intel greifen, wenn man bereit ist, solche Beträge auszugeben.
$999 sind sowieso ein Witz und kein Preis, das gilt auch für Grafikkarten, da muss es immer das Beste am Markt sein.
Ich hoffe für AMD, dass die neuen Zen-Cores so klein als möglich sind, damit man diesen Kampf, der für die Massen immer im Desktop geführt wird (Server-CPUs holen zwar das Geld rein, x-fach viele Cores können bei den Preisen aber sowieso die Wenigsten wirklich im Desktop verwenden) auch halbwegs gehen kann, ohne dass man sich die Schmach geben muss, die doppelte Anzahl Kerne zu verbauen, bei hohem Takt, damit man überhaupt annähernd an Intel rankommt.
Der Fertigungsvorteil von Intel mag zwar etwas geschrumpft sein, aber bisher haben die Prozesse außerhalb Intel noch nicht bewiesen (vor allem 14nm LPP) ob bis an die Grenzen hochgefahrener Takt dort am Ende des Jahres überhaupt produzierbar ist. Ich bin da weiterhin recht skeptisch.
z3ck3
2016-01-25, 21:52:53
Ich frag mich manchmal ob es nicht sinn gemacht hätte, vor ca. 3 Jahren das Design soweit zu überarbeiten, das ein Modul auch nur ein Core bereit stellt, so das 4C auch wirklich 4C gewesen wären. Als FX Prozessor mit echten 8C wäre das vielleicht ein ganz angenehmer Zeitgenosse geworden. Ich kann mir jedenfalls gut vorstellen, das die Logik innerhalb eines Moduls, die beiden Cores auszulasten, einiges an Performance kostet, sich also negativ auf Perf/Watt auswirkt und man auch einen höheren Takt braucht um auf die gleiche Performance wie mit vollwertigen Cores zu kommen.
Intel hat nach dem P4 damals kurzzeitig eine ähnliche Zwischenlösung eingeschoben, indem sie quasi den Pentium M als Core Single und Core Duo vor dem eigendlichen Nachfolger des Pentium M, den C2D nutzten und die Netburst Technik in der Schublade verschwinden lassen haben.
Die Anpassungen der Bulldozer Module wäre natürlich weitreichender gewesen, aber die komplette Highend Schiene über einen so langen Zeitraum einzufrieren, das halte ich für den größten Fehler seitens AMD. Wenigstens 2013, auf FM2+, hätte man einen 3M/6C als FX releasen müssen. Natürlich ohne GPU. Besser wäre natürlich ein 4M/4C und ein 6M/6C gewesen.
DDR4 würde auch schon viel bringen bei den APUs und würde AMD wieder ermöglichen, ihren Vorteil auszuspielen.
Es würde nicht viel bringen. DDR3-2133 auf DDR4-2400 bringt nichts wegen der schlechteren Timings. Außerdem sind die GPUs dann noch stärker. Es bringt nur was für OC Systeme.
DDR4-2400 wird doch wohl nicht das Ende der Fahnenstange sein, dann hätte man gleich bei DDR3 bleiben können.
fondness
2016-01-25, 22:07:52
Ich denke der Knackpunkt ist, dass man nicht viel teurer werden darf als jeweils die dicksten Intel-Mainstream-Quads. Bei deutlich über 500 EUR und geringerer Leistung kann man auch gleich zu Intel greifen, wenn man bereit ist, solche Beträge auszugeben.
Das wäre trotzdem ein Quantensprung für AMD angesichts der heutigen Preise. Niemand rechnet damit, dass AMD Intel blamiert, das ist auch gar nicht nötig.
z3ck3
2016-01-25, 22:12:54
Die Abhängigkeit der APU vom schnellen Speicher ist leider das Problem dieser. Und zwar preislich. Denn es macht dadurch keinen Sinn sich eine 150€ APU zu kaufen die auch noch teuren Speicher braucht, wenn diese von einer preiswerteren CPU samt low end dGPU platt gemacht wird.
Edit:
Aktuelle Marktpreise FM2+
AMD Athlon X4 860K, 70 €
AMD A10-7870K, 134 €
Aktuelle Marktpreise, Jeweils 2x8GB
DDR4-2133, 73,36 €
DDR4-2400, 74,81 €
DDR4-2666, 88,85 € (2800)
DDR4-2800, 88,85 €
DDR4-3000, 99,99 €
DDR4-3200, 101,18 €
DDR4-3400, 139,90 €
usw.
(mir ist bewusst das FM2+ keinen DDR4 aufnimmt, wollte trotzdem mal die DDR4 Preise zum Vergleich aufstellen, auch die APU ist beriets hart Speicher Limitiert)
Wenn man bei einer CPU also 50 Euro sparen würde (es sind sogar 64 € aktuell) wenn man auf die iGPU verzichtet und dadurch ca. 30 Euro beim Speicher sparen kann (2400er statt 3200er), bekommt man für 20 Euro mehr eine R360 bzw. eine R260X dazu. Das System wird die APU vermutlich vernichten, trotz DDR4. Denn die Speicherbandbreite muss sich die CPU und die iGPU teilen und auch DDR4 3200 sind nur ca. 50GB/s (?*) gegen ca. 100GB/s bei der dGPU
* grad unsicher
Novum
2016-01-25, 22:28:45
Ich frag mich manchmal ob es nicht sinn gemacht hätte, vor ca. 3 Jahren das Design soweit zu überarbeiten, das ein Modul auch nur ein Core bereit stellt, so das 4C auch wirklich 4C gewesen wären. Als FX Prozessor mit echten 8C wäre das vielleicht ein ganz angenehmer Zeitgenosse geworden. Ich kann mir jedenfalls gut vorstellen, das die Logik innerhalb eines Moduls, die beiden Cores auszulasten, einiges an Performance kostet, sich also negativ auf Perf/Watt auswirkt und man auch einen höheren Takt braucht um auf die gleiche Performance wie mit vollwertigen Cores zu kommen.
Intel hat nach dem P4 damals kurzzeitig eine ähnliche Zwischenlösung eingeschoben, indem sie quasi den Pentium M als Core Single und Core Duo vor dem eigendlichen Nachfolger des Pentium M, den C2D nutzten und die Netburst Technik in der Schublade verschwinden lassen haben.
Die Anpassungen der Bulldozer Module wäre natürlich weitreichender gewesen, aber die komplette Highend Schiene über einen so langen Zeitraum einzufrieren, das halte ich für den größten Fehler seitens AMD. Wenigstens 2013, auf FM2+, hätte man einen 3M/6C als FX releasen müssen. Natürlich ohne GPU. Besser wäre natürlich ein 4M/4C und ein 6M/6C gewesen.
Ich geh davon aus, dass sie entschieden haben, dass das alles nicht zu einem konkurrenzfaehigen Produkt fuehrt und zu viele Engineering-Resourcen bindet, die sie fuer Zen gebraucht haben.
Lieber drei Jahre durch das Tal der Traenen gehen als danach immer noch nichts in der Hand zu haben. Wir werden bald sehen, ob das Resultat ueberzeugt.
Timbaloo
2016-01-25, 23:07:22
Ich geh davon aus, dass sie entschieden haben, dass das alles nicht zu einem konkurrenzfaehigen Produkt fuehrt und zu viele Engineering-Resourcen bindet, die sie fuer Zen gebraucht haben.
Lieber drei Jahre durch das Tal der Traenen gehen als danach immer noch nichts in der Hand zu haben. Wir werden bald sehen, ob das Resultat ueberzeugt.
This.
Zumal der Vorschlag von z3ck3 ja impliziert, dass CMT das dominante Problem der Bulldozer-Architektur war. Und das ist glaube ich etwas zu sehr die Realität vereinfacht.
OBrian
2016-01-26, 00:08:59
naja, CMT opfert auch etwas single-threaded-Leistung für mehr MT-Leistung pro Fläche. Das ist ja grundsätzlich ein guter Gedanke, und hätte man das bei einem sehr IPC-starken Design gemacht, wäre es ok gewesen. Aber so geht es eben noch weiter in die falsche Richtung.
Außerdem ist die Diefläche auch gar nicht mehr so entscheidend wie früher, weil ja heute nur noch SoCs gebaut werden, wo die CPU-Kerne immer weniger Anteil haben, d.h. die CPU etwas zu verkleinern spart kaum Fläche. Insofern war es die falsche Designentscheidung, die singlethreaded-Leistung gegen Flächenersparnis einzutauschen.
Aber daß BD insgesamt eine schwache IPC hat, liegt nicht an CMT, da liegen noch ganz andere Hasen im Pfeffer.
z3ck3
2016-01-26, 00:53:58
naja, ich denke niemand weiss wie viel Performance für die Logik die CMT vorraussetzt wirklich drauf geht. Vielleicht sind es ja sogar >10%. Ich meine ja nicht einmal die Platzersparnis, sondern den Aufwand den man in Hardware giessen muss um manche peformancekritische Einheiten zwei Cores zur Verfügung zu stellen.
Aber sicher wäre das schon ein sehr starker Eingriff in das Design gewesen die Module derartig absuwandeln das ein Modul eben nur noch ein Core darstellt.
Btw. eine native 4M/8C CPU ohne Grafikeinheit wäre kleiner gewesen als eine aktuelle A10 bei gleicher Fertigung. Da wäre noch Platz für L3 Cache gewesen. Der Punkt ist eben für mich so unverständlich, das keine FX auf FM2+ released wurde. Das keine Resourcen für eine komplette Überarbeitung der Module aufgebracht wurden ist für mich logisch und nachvollziehbar. Nicht jedoch das komplette weglassen der FX Reihe. Man hätte sie ja auch nicht FX nennen brauchen, Athlon X6/X8 wären ja durchaus eine Option gewesen.
Hübie
2016-01-26, 01:31:26
Kommt auf das Anwendungsszenario an. So allgemein/absolut stimmt es jedenfalls nicht. Bzgl. der neuerdings uuunglaublich wichtigen "Effizienz" sollte bspw. auch der Herstellungsprozess und der Compiler beachtet werden...
Ich spreche in dem Kontext immer von Spielen. :D Und die Effizienz ist nicht "neuerdings uuunglaublich" wichtig, sondern schon eine halbe Ewigkeit. Willkommen im 21. Jahrhundert.
Dabei geht es ja nicht um die Energiekostenabrechnung im direkten Sinne, sondern thermische Emission, Lautstärke / Lautheit und natürlich auch um Umweltschutz. Wenn die Leute bei ihren Computern nicht immer so geizig und faul wären, könnte man sicher wieder ein Kraftwerk einstampfen. Aber man kauft sich lieber das neueste Smartphone. ;)
CPUs sind hervorragend recyclebar wenn man die denn der Wertstoffsammlung zuführt und nicht nach Afrika entführt.
Und für die Performance in Spielen ist der Prozess erst mal scheiß egal wie man sieht. Denn manchmal wird der neuere Vishera immer noch von älteren Modellen zersägt. Entweder in der Effizienz, der IPC oder der Performance.
Compiler interssiert als Endkunde ebenso wenig. Ich kann ja meine Spiele wohl schlecht durch einen Disassembler laufen lassen und dann neu kompilieren. :freak:
Korvaun
2016-01-26, 07:57:17
AMD hat gute Karten gegenüber Intel-Mainstream, da bei Intel in allen Cores auch immer die GPU dabei ist. Die FX kommen ja ohne GPU, da sollten selbst 12-Kerner nicht größer sein als Intels 4-Kerner. Das ist zwar unschön für den üblichen Bürocomputer, aber dafür sind die FX ja auch nicht gemacht.
Hübie
2016-01-26, 08:05:59
So riesig ist die GPU doch gar nicht. Vollausbau entsprach bisher ~4 Kerne. Systemagent ~2 Kerne. Ergo würde ich von einem Achtkerner ausgehen was im Desktop mehr als genug ist. Im Servermarkt kann man mit entsprechend größeren Derivaten auffahren.
Edit: Wobei Derivat ungeschickt gewählt ist... Eher Variante.
Nicht riesig?
6700k:
http://cdn.wccftech.com/wp-content/uploads/2015/08/Intel-Core-i7-6700K-Block-Diagram.png
Und das sind 4 Cores mit "nur" der GT2.
Bei 2C+GT2, 2C+GT3 und 4C+GT4 sieht dann das Verhaeltnis noch ganz anders aus.
Bei den APUs beansprucht die Grafik auch mehr Flaeche als der CPU Part.
Hübie
2016-01-26, 08:57:30
Weiß jetzt gar nicht ob das cutdown ist oder einzelne slices. Finde ich dennoch nicht riesig. Da gehen wohl unsere Definitionen auseinander. ;)
z3ck3
2016-01-26, 08:57:49
Das ist ja der Witz. Mit jedem CPU Kauf, kauft man den low end Mist mit, der dann dank viel zu kleinem Speicherinterface auch noch immer mit angezogener Handbremse arbeitet, wenn man ihn denn überhaupt nutzt. Genau so wie man bei Mainboards jeweils den low end Sound Mist mitbezahlt. Ich will gar nicht wissen wie viele Resourcen im PC Sektor direkt für die Mülltonne produziert werden, die wir auch noch alle mit bezahlen, weil es schlicht keine Alternative gibt. In Desktop CPUs hat eine APU nichts zu suchen. Das ist meine Meinung. ^^
Weiß jetzt gar nicht ob das cutdown ist oder einzelne slices. Finde ich dennoch nicht riesig. Da gehen wohl unsere Definitionen auseinander. ;)
Das ist imho eine ganz gute Uebersicht:
http://pics.computerbase.de/6/7/4/6/7/3-1080.465729533.jpg
Demnach hat die S-Serie (eben der 6700k) auf jeden Fall die GT2, keinen cut-down GT3 oder gar 4. Das war bei Sandy noch anders, mein i7-2600k hat die HD3000 und das war iirc damals die groesste Ausbaustufe. Ein i7-2600 mit der HD 2000 war sicherlich nur cut-down.
z3ck3: und die ist eben nicht allgemeingueltig.
Trotz dGPU hat meine naechste CPU zu 100% mit iGPU, aus mehreren Gruenden. Wenn ich das nicht braeuchte wuerde ich auf Summit Ridge warten oder Haswell/Broadwell-E nehmen. Bis Raven Ridge dauert es aber leider noch zu lange, daher ist die Auswahl nicht so gross...
Hübie
2016-01-26, 09:56:22
Vielen Dank. Nun weiß ich Bescheid. Also kann man schon 1:2 sagen. Finde ich nach wie vor okay, wenn man bedenkt dass es 24 SIMD Slots sind.
YfOrU
2016-01-26, 10:19:10
DDR4-2400 wird doch wohl nicht das Ende der Fahnenstange sein, dann hätte man gleich bei DDR3 bleiben können.
Für AMDs APUs ist es bis 2017 das Maximum da der Speichercontroller von Carrizo/Bristol Ridge keine höheren Frequenzen unterstützt.
AMD hat gute Karten gegenüber Intel-Mainstream, da bei Intel in allen Cores auch immer die GPU dabei ist. Die FX kommen ja ohne GPU, da sollten selbst 12-Kerner nicht größer sein als Intels 4-Kerner. Das ist zwar unschön für den üblichen Bürocomputer, aber dafür sind die FX ja auch nicht gemacht.
Ist denke ich deutlich zu optimistisch. Haswell-E mit 8C kommt beispielsweise auf 356mm² und 4C+GT3 (ebenfalls Haswell) auf 264mm². Summit Ridge ist wie Haswell-E keine Mainstream Desktop CPU abzüglich GPU. Wird zwar in Relation (14nm) nicht so fett wie Haswell-E (Speicherinterface etc.) aber ist trotzdem ein Design für Server. Beispielsweise liegt Broadwell-DE (8C, Server SoC, keine GPU) bei 160mm² und Skylake mit 4C+GT2 bei 122mm².
z3ck3
2016-01-26, 10:33:16
Vielen Dank. Nun weiß ich Bescheid. Also kann man schon 1:2 sagen. Finde ich nach wie vor okay, wenn man bedenkt dass es 24 SIMD Slots sind.
Das sind aber eher 1:1. Wie kommst du auf 1:3? Der Systemagent Part verdoppelt sich ja nicht mit der Anzahl der CPU Cores. Wo im Die Shot die GPU eingezeichnet ist koennte man glatt noch mal 4 CPU Cores unterbringen. ^^
Korvaun
2016-01-26, 10:41:26
Ok, aber wenn ich mir den Die-Shot oben ansehe könnt Intel einen 6700k mit 8 Kernen ohne Grafik in die selbe Die-Größe quetschen, also ohne Probleme zum selben Preis verkaufen (selbe Marge für Intel). Ich möchte es mir gar nicht vorstellen was das für ein feines Desktop-System zu einem ordentlichen Preis gäbe :(
Genau sowas erwarte ich von AMD!
z3ck3
2016-01-26, 10:45:20
Genau sowas erwarte ich von AMD!
Dito. Ich hoffe das AMD genau das ausnutzen wird.
Sunrise
2016-01-26, 11:19:57
Ist denke ich deutlich zu optimistisch. Haswell-E mit 8C kommt beispielsweise auf 356mm² und 4C+GT3 (ebenfalls Haswell) auf 264mm². Summit Ridge ist wie Haswell-E keine Mainstream Desktop CPU abzüglich GPU.
Nicht vergessen, dass Haswell-E noch ein nativer 8-Core auf 22nm bei Intel war, während 14nm LPP nochmal etwas Spielraum nach unten hat. Zur schnellen Nachschlage schau dir z.B. die Intel-Übersicht (zweites Bild) bei Golem an:
http://www.golem.de/news/fertigungstechnik-der-14-nanometer-schwindel-1502-112524.html
Da 14LPP vor allem eine sehr aggressive Gate Pitch hat und auch SRAM-Cells deutlich kleiner als bei Intel 22nm sind und zusätzlich Power bzw. Performance-Verbesserungen mit LPP kommen, hat AMD hier - wenn man alles gegeneinander abwägt - doch ganz gute Karten, sofern die Kerne und das Drumherum selbst nicht zu komplex sind und ihnen die Verlustleistung keinen Strich durch die Rechnung macht, damit sie die Take/Spannung begrenzen müssen, um z.B. in 125W TDP zu passen. Ohne GPU ist das bei dem Prozess allerdings ein verdammt hoher Spielraum.
Es wird also mit ziemlicher Sicherheit so kommen, wir bekommen 8 Cores von AMD gegen Intels 4 Cores+GPU und je nachdem, wie gut AMD hier (sofern sie nicht zu dicht packen) Clock-Spielraum nach oben lässt, wären das dann wieder waschechte High-End-CPUs, die den Namen auch verdienen.
Das würde einen ziemlich heftigen Preiskampf auslösen, allerdings leider aufgrund der fehlenden GPU, erstmal nicht direkt den vollen Markt erfassen.
YfOrU
2016-01-26, 11:28:44
Nicht vergessen, dass Haswell-E noch auf 22nm bei Intel war, während 14nm LPP nochmal etwas Spielraum nach unten hat. Zur schnellen Nachschlage schau dir z.B. die Intel-Übersicht bei Golem an:
http://www.golem.de/news/fertigungstechnik-der-14-nanometer-schwindel-1502-112524.html
Deshalb auch der Vergleich von Haswell-E (8C) zu 4C mit Iris Pro 5200 (GT3, Haswell). Mir ging es hier nur darum aufzuzeigen das die Relation (Die Size) von Server zu Desktop CPU (mit integrierter GPU) nicht so einfach herzustellen ist wie hier dargestellt. Summit Ridge (Zen mit 8C) ist keine Mainstream Desktop CPU abzüglich einer integrierten GPU. Das Design wird mit Sicherheit über wesentlich mehr I/O verfügen als auf AM4 nach außen geführt wird denn es bildet die Basis der zukünftigen Opteron Reihe. In ~120mm² ist das mit Blick auf Broadwell-DE und Skylake-S kaum unter zu bringen.
Es wird also mit ziemlicher Sicherheit so kommen, wir bekommen 8 Cores von AMD gegen Intels 4 Cores+GPU und je nachdem, wie gut AMD hier (sofern sie nicht zu dicht packen) Clock-Spielraum nach oben lässt, wären das dann wieder waschechte High-End-CPUs, die den Namen auch verdienen.
Solange Zen halbwegs das an Performance liefert was notwendig und zu erwarten ist wird AMD auf garkeinen Fall 8C gegen 4C mit integrierter GPU stellen. AMD ist vom wirtschaftlichen Standpunkt überhaupt nicht in der Position einen Preiskampf zu führen sondern muss die Marge dringend deutlichst nach oben schrauben. Hinzu kommt das AMD sich dadurch auch noch selbst extrem unter Druck setzen würde (Preise zukünftiger Zen APUs, also Mainstream CPUs).
Ich spreche in dem Kontext immer von Spielen. :D Und die Effizienz ist nicht "neuerdings uuunglaublich" wichtig, sondern schon eine halbe Ewigkeit. Willkommen im 21. Jahrhundert.
Dabei geht es ja nicht um die Energiekostenabrechnung im direkten Sinne, sondern thermische Emission, Lautstärke / Lautheit und natürlich auch um Umweltschutz. Wenn die Leute bei ihren Computern nicht immer so geizig und faul wären, könnte man sicher wieder ein Kraftwerk einstampfen. Aber man kauft sich lieber das neueste Smartphone. ;)
CPUs sind hervorragend recyclebar wenn man die denn der Wertstoffsammlung zuführt und nicht nach Afrika entführt.
Und für die Performance in Spielen ist der Prozess erst mal scheiß egal wie man sieht. Denn manchmal wird der neuere Vishera immer noch von älteren Modellen zersägt. Entweder in der Effizienz, der IPC oder der Performance.
Compiler interssiert als Endkunde ebenso wenig. Ich kann ja meine Spiele wohl schlecht durch einen Disassembler laufen lassen und dann neu kompilieren. :freak:
Na das ist ja ein Geschwurbel:freak: Bist du nun ein Endkundenspieler, der das an Hard- und Software vergleicht, was ihm vorgesetzt wird und nur danach sein Urteil fällt? Dann verstehe ich nicht, warum du hier überhaupt diskutierst.
Oder bist du tiefergehend interessiert? Dann verstehe ich nicht, warum du nicht wenigstens halbwegs gleiche Rahmenbedngungen für vorurteilsfreie Vergleiche/Analysen (auf unserem bescheidenen Niveau) akzeptieren willst. Bei so einem Vergleich ist der Prozess und Compiler nicht egal bzw sollte mit beachtet werden. Auch wenn das Konzept des Bulldozers nicht den Nerv der Zeit traf, ist es doch wohl unzweifelhaft interessant genug dafür, statt einfach zu sagen, es ist alles crap und aus.
Daß die sogenannte Effizienz dermaßen mit der Goldwaage betrachtet wird, ist mir erst in den letzten Jahren aufgefallen. Ob das, was da gemacht wird, ausreichend wäre, wenn man es wirklich ernst meinte, oder irgendwo hin führt, bezweifele ich mal. Jedenfalls halte ich das Argument Umweltschutz für vorgeschoben, denn es dürfte sich kaum für die Natur lohnen, aus Umweltschutzgründen eine neue "effizientere" CPU zu kaufen.
Hältst du die (deine:D) ewige Rumspielerei in künstlichen Welten am PC mit immer wieder neu entwickelter und produzierter Highend-Hardware denn in irgendeiner Weise für effizient und denkst du, daß der Umwelt signifikant geholfen würde, wenn hier bei Reviews derselben extrem auf "Effizienz" im Sinne von "50W mehr TDP?? Steinigt ihn!!!!11" geachtet wird?
Insgesamt ist es natürlich erstrebenswert, wenn die Hardware weniger Energie verbraucht, aber dieses übertriebene (politisch korrekte?) Gehabe in letzter Zeit auf einem Gebiet, auf dem in erster Linie nur sinnlos Energie und Ressourcen verbraucht und die Umwelt verschmutzt wird, nervt.
Sunrise
2016-01-26, 11:53:44
@YfOrU
Es gibt - derzeit - nur den Spielraum zwischen dem besten Intel Quad inkl. GPU und dem deaktivierten 8-Kerner mit nur noch 6 Kernen. Das muss AMD ausreichen, da Intel weiterhin mehr IPC haben wird. Die Preise sind also quasi schon fest. Ein Preiskampf ist das aber nicht direkt, hier besteht schon etwas mehr Spielraum.
Die hohe Marge wird wie immer im Serverbereich gefahren, allerdings hat Intel hier auch kein kleines Sortiment mehr, wie vor 5 Jahren.
Es wird niemand freiwillig die leistungsmäßig schlechtere CPU für einen deutlich höheren Preis als maximal 500 EUR kaufen, da man als Käufer ja auch einen Leistungsgewinn haben möchte. Da nützt es nichts, im luftleeren Raum Preise festzumachen, die nicht verkaufbar sind.
Der Preis muss sich bei so einer starken und guten Vergleichbarkeit bei x86-Kernen immer an der Leistung orientieren, wir haben hier nämlich kein Apple vs. Android-Verhältnis.
AMD hat hier gute Möglichkeiten, zusammen mit ihren Polaris-GPUs in Summe weniger zu kosten und mehr Leistung zu liefern als Intel und Nvidia. Genau das muss das Ziel sein. Zumindest bis AMD dann auch echte SoCs liefern kann und keine reinrassigen "High-End"-CPUs, die wirklich nur aus einer CPU bestehen und nichts anderem.
Und genau dann wird AMD auch Erfolge verbuchen können, auf denen man aufbauen kann.
YfOrU
2016-01-26, 12:19:48
@YfOrU
Es gibt - derzeit - nur den Spielraum zwischen dem besten Intel Quad inkl. GPU und dem deaktivierten 8-Kerner mit nur noch 6 Kernen. Das muss AMD ausreichen, da Intel weiterhin mehr IPC haben wird. Die Preise sind also quasi schon fest. Ein Preiskampf ist das aber nicht direkt, hier besteht schon etwas mehr Spielraum.
Wenn AMD bei Zen mit 6C/12T Preise unterhalb eines i7-6700k ansetzen müsste hätte man ein ziemlich ernsthaftes Problem. So übermäßig groß ist das Performance Fenster nicht. Was nach oben bedeutet das Summit Ridge mit 8C/16T besser schneller sein sollte als ein i7-5930K.
Die hohe Marge wird wie immer im Serverbereich gefahren, allerdings hat Intel hier auch kein kleines Sortiment mehr, wie vor 5 Jahren.
Highend CPUs müssen auch am Desktop hohe Preise und eine hohe Marge erzielen denn das wirkt sich direkt auf das gesamte Sortiment darunter aus.
Korvaun
2016-01-26, 12:33:24
Der "Anker-Preis" von dem alles ausgeht (nach unten sowie nach oben) ist für mich i6700k. Da muß sich AMD dran orientieren wenn sie ordentlich CPU verkaufen wollen. Natürlich können sie auch rumträumen und sagen 6C sind 50% mehr als i6700k, also kostet das ding auch 50% mehr.... aber dann können sie es auch gleich sein lassen mMn.
Und super Marketing machen um die Leute umzustimmen, wann hat AMD jemals Marketing gehabt das den Namen auch verdient hat?
Ravenhearth
2016-01-26, 12:40:08
Man muss doch realistisch bleiben. Ein Zen-Hexacore wird auch bei gleichem Takt wie der 6700K eine geringere Leistung pro Kern haben, weil die IPC vermutlich rund 20% niedriger ausfällt. 6 Kerne überkompensieren das natürlich, aber eben nicht in allen Anwendungen und vor allem nicht in vielen Spielen. Deswegen fände ich für einen Hexacore den Preis des 6700K angemessen.
Ein Octacore darf dann auch 500€ kosten, damit käme man angesichts der günstigeren Mainboards auf den gleichen Plattform-Preis wie bei Intels günstigem Hexacore - wieder bei vermutlich weniger ST-, aber mehr MT-Performance. Passt.
Sunrise
2016-01-26, 12:40:56
Wenn AMD bei Zen mit 6C/12T Preise unterhalb eines i7-6700K ansetzen müsste hätte man ein ziemlich ernsthaftes Problem. So übermäßig groß ist das Performance Fenster für Zen nicht.
Highend CPUs müssen auch am Desktop hohe Preise und eine hohe Marge erzielen denn das wirkt sich direkt auf das gesamte Sortiment darunter aus.
Rein wirtschaftlich ist das auch richtig, aber wenn du die Endleistung mit Broadwell-E vergleichen musst, dann haben wir da einfach ein Problem, dem man sich wirtschaftlich auch stellen muss.
Bei einem Core i7-6950X 10-Kerner der alles deckeln wird, darunter einem sehr performanten 8-Kerne mit höherer Leistung als AMD, bleibt eben nur noch der Spielraum zwischen dem besten 4-Kerner mit GPU und den 6-Kernern, wie schon angesprochen.
6 Kerne werden wohl schon stark grenzwertig, falls AMD nicht dieses Performance-Level von Intels starken 4-Kernern erreichen kann. Drüber wird es ja nicht besser, sondern eher schlechter.
YfOrU
2016-01-26, 12:43:03
Mit dem i7-i6700K hab ich als Ausgangspunkt auch überhaupt kein Problem. Hier kommt es aber teilweise derart rüber das es für das Geld dann 8C/16T geben soll und das halte ich für eine komplette Illusion.
Rein wirtschaftlich ist das auch richtig, aber wenn du die Endleistung mit Broadwell-E vergleichen musst, dann haben wir da einfach ein Problem, dem man sich wirtschaftlich auch stellen muss.
Ein LGA 2011-3 Board kostet aber im Schnitt auch gut 100€ mehr als eine typische Mainstream Plattform. Hierdurch sehe ich für AMD mit AM4 durchaus Spielraum bei den CPU Preisen.
OBrian
2016-01-26, 12:43:48
AMD wird auf jedem Fall im unteren Segment für einen Performanceschub sorgen, wo Intel immer noch alle mit Zweikernern abspeist. Und im oberen Segement werden sie Intel auch dazu zwingen, mehr Kerne anzubieten. Bei Intel gibt es einen Vierkerner mit SMT nicht unter 250€, aber wenn es eine Zen-Mainstream-APU gibt, dann werden das auch vier Kerne sein, die wahrscheinlich auch SMT haben, AMD ist ja üblicherweise nicht so knauserig bei Aktivieren der eh vorhandenen Features, und das wahrscheinlich für weniger Geld (wird ja wohl im Preisbereich von Kaveri sein).
Da muß AMD gar keinen irren Preiskampf anstrengen (und das Spitzenmodell mit 8 Kernen + SMT darf auch gerne einen Tausender kosten, wenn die Leistung das rechtfertigt), es wird auch so was passieren, zum Vorteil der breiten Masse der Anwender.
Sunrise
2016-01-26, 12:47:03
Mit dem i7-i6700K hab ich als Ausgangspunkt auch überhaupt kein Problem. Hier kommt es aber teilweise derart rüber das es für das Geld dann 8C/16T geben soll und das halte ich für eine komplette Illusion.
Ist eben genau der Zeitraum, in welchem auch Kaby Lake langsam kommen wird. Es ist keine einfache Rechnung, wir werden es abwarten müssen, ob AMD wirklich schnell genug ist, damit man keine 8-Kerner dagegen stellen muss. Ich hoffe es natürlich nicht.
Statt Preiskampf hätte ich vielleicht Leistungskampf schreiben sollen, denn ein Preiskampf verliert AMD. Das ist schon richtig, war etwas unglücklich formuliert.
Der Punkt ist eben für mich so unverständlich, das keine FX auf FM2+ released wurde. Das keine Resourcen für eine komplette Überarbeitung der Module aufgebracht wurden ist für mich logisch und nachvollziehbar. Nicht jedoch das komplette weglassen der FX Reihe. Man hätte sie ja auch nicht FX nennen brauchen, Athlon X6/X8 wären ja durchaus eine Option gewesen.
Die Teile waren in Arbeit, wurden aber vom damals neuen Chef gestrichen, da der nur auf low-power/low-cost setzte.
Von dem Typen ist jetzt aber nichts mehr übrig, das aufgekaufte Seamicro wurde abgewickelt und für den gerade präsentierten ARM-Opteron bewirbt man den Interconnect einer anderen Firma .. also da wurden in den letzten ~5 Jahren verdammt viel Geld in die Luft geblasen.
Jetzt ist AMD wieder auf alten Kurs, es wird wieder Opterons geben. Bleibt nur zu hoffen, dass Zen es richten wird.
So schlimm, dass es nicht besser als BD wäre, kanns aber eigentlich gar nichts sein, die luxuriöse Preisfrage ist nur die "wie gut" Zen genau wird ;)
Das war wohl Dirk Meyers späte Rache :D. Denn genau das wollte der ja die ganze Zeit. Volle Rückkehr in den High-End-CPU-Markt.
YfOrU
2016-01-26, 13:03:37
Bei Intel gibt es einen Vierkerner mit SMT nicht unter 250€, aber wenn es eine Zen-Mainstream-APU gibt, dann werden das auch vier Kerne sein, die wahrscheinlich auch SMT haben, AMD ist ja üblicherweise nicht so knauserig bei Aktivieren der eh vorhandenen Features, und das wahrscheinlich für weniger Geld (wird ja wohl im Preisbereich von Kaveri sein).
Eine 4C/8T Zen APU muss deutlich teurer werden als Kaveri heute. ~140€ für die schnellste Mainstream CPU im Sortiment ist viel zu wenig denn die wirklich hohen Volumen werden mit den Produkten darunter erzielt.
Ravenhearth
2016-01-26, 13:11:03
Ich denk mal die APUs mit 4 Kernen werden bis etwa 250€ hinauf gehen, und die APUs mit 2 Kernen und etwa Kaveri-Performance kosten dann die Hälfte.
YfOrU
2016-01-26, 13:12:44
Ja. Das ist so der Bereich den AMD eigentlich unbedingt erreichen muss. Aus dem absoluten Low-Cost Segment (Celeron etc.) muss AMD raus denn aufgrund der vergleichsweise (Intel) geringen eigenen Stückzahlen und ohne eigene Fertigung ist hier kaum etwas zu verdienen.
Ravenhearth
2016-01-26, 13:18:38
Es ist aber vorstellbar, dass das Die einer Quadcore-APU mindestens genauso groß wird wie der Die einer Octacore-CPU...
Hübie
2016-01-26, 13:18:57
Das sind aber eher 1:1. Wie kommst du auf 1:3? Der Systemagent Part verdoppelt sich ja nicht mit der Anzahl der CPU Cores. Wo im Die Shot die GPU eingezeichnet ist koennte man glatt noch mal 4 CPU Cores unterbringen. ^^
Ich meinte für zwei CPU Kerne ein GPC mit 24 EUs. Oder hab ich da jetzt was vercheckt? :D
YfOrU
2016-01-26, 13:20:12
Es ist aber vorstellbar, dass das Die einer Quadcore-APU mindestens genauso groß wird wie der Die einer Octacore-CPU...
Die Größe des Chips definiert nur den unteren und nicht den oberen möglichen Verkaufspreis. Der ist davon völlig losgelöst. Siehe Intel ;) Für eine integrierte GPU gibt es pro Fläche immer deutlich weniger Marge als für mehr CPU Kerne/Performance. Das ist einer der Punkte welcher bei AMD mit Blick auf den enormen Ressourcenaufwand (APU Entwicklung) falsch bewertet wurde.
Klassisches Beispiel (32nm): Llano 4C hatte 228mm² und Sandy Bridge 4C 216mm². Verkauft wurden die APUs trotz gut doppelter GPU Performance dann zu Preisen von Sandy Bridge 2C mit 149mm²/131mm² (GT1).
Na ja, eine 4-Kern Zen-APU ist aber auch Lichtjahre schneller als eine BD-APU. Zudem ist nicht gesagt, dass das Die größer ist. Es kann ja auch sein, dass das zwei Dies mit HBM auf einem Interposer sind. AMD plant offenbar 3 Zen-Dies insgesamt:
4-Kerne für APU
8-Kerne für Desktop/(Server?)/WS
16-Kerne für Server
davon wird der 8-Kerne in 2016 kommen, 4 und 16-Kerner vermutlich 2017, wovon offenbar RavenRidge erst Ende 2017 soweit ist.
Einen 2-Kerner braucht man nicht sofort, da man ja hier auch weiterhin Carrizo verbauen kann. Einen nativen 2-Kerner kann man evtl. für 2018 erwarten.
Wenn RavenRidge ggü. KabyLake von der CPU-Leistung her halbwegs konkurrenzfähig ist, wird AMD auch dessen Preise abrufen. Ich glaube nicht, dass die nochmal den Billigheimer machen, wenn die die entsprechende Leistung abrufen können.
YfOrU
2016-01-26, 16:21:58
Na ja, eine 4-Kern Zen-APU ist aber auch Lichtjahre schneller als eine BD-APU.
Der CPU Part muss halt Lichtjahre schneller sein denn daran hängt der ASP.
Zudem ist nicht gesagt, dass das Die größer ist. Es kann ja auch sein, dass das zwei Dies mit HBM auf einem Interposer sind.
Bei der integrierten GPU einer zukünftigen Mobile und Mainstream APU ist es auch denkbar das AMD einen konservativeren Ansatz als in der Vergangenheit wählt. Eine zu Intel vergleichbare bis etwas bessere GPU Performance sollte AMD bei 14nm auf einer deutlich geringeren Fläche unterbringen können. Bei einer "Highend APU" könnte dann immer noch eine zusätzliche dGPU+HBM mit auf das Package. Da es sich um SoCs handelt ist grundsätzlich Platz vorhanden (Intel bekommt hier PCH + eDRAM unter). Etwas wie 4C+GT4e als einziges APU Design kann AMD eigentlich nicht bringen denn das ist für den Großteil des Marktes vergleichsweise unwirtschaftlich.
Meiner Ansicht nach sollte 128 Bit DDR4 für AMD ausreichen. Im Gegensatz zu Intel hängt AMD ein gutes Stück weniger an der Bandbreite und Nvidia zeigt beispielsweise mit GM108 (940M, 64 Bit DDR3) das noch Spielraum nach oben ist. Hinzu kommt das sich trotz 14nm die heute üblichen TDP Limits nicht in Luft auflösen. Das liegt sehr häufig bei nur 15W. Eine GPU zu integrieren welche erst bei über 35W vernünftig funktioniert macht da recht wenig Sinn.
Ich glaube nicht, dass die nochmal den Billigheimer machen, wenn die die entsprechende Leistung abrufen können.
Gehe ich auch nicht von aus.
Akkarin
2016-01-26, 17:13:42
Ein LGA 2011-3 Board kostet aber im Schnitt auch gut 100€ mehr als eine typische Mainstream Plattform. Hierdurch sehe ich für AMD mit AM4 durchaus Spielraum bei den CPU Preisen.
Das wage ich mal zu bezweifeln. Auf 100€/$ unterschied kommt man nur wenn man einsteiger B mit einsteiger X Boards vergleicht. In realität werden die meisten jedoch zwischen mittel/oberklasse Z und einsteiger/mittelklasse X Prettern unterscheiden. Hier liegt der unterschied eher bei 25-75 €/$.
YfOrU
2016-01-26, 17:35:51
Zum einen sind AMD Boards praktisch schon immer günstiger gewesen da man nicht zwangsläufig (OC) auf einen vergleichsweise teuren Chipsatz wie Z170 angewiesen ist und zum anderen bekommt man ein vernünftiges LGA 1151 Board für 135€ (Z170, USB 3.1 Gen 2, M.2). Um die 100€ Differenz zu LGA 2011-3 sind jetzt nicht unrealistisch.
fondness
2016-01-26, 19:03:24
6 Kerne werden wohl schon stark grenzwertig, falls AMD nicht dieses Performance-Level von Intels starken 4-Kernern erreichen kann. Drüber wird es ja nicht besser, sondern eher schlechter.
50% mehr Cores kompensieren schon einiges. Ich denke schon, dass viele auf 10-20% pro Core Leistung verzichten würden für 50% mehr Cores.
Ich weiß nicht was du erwartest, aber AMD hat keinen Grund in einen Preiskampf zu gehen und so viel langsamer als Intel wird man hoffentlich nicht sein, dass 50% mehr Cores nicht ein sehr gutes Argument sein werden.
Timbaloo
2016-01-26, 19:28:03
Hoffentlich rächt sich intels Politik mit der mageren ConsumerPlattform und der veralteten E-Plattform...
Bei 10-20% weniger pro Core Leistung dürfte sich das gut für AMD ausgehen, und wäre eine ordentliche Leistung :)
OBrian
2016-01-26, 19:49:07
Hoffentlich rächt sich intels Politik mit der mageren ConsumerPlattform und der veralteten E-Plattform...das kann Intel aber in Windeseile ändern, wenn sie wollen. Wollten bisher nur nicht und waren auch nicht gezwungen dazu. Wenn AMD einfach nur so gut wird, daß Intel ordentlich was tun muß, um den alten Abstand wieder herzustellen, dann hat AMD damit seinen Job im Sinne eines funktionierenden Wettbewerbes schon erfüllt. Zu wünschen wäre ihnen natürlich auch, daß sie auch ein bißchen Geld damit machen ;)
Sunrise
2016-01-26, 20:11:32
50% mehr Cores kompensieren schon einiges. Ich denke schon, dass viele auf 10-20% pro Core Leistung verzichten würden für 50% mehr Cores.
Ich weiß nicht was du erwartest, aber AMD hat keinen Grund in einen Preiskampf zu gehen und so viel langsamer als Intel wird man hoffentlich nicht sein, dass 50% mehr Cores nicht ein sehr gutes Argument sein werden.
Du siehst das sehr gut heute schon bei Intel. Es werden sich Benchmarks genommen und dann sind die 4-Kerner nicht nur billiger, sondern bei vielen Aufgaben auch schneller als die Intel 6-8-Kerner. Nimm nun mal eine AMD-CPU in den Vergleich mit weniger IPC und du hast im Prinzip das gleiche Ergebnis.
Und was bleibt übrig? Richtig, der Preis als Argument. AMD könnte das mit geschicktem Marketing versuchen auszugleichen, aber Broadwell-E hat sogar bis zu 10 Kerne, da wird es für bestimmte Leute doch enorm an Argumenten fehlen.
Die Mainstream-CPUs haben eben auch immer ein recht aktuelles Featureset, das ist alles nicht zu vernachlässigen.
Mit reinen CPUs kommt man da nicht ran.
Sei es wie es will, man muss die Endleistung abwarten, dann ist das auch besser einzuschätzen. Sind alles im Moment riesige Fragezeichen.
Da Intels Planungen den PC fast nichtmehr berücksichtigen hat AMD jedenfalls wieder mehr Spielraum und wir haben theoretisch (bei guten Preisen) alle was davon.
z3ck3
2016-01-26, 20:17:32
Ich denke das AMD, da sie nur einen Sockel für alles anbieten, ähnlich wie bei Intel den CPU Support/OC an den Chipsatz binden werden. Immerhin muss man theoretisch von 25W bis 125W alles abdecken können. Ich kann mir vorstellen das bestimmte Chipsätze nur eine bestimmte TDP Range abdecken. Wenn also eine Highend CPU mit sagen wir mal 95W in ein Low Power Board gesteckt wird, dann wird die TDP automatisch auf 45W begrenzt. Und eine OC CPU die auch 125W verbrauchen könnte, die würde in einem normalen Highend Board dann halt auf 95W festgenagelt sein. Nur mal grob überschlagen. Boards die nur eine begrenzte TDP liefern konnten gab es gerade auch bei AMD auch schon in der Vergangenheit.
Mir fällt nur keine Lösung für die Theoretische Limitierung der PCIe Lanes ein. Wenn AMD nur 24 Lanes vorsieht, lässt sich das nicht mehr bei diesem Sockel steigern. Der Highend Gedanke, das Highend CPUs eben auch über mindestens 40 Lanes verfügen, der ließe sich nicht mit dem Sockel umsetzen.
Die Frage also wie AMD den AM4 für alle CPU Klassen realisieren will, ist für mich die spannendste. Wie einschneident werden die Kompromisse sein die man eingehen muss einen derartigen Sockel zu realisieren.
Theoretisch muss ein derartig breites Spektrum an CPUs/APUs abgedeckt werden:
Highend, "FX" Chipsatz bis 42 PCIe Lanes, bis 125W TDP
CPU, 16C/24T, 42 PCIe Lanes, 125W TDP
CPU, 8C/16T, 42 PCIe Lanes, 110W TDP, OC
CPU, 6C/12T, 42 PCIe Lanes, 110W TDP, OC
CPU, 8C/16T, 42 PCIe Lanes, 95W TDP
CPU, 6C/12T, 42 PCIe Lanes, 95W TDP
Performance, "X" Chipsatz, bis 24 PCIe Lanes, bis 95W TDP
CPU, 4C/8T, 24 PCIe Lanes, 95W TDP, OC
CPU, 4C/8T, 24 PCIe Lanes, 45W/65W TDP
APU, 4C/8T, 24 PCIe Lanes, 65W/85W TDP
APU, 4C/8T, 24 PCIe Lanes, 45W/65W TDP
Low Power, "L" Chipsatz, bis 16 PCIe Lanes, bis 25W TDP
APU, 4C/8T, 16 PCIe Lanes, 25W TDP
APU, 2C/4T, 16 PCIe Lanes, 25W TDP
APU, 2C/4T, 16 PCIe Lanes, 15W TDP
fondness
2016-01-26, 20:18:59
Das ist IMO das geringste Problem. Kein Mensch benötigt heute mehr als einen x16 PCIe-Slot.
Du siehst das sehr gut heute schon bei Intel. Es werden sich Benchmarks genommen und dann sind die 4-Kerner nicht nur billiger, sondern bei vielen Aufgaben auch schneller als die Intel 6-8-Kerner. Nimm nun mal eine AMD-CPU in den Vergleich mit weniger IPC und du hast im Prinzip das gleiche Ergebnis.
Naja, bei Intel sind die 6 oder gar 8 Kerner halt auch erheblich teurer, und zwar nicht nur die CPUs sondern vor allem auch die Plattform. Klar sagen da viele, 4 Kerne sind genug für mich. Da hat man IMO nicht "im Prinzip dasselbe Ergebnis".
Botcruscher
2016-01-26, 20:24:22
50% mehr Cores kompensieren schon einiges. Ich denke schon, dass viele auf 10-20% pro Core Leistung verzichten würden für 50% mehr Cores.
Bei einem Spielerechner tun 20% IPC schon richtig weh weil die eben nicht nur 20% weniger entscheidende Singelthreadleistung bedeuten. Das AMD wieder in den Mobilmarkt kommt ist viel wichtiger.
vBulletin®, Copyright ©2000-2024, Jelsoft Enterprises Ltd.