Archiv verlassen und diese Seite im Standarddesign anzeigen : Spekus zum Hammer
DATA_OK
2002-10-11, 13:14:05
Hi,
ich hab zwar selber keine Info´s zum Hammer aber mich würde mal interessieren was hier so denk was der neue Hammer (für Workstations), also wenn ich mich nicht täusche der Clawhammer so an schöner, neuer Technik im Die hat und was diese denn so zu leisten vermag.
Und gleich noch ne Frage: ich hab in letzter Zeit schon einiges über den Hammer gehört und wenn man das immer so glauben würde wie es so im INet geschrieben steht wäre der Hammer in Prinzip schon fertig (bis auf ein "kleines" Speicher Interface redesign) und das die Verzögerung eigentlich "nur" noch am nicht in den Griff bekommens der SOI Vertigung liegen soll. Stimmt das?
Gibt es denn dann schon lauffähige HAMMER Proz? (mit altem Speicherinterface?) Und wie schlägt der sich so?
Danke für die Infos.
so long
DATA
Unregistered
2002-10-11, 13:33:39
So viel neues hat der Hammer nicht, wenn man jetzt fies wäre könnte man sagen es ist ein Palomino mit x86-64 Befehlssatz (für 64 BIt Anwendungen) und internem Speicherinterface.
Es gibt ein paar Benches bei Tecchanel, da macht ein 800Mhz Clawhammer einen 1600Mhz Wilamette Xeon nass, also schon net schlecht ;)
KingLouis
2002-10-11, 14:29:52
ich glaube da sind schon 1.3ghz vorserienmodelle im umlauf (mein ich irgendwo mal gelesen zu haben)
Lokadamus
2002-10-11, 14:43:46
mmm...
Ich meine, bei Tecchanel mal gelesen zu haben, das der Hammer eine Pipeline mit einer Länge von 32 Stufen haben soll ... der P4 kommt auf 20 ...
Edit
Guck hier:
http://www.tecchannel.de/hardware/787/1.html
http://www.heise.de/ct/01/23/028/
http://www.zdnet.de/techexpert/artikel/insider/200110/hammer_01-wc.html
sucht selber, Suchbegriff bei Google: Pipeline Stufen Hammer
Ich glaub der Hammer kriegt nur 2 pipelines mehr als der Athlon. Nix mit 32. Aber sicher bin ich da auch net, vielleicht sollte sich mal Z-BAG dazu erbahmen Klarheit zu schaffen.
Lokadamus
2002-10-11, 15:56:48
mmm...
Du solltest dir nochmal durchlesen, was eine Pipeline ist und was/wozu die Stufen sind ...
TheFallenAngel
2002-10-12, 10:42:31
hats jemand eine ahnung wie das performance-rating vom hammer aussehen könnte???
robbitop
2002-10-12, 11:37:34
er hat eine 12 Stufige Pipeline, wenn sie länger wäre bräuchte man sehr gutes Prefetching, wenn dieses daneben geht muss die ganze Pie gelehrt werden und das kostet Zeit...ich denke 12stufen sind ganz gut...
nunja jedenfalls gibt es Samples aber AFAIK nicht in SOI Prozess da dieser extrem komplex ist und noch nicht vollständig im Griff ist und AMD verspätet sich deshalb um einige Monate...ohne SOI würden sie von der Taktfrequenz nicht mithalten können.
Die Frage ist, was den Hammer so schnell macht, das interne speicherinterface kann einem 800Mhz K8 doch nicht dazu befähigen nen 1,6Ghz P4 NW wechzuknallen @Q3A.
Da muss mehr dahinter stecken...we will see...
und wenn Intel pech hat, setzt sich das x86 64bit gut durch (und danach sieht es aus) und dann würde ein zweiter 64bit Standart es sehr schwer haben (auch wenn Intel gewisse Beziehungen hat, haben viele schon support zugesagt), also müssten sie diesen Standard abkupfern und Lizenzen blechen...
Wenn der Hammer wirklich so rauskommt mit SOI und stabil ist, hat Dell afaik interesse und das bedeutet Kohle für AMD...Problem ist nur die Verfügbarkeit denn ich denke die Produktionskapazität der einizg fähigen Hammer SOI Fabrik in Dresden dürfte Engpässe schaffen und das ist ein Problem...fragt sich wie lang UMC braucht um AMD unter die Arme zu greifen....wenn AMD gut Ausbeute in Dresden hat und diese Fab nur auf Hammer einstellt und UMC (so war es AFAIK geplant) den Barton produziert als LowCost dürfte es gut aussehn....und die Chipsätze für den Hammer sind AFAIK auch schon fertig..alle warten noch auf die erste K8 CPU...hoffendlich sind die Chipsätze auch gleich stabil...
@robbitop
Für Lizenzen müßte Intel wohl nicht zahlen, die haben Lizenzaustauschabkommen mit AMD, die das mit abdecken würden. Ich glaube aber nicht, daß Intel das einfach nachbauen würde. Wenn AMD mit der 64bit-Erweiterung erfolgreich ist, wird Intel etwas eigenes dagensetzen und vermutlich wegen der größeren Marktanteile auch durchsetzen. Am Ende müste AMD dann wieder dem Intel-Weg folgen. Würde mich nicht wundern wenns am Ende so kommt.
robbitop
2002-10-12, 13:14:36
naja der Resonanz der Hersteller zufolge sieht es verdammt gut für AMD aus...wenn sie den Hammer nur rechtzeitig und in grösseren Massen liefern könnten so wie jetzt den Palomino dann würde die Situation für AMD verdammt gut aussehn...
BlackBirdSR
2002-10-12, 14:50:15
Der Hammer hat 12 generelle Pipeline Stufen, gegenüber 10 des K7 Cores, und 17 für FPU Berechnungen vs 15 des K7.
DIe 32 Stufen ergeben sich aus den L1 und L2 Cache zugriffen, die allerdings nicht mehr direkt zur Pipelinelänge im generellen Wortgebrauch gehören.
Beim P4 lässt man auch ca 8 Pipeline Stufen wegfallen da diese nicht so oft genutzt werden, und darüberhinaus 28 Stufen auch etwas extrem klingt, was es auch ist ;).
Dass der 800MHZ Clawhammer bei Q3 sehr schnell war liegt wohl an einer Mischung asu Modifikationen des Cores und dem integrierten Speichercontroller.
Dabei verschafft der Controller dem Clawhammer starkt verringerte Speicherlatenzen, etwas an dem der Athlon stark zu leiden hat und der P4 sehr überzeugt.
Der K8 bekommt SSE2.
Ansonsten, hat der K8 wohl einen verbesserten L2 Cache, in welcher Hinicht auch immer.
Die Pipeline wurde eben um diese beiden Stufen verlängert die sich nur im Bereich des Befehle holen niederschlagen, was zusammen mit der verbesserten Sprungvorhersage und einigen Tricks die Auslastung der FUnktionseinheiten des K8 erhöhen dürfte. Ein weiterer Punkt an dem der K7 kränkelte.
Und dann sollte wohl auch das Prefetching des K8 Cores verbessert worden sein, noch ein Problempunkt des K7 ab dem Palomino.
Natürlich kommen dazu die 64Bit Erweiterungen, die auf der einen Seite mehr adressierbaren Speicher 40/48Bit erlauben, auf der anderen Seite doppelte Registeranzahl und breite leifern, und die Registernazahl für SSE2 verdoppelt.
Ansonsten ist die Anbindung an die Peripherie ganz neu, und die Skalierbarkeit bei mehreren CPUs sollte sehr gut sein, da sich nicht nur die Anzahl der CPUs sondern auch die Speicherbandbreite und gröe ändert.
Die 64Bit Erweiterungen sind momentan meiner Meinung nach mal völlig nebensächlich, da die Geschw. bei jetzigen Anwendungen und Betriebsystemen entscheiden wird wie erfolgreich der K8 nun wird.
Was Verfügbarkeit, Ausbäute, und Geschwindigkeit angeht kann man aber leider keinerlei verlässlichen Angaben machen.
Da ändert auch ein test des 800er Clawhammer gar nichts.
robbitop
2002-10-12, 14:52:54
full ack
i_Land
2002-10-12, 22:35:26
Also imho steht die Dinge nicht sehr gut für AMD da. Wenn sie nicht bald den SOI im Griff kriegen, ist Intel auf und davon. Intel scheint imho nicht auf die X86-64 Schiene aufzuspringen, sondern arbeiten stark am nächsten Itanium.
Wenn AMD der grosse Coup gelingt, dann wird Intel wohl oder übel AMD nachmachen müssen. Denkt mal nur an DDR Ram. Intel hatte am Anfang nicht den geringsten Bock da was zu machen. Rambus für den Highend und SDR für den Low Cost Markt. Wie siehts heute aus. Intel ist AMD gefolgt und hat SDR sowie Rambus fast ganz links liegen lassen.
Vor allem im Server Bereich wird der Hammer sehr begehrt sein. In diesem Artikel scheint Nvidia den Eindruck zu machen, das sie bis zum Hammer warten um sich weitere Server zuzulegen (oder ein Upgrade zu machen) http://www.anandtech.com/video/showdoc.html?i=1711
Der Hammer wird gute Server viel kostengünstiger machen als Sun&Co Server.
Wie er sich im Desktop Bereich durchsetzen wird ist noch fraglich.
Da Intel durch einige neue Chipsätze den Pentium IV ordentlich Bandbreite geben wird, 5 Gb und mehr, hat der Pentium IV noch ziemlich Luft. Also mehr Mhz und viel mehr Bandbreite werden viele Vorteile des Hammers vernichten.
Es wird sich herausstellenmüssen ob die geringere Latenzzeiten des Hammer Memorycontroller die grosse Bandbreite wieder wettmachen werden. Obs möglich wäre den Hammer ein Dual DDR Memory Interface zu verpassen ??? ???
Und nicht vergessen der Hammer hat zwar eine gute Performance im 32 Bit Bereich, aber Intel schlagen könnte AMD nur wenn sie sich auch im 64 Bit Bereich durchsetzen können, und da hängt halt nicht alles von AMD ab sondern ob die Softwäre Entwickler auch mitmachen
Drücken wir AMD und dem Hammer mal die Daumen das sie es schaffen.
zeckensack
2002-10-13, 00:37:16
AFAIK soll auch die Branch Prediction wieder verbessert werden.
(die allerbeste hatte der K6 - kein Witz, aber für den war's einfach nur Overkill)
Und noch hierzuOriginally posted by i_Land Obs möglich wäre den Hammer ein Dual DDR Memory Interface zu verpassen ??? ???Der (Server-)Sledgehammer wird dies standardmäßig haben, der (Desktop-)Clawhammer höchstwahrscheinlich nicht.
Bzgl Pipelinestufen hat BlackBirdSR bereits alles gesagt :)
Ich denke mal, daß AMD auch dem Clawhammer Dual Channel DDR spendieren muß, ansonsten hätte AMD ein Problem. Durch die lange Verzögerung dürfte zur Markteinführung des Clawhammer beim P4 Dual Channel DDR schon Standard sein.
robbitop
2002-10-13, 10:28:24
tja was bringt Bandbreite einem K7 Design ????
[und der Hammer ist "nur" ein aufgebohrter K7...ich sehe es eigendlich nicht wirklich als neue Architektur (was gut ist muss nicht verändert werden ;-) die K7 Architektur ist eben die Leistungsstärkste im Desktopsegment)....]
dasselbe wie mehr L2 Cache....nähmlich sehr wenig, sieht man an aktuellen Athlons...sie skallieren kaum mit ...dank des grossen L1 Cache....das ist beim P4 eben anderes der hat nen Mini L1 Cache und damit skalliert er recht gut.
Deshalb kann AMD es sich sparen DualChannel DDR und mehr als 256kb L2 zu spendieren...es gibt Anwendungen wo es dem K7 etw. bringt..aber das sind eben nicht wirklich destopspezifische SAchen und deswegen bekommt der Sledgehammer eben diese Features...ich denke auch dass AMD diese Sachen evl nach und nach freischalten wird...
Eines ist klar in sachen ProMhz leistung wird kein P4 Core jemals einen K7 Core ebenbürtig sein...der P4 ist und wird auch ein Core sein der sehr hoch takten lässt und sehr auf MM Optimierungen designed ist und er geht deshalb seinen weg, da AMD es wahrscheinlich nicht schaffen wird in sachen Takt hinterherzukommen
ERGO: Leistung in etwa gleich aber Cores unterschiedlich
(ja ich habe einen AMD im PC aber ich bin gegen Monopol und ich habe nix gegen IntelCPUs..ich bewundere einige Features und Vorteile haben sie auch genug...aber lachen muss ich ab und zu über das OC wenn Leute sich über ihre @3Ghz P4 freun und nich merken dass die sich selbst runtertakten wenns brenzlich wird...bin eben ein OCler..hehe)
Unregistered
2002-10-14, 12:36:58
Originally posted by i_Land
Denkt mal nur an DDR Ram. Intel hatte am Anfang nicht den geringsten Bock da was zu machen. Rambus für den Highend und SDR für den Low Cost Markt. Wie siehts heute aus. Intel ist AMD gefolgt und hat SDR sowie Rambus fast ganz links liegen lassen.
Und was wäre passiert wenn Intel mit 80% Marktanteil oder so von Anfang an auf DDR aufgesprungen wäre? Speicherknappheit, Preisanstieg und damit Ende der Vorteile von DDR gegenüber RDRAM.
Die Intel Strategen haben noch ein paar andere Sachen zu kalkulieren als Benchmarks oder Bock.
Lokadamus
2002-10-14, 12:40:43
mmm...
@Unreg
Wäre das nicht Intel's Wunsch gewesen ??? DDR so teuer wie Rambus, Rambus würde sich besser verkaufen, DDR und AMD wieder eine ausgewischt ... Intel happy ...
i_Land
2002-10-14, 21:31:12
Wäre das nicht Intel's Wunsch gewesen DDR so teuer wie Rambus, Rambus würde sich besser verkaufen, DDR und AMD wieder eine ausgewischt ... Intel happy ...
Full Ack
Die Speicherhersteller hätten sich gefreut und schneller ihre Fabs umgestellt. Weil bei DDR verdient man nicht mit Lizenzen, sondern mit Produktion.
Originally posted by Unregistered
Und was wäre passiert wenn Intel mit 80% Marktanteil oder so von Anfang an auf DDR aufgesprungen wäre? Speicherknappheit, Preisanstieg und damit Ende der Vorteile von DDR gegenüber RDRAM.
Die Intel Strategen haben noch ein paar andere Sachen zu kalkulieren als Benchmarks oder Bock.
Ach quatsch, die haben bloß keinen DDR Ram genommen, weil sie vertraglich an rambus gebunden waren, sonst hätten sie von anfang an DDR Ram verbaut.
Ausserdem nötig war es nicht wirklich, weil für den OEM markt hat´s der SDRAM auch getan. Für die reichen gab´s den P4 mit rambus und die Overclockers haben sich meist nen P3 geholt. Also wirklich geschadet hat´s Intel nicht, und des war allemal besser als hohe Gebühren an Rambus zu bezahlen.
i_Land
2002-10-15, 03:44:06
Pentium 4 mit SDR ist wie ein Porsche mit nur den ersten zwei Gängen
GloomY
2002-10-15, 14:16:38
Originally posted by i_Land
Pentium 4 mit SDR ist wie ein Porsche mit nur den ersten zwei Gängen Nur mit dem Unterschied, daß der Porsche immer noch geil aussieht und eine gute Beschleunigung hat. :D
Zum Thema:
Der Athlon hat seinen Flaschenhals ganz klar im Font-End. Das sieht man allein schon daran, daß die wenigen Veränderungen an den TBLs beim Wechsel vom Thunderbird zum XP dem XP schon 5 bis 10 % mehr Leistung bei gleichem Takt gebracht haben.
Und der Hammer geht hier noch einen großen Schritt weiter. Die Anzahl der L2-TLB Einträge wurde verdoppelt und ein von einigen RISC-CPUs bekanntes Verfahren zum schnelleren Austauschen der TLB Einträge bei einem Task-Wechsel wurde übernommen.
Diese Änderungen an den TLBs werden sich ganz klar in der Leistung widerspiegeln.
Zusätzlich dazu werden der integrierte Speichercontroller und die verbesserte Branch Prediction dem Hammer nochmals einen großen Performance-Schub geben.
Imho hat AMD dem Hammer genau dort, wo es Schwächen beim XP gibt, gut unter die Arme geholfen.
Hoffentlich stellt sich das "nur" 64Bit DDR-Interface bei der kleinen Version nicht als zu große Bremse heraus???
BlackBirdSR
2002-10-15, 16:38:45
Originally posted by GloomY
Imho hat AMD dem Hammer genau dort, wo es Schwächen beim XP gibt, gut unter die Arme geholfen.
leider kann AMD an einem der großen Problem Punkte gar nichts ändern:
Software baut zu einem sehr großen Teil auf Load Store Befehle auf.
Da ist wenig Möglichkeit um z.B die FPUs voll parallel auszulasten.
@PIRX
Keine Angst, Speicherbandbreite ist nicht Alles.
Dem K7 Core mangelte es allem Anschein vorallem an niedriger Latenz zum Speicher.
Das bekommt der K8 jetzt wodruch auch die effektive Bandbreite ansteigt.
So Speicherbandbreitenhungrig wie einem immer erzählt wird ist das Alles gar nicht.
Als mein Lieblingsbeispiel führe ich da immer den P3 mit knapp 1Gb/s Speicherbandbreite an, der sehr gut mit dem Athlon mithällt.
Natürlich ist Ausgangslage hinsichtlich der Byteblöcke die jede CPU jeweils einließt ganz anders.. aber die Aussage bleibt gleich: Die Software ist gar nicht so hungrig.. was die CPU dagegen verschluckt ist ne andere Sache.
Aber auch da ist der Athlon ganz genügsam.
BlackBirdSR
2002-10-16, 11:12:52
ich wollte keinen eigene Thread aufmachen, obwohl es eigentlich keine Spekulation ist...
AMD hat Spec Scores fuer den 2GHZ Opteron bekanntgegebem.
2GHZ, 2xPC2700 DDR (dualchannel), 32Bit Compiler
SpecInt 1202
SpecFP 1170
sehr ansehlich wuerde ich sagen.
Obwohl es den Itanium2 nicht schlagen kann was SpecFP Werte angeht, wird ein P4 um euniges deklassiert, was auch fuer die Xeons gelten sollte gegen die der Opteronm antritt.
Mit 64Bit Compilern verspricht sich AMD nochmal 20% Aufschlag auf die SpecWerte.
Allerdings koennte die Nutzung von 32Bit bei Spec momentan daruafhindeuten dass die 64Bit Compiler noch nicht so schnell sind..
Oder AMD will einfach nicht zu viel verraten
Marcel inner Uni
2002-10-17, 16:50:15
Originally posted by zeckensack
AFAIK soll auch die Branch Prediction wieder verbessert werden.
(die allerbeste hatte der K6 - kein Witz, aber für den war's einfach nur Overkill)
Was dann auch dazu geführt hat, dass die den in den Taktraten nicht hochbekamen. Bim K6 mussten pro Taktzyklus einfach zuviele Transistoren durchlaufen werden.
Gruß,
Marcel
BlackBirdSR
2002-10-17, 23:09:52
Originally posted by Marcel inner Uni
Was dann auch dazu geführt hat, dass die den in den Taktraten nicht hochbekamen. Bim K6 mussten pro Taktzyklus einfach zuviele Transistoren durchlaufen werden.
Gruß,
Marcel
was sicher nicht der einzige Grund war wenn überhaupt.
Die K6 kamen bis auf über 600MHZ.
Die Pipeline war einfach zu kurz und die Latenzen auf so gering getuned dass sie bei hohen Taktraten nicht zu halten waren.
Muh-sagt-die-Kuh
2002-10-17, 23:58:28
Originally posted by GloomY
Zum Thema:
Der Athlon hat seinen Flaschenhals ganz klar im Font-End. Das sieht man allein schon daran, daß die wenigen Veränderungen an den TBLs beim Wechsel vom Thunderbird zum XP dem XP schon 5 bis 10 % mehr Leistung bei gleichem Takt gebracht haben.
Ein nicht unwesentlicher Teil dieser 5-10 % dürfte auch der Hardware-Prefetch Unit zuzurechnen sein ;)
BlackBirdSR
2002-10-18, 00:10:56
ach was.. am meisten macht die 11 Stufige Pipeline aus, über die man lustigerweise im Internet so viel lesen kann.
Ich könnte schwören die war zu Beginn noch 10 Stufen "lang" :D
GloomY
2002-10-18, 00:54:09
Originally posted by Muh-sagt-die-Kuh
Ein nicht unwesentlicher Teil dieser 5-10 % dürfte auch der Hardware-Prefetch Unit zuzurechnen sein ;) Hmm, hab' ich da was übersehen? *amKopfkratz* :|
i_Land
2002-10-18, 00:57:18
http://www.hardtecs4u.com/?id=1034866703,77565,ht4u.php
Dies sieht für AMD nicht gut aus
http://www.hardtecs4u.com/?id=1034873287,98910,ht4u.php
Das für uns nicht
zeckensack
2002-10-18, 01:38:34
Ist bekannt. Auf'm CC hat der Scheffe gesagt, Sledge late Q1.
Dadurch gewinnt man erstmal Ansehen zurück, ohne die für den Massenmarkt nötigen hohen Stückzahlen liefern zu müssen. Der hohe Preis hält die Massen vom Kauf ab, trotzdem hat man wieder ein Prestigeobjekt.
Ist ein ähnliches Vorgehen wie bei ATI (zuerst Radeon9700Pro, die kleinen später), oder NV (Zuerst Ti4600/4400, Ti4200 später). Nur daß hier hinzu kommt, daß Produkte die 'für' Server gedacht sind Preis/Leistungsmäßig idR noch abgehobener sind, und der Markt das auch akzeptiert.
... bei 2,0GHz ist das Teil 10~20% schneller als ein P4 2,8 GHz. Wobei man bei der Spec noch einige Anomalien berücksichtigen muß. Ich glaube daß es unter 'normalen' Anwendungen noch günstiger für AMD aussieht. Siehe Spec-Werte AthlonXP vs P4 im Vergleich zur Wald-und-Wiesen-Performance.
IMO wird Intel mit dem Northwood keine Chance haben. Die müssen schon mindestens 3,5GHz liefern, und das wird erst der Prescott schaffen.
Originally posted by zeckensack
Die müssen schon mindestens 3,5GHz liefern, und das wird erst der Prescott schaffen. Falls der NW einen Shrink bekommen sollte, sehe ich eigentlich keine Probleme, die 4-GHz-Grenze zu knacken. Ansonsten müsste man mal sehen, wie hoch die pro MHz Leistung von AMDs neuem Stück in Wald-und-Wiesen-Anwendungen [TM] :) wirklich ist.
zeckensack
2002-10-18, 11:56:05
Originally posted by aths
Falls der NW einen Shrink bekommen sollte, sehe ich eigentlich keine Probleme, die 4-GHz-Grenze zu knacken. Ansonsten müsste man mal sehen, wie hoch die pro MHz Leistung von AMDs neuem Stück in Wald-und-Wiesen-Anwendungen [TM] :) wirklich ist. Ich gehe eigentlich davon aus, daß eben dieser Shrink (+Cache, +Bier, +Cola, +XXX) der Prescott sein wird.
Jedenfalls weiß ich nichts anderes ???
Unregistered
2002-10-18, 13:09:10
Naja, der Hauptpunkt ist ja das man angeblich den L1 Cache vergrößern will, einer der Hauptstärken und auch gleichzeitig größte Schwachstelle in der P4 Architektur.
Ach und SSE3 oder sowas soll eingeführt werden sich damit direkt auf eine Sinn Stufe mit DX9 stellen =)
BlackBirdSR
2002-10-18, 13:46:04
Originally posted by Unregistered
Naja, der Hauptpunkt ist ja das man angeblich den L1 Cache vergrößern will, einer der Hauptstärken und auch gleichzeitig größte Schwachstelle in der P4 Architektur.
Ach und SSE3 oder sowas soll eingeführt werden sich damit direkt auf eine Sinn Stufe mit DX9 stellen =)
der L1 Cache ist sicherlich nicht die größte Schwachstelle in der Architektur.
Und was hat SSE3 mit DX) zu tun?
zeckensack
2002-10-18, 13:49:23
Originally posted by BlackBirdSR
Und was hat SSE3 mit DX9 zu tun? Brachliegende Features, die sich aber umso besser verkaufen lassen? :D
BlackBirdSR
2002-10-18, 14:44:51
Originally posted by zeckensack
Brachliegende Features, die sich aber umso besser verkaufen lassen? :D
Punkt für dich :D
StefanV
2002-10-18, 14:57:04
Originally posted by BlackBirdSR
der L1 Cache ist sicherlich nicht die größte Schwachstelle in der Architektur.
Richtig, das ist zum einen der Bescheuerte Trace Cache und der noch blödere Decoder des P4...
3 Befehle/Takt zu liefern ist einfach nur lahm...
Originally posted by Stefan Payne
3 Befehle/Takt zu liefern ist einfach nur lahm...
Is aber auch der wichtigste grund warum sich der P4 so gut takten lässt.
BlackBirdSR
2002-10-18, 17:15:23
Originally posted by Stefan Payne
Richtig, das ist zum einen der Bescheuerte Trace Cache und der noch bl�dere Decoder des P4...
3 Befehle/Takt zu liefern ist einfach nur lahm...
stimmt auch nicht.
Der Decoder wird nur selten genutzt..
ansonsten bitte ich jeden der sich unbedingt mit dem Decoder rumscheissen will auch zu akzeptieren dass der P4 28 Pipeline Stufen hat.
Der TraceCache mag nur 3 Befehle pro Takt liefern, aber wie Burk23 schon sagte: das musst sein um den hohen Takt der CPU zu erreichen.
Viel wichtiger ist jedoch dass der P4 erstmal gar nicht alle Funktionseinheiten gleichzeitg nutzen kann, und selbst dann vielleicht nur knapp auf 3 oder 4 Befehle pro Takt kommt im günstigen Falle.
Und als wenn das schon nicht genug wäre.. die wenigsten Befehle dauern 1 Takt. Während jedoch ein Befehl mal eben 6 Takte verschlingt füllt der TraceCche ständig 3/Takt in die Scheduler nach die dann schön auf die Funktionseinheiten verteilen.
Integer Code mag manchmal zu kurz kommen in der Hinsicht, aber es besteht nicht alles aus ADD Befehlen, und dann ist auch da wieder genug zum verarbeiten da wenn mal ein IMUL oder was immer alles durch die Slow ALU muss.
Ich denke diese scheiss Trace Cache ist schlud geschichte kommt von deisem 3DCenter Artikel oder?
Der Trace Cache ist mit eine der wichtigsten Einheiten im P7 Core.
GloomY
2002-10-18, 17:32:41
Originally posted by Stefan Payne
Richtig, das ist zum einen der Bescheuerte Trace Cache und der noch blödere Decoder des P4...
3 Befehle/Takt zu liefern ist einfach nur lahm... Die Idee eines Trace Caches, also dekodierte µOps statt x86-Ops zu speichern, ist sicher nicht schlecht, da man so von der Anzahl der von den Dekodern pro Takt gelieferten µOps unabhängig wird. Das ist natürlich nur der Fall, wenn der Trace Cache nicht selbst - wie beim P4 - bei der Ausgabe auf drei µOps pro Takt limitiert ist. Imho hat hier Intel zu viel gespart.
Noch was zur Größe des L1 des P4s, auf der immer so gerne rumgehackt wird:
Die von Intel gewählte Lösung beim P4 ist gar nicht mal schlecht und imho eine (leicht) bessere Lösung als die von AMD.
Der L1 ist zwar relativ klein, aber dafür auch deutlich schneller als der des Athlons (zwei gegenüber drei Takten Latenz, +33%). Da auf den L1 häufiger als auf den L2 und noch viel häufiger als auf den Hauptspeicher zugegriffen wird, ist eine niedrige Latenz durchaus im Sinne einer guten Performance und daher wünschenswert.
Natürlich braucht man dann einen (breit angebundenen,) großen L2 Cache, der die schlechte Hit-Rate des L1 ausbügelt (hat der NW ja, also no problem).
Die Idee eines kleinen schnellen L1 wurde und wird auch bei anderen Architekturen angewedet (Rise mp6 und Itanium2 (McKinley), beide haben 1 Takt L1 Latenz).
Gerade diese Taktsache bringt dem McKinley deutlich mehr Speed gegenüber dem Vorgänger Merced (2 oder sogar drei Takte L1 Latenz, bin mir nicht mehr sicher). Denn der L2 (bzw. sogar L3) Cache ist groß genug, um die insgesamte Hitrate des gesamten Cachessystems nicht zu stark abfallen zu lassen.
(btw: Daran ist der mp6 gescheitert, da er nur langsamen off-Chip L2 besaß)
BlackBirdSR
2002-10-18, 17:39:17
ich kann nur nochmal betonen, dass der Trace Cache genug Befehle liefert.
Selbst wenn der Decoder intensiver genutzt werden muss (FPU Code), steht der P4 gerade bei Streaming anwendungen noch sehr gut da.
Die FPU und der Zugriff auf den L2 Cache verbrät einfach so viele Latenzen dass es gar nicht darauf ankommt pro Takt mehr als 3Ops verfügbar zu haben.
Und der L1D Cache ist vielleicht klein, aber weil eben McKinley und P4 sich die FPU Daten direkt aus dem L2 Cache holen gar nicht so klein wie man annehmen würde.
GloomY
2002-10-18, 17:43:09
Originally posted by BlackBirdSR
ich kann nur nochmal betonen, dass der Trace Cache genug Befehle liefert.Ok, beim P4 gebe ich dir Recht.
Aber an sich ist so ein Limitierung nicht im Sinne der Erfindung des Trace Caches.
BlackBirdSR
2002-10-18, 17:49:20
Originally posted by GloomY
Ok, beim P4 gebe ich dir Recht.
Aber an sich ist so ein Limitierung nicht im Sinne der Erfindung des Trace Caches.
nein, aber welche Erfindung zieht schon eine Limitierung in betracht? ;)
Das Konzept des Trace Caches ist eh schon einige Zeit alt (1994) und wurde nicht für den P4 entworfen.
Intel hat also Narrenfreiheit beim limitieren ;)
DATA_OK
2002-10-22, 22:04:24
Abend allerseits,
hab mir grad mal den Artikel auf THG zum Hammermainboard zu gemüte geführt. Und da viel mir doch gleich auf:
ein mit 1600 MHz getakteter Clawhammer soll als 3200+ ins rennen geschickt werden! Ist das denn realistisch? Oki hab mal gelesen das der 800 einen P4 1600 Platt macht, aber die neuen Proz (ab 3000 auch noch mal neuen Core, keine Ahnung wie dann das Ding wieder heißt) is ja nimmer so schlecht wie der "alte" P4 Core mit 1600.
Oder hat AMD noch mal mehr aus der CPU rausgeholt?
Irgend jemand (glaub weiter vorne in dem Thread) hat mal gemeint das der Hammer mit ansteigendem Takt besser performt, ist da was dran?
Was meint ihr zu der Aussage von THG mit dem DDR 400 Speicher?
THX DATA
zeckensack
2002-10-22, 22:11:16
1)Der Hammer soll besser mit dem Takt skalieren als jeder andere PC-Prozessor. Verwundert auch nicht, liegt am internen Mem-Interface.
2)Was am Prescott so toll sein soll, muß sich erst zeigen. Im Moment ist außer dem kleinerem Fertigungsprozeß nichts bekannt.
3)Den THG-Kommentar zu DDR400 kenne ich nicht. Was sagen die denn so?
BlackBirdSR
2002-10-22, 22:17:37
Ein Clawhammer wird mit höherem Takt sicherlich nicht 1.0 oder 1.x skalieren.
Allerdings dürfte er sehr gut skalieren eben weil nur noch die Latenzen/Bandbreite des Speichers die limitierende Faktoren sind.
Allerdings wird auch das bei zunehmendem Takt immer schlechter da die Speicherbandbreite nicht mehr zunimmt.
Bei den Opterons könnte das etwas anders aussehen.
Dort kann es z.B bei 4x Systemen zu dem paradoxen Fall kommen dass die CPUs besser als mit dem Faktor 1 skalieren bei mehr CPUs.
Was aber einfach daran liegt dass jede CPU den Speicher der anderen CPUs nutzen kann..
und es eben einige Anwendungen geben dürfte die darauf sehr positiv reagieren.
Aber das gilt nicht für Clawhammer deren IPC steigt nicht mit höherer Taktfrequenz.
Was DDR400 angeht so bezieht sich das wohl auf die möglichen 200MHZ Speichertakt bei den Hammer Boards..
abwarten was draus wird.. vielleicht kommen die Clawhammer mit DDR400 fähigen MTCs auf den Markt.
DATA_OK
2002-10-22, 22:37:50
@Zeckensack:
du meinst beim Prescott hat sich am Design ausser dem Fertigungsprozess nix geändert? Na dann dürfte da wohl wirklich nix grosses bei rauskommen *hehe*
BlackBird hat recht, hab bei THG gelesen das der Hammer auch mit DDR400 Speicher zurecht kommen soll. Würde dies noch mal extra Perfomance gegenüber DDR333 geben?
DATA
Originally posted by DATA_OK
Würde dies noch mal extra Perfomance gegenüber DDR333 geben?
Solangs keinen schnell genugen speicher d.h. CL2 in massen gibt, der auch absolut smooth läuft, bringt DDR400 nicht wirklich viel. Die sollten lieber an nem 128bit interface basteln, zumal der Clawhammer ja erst ende 2003 kommen soll und da brauchts bestimmt mehr als DDR333 um gut dazustehen.
BlackBirdSR
2002-10-22, 22:50:51
Was PC400 nun wirklich bringt kann man schlecht bewerten nachdem die meisten Chipsätze extra Latenzen einlegen um das überhaupt stabil zu betreiben.
Beim Clawhammer würde es aufjedenfall mehr bringen als bei allen anderen CPUs.
Was Prescott angeht so gibt es viele SPekulationen und wenig Fakten.
Man munkelt von 1MB L2 Cache, internen Verbesserungen und 4xThreading bei HT.
Aber letztenendes sieht es wohl so aus als ob Tejas nun die CPU mit den großen Änderungen ist, und nicht wie angenommen Prescott.
zeckensack
2002-10-23, 16:41:28
Originally posted by DATA_OK
@Zeckensack:
du meinst beim Prescott hat sich am Design ausser dem Fertigungsprozess nix geändert? Na dann dürfte da wohl wirklich nix grosses bei rauskommen *hehe*Ehrlich gesagt weiß ich es nicht. Man munkelt so einiges, aber im Gegensatz zum Hammer, wo die grundlegende Architektur längst von AMD veröffentlicht wurde, gibt es eben keine handfesten Informationen.
1MB L2 scheint mir noch am ehesten wahrscheinlich. Ansonsten kann man natürlich gerne spekulieren, ich persönlich erwarte aber nicht allzuviel vom Prescott, sonst hätte Intel IMHO schon ein paar Sachen an die große Glocke gehängt.
Lokadamus
2002-10-28, 14:47:50
mmm...
1MB L2-Cache ? höchsten beim Xeon oder gibt es neue, billige Verfahren, um 2. Levelcache zu basteln ??? Mainstream wird wohl mit 512 oder weniger auskommen dürfen (irgendwas muss doch auch als Celeron herhalten) ...
vBulletin®, Copyright ©2000-2024, Jelsoft Enterprises Ltd.