PDA

Archiv verlassen und diese Seite im Standarddesign anzeigen : Ursache für Wärmeproblem Prescott gefunden?


up¦²
2004-12-11, 02:03:51
Paul DeMone liefert eine Erklärung:


I finally got around to reading the ISSCC 2004 papers
on Prescott and surprisingly a lot of clues to obvious
questions about the device (clock scaling and power
consumption problems vs Northwood) have been out
in the public domain for about 10 months.
First of all, compared to Northwood, there are a heck
of a lot more transistors flapping around at FCLK, the
double frequency clock. The high speed integer core
includes the dcache, ALUs, AGUs, alignment MUX,
and register file. That totals 6.8m logic transistors. In
contrast the Willamette and Northwood only ran the
fast ALU cluster (2 fast ALUs, load AGU, and the multi-
stage bypass network) at FCLK, probably less than
1m transistors in total.

To implement the critical parts of Prescott's fast integer
core (alignment MUX, ALUs, AGUs, bypass) Intel used
a new type of logic - low voltage swing or LVS. This
allowed very complex individual "gates" to be constructed
(with 5000 transistors, equivalent to 7 levels of regular
logic) that used dual rail logic levels that swung only
10% of the supply voltage. That is probably why the fast
integer core didn't show up as warm let alone hot in the
Prescott's die thermal distribution graph (the hot spots
are FPU, BPU, parts of the instruction scheduler). The
integer core may not be hot but is very likely a limiting
factor for frequency scaling. Here's an approximate
shmoo for the integer core:

1.05 V 6.2 GHz
1.15 V 6.7 GHz
1.25 V 7.0 GHz
1.35 V 7.2 GHz

Keep in mind that 7.2 GHz corresponds to a 3.6 GHz P4E.

Ironically raising Vdd to make the LVS logic run faster
leaves it running cool at 7+ GHz but makes everything
else in Prescott run quadratically hotter.


Real World Technologies (http://www.realworldtech.com/forums/index.cfm?action=detail&PostNum=2933&Thread=1&entryID=42814&roomID=13)

BlackBirdSR
2004-12-11, 04:25:36
sehr interessant, beinhaltet aber keinerlei Erklärung, warum Prescott so eine hohe Verlustleistung hat ;)

Godmode
2004-12-11, 10:54:32
Ich frage mich jetzt warum sie diese Technologie nicht auch für andere Teile im Prescot hernehmen?

Mike
2004-12-11, 11:56:44
sehr interessant, beinhaltet aber keinerlei Erklärung, warum Prescott so eine hohe Verlustleistung hat ;)

Naja, so wie ich das als "Neuling" :) verstehe, muss die Spannung erhöht werden, damit der Integercore höhere Frequenzen mitmacht - für den Rest des Chips ist diese höhere Spannung allerdings "Gift", verursacht also viel Wärme/Verlustleistung.
Der Prescott hätte also sowas wie "DualVCore" gebraucht, das verschiedene Teile des Chips mit unterschiedlicher Spannung betrieben werden können...

Stone2001
2004-12-11, 14:25:07
sehr interessant, beinhaltet aber keinerlei Erklärung, warum Prescott so eine hohe Verlustleistung hat ;)
yup, leider!
Zwar wurde die Anzahl der mit doppeltem Takt getaktetem Transistoren von 1 Mio. auf 7 Mio. erhöht, aber die sind nicht schuld an der hohen Verlustleistung des Prescott. Das die FPU und BPU recht viel Wärme erzeugen, ist bekannt.

Viel interessanter finde ich in diesem Artikel diesen Abschnitt:
To implement the critical parts of Prescott's fast integer core (alignment MUX, ALUs, AGUs, bypass) Intel used a new type of logic - low voltage swing or LVS. This allowed very complex individual "gates" to be constructed (with 5000 transistors, equivalent to 7 levels of regular logic) that used dual rail logic levels that swung only 10% of the supply voltage.
Hat jemand schonmal was von LVS gehört? Hört sich ja mal intersant an!

GloomY
2004-12-20, 16:34:38
Viel interessanter finde ich in diesem Artikel diesen Abschnitt: [...]

Hat jemand schonmal was von LVS gehört?Ja, das benutzt die Alpha 21264 auch, um bei einigen Schaltkreisen Strom zu sparen. Das sind aber nur Teile, die für die Taktung nicht kritisch sind, da LVS aufgrund der geringeren Spannung langsamer schalten.
Hört sich ja mal intersant an!Ja, sicher. Ich frage mich nur, warum das bei den double-pumped ALUs eingesetzt wurde, die ja möglichst schnell schalten sollen. Da braucht man eher mehr Spannung als weniger...

Vielleicht liegt's aber auch an dem ominösen Wort "dual rail logic levels", welches ich nicht wirklich verstehe... :conf2:

BlackBirdSR
2004-12-20, 20:03:06
Vielleicht liegt's aber auch an dem ominösen Wort "dual rail logic levels", welches ich nicht wirklich verstehe... :conf2:

Prescott hat sowieso so viele Rätsel die ich noch nicht ganz verstehe.
So läuft ja jetzt sogar mehr als vorher bei doppeltem Takt, trotzdem zeigen Tests, dass die Latenz von ADD z.B wieder auf 1.0 gestiegen ist (vorher 0.5)

Wie und ob das mit den 2 ALU Blöcken und 64Bit zusammenhängt, ist auch nirgends ersichtlich.

Leonidas
2004-12-26, 21:04:01
Ich denke, die hauptsächliche Ursache für die stark gestiegene Verlustleistung des Prescott (insbesondere in Relation zur kleineren Fertigungtechnologie) liegt in der hohen Anzahl an zusätzlichen Logiktransistoren gegenüber dem Northwood.

Willamette: 42M inkl. 256k Cache
Northwood: 55M inkl. 512k Cache bei unverändertem Core
Prescott: 125M bei 1M Cache

Wenn ich den Cache als ca. 13M pro 256k annehme, dann hat der Prescott satte 73M Logiktransistoren, wo Willy + Northwood nur 29M Logiktransistoren haben. Dies ist nur eine grobe Rechnung, deren Fehler jedoch angesichts der Eindeutigkeit des Ergebnisses nicht besonders relevant sind. Ob es nun 60 oder 80M beim Prescott sind, spielt angesichts der offensichtlich nur 30M bei Willy/Northwood keine Rolle.

Nach dieser Rechnung scheint der A64 im übrigen ca. 31M Logiktransistoren zu haben. Mit 1 MB Cache bringt er zudem nur 106M Transistoren auf die Waage. Selbst nach dieser Rechnung hat der Prescott ca. 20M Logiktransistoren zu viel. Und Logiktransistoren bestimmen maßgeblich die Leistungsaufnahme, Cachetransistoren sind diesbezüglich recht genügsam.

Fakt ist also, daß Intel beim Prescott die Zahl der Logiktransistoren selbst nach der schlechest möglichen Rechnung um mindestens 50% gesteigert hat, nach realistischen Rechnungen sogar um runde 100%. Das der Prescott dann so viel Strom zieht, sollte kein Wunder sein.

Allerdings kann ich nicht erklären, wofür diese vielen zusätzlichen Logik-Prozessoren gut sind. Die technischen Erweiterungen des Prescott sind dafür sicherlich nicht bedeutend genug. Womöglich liegt der Grund in der verlängerten Pipeline von 31 Stufen, welche ja nur verlängert wurde, um die Rechneleistung und damit die Verlustleistung besser im Die zu verteilen. Womöglich mussten hier für dieselbe Funktionalität wie bei Willy/Northwood einfach zu viele Transistoren verwendet werden. Womöglich war es aber auch einfach sehr schwer, als dem bestehenden 20-Stufen-Design ein 31-Stufen-Design zu zimmern, mussten zu viele komplizierte und damit transistorenreíche Lösungen für hierbei auftretende Probleme gefunden werden. Normalerweise setzt man die Anzahl der Stufen nicht innerhalb derselben Prozessoren-Serie hoch, dies ist die Aufgabe eines echten Neu-Designs, was nur aller 5-7 Jahre vorkommt.

BlackBirdSR
2004-12-26, 21:59:03
I
Allerdings kann ich nicht erklären, wofür diese vielen zusätzlichen Logik-Prozessoren gut sind.

Wer kann das schon?
Ein großer Teil geht für die extra Pipelinestufen drauf, daneben gibt es noch einen 2. Alu Block und bei den Caches ist auch nicht Alles ganz klar.
Wer weiss was Intel da alles reingesteckt hat, was entweder nicht aktiviert oder nicht funktioniert :P


Die technischen Erweiterungen des Prescott sind dafür sicherlich nicht bedeutend genug. Womöglich liegt der Grund in der verlängerten Pipeline von 31 Stufen, welche ja nur verlängert wurde, um die Rechneleistung und damit die Verlustleistung besser im Die zu verteilen.

Das stimmt so aber nicht Leo.
Die Pipeline wurde verlängert um Taktraten bis 6GHZ+ zu ermöglichen.
Nur weil es mehrere Stufen gibt, verteilt sich die Wärme nicht.
Eine Pipeline ist ja keine Rohrleitung die sich durch die CPU zieht, und wenn man sie länger macht kann man die FUs weiter wegstellen oder so..
Durch die höhere Anzahl an Stufen verschlimmert sich das ganze Problem sogar noch, statt dass die Verlustleistung besser verteilt werden würde.
Besser im DIE wird hier nichts verteilt.
Die Leistungsaufnahme steigt leider stark mit der Anzahl an Pipelinestufen an.



Womöglich mussten hier für dieselbe Funktionalität wie bei Willy/Northwood einfach zu viele Transistoren verwendet werden. Womöglich war es aber auch einfach sehr schwer, als dem bestehenden 20-Stufen-Design ein 31-Stufen-Design zu zimmern, mussten zu viele komplizierte und damit transistorenreíche Lösungen für hierbei auftretende Probleme gefunden werden. Normalerweise setzt man die Anzahl der Stufen nicht innerhalb derselben Prozessoren-Serie hoch, dies ist die Aufgabe eines echten Neu-Designs, was nur aller 5-7 Jahre vorkommt.

Die Arbeitem am Prescott begannen mit der Fertigstellung der Arbeitem am Williamette.
Ist also quasi ein P4-2.
Allerdings mit erschreckend wenig (aktivierten/funktionieren/integrierten) Neuerungen.
Prescott ist so ziemlich ein Neudesign. Da wurde nicht mehr viel an Ort und Stelle gelassen. Fast Alles wurde umgebaut oder irgendwie verändert.
Scheint sowas wie P6-PM zu sein. Nur leider nicht mit dem Erfolg.
Was am Ende dabei rauskam, da kann man sich wie immer streiten.

Intel scheint einfach brutal und mit voller Wucht in eine Fertigungsmauer gerannt zu sein.
Es gibt zu viele Gerüchte über größere TraceCaches, integrierten IA64 Core (sind ja nur 22Mio Transistoren), rießige L3 Caches, Funktionseinheiten etc etc.
Man hatte bestimmt viel vor, nach dem Williamette Debakel. Prescott sieht schon fast aus, als hätte man notdürftig so viel wie möglich rausgeschmissen und deaktiviert um noch an die 100W zu kommen.

GloomY
2004-12-26, 22:54:09
Wer kann das schon?
Ein großer Teil geht für die extra Pipelinestufen drauf, daneben gibt es noch einen 2. Alu Block und [...]Die Integer und FP Multiplikation hat sich beim Williamette / Northwood noch eine gemeinsame Ausführungseinheit teilen müssen, während beim Prescott (endlich) die Integer ALU eine eigene Einheit dafür besitzt. Das hat noch einige Transistoren gekostet, was aber sicherlich nicht den gesamten Anstieg erklären kann.
Nur weil es mehrere Stufen gibt, verteilt sich die Wärme nicht.
Eine Pipeline ist ja keine Rohrleitung die sich durch die CPU zieht, und wenn man sie länger macht kann man die FUs weiter wegstellen oder so..
Durch die höhere Anzahl an Stufen verschlimmert sich das ganze Problem sogar noch, statt dass die Verlustleistung besser verteilt werden würde.
Besser im DIE wird hier nichts verteilt.
Die Leistungsaufnahme steigt leider stark mit der Anzahl an Pipelinestufen an.Ich will nicht behaupten, dass das falsch sei, aber erlaube bitte die Frage warum das so sein soll...?!
Man benötigt für mehr Pipelinestufen auch mehr Transistoren für die zwischen den Stufen liegenden Registern, aber sonst ändert sich ja kaum etwas für die Leistungsaufnahme, oder nicht?
Prescott ist so ziemlich ein Neudesign. Da wurde nicht mehr viel an Ort und Stelle gelassen. Fast Alles wurde umgebaut oder irgendwie verändert.Da wäre ich aber vorsichtig. Ein Neudesign stelle ich mir aber anders vor.
Die räumliche Anordnung hat sich geändert, das stimmt. Aber ob oder wie viel sich an der verbauten Logik neu ist, lässt sich durch eine andere räumliche Anordnung auf dem Die nicht ablesen.
Und prinzipiell hat sich doch imho funktional nicht so viel geändert als dass man von einem Neudesign sprechen kann...

BlackBirdSR
2004-12-26, 23:09:35
Ich will nicht behaupten, dass das falsch sei, aber erlaube bitte die Frage warum das so sein soll...?!
Man benötigt für mehr Pipelinestufen auch mehr Transistoren für die zwischen den Stufen liegenden Registern, aber sonst ändert sich ja kaum etwas für die Leistungsaufnahme, oder nicht?

Treiber, Taktsignale, Stromversorgung.. das reicht schon um die Leistungsaufnahme mit der Anzahl an Stufen hochschnellen zu lassen.
Wie das im Detail aussieht, durfte ich leider auch nicht sehen. Wird mir wohl auch "erspart" bleiben :(


Da wäre ich aber vorsichtig. Ein Neudesign stelle ich mir aber anders vor.
Die räumliche Anordnung hat sich geändert, das stimmt. Aber ob oder wie viel sich an der verbauten Logik neu ist, lässt sich durch eine andere räumliche Anordnung auf dem Die nicht ablesen.
Und prinzipiell hat sich doch imho funktional nicht so viel geändert als dass man von einem Neudesign sprechen kann...

Ich weiss schon was du meinst. Aber darauf will ich gar nicht hinaus.

Aber in dem Sinne ist der K8 auch kein Neudesign. Trotzdem hat AMD nach eigenen Aussagen kaum einen "Stein auf dem Anderen" gelassen. Auch wenn nach aussen hin noch Vieles aussieht, als hätte man es 1:1 übernommen.

Es ist vielleicht kein neu-Design im Sinne von P6-P7.
Aber man hat sich nunmal an die PCs gesetzt und den ganzen P4 neu aufgebaut -> neu designed.
Ist beim PM ja wohl auch ähnlich gelaufen.

Demirug
2004-12-26, 23:19:16
Treiber, Taktsignale, Stromversorgung.. das reicht schon um die Leistungsaufnahme mit der Anzahl an Stufen hochschnellen zu lassen.
Wie das im Detail aussieht, durfte ich leider auch nicht sehen. Wird mir wohl auch "erspart" bleiben :(

Wobei das aber stark davon abhängt wie breit die jeweilige Stufen-Schnittstelle im Vergleich zur Logik ist. Ich fürchte aber das Intel inzwischen auch an ungünstigen Stellen trennen musste und deswegen sehr breite Schnittstelle braucht.

Gabber[CH]
2004-12-28, 15:40:41
Die Ursache ist ja altbekannt:
Leckströme.

Die waren bisher noch nicht relevant, bei 90nm allerdings ab einer gewissen Spannung desaströs.
Höhere Spannung ist nötig, um die CPU höher zu Takten, das ist klar.
Genau darum gibt es ja keinen G5 mit 3 GHz (obwohl der versprochen war..)
Genau darum braucht der 2.5 GHz G5 Wasserkühlung.
Genau darum fertigt AMD ihren 2.6 GHz A64 noch in 130nm.

Deshalb hat der der Prescott auch den Übernamen Presshot.

Soll sich ja wieder bessern mit SS2, das Intel beim 65nm Prozess einführen will.

PS: Das ist übrigens auch ein Grund wieso alle so DualCore geil sind, denn 2 * 2.5 GHz dürften ziemlich viel weniger verbrauchen als 4.5-5.0 GHz.
Die Umschaltverluste sind gleich, allerdings dürften die Leckströme beim DualCore wieder vernachlässigbar sein.