Archiv verlassen und diese Seite im Standarddesign anzeigen : AMD/ATI - R900 - 28nm, DX11-nativ, 2010 - "Radeon 100" - Northern Islands
Ailuros
2010-03-22, 16:51:48
Welche Änderung meinst Du ?
Die auf GF als FAB, oder von 32 -> 28nm ?
Oder was anderes ?
Egal welche von den beiden duerfte mehr oder weniger zu aehnlicher Verspaetung fuehren.
Egal welche von den beiden duerfte mehr oder weniger zu aehnlicher Verspaetung fuehren.
*schulterzuck*
AMD hat doch gesagt, dass sie 2011 Grafikchips bei GF fertigen lassen werden, was soll das anderes sein als 28nm ? 40nm ?
Die 28nm Evaluation Kits wurden schon Dez. 2008 "ausgewählten" Partnern zur Verfügung gestellt.
http://techreport.com/discussions.x/16758
Gegenüber 32nm verschiebt es sich natürlich, aber mehr als 1-2 Quartale sicher nicht.
ciao
Alex
Hm?
http://www.semiaccurate.com/forums/showthread.php?t=1934
StefanV
2010-03-22, 20:06:21
Ja schon aber sie entwickelten auch in letzten Jahren ausschliesslich auf TSMC Prozessen. Bei einem Foundry-Wechsel spielt ein neuer Faktor mit und alles was ich hier sagen will ist dass AMD IMHO dafuer sorgen wird das kleinstmoegliche Risiko einzugehen hauptsaechlich um keine sehenswerten Verspaetungen zu erlauben und eben auch NVIDIA keinen Luftraum um einzuatmen zu lassen.
Und hier wärs doch gerade sinnvoll, für beides gleichzeitig zu entwickeln, wenn der eine mal voll abkackt, kann man drauf pfeifen und 'auf den anderen Weg' umschwenken.
Die Frage ist doch, ob sich AMD nen wesentlichen Vorteil gegenüber Nvidia bei nem Foundry wechsel verspricht, genug um das Risiko einzugehen?
Bei TMSC zu GF?!
Auf jeden Fall!
Ausserdem frage ich mich, ob nicht AMD schon bei der Übernähme daran Gedacht hat, die GPU's in der eigenen Foundry zu produzieren. Ev. haben die ja mit 28nm für ihre eigene Fab ursprünglich geplant.
Natürlich, aber so eine Foundry zu betreiben ist sack teuer - deswegen hat man sie auch abgestoßen, weil man nicht groß genug dafür ist.
mapel110
2010-03-22, 20:20:53
Bei TMSC zu GF?!
Auf jeden Fall!
Warum?
mapel110
2010-03-22, 20:24:07
Höhere ausbeute.
Quelle?
Ailuros
2010-03-23, 06:57:53
*schulterzuck*
AMD hat doch gesagt, dass sie 2011 Grafikchips bei GF fertigen lassen werden, was soll das anderes sein als 28nm ? 40nm ?
Die 28nm Evaluation Kits wurden schon Dez. 2008 "ausgewählten" Partnern zur Verfügung gestellt.
http://techreport.com/discussions.x/16758
Dass AMD auf 28nm bulk@GF setzt ist wohl sicher. Mit was weiss nur noch keiner.
Gegenüber 32nm verschiebt es sich natürlich, aber mehr als 1-2 Quartale sicher nicht.
ciao
Alex
Mehr oder weniger 6 Monate. Und dabei bleibt die Frage ob sich AMD eine jegliche solche Verspaetung leisten will.
Und hier wärs doch gerade sinnvoll, für beides gleichzeitig zu entwickeln, wenn der eine mal voll abkackt, kann man drauf pfeifen und 'auf den anderen Weg' umschwenken.
Weder AMD noch NVIDIA sind IHVs die wie Intel z.B. problemlos mit Resourcen nur so herumschmeissen koennen. Denk nach was an engineers, Zeit und Geld kosten koennte bei paralleler Entwicklung. Etliche Mio $ fuer jeden solchen Streich.
Wenn alles so leicht waere haette AMD Cypress/Juniper schon um ~2 Monate in 2009 in die Produktion geschickt und NVIDIA schon in Q3. Da aber dank beschissener 40G yields (und ja natuerlich ist es nicht direkt relevant zum obrigen) jeder die viel zu viel gekostet haette, mussten beide warten bis die yields fuer jeglichen chip auf X Herstellungskosten landet damit sie erstmal anfangen koennen.
Ich bin jetzt nicht mehr sicher aber einen einzigen komplizierten die zum finalen tape out zu bringen duerfte um die $ 5 Mio kosten. Moeglich ist theoretisch vieles nur muss Dir auch jemand jeglichen Resourcen-Aufwand dann auch genehmigen.
Mehr oder weniger 6 Monate. Und dabei bleibt die Frage ob sich AMD eine jegliche solche Verspaetung leisten will.
Das ist keine Frage des Wollens, eher des Müssens ...
Was sollen sie denn anderes machen ? Auf semiaccurat meint gerade einer, dass sie NI jetzt @40nm bringen wollen, das wäre die einzige Alternative. Der Chip wird dann sicher ein würdiger R600 Nachfolger / Fermi Konkurrent werden, aber ideal ist das sicher nicht.
ciao
Alex
Ailuros
2010-03-23, 09:38:12
Das ist keine Frage des Wollens, eher des Müssens ...
AMD muss eigentlich ihre FireGL Produkte und/oder ISVs/Entwickler besser unterstuetzen als bisher. Ist es wirklich der Wille der hier den Unterschied ausmacht oder die realen Moeglichkeiten unter maximalem budget X?
Es kommt alles auf Resourcen zurueck. Wenn AMD hier ein gesundes Prozentual an mehr Resourcen aufwenden kann dann schoen, aber ich wuerde zuerst an den obrigen Schmerzbereich denken als alles andere.
Was sollen sie denn anderes machen ? Auf semiaccurat meint gerade einer, dass sie NI jetzt @40nm bringen wollen, das wäre die einzige Alternative. Der Chip wird dann sicher ein würdiger R600 Nachfolger / Fermi Konkurrent werden, aber ideal ist das sicher nicht.
ciao
Alex
Eben "einer". Gib mir einen guten Grund warum ich ueberhaupt jemand in dem Forum ernst nehmen sollte.
StefanV
2010-03-23, 11:26:05
Weder AMD noch NVIDIA sind IHVs die wie Intel z.B. problemlos mit Resourcen nur so herumschmeissen koennen. Denk nach was an engineers, Zeit und Geld kosten koennte bei paralleler Entwicklung. Etliche Mio $ fuer jeden solchen Streich.
Wieso?
nVidia hats vor einiger Zeit doch mal gemacht, den nV41 für IBM (oder war der ev. gar für Dresden geplant?!)
Moeglich ist theoretisch vieles nur muss Dir auch jemand jeglichen Resourcen-Aufwand dann auch genehmigen.
nVidia ist momentan am Boden, AMD muss jetzt alles tun, um den Druck aufrecht zu erhalten oder sogar noch zu erhöhen!
Soo schlecht schauen die Finanzen auch nicht mehr aus, so dass das durchaus im Rahmen der Möglichkeiten wäre.
Ailuros
2010-03-23, 11:51:11
Wieso?
nVidia hats vor einiger Zeit doch mal gemacht, den nV41 für IBM (oder war der ev. gar für Dresden geplant?!)
NV40 130nm@IBM Q2 2004
NV45 130nm@IBM Q3 2004
NV43 110nm@TSMC Q3 2004
NV41 130nm@IBM Q1 2005
NV42 110nm@TSMC Q1 2005
NV44a 110nm@TSMC Q2 2005
Siehst Du irgend eine parallele Entwicklung in Q2 2004 vom selben chip? Lediglich NV41 und NV42 in Q1 2005 wurden parallel entwickelt und NV ging nur zu IBM um TSMC den Mittelfinger zu zeigen (wegen dem NV30 Fiasko was aber nicht unbedingt TSMC's Problem war). Nach dem NV43 stieg NV komplett wieder auf TSMC um.
Nur NV42/41 sind quasi "verwandt" und die 110nm Variante kam mit um einiges hoeheren Frequenzen fuer ganz andere Marktsparten an. Es sind aber keine high end chips.
nVidia ist momentan am Boden, AMD muss jetzt alles tun, um den Druck aufrecht zu erhalten oder sogar noch zu erhöhen!
Soo schlecht schauen die Finanzen auch nicht mehr aus, so dass das durchaus im Rahmen der Möglichkeiten wäre.
Ich rede die ganze Zeit von hypothetischer parallelen Entwicklung fuer 2 foundries fuer kompliziertere chips (deshalb auch meine Frage warum AMD die RV740 und nicht die RV790 ins 40G Testrennen schickte).
LadyWhirlwind
2010-03-25, 13:05:39
Das würde doch für GF sprechen, oder:
http://www.brightsideofnews.com/news/2010/3/17/globalfoundries-produces-zero-defect-wafers2c-10025-yield.aspx
Ailuros
2010-03-25, 21:10:41
Das würde doch für GF sprechen, oder:
http://www.brightsideofnews.com/news/2010/3/17/globalfoundries-produces-zero-defect-wafers2c-10025-yield.aspx
Zweifellos; und wenn bei wafers mit hochkomplizierten chips die yields extrem hoch sein sollten, dann wird sich wohl so mancher IHV bedenken muessen ob es wirklich wert ist so viele Volumen bei TSMC herzustellen. Ich moechte es aber erst nach einer grossen Volumen-Produktion bestaetigt sehen, denn GF ist momentan am Sammeln von Kunden.
Nakai
2010-03-26, 10:34:30
Zweifellos; und wenn bei wafers mit hochkomplizierten chips die yields extrem hoch sein sollten, dann wird sich wohl so mancher IHV bedenken muessen ob es wirklich wert ist so viele Volumen bei TSMC herzustellen. Ich moechte es aber erst nach einer grossen Volumen-Produktion bestaetigt sehen, denn GF ist momentan am Sammeln von Kunden.
Dass die Fertigung von Intel und AMD der von TSMC deutlich überlegen ist, sollte eigentlich keinem wundern. Aber dass man schon so weit in der Entwicklung ist, ist schon heftig.
ATI wird so schnell wie möglich auf GF wechseln, jedenfalls wäre das ratsam.
Könnte sein, dass wir noch 2010 einen RV8xx-Chip von GF in 28nm sehen, ähnlich wie RV740 damals.
mfg
aylano
2010-03-26, 11:45:15
Ich rede die ganze Zeit von hypothetischer parallelen Entwicklung fuer 2 foundries fuer kompliziertere chips (deshalb auch meine Frage warum AMD die RV740 und nicht die RV790 ins 40G Testrennen schickte).
Davor müssen wir doch wissen, wann der RV740 entwickelt wurde und eventuell warum er 640 Shader & Co bekam und genau irgendwo zwischen RV730 (Mainstream = Massen-CPU für Desktop & Notebook) und RV770 (=Performance-GPU) eingeordnet wurde.
RV790 wurde AFAIK im August 2008 begonnen.
AMD erfuhr AFAIK April 2008 über die 40nm-Probleme.
Erste RV740-Silizium-Stücke kamen AFAIK Dez 2008 zu AMD.
Tarkin
2010-03-28, 18:20:09
aus dem beyond3d Forum
http://translate.google.cn/translate?js=y&prev=_t&hl=zh-CN&ie=UTF-8&layout=1&eotf=1&u=http%3A%2F%2Fbbs.chiphell.com%2Fviewthread.php%3Ftid%3D78057%26page%3D5%26auth orid%3D2&sl=auto&tl=en (vorher falscher Link, danke Gast!)
nApoleon said R9xx chip should be the time to tape out at 40nm node,less stream processors than Cypress,performance target is 10%-20% higher than GTX480.There are some changes in architecture,but it's not a totally new architecture.
hä? Ich schätze mal er meint, dass R9xx dieser Tage in 40nm sein Tape out hat (oder verstehe ich das falsch?)... wie lange dauert es dann in der Regel wenn alles klappt? drei, vier Monate, oder?
Aber ergibt das irgend einen Sinn? Laut Angaben 10 - 20% über 480GTX... also irgendwas in der Gegend von 30% schneller als Cypress. Das wäre schon prima in 40nm!
Eigenartig... weniger Einheiten als Cypress und mit div. Änderungen dann trotzdem dieses enorme Leistung. Könnte das ev. ein halber NI sein (mangels 32nm Fertigung und potentieller Verschiebung bei 28nm). Sehen wir den echten RV970 dann in 12 Monaten?
http://translate.google.cn/translate?js=y&prev=_t&hl=zh-CN&ie=UTF-8&layout=1&eotf=1&u=http%3A%2F%2Fbbs.chiphell.com%2Fviewthread.php%3Ftid%3D78057%26page%3D5%26auth orid%3D2&sl=auto&tl=en
AnarchX
2010-03-28, 18:34:56
http://translate.google.cn/translate?js=y&prev=_t&hl=zh-CN&ie=UTF-8&layout=1&eotf=1&u=http%3A%2F%2Fbbs.chiphell.com%2Fviewthread.php%3Ftid%3D78057%26page%3D5%26auth orid%3D2&sl=auto&tl=en
Interessant, aber 10-20% sind da nicht ersichtlich, wenn auch Mindfury @ B3D wohl ein Chinese ist.
Das wäre natürlich eine fatale Situation für Nvidia, wenn AMD so schnell ein ein Fermi-ähnliches Frontend hinbekommen hat.
Vielleicht geht man es auch nicht so übertrieben an wie NV: 2 Rasterizer, 2 Tessellatoren und 2 Geo-Setups.
Zusammen mit 1440SPs und 256-Bit @ 0.33ns wäre diese Leistung sicherlich möglich mit ein paar anderen Optimierungen.
Aber vielleicht geht man auch den einfachen Weg und packt zwei 720SPs Juniper auf einem Die zur besseren Inter-GPU-Communication und lässt das ganze einfach mit optimiertem AFR laufen. Da wäre der Entwicklungsaufwand wohl deutlich geringer.
derguru
2010-03-28, 18:44:00
aus dem beyond3d Forum
http://translate.google.cn/translate?js=y&prev=_t&hl=zh-CN&ie=UTF-8&layout=1&eotf=1&u=http%3A%2F%2Fbbs.chiphell.com%2Fviewthread.php%3Ftid%3D78057%26page%3D5%26auth orid%3D2&sl=auto&tl=en (vorher falscher Link, danke Gast!)
nApoleon said R9xx chip should be the time to tape out at 40nm node,less stream processors than Cypress,performance target is 10%-20% higher than GTX480.There are some changes in architecture,but it's not a totally new architecture.
hä? Ich schätze mal er meint, dass R9xx dieser Tage in 40nm sein Tape out hat (oder verstehe ich das falsch?)... wie lange dauert es dann in der Regel wenn alles klappt? drei, vier Monate, oder?
Aber ergibt das irgend einen Sinn? Laut Angaben 10 - 20% über 480GTX... also irgendwas in der Gegend von 30% schneller als Cypress. Das wäre schon prima in 40nm!
Eigenartig... weniger Einheiten als Cypress und mit div. Änderungen dann trotzdem dieses enorme Leistung. Könnte das ev. ein halber NI sein (mangels 32nm Fertigung und potentieller Verschiebung bei 28nm). Sehen wir den echten RV970 dann in 12 Monaten?
tja jetzt müsste man die 10-20% deuten,in spielen oder auch in synthetischen tess benchmarks wie heaven.das erste sollte ohne probleme möglich sein.huddy hatte doch angeblich gesagt das im sommer refresh karten kommen,würde mit dem tapeout zeitlich hinhauen.
Nakai
2010-03-28, 18:54:12
Joa, entweder zwei Juniper-artige Blöcke oder mit deutlich erhöhten Takt.
Oder man nimmt nur 1280SPs und legt den Teig sehr breit aus. :freak:
Da bräuchte man aber mindestens 1200MHz Takt für den Chip. Natürlich taktet mit dem Takt auch der Tesselator und Rasterizer.
Und wenn man sieht wie schlecht Cypress mit den Taktraten skaliert, könnte man noch dort auch etwas optimieren.
Wenn man mal von 1250Mhz ausgeht, dann wäre man etwa 20% vor Cypress, was die Rohleistung angeht. Tesselations und Rasterleistung steigt aber, dank Takt, um die 50%.
mfg
mboeller
2010-03-28, 18:56:48
Von hier stammen wohl die +20% (Thread, Seite 1 3. Posting)
Q3 listing HD6750, 40nm process, the chip area of more than Cypress, less than 400 mm2, still 1600SP/256bit bit wide, divided into two 800SP modules, each of which has an enhanced off Tessellation Unit and a Rasterizer, two modules parallel-oriented graphics. Triangles rate doubled, Tessellation 3-4 times performance improvement. L2 Cache redesigned to significantly improve the performance of GPGPU. Core frequency of 900Mhz-1GHz, TDP of 225 watts or so. Target performance is 10% -20%, GTX480, expectations and GF100 B1 version of its flagship chip, the performance was flat. North Island family, the first product in the maturity process of verifying the new structure.
Q4-Q1 next year, listing HD6670/6650, single 800SP modules / 128bit bit width, Water 28nm process.
Q1-Q2 next year, listing HD6870, 28nm process, four 800SP module, 512bit-bit wide return to core area of 400-450 mm between the target performance of dual-core card Fermi suppression. In fact, R600 is the ultimate form
edit:
weiter hinten im Thread auf Seite 5 schreibt der gleiche (lixianglover):
Within 3 years from the R600 how no action over knife SP, except with DX11 and double precision.
This change definitely better than Rv670-Rv770-Rv870 this series of improvements to be big.
Eine 1 Ghz 5870 Karte mit hohen DDR5 Speicher ist schon 20% schneller als standard 5870.
hm ein rv870 Refresh in 40nm sollte schon mehr einheiten haben, ursprunglich sollte der RV870 die größe vom GT200 haben.
AnarchX
2010-03-28, 19:01:53
Von hier stammen wohl die +20% (Thread, Seite 1 3. Posting)
Das ist dann schon wieder eine sehr gewagte Spekulation, die nicht von Napoleon/Chiphell direkt kommt.
Mit einem verbesserten Frontend sollte auch weniger Rohleistung als bei Cypress reichen um Fermi in 3D-Anwendungen zu schlagen.
So interpretier ich das jetzt.
][immy
2010-03-28, 19:37:33
Mit einem verbesserten Frontend sollte auch weniger Rohleistung als bei Cypress reichen um Fermi in 3D-Anwendungen zu schlagen.
So interpretier ich das jetzt.
also mehr leistung bräuchte der cypress ja an sich nicht, die ist ja eigentlich zu genüge da (zumindest theoretisch), verpufft großteils halt nur. eine art von refresh wie damals vom R600 -> RV670 wäre vielleicht denkbar. einfach ein ding, was die theorie auch in die praxis umsetzt.
muss ja nicht immer eine 50% steigerung sein. bei refreshs geht es ja meist eh nur um kostenersparnis und vorbereitung auf den nächsten großen wurf (z.B. erfahrung mit der fertigung sammeln)
ati bastelt schließlich schon länger dran, die werden ja nicht däumchen gedreht haben und auf fermi warten. und normalerweise dauert es ja bis zu nem refresh chip 1/2 - 3/4 jahr.
Wehe denen, wenn das auch so ein Stromfresser wird. "225 Watt or so" klingt jedenfalls nicht viel versprechend.
AnarchX
2010-03-28, 20:25:37
>=GTX480-Leistung bei 225W TDP wäre für 40nm nicht so schlecht, insofern NV nicht mit der Bx-Revision eine Überraschung schafft.
Sicherlich gäbe es auch wieder eine Pro/50-Version mit besserer Pro-Watt-Leistung.
AMD hat jedenfalls nicht umsonst sehr selbstbewusst angekündigt das man die meiste Zeit in 2010 die Krone haben wird. Ich erwarte Northan Island spätestens Anfang Q3, und der wird auch mehr bringen als nur 10%.
Hectoncheires (man was fürn Name xD) ist doch für 2011 geplant, also zeitgleich mit der neuen Bulldozer-Architektur? Warscheinlich handelt es sich bei "Northern Island" nur um einen etwas größeren Refresh um die Leistungskrone wieder an sich zu reißen.
mfg
Die HD5000 Serie ist erfolgreich im Markt, warum sollte sich AMD vom R600 trennen, die nachfolgeserie kann nur besser werden, seitdem AMD ATI gekauft hat läuft alles 1A
deekey777
2010-03-28, 22:40:36
Da hat AMD wirklich was zu tun:
http://www.hardware.fr/articles/787-6/dossier-nvidia-geforce-gtx-480.html
Hectoncheires (man was fürn Name xD) ist doch für 2011 geplant, also zeitgleich mit der neuen Bulldozer-Architektur? Warscheinlich handelt es sich bei "Northern Island" nur um einen etwas größeren Refresh um die Leistungskrone wieder an sich zu reißen.
Das ist nicht nur wahrscheinlich, das sieht man dem Ding geradezu an.
(del)
2010-03-29, 00:27:27
Das ist nicht nur wahrscheinlich, das sieht man dem Ding geradezu an.Warum sollte man auch mehr machen als nötig? 2 Jahre sind eine Grakasession. Man wird nur dann mehr Pulver verschiessen, wenns anders nicht geht.
Warum sollte man auch mehr machen als nötig?
Hab ja gar nichts dagegen gesagt ;(
Bei RV870 hat AMD strategisch definitiv alles richtig gemacht.
Cpl. Dwayne Hicks
2010-03-29, 04:36:03
Ich will mal dass AMD von dieser VLIW Geschichte wegkommt, das ist doch kalter Kaffee.... tausende ALUs die die Hälfte der Zeit aber nur Däumchen drehen.... das kann doch so nicht weiter gehen. :biggrin:
Ich will mal dass AMD von dieser VLIW Geschichte wegkommt, das ist doch kalter Kaffee.... tausende ALUs die die Hälfte der Zeit aber nur Däumchen drehen.... das kann doch so nicht weiter gehen. :biggrin:
Welch Ironie das wohl genau diese VLIW-Architektur der Grund ist warum man derart effiziente Chips designen kann und der Stromverbrauch nicht durch die Decke geht. AMD wird mit Sicherheit davon nicht abkehren, es spricht ja auch nichts dagegen. Ganz im Gegenteil wäre wohl Nvdia sehr gut beraten etwas ähnliches zu adaptieren.
w0mbat
2010-03-29, 08:29:00
Hectoncheires (man was fürn Name xD) ist doch für 2011 geplant, also zeitgleich mit der neuen Bulldozer-Architektur? Warscheinlich handelt es sich bei "Northern Island" nur um einen etwas größeren Refresh um die Leistungskrone wieder an sich zu reißen.
mfg
nochmal: es gibt nichts dass den namen "Hectoncheires" traegt. Ich kann es langsam echt nicht mehr hoeren!
und zu den "neuen" infos: genau das gleiche habe ich auch gehoert (http://www.forum-3dcenter.org/vbulletin/showpost.php?p=7919903&postcount=237). es gibt eine map mit 40nm produkten und eine mit 28nm, obwohl die roadmap davor von 32nm gesprochen hat.
Aquaschaf
2010-03-29, 08:38:23
Ich will mal dass AMD von dieser VLIW Geschichte wegkommt, das ist doch kalter Kaffee.... tausende ALUs die die Hälfte der Zeit aber nur Däumchen drehen.... das kann doch so nicht weiter gehen. :biggrin:
Das ist alles andere als kalter Kaffee..
mboeller
2010-03-29, 08:45:14
Da hat AMD wirklich was zu tun:
http://www.hardware.fr/articles/787-6/dossier-nvidia-geforce-gtx-480.html
Ja, sehe ich auch so. die ROP's und die Tesselations-Leistung der GTX480 sind schon wesentlich besser als bei der HD5870. Da muss AMD was machen.
Außerdem brauchen sie wirklich noch einen L2-Cache für GPGPU, da man ansonsten für jede Architektur (HDxxxx und GTXxxx) alle OpenCL Anwendungen neu schreiben muss (Diskussion auf Beyond3D).
Die Postings von lixianglover auf bbs.chiphell sind übrigens nur seine eigenen Ideen "That's my pure guess" (siehe Beyond3D).....Schade!
Aquaschaf
2010-03-29, 08:47:06
Außerdem brauchen sie wirklich noch einen L2-Cache für GPGPU, da man ansonsten für jede Architektur (HDxxxx und GTXxxx) alle OpenCL Anwendungen neu schreiben muss (Diskussion auf Beyond3D).
RV870 hat einen L2-Cache.
mboeller
2010-03-29, 08:47:35
Ich will mal dass AMD von dieser VLIW Geschichte wegkommt, das ist doch kalter Kaffee.... tausende ALUs die die Hälfte der Zeit aber nur Däumchen drehen.... das kann doch so nicht weiter gehen. :biggrin:
Was hast du dagegen? Viele ALUs, aber jede ALU winzig klein und für sich sehr effizient (Größe, Verbrauch, Durchsatz, Taktbarkeit). Da spielt es doch keine Rolle wenn die ein wenig Däumchen drehen.
mboeller
2010-03-29, 09:18:31
RV870 hat einen L2-Cache.
stimmt. Ich habe nochmal nachgeschaut. Es geht um den L1-Cache für die GPGPU-Anwendungen. Vor allem Andrew Lauritzen (der sich IMHO schon ganz gut auskennt) hat im Thread "NVIDIA Fermi: Architecture discussion" auf den Seiten 198-202 einige Kommentare dazu gemacht, das man bei entsprechender Programmierung die ATi sehr stark ausbremsen könnte.
Yes definitely and that's the point. I could write an app that doesn't use LDS at all but consistently reads randomly from global memory. This would probably run decently on Fermi but not so well on ATI (no L1$, only LDS).
Sowas könnte aus meiner Sicht auch der Tod von OpenCL sein (meine Layman Perspektive) da man alle Apps wieder speziell für die einzelnen GPUs schreiben muss. Und Nvidia ist so dumm um diesen Knopf zu drücken....seufz...
Aquaschaf
2010-03-29, 09:45:41
stimmt. Ich habe nochmal nachgeschaut. Es geht um den L1-Cache für die GPGPU-Anwendungen.
Auch L1-Cache hat RV870, in der Hinsicht unterscheiden sich bis auf die Größe der Caches die Architekturen nicht. Was man für OpenCL vergessen kann ist RV770, dem fehlen nämlich die Caches und der LDS kann nicht einmal verwendet werden.
deekey777
2010-03-29, 10:04:37
Der RV870 hat nicht so einen L2-Cache wie Fermi, auch sind es vier 128 KB große Caches.
So eine fette Crossbar zwischen Shader-Engine und den (ja, Plural) L2 Caches mit R/W dürfte ziemlich viel Die-Size verschlingen, fürchte ich. Ob wir das in dieser Generation noch bei AMD sehen? Ich glaube eher, dass es erst in 28nm kommt.
-Carsten
Aquaschaf
2010-03-29, 10:16:20
Der RV870 hat nicht so einen L2-Cache wie Fermi, auch sind es vier 128 KB große Caches.
Stimmt, ich vergaß dass das bei RV870 kein globaler Cache ist..
Aber auch wenn sich das unterscheidet heißt es nicht dass man deswegen für RV870/GF100 verschiedenen Code bräuchte. In den meisten Fällen macht es denke ich kaum einen Unterschied ob der Cache unterteilt oder einheitlich ist. Man schafft sich parallele Arbeit meistens indem man die zu verarbeitenden Daten unter den Prozessoren möglichst disjunkt aufteilt. Ich sehe den wichtigsten Effekt der Caches darin dass sie die Kosten für nicht ganz regelmäßige Speicherzugriffsmuster verringern.
Nur das Nvidias OpenCL-Implementierung minimal ausgefallen ist, im Gegensatz zu AMDs. Nichtmal für implizite Conversions hats gereicht... und die Performance... Gut das ich heute davon verschont bleib :D
Was meinst du damit? Bist du sicher, dass das nicht eigentlich Spec-Konform ist?
Auch in GLSL geht das nämlich eigentlich nicht, da ist es aber genau andersrum (AMD macht's nicht und NVIDIA schon).
Was meinst du damit? Bist du sicher, dass das nicht eigentlich Spec-Konform ist?
Auch in GLSL geht das nämlich eigentlich nicht, da ist es aber genau andersrum (AMD macht's nicht und NVIDIA schon).
NV scheint mit OpenCL auf jeden Fall deutlich hinterher zu hinken. Aus dem FAQ:
The NVIDIA 195.62 driver appears to be shipping with an out-of-date version of the ICD. As a result, the up-to-date ICD that ships with the ATI Stream SDK v2.0 may not recognize NVIDIA OpenCL DLLs. Until NVIDIA updates their drivers to correct this problem, you may encounter issues on systems with both AMD and NVIDIA OpenCL libraries installed. The
recommended work-around is to remove the NVIDIA driver until NVIDIA updates their drivers to correct this problem
Solche Meldungen und Stabilitätsprobleme bei NV hört man dauernd, viele Features wurden auch nur unzureichend implementiert.
Was meinst du damit? Bist du sicher, dass das nicht eigentlich Spec-Konform ist?
Leider beides spezifikationsgerecht, OpenCL lässt, zumindest für meinen Geschmack, zu viel Spielraum. Spaß macht OpenCL derzeit nur auf Cypress :freak:
Ja, sehe ich auch so. die ROP's und die Tesselations-Leistung der GTX480 sind schon wesentlich besser als bei der HD5870. Da muss AMD was machen.
Außerdem brauchen sie wirklich noch einen L2-Cache für GPGPU, da man ansonsten für jede Architektur (HDxxxx und GTXxxx) alle OpenCL Anwendungen neu schreiben muss...
Jupp! So sieht es tatsächlich aus. Und wer glaubt, dass ATI auch nur annährend an die ROP- und insbesondere Tesselationsleistung mit einem bloßen Refresh auch nur ansatzweise herankommt, der irrt sicherlich gewaltig...
NV weiß (schon seit längerem) ganz genau wo die Probleme beim eigenen Chip liegen, doch der Launch der neuen Karten musste nach der ganzen Verschieberei nun einfach erfolgen. Ich wette, dass wir auch bei Nvidia innerhalb der nächsten 12 Monate einen Refresh erleben werden. Der "G92" des G200 sozusagen.
Damit würde man ATI maximal noch ein Vierteljahr für die Rückeroberung der Performancekrone mit dem Refresh lassen.
Bis dahin wird vermutlich auch das NV-Steckenpferd Tesselation an Relevanz gewinnen.
Nur damit mich keinen Falsch versteht - Cypress ist zur Zeit für mich ganz klar die bessere GPU. Nur darf man sich vom Refresh nicht all zu viel erwarten. Ich bin mir sicher, dass das Pendel schon sehr bald wieder Richtung NV ausschlagen wird.
Schlammsau
2010-03-29, 17:43:27
Jupp! So sieht es tatsächlich aus. Und wer glaubt, dass ATI auch nur annährend an die ROP- und insbesondere Tesselationsleistung mit einem bloßen Refresh auch nur ansatzweise herankommt, der irrt sicherlich gewaltig...
NV weiß (schon seit längerem) ganz genau wo die Probleme beim eigenen Chip liegen, doch der Launch der neuen Karten musste nach der ganzen Verschieberei nun einfach erfolgen. Ich wette, dass wir auch bei Nvidia innerhalb der nächsten 12 Monate einen Refresh erleben werden. Der "G92" des G200 sozusagen.
Damit würde man ATI maximal noch ein Vierteljahr für die Rückeroberung der Performancekrone mit dem Refresh lassen.
Bis dahin wird vermutlich auch das NV-Steckenpferd Tesselation an Relevanz gewinnen.
Nur damit mich keinen Falsch versteht - Cypress ist zur Zeit für mich ganz klar die bessere GPU. Nur darf man sich vom Refresh nicht all zu viel erwarten. Ich bin mir sicher, dass das Pendel schon sehr bald wieder Richtung NV ausschlagen wird.
So wie es aussieht wird es gar keinen Refresh geben und ATi wird im 4Q 2010 den R9xx mit einer komplett neuen Architektur releasen.
So wie man aber die Gerüchte ließt, ist R900 aber doch nur ein weiterer Schritt, kein Sprung. Ein Sprung war z.b. G80. Und R900 in 28nm kann man sich nicht wirklich vorstellen vor Q3/2011.
So wie man aber die Gerüchte ließt, ist R900 aber doch nur ein weiterer Schritt, kein Sprung. Ein Sprung war z.b. G80. Und R900 in 28nm kann man sich nicht wirklich vorstellen vor Q3/2011.
Wozu auch ein Sprung?
Warum soll man immer alles über den Haufen werfen?
So wie es aussieht wird es gar keinen Refresh geben und ATi wird im 4Q 2010 den R9xx mit einer komplett neuen Architektur releasen.Eine komplett neue Architektur in 40nm bei 300-400 qmm. Das ist eher unwahrscheinlich und auch gegenwärtig nicht nötig. Ein "gewöhnlicher" Refresh ist aber ebenso unwahrscheinlich, denn NV macht's vor, eine 20% schneller GPU reicht aus, um als Performance-Champ gefeiert zu werden. Ati wird wahrscheinlich vielmehr den R870 ordentlich tunen. Dieses moderate Redesign der GPU wird wohl, bei leicht höherer TDP/Fläche, zu den 10-20% mehr als GTX480 führen, was wieder zum King-of-the-Hill ausreichen sollte. Strategisch wäre das die richtige Entscheidung und namentlich wäre damit auch ein R9xx Serie gerechtfertigt. In 28nm sollte dann aber die neue Architektur kommen.
][immy
2010-03-29, 19:26:34
So wie es aussieht wird es gar keinen Refresh geben und ATi wird im 4Q 2010 den R9xx mit einer komplett neuen Architektur releasen.
also eine neue architektur auf 40nm wird es wohl nicht geben
eine neue architektur auf 28nm wobei vorher noch nichts mit 28nm gefertigt wurde wird es wohl auch nicht geben.
ergo, wird es wohl einen refresh chip dazwischen geben.
denn ati hat selbst mal gesagt (beim R600 desaster) neue architektur + neue fertigungsgröße darf nicht mehr passieren. dabei geht zu viel schief.
allerdings wären 28nm für den refresh auch schon wieder fast unmöglich. die 28nm fertigung ist ja noch nicht so weit und ati wird garantiert nicht bis zum q4 2010 warten bis es einen refresh gibt.
was ist mit dem zwischenschritt 32nm? ist der schon irgendwie für komplexere chips möglich?
Nakai
2010-03-29, 19:32:28
RV840-artige Blöcke mit verbessertem Tesselator und Rasterizer, überarbeitetes Cachesystem, verbesserte Auslastung der ALUs(ALU-Reorder?!) und noch ein paar Sachen.
Wenn man eine HD5770 mit einer HD5870 in Unigine(Heaven 2.0) vergleicht, dann merkt man schon, dass die HD5770 viel mehr Tesselationsleistung als die HD5870 hat. Im Schnitt ist die HD5870 in Extreme nur 40% schneller als eine HD5770.
Also mit höherem Takt sollte schon 50% Mehrleistung in DX11 zu bekommen zu sein.
mfg
Tarkin
2010-03-29, 20:56:37
was neues aus dem Beyond3d Thread:
From cfcnc@Chiphell,Rv9xx series was taped out at TSMC 40nm node recently.Tessellation is enhanced,3D blueray hardware-decode is added.No big improvement in 3DMark Vantage
was neues aus dem Beyond3d Thread:
From cfcnc@Chiphell,Rv9xx series was taped out at TSMC 40nm node recently.Tessellation is enhanced,3D blueray hardware-decode is added.No big improvement in 3DMark Vantage
Hmm ok, das kommt dann frühestens im Herbst, eventuell rechtzeitig zum Fermi B1 ...
Mal schauen was noch verändert wurde.
Selbst wenn der 3DMark gleich ist, kann ja unter der Haube ne Menge für GPGPU geändert worden sein.
svenw
2010-03-29, 21:47:42
Tesselation wird wichtig, wenn DirectX 9/10er Karten an Bedeutung verlieren. Wenn jede Karte Tess kann, dann kann man mit wesentlich einfacheren modellen arbeiten die man gegebenenfalls mit Tess "pimpt". Solange man aber immer noch auf DirectX 9/10 Rücksicht nehmen muß sind die Modelle wesentlich detalierter als sie es mit Tess sein müßten, ergo: man sieht nicht so viel und da DirectX11 noch nciht so verbreitet ist steckt man nicht die Mühe darein die Objekte entsprechend zu vereinfachen umd Tess sinnvoll anzuwenden. Das aktuelle Ergebnis ist dann solcher Mist wie in Metro.
Tapeout R900 würde die neue Generation im Herbst bedeuten.
boxleitnerb
2010-03-29, 21:53:41
Ob da in Spielen dann auch eine einigermaßen gesunde Leistungssteigerung drin ist? Ist kein klassischer Refresh geplant?
derguru
2010-03-29, 21:58:58
Ob da in Spielen dann auch eine einigermaßen gesunde Leistungssteigerung drin ist? Ist kein klassischer Refresh geplant?
gesunde leistungssteigerung nehme an ist hauptsächlich bei dx11 titeln angesagt,das sagt eigentlich schon die vantage aussage aus.finde ich ehrlich gesagt besser als ein klassischen refresh,man versucht die schwächen auszumerzen und das war nicht 3d mark vantage.
derguru
2010-03-29, 22:01:52
in denen wovon du seit wochen labern tust,
METRO 2033,METRO 2033,METRO 2033,METRO 2033,METRO 2033,METRO 2033,METRO 2033,
boxleitnerb
2010-03-29, 22:04:35
Bitte LZ, es muss nicht noch aus diesem Thread ein Flamewar werden.
Vielleicht wirds sowas wie 9800Pro und 9700Pro. Kleinere Detailverbesserungen, vielleicht einen Tacken mehr Takt. Und später in 32 oder 28nm dann auch mehr Einheiten. Mehr ist aus AMDs Sicht dieses Jahr leider auch nicht nötig.
Tarkin
2010-03-29, 22:09:01
Naja, bis 28nm bei TSMC verfügbar ist, braucht man nicht wirklich was schnelleres als sagen wir mal 20 bis 30% über Cypress... das macht man halt jetzt eben mit einem rv970 in 40nm (in vermutlich etwas abgespeckter Form als ursprpünglich in 32nm geplant)
Ein B1 Stepping von Fermi soll es ja laut Hardocp nicht geben.
Ergo wars das dann mit neuen High End Chips bis auf den RV970 im September oder so.
Aber man bräuchte in Wirklichkleit nicht mal den rv970 im Sept... ist wohl mehr eine Art Testballon.
Oder vielleicht ist es ein in 32nm geplanter rv940 den man nun umfunktioniert, in 40nm bring und ein 256bit Interface verpasst??? Vielleicht fährt man hier zwei Schienen - den rv940 in 40nm bei TSMC als Refresh zum rv870 und gleichzeitig auch bei GloFo in 28nm.... also Performance Chip zum echten rv970 - dann wieder mit nur 128bit
hach ;D
Schlammsau
2010-03-29, 22:11:56
Also wenn im Herbst die neue Generation auf den Markt kommt, gibts evtl auch mehr DX11 Games, die Tesselation auch wirklich als BQ-Bereicherung einsetzen.
Momentan und auch im nächsten halben Jahr werden wir keinen exzessiven Tesselationeinsatz sehen.
Die einzige Möglichkeit frühzeitig, also Anfang 2011, an 28nm ranzukommen wäre ein kompletter move nach GF. Das wird denke ich aber erst später passieren, also bleibt nur 40nm. Bis TSMC 28nm soweit hat, vergeht noch bis frühestens Herbst 2011.
Zudem wäre AMD bescheuert nicht bei den Vec5-Units zu bleiben. Das ist zwar im Grunde brute-Force, aber jetzt offensichtlich genau das, was auch effektiv ist. NVs Skalarfukelei taugt nicht wirklich, das sieht man an Fermi mehr denn je. Bei wenigen Einheiten wie beim G80 ist das super, es gibt kaum einen effektiveren Chip, aber irgendwann wird einfach der Organisationsaufwand zu gross, es braucht zuviel Platz (=Fläche) und zuviele im Grunde unproduktive aber dennoch ausgelastete Transistoren. Je grösser der Chip, desto besser sind die Vec5-Einheiten. NV braucht mMn nach Fermi dringend eine wirklich neue Archtektur, die nicht mehr oder nurnoch zum Teil MIMD ist, um mittelfristig konkurrenzfähig zu bleiben.
davidzo
2010-03-29, 22:56:59
Northern Islands wird ja erst im nächsten jahr in 28nm bei GF kommen. Da man schon den Prozess und Auftragsfertiger wechselt sollte man nocht zuviele Architekturänderungen erwarten - das featureset wird aufgefrischt, ansonsten bleibt man beim VLIW Prinzip.
Wieso sollte es ein Problem sein den Tesselator des rv870 zu überarbeiten?
Man wird doch in erster Linie das verbessern was dem rv870 jetzt noch fehlt:
- Tesselationsleistung
- Yields (langsam kennt man den 40nm Prozess in und auswendig, die neue Karte wird hoch rentabel für AMD)
- Takt/TDP (Dualkarte mit Volltakt?)
- Bandbreite + Takt
Den Chip dabei gewaltig zu vergrößern wäre überhaupt nicht sinnvoll. Das hat man ja bei nvidia gesehen wieviel probleme das schaffen kann. Taktsteigerungen in Chip und Speicher sind wenigstens handfest, dagegen weiß man nicht ob ein noch breiterer Chip überhaupt bedeutend mehr leistet, da er vermutlich nicht die Taktraten des kleineren Chips bei 40nm erreicht.
Der_Korken
2010-03-29, 23:22:08
Interessant wäre es mal zu wissen, ob AMD im Highend-Bereich auf ein 384bit-SI setzt, um sich vom RV870 abzusetzen. Da der neue Chip eher größer als kleiner wird, dürfte das kein Problem darstellen. Beim Speichertakt gibt es ja nicht mehr viel Luft nach oben. Und man könnte Karten mit 1,5GB VRAM anbieten - 1GB sind für einen RV870-Nachfolger etwas wenig, 2GB aber auch wieder etwas viel.
Hmm ok, das kommt dann frühestens im Herbst, eventuell rechtzeitig zum Fermi B1 ...
Bei einem optimierenden Redesign mit schwerpunktmäßigen Verbesserungen im bekannt und verstandenen 40nm Prozess kann man durchaus das Q3 als Releasedatum realistisch ansetzen. Sollte AMD nicht einen grundsätzlichen Fehler eingearbeitet haben, dann braucht es bestimmt nicht viele Iterationen zum fertigen Produkt.
LadyWhirlwind
2010-03-30, 02:27:26
Und zum Fermi gibts ja auch nciht allzuviel abstand, da könnte man glatt gleich ziehen.
@gf interessant wird das spiel erst, wenn zwei foundrys mit unterschiedlichem Prozess beteiligt sind. Ich könnte mir denken das AMD GF als vorteilhaftere Fertigeransieht.
aylano
2010-03-30, 11:12:20
Ein RV970-40nm (2x800er-Block) im 3Q2010 könnte Möglich sein.
Um eben Erfahrungen mit der neuen Architektur und im 800er-Block machen, die man dann in 28nm & schwester-GPUs übertragen kann.
RV970-40nm (2x800er-Block) ... 3Q 2010 ... "Probe-Architektur-GPU"???
Fusion-Dual-240SP ... onbaord-Klasse (1Q 2011)
Fusion-Quad-480SP ... Low-End-Klasse (Jän 2011)
HD6670 ... (1x800) ... Mainstream (4Q-1Q) ... Probe-28nm-GPU, das 1 Quartal voraus ist??
HD6770 ... (2x800) ... (1Q-Q2)
HD6870 ... (4x800) ... Performace (Q1-Q2)
HD6970 ....(2x4x800) ... High-End (Q1-Q2)
Pro
- Diese Variante würde zum Konzept "die Architektur & Fertigung so früh wie möglich einzuführen" passen bzw. damit würden sie es noch schneller & sicher? schaffen.
- Damit wäre der 900er-GPU wegen den selben 1600er-SP bei Vantage kaum/nicht schneller, aber wegen der neuen Architektur sollte es in den Spielen & Co deutliche Performance-steigerungen, wo genau auch immer, geben.
Kontra
- Aber die Shader-Anzahl der Fusion passt irgendwie nicht zu den 800er-Blocken.
- Dagegen spricht auch, dass es heißt, der RV870 wurde wegen 40nm-Problemen verkleinert.
- Die 9x0er Architektur wäre mir mit 3Q etwas sehr nah an der 800er-Architektur
- Und diese Varante passt auch nicht zur AMD-Aussage des unüblichen Refreshes
Zu den Fertigungen
RV970 in 40nm-TSMC
28nm-GF
Der Grund
Wenn die 32nm-Fertigung tatsächlich gestrichen werden musste, was schon bei einem Marktführer sehr unüblich scheint, dann müsste es am ehesten starke Probleme wie 40nm geben.
Damit AMD den RV970 früh genug auf 40nm wechseln kann, müssten die 32(/28)nm-Probleme schon seit vielen Monaten bekannt sein.
Und man hört Gerüchteweise schon seit Monaten, dass TSMC-28nm nicht so rund laufen sollte und schon Verschiebungen hatte.
hm, was wenn man garnicht in 40 oder 28nm fertigen will, sondern in 32nm SOI. Das würde eine neue Architektur bedingen und den Grafikchip auf Fusion-Technik aufbauen. Warum sollte man hier 2 unterschiedliche Linien im Grafikbereich verfolgen? Es war ja schon öfter die Rede davon, dass sich SOI im Grafikbereich evtl. ebenfalls lohnt und nicht nur bei ATI. Das würde auch zu dem dieses-Jahr-noch-Gerücht passen, denn wenn GF im August/September damit in Massenproduktion geht, könnte man Weihnachten die ersten RV970-Karten im Handel haben.
I.Ü. könnte AMD 32nm SOI bei GF in Dresden, bei GF in Singapur (ehemals Chatred) und bei TSMC fertigen lassen, der 32nm-SOI-Prozess ist überall dort vorhanden. GF Singapur und TSMC müssten den nächstes Jahr soweit haben.
svenw
2010-03-30, 13:49:48
IMHO ist zumidestens High-End in 28nm nicht so schnell zu erwarten. Zuerst wird man kleine Chips auf den Prozeß umstellen, schauen was läuft/nicht läuft und dann umstellen. Wenn man mal optimistisch davon ausgeht das GF 28nm bis Herbst soweit hat, das man damit anfangen kann kleine Grafik-Chips zu produzieren werden wir neue High-End Chips nicht vor 2Q/2011 sehen. ATI wird da kaum ein Risiko eingehen, denn schon der Cypress wäre beinahe in die Hose gegangen und dem NV Fermi Debakel (egal was man von dem Chip hält aber fertigungstechnisch war er ein Fail) werden es beide Hersteller etwas ruhiger angehen lassen. Und da G4 Konsolen auch noch nicht auf dem Radar sind, gibt es keinen wirklichen Grund zur Eile.
Somit dürfte ATI ihre neue Architektur noch in 40nm testen und dann in der ersten Jahreshälfte 2011 auf 32nm schrumpfen. Ansonsten könnte ATI den schönen Vorsprung den sie vor NV haben wieder ganz schnell verspielen.
aylano
2010-03-30, 14:17:02
hm, was wenn man garnicht in 40 oder 28nm fertigen will, sondern in 32nm SOI. Das würde eine neue Architektur bedingen und den Grafikchip auf Fusion-Technik aufbauen. Warum sollte man hier 2 unterschiedliche Linien im Grafikbereich verfolgen?
Wegen Fusion muss bald eh SOI-iGPU produziert werden.
Ich finde, wenn sie jetzt noch eine GPU in 32nm-SOI produzieren würden, dann wären das 2 unterschiedlichen Linien, da IMO beide (SOI-iGPU-Fusion und SOI-GPU) die selben Problemen hätte und vielleicht kaum voneinander profitieren würden.
Fusion-iGPU ist sehr wichtig, da dies dann AMDs größter Markt sein wird und da würde eine GPU parallel dazu IMO eher behindern.
Wenn die neue 900er-Architektur wirklich schon im 3Q 2010 und bewusst kurz vor 28nm herkommt, dann muss!!! eine "ausgereifte" Fertigung her und das ist zu der Zeit trotz allen Problemen aber eben wegen der großen Erfahrung dort noch die TSMC-40nm.
Warum hätten sie nicht dieselben Probleme? Man kann doch den GPU-Teil des Llano als Grundlage für dedizierte GPUs nehmen oder noch besser umgekehrt. Es wäre doch viel schlauer ein allgemeines SOI-Design hinzubekommen, das auch bei Fusion zum Einsatz kommen kann. AMD muss für Fusion die neue Architektur auf SOI und mehr Takt bei weniger Einheiten auslegen und obendrein die GP-Fähigkeiten verbessern, damit das Ding auch als Co-Prozessor laufen kann. Das könnte generell der Weg für die neue Architektur sein.
Triskaine
2010-03-30, 17:55:28
Kein SOI für diskrete AMD GPU's:
IHW: When you are saying that it's different type of manufacturing, that it's a bulk process, on the CPU side that is completely different, what will you do about GPU side? Will you still use the bulk technology, or you will somehow merge it with SOI technology?
SN: Well that's not feasible, there's only one way because it's a single die, it's a single chip. Discrete equivalent of the DX11 GPU will continue to be produced in bulk technology. We're not moving the discrete GPUs to SOI. But for Llano, it's a single integrated die so that GPU is being produced on the SOI process.
Quelle: http://www.insidehw.com/Editorials/Interviews/AMD-Llano-The-First-Accelerated-Processing-Unit/Page-3.html
aylano
2010-03-30, 18:38:10
Warum hätten sie nicht dieselben Probleme?
?? Ich schrieb, beide hätten die selben Probleme, die dann im beiden Designs ausgebessert werden müssten.
Man kann doch den GPU-Teil des Llano als Grundlage für dedizierte GPUs nehmen oder noch besser umgekehrt.
Das meine ich ja,
ersteres würde doch bedeuten, dass es momentan keine dezentierte SOI-GPU gäbe (und somit keine SOI-GPU-Einführung im 3Q), da iGPU für Fusion gerade reift
zweiteres würde bedeuten, es müsste ein 32nm-SOI-GPU vor Fusion geben. Fusion-Silizium gibts seit Nov 2009 oder so.
Und davor kann ich mir keinen 32nm-SOI-GPU vorstellen.
Man könnte sage. SOI-GPU wurde schon heimlich mit der 45nm-SOI-Fertigung getestet.
Aber dann entsteht die Frage: Warum stellt man diese dann nicht her, denn schlechter als TSMC-40nm kann die doch nicht sein??
ATI wurde 2006 gekauft und das war vor 4 Jahren.
Somit warten wir schon jahrelang auf GPU @ Dresden. Da kann ich mir schwer auf eine gleichzeitige Einführung von dezitierten SOI-GPUs und 28nm-GPUs neben den Fusion-iGPUs vorstellen. IMO zuviel fürs Erste.
Edit: Anscheinend hat sich die Diskussion um dezentierte SOI-GPUs wegen dem Potsting über mir schon erledigt.
-----------------
...
Somit zeichnet sich hier auch schon etwas Einführungs-Probleme an, was sich jetzt durch die 32nm-Bulk-Streichung vielleicht doch zeigt.
Das ganze ist schwierig einzuschätzen, da es nicht nur 2 Auftragsfertiger in Frage kommen, sondern bei beiden weiß man nicht, wie 28nm funktioniert und wie man bei beiden die 32nm-Bulk-Streichung deuten sollen.
Vielleicht so.
Als GF Frühjahr 2009 endlich genug Geld hatte, war die 40nm-Bulk vielleicht doch zu früh und konzentriert sich dann gleich auf 32 & 28 nm.
Dann kam das "First-Gate-Problem" und wollte auf Last-Gate springen. Also sie von TSMC-Probleme erführen, übersprangen sie zur ähnlichen Zeit wie TSMC die 32nm und konzentrierten sich voll auf 28nm-Last-Gate.
Damit entfiel wahrscheinlich auch der Probe-Bulk-Chip (@32nm) in Dresden, aber wenn TSMC ja auch Problem hat und 28nm eventuelle 1-2 Quartale später kommt, "riskiert" man vielleicht ein bischen was und geht gleich mit der ganzen Familie auf 28nm.
Parallel könnte man immer noch die 900er auf TSMC-28nm fertigen lassen.
Und jetzt wissen wir ja, bei TSMC-Problemen kann es sich im Extremfall sogar über viele viele Quartale hinziehen und so könnten die RV9x0-Versionen in TSMC-28nm zwar in Entwicklung sein, aber wegen 28nm-TSMC-Problemen eben noch nicht so weit entwickelt sein.
Das ist eine von vier Fertigungsvarianten.
Ob das die richtige ist, werden wir sehen.
Ailuros
2010-03-30, 19:14:42
NI mit einer 800SP Basis? ROFL ok ;D:P:biggrin::freak:
Tarkin
2010-03-30, 19:15:05
Southern Islands "SI" im Herbst @40nm (http://www.semiaccurate.com/2010/03/30/atis-next-generation-outed/)
Southern Islands (SI) is a 40nm family, and from early information, it looks to be a hybrid between Evergreen and Northern Islands. The architectural details are quite slim now, but it looks like ATI took the uncore from NI and put the shaders from Evergreen on it. Think of it as taking the parts that were done and available, and putting them together.
Because it is the only option at this point, SI will be built on TSMC's 40nm process. This is good because it is known, and ready, pulling in the timetables. Low risk means low chance of problems and quick time to market. Expect SI sometime this fall. Rumors abound that some family members have already taped out, but that is far from confirmed.
In any case, ATI will likely have a fully refreshed lineup before Nvidia has its Fermi GF100 GTX4xx line fully out the door.
"ATI's 3000 series were on 65nm, so no, they didn't skip it. They'll do a die shrink of a mainstream chip (most likely the 5700 series) to 32nm to test it out and then the 6000 series arrives on 32nm. Rinse and repeat for the 7000 series etc.
And yes, ATI will release the 6000 series in 2010, most likely in Q3 on TSMC's process, or Q4 on TSMC or possibly Global Foundaries. ATI's roadmap won't stop, their strategy is working well for them now they're firing on all cylinders. Who knows, the 6000 series will be their supposedly radical departue from the R600-R800 design of chips; though I don't think it will be too radical, but I guess we'll find out around Q2 of next year with early leaks as usual. If it's not leaked then, then something is amiss."
http://forums.amd.com/forum/messageview.cfm?catid=12&threadid=119249&enterthread=y&STARTPAGE=3
"Q3 listing HD6750, 40nm process, the chip area of more than Cypress, less than 400 mm2, still 1600SP/256bit bit wide, divided into two 800SP modules, each of which has an enhanced off Tessellation Unit and a Rasterizer, two modules parallel-oriented graphics. Triangles rate doubled, Tessellation 3-4 times performance improvement. L2 Cache redesigned to significantly improve the performance of GPGPU. Core frequency of 900Mhz-1GHz, TDP of 225 watts or so. Target performance is 10% -20%, GTX480, expectations and GF100 B1 version of its flagship chip, the performance was flat. North Island family, the first product in the maturity process of verifying the new structure.
Q4-Q1 next year, listing HD6670/6650, single 800SP modules / 128bit bit width, Water 28nm process.
Q1-Q2 next year, listing HD6870, 28nm process, four 800SP module, 512bit-bit wide return to core area of 400-450 mm between the target performance of dual-core card Fermi suppression. In fact, R600 is the ultimate form "
http://forum.beyond3d.com/showpost.php?p=1414636&postcount=424:
Burgard
2010-03-30, 21:20:36
wäre ja toll, wenn sich die Modulbauweise wirklich bewähren würde.
Potenzial ist auf jedenfall vorhanden.
Wäre aber für Nv bitter, wenn die 6750/70 schneller wäre als der Fermi.
Der B1 Fermi könnte kann die 512er-Version sogar sein.
Interessant ist auch:
1 COre = 128bit-Interface
2 Core = 256
und
4 Core eben 512.
Zumindest würde es die Fertigungskosten drastisch reduzieren.
Wobei man dann auch noch in der Taktung einiges Tricksen könnte.
50er-Serie 800 Mhz
70er-Serie 1 Ghz
Edit:
Wobei ja dann NV sagen kann, dass vor die Eincore-Version miteinander verglichen werden kann. :)
Hayab
2010-03-30, 21:35:23
ATI muss endlich was tun, die HD58xx sind super karten, aber es zeichnet sich schon langsam wieder die techn. Ueberlegenheit von den Gruenen. Fermi ist zwar zu heis und zu langsam, aber mit ueberarbeiteten Releases wird der GF100 nachfolger die R600-870+ Baureihe in den Boden stampfen.
Momentan kann sich ATi leisten noch halbes Jahr mit den neuen Architektur zu warten, da nv so schnell nichts mehr nachliefern wird. Ausser vielleicht eine Ultra mit 512 SP und mehr Takt und 3 Slot Kuehlung;D
Es wird aber nicht reichen um mit GF100 Architekur noch ein Jahr oder mehr gleichziehen zu koennen.
Der beste Schritt waere im Herbst die neue ATI Grakas zu releasen, moeglichst ohne Kinderkrankheiten wie die von NV. Zeit hatten die auch genug um was neues zu machen. Wie ich aber ATi kenne werden die mit dem gleichen unreifen Schrott wie die R600 seiner zeit antanzen und die das Feld der Gruenen ueberlassen.
Gipsel
2010-03-30, 21:37:19
Southern Islands "SI" im Herbst @40nm (http://www.semiaccurate.com/2010/03/30/atis-next-generation-outed/)
Southern Islands (SI) is a 40nm family, and from early information, it looks to be a hybrid between Evergreen and Northern Islands. The architectural details are quite slim now, but it looks like ATI took the uncore from NI and put the shaders from Evergreen on it. Think of it as taking the parts that were done and available, and putting them together.
Aus meinem Forumspost vom 13. Oktober letzten Jahres (http://www.forum-3dcenter.org/vbulletin/showpost.php?p=7595778&postcount=125):
Wir sind ja hier im R900 Thread, nicht? Und wie es aussieht, stehen mit "Northern Islands" wohl wirklich ein paar umfassendere Änderungen ins Haus. Northern Islands ist wirklich der interne Codename beim Treiberteam, inwiefern da Cozumel, Ibiza und Kauai reinpassen, erschließt sich da nicht sofort, es sei denn, das sollen die Southern Islands werden ;)
Aber zu den Änderungen. Es werden wohl ein paar alte Instruktionen gestrichen und die t-Einheit auch etwas stärker geändert. So kann die t-Einheit in Zukunft nicht mehr alle normalen Instruktionen ebenfalls ausführen. Sie wird wahrscheinlich also eher einer SFU von nvidia ähneln. Der generelle Aufbau der VLIW-Einheiten bleibt aber erhalten.
:D
AnarchX
2010-03-30, 21:59:38
Aber zu den Änderungen. Es werden wohl ein paar alte Instruktionen gestrichen und die t-Einheit auch etwas stärker geändert. So kann die t-Einheit in Zukunft nicht mehr alle normalen Instruktionen ebenfalls ausführen. Sie wird wahrscheinlich also eher einer SFU von nvidia ähneln. Der generelle Aufbau der VLIW-Einheiten bleibt aber erhalt
Das würde doch zu einer verringerten SP-Zahl passen, die man spekuliert?
Eben nur noch 1280SPs, wenn man bei 20 SIMDs bleibt. Oder 1536SPs/96TMUs bei 24 SIMDs.
BlackBirdSR
2010-03-30, 22:11:25
Ich würde auch die Sache mit SOI erstmal Ruhen lassen.
SOI ist etwas, das man eigentlich ungern verwenden möchte, wenn der Bulk-Prozess gut funktioniert. Der design/technische Aufwand ist mitunter enorm und die Lernkurve muss sehr steil ansteigen, will man nicht hinter den Zeitplan zurückfallen. Klar hat AMD inzwischen Jahre Erfahrung damit, allerdings ist AMD ja nicht eine Einheit und das heißt noch lange nicht, dass die Ing. der ATI-Abteilung damit so gut zurecht kommen.
Abseits davon muss SOI für eine GPU noch lange nicht den gleichen Nutzen haben, wie für eine CPU bei 2GHz+. Gerade bei GPU sind ja die dynamischen Ströme entscheidend und ATI hat den Idle-Modus der RV8x ja sehr gut im Griff scheint es. Wenn überhaupt gibt es SOI-GPUs meiner Meinung nach erstmals als Low-End-Varianten. Dort bringt es zwar gleich doppelt nichts, aber man sammelt Erfahrungen. Kann also noch ein paar Jahre dauern, bis und falls SOI-GPUs auf den Markt kommen. Eher noch entwickelt man die zugehörige CPU-Logik für Bulk.
Und dann gibt es ja noch das Scaling-Problem... lässt sich SOI bis 11nm und kleiner treiben?
Gipsel
2010-03-30, 22:15:59
Das würde doch zu einer verringerten SP-Zahl passen, die man spekuliert?
Eben nur noch 1280SPs, wenn man bei 20 SIMDs bleibt. Oder 1536SPs/96TMUs bei 24 SIMDs.
Das habe ich mir auch gedacht, als ich von der angeblich verringerten Shaderanzahl hörte. Wenn nur noch 4 der 5 ALUs MADDs können, dürfte AMD auch nur noch diese 4 zählen. Aber das soll ja auch erst mit NI kommen, die SI haben laut Charlie noch kaum geänderte Shadereinheiten (so würde ich meine "Daten" von damals übrigens auch interpretieren). Aber keine Ahnung, wie das genau zusammenpaßt.
Spasstiger
2010-03-30, 23:25:57
Wie wäre es mit 3*Redwood? Neues Frontend, 3 Rasterengines, 3 Tessellatoren, 1200 SPs, 60 TMUs, am Ende evtl. ein 384-Bit-SI und 48 ROPs. Damit könnte man doch evtl. den GF100 in Bedrängnis bringen, ohne Unmengen an Transistoren investieren zu müssen. Redwood hat 627 Mio. Transistoren, mal drei egibt knapp 1,9 Mio und dazu noch eine unbekannte Anzahl fürs neue Frontend.
mboeller
2010-03-31, 07:46:33
übrigens:
http://forum.beyond3d.com/showthread.php?t=57035
So habe ich mir die Probleme ungefähr vorgestellt, die AMD bekommt, wenn Spieleentwickler DX11 DirectCompute Sachen so programmieren, das sie auf den DX11 GPUs von Nvidia gut laufen. Da Nvidia immer noch einen wesentlich größeren Marktanteil hat, und auch bessere "Connections" zu den Entwicklern kann es IMHO leicht sein, das sich die Vektor-Architektur von AMD am Nvidia-optimierten Code verschluckt. Prost! ;)
Gipsel
2010-03-31, 10:58:50
übrigens:
http://forum.beyond3d.com/showthread.php?t=57035
So habe ich mir die Probleme ungefähr vorgestellt, die AMD bekommt, wenn Spieleentwickler DX11 DirectCompute Sachen so programmieren, das sie auf den DX11 GPUs von Nvidia gut laufen. Da Nvidia immer noch einen wesentlich größeren Marktanteil hat, und auch bessere "Connections" zu den Entwicklern kann es IMHO leicht sein, das sich die Vektor-Architektur von AMD am Nvidia-optimierten Code verschluckt. Prost! ;)
Wie Lovesuckz (Sontin) dort im Thread richtig bemerkte, ist das ein Tessellation-Demo von nvidia (war das nicht die Geschichte mit >40 Millionen Dreiecken pro Frame?). Daß das nebenher auch ComputeShader benutzt, dürfte für die Performanceunterschiede angesichts der exzessiven Tessellation da eher nebensächlich sein. Aufgrund dessen die ComputeShader-Performance der ATIs beurteilen zu wollen, kann einfach nicht funktionieren.
Bucklew
2010-03-31, 11:16:41
was neues aus dem Beyond3d Thread:
From cfcnc@Chiphell,Rv9xx series was taped out at TSMC 40nm node recently.Tessellation is enhanced,3D blueray hardware-decode is added.No big improvement in 3DMark Vantage
Klingt irgendwie nach "Fermi@ATI" - wenig Steigerung in den klassischen Benchmarks, dafür viel Leistung in den kommenden. Da bin ich mal gespannt wie sich dann eine ähnliche ATI-Architektur in den Benchmarks schlägt.
Allerdings erwarte ich keine Karte vor 2011 - mal realistisch gedacht ;)
derguru
2010-03-31, 11:19:55
Klingt irgendwie nach "Fermi@ATI" - wenig Steigerung in den klassischen Benchmarks, dafür viel Leistung in den kommenden. Da bin ich mal gespannt wie sich dann eine ähnliche ATI-Architektur in den Benchmarks schlägt.
Allerdings erwarte ich keine Karte vor 2011 - mal realistisch gedacht ;)
vom timing her auch passender 2011,mal realistisch gedacht*augenzwinker*
mboeller
2010-03-31, 14:19:21
Wie Lovesuckz (Sontin)
Sontin ist also Lovesuckz....na sowas kann der auch mal was halbwegs normales posten. Hier habe ich ihn ausgesperrt weil.... (rest gelöscht, sonst werde ich gesperrt...)
Bucklew
2010-03-31, 14:48:10
vom timing her auch passender 2011,mal realistisch gedacht*augenzwinker*
Warum? Bei Grafikkarten ist passend doch eigentlich nur asap, oder? ;)
MorPheuZ
2010-03-31, 14:59:03
Ne warum auch? ASAP wäre schlecht für gerade gelaunched. Solange der Lifecycle noch nicht überschritten ist ist ASAP nicht finanzierbar.
Gipsel
2010-03-31, 15:11:32
Sontin ist also Lovesuckz ...Also am "DX11 doesn't matter" war es zu erkennen ;)
Oder es gab in jedem Sprachraum einen, der das so penetrant verbreitet hat :rolleyes:. Zumindest verliefen Lovesuckz Argumentationen hier und Sontins dort immer erstaunlich parallel. Aber vielleicht sagt er es ja auch selber, wenn er das hier liest.
Für die, dies noch nicht mitbekommen haben ;)
http://www.gamestar.de/hardware/news/grafikkarten/2313908/amd_codename_southern_island.html
Bin mal gespannt was AMD da aus dem Hut zaubert :) 1920 5D Shader und 950Mhz Core würden sich mal gut anhörn :)
Spasstiger
2010-04-02, 16:39:54
"1920 5D Shader"? Du meinst 384 5D-Alus. Die Gerüchte gehen allerdings eher in Richtung weniger ALUs als beim Cypress.
Kalmar
2010-04-02, 19:09:13
des klingt ja interessant... also würde das auf ne mischform zum testen in 40nm um mit den erfahrungen gut in den 28/32nm prozess zu kommen .. wenns gut läuft wird es für nv wohl enge wenn ati die chips ordentlich hinbekommt.
Die Chips entwickelt AMD, es gibt kein ATI mehr, das ist nur noch ein Markenzeichen von AMD.
Forthcoming ATI GPUs: Different Processes, Different Suppliers, Hybrid Architecture
ATI’s Next Plans: Multi-Fab Manufacturing, Hybrid Architectures
http://www.xbitlabs.com/news/video/display/20100401171410_Forthcoming_ATI_GPUs_Different_Processes_Different_Suppliers_Hybr id_Architecture.html
Die Chips entwickelt AMD, es gibt kein ATI mehr, das ist nur noch ein Markenzeichen von AMD.
Die Chips werden nach wie vor von den ATI-Leuten in Kanada entwickelt.
LuXon
2010-04-02, 23:14:10
Ich dachte, dass 32nm übersprungen wird?
mboeller
2010-04-03, 08:47:06
Ich dachte, dass 32nm übersprungen wird?
Du kannst nicht was "überspringen", was gar nicht existiert. Sowohl GF als auch TSMC haben den bulk-32nm Process auf Eis gelegt. Als nächstes, nach 40nm kommt bei beiden 28nm
Ailuros
2010-04-03, 08:55:10
"1920 5D Shader"? Du meinst 384 5D-Alus. Die Gerüchte gehen allerdings eher in Richtung weniger ALUs als beim Cypress.
Das Geruecht mit den 24 oder 25 clusters schwirrt schon eine Ewigkeit herum. Bis zu einem Punkt hiess es Mai/Juni aber da das Ding von dem was ich hoerte fuer 40G geplant ist, GF100 kein Grund zur besonderen Unruhe ist und auch die Kapazitaeten bei TSMC bis Q3 weiterhin beschissen sein werden, wuerde es mich nicht wundern dass dieses Projekt fuer den Herbst angeschlagen wurde.
Angenommen es stimmt und es handelt sich bei S.I. um 24 clusters mit dem uncore von N.I. dann stimmt erstmal AMD's Behauptung dass das Resultat etwas mehr als ein einfacher Refresh ist (Kombatant ex AMD) und ich kann auch nicht verstehen worauf xbitlab's Sorgen ueber die die area bzw. Stromverbrauch basieren.
Von der Frequenz-Seite wuerde ich auch nicht etwas ueber der 900MHz Marge (wenn ueberhaupt) erwarten da Wavey bei B3D andeutete dass man sich in der Zukunft weniger auf Frequenz konzentrieren sollte.
Rein hypothetisch koennte ich mir durchaus einen 420-450mm2 die vorstellen mit 24 cluster@ ~875MHz, wobei sich das Resultat durchaus im 2*6pin SKU Bereich halten koennte.
Forthcoming ATI GPUs: Different Processes, Different Suppliers, Hybrid Architecture
ATI’s Next Plans: Multi-Fab Manufacturing, Hybrid Architectures
http://www.xbitlabs.com/news/video/display/20100401171410_Forthcoming_ATI_GPUs_Different_Processes_Different_Suppliers_Hybr id_Architecture.html
Ob das ein gutes Omen ist wenn man jetzt in letzter Sekunde ein Design über den Haufen schweißen muss und irgend was auf die schnelle zusammen schustert? AMD hat wohl voll auf 32nm gesetzt.
Ob das ein gutes Omen ist wenn man jetzt in letzter Sekunde ein Design über den Haufen schweißen muss und irgend was auf die schnelle zusammen schustert? AMD hat wohl voll auf 32nm gesetzt.
Ich werte das als gutes Zeichen, da sie auf die Möglichkeiten der Fertigung reagieren. Ohne diese Maßnahme gäbe es wieder einen Chip, der Seltenheitswert hätte und entsprechend kaum kaufbar wäre. Damit ist niemandem geholfen.
Fetza
2010-04-03, 10:07:42
Ob das ein gutes Omen ist wenn man jetzt in letzter Sekunde ein Design über den Haufen schweißen muss und irgend was auf die schnelle zusammen schustert? AMD hat wohl voll auf 32nm gesetzt.
Die frage ist, hatten sie vielleicht schon vorher einen notfallplan oder nicht? Wenn so eine möglichkeit vielleicht schon frühzeitig in betracht gezogen würde, dürfte es doch kein problem sein.
Die frage ist, hatten sie vielleicht schon vorher einen notfallplan oder nicht? Wenn so eine möglichkeit vielleicht schon frühzeitig in betracht gezogen würde, dürfte es doch kein problem sein.
Es ist schwer vorstellbar, dass AMD nicht frühzeitig wusste dass GF keinen 32nm bulk anbieten wird.;)
Botcruscher
2010-04-03, 10:31:53
Kann ich mir auch nicht vorstellen. Das 32nm übersprungen wird geistert doch jetzt schon seit Ewigkeiten durch die Lande.
mboeller
2010-04-03, 11:20:51
Das Geruecht mit den 24 oder 25 clusters schwirrt schon eine Ewigkeit herum. Bis zu einem Punkt hiess es Mai/Juni aber da das Ding von dem was ich hoerte fuer 40G geplant ist,.....................
Rein hypothetisch koennte ich mir durchaus einen 420-450mm2 die vorstellen mit 24 cluster@ ~875MHz, wobei sich das Resultat durchaus im 2*6pin SKU Bereich halten koennte.
Nicht unbedingt 420 - 450 mm²
Vergleicht man mal die Größe von Redwood (104mm²) und Juniper (166mm²) mit der Größe vom Cypress (334mm²) dann könnte es sein, dass hier was nicht zusammenpasst. Link: http://de.wikipedia.org/wiki/ATI-Radeon-HD-5000-Serie
Juniper ist genau doppelt so groß wie Redwood (ROPs, Shader, TMUs etc...) bei einem Größenunterschied von 62mm². Cypress ist 4x Redwood bzw. 2x Juniper (hat aber auch nur 1 Setup-Engine). Cypress sollte damit eigentlich [(104-62)+4x62 = ~290]mm² groß sein und nicht 334mm². Entweder brauchen die zusätzlichen DP-Sachen soviel Platz oder aber das Scaling passt nicht wirklich (+15% Die-Area).
Nimmt man nun mal die hypothetischen 1920 Shader, die seit Mitte 2009 durch das Netz geistern, dann schaut es so aus: [(104-62)+4,8x62 = ~340]mm².
290 < 334 < 340 mm².....Ergo könnten die 1920 Shader bereits im Cypress Platz haben.
R.I.P.
2010-04-04, 17:45:04
http://www.gamestar.de/hardware/news/grafikkarten/2313908/amd_codename_southern_island.html
Ich finde die Informationen/Spekulationen und Interpretation interessant :)
Psychopat
2010-04-04, 19:57:17
Nicht unbedingt 420 - 450 mm²
Vergleicht man mal die Größe von Redwood (104mm²) und Juniper (166mm²) mit der Größe vom Cypress (334mm²) dann könnte es sein, dass hier was nicht zusammenpasst. Link: http://de.wikipedia.org/wiki/ATI-Radeon-HD-5000-Serie
Juniper ist genau doppelt so groß wie Redwood (ROPs, Shader, TMUs etc...) bei einem Größenunterschied von 62mm². Cypress ist 4x Redwood bzw. 2x Juniper (hat aber auch nur 1 Setup-Engine). Cypress sollte damit eigentlich [(104-62)+4x62 = ~290]mm² groß sein und nicht 334mm². Entweder brauchen die zusätzlichen DP-Sachen soviel Platz oder aber das Scaling passt nicht wirklich (+15% Die-Area).
Nimmt man nun mal die hypothetischen 1920 Shader, die seit Mitte 2009 durch das Netz geistern, dann schaut es so aus: [(104-62)+4,8x62 = ~340]mm².
290 < 334 < 340 mm².....Ergo könnten die 1920 Shader bereits im Cypress Platz haben.
Man kann die größere Die-Area auch anders deuten: Für Cypress wird der "Teig" einfach breiter ausgerollt als für Juniper. Man hat dadurch weniger Probleme mit Hotspots und Leckströmen. Auch könnten bei Cypress mehr Redundanzen verbaut sein als bei Juniper.
Nakai
2010-04-04, 20:07:58
Juniper ist genau doppelt so groß wie Redwood (ROPs, Shader, TMUs etc...) bei einem Größenunterschied von 62mm². Cypress ist 4x Redwood bzw. 2x Juniper (hat aber auch nur 1 Setup-Engine). Cypress sollte damit eigentlich [(104-62)+4x62 = ~290]mm² groß sein und nicht 334mm². Entweder brauchen die zusätzlichen DP-Sachen soviel Platz oder aber das Scaling passt nicht wirklich (+15% Die-Area).
Nimmt man nun mal die hypothetischen 1920 Shader, die seit Mitte 2009 durch das Netz geistern, dann schaut es so aus: [(104-62)+4,8x62 = ~340]mm².
Jup, so hab ich auch mal gedacht. Es wird ja vom RV770 gesagt, dass er 900SPs hat(Gipsel meinte es seien 850SPs).
Wie dem auch sei. Ursprünglich sollte Cypress ja um die 400mm² groß gewesen sein. Was alles rausgeflogen ist um die Diesize zu senken, weiß man nicht genau. Evtl konnte die Größe auch dadurch nicht so extrem gesenkt werden.
Imo wohl beste These:
Für Cypress wird der "Teig" einfach breiter ausgerollt als für Juniper. Man hat dadurch weniger Probleme mit Hotspots und Leckströmen. Auch könnten bei Cypress mehr Redundanzen verbaut sein als bei Juniper.
Man muss auch berücksichtigen, dass Cypress 2 Rasterizer, 2 Hier-Z, DP-Fähigkeiten und deutlich mehr Einheiten hat. Evtl hat man auch hier und da die Cachegröße gesenkt um Platz zu sparen.
mfg
Ailuros
2010-04-04, 20:18:09
Nicht unbedingt 420 - 450 mm²
Vergleicht man mal die Größe von Redwood (104mm²) und Juniper (166mm²) mit der Größe vom Cypress (334mm²) dann könnte es sein, dass hier was nicht zusammenpasst. Link: http://de.wikipedia.org/wiki/ATI-Radeon-HD-5000-Serie
Juniper ist genau doppelt so groß wie Redwood (ROPs, Shader, TMUs etc...) bei einem Größenunterschied von 62mm². Cypress ist 4x Redwood bzw. 2x Juniper (hat aber auch nur 1 Setup-Engine). Cypress sollte damit eigentlich [(104-62)+4x62 = ~290]mm² groß sein und nicht 334mm². Entweder brauchen die zusätzlichen DP-Sachen soviel Platz oder aber das Scaling passt nicht wirklich (+15% Die-Area).
Nimmt man nun mal die hypothetischen 1920 Shader, die seit Mitte 2009 durch das Netz geistern, dann schaut es so aus: [(104-62)+4,8x62 = ~340]mm².
290 < 334 < 340 mm².....Ergo könnten die 1920 Shader bereits im Cypress Platz haben.
Vielleicht solltest Du vorsichtiger lesen was ich sagte: 24 cluster mit dem NI uncore.
Man kann die größere Die-Area auch anders deuten: Für Cypress wird der "Teig" einfach breiter ausgerollt als für Juniper. Man hat dadurch weniger Probleme mit Hotspots und Leckströmen. Auch könnten bei Cypress mehr Redundanzen verbaut sein als bei Juniper.Kann man auch mit Takt und Spannung im Zaum halten. Nachdem auf der letzten Seite stand, dass ATi der Takt ziemlich egal ist, werden sie wohl kaum den Rückschritt zu nem großzügigeren Layout machen. Schließlich hatten sie das von RV670 -> 770 stark eingedampft. Ne, lieber alles schön eng beieinander und dafür mehr Einheiten, anstatt eines hohen Taktes.
Nachdem das NI Uncore vermutlich eh größer wird, hat man auch keinen Spielraum.
deekey777
2010-04-05, 15:26:45
Das habe ich mir auch gedacht, als ich von der angeblich verringerten Shaderanzahl hörte. Wenn nur noch 4 der 5 ALUs MADDs können, dürfte AMD auch nur noch diese 4 zählen. Aber das soll ja auch erst mit NI kommen, die SI haben laut Charlie noch kaum geänderte Shadereinheiten (so würde ich meine "Daten" von damals übrigens auch interpretieren). Aber keine Ahnung, wie das genau zusammenpaßt.
Es gibt da eine Idee im iXBT-Forum: Warum nicht die W-ALU entfernen und die T-ALU im vollen Umfang beibehalten? Die W-ALU sei gerade die ALU, die am wenigsten ausgelastet sei.
€dit: Wobei da tiefgreifende Änderungen nötig wären, um die DP-Performance beizubehalten.
Wenn man sie verschmelzt dann sollte auch DP kein Problem darstellen.
Coda,
Wen willst du womit genau verschmelzen? Die T-Unit ist bei DP-MADs bislang unbeteiligt, wie du weißt.
W und T
Es ist ja nicht so, dass die T-Einheit nicht die nötigen Recheneinheiten hätte um statt W die DP-Op mit zu berechnen. Das ist eher eine Sache der Verschaltung.
Da bin ich mir nicht so sicher. ZYXW können auch FMA, T nicht. Wahrscheinlich ist dort alles nur so breit, wie es sein muss.
-Carsten
Dann erweitert man halt das T-MAD zu FMA. Das meine ich mit "verschmelzen".
Der Aufwand hält sich wohl relativ in Grenzen so eine Änderung durchzuführen. Die Frage ist ob es sich lohnt. Es ist ja nicht so, dass wenn man 4/5 Auslastung bei einer 5-Op-VLIW-ALU in einem Fall hat das gleiche Programm dann automatisch volle Auslastung bei einer 4-Op-VLIW-ALU hätte.
deekey777
2010-04-05, 20:55:31
Vier ALUs wären also möglich.
Dann erweitert man halt das T-MAD zu FMA. Das meine ich mit "verschmelzen".
Der Aufwand hält sich wohl relativ in Grenzen so eine Änderung durchzuführen. Die Frage ist ob es sich lohnt. Es ist ja nicht so, dass wenn man 4/5 Auslastung bei einer 5-Op-VLIW-ALU in einem Fall hat das gleiche Programm dann automatisch volle Auslastung bei einer 4-Op-VLIW-ALU hätte.
Irgendwer behauptete mal, die 5-way-Implementation kostete "20% die space" gegenüber einer 1-way. Da wäre der Die-Space Gewinn bei Verzicht auf einen der fünf Vektoren/Superskalare wohl ziemlich gering, oder?
-Carsten
Irgendwer behauptete mal, die 5-way-Implementation kostete "20% die space" gegenüber einer 1-way. Da wäre der Die-Space Gewinn bei Verzicht auf einen der fünf Vektoren/Superskalare wohl ziemlich gering, oder?
-Carsten
Es ist ja auch jetzt keine "reinrassige" Vec5-ALU, da ein Kanal praktisch immer für SFUs verwendet werden muss. Wie es aussieht wird AMD ähnlich wie NV die SFU (und damit den fünften Kanal) völlig abkapseln und sie der general shading Fähigkeit beschneiden, das kostet nur unnötig Transistoren und kann eh kaum verwendet werden. Ergo Northern Islands (auch schon Southern Islands?) = Vec4-ALU plus SFU.
Ailuros
2010-04-07, 10:36:03
Man muss nicht unbedingt den fuenften Kanal bei einer Vec5 ALU komplett fuer general shading beschneiden. Kann auch eventuell Vec4+1 werden wie wir schon im eingebetten GPU Markt haben.
Man muss nicht unbedingt den fuenften Kanal bei einer Vec5 ALU komplett fuer general shading beschneiden. Kann auch eventuell Vec4+1 werden wie wir schon im eingebetten GPU Markt haben.
Es ist schon jetzt genau genommen Vec1+1+1+1+1, ein Vec4+1-Setup wäre also ein klarer Rückschritt und würde mE keinen Sinn machen. Wenn man den fünften Kanal für general shading beschneidet macht das aber sehr wohl Sinn, da man ihn eh kaum dafür verwneden kann wegen den SFUs. Das kostet nur unnötig Transistoren und bringt kaum was.
Spasstiger
2010-04-07, 12:07:39
Juniper ist genau doppelt so groß wie Redwood (ROPs, Shader, TMUs etc...) bei einem Größenunterschied von 62mm². Cypress ist 4x Redwood bzw. 2x Juniper (hat aber auch nur 1 Setup-Engine).
Juniper und Redwood: 128 Bit SI
Cypress: 256 Bit SI
Bei deiner Rechnung fehlt also noch die Fläche eines 128-Bit-SI.
Hier ein paar Daten, um die Rechnung auf Basis der richtigen Annahmen weiterzuspinnen:
Differenz Redwood zu Cedar: 320 SPs, 12 TMUs, 4 ROPs, 64 Bit SI => 45 mm²
Differenz Juniper zu Redwood: 400 SPs, 20 TMUs, 8 ROPs => 62 mm²
Differenz Cypress zu Juniper: 800 SPs, 40 TMUs, 16 ROPs, 128 Bit SI => 166 mm²
An jeder ROP-Partition hängt übrigens ein 128 KiB großer L2-Cache. Bei Cypress sinds 512 KiB, bei Juniper 256 KiB und bei Redwood sowie Cedar 128 KiB.
Die Display-Port-Transmitter muss man bei etwaigen Rechnungen auch noch berücksichtigen.
/EDIT: Hier die Blockdiagramme:
Cedar (59 mm²) (http://www.abload.de/img/cedarlums.jpg) - Redwood (104 mm²) (http://www.abload.de/img/redwoodn6hh.jpg) - Juniper (166 mm²) (http://www.abload.de/img/juniper16o0.jpg) - Cypress (334 mm²) (http://www.abload.de/img/cypressru99.jpg)
Ailuros
2010-04-07, 12:31:34
Es ist schon jetzt genau genommen Vec1+1+1+1+1, ein Vec4+1-Setup wäre also ein klarer Rückschritt und würde mE keinen Sinn machen.
Vec4 ist so oder so ein Rueckschritt im Vergleich zu Vec5 und Vec4+1 eben genau die Mitte der beiden auf Papier. Das soll nicht heissen dass +1 stets fuer general shading zur Verfuegung stehen wird.
Wenn man den fünften Kanal für general shading beschneidet macht das aber sehr wohl Sinn, da man ihn eh kaum dafür verwneden kann wegen den SFUs. Das kostet nur unnötig Transistoren und bringt kaum was.
Es ist stets ein ziemlich kompliziertes tradeoff zwischen wieviel die area jegliche Loesung verbratet, wie oft jegliche Einheit ausgelastet wird und finaler Leistung. Wenn die insgesamte arithmetische Echtzeit-Effizienz der ALUs nicht darunter leidet dann schoen; was aber im Gegenfall?
deekey777
2010-04-07, 12:58:55
Wie sollen mit Vec4+1 fünf unabhingige Instruktionen ausgeführt werden?
Ailuros
2010-04-07, 13:25:50
Wie sollen mit Vec4+1 fünf unabhingige Instruktionen ausgeführt werden?
4*MADD+1* ADD oder MUL.
deekey777
2010-04-07, 13:31:15
4*MADD+1* ADD oder MUL.
Vec4 bedeutet, dass eine Instruction für vier Komponenten ausgeführt werden, ergo ein Rückschritt. AMD nennt die Architektur nicht umsonst superskalar. Nicht, um Nvidia zu ägern (superskalar > skalar), sondern weil eben bis zu 5 Instruction (plus Branch) von jedem "Threadprocessor" asugeführt werden können. Darauf will der Gast wohl hinaus.
Ailuros
2010-04-07, 13:46:44
Vec4 bedeutet, dass eine Instruction für vier Komponenten ausgeführt werden, ergo ein Rückschritt. AMD nennt die Architektur nicht umsonst superskalar. Nicht, um Nvidia zu ägern (superskalar > skalar), sondern weil eben bis zu 5 Instruction (plus Branch) von jedem "Threadprocessor" asugeführt werden können. Darauf will der Gast wohl hinaus.
Von dem hier ist es ausgegangen:
Es ist ja auch jetzt keine "reinrassige" Vec5-ALU, da ein Kanal praktisch immer für SFUs verwendet werden muss. Wie es aussieht wird AMD ähnlich wie NV die SFU (und damit den fünften Kanal) völlig abkapseln und sie der general shading Fähigkeit beschneiden, das kostet nur unnötig Transistoren und kann eh kaum verwendet werden. Ergo Northern Islands (auch schon Southern Islands?) = Vec4-ALU plus SFU.
...alles was ich dazufuegte ist dass es nicht unbedingt Vec4 + SFU sein muss, sondern auch Vec4 + (SFU oder "1/2 Vec") sein koennte.
5 Instruktionen koennen natuerlich auf Papier von den Vec5 ALUs ausgefuehrt werden, nur duerfte der Durschnitt wohl eher zwischen 3 und 4 in Echtzeit liegen und das eben nicht nur wegen special function calls.
Gipsel
2010-04-07, 14:42:08
...alles was ich dazufuegte ist dass es nicht unbedingt Vec4 + SFU sein muss, sondern auch Vec4 + (SFU oder "1/2 Vec") sein koennte. Ich glaube, alles was Deekey gerade sagen wollte ist, daß die ATIs gar keine Vec4+1 oder Vec5 oder irgendwelche Vec*-Einheiten haben, sondern VLIW-Einheiten mit 5 praktisch unabhängigen Slots. Der Unterschied ist, daß mit ATIs Lösung der ILP für skalare Probleme ausgenutzt werden kann, mit wirklichen Vec-Einheiten geht das schwierig bis gar nicht.
deekey777
2010-04-07, 15:23:01
Wobei: Was hat sich ATi dabei gedacht, 5 ALUs/Slot/was auch immer zu intergrieren?
Die Vertex-Shader-ALUs der X1000-Serie (und älter?) waren Vec4+1, die US-ALUs des C-1 sind es auch. Was war die Überlegung beim R600 und aufwärts?
Gipsel
2010-04-07, 15:55:16
Wobei: Was hat sich ATi dabei gedacht, 5 ALUs/Slot/was auch immer zu intergrieren?
Die Vertex-Shader-ALUs der X1000-Serie (und älter?) waren Vec4+1, die US-ALUs des C-1 sind es auch. Was war die Überlegung beim R600 und aufwärts?
Es bringt Performance-Vorteile (insbesondere bei eher skalaren Problemen) für recht geringe Kosten. Die Instruktionen werden zwar deutlich größer (die Bundles bestehen ja aus 5 einzelnen Instruktionen + zwei 64bit Konstanten) und müssen an jeden Slot der VLIW-Einheiten verteilt werden, fallen aber auch nur alle 4 Takte pro SIMD an, sprich das ist vom Aufwand und den Anforderungen an die Instruktionscache-Bandbreite beherrschbar. Dann kommt noch eine etwas flexiblere Distribution der aus den Registerfiles gelesenen Werte dazu (bei nv heißt das wohl Operand-Collector) und man ist schon fast fertig.
Ein Mehraufwand liegt noch auf Softwareseite im JIT-Shadercompiler, der den ILP aus dem Instruktionsstream extrahieren und entsprechende VLIW-Bundles packen muß.
Ailuros
2010-04-08, 07:58:18
Ich glaube, alles was Deekey gerade sagen wollte ist, daß die ATIs gar keine Vec4+1 oder Vec5 oder irgendwelche Vec*-Einheiten haben, sondern VLIW-Einheiten mit 5 praktisch unabhängigen Slots. Der Unterschied ist, daß mit ATIs Lösung der ILP für skalare Probleme ausgenutzt werden kann, mit wirklichen Vec-Einheiten geht das schwierig bis gar nicht.
Ich bezweifle dass mich deekey nach der letzten Erlaeuterung nicht verstanden hat; ich hab lediglich erklaert wie sich die Debatte entwickelte.
Insgesamt ist zwar ATI's ILP Loesung nicht schlecht, aber "superskalar" wuerde ich es auch nicht unbedingt nennen obwohl skalare Probleme geloest werden.
Zwar verdammt OT und schwer relevant da vom eingebetteten Markt aber IMG loest es mit ihren ALUs in dem Fall anders: http://www.imgtec.com/factsheets/SDK/POWERVR%20SGX.OpenGL%20ES%202.0%20Application%20Development%20Recommendations.1. 8f.External.pdf
Seite 19
Wenn ATI ihre ALUs superskalar nennen darf, dann kann man auch eventuell IMG's ALUs als MIMD bezeichnen, obwohl beides relativ uebertrieben ist und im strengen CPU Sinn ein Missbrauch der jeweiligen Beschreibung ist.
Aquaschaf
2010-04-08, 09:11:51
Insgesamt ist zwar ATI's ILP Loesung nicht schlecht, aber "superskalar" wuerde ich es auch nicht unbedingt nennen obwohl skalare Probleme geloest werden.
Die treffende Bezeichnung ist schlicht "VLIW". Superskalar in dem Sinne in dem es bei CPUs verwendet wird heißt dass die Hardware ILP im Instruktionsstrom findet, während hier das die Aufgabe des Compilers ist. Superskalar kommt der Sache aber schon viel näher als "Vec5" oder ähnliches.
Ailuros
2010-04-08, 09:22:30
Vec5 wird IMO hauptsaechlich benutzt damit es dem einfachen Leser auch klar wird dass es sich um 5 Kanaele pro ALU handelt.
Aquaschaf
2010-04-08, 10:08:38
Klar, solange die Leser uninformiert genug sind um den Unterschied zu kennen ist das eine zulässige Vereinfachung.
Vec5 wird IMO hauptsaechlich benutzt damit es dem einfachen Leser auch klar wird dass es sich um 5 Kanaele pro ALU handelt.
Impliziert aber auch, dass es eben keine 5 unabhängige Kanäle sind. Wäre vielleicht Vec(5*1) besser?
Ailuros
2010-04-08, 15:10:53
Impliziert aber auch, dass es eben keine 5 unabhängige Kanäle sind. Wäre vielleicht Vec(5*1) besser?
Dann beschreibe es von mir aus als 5D fuer ATI's VLiW ALUs und 1D fuer NV's "skalare" ALUs.
Sorkalm
2010-04-16, 12:46:13
You plan for GPU migration onto Global Foundries, is that still a 28 nanometer and are they still on track to get you some 28 nanometer products by the end of the year?
Derrick Meyer: Yes to the first one; that is the first intersection of our AMD GPU’s and Global Foundries 28 nanometers. We haven’t been public with respect to any timing there.
Aus dem Conference Call zu den aktuellen Quartalszahlen (Seite 8 (http://seekingalpha.com/article/199031-advanced-micro-devices-inc-q1-2010-earnings-call-transcript?page=8)).
Ailuros
2010-04-16, 13:36:38
Klarer haette er gar nicht sein koennen; ergo H2 10' TSMC 40G und H1 11' GF 28nm.
http://www.semiaccurate.com/2010/04/21/atis-southern-islands-tapes-out/
ATI's Southern Islands tapes out
Game over for Nvidia
Die Wortwahl immer......;-)
mapel110
2010-04-21, 18:06:13
Da kommt dann wohl noch ein Metal Spin hinterher und dann dürfte es in etwa 2-3 Monaten soweit sein?!
Dürfte aber an der Preisgestaltung beider IHVs wieder nichts ändern, weil TSMC nicht mit dem Produzieren hinterher kommt.
2,3monate? vergiss es, vom tapeout zur veroeffentlichung dauerts doch laenger.
Triskaine
2010-04-21, 18:13:13
Oktober-November ist ein realistischer Zeitraum für eine Veröffentlichung.
Samples im 2. Quartal, vermarktung Juli/August
Ailuros
2010-04-21, 18:15:15
Da kommt dann wohl noch ein Metal Spin hinterher und dann dürfte es in etwa 2-3 Monaten soweit sein?!
Dürfte aber an der Preisgestaltung beider IHVs wieder nichts ändern, weil TSMC nicht mit dem Produzieren hinterher kommt.
Cypress tape-out war ~Februar 2009 und sie warteten noch ca. 1 Monat bis 40G etwas anstaendiger wurde afaik. Wenn alles nach Plan geht ca. 6 Monate.
also im August? oder September?
Triskaine
2010-04-21, 20:19:20
Oktober, wenn der Tapeout wirklich Anfang diesen Monats war. Vielleicht kann ja Ailuros irgendwann noch was genaues von seinen Quellen erfahren.
Ailuros
2010-04-22, 08:02:36
Oktober, wenn der Tapeout wirklich Anfang diesen Monats war. Vielleicht kann ja Ailuros irgendwann noch was genaues von seinen Quellen erfahren.
Oktober klingt momentan als ziemlich logisch. TSMC setzt irgendwo in Q3 Fab14 fuer 40G ein, was bedeutet dass die heutige maximale Kapazitaet (Fab12= 80.000 wafers/quarter) sich mit Fab14 verdoppelt.
Ueber die Konkurrenz braucht sich AMD sowieso keine besonderen Sorgen machen. Im besten Fall kommt NV (wenn auch alles nach Plan laeuft) mit einem re-spin unter 40G an und Wunder kann man von einem re-spin nicht erwarten.
http://forum.beyond3d.com/showpost.php?p=1423293&postcount=664
"performance for the 6700 model is targeted 20% over the GTX480. tape-out was a bit longer ago than just recently. FLOP throughput on the 6800 might be 4 times faster "
könnte also so aussehen: 6770 (oder 50) im Aug./Sept. (40nm bei TSMC), 20% schneller als GTX 480, ~ 4 TFlop Leistung
6870 im Feb/Mrz 2011 in 28nm bei GloFo - (16TFlop ???), 100 bis 150% schneller als GTX 480 ??? (die 4x Flop Leistung würde für einen noch größeren Sprung sprechen, oder?)
(und eine geschrumpfte 6770 in 28nm versteht sich)
AnarchX
2010-04-22, 12:00:08
Wo steht da in der Quelle etwas von 4 oder 16 TFLOPs?
Um eine GTX 480 um 20% zu schlagen, braucht man nicht mehr FLOPs sondern ein besseres Front-End. Wenn man hier im Thread mitgelesen hat, wären sogar weniger FLOPs als bei einer HD 5870 für die 20% schneller "HD 6770" nicht verwunderlich.
Der Faktor 4 bei den FLOPs von HD6800 zu HD6700 klingt auch etwas seltsam, wobei ich mir vorstellen könnte, dass man der HD6800-GPU vielleicht einen GPGPU-Bonus mit 160SPs SIMDs verpasst, wovon man aber in traditionellen Spieler weniger profitieren kann.
Wild gesponnen:
HD6700-GPU
80 TMUs, 1280 SPs, 32 ROPs, 256-Bit
800-900MHz GPU, 2,8-2,9GHz GDDR5
~350mm² @ 40nm TSMC
HD6800-GPU
160 TMUs, 5120 SPs, 64 ROPs, 512-Bit
800-900MHz GPU, 2,8-2,9GHz GDDR5
~400mm² @ 28nm GF
Beide natürlich mit einem verbesserten und skalierbaren Front-End.
Nicht ganz richtig. Die HD6700 wird eine 5800 mit leicht überarbeiteten Shadern und neuem Frontend bei gleicher Einheitenanzahl. Also 1600SP/80TMU/32ROPs, über die 28nm GPUs weiß ich noch nicht verlässliches.
Wenn man dem Beyond3D Kommentar glaubt würde das 6400SPs bedeuten.
R.I.P.
2010-04-22, 13:40:55
:ucoffee: Mir ist zum Heulen :redface:
Also doch bis Oktober warten, bis zur 6XXX Generation.....nur hoffen, daß dann anfänglich nicht nur 1GB RAM Versionen rauskommen....aaargh....wollte meinem neuen PC endlich nach Vollendung des Gehäuses Eingeweide spendieren :ubash3:
Spasstiger
2010-04-22, 14:08:04
6400 SPs, wo sollen die denn hinpassen? So ein 80-SP-SIMD eines Cypress belegt in 40-nm-Fertigung geschätzt 6-7 mm². Bei Cypress sind das also 120-140 mm². 6400 SPs würden in 40 nm satte 480-560 mm², in 28 nm immer noch 250-290 mm² bedeuten. Selbst wenn die SIMDs die Hälfte der Chipfläche belegen würden (was schon pervers viel wäre), landet man bei einem Chip mit über 500 mm² Diefläche. Passt imo nicht so ganz zu AMD.
6400 SPs, wo sollen die denn hinpassen? So ein 80-SP-SIMD eines Cypress belegt in 40-nm-Fertigung geschätzt 6-7 mm². Bei Cypress sind das also 120-140 mm². 6400 SPs würden in 40 nm satte 480-560 mm², in 28 nm immer noch 250-290 mm² bedeuten. Selbst wenn die SIMDs die Hälfte der Chipfläche belegen würden (was schon pervers viel wäre), landet man bei einem Chip mit über 500 mm² Diefläche. Passt imo nicht so ganz zu AMD.
Jupp, v.a. belegt das NI Uncore vermutlich auch mehr Fläche.
Charlie bei Semiaccurate spekuliert deshalb nur mit 1920 Shader und eventuell 384bit Interface. Je nachdem.
Henroldus
2010-04-22, 14:18:06
Der Faktor 4 bei den FLOPs von HD6800 zu HD6700 klingt auch etwas seltsam, wobei ich mir vorstellen könnte, dass man der HD6800-GPU vielleicht einen GPUGPU-Bonus mit 160SPs SIMDs verpasst, wovon man aber in traditionellen Spieler weniger profitieren kann.
Du meinst sicher GPGPU ;) um dem Fermi dahingehend was entgegenzustellen.
Für Spieler nach wie vor nicht relevant und Consumerbereich daher Platz(Flächen)verschwendung
N0Thing
2010-04-22, 15:05:36
HD6800-GPU
160 TMUs, 5120 SPs, 64 ROPs, 512-Bit
800-900MHz GPU, 2,8-2,9GHz GDDR5
~400mm² @ 28nm GF
Ich kann mir nicht vorstellen, daß die größten und schnellsten Chips dieses/nächstes Jahr bei GF gefertigt werden.
Würde man nicht eher kleinere Chips zum Testen benutzen und eher bei TSCM die riskanteren (größeren) Chips produzieren?
Undertaker
2010-04-22, 15:13:23
Generell muten 400mm² und 512Bit etwas zu massiv an...
Iruwen
2010-04-22, 15:18:28
Ich kann mir nicht vorstellen, daß die größten und schnellsten Chips dieses/nächstes Jahr bei GF gefertigt werden.
Würde man nicht eher kleinere Chips zum Testen benutzen und eher bei TSCM die riskanteren (größeren) Chips produzieren?
Den 40nm Prozess bei TSMC kennt man mit all seinen Tücken, wenn man schon den Prozess wechselt kann man das auch gleich mit einem Herstellerwechsel verbinden, zumal ich nach den ganzen 40nm Scherereien auch eher in GF als TSMC vertrauen würde.
Generell muten 400mm² und 512Bit etwas zu massiv an...
Schon Cypress wäre an die 500mm² geworden ohne die 40nm Probleme. Vermutlich kommt jetzt erstmal in H2 der "richtige" Cypress und dann in H2 der "Northern-Island"-Hammer.
Der RV870 sollte ursprünglich auch sehr groß sein, ca. GT200 größe
boxleitnerb
2010-04-22, 16:33:03
Vielleicht könnte die nächste Runde wieder an AMD gehen. Sie haben mehr Luft nach oben was TDP und Chipgröße angeht, wenn sie dann nicht wieder so zaghaft sind, könnte das ein Hammer werden. Rein leistungstechnisch.
Aquaschaf
2010-04-22, 16:40:43
Die sollen sich bloß endlich mal zu ordentlicher Texturfilterung durchringen :(
Henroldus
2010-04-22, 16:51:35
Vielleicht könnte die nächste Runde wieder an AMD gehen.
:confused:
ich sehe die letzte Runde immernoch BEI AMD.
nach langer Verzögerung ist Nvidia gerademal knapp an die Leistungsspitze gesprungen und das mit roher Gewalt und Ineffizienz.
Zum Kaufpreis der Fermis kann man meist noch ein Netzteil mit einplanen.
Wer hier unter Zugzwang steht ist auch nach der GTX4x0ern klar.
boxleitnerb
2010-04-22, 16:58:22
:confused:
ich sehe die letzte Runde immernoch BEI AMD.
nach langer Verzögerung ist Nvidia gerademal knapp an die Leistungsspitze gesprungen und das mit roher Gewalt und Ineffizienz.
Zum Kaufpreis der Fermis kann man meist noch ein Netzteil mit einplanen.
Wer hier unter Zugzwang steht ist auch nach der GTX4x0ern klar.
Als Gesamtpaket ja, wenn man aber ausschließlich auf die Performance schaut, nicht ganz. Speziell nicht in DX11. Vielen ist egal, wie Leistung erreicht wird. Es wäre für AMD sicherlich psychologisch ein enormer Gewinn, wenn man Fermi reloaded (wenn auch knapp) schlagen könnte. SGPU natürlich.
Wer ist eigentlich dieser Neliz? Ich hab den Namen schon gehört, kann ihn aber nicht zuordnen. Kann man seine Aussagen als gesichert betrachten?
Gipsel
2010-04-23, 00:49:50
Wo steht da in der Quelle etwas von 4 oder 16 TFLOPs?
[..]
Der Faktor 4 bei den FLOPs von HD6800 zu HD6700 klingt auch etwas seltsam, wobei ich mir vorstellen könnte, dass man der HD6800-GPU vielleicht einen GPGPU-Bonus mit 160SPs SIMDs verpasst, wovon man aber in traditionellen Spieler weniger profitieren kann.
Der Faktor 4 gilt wohl gegenüber einem GF100 mit momentan 1,34TFlop/s in Form der GTX480, oder vielleicht auch gegen die vollen 512 SP bei 1.5GHz (1.54 TFlop/s). Das ergibt also maximal 6 TFlop/s für die HD6870. Bei normalen Taktraten von wahrscheinlich knapp 1GHz kann man also etwa einen doppelten Cypress erwarten, natürlich mit erheblichen Verbesserungen am Frontend, den Caches und 4 FMA/MADD ALUs und einer SFU (ohne FMA) pro VLIW.
mboeller
2010-04-23, 07:51:28
Hier noch eine weitere Zusammenstellung von ferro @ Beyond3D:
I think neliz got his information from tweakers.net rumors. A rough translation/interpretation from tweakers.net:
Hybrid Evergreen/NI
Much improved stream processor architecture
Much improved tesselation unit with 3 or 4 times Cypress performance
Enhanced rasterizer for improved efficiency
Improved UVD unit
Improved cache architecture for better GPGPU performance
6600 has 1 "SP module", 40nm, planned for Q4 2010
6700 has 2 "SP modules", 40nm, 10-20% faster than GF100 with 512SP, 400-440mm2, planned for Q3 2010
6800 has 4 "SP modules", 28nm, 512 bit memory bus, planned for Q1 2011
mboeller
2010-04-23, 08:01:08
.......und 4 FMA/MADD ALUs und einer SFU (ohne FMA) pro VLIW.
Dazu habe ich mal eine Frage.
AFAIK arbeiten doch Nvidia und Intel (Larrabee) so, das sie zwar 4 ALUs in Reihe haben, aber damit jeweils 4 Befehle gleichzeitig abarbeiten. Die 2-4 Komponenten pro Befehl werden nacheinander in die einzelnen ALUs geschoben. Dadurch braucht 1 Befehl 2-x Takte, je nach Anzahl der Komponenten xyzw.. [Die Beschreibung klingt ziemlich doff, aber ich weiß nicht wie ich es momentan besser ausdrücken soll; ist auch noch ein wenig früh und der Kaffee wirkt noch nicht]
Bei AMD ist es ja bisher so, das die Komponenten der Befehle auf die 4-5 ALUs aufgeteilt werden und damit 1 Befehl pro Takt abgearbeitet wird.
Vielleicht stellt AMD bei den SI/NI das System um und macht es jetzt so wie Nvidia/Intel? Andernfalls macht es zumindest für mich (als Laien) keinen Sinn an der ganzen Architektur was zu ändern.
Übrigens (ist mir heute früh spontan eingefallen):
SI = Taiwan
NI = Dresden
Dresden ist zwar keine Insel, aber ansonsten könnte es passen.. ;)
Ailuros
2010-04-23, 10:03:27
Hier noch eine weitere Zusammenstellung von ferro @ Beyond3D:
Neliz hat es ein bisschen besser erlaeutert was er meinte:
my 4x should be 2x too busy and posting too hurried.)
a 6700 would be faster than GTX480 and 5870. So a 6700 would have around 3TFlop @40nm and a 6800 would have 6TFlop at 28nm but not show up until somewhere in 2011.
I think "increased efficiency" is the keyword of the coming AMD designs.
http://forum.beyond3d.com/showthread.php?t=55313&page=29
3 TFLOPs liegt auch innerhalb meiner persoenlichen Erwartungen (koennen auch total falsch sein) und ich rechne nach wie vor mit 9 FLOPs/ALU ;)
AnarchX
2010-04-23, 10:14:41
3 TFLOPs liegt auch innerhalb meiner persoenlichen Erwartungen (koennen auch total falsch sein) und ich rechne nach wie vor mit 9 FLOPs/ALU ;)
9 FLOPs? Der 5 Slot liefert dann wohl nur noch ein ADD bzw. ein MUL?
~20% gegenüber einer GTX 480 wären wohl 40-50% gegenüber der HD5870.
6800 ist dann eine GPU oder wieder ne Dual-Lösung?
2B-Maverick
2010-04-23, 10:31:01
6800 ist dann eine GPU oder wieder ne Dual-Lösung?
Wenns in 28nm kommt wirds eine einzelne GPU.
AnarchX
2010-04-23, 10:32:45
6800 ist dann eine GPU oder wieder ne Dual-Lösung?
Laut momentanen Stand eine 28nm Single-GPU, die dann wohl einer potentiellen HD6900 (~10 TFLOPs?) wieder als Basis dient.
Aber vielleicht gibt es mit NI auch eine Neuerung, z.B. in eine solche Richtung: http://www.forum-3dcenter.org/vbulletin/showthread.php?t=474623
Ailuros
2010-04-23, 10:34:12
9 FLOPs? Der 5 Slot liefert dann wohl nur noch ein ADD bzw. ein MUL?
Ist aber nur mein eigenes Bauchgefuehl, ergo verlass Dich nicht darauf.
~20% gegenüber einer GTX 480 wären wohl 40-50% gegenüber der HD5870.
Yeahrightsureok...:rolleyes:
OgrEGT
2010-04-24, 19:16:14
Hier noch eine weitere Zusammenstellung von ferro @ Beyond3D:
Sofern 400-440 mm2 für die 6700 zutreffen, so sollte sich bei gleichem Herstellprozess, welcher bis dahin ja eigentlich nur noch besser werden kann, auch die Leistungsaufnahme in Grenzen halten, zumindest wenn sich "increased efficiency" auch hierauf beziehen sollte.
Wieder mal ne Milchmädchenrechnung :smile:
RV870:
2.15 Mrd. Transistoren bei 338 mm2 bei 188W max.
RV9xx (6700)
2.5-2.8 Mrd. Transistoren bei 400-440 mm2 bei < 240W max. (<225W bei gesteigerter Effizienz, somit 2x6 Pin)
Annahmen:
- ähnliche Packdichte
- vergleichbare Taktfrequenz
- ähnlich gut auf den Prozess abgestimmtes Design, was man erwarten dürfte, da die Shaderprozessoren, welche einen Hauptteil des Chips ausmachen von RV870 übernommen werden
Gibt's vielleicht einen genaueren Termin? Zur Computex ein paar Prototypen und Benchmarks zu erwarten, dürfte es zu früh sein, richtig?
Nakai
2010-04-25, 11:40:43
6600 has 1 "SP module", 40nm, planned for Q4 2010
6700 has 2 "SP modules", 40nm, 10-20% faster than GF100 with 512SP, 400-440mm2, planned for Q3 2010
6800 has 4 "SP modules", 28nm, 512 bit memory bus, planned for Q1 2011
Was ist ein module?
3 TFLOPs liegt auch innerhalb meiner persoenlichen Erwartungen (koennen auch total falsch sein) und ich rechne nach wie vor mit 9 FLOPs/ALU
Okay, nehmen wir mal 800SPs pro Modul. Bei 9 FLOPs/ALU wären das bei 850MHz etwa 1200GFLOPs. Entweder man geht über den Takt oder über die Einheitenzahl. Letzeres ist wohl mehr denkbar. Sind wohl 960SPs pro Modul.
Wer sagt denn eigentlich, dass auch ATI mit 9 FLOPs rechnet?
Advanced
2010-04-25, 11:52:11
Wärem 400mm2+ nicht ein bisschen viel für einen ATI-Mainstream-Chip?
Der_Korken
2010-04-25, 11:55:47
Wollte ATI nicht die Shader der RV8xx-Reihe übernehmen und nur den Uncore-Teil überarbeiten? Weil die 9 FLOPs/ALU passen da nicht so recht ins Bild.
boxleitnerb
2010-04-25, 11:58:51
Wärem 400mm2+ nicht ein bisschen viel für einen ATI-Mainstream-Chip?
Vielleicht haben sie ja diesmal höhere Ambitionen? Solange sich der Verbrauch in Grenzen hält und deutliche Mehrperformance rauskommt, kann man das nur begrüßen.
Adam D.
2010-04-25, 13:10:36
Vielleicht haben sie ja diesmal höhere Ambitionen? Solange sich der Verbrauch in Grenzen hält und deutliche Mehrperformance rauskommt, kann man das nur begrüßen.
Gibt es zur Zeit einen Grund, der ATi zu einem Strategiewechsel in diese Richtung drängen würde? Ich seh keinen.
Spasstiger
2010-04-25, 13:26:25
Wärem 400mm2+ nicht ein bisschen viel für einen ATI-Mainstream-Chip?
Eine GPU, die schneller ist als ein GF100 und 2010 erscheint, ist imo nicht Mainstream, sondern High-End.
ATI will Nvidia diesmal mit großen Vorsprung überholen
die HD6870 könnte die GTX480 um Faktor 2 schlagen
boxleitnerb
2010-04-25, 13:34:58
Gibt es zur Zeit einen Grund, der ATi zu einem Strategiewechsel in diese Richtung drängen würde? Ich seh keinen.
Einen zwingenden Grund vielleicht nicht, aber vielleicht will man endlich mal wieder richtig obenauf sein durch die Bank.
Sorkalm
2010-04-25, 13:42:05
Gibt es zur Zeit einen Grund, der ATi zu einem Strategiewechsel in diese Richtung drängen würde? Ich seh keinen.
Nö, ich wüsste auch nicht wieso sie das machen sollten. Oben mitspielen wollten sie immer mit der Dual-Karte, das war der Ursprungsplan, mit dem man bisher ganz gut gefahren ist (wenn man sich mal das minimalistische Entwicklungsbudget anschaut).
Kann natürlich trotzdem sein, dass Souther Island wieder nen Tick größer ist als die Zypresse, das ist dann halt so eine langsame "immer ein kleines bisschen größer" Entwicklung. Kostenmäßig wäre der dann vll. sogar zu Southern Island identisch, wenn man angenommen hat, dass die Prozesskosten über ein Jahr ca. etwas sinken.
Aber 400mm2 ist sicher kein Performance-Chip (und wird sicher nicht 6700 heißen wie es jetzt irgendwo hieß). Das ist Bullshit.
Der RV870 sollte ursprünglich über 500mm² groß ausfallen, AMD wusste das TSMC 40nm Prozess Probleme macht, deshalb hat man sich dafür entschieden, den Chip kleiner zu bauen, deshalb auch nur 1600 Streamprozessoren im RV870.
Psychopat
2010-04-25, 14:05:07
Falsche Info, beim Cypress wurden gerade die Stream-Prozessoren NICHT reduziert. Was sicher weggefallen ist, ist der Sideport. Ich könnte mir auch vorstellen, das ursprünglich eine höhere Tesselation-Leistung geplant war.
Zum 400mm² SI: Vielleicht ist ja die Strategie "wir machen das, weil wir es können". Andererseits läuft die Entwicklung ja schon länger und Fermi wurde von AMD stärker eingeschätzt. Also, der 400mm² SI war ursprünglich als Antwort auf einen starken Fermi eingeplant gewesen.
Southern Islands Mix war früher nie geplant!
Nach dem RV870 sollte der RV970 in 32nm bulk kommen, leider hat man diesen Prozess gestrichen, deshalb ein Mix aus RV870 & Northern Islands in 40nm, die Chipfläche muss in 40nm größer ausfallen, damit mehr SP Einheiten reinpassen.
Psychopat
2010-04-25, 14:22:42
Definiere "früher".
Das 32nm Bulk bei GF gestrichen wurde dürfte AMD intern schon lange bekannt sein. Ab dem Zeitpunkt hat man SI geplant.
Botcruscher
2010-04-25, 15:27:26
Früher im Sinne von warum hat der Chip 400+ mm². Weil es halt ein Kompromiss ist.
Gipsel
2010-04-25, 15:37:11
Dazu habe ich mal eine Frage.
AFAIK arbeiten doch Nvidia und Intel (Larrabee) so, das sie zwar 4 ALUs in Reihe haben, aber damit jeweils 4 Befehle gleichzeitig abarbeiten. Die 2-4 Komponenten pro Befehl werden nacheinander in die einzelnen ALUs geschoben. Dadurch braucht 1 Befehl 2-x Takte, je nach Anzahl der Komponenten xyzw.. [Die Beschreibung klingt ziemlich doff, aber ich weiß nicht wie ich es momentan besser ausdrücken soll; ist auch noch ein wenig früh und der Kaffee wirkt noch nicht]
Bei AMD ist es ja bisher so, das die Komponenten der Befehle auf die 4-5 ALUs aufgeteilt werden und damit 1 Befehl pro Takt abgearbeitet wird.
Vielleicht stellt AMD bei den SI/NI das System um und macht es jetzt so wie Nvidia/Intel? Andernfalls macht es zumindest für mich (als Laien) keinen Sinn an der ganzen Architektur was zu ändern.
Hmm, irgendwie verstehe ich Deine Beschreibung nicht so ganz.
Eine VLIW-Einheit bei ATI besteht aus 5 Untereinheiten. Vier davon (xyzw) sind praktisch identisch und für alle normalen Operationen zuständig während die fünfte (t) etwas größer ausfällt und zusätzlich(*) noch die transzendenten Funktionen, Konversionen, 32bit Integer Multiplikationen usw. beherrscht.
Um diese Einheiten auszulasten, muß der Compiler Parallelität finden. Für Grafikanwendungen ist das meist einfach, da üblicherweise (aber natürlich nicht immer) mit vierkomponentigen Vektoren (bei Vertices xyzw, daher auch der Name der Einheiten, bei Pixeln dann rgba) gearbeitet wird. Die Hardware ist also gewissermaßen auf den typischen Anwendungsfall zugeschnitten. Nvidia dagegen arbeitet mit skalaren Einheiten, die auch ohne Parallelität innerhalb eines Threads mit voller Auslastung arbeiten können. Bei Larrabee ist es übrigens genauso.
Was bei ATI und Nvidia sozusagen nacheinander in einer Einheit ausgeführt wird, sind Threads einer Wavefront/Warp. Die Anzahl der Einheiten in einem SIMD ist ja nur ein Viertel der Größe einer Wavefront/Warp (bei GF100 die Hälfte). Jede Einheit bekommt also 4 Takte in Folge genau den gleichen Befehl nur für jeweils andere Eingangsdaten, die logische SIMD-Größe ist praktisch 4 mal so groß.
Die Ausführung eines Befehls dauert bei ATI übrigens 8 Takte, es wechseln sich immer 2 Wavefronts in einem SIMD ab (ist so eine Art Multithreading). Bei nvidias G80 und GT200 dauert die Ausführung sogar 24 Takte, man benötigt also 6 sich abwechselnde Warps, um die Einheiten voll auszulasten. Dieses Scheduling ist bei nvidia übrigens demzufolge auch sehr viel aufwendiger gelöst als bei ATI.
Bei SI/NI wird sich an der grundsätzlichen Organisation der Shader meiner Meinung nach nicht soo viel ändern. Was möglich wäre, ist die t-Einheit etwas abzuspecken, so daß sie mehr den SFUs bei nvidia entspricht. Auch bei Cypress wurden schon die Erweiterungen der xyzw-ALUs nicht vollständig in die t-Enheit übernommen (die hat dafür andere Funktionen zusätzlich spendiert bekommen). Eine weitere Entwicklung in diese Richtung wäre nur logisch.
(*) Bei Cypress stimmt das nicht mehr so gut, da die t-Einheit z.B. nur MADD und kein FMA wie die xyzw-ALUs kann.
Gipsel
2010-04-25, 15:40:08
Der RV870 sollte ursprünglich über 500mm² groß ausfallen
Also laut Aussage der Verantwortlichen (bei anandtech) wurde Cypress von geplanten 20-22mm Kantenlänge des Dies auf 18mm Kantenlänge geschrumpft. Das wäre also ein Bereich von 400 - 484 mm².
Ailuros
2010-04-25, 16:56:38
Also laut Aussage der Verantwortlichen (bei anandtech) wurde Cypress von geplanten 20-22mm Kantenlänge des Dies auf 18mm Kantenlänge geschrumpft. Das wäre also ein Bereich von 400 - 484 mm².
Hoechstwahrscheinlich eher naeher am 400mm2 Wert.
Carrell reluctantly went along with the desire to build a 400+ mm2 RV870 because he believed that when engineering wakes up and realizes that this isn’t going to be cheap, they’d be having another discussion.
http://www.anandtech.com/show/2937/4
Eric was telling me about how they trimmed down 870 from over 400mm2 down to 334mm2 and how wonderful the end product was.
http://www.anandtech.com/show/2937/5
Natuerlich wird mehr als einmal 20-22mm runter auf 18mm auf einer Seite erwaehnt, aber ich bezweifle dass sie etwas oberhalb der 2.8 Mrd. Transistoren-Grenze geplant hatten.
Duplex
2010-04-25, 18:24:15
wenn die Yields sich bei TSMC verbessern spielt die Chipgröße keine Rolle mehr,
der GT200 auch Riesenchip von Nvidia wurde im 65/55nm Verfahren gefertigt, bei der Produktion gab es wegen der Chipgröße keine Probleme, nur die Produktionskosten waren sehr hoch. Wenn ATI ein Chip der 450-500mm² groß ist baut muss die Karte im Markt aber teuerer sein als aktuell 334mm² HD5850 270 € / 5870 350 €. Eine HD6000 wird dann 350-500 € kosten, vorrausgesetzt die Chips werden ca. 500mm² groß
AffenJack
2010-04-25, 20:54:03
Gibt es zur Zeit einen Grund, der ATi zu einem Strategiewechsel in diese Richtung drängen würde? Ich seh keinen.
War das denn überhaupt eine Strategie oder wurde das eher aus der Not erfunden, weil man entwicklungskosten sparen wollte ist die frage. Der Trend geht auf jeden Fall auch bei AMD zu größeren Chips. Mit nem 400mm² Chip ist man im High-End Bereich und ne Dualversion dürfte auch schwer zu realisieren sein. Der Stromverbrauch im Vergleich zu Cypress wird nicht runter gehen und man müsste noch mehr abschalten, als mans jetzt schon bei der 5970 macht.
Spasstiger
2010-04-25, 21:03:31
und man müsste noch mehr abschalten, als mans jetzt schon bei der 5970 macht.
Bei der HD 5970 ist nix abgeschaltet. Die Taktraten sind lediglich etwas niedriger als bei der HD 5870, um eben die 300 Watt TDP einhalten zu können. Ich weiß nicht, warum manche Leute immer wieder behaupten, die HD 5970 sei eine HD 5850 X2.
ATI hatte übrigens bislang einen >400-mm²-Chip und der war bekanntermaßen ein Flop bzw. musste unter Wert verkauft werden (ich hab für meine neue R600-Karte 130€ gezahlt - gerade mal 7 Monate nach Release des R600). Mal abwarten, ob sich die Geschichte wiederholt. Es ist auf jeden Fall ein größeres Risiko als ein 334-mm²-Chip im gleichen Fertigungsprozess.
Ailuros
2010-04-26, 07:12:02
ATI hatte übrigens bislang einen >400-mm²-Chip und der war bekanntermaßen ein Flop bzw. musste unter Wert verkauft werden (ich hab für meine neue R600-Karte 130€ gezahlt - gerade mal 7 Monate nach Release des R600). Mal abwarten, ob sich die Geschichte wiederholt. Es ist auf jeden Fall ein größeres Risiko als ein 334-mm²-Chip im gleichen Fertigungsprozess.
Mit dem klitzekleinen Unterschied dass R600 als Ausgangspunkt single chip high end war auf eine problematischen Herstellungsprozess, welches bei Cypress nicht der Fall ist (performance chip). AMD kann Leistung fuer einen refresh entweder durch mehr Einheiten + Effizienz-Steigerungen oder Frequenz skalieren. Da 28nm vor 2011 nicht erhaeltlich sein wird und Frequenz-steigerungen riskanter sind mit einem Prozess wie 40G, ist die erste Option auch sinnvoller.
Und was soll daran genau schief gehen? Im schlimmsten Fall ist das Resultat nur um so viel schneller als eine 4890 im Vergleich zur 4870. Cypress hat weder die falschen Design-Entscheidungen von R600 noch kam sie 6 Monate spaeter als der direkte Konkurrent an. NV muss erstmal kaempfen GF100 anstaendiger auf die Beine zu kriegen und auch die kleinere GF10x auf die Regale zu bringen. AMD koennte sich sogar zuruecklehnen und bis zu 28nm gar nichts mehr veroeffentlichen und sie waeren immer noch im Vorteil.
Also die Daten halte ich für reine Erfindung.
1.) soll ja noch kein Grafikchip Anfang 2011 von GF kommen sondern bestenfalls Ende 2011 und TSMC hat 28nm wohl erst 2012 soweit, dass man damit auch produzieren kann
2.) glaube ich nicht an einen massiven Chip, die Strategie war bisher immer den Sweetspot zu finden, was ja auch sehr gut gelang
3.) widerspreche ich mal einfach, wenn jemand behauptet, Cypress sei mit 500mm² geplant gewesen. Das kann jeder behaupten, widerspricht aber der bisherigen Strategie fundamental und ist damit unwahrscheinlich, da es sich eigentlich um einen Refresh handelt und nicht um die Einführung einer neuen Architektur. Man könnte höchstens spekulieren, dass man Cypress eingeschoben hat, damit die neue Architektur mehr Zeit hat - das kann aber niemand wissen, der nicht direkt damit zu tun hat...
4.) Des Weiteren ist ein Mischmasch der Generation sowieso Unsinn. Entweder es kommt eine 28nm Reihe in 2011 und garkeine 40nm-Refreshes mehr oder es kommt noch ein 40nm Refresh, weil der 28nm-Prozess noch zu weit weg ist, aber nicht beides.
5.) Stinkt die Aussage 400mm² für x7xx schon gewalting nach Schwachsinn...
Ich würde spekulieren, dass es einen weitere 40nm-Generation gibt (die 6er-Generation), der die neue Architektur einführt, jedoch nicht als Gesamtpaket effektiver/schneller ist als die jetzigen Cypress-Chips, dafür aber etwas grösser und eben anders. Eine Grundlage für weitere Shrinks eben, wovon der erste dann irgenwann in 2011 als 28nm-Varianten als 7xxx-Generation kommt. Könnte man evtl. vergleichen mit dem Spung vom R580 auf R600 (der immernoch Stammvater des Cypress ist i.Ü.) und dann als Sprung auf den RV770 (RV670 lass ich mal weg, das war ja nicht mehr als eine R600-Rettung).
wie siehts aktuell aus(?)
Ailuros
2010-05-10, 07:01:57
Bin mir zwar nicht sicher aber afaik SI@40G/TSMC Ende September/October 2010 und NI@28/GF Ende Fruehling 2011?
also muss man noch etwa 5 Monate rechnen
kommen auch Enthusiast Modelle auf SI 40nm Basis?
Burgard
2010-05-10, 18:56:29
also muss man noch etwa 5 Monate rechnen
kommen auch Enthusiast Modelle auf SI 40nm Basis?
Wäre anzunehmen.
Es macht keinen Sinn eine Midrange-Karte auf den Markt zu werfen, die schneller sein soll als eine 480 GTX.
Das eigene Highend-Segment wird doch überflüssig.
Und bis zum 28nm-Verfahren braucht es noch ca. 1 Jahr.
So sehe ich es zumindest, sofern es tatsächlich eine 6770 geben sollte, die die 480 übertrifft.
nVoodoo
2010-05-10, 23:37:56
Bin mir zwar nicht sicher aber afaik SI@40G/TSMC Ende September/October 2010 und NI@28/GF Ende Fruehling 2011?
Produktionsbeginn oder Auslieferung oda was?
davidzo
2010-05-22, 17:15:49
Mit dem klitzekleinen Unterschied dass R600 als Ausgangspunkt single chip high end war auf eine problematischen Herstellungsprozess, welches bei Cypress nicht der Fall ist (performance chip). AMD kann Leistung fuer einen refresh entweder durch mehr Einheiten + Effizienz-Steigerungen oder Frequenz skalieren. Da 28nm vor 2011 nicht erhaeltlich sein wird und Frequenz-steigerungen riskanter sind mit einem Prozess wie 40G, ist die erste Option auch sinnvoller.
Denke auch das es keinerlei Taktsteigerungen geben wird.
Eventuell taktet der Ram etwas höher, aber da wär ich mir nicht so sicher, weil das niedrigtakten von GDDR5 anscheinend auch ein weg ist ordentlich strom zu sparen (siehe geforce GTX).
Ich denke nicht dass man die Shaderanzahl massiv erhöht, entweder sie bleibt bei 1600 oder geht maximal bis 2000, wenn man bei den extras noch ein bisschen abspecken kann.
Die Tesselationsleistung wird man definitiv verbessern und wohl auch das tri-setup. Eventuell noch ein größeres speicherinterface, weil das kostet nicht viele transistoren und die boardhersteller sinds ja mittlerweile gewohnt fette PCBs zu machen. Dann aber eher ein 512bit interface, weil ATI ja nicht auf die mischvarianten eingeht.
Verdoppelt man die Tesselationsleistung und das tri-setup, setzt das speicherinterface mit 512bit an, also ~250GB/s und das ganze mit 2000 Shadereinheiten, würde das womöglich noch unter drei milliarden transistoren herauskommen und locker reichen um sich 10-30% vor die GTX480 zu setzen und die 5970 überflüssig zu machen. Nimmt man realistischerweise an der Stromverbrauch steigert sich in selben Maße wie die Zunahme an Shadern, das breitere Speicherinterface deckt sich durch die minimalen Prozessverbesserungen bis dahin, dann läge der Verbrauch gerademal auf GTX470 Niveau.
Schon die 5970 hats schwierigkeiten sich zu positionieren, nicht wie die 4870x2 oder 3870x2 die noch richtige verdopplungen waren.
Eine Dualkarte macht für AMD erst wieder Sinn, wenn man einen kleineren Chip hat und wieder beinahe eine echte verdopplung stattfindet. Das kann logischerweise erst mit einem neuen Prozess sein. Ich denke also dass AMD alle überrascht und bei der nächsten Generation keine Dualchipkarte vorstellen wird.
Naja ist die Frage ob AMD vor 2 Jahren schon daran dachte, die Tesselation Power im Refresh zu erhöhen oder obs einfach nur ein Schritt "breiter" wird.
Die Erkenntnis vom RV870 Launch und später beeinflussen die übernächste Gen.
Naja ist die Frage ob AMD vor 2 Jahren schon daran dachte, die Tesselation Power im Refresh zu erhöhen oder obs einfach nur ein Schritt "breiter" wird.
Die Erkenntnis vom RV870 Launch und später beeinflussen die übernächste Gen.
Natürlich wusste man vor 2 Jahren, dass Tesselation in DX11 ist und dass man dort die Leistung steigern muss.
Warum muss ATI den rv870 erst laucnchen, damit man weiß welche Tesselationleistung er hat?
Gaestle
2010-05-22, 20:24:28
Die eigene vorhandene Leistung ist besser einzuschätzen, wenn man die Relation zur Leistung des Mitbewerbers hat. Es könnte sein, dass AMD vor 2 jahren noch nicht wusste, wie wichtig das Feature werden würde und wie performant es der Mitbewerber umgesetzt hat.
davidzo
2010-05-22, 23:21:11
Die eigene vorhandene Leistung ist besser einzuschätzen, wenn man die Relation zur Leistung des Mitbewerbers hat. Es könnte sein, dass AMD vor 2 jahren noch nicht wusste, wie wichtig das Feature werden würde und wie performant es der Mitbewerber umgesetzt hat.
wie schnell es bei einem ist wusste man wohl schon, schließlich hat man es jahrelang mit herumgeschleppt. einer 4870 stände die tesselationsleistung eines rv870 noch gut, aber die 5870 bricht sehr stark ein bei regelmäßiger benutzung von tesselation. das wird amd auch selber festgestellt haben und damit unabhängig vom kenntnisstand über fermi entschieden haben können, dass da etwas getan werden muss.
Man hat Jahrelang die Texelrate nicht erhöht, sondern an der Shaderpower gedreht. Warum sollte man jetzt an Tesselation feilen, wenn es doch noch Zukunftsmusik ist, GPGPU war evtl. das wichtigere Stichwort.
Mitarbeiter wechselt zu AMD
http://www.kitguru.net/components/graphic-cards/faith/nvidias-vp-for-cuda-and-physx-moves-to-amd/
Spasstiger
2010-05-26, 00:18:29
Einen Einbruch um 60% bei extremer Nutzung von Tessellation ist kein Beinbruch, schließlich kostet ein höherer Detailgrad fast immer Performance. Kritisch wird es erst, wenn der Mitbewerber das gleiche Ergebniss mit einem Einbruch von nur 40% schafft und damit am Ende fast die doppelte Framerate abliefert.
ATI wusste vermutlich nicht mit Sicherheit, wie NV Tessellation umsetzt. Aber ich denke, dass man den R900 wirklich unabhängig vom GF100 entwickelt hat.
Bucklew
2010-05-26, 01:02:44
Mitarbeiter wechselt zu AMD
http://www.kitguru.net/components/graphic-cards/faith/nvidias-vp-for-cuda-and-physx-moves-to-amd/
Kitguru? Waren das nicht die von wegen kein CUDA für die GTX465?
Gaestle
2010-05-26, 09:36:47
wie schnell es bei einem ist wusste man wohl schon, schließlich hat man es jahrelang mit herumgeschleppt. einer 4870 stände die tesselationsleistung eines rv870 noch gut, aber die 5870 bricht sehr stark ein bei regelmäßiger benutzung von tesselation. das wird amd auch selber festgestellt haben und damit unabhängig vom kenntnisstand über fermi entschieden haben können, dass da etwas getan werden muss.
Natürlich wusste man, wie schnell man selbst ist. Aber man wusste möglicherweise noch nicht, wieviel die eigene Geschwindigkeit tatsächlich wert sein würde, weil möglicherweise die Relation fehlte.
Oder anders: Wenn NVs Tesselationsleitung lediglich gleichgroß oder gar deutlich geringer als bei 5870 wäre, wäre der Anpassungsdruck in diesem Bereich für AMD möglicherweise geringer, weil sich auch die Entwickler möglicherweise anders verhalten würden.
AMD hat nun bestätigt, dass Nvidias ehemaliger VP für CUDA und PhysX, Manju Hedge, dem Unternehmen beigetreten ist. Er wird fortan eine sehr wichtige Rolle bei AMD spielen und die Position des Corporate Vice President für das Fusion Experience Programm besetzen. Rick Bergmann sei über den Neuzugang sehr erfreut und schätze den Mitarbeiter und deren Erfahrungsschatz.:biggrin:
http://news.ati-forum.de/index.php/news/58-intern-ati-forumde/1263-verlaesst-physx-gruender-nvidia-fuer-amd
Soundwave1983
2010-05-27, 13:37:57
AMD hat nun bestätigt, dass Nvidias ehemaliger VP für CUDA und PhysX, Manju Hedge, dem Unternehmen beigetreten ist.
Nicht schlecht, bin mal gespannt inwiefern ATi davon jetzt profitieren kann/wird.
Allerdings ist so eine hin- und herwechslerei ja nix neues, solange bei nV nicht auf einmal Kilgariff, Tarroli und Alben die Segel streichen, denke ich muss man sich keine Sorgen machen.
Nach dem AMD Barcelona debakel sind auch einige Intel Mitarbeiter zu AMD gewechselt und was hats gebracht?
Das werden wir mit Bulldozer und Fusion bald erfahren :-)
Nach dem AMD Barcelona debakel sind auch einige Intel Mitarbeiter zu AMD gewechselt und was hats gebracht?
Das werden wir wohl erst mit Bulldozer erfahren ;)
Bisher haben sie immerhin eine wirklich glänzende Execution bei jedem neuen Chip gehabt. Der X6 war ja sogar früher fertig als geplant.
Nach dem AMD Barcelona debakel sind auch einige Intel Mitarbeiter zu AMD gewechselt und was hats gebracht?
Das waren aber nur Leute die auf Bugfixing spezialisiert waren, außerdem hat man dazu auch eine schweineteure Maschine gekauft damit ein solches Debakel nicht mehr passiert. Davon hat zB mit Sicherheit auch ATi beim problematischen 40nm Prozess bei TSMC profitiert.
Bisher haben sie immerhin eine wirklich glänzende Execution bei jedem neuen Chip gehabt. Der X6 war ja sogar früher fertig als geplant.
Wenn man die Roadmaps gleich so ansetzt das sie jede Schlaftablette schafft ist das auch keine Kunst. Bulldozer war mal für 2009 geplant.
AMD hat nun bestätigt, dass Nvidias ehemaliger VP für CUDA und PhysX, Manju Hedge, dem Unternehmen beigetreten ist. Er wird fortan eine sehr wichtige Rolle bei AMD spielen und die Position des Corporate Vice President für das Fusion Experience Programm besetzen. Rick Bergmann sei über den Neuzugang sehr erfreut und schätze den Mitarbeiter und deren Erfahrungsschatz.:biggrin:
http://news.ati-forum.de/index.php/news/58-intern-ati-forumde/1263-verlaesst-physx-gruender-nvidia-fuer-amd
Hier auch ein etwas ausführlicherer Hintergrundartikel:
http://blogs.wsj.com/digits/2010/05/26/why-hardware-ace-left-nvidia-for-rival-amd/
Seine Beweggründe sind klar. Er sieht die Zukunft bei Fusion:
"Why did Hegde prefer one quest to another? He says AMD had that key weapon–the x86 technology–that is not currently in Nvidia’s arsenal.
“Nvidia is a great company to work for,” he says. “It’s like a big startup; they move extremely fast. But the opportunity to having all the processing capability on one chip was too good to miss.”"
Sieht nebenbei bemerkt auch nicht so aus als ob NV bald mal x86-Chips bringen würde wie schon öfter gemutmaßt, denn das wüsste ein Vice President.
Despite many believes ATI is still preparing a next generation 40nm part to launch in late 2010 as 28nm from both Globalfoundries and TSMC won’t be ready before first half of 2011 and even then its questionable if they can pull some good yields.
http://www.fudzilla.com/content/view/18956/38/
deekey777
2010-05-28, 16:36:35
http://www.fudzilla.com/content/view/18956/38/
Das ist aber bezüglich SI, oder?
Iruwen
2010-05-28, 16:46:43
Ja.
davidzo
2010-05-30, 17:38:22
Das ist aber bezüglich SI, oder?
naja, der 40nm part schon. die aussage zu 28nm bezieht sich aber klar auf NI. Also wenn 28nm erst H1 2011 bereit ist wird das mit NI wohl vor Q3/Q4 (bzw. erste samples in Q2) 2011 nichts. Da SI erst Q1 2011 durchgängig Evergreen ersetzen wird, spricht der übliche Abstand von sechs Monaten zwischen den Plattformen auch eher für Q3-Q4 bei NI.
Sorkalm
2010-05-30, 19:23:38
Ich würde als üblichen Abstand eher so ca. 12 Monate ansetzen, jedenfalls für die größeren Updates. Ich weiß, AMD redet gerne mal von 6 Monaten, aber die Zwischenschieber waren doch bisher eher die kleineren Sachen.
R6xx - kam ab Mai 2007
R7xx - kam ab Juni 2008
R8xx - kam ab Sept. 2009
Nuja, sieht man eigentlich ganz gut, den gut ein Jahresabstand...
Potenziell kann man damit sagen:
R9xx (SI) - Ende 2010
R1000 (NI) - Jahreswechsel 11/12
was auch zu den bisherigen Spekulationen passt.
Tarkin
2010-06-22, 14:01:18
neliz im Beyond3D Forum
"Since this might be one of the last things I can post about this. Launches at the end of October, beginning of November.
Probably pin-to-pin compatible with Evergreen and slightly faster than a 512CC GF100. "
If we take Charlies latest GF104/106/108 Article, with their launches slipping, we will probably see a refresh before nV is able to launch top-to-bottom Fermi. With what I know now, Fermi2 promises to be more of the same, a Fermi refresh that is not coming this year, despite what they promised everyone and again big. that all is supposed to launch well into 2011, still on 40nm where we would like to see 28nm products, or we actually will see 28nm products.
If my assumptions are correct, the "new" 5850 should perform as a 5870. Probably just Clocks&Optimizations.
nagus
2010-06-22, 21:45:15
Ich würde als üblichen Abstand eher so ca. 12 Monate ansetzen, jedenfalls für die größeren Updates. Ich weiß, AMD redet gerne mal von 6 Monaten, aber die Zwischenschieber waren doch bisher eher die kleineren Sachen.
R6xx - kam ab Mai 2007
R7xx - kam ab Juni 2008
R8xx - kam ab Sept. 2009
Nuja, sieht man eigentlich ganz gut, den gut ein Jahresabstand...
Potenziell kann man damit sagen:
R9xx (SI) - Ende 2010
R1000 (NI) - Jahreswechsel 11/12
was auch zu den bisherigen Spekulationen passt.
R1000 kommt garantiert früher weil jetzt offenbar zwischen RV870 und RV970 doch nicht so der wahnsinns unterschied bezüglich performance zu erwarten ist. eher ne oprimierte version, ähmlich R600>RV670? dann dürfte R1000 eher im bereich ende 2Q oder 3Q 2011 antanzen... meine schätzung
Spasstiger
2010-06-22, 22:02:08
Der Performancesprung RV870 -> R900 soll gerüchteweise 30% betragen. Also gerade so, dass man den GF100 in allen Varianten in Schach hält.
Burgard
2010-06-22, 22:24:34
Naja, es wird solange keinen R1000 geben, bis 28nm endlich mal verfügbar ist.
Bin ja mal gespannt wie die Ausbeute von GF aussieht.
Vielleicht werden auch sie Lehrgeld zahlen dürfen.
Bucklew
2010-06-22, 22:43:54
Der Performancesprung RV870 -> R900 soll gerüchteweise 30% betragen. Also gerade so, dass man den GF100 in allen Varianten in Schach hält.
Aber wahrscheinlich auch nur unter Einbeziehung der Tessellation-Benchmarks, sicher nicht unter DX9 und DX10.
in dx9 und 10 muss die jetzige sich schon kaum verstecken.
neliz im Beyond3D Forum
"Since this might be one of the last things I can post about this. Launches at the end of October, beginning of November.
Probably pin-to-pin compatible with Evergreen and slightly faster than a 512CC GF100. "
If we take Charlies latest GF104/106/108 Article, with their launches slipping, we will probably see a refresh before nV is able to launch top-to-bottom Fermi. With what I know now, Fermi2 promises to be more of the same, a Fermi refresh that is not coming this year, despite what they promised everyone and again big. that all is supposed to launch well into 2011, still on 40nm where we would like to see 28nm products, or we actually will see 28nm products.
If my assumptions are correct, the "new" 5850 should perform as a 5870. Probably just Clocks&Optimizations.
Jetzt muss man nur hoffen, dass man sich endlich genug Wafer sichert und die ATI Dominanz hält bis min. 2012. NV ist fertig.
So geil, SI kommt vor GF100B.
Aquaschaf
2010-06-23, 08:16:26
Jetzt muss man nur hoffen, dass man sich endlich genug Wafer sichert und die ATI Dominanz hält bis min. 2012. NV ist fertig.
So geil, SI kommt vor GF100B.
Wenn G104 ordentlich wird, wonach es ja gerade aussieht, dann ist NV sicher nicht fertig. Etwas mehr Konkurrenz im Performance/Mainstream-Bereich kann man nur begrüßen.
Simon Moon
2010-06-23, 08:23:20
Etwas mehr Konkurrenz im Performance/Mainstream-Bereich kann man nur begrüßen.
Eindeutig. Eine Radeon HD4850 ist etwa ähnlich schnell wie eine 5750, aber eine 4850er hab ich schon vor bald 12 Monaten günstiger bekommen. Hier ist der Preis also imo gar gestiegen...
Wenn G104 ordentlich wird, wonach es ja gerade aussieht, dann ist NV sicher nicht fertig. Etwas mehr Konkurrenz im Performance/Mainstream-Bereich kann man nur begrüßen.
Wenn man Charlie glauibt, dann werden die kleinen GF10X die Probleme des GF100 haben. Also stromhungrig, schlechte Yields und dekekte Struktur. Ich würde mir sicher keine Karte kaufen, die ne 5830 gerade schlagen kann und 220W verbrät.
Dural
2010-06-23, 10:37:25
5830 + 200Watt = GF104 was schreibst du da für einen müll...
in der vollen version dürfte ein GF104 sehr sehr nahe an der GTX470 liegen... NV wird wohl sogar den GF104 künstlich beim takt ausbremsen müssen / es wird keine "high end" GF104 karte geben um nicht die GTX470 zu untergraben, nicht um sonst heist das ding GTX468! es sei den man will die 470 ersetzten was ich aber nicht glaube...
und laut charlie, was sagt das schon aus... laut ihm ist es ja sogar die selbe architektur/aufteilung was aber definitiv falsch ist, da der GF104 wie auch der GF100 64 TMUs haben soll....
Wenn man Charlie glauibt, dann werden die kleinen GF10X die Probleme des GF100 haben. Also stromhungrig, schlechte Yields und dekekte Struktur. Ich würde mir sicher keine Karte kaufen, die ne 5830 gerade schlagen kann und 220W verbrät.
Wenn man Charlie glaubt, dann stimmt auch das:
http://www.semiaccurate.com/static/uploads/2009/09_september/NV_season_roadmap.jpg
Sorkalm
2010-06-23, 13:13:57
Also er müsste sich schon entscheiden ob er da GTX 295 (1792 MiB) oder die GTX 280 mit 1024 MiB meint ... aber sonst stimmt die Tabelle doch?
Es gab bis Frühling 2010 nur eine GTX280 mit 1792MiB RAM? Hab ich was verpasst?
Da ist ja noch nichtmal eine GTX 285 drauf. Der Typ hat einfach einen an der Klatsche.
Sorkalm
2010-06-23, 13:42:34
Es gab bis Frühling 2010 nur eine GTX280 mit 1792MiB RAM? Hab ich was verpasst?
GTX 280 hatte nen 512-Bit-Interface, ergo 1024 oder 2048 MiB.
Da müsste vmtl. GTX 295 stehen, dann passts. Dass das nen absichtlicher Verschreiber war kann man natürlich nicht ausschließen...
Dural
2010-06-23, 13:45:28
ja und die GTX285/270/260 haben nie existiert ;) ach ja stimmt die gingen ja alle laut charlie im Q3 2009 EOL... da nicht mehr rentabel usw. rissen verlust karten usw. ;) dafür lässt man die 295 aka "GTX280 1792MB 150Watt" drin... lol
wie so nimmt der typ überhaupt noch irgend jemand ernst?!?
wir haben übrigens vor ca. zwei monaten noch nigel nagel neue GTX285 rein bekommen... wie nun war es nicht charlie der auch gesagt hat das man zu jedem Fermi eine bestimmte anzahl GT200 karten abnehmen musste? wie geht den das wenn sie schon seit Q3 2009 EOL sind?!? :P
der typ ist eine witz figur nicht mehr und nicht weniger
das einzig guet an charlie ist, das man ab ihm lachen kann und ab und zu sogar echte infos in seinen news müll versteckt ist.
Ist das jetzt der R900 Thread oder der "ich mag den Charlie nicht"-Thread ?
Fudzilla schreibt was über die neuen mobile Chips:
http://www.fudzilla.com/graphics/graphics/ati-reportedly-working-on-new-mobile-chips
vBulletin®, Copyright ©2000-2025, Jelsoft Enterprises Ltd.