AMD/ATI - Volcanic Islands (VI) - Hawaii, Maui, Iceland, Tonga - 2013/2014 [Archiv] - Seite 2

fondness

2013-07-07, 13:13:20

Also neu wird die Architektur nicht sein. Eher sowas wie von SandyBridge auf Haswell. Solange Ms D3D11 beibehält werden Grakas auch nicht das Rad neu erfinden;)
Was willst du da auch groß neu machen? ...
Und AMD weiß woran sie sind. Von nVidia kommt allerhöchstens noch eine Umbenennung der 650 Ti & Co aber performancetechnisch bleibts dabei. Also allzu schwer sollte es nicht sein. Stellt euch einfach mal eine GHE mit breiterem Frontend vor die ein paar mehr ALUs hat sowie hier und da kleine Optimierungen...taadaa. GTX780-Niveau. Wetten?

Natürlich. GCN wird das Grundgerüst für viele weitere Architekturen bleiben. Man braucht sich ja nur anzusehen wie lange die VLIW-Architektur gehalten hat. GCN ist aktuell die modernste Architektur welche der Markt her gibt, man unterstützt alle aktuellen Features bis hinauf zu D3D11.2, kann den Adressraum mit der CPU sharen, etc. Jetzt geht es ans Feintuning. Das bedeutet Perf/Watt erhöhen, Flaschenhälse beseitigen, etc. Da die Vorteile durch neue Prozesse zunehmend geringer werden, und immer teurer bezahlt werden müssen, kommt dem Design hier eine immer größere Bedeutung zu, und das wissen alle beteiligten natürlich nicht erst seit heute.

Iruwen

2013-07-07, 14:13:54

Und was soll daran besonderes sein? Fast doppelt so breiter Chip mit gut 20% geringeren Takt wird immer deutlich effizienter sein wie der kleinere. Das könnte sogar AMD wenn sie möchten ^^ Ist halt die Frage ob es sich auch rechnet
Ich glaub nicht dass das so einfach ist, á la "ok wir bauen jetzt mal 'nen richtig fetten Chip". Hab keine Ahnung wie der Prozess abläuft, klingt nur etwas zu einfach.

Ailuros

2013-07-07, 18:49:45

VI ist zumindest eine neue Architektur aka GCN2.0, welche auch gegen NVs Maxwell antreten wird. Da kann man durchaus etwas mehr erwarten als einen "quasi refresh".

Du wirst den Sarkasmus entschuldigen aber was so supertolles soll denn GCN2.0 genau mit sich bringen ausser stinknormale evolutionaere Erweiterungen? DX12 feature Kandidaten vielleicht?

28nm dürfte hingegen fest stehen, 20nm Chips dürften dieses Jahr kaum machbar sein. Allerdings scheint der 20nm Prozess eh nicht viel zu bringen, von daher dürfte das zu verschmerzen sein.
In 20nm kommt dann eben der Refresh Pirates Islands. Ist ohnehin sinnvoller eine neue Architektur erst mal in einen bewährten Prozess zu bringen und dann den Refresh zu shrinken, ähnlich mcht es ja auch Intel mit ihrem Tick-Tock-Modell.

Ja VI wird eine "durchgedachtere" Produkt-Familie sein die man nicht einfach rausquetschte um etwas Neues zu haben, aber am Ende ist es ledlglich der Kaugummi eines jeglichen AMD Angestellten weil man einfach nicht die resourcen fuer eine aggresivere roadmap hat.

Soll das Resultat vielleicht 2x Mal schneller sein oder sonst irgendwelche Kopfstaende zu Tag bringen? Der Haarspalterei zu Liebe kann es durchaus sein dass wir etwas anderes unter "refresh" verstehen, aber in meinem Buch ist und bleibt es ein stinknormaler refresh.

S940

2013-07-07, 20:02:21

Was mir gerade beim 28nm vs. 20nm einfiel .. was ist mit 28nm GF?
AUf der uralt Roadmap von 2009 oder so war das ja schon eingezeichnet. Hat sich nun verspätet, aber da sie GCN sowieso für Kaveri vorbereiten müssen, böte es sich eigentlich an.

Im Vergleich zu TSMC hätte man kleinere Die-Sizes wg. Gate-First.

Fragt sich halt nur, ob AMD GF überhaupt noch was zutraut, oder ob Kapazitäten frei ist. Eventuell sind die Linien ja voller Konsolenwafer.

fondness

2013-07-09, 12:33:13

http://www.chiphell.com/forum.php?mod=viewthread&tid=799682&page=2&authorid=77139

-Testsamples wurden zu den AIBs geschickt, soll bald leaks geben.
-Das Board hat 12 Layer.
-7 Kühllösungen konkurrieren um das finale Design, die Kühllösungen kommen von Sapphire.
-Außerdem wurden nochmal das Oktober-Release bestätigt.

john carmack

2013-07-09, 12:55:55

Hübie

2013-07-09, 12:59:25

10 sind Standard. Die GK110 im Titan haben auch 12. Gibt nicht sehr viel Hersteller die solche PCBs feil bieten...

boxleitnerb

2013-07-09, 13:00:01

Diverse 7970 GHz OC-Versionen haben anscheinend 12 Layer. Die 580 hatte auch 12 soweit ich weiß. Also so gesehen normal.
Titan hat laut ABT 10 Layer, die 690 auch:
http://alienbabeltech.com/main/nvidias-titan-arrives-to-take-the-performance-crown-the-performance-benchmarks/2/

Nightspider

2013-07-09, 13:08:09

Yeah, give us leaks!

M4xw0lf

2013-07-09, 13:08:57

AMD/ATi war bei den letzten Generationen häufig großzügiger mit den PCB-Layers.
Bin schon gespannt wann es dann handfestere Informationen gibt.
Kühllösung von Sapphire klingt gut, ist aber irgendwo Blödsinn - Sapphire stellt die Kühler ja nicht selbst her (die designen vermutlich grade mal die Plastikabdeckung), sondern lässt die auch von einem Drittanbieter bauen.

Hübie

2013-07-09, 13:10:22

Nicht GeForce Titan sondern Supercomputer Titan. Die 580 mit 12 layer??? Muss ich nachher mal zählen ;D

john carmack

2013-07-09, 13:20:26

Nicht GeForce Titan sondern Supercomputer Titan. Die 580 mit 12 layer??? Muss ich nachher mal zählen ;D

die 590 hat 12 Layer:
http://www.tomshardware.com/news/GeForce-Radeon-GTX-590-HD-6990-GF110,12383.html

die 690 hat wieder "nur" 10 Layer
http://webcache.googleusercontent.com/search?q=cache:GybtikLW0R0J:www.overclockersclub.com/reviews/nvidia_gtx_690/2.htm+gtx+690+pcb+layer&cd=3&hl=de&ct=clnk&gl=de

Über die 580 hab ich jetzt nichts gefunden.
Die 780 hat auch "nur" 10 Layer
http://webcache.googleusercontent.com/search?q=cache:hcS37IoK3t0J:www.pcgameshardware.de/Geforce-GTX-780-Grafikkarte-257241/News/EVGA-GTX-780-Classified-1072387/+gtx+780+pcb+layer&cd=2&hl=de&ct=clnk&gl=de

Aber 12 Layer deuten ja schon mal auf was "Großes" seitens AMD hin :)

Vielleicht ein 512Bit SI? Oder gar noch mehr StromVerbrauch?

M4xw0lf

2013-07-09, 13:23:23

Auf was durstiges höchstens. Und wie schon gesagt hatte AMD in den letzten Generationen praktisch immer mehr Layer am Start.

Hübie

2013-07-09, 14:08:52

Mehr Layer bedeuten nicht mehr Verbrauch. Spezifischer Widerstand wird ja eher verringert. Deutet meist auf komplexes Design hin. Das die 580 12 layer pcb hat bezweifle ich an dieser Stelle mal. Aber ich schließe es nicht aus.

Ailuros

2013-07-09, 14:09:58

Auf was durstiges höchstens. Und wie schon gesagt hatte AMD in den letzten Generationen praktisch immer mehr Layer am Start.

"Durstig" ist auch relativ; da sie immer noch auf 28nm herstellen und auch die Chip-Komplexitaet weiterhin steigt muss man eben Massnahmen treffen die Komplexitaet bzw. Leistung zu steigern ohne dass der Stromverbrauch besonders beinflusst wird.

V2.0

2013-07-09, 14:28:15

Radeon TITAN. :D

fondness

2013-07-09, 15:45:19

Vorserienboards haben häufig auch mehr Layer, während man dann bei der Massenproduktion natürlich versucht Kosten zu sparen....

Spasstiger

2013-07-09, 18:03:32

Gibt nicht sehr viel Hersteller die solche PCBs feil bieten...
Sind Fertiger für 12 Lagen wirklich selten? Bei mir in der Gegend kenne ich einen Fertiger, der bis zu 42 Lagen anbietet und rund 100 m² am Tag produziert. Und Hersteller vergleichbarer Größe gibts in Fernost wie Sand am Meer.

Hübie

2013-07-09, 18:07:15

Ähm. Ich rede ja nicht von industriellen Mainboards oder der gleichen. Graka-PCB-Hersteller mit 12 Layer im Portfolio gibt's nicht wie Sand am Meer.

Spasstiger

2013-07-09, 18:20:27

High-End-Grafikkarten werden aber auch nicht in Millionenauflage gefertigt, mit mittelständischen Fertigern würde man den Bedarf schon bedient bekommen und das eben auch mit deutlich über 10 Lagen. Der Fertiger bei mir in der Gegend hat eine Kapazität von 100 m² am Tag, das wären über 2500 High-End-Graka-PCBs am Tag bzw. über 15000 PCBs in der Woche (bei einer 6-Tage-Woche).
Die High-End-Boards von Xilinx haben übrigens 16 Lagen bei moderater Leistungsaufnahme (< 50 Watt). Man kann also aus der Anzahl an Lagen nicht unbedingt auf die Leistungsaufnahme schließen. ;)

Hübie

2013-07-09, 18:30:55

Was stellt dieser Hersteller denn für PCBs her? Grakas haben da schon ganz andere Ansprüche and Material und Güte. Kritische Signallaufzeiten, Spannungsschwankungen und thermische Belastungen.
Auch die Stärke ist zu beachten. Gibt sicher noch mehr aber kann heute nicht richtig denken geschweige denn links ergooglen (3 Weisheitszähne wurden vorhin gezogen)... :(

john carmack

2013-07-09, 22:35:54

Radeon TITAN. :D

;D:up:

Wie auch immer... Ob nun 28nm/20nm oder 10/12 Layer.

Ich hoffe einfach mal auf eine Karte die min. 20% mehr Leistung als die 7970Ghz bietet :)

john carmack

2013-07-10, 10:38:15

laut CB hat die 7970 auch "nur" 10 Layer

http://www.computerbase.de/news/2013-07/radeon-hd-9000-angeblich-an-bordpartner-geliefert/

V2.0

2013-07-10, 11:29:11

;D:up:

Wie auch immer... Ob nun 28nm/20nm oder 10/12 Layer.

Ich hoffe einfach mal auf eine Karte die min. 20% mehr Leistung als die 7970Ghz bietet :)

20% bei 20nm erwartet ich 50-70%. Bei 28nm erwarte ich 20-40%.

john carmack

2013-07-10, 11:59:21

20% bei 20nm erwartet ich 50-70%. Bei 28nm erwarte ich 20-40%.

ja... ich hab damit auch den schlechtesten Fall gemeint.

die 6970 hat bewiesen das ein refresh auch weniger als 20% bringe kann...

Hübie

2013-07-10, 12:02:53

Mit ziemlicher Sicherheit werden die nicht in 20nm kommen. Das hätte sicher jemand mitbekommen ;)
Meinst du overall perf, perf/mm2 oder per/watt???

M4xw0lf

2013-07-10, 12:25:16

ja... ich hab damit auch den schlechtesten Fall gemeint.

die 6970 hat bewiesen das ein refresh auch weniger als 20% bringe kann...

Heutzutage liegt sie auch mal ganz gerne deutlich mehr als 20% vor der 5870... hauptsächlich wegen 1Gb vs. 2GB Speicher, aber hey ;)

Blediator16

2013-07-10, 12:41:21

ja... ich hab damit auch den schlechtesten Fall gemeint.

die 6970 hat bewiesen das ein refresh auch weniger als 20% bringe kann...

Sollten die 6xxx nicht auf 32nm kommen, die ausgelassen wurden und AMD da was für 40nm basteln musste.

Knuddelbearli

2013-07-10, 12:42:48

jup

Raff

2013-07-10, 12:58:13

Heutzutage liegt sie auch mal ganz gerne deutlich mehr als 20% vor der 5870... hauptsächlich wegen 1Gb vs. 2GB Speicher, aber hey ;)

Die GTX 480 hat im Laufe der Jahre auch ihren Vorsprung gegenüber der HD 5870 ausgebaut. Auch hier hilft der größere Grafikspeicher.

MfG,
Raff

Nakai

2013-07-10, 15:08:42

Mhh, was können wir vom Topmodell erwarten?

4 ACEs(wie bei Bonaire und Kabini), eher 8.
Besseres Frontend(pro Frontend bessere Performance) und mehr Frontend(breiter). Hier auch 3 oder 4 Frontends.

Hier kann man auch davon ausgehen, dass es bestimmt nicht mehr als 3072SPs werden, da der 28nm-Prozess schon ausgereizt ist.
Pro Frontend(Modul) wird ein Rasterizer integriert sein, welcher wohl auch mit klassischen Pixeldurchsatz(16 Pixel). Mehr als 16 CUs pro Modul kann ich mir nicht vorstellen. Die ROPs sind ja unabhängig von den Modulen und der Anzahl der CUs. Da sollten wir mindestens 32 ROPs sehen, eher 48. Vor allem wenn das Front verstärkt ist, sollte mehr als 32 ROPs schon Pflicht sein.

Var 1:
4 Frontends
40 CUs (10 pro Frontend)
48 ROPs
+30 - 40%

Var 2:
3 Frontends
36 CUs (12 pro Frontend)
48 ROPs
~+25%

Var 3:
3 Frontends
42 CUs (14 pro Frontend)
48 ROPs
~+30%

Kurz: Von dem was kommen könnte, werden wir schon mindestens 20% Mehrperformance sehen, eher etwas mehr. AMD versucht wohl in Schlagreichweite von Titan zu kommen, was nicht wirklich schwierig ist. Man wird wohl versuchen die GTX 780 zu schlagen, was möglich ist.

marc-05

2013-07-11, 07:36:09

Mhh, was können wir vom Topmodell erwarten?

4 ACEs(wie bei Bonaire und Kabini), eher 8.
Das sind doch 2 ACE Einheiten bei 7790 verbaut wie schon bei der 78xx/79xx
Hier Architektur der 7790er
http://s14.directupload.net/images/130711/mwygrh3a.png (http://www.directupload.net)

Irgendwo stand was von Variante 2 ....

Ah hier (http://www.guru3d.com/news_story/amd_radeon_hd_9000_series_might_arrive_in_october.html);
The Curacao XT graphics processor is expected to feature 2304 stream processors (36 compute units), 144 texture units, 48 render back ends and 384-bit memory controller. The Hainan is projected to have 1792 stream processors (28 compute units), 112 texture units, 32 render back ends and 256-bit memory controller. Both chips will share the same front-end (just-like current-gen Radeon HD 7900 and 7800 do) with 4 asynchronous computing engines [ACEs], 3 geometry engines, command processor, global data share and so on.

V2.0

2013-07-11, 08:15:30

Man wird die Titan schlagen. Einheitenanzahl ist nicht alles.

Hübie

2013-07-11, 08:27:57

Was genau bewegt dich jetzt zu dieser Aussage? :|

V2.0

2013-07-11, 08:36:57

boxleitnerb

2013-07-11, 08:53:53

Wenn AMD die Energieeffizienz um ca. 25% erhöht ausgehend von der normalen 7970, könnte man schon mit Titan gleichziehen bei gleicher Leistungsaufnahme (ansonsten höherer). Ob das gelingt, steht auf einem anderen Blatt.

Gipsel

2013-07-11, 09:07:33

Das sind doch 2 ACE Einheiten bei 7790 verbaut wie schon bei der 78xx/79xx
Hier Architektur der 7790er
http://s14.directupload.net/images/130711/mwygrh3a.png (http://www.directupload.net)
Das Blockdiagramm ist offenbar falsch, siehe Diskussion ab hier (http://www.forum-3dcenter.org/vbulletin/showthread.php?p=9833044#post9833044). Das sollten genau wie bei Kabini vier sein.
Irgendwo stand was von Variante 2 ....

Ah hier (http://www.guru3d.com/news_story/amd_radeon_hd_9000_series_might_arrive_in_october.html);
Die komischen Spekus hat sich irgendwer ohne Ahnung aus den Fingern gesaugt. Ich weiß gar nicht wie oft schon gesagt wurde, daß Hainan/Sun kein Chip am oberen Ende sondern in Wirklichkeit ein Ultra-Lowend-Modell noch unter dem Mars/Oland ist (http://beyond3d.com/showthread.php?p=1736330#post1736330).

fondness

2013-07-11, 10:02:41

Titan ist ein Design, das ohne die Erfahrungen der Massenproduktion in 28nm entstand. Es wäre ein Witz, wenn AMD nicht in der Lage wäre eine GPU zu designen, die diese Erfahrungen nutzt und schneller ist. Ich persönlich gehe davon aus, dass der Verbleib bei 28nm AMD zwingt endlich die Effizienz seiner GPU zu verbessern. Die vorhandene Rechenleistung ist schon lange überlegen, das Ergebnis hingegen nicht.

Nachdem AMD mit hoher Wahrscheinlichkeit kein 550mm² Monster bauen wird, wird man für Titan-Leistung höheren Takt benötigen. Ziel wird vor allem Flächen- und Leistungsaufnahmeeffizienz sein, gerade auch im Hinblick auf die Mobility-Sparte und die APUs. Dazu wird man entsprechenden Features welche die Verschmelzung von CPU und GPU begünstigen weiter aggressiv voran treiben. Volcanic Islands ist für die 20nm APUs vorgesehen.

V2.0

2013-07-11, 10:14:14

Um Titan zu schlagen braucht man keine 550mm². Wenn man die Perf/W verbessert sollte ein Chip zwischen 7970 und Titan locker reichen.

mczak

2013-07-11, 19:44:27

Die komischen Spekus hat sich irgendwer ohne Ahnung aus den Fingern gesaugt.
Hey das sind genau die Specs die ich für einen Tahiti-Nachfolger vor langer Zeit mal vorgeschlagen habe (d.h. 48 ROPs, 3 Frontends, 36 CUs). Würde meiner Meinung nach immer noch Sinn ergeben (bloss leicht grösserer Chip, sollte Effizienz bei nicht-compute aufgrund des besseren FrontEnd/ROP/ALU Verhältnis auch erhöhen). Daran glauben tue ich aber auch nicht wirklich :-).

Schaffe89

2013-07-11, 19:47:55

Die Titan zu schlagen sollte kein wirkliches Problem sein, ob man aber einen ementsprechen großen Chip baut ist die andere Frage, ich tippe auf 25% Mehrleistung bei gleichbleibender Leistungsaufnahme.

Gipsel

2013-07-12, 00:20:53

Hey das sind genau die Specs die ich für einen Tahiti-Nachfolger vor langer Zeit mal vorgeschlagen habeSag ich doch, daß sich das jemand ohne Ahnung von den wirklichen Specs aus den Fingern gesaugt hat. :tongue:
Was nicht heißen muß, daß das nicht irgendwo in der Nähe liegt. Bei AMD denkt man hoffentlich auch logisch.

Nakai

2013-07-12, 00:32:57

Ich tippe ja auf 2560SPs+. Curacao wäre ja dann scho in diesem Bereich gewesen, wäre er erschienen. Mit Hawaii wird man eine Stufe höher ansetzen müssen. CI/SI wurde ja weitestgehend gecancelt, bis auf Bonaire und Oland/Mars. Und wenn Bonaire jetzt 4 ACEs hat, ist er ein SI-Chip und von den Restlichen ist nichts zu hören. AMD hat wohl VI in 28nm vorgezogen, weil SI nicht stark genug ist bzw. man keinen zu starken Performancehit hatte, dank HD7970GHz. Die NeverSettle-Bundles sprechen auch dafür, damit man die alten Karten doch nich promotet. Außerdem bietet Nvidia eh kaum etwas besseres...
Schon allein deswegen gehe ich davon aus, dass Volcanic Islands schon etwas besser wird. AMD könnte auch dadurch den 20nm-Prozess etwas langsamer angehen um Kosten und Risiko zu sparen. Außerdem ist es auch kostenersparend, wenn man eine Produktlinie überspringt und die noch guten älteren Produkte rauszuhauen. Im Compute-Bereich müsste Nvidia auch etwas mehr Druck bekommen. Da bräuchte man schon 2560+ SPs.

horn 12

2013-07-12, 06:26:33

Sprich knappe 30% Performanczuwachs beim TOP Modell (HD9970) gegenüber der HD7970 Ghz Edition ?

Raff

2013-07-12, 09:39:24

Nvidia arbeitet mit gezogener Handbremse (weil sie's können). Die jetzige Titan ist doppelt verkrüppelt (SMX, Takt). Vermutlich wartet Nvidia nur darauf, dass AMD sein Topmodell herausbringt und kontert dann mit einer "Titan Ultra".

MfG,
Raff

AnarchX

2013-07-12, 09:52:29

In letzter Instanz vielleicht auch noch ein Dual-Titan. Vesuvius könnte wohl Dual-Hawaii sein. Und AMD hofft ja die Mikroruckler in de Griff zu bekommen.
Somit könnte einer der beiden Hersteller noch dieses Jahr den Titel der ersten 10 TFLOPs GraKa beanspruchen.

Für AMD wäre es wohl ein gute Leistung, wenn man es schaffen würde mit Hawaii die Leistung der HD 7870 in der Spiele-Praxis zu verdoppeln. Von den spekulierten Daten könnte das ja entsprechend im Rahmen liegen.

V2.0

2013-07-12, 10:14:10

AMD hofft schon lange die Mikroruckler in den Griff zu kriegen. Und Titan hat imho gezeigt, dass Dual-GPU-Karten nicht der Weg sind. Seit Titan sind diese kaum noch nachgefragt.

Iruwen

2013-07-12, 10:48:34

Die Chancen stehen mit dem Catalyst der Ende des Monats kommen soll ja nicht schlecht, soweit man das den Previews entnehmen kann.

john carmack

2013-07-12, 11:36:35

Nightspider

2013-07-12, 11:43:24

AMD hofft schon lange die Mikroruckler in den Griff zu kriegen. Und Titan hat imho gezeigt, dass Dual-GPU-Karten nicht der Weg sind. Seit Titan sind diese kaum noch nachgefragt.

:rolleyes:

Titan hat das gezeigt? Nicht etwa die 8800GTX oder die GTX280 oder GTX480 oder GTX580?
Dann müsstest du die GTX480 mit einem GTX460SLI Gespann vergleichen und die GTX580 mit einem GTX560SLI Gespann.

Die GTX690 ist nicht gefragt, weil darauf 2 kleine 294mm² kleine Chips drauf sind und der effektive VRAM von 2GB sehr gering ist.

Wenn du dem Markt eine Dual GK110 Karte mit mindestens 3GB effektivem VRAM zu einem vernünftigen Preis anbieten würdest, wäre die Nachfrage gegeben.

Also bitte nicht diesen sinnfreien Äpfen-Birnen-Vergleiche. :rolleyes:

Godmode

2013-07-12, 13:10:48

jau, die kostet dann 1200€ :rolleyes: :freak:

Dann kann ich endlich wieder aufrüsten. :biggrin:

boxleitnerb

2013-07-12, 16:27:21

Angeblich soll Tahiti noch bis Mitte 2014 laufen:
http://translate.googleusercontent.com/translate_c?act=url&depth=1&hl=de&ie=UTF8&prev=_t&rurl=translate.google.de&sl=sv&tl=en&u=http://www.sweclockers.com/nyhet/17285-amd-radeon-tahiti-kvar-under-2014&usg=ALkJrhhxrfdDtXYsexXrG0vwY6y3oXPVYQ

Könnte mir vorstellen, dass man so verfährt wie Nvidia und umbenennt. Tahiti kommt dann in die 9800er-Serie. Dann würde es keine neuen Chips für dieses Segment geben. Vermutlich weil AMD sich eher auf 20nm konzentrieren, Nvidia aber trotzdem was entgegensetzen will. Also besteht der Refresh vielleicht auch nur aus einem neuen Chip und der Rest rutscht halt runter.

M4xw0lf

2013-07-12, 21:39:56

Wenn das ganze mit deutlich gesteigertem Preis/Leistungs-Verhältnis einhergeht wärs zumindest auch ein Fortschritt.

boxleitnerb

2013-07-12, 22:14:54

Okay, Kommando zurück. Einer im AT-Forum mit "Connections" meint, Curacao wäre ein Pitcairn-Nachfolger und würde auch recht zeitnah kommen. Da wäre mit Hawaii kein Platz für Tahiti mehr.

Von ihm kommt auch:
I'm still confused at 20nm... TSMC + release date says absolutely no, but the specs increase + TDP say absolutely yes...

Wenigstens schön mysteriös, so gefällt mir ein Launch.

M4xw0lf

2013-07-12, 22:49:21

Wenigstens schön mysteriös, so gefällt mir ein Launch.
Yay :D
Ich befürchte nur enttäuscht zu werden ^^

boxleitnerb

2013-07-12, 22:51:18

Warum? Wenn der Typ meint, die Specs und TDP sprechen eher für 20nm, könnte es eine sehr positive Überraschung werden.

M4xw0lf

2013-07-12, 22:53:11

Ja, nur das kann ich eben nicht wirklich glauben... und wage es daher nicht zu hoffen ;)

Duplex

2013-07-12, 23:04:05

+20% wird sowieso nicht für die Leistungskrone reichen, so ein Refresh hätte man auch 2012 bringen können.

boxleitnerb

2013-07-12, 23:08:30

Wenn man Titan rigoros an die Leine nimmt und die Regler ignoriert, könnte das schon einen Gleichstand geben. Aber wer macht das schon, die Dinger sind ja net umsonst da ;)

Duplex

2013-07-12, 23:13:19

Egal wann die 20nm Chips von AMD kommen, die werden dann so oder so schneller als die Titan sein, auch gegen 15-SMX, nix mit Titan Ultra, man wird die Einheiten durch 20nm mind. um 50% erhöhen, mit Frontend Tuning könnte der Chip dann locker +50% auf die 28nm Ghz Chips drauflegen. Ist dann nur eine Frage der Zeit wann Maxwell kommt.

boxleitnerb

2013-07-12, 23:14:33

Wenn es aber noch 28nm ist, wäre das schon eine anständige Leistung, mit Titan gleichzuziehen bei Perf und Perf/W.

Duplex

2013-07-12, 23:29:22

Klar irgendwie müssen die Karten attraktiv werden.

w0mbat

2013-07-13, 01:58:33

Warum? Wenn der Typ meint, die Specs und TDP sprechen eher für 20nm, könnte es eine sehr positive Überraschung werden.

Wie ich schon sagte, in informierten Kreisen geht das Gerücht um, dass AMD die single-GPU Krone will. Und da sitzt aktuell Titan.

boxleitnerb

2013-07-13, 07:35:45

Die Frage ist zu was für einem Preis. Zaubern kann AMD ja auch nicht. So ganz kann ich mir das noch nicht vorstellen.

Laut dem Typ braucht die Karte weniger als eine 7970 (ob GHz oder normal sagte er nicht) und habe angeblich 2560 Shader. Wobei...wenn er nur nach der TDP geht, muss das nichts heißen. Die normale 7970 hat eine TDP von 250W, verbraucht aber unter 200W. Kann sein, dass AMD in Zusammenspiel mit dem TDP-Regler die TDP niedriger ansetzt und der Realität anpasst (Furmark usw eben ausgenommen und gebremst).

Skysnake

2013-07-13, 09:02:28

Okay, Kommando zurück. Einer im AT-Forum mit "Connections" meint, Curacao wäre ein Pitcairn-Nachfolger und würde auch recht zeitnah kommen. Da wäre mit Hawaii kein Platz für Tahiti mehr.

Von ihm kommt auch:

Wenigstens schön mysteriös, so gefällt mir ein Launch.
Naja, schaumer mal. Eventuell wird es auch eine Mischung aus 20/28nm wer weiß.

Zudem kann es eventuell passieren, das AMD eben zwei relativ gleich starke Karten bringt, aber einmal eben für Mobile (neuer Pitcairn) mit wenig Computepower und einmal eben mit mehr, aber eben auch mehr Verbrauch Tahiti runter stuft.

Fände ich sogar durchaus begrüßenswert. Dann kann sich der Kunde nämlich entscheiden, ob DP/Compute für ihne wichtig ist oder nicht.

Wenn es aber noch 28nm ist, wäre das schon eine anständige Leistung, mit Titan gleichzuziehen bei Perf und Perf/W.
Naja, man muss ja auch bedenken, WIE alt die 28nm Produktion inzwischen ist, wie früh Tahiti kam und wie schlecht die Spannung für Tahiti gewählt ist...

Mit Tahiti kannste ja meist auf ~1100 MHz @stock Spannung, und das bei der normalen! 7970. Die GHz sollte nochmal weiter gehen... Wenn AMD diesmal das Binning einfach deutlich besser macht, dann lässt sich bzgl Perf/W schon wirklich viel heraus holen.

Die Frage ist zu was für einem Preis. Zaubern kann AMD ja auch nicht. So ganz kann ich mir das noch nicht vorstellen.

Auf jeden Fall ein großer Chip und ein vernünftiges Binning, also für uns weniger OC-Potenzial bei gleicher Spannung, und eventuell auch absolut weniger OC-Potenzial.

Laut dem Typ braucht die Karte weniger als eine 7970 (ob GHz oder normal sagte er nicht) und habe angeblich 2560 Shader. Wobei...wenn er nur nach der TDP geht, muss das nichts heißen. Die normale 7970 hat eine TDP von 250W, verbraucht aber unter 200W. Kann sein, dass AMD in Zusammenspiel mit dem TDP-Regler die TDP niedriger ansetzt und der Realität anpasst (Furmark usw eben ausgenommen und gebremst).
Furmark usw werden jetzt auch schon gedrosselt. Ich glaube eher weniger, das Sie da etwas fundamental ändern, aber meine Hand für ins Feuer legen würde ich nicht.

boxleitnerb

2013-07-13, 09:05:57

Also an 2560 Shader@1-1.1 GHz bei Verbrauch einer normalen 7970 glaube ich nicht, das wäre eine Steigerung von ca. 40% bei Perf/W. Halte ich für nicht machbar. Eher Werte zwischen 7970 und 7970 GHz.

ndrs

2013-07-13, 09:21:23

das wäre eine Steigerung von ca. 40% bei Perf/W. Halte ich für nicht machbar.
Wurden nicht genau solche Verbesserunen durch architekturmäßige Weiterentwicklung der nächsten GCN-Evolutionsstufe angekündgt?

boxleitnerb

2013-07-13, 09:37:16

Es wurde etwas von Verdopplung der Effizienz gesagt, aber sie sprachen dabei von "jeder Generation", wenn ich mich recht erinnere. Nur durch Architekturänderungen ohne Miteinbeziehung des Prozesses halte ich das für Humbug. Zumal man gar nicht weiß, was mit Generation überhaupt gemeint ist.

Skysnake

2013-07-13, 11:18:25

Hübie

2013-07-13, 12:31:57

Wenn die kommunizierten ALUs stimmen eher 420-450 mm2 bei gleicher bzw. leicht schlechterer Perf/W ggü GK110 auf der 780. Titan wird nicht geschlagen.

V2.0

2013-07-13, 12:43:39

Titan wird vernichtet. 20nm und größer als als die 7970.

Hübie

2013-07-13, 13:22:55

;D;D Und die Erde ist eine Scheibe.
Größer (und teurer) als Tahiti XT wird die alle mal...

Skysnake

2013-07-13, 13:27:27

Titan wird vernichtet. 20nm und größer als als die 7970.
"Vernichtet" sicherlich nicht. Vernichtet ist >>50% Leistungsvorsprung...

Und selbst in 20nm wirst du das nicht schaffen, weil du erst mal kleine Chips backen wirst am Anfang.

Nakai

2013-07-13, 14:31:45

Mhh, naja wenns 2560SPs sind, sind es entweder zwei Frontends oder vier.
Bei vier Frontends und 2560SPs bei etwa 1GHz hat man schon einen ziemlich überzeugenden Chip. Da sollte schon etwa 40% Mehrperformance drin sein.
Ob das für Titan reicht? Ich denke Nvidia bringt dann einen Super Titan mit allen Einheiten und höherem Takt. Will AMD Titan durchgehend schlagen, dann muss da ordentlich was getan werden. Die hypothetischen 2560SPs mit 1GHz Takt wird da nicht ausreichen.

OBrian

2013-07-13, 14:37:59

Also nur 20% mehr Leistung kann gar nicht sein, weil man dafür sicher keine neuen Chip gebaut hätte, das wäre auch mit einer selektierten 7970 gegangen, einfach ein paar Exemplare auf 1,2 oder 1,3 GHz hochprügeln, fertig, meinetwegen auch mit höherer TDP. Daß AMD sowas nicht scheut, sieht man ja an dem 5-GHz-Vishera, ein offenbar durchaus gelungener PR-Stunt (auch wenn mir angesichts der Wattage schlecht wird).

Bei einem Refresh auf gleichem Fertigungsstand, evtl. etwas gereifter, aber nichts substantiell anderes, hätte man eine kleiner Architekturverbesserung getestet an einem Chip als Ersatz für Tahiti, aber Pitcairn nicht ersetzt. Immerhin ist Pitcairn ziemlich nah an den Tahiti-Karten. Ich hätte dann (völlig skrupellos^^) 1,1-GHz-Pitcairns umgelabelt als neue 8800, und einen neuen Chip als Ersatz für Tahiti gebracht. Der hätte dann gut 20% mehr Performance gehabt (gleiche Hardwarespecs, aber mehr Takt und Architekturtweaks) und auch etwas höhere TDP, was aber in dem Bereich nicht ganz so wichtig ist.

Aber kommen zwei neue Chips, dann muß der Performancechip ja schon schneller sein als die 7800er (Bonaire wird ja wohl erstmal beibehalten, gräbt aber der 7850 schon das Wasser ab, eine 9850 muß also deutlich schneller sein, wenigstens auf 7870-Niveau) und der Highendchip sollte einen etwas größeren Abstand zum neuen Performancechip haben als es aktuell Tahiti zu Pitcairn hat.

Damit ergibt sich schon, daß der neue High-End-Chip wenigstens 50% schneller sein muß als Tahiti. 2560 statt 2048 Shader ergäben wahrscheinlich nur so 15% mehr Leistung, falls überhaupt, also muß man eher woanders schrauben. Mehr Takt wird kaum möglich sein in der gleichen Fertigung, sagen wird nochmal 5-10% mehr Leistung, falls überhaupt. Dann müssen es Architekturverbesserungen reißen, und das finde ich ziemlich gewagt, damit 30% oder mehr rausholen zu wollen.

Also ich gehe davon aus, daß AMD auf 20nm setzt - sonst hätten sie nämlich längst schon einen Refresh gebracht. Der "Refresh" liegt aber offenbar schon hinter uns und bestand aber wohl nur in den etwas höhergetakteten Tahitis und einem Bonaire als Lückenfüller.

Diese Überlegungen sind jetzt mal völlig unabhängig von den Gerüchten, die ja auch einfach aus den Fingern gesaugter Mist sein können. Die 20nm-Fertigung wird ja jetzt in nächster Zeit nutzbar, ob nun tatsächlich Oktober oder erst Anfang 2014 ist dafür egal, denn auch wenn AMD eine 20nm-Karte erst im Frühjahr 2014 bringen könnte, würde man jetzt nicht noch einen oder gar zwei neue Chips auflegen, weil sich das einfach nicht lohnt für so eine kurze Zeit.

Wenn AMD davon ausgegangen wäre, erst Frühjahr/Sommer 2014 erste 20nm-Chips bringen zu können, hätte man bereits zusammen mit Bonaire auch weitere neue Chips gebracht, wenigstens einen Tahiti-Ersatz, und dann alles in 8000er umbenannt. Aber da bisher sowas nicht kam, gehe ich davon aus, daß der nächste erscheinende Chip bereits in 20nm kommt. Wann auch immer.

Iruwen

2013-07-13, 15:02:58

Daß AMD sowas nicht scheut, sieht man ja an dem 5-GHz-Vishera, ein offenbar durchaus gelungener PR-Stunt
Im Sinne von "auch negative Presse ist Presse" gelungen oder was :freak:

Nakai

2013-07-13, 15:20:20

Naja, bei den aktuellen 7970 kann man ja schon 10-20% an Perf/W durch Feintuning bekommen, und das sind halt noch immer die asbach uralten Chips.

Da nochmal ~20% drauf sind durchaus machbar in meinen Augen, wenn man die ALUs und Frontend aufbohrt. Bei gleichem Chip wird man es nicht schaffen, auch nicht, wenn man den Takt noch weiter steigert, aber bei gleichem, oder eventuell sogar weniger Takt wäre die Perf/W Steigerung durchaus drin.

Dir Frage ist halt, ob man damit bei der absoluten Perf Titan/GTX780 Werks-OC schlagen kann, oder eben nicht.

Ich schätze das wie folgt ein:
1. AMD macht nen >500mm² Chip -> Sie packen nVidia sowohl in Pef/W als auch absoluter Perf
2. AMD bleibt bei nem <450mm² Chip -> Soe packen nVidia entweder bei Perf/W ODER! bei der absoluten Perf, aber nicht bei beiden.

20nm halte ich noch immer für sehr sehr unwahrscheinlich.

Sehe ich ähnlich. Entweder AMD geht in die Breite oder geringere Breite mit höherem Takt. Wenn AMD zwei Chips bringt(einer für Computer; einer fürs Gaming), dann wäre so ein großer Chip sehr wohl möglich. Außerdem hat AMD genug andere alte Chips, die man wiederverwenden kann. Bonaire und Oland könnten ohne weiteres übernommen werden. Da bräuchte man nur einen Pitcairnnachfolger und einen Tahitinachfolger.

Dass Tahiti noch bis 2014 am Leben erhalten wird, kann ich mir vorstellen, jedoch ist der Chip so alt, dass es schon möglich sein sollte, einen Chip zu bauen, der kleiner, weniger Strom verbraucht und eine ähnliche Performance wie Tahiti hat.
Wieviel macht DP eigentlich von der Diesize und Stromverbauch aus?

Knuddelbearli

2013-07-13, 15:36:16

Im Sinne von "auch negative Presse ist Presse" gelungen oder was :freak:

bei der GTX 480 hat es kaum einen gestört ;-)
war da auch +150W für paar Prozent mehr Leistung

Iruwen

2013-07-13, 15:41:13

Klar hat das gestört, wurde verdient abgewatscht das Teil.

Knuddelbearli

2013-07-13, 16:13:07

naja ich habe mir mal eben den gtx 480 und den 7970 ghz test auf cb durchgelesen, die 7970 wurde da deutlich härter abgeurteilt. Und Parteilichkeit kann man mir da wirklich keine vorwerfen habe selber eine 480 ^^

Spasstiger

2013-07-13, 16:29:12

Die 480er lagen anfangs wie Blei in den Regalen, erst Partnerkarten mit geringerer Abwärme und Lautstärke wie die von Zotac und Preissenkungen haben die Verkäufe angekurbelt. Eigentlich wurden die 480er erst im Abverkauf nach Erscheinen der 580 in größeren Stückzahlen an den Mann gebracht.

AMD wird auf Tahiti-Basis keine 20% schnellere GPU bringen, das ist utopisch. Und dass jetzt schon 20-nm-Samples an Hersteller geschickt wurden, glaube ich auch nicht. Entweder es gibt ein ödes Rebranding oder eine neue 28-nm-GPU.

boxleitnerb

2013-07-13, 17:14:46

Nakai

2013-07-13, 17:32:52

In ein paar deutschen Reviews schon, die Titan nicht von der Leine lassen und die Regler gekonnt ignorieren.
Dann werden sich die üblichen Verdächtigen draufstürzen und den totalen Sieg proklamieren, wetten? ;D

Ach komm, wenn Hawaii 2560SPs, besseres Perf/Watt, besseres Frontend, um die 450mm² hat und ähnlich viel Takt hat, wie Tahiti, dann ist Titan ziemlich gearscht. Tahiti war schon sehr mächtig, wurde doch nur von anderen Sachen ausgebremst. Löst man diese Probleme, dann steht Hawaii schon ziemlich gut da.
Aber den totalen Sieg kann man vergessen.

boxleitnerb

2013-07-13, 17:55:22

Ach komm, wenn Hawaii 2560SPs, besseres Perf/Watt, besseres Frontend, um die 450mm² hat und ähnlich viel Takt hat, wie Tahiti, dann ist Titan ziemlich gearscht. Tahiti war schon sehr mächtig, wurde doch nur von anderen Sachen ausgebremst. Löst man diese Probleme, dann steht Hawaii schon ziemlich gut da.
Aber den totalen Sieg kann man vergessen.

Ich sag ja nicht, dass Hawaii dann nicht gut dasteht. Ich meinte nur, dass die Betrachtung gerne etwas einseitig ist, alle nur auf die Performance schauen und bei den angeleinten Reviews vergessen, dass Titan dann kaum mehr als die 7970 (non-GHz) verbraucht.
Man sollte auch nicht ganz vergessen, dass hier eine brandneue Architektur gegen einen Fermi-Aufguss antritt, denn mehr ist Kepler ja nicht wirklich, jedenfalls fürs Gaming.

Ich gönne es AMD durchaus, denke aber nicht, dass das für Nvidia eine Katastrophe wird. Die werden vielleicht den Preis ein bissl senken und dann Augen zu und durch wie bei 680 vs 7970 GHz. Den positiven Nebeneffekt, den ich mir davon erwarte ist, dass die Grünen bei der Preisgestaltung von ihrem nächsten Titan oder wie das Ding dann heißen wird, sich an Oktober 2013 erinnern und etwas von Mond herunterkommen :smile:

Im Artikel über die 12-Phasen-Geschichte auf videocardz.com spoilert der Autor übrigens, dass Maxwell früher als erwartet kommt. Bissl substanzlos, weil der erwartete Zeitpunkt irgendwo in 2014 liegt, aber interessant fand ich es dennoch, gerade weil er diese Aussage direkt mit dem 9970-Launch verknüpft. Kann aber natürlich auch BS sein, klar.

Skysnake

2013-07-13, 18:34:37

Man sollte auch nicht ganz vergessen, dass hier eine brandneue Architektur gegen einen Fermi-Aufguss antritt, denn mehr ist Kepler ja nicht wirklich, jedenfalls fürs Gaming.

Das ist aber gewagt. Kepler ist schon eine recht große Veränderung zu Fermi.

Viel mehr kann man da eigentlich gar nicht ändern, so lange man nicht so einen Schritt wie AMD von VLIW auf SIMD macht.

horn 12

2013-07-13, 18:36:21

Rechne wohl auch das man in etwa eine Titan @1Ghz anvisieren wird mit ähnlichem Verbrauch wie diese und preislich deutlich darunter liegt, wohl auf GTX 780 Basis.
In wie weit nur das TopModell oder aber auch die HD9950 erscheinen wird sei mal dahingestellt.
Man kann wohl mit einigen Leaks in den kommenden Tagen rechnen.

Gipsel

2013-07-13, 18:43:23

RV790 war auch ein neuer Chip für ca. 25% mehr Performance.Der Takt ging nur 13% hoch (und Architekturänderungen gab es keine). Das waren sicher keine +25%.

=====================

Aber mal allgemein zu dem Thema: Warum sollte AMD kine Titanperformance in 28nm hinbekommen? Man sollte nicht den Fehler machen, die relativ mäßige Performance von Tahiti (für einen Chip der Größe) als Ausgangspunkt zu nehmen. Tahiti hat 60% mehr ALUs und in etwa auch den gleichen Vorsprung an Speicherbandbreite (die GE sogar mehr als das) gegenüber Pitcairn. Trotzdem plaziert sich der Chip meist nur vielleicht +35% über der Leistung einer 7870. Die Skalierung von CapeVerde zu Pitcairn ist dagegen viel näher am Ideal (+100% Einheiten und grob +90% Leistung). Zudem ist Pitcairn im Verhältnis auch kleiner (kein ECC, geringere DP-Rate).
Die Frage wurde schonmal aufgeworfen, aber warum sollte AMD nicht als Refresh einen ganz grob als verdoppelten Pitcairn ohne Ambitionen im Profi-Segment (da läuft Tahiti weiter, bis es ein entsprechendes neues Topmodell in 20nm gibt) zu beschreibenden Chip bringen, der dank aufgebohrtem Frontend die Skalierung wie von CV zu Pitcairn beibehält (also +90% auf Pitcairn)? Das wären dann Pi mal Daumen +40% auf Tahiti. Und das in vermutlich kaum mehr als 400mm².

Wie rechnet das Milchmädchen?
Pitcairn x2 sind:
4fach Frontend
4x10 = 40 CUs (2560 SPs)
64 ROPs (inklusive 256kB Color- und 64kB Z-Cache)
1MB L2-Cache
512bit Speicherinterface (auf ~5GBps limitiert)
424mm²

Laßt uns annehmen, daß das umfangreichere Frontend (das skaliert nicht wirklich linear, ein Verdopplung ist etwas mehr als doppelt so groß) und die paar kleineren erweiterungen von GCN1.1 sich mit den eingesparten Teilen (die verdoppelte Fläche würde die doppelte Anzahl Display-Outputs, zwei PCI-Express-Interfaces, zwei UVD- und VCE-Einheiten umfassen, wovon man natürlich immer nur eine Version benötigt) in etwa aufhebt. Dann hat man immer noch ein ziemlich großes Speicherinterface (4GB als Standard?) und 64 ROPs, die gemessen an Pitcairn wohl nicht wirklich gebraucht werden. Da ergäbe sich Sparpotential. 48 ROPs wären vermutlich locker ausreichend (immer noch +50% gegenüber Tahiti und wir wollen ja nur +40% an Performance). Zudem bietet ein 384Bit-Interface auf ~6,5 GBps auch die doppelte Speicherbandbreite wie Pitcairns 256 Bit 4,8GBps und ermöglicht ein billigeres Board (spart nicht so viel Diefläche, weil größere Treiber für höhere Geschwindigkeiten benötigt werden). Vielleicht beläßt man es auch bei und 6GBit/s (die 7GBps kann man dann für OC-Versionen offen lassen) und kompensiert das mit verdoppeltem L2 (also dann 1,5MB, wäre das Doppelte von Tahiti und das Gleiche wie GK110). Vielleicht könnte man die ROP-Caches verdoppeln, die eventuell bei HDR-Farbformaten und Blending wegen ihrer relativ geringen Kapazität (vermutlich gekoppelt an die Größen der internen Queues in den ROPs und damit der Latenztoleranz) etwas bremsen (bei 48 ROPs also von 192KB color/48kB Z auf 384kB/96kB). Aber all das sind relativ geringe Mengen (1MB SRAM im Cache kostet maximal 3mm²) und damit wenig Einfluß auf die Diegröße (das Design muß passen, damit die Taktbarkeit nicht eingeschränkt wird). Für die größeren L2-Tiles gibt es schon das Beispiel CapeVerde (128kB Tiles pro 32bit Speicherkanal statt 64kB bei Pitcairn und Tahiti), das existiert also schon und ließe sich einfach in ein neues Design integrieren. Das bringt vielleicht im Schnitt nur wenige Prozent Leistung, kostet aber auch nur 1% Diefläche oder so und ermöglicht es im gleichen Zug dann auch mit 6GBps-Speicher zu leben.

Wie auch immer, so ein hypothetischer Chip wäre etwa 15% größer als Tahiti (mit 48 ROPs vielleicht auch nur +10%). Mit den Fortschritten bei TSMC und der gewonnenen Erfahrung auf Seiten AMDs, halte ich es für durchaus möglich, daß so ein Ding bei 1GHz nicht (viel) mehr verbraucht als die 7970GE (deren Spannung ist zumindest beim Boosten schlicht 0,1V zu hoch), aber dabei deutlich schneller ist (mindestens 30% im Schnitt, tendentiell mehr).

Ich will jetzt nicht sagen, daß es genau so kommt. Aber man sollte die Möglichkeit auch nicht leichtfertig ausschließen.

boxleitnerb

2013-07-13, 18:48:39

Stimmt, hab die 4870 512MB genommen aus Versehen.

Das ist aber gewagt. Kepler ist schon eine recht große Veränderung zu Fermi.

Viel mehr kann man da eigentlich gar nicht ändern, so lange man nicht so einen Schritt wie AMD von VLIW auf SIMD macht.

Laut Ailuros wird der Schritt zu Maxwell deutlich größer sein als der Schritt von Fermi auf Kepler. Kepler sieht für mich nach Fermi@effizient aus. Da hat sich niemand hingesetzt und mit einem weißen Blatt Papier angefangen wie AMD bei GCN. Die richtig großen Veränderungen kommen ca. alle 4 Jahre. Von G71 auf G80, von GT200b auf GF100 und dann eben der Schritt auf Maxwell.

Skysnake

2013-07-13, 19:10:42

Bei Maxwell setzt sich auch niemand mit nem weißen Blatt Papier hin.

Erst mit 2015 wird es wieder einen richtig großen Sprung geben, weil man das Speicherinterface auch ändern wird.

Und Kepler ist schon eine recht große Änderung. Zwar eine Evolution, aber man hat schon an vielen Stellen geschraubt. Mehr kann man nicht erwarten an Änderung.

Gipsel

2013-07-13, 19:12:30

Laut Ailuros wird der Schritt zu Maxwell deutlich größer sein als der Schritt von Fermi auf Kepler. Kepler sieht für mich nach Fermi@effizient aus. Da hat sich niemand hingesetzt und mit einem weißen Blatt Papier angefangen wie AMD bei GCN.Aber viel war auf dem Papier auch nicht drauf. Hotclock ist weg, das Scheduling läuft komplett anders und damit verbunden wird der Registerfile-Zugriff offenbar auch anders gehandhabt (das ist ein ziemlich großer Schritt, betrifft es doch die Kernelemente der Architektur). Und schlußendlich gibt es auch eine neue ISA (und damit meine ich nicht solche kleinen Änderungen wie bei AMD zwischen den VLIW-Versionen oder zwischen GCN1.0 und 1.1). D.h. die Instruktionsencodierung ist inkompatibel zu der von Fermi. Also die "Uncore"-Bereiche sind vielleicht eine maßvolle Evolution, der Corebereich der SMx wurde dagegen ziemlich umgekrempelt.

Skysnake

2013-07-13, 19:16:25

/sign

Kepler hat fast keinen Stein auf dem anderen gelassen.

boxleitnerb

2013-07-13, 19:17:41

Na wir werden sehen. Vielleicht kann Ailuros ja noch was dazu sagen und wie er damals auf sein Statement kam.

Gipsel

2013-07-13, 19:22:09

Was sich als größere Änderung als von Fermi zu Kepler qualifizieren würde, wäre ein neues Konzept, also z.B. weg von der zwangsweisen Ausführung von 32 elementigen Vektoren (Warps) hin zu echtem "SIMT" (bisher ist es nur ein Marketing-Begriff mit nichts dahinter). Sowas hat nV in seinen Beschreibungen (reine Konzepte, noch nicht fest) von Echelon/Einstein (Maxwell-Nachfolger) ja mal angedeutet, zusätzlich zu dieser Registerfile-Cache-Geschichte. Aber mal sehen.

Edit:
Außerdem sollte man vielleicht sagen, auf welchem Level man sich die Änderungen ansieht. So kann die gleiche Kernarchitektur in ein deutlich anderes Gesamtkonzept (z.B. mit stacked RAM) eingebaut werden.

OBrian

2013-07-13, 22:43:16

...
Ich will jetzt nicht sagen, daß es genau so kommt. Aber man sollte die Möglichkeit auch nicht leichtfertig ausschließen.
Ja sicher, aber wieso dann erst jetzt? Sowas hätte man vor einem oder einem halben Jahr schon bringen können, damit das Weihnachtsgeschäft 2012 mitgenommen. Die Fertigung wäre da schon ausreichend gereift gewesen (war sie ja praktisch schon zwischen Tahiti-Start und Pitcairn-Start), und großartige Architekturänderungen hätte es ja nicht gegeben, die das aufgehalten hätten. Wenn die im Gerücht genannte Angabe "Oktober" stimmen sollte, verpaßt man damit ja auch die back-to-school-season in den USA, es wird dann gerade was mit Weihnachtsausstattung.

Grund dafür kann doch nur sein, daß man den Chip nicht früher hinbekommen hat. Aber Architektur liegt immer schon lange in der Schublade, das ist kein Grund. Hätte man aus Taktik warten wollen, bis Nvidia mit Titan kommt (um vorher die 7970 nicht zu gefährden), dann wäre man kurz danach mit dem Chip gekommen, um denen möglichst viel Wasser abzugraben. Stattdessen wurde noch mit der 7990 rumgehampelt.

Also nee, je länger ich drüber nachdenke, desto plausibler erschient mir ein 20-nm-Chip. Vielleicht hat der dann ja auch nur 2560 Shader und ist spitz auf knopf gebaut, mit noch mieser Fertigung und entsprechend noch relativ miesem Performance/Watt-Verhältnis. Aber die neue Fertigung erscheint mir der einzige Grund, warum man bisher keinen neuen Chip gebracht, sondern gewartet und damit so einige Termine verpaßt hat.

Also wenn jetzt wirklich noch ein 28nm-Chip kommen sollte, wäre das doch ein Indiz, daß die 20-nm-Fertigung noch mindestens ein ganzes Jahr nicht zur Verfügung steht. Wer bringt denn einen Chip, der in einem halben Jahr töter als tot wäre? Aber von so einer langen Verschiebung war doch nirgendwo die Rede, TSMC redet doch von einigen Prozent Umsatz durch 20nm in diesem Jahr noch. Und die großen GPU-Hersteller sind doch die ersten, die auf neue Fertigungen aufspringen.

boxleitnerb

2013-07-13, 22:50:53

Vielleicht hat man noch volle Lager? AMD gibt ja nicht aus Spass an der Freud einen Haufen Spiele mit dazu, das soll ein Kaufanreiz sein.

Gipsel

2013-07-13, 23:25:55

Vielleicht hat man noch volle Lager? AMD gibt ja nicht aus Spass an der Freud einen Haufen Spiele mit dazu, das soll ein Kaufanreiz sein.Außerdem hat AMD auch nicht unendlich viele Leute. Irgendwer mußte auch Kabini zusammenstöpseln oder die Chips für PS4 und XB1. Da gehen auch ordentlich Resourcen drauf. Und es ist ja nicht so, daß die komplett auf der faulen Haut gelegen haben. Immerhin wurden in der Zwischenzeit Mars/Oland, Bonaire (schon GCN1.1) und schließlich Hainan/Sun entwickelt.
Außerdem gab es nicht Gerüchte, daß AMD auch ein Projekt zur Anpassung auf einen 28nm bulk-Prozeß von GF am Laufen hatte? Ob da nichts draus geworden ist oder warum wir davon nichts sehen, keine Ahnung.

Hübie

2013-07-14, 00:23:49

Abgesehen von DRAM und vllt flash werden wir dieses Jahr noch keine 20nm-(consumer)Produkte auf dem Markt sehen.

john carmack

2013-07-14, 00:46:51

Abgesehen von DRAM und vllt flash werden wir dieses Jahr noch keine 20nm-(consumer)Produkte auf dem Markt sehen.

Apple lässt dises jahr noch in 20nm produzieren!

Duplex

2013-07-14, 00:50:31

Aber mal allgemein zu dem Thema: Warum sollte AMD kine Titanperformance in 28nm hinbekommen? Man sollte nicht den Fehler machen, die relativ mäßige Performance von Tahiti (für einen Chip der Größe) als Ausgangspunkt zu nehmen. Tahiti hat 60% mehr ALUs und in etwa auch den gleichen Vorsprung an Speicherbandbreite (die GE sogar mehr als das) gegenüber Pitcairn. Trotzdem plaziert sich der Chip meist nur vielleicht +35% über der Leistung einer 7870. Die Skalierung von CapeVerde zu Pitcairn ist dagegen viel näher am Ideal (+100% Einheiten und grob +90% Leistung). Zudem ist Pitcairn im Verhältnis auch kleiner (kein ECC, geringere DP-Rate).
Die Frage wurde schonmal aufgeworfen, aber warum sollte AMD nicht als Refresh einen ganz grob als verdoppelten Pitcairn ohne Ambitionen im Profi-Segment (da läuft Tahiti weiter, bis es ein entsprechendes neues Topmodell in 20nm gibt) zu beschreibenden Chip bringen, der dank aufgebohrtem Frontend die Skalierung wie von CV zu Pitcairn beibehält (also +90% auf Pitcairn)? Das wären dann Pi mal Daumen +40% auf Tahiti. Und das in vermutlich kaum mehr als 400mm².

Wie rechnet das Milchmädchen?
Pitcairn x2 sind:
4fach Frontend
4x10 = 40 CUs (2560 SPs)
64 ROPs (inklusive 256kB Color- und 64kB Z-Cache)
1MB L2-Cache
512bit Speicherinterface (auf ~5GBps limitiert)
424mm²

Laßt uns annehmen, daß das umfangreichere Frontend (das skaliert nicht wirklich linear, ein Verdopplung ist etwas mehr als doppelt so groß) und die paar kleineren erweiterungen von GCN1.1 sich mit den eingesparten Teilen (die verdoppelte Fläche würde die doppelte Anzahl Display-Outputs, zwei PCI-Express-Interfaces, zwei UVD- und VCE-Einheiten umfassen, wovon man natürlich immer nur eine Version benötigt) in etwa aufhebt. Dann hat man immer noch ein ziemlich großes Speicherinterface (4GB als Standard?) und 64 ROPs, die gemessen an Pitcairn wohl nicht wirklich gebraucht werden. Da ergäbe sich Sparpotential. 48 ROPs wären vermutlich locker ausreichend (immer noch +50% gegenüber Tahiti und wir wollen ja nur +40% an Performance). Zudem bietet ein 384Bit-Interface auf ~6,5 GBps auch die doppelte Speicherbandbreite wie Pitcairns 256 Bit 4,8GBps und ermöglicht ein billigeres Board (spart nicht so viel Diefläche, weil größere Treiber für höhere Geschwindigkeiten benötigt werden). Vielleicht beläßt man es auch bei und 6GBit/s (die 7GBps kann man dann für OC-Versionen offen lassen) und kompensiert das mit verdoppeltem L2 (also dann 1,5MB, wäre das Doppelte von Tahiti und das Gleiche wie GK110). Vielleicht könnte man die ROP-Caches verdoppeln, die eventuell bei HDR-Farbformaten und Blending wegen ihrer relativ geringen Kapazität (vermutlich gekoppelt an die Größen der internen Queues in den ROPs und damit der Latenztoleranz) etwas bremsen (bei 48 ROPs also von 192KB color/48kB Z auf 384kB/96kB). Aber all das sind relativ geringe Mengen (1MB SRAM im Cache kostet maximal 3mm²) und damit wenig Einfluß auf die Diegröße (das Design muß passen, damit die Taktbarkeit nicht eingeschränkt wird). Für die größeren L2-Tiles gibt es schon das Beispiel CapeVerde (128kB Tiles pro 32bit Speicherkanal statt 64kB bei Pitcairn und Tahiti), das existiert also schon und ließe sich einfach in ein neues Design integrieren. Das bringt vielleicht im Schnitt nur wenige Prozent Leistung, kostet aber auch nur 1% Diefläche oder so und ermöglicht es im gleichen Zug dann auch mit 6GBps-Speicher zu leben.

Wie auch immer, so ein hypothetischer Chip wäre etwa 15% größer als Tahiti (mit 48 ROPs vielleicht auch nur +10%). Mit den Fortschritten bei TSMC und der gewonnenen Erfahrung auf Seiten AMDs, halte ich es für durchaus möglich, daß so ein Ding bei 1GHz nicht (viel) mehr verbraucht als die 7970GE (deren Spannung ist zumindest beim Boosten schlicht 0,1V zu hoch), aber dabei deutlich schneller ist (mindestens 30% im Schnitt, tendentiell mehr).

Ich will jetzt nicht sagen, daß es genau so kommt. Aber man sollte die Möglichkeit auch nicht leichtfertig ausschließen.
Das Konzept gefällt mir gut!
Wenn der Chip tatsächlich nur um die 420mm² groß wäre, dann würde ich sogar noch mehr CUs einbauen, Quad Frontend und 512 Bit SI wäre Super!

Hübie

2013-07-14, 00:54:30

Apple lässt dises jahr noch in 20nm produzieren!

Stimmt die wechseln ja nach und nach. Hatte ich vergessen. :smile: Gn8

AffenJack

2013-07-14, 02:28:15

Apple lässt dises jahr noch in 20nm produzieren!

Apple macht ne Testproduktion in 20nm dieses Jahr und Prozessoptimierung. Ramp soll nicht umsonst erst nach Dezember anfangen. Hübie dürfte mit seiner Aussage recht behalten.

Leonidas

2013-07-14, 04:51:56

Das ist eben das Dilemma: 20nm-Produkte von Apple wird es *kaufbar* erst im tiefen Q1/2014 geben. Aber sagt das was darüber aus, ob man nicht ein paar tausend 20nm-Wafer in Risk-Produktion auch schon im Q4/2013 herstellen kann? Eigentlich nicht.

In jedem Fall gilt: 2560 SP und 250W TDP deuten für mich nicht auf 20nm hin. Dies sind gerade einmal 25% mehr SP, bei angenommen 1 GHz Takt und ansonsten keinen großen Änderungen (Frontend-Aufbohrung) sind dafür auch keine bombastisch größeren Chipflächen nötig: 20% mehr regulär, abzüglich der üblichen Verbesserungen bei einem Neudesign noch 15% mehr - sprich wir liegen bei 420mm².

Jene 15% wären dann auch der Richtwert für den höheren Stromverbrauch. Gemessen am Mittel zwischen 7970 und 7970GE käme man damit auf 245 Watt, was mit Augenzudrücken noch unter eine TDP von 250 Watt einordenbar wäre. So gesehen sind 2560 SP absolut in 28nm herstellbar - und umgedreht wäre es ein Witz, dies in 20nm herzustellen. Sellbst wenn man sich dann noch andere Änderungen herausnimmt, wäre der Chip maximal 250mm² groß. Das zitierte 12-Laye-rBoard wäre dann auch Overkill. Wenn 20nm, dann kommt hier definitiv mehr. Man muß nicht von 4096 SP träumen, aber 3072 SP sollten es schon sein.

Skysnake

2013-07-14, 09:58:34

Das ist eben das Dilemma: 20nm-Produkte von Apple wird es *kaufbar* erst im tiefen Q1/2014 geben. Aber sagt das was darüber aus, ob man nicht ein paar tausend 20nm-Wafer in Risk-Produktion auch schon im Q4/2013 herstellen kann? Eigentlich nicht.

Die Frage ist doch nicht, ob man von Risk-Produktion ausgehen kann, sondern warum man überhaupt von Risk-Produktion ausgehen sollte.

Und da lautet für mich die klare Antwort sollte man auf gar keinen fall! In den letzten Jahren hat TSMC ziemliche Probleme mit ihren neuen Fertigungen gehabt, und es kam immer wieder zu verzögerungen.

Es wäre absolut DÄMLICH! wenn man so spitz auf Knopf nen Chip strickt, das man schon einen sehr langen Produktzyklus hat, der sich dann auch nochmal verschieben kann. Vor allem wenn man eh damit rechnen muss, dass die Konkurrenz nochmal einen Refresh bringt.

Sich hier auf TSMC zu verlassen, wäre in meinen Augen verdammt! sträflich. Das Risiko das AMD mit 20nm Produktion eingehen würde wäre in meinen Augen viel zu groß. Du kannst das ja nicht erst heute entscheiden, oder vor 2 Monaten, sondern die Entscheidung liegt 1-2 Jahre in der Vergangenheit...

Aus dem gecancelten 32nm Prozess und den Problemen mit 40nm sollten Sie etwas gelernt haben. Für 28nm wars da wohl schon zu spät, aber 20 kommt ja wieder "normal". Da kann man dann gut einplanen, das man 20nm eben etwas mehr Zeit lässt.

Leonidas

2013-07-14, 10:03:07

So gesehen verschlechtern sich die Chancen von 20nm nochmals.

Unrockstar

2013-07-14, 10:40:23

Meine Idee, wie auch schon gepostet, ist Quasi dass AMD nur einen Hardlaunch der HD9950 macht, welche Knapp über Titan agiert. Die HD9970 wäre somit reiner Paper Launch, und AMD würde diese dann auch in 20nm bringen, solange eben der Fahrplan seitens der Fabs eingehalten wird. Der von Leonidas gepostete Artikel bringt das Problem ja gut auf den Tisch. Aber was ich mich schon die ganze Zeit frage ist eben, warum wartet AMD solange wenns ja nur ein Refresh wird? Vor allem Maxwell wird sicher schneller sein als Titan, sollte Maxwell wirklich im Sommer kommen, dann hätte AMD wieder das nachsehen. Es bringt ja AMD nichts immer nur über Preis anzugreifen, ausser die kommen mit einer HD9970 für 500€ auf Titan Ultra Niveau, diesen Preis dürfte nicht mal NV schaffen, da GK 110 einfach zu teuer in der Herstellung ist.
Spannend bleibt auch der Fortschritt von GLoFo in 20nm, ggf kann es ja sein, dass GloFo eine Riskproduktion für AMD gestartet hat und AMD hier seine Chip bezieht. Diese aber wie schon genannt auf eine HD9950 packt, denn diese sollte weniger Komplex sein, weil man defekte Sektoren ja abschalten kann. Und es würde wie gesagt ja auch reichen, wenn die HD9950 die Titan beschäftigt.
Hat Jemand Infos zu GloFos 20nm Stand?

V2.0

2013-07-14, 10:42:10

Es besteht ja kein Risiko für AMD, da NV auch bei TSMC fertigt und wohl noch viel länger keine neuen Chips fertigen lassen kann. Mit Glück sollte AMD schon eine Verfügbarkeit Ende Q4/2013 schaffen und damit 6-9 Monate vor NV am Markt sein.

Skysnake

2013-07-14, 13:10:51

Vor 2014 würde ich nicht mit 20nm Chips rechnen, und selbst kleine GPUs nur im Q1 2014. Eine GPU vom Schlage einer 7970+ sogar erst Ende Q1, Anfang Q2.

Keiner von uns weiß, was wirklich Sache ist bei AMD aktuell. Sie haben halt nur beschränkte Ressourcen, und bzgl XB1 hört man ja auch in letzter Zeit immer wieder von Problemen. Eventuell mussten auch Kapazitäten auf die Konsolen transferiert werden, was so nicht eingeplant war, oder oder oder...

Das ist halt alles reine Spekulation, die gar nichts bringt. Wir müssen uns hier einfach etwas in Geduld üben ;)

Hübie

2013-07-14, 13:32:51

Ich kann dir versichern, dass das was AMD Ende September vorstellt und im Oktober verkaufen wird nicht 20-nm-Prozess ist.

boxleitnerb

2013-07-14, 13:39:38

Was kannst du uns noch versichern? :D
Ist es nur eine GPU oder eine ganze Familie? Ich habe von Tonga als Pitcairn-Nachfolger gelesen (angeblich Infos aus erster Hand, der Typ vom AT-Forum)...

Skysnake

2013-07-14, 13:45:23

Ich kann dir versichern, dass das was AMD Ende September vorstellt und im Oktober verkaufen wird nicht 20-nm-Prozess ist.

Lass doch den Leuten ihre Spekulation, man muss ja nicht jeden Spaß vorzeitig beenden :tongue:

SavageX

2013-07-14, 13:46:12

Gibt es Hinweise, ob das neue Gedöns irgendwelche HSA Features mitbringt (ein Teil davon war ja auch für nicht-APUs vorgesehen IIRC)? Selbst wenn die Spieleleistung nicht einen übergroßen Sprung machen würde, wäre es für AMD lohnenswert, einen Grafikchip im Petto zu haben, der gut mit den Kabini-basierten Opterons zusammenspielt.

Skysnake

2013-07-14, 13:52:44

Kann man nicht 100% sicher sagen.

AMD hat sich in der Vergangenheit nicht wirklich konsequent an ihren HSA Fahrplan bzgl Features in GPUs gehalten. Genau wird man das erst sagen können, wenn die GPUs drausen sind.

Was aber im Prinzip ansteht ist kohärenter gemeinsamer Addresspace auch mit der dGPU. Nach nem Vortrag über PCI-E 3.0 kann ich mir inzwischen auch vorstellen, wie das wohl funktionieren könnte. Mit PCI-E 3.0 kann man direkt in die Caches einer CPU schreiben. Damit sollten auch die Kohärenzprotokolle greifen. Das Problem ist halt, das funktioniert wirklich erst mit PCI-E 3.0. Vor den APUs mit PCI-E 3.0 kann man damit also wohl nicht auf das Feature hoffen.

SavageX

2013-07-14, 14:09:15

Oh, ich habe gerade namentlich Kabini (Jaguar) mit Kaveri (Steamroller) verwechselt.

Meine natürlich die Steamroller-APUs, die haben ja passenderweise mit guter Wahrscheinlichkeit PCIe 3.0.

Locuza

2013-07-14, 14:56:28

AMD hat sich in der Vergangenheit nicht wirklich konsequent an ihren HSA Fahrplan bzgl Features in GPUs gehalten. Genau wird man das erst sagen können, wenn die GPUs drausen sind.

Und was hat man nicht eingehalten?

Hübie

2013-07-14, 15:14:51

Was kannst du uns noch versichern? :D
Ist es nur eine GPU oder eine ganze Familie? Ich habe von Tonga als Pitcairn-Nachfolger gelesen (angeblich Infos aus erster Hand, der Typ vom AT-Forum)...

Darüber kann ich nur spekulieren. Sinnvoll wäre ja ein kleines lineup, ähnlich dem was nVidia kürzlich vollzogen hat, oder? Dann rutscht Pitcairn XT ein Segment ab und AMD bietet bis ganz unten weiterhin alles an - wie nV halt. Tahiti XT (2) wird damit genauso unbedeutend wie die GTX670/680. Die 660 Ti ist ja ebenfalls kein bringer bei dem Preis.

boxleitnerb

2013-07-14, 15:22:22

Aber Tahiti soll doch bis Mitte 2014 weiterlaufen. Ich stelle mir das Lineup erstmal so vor:

Hawaii
Tahiti
Pitcairn
Cape Verde

Unrockstar

2013-07-14, 17:45:04

Aber Tahiti soll doch bis Mitte 2014 weiterlaufen. Ich stelle mir das Lineup erstmal so vor:

Hawaii
Tahiti
Pitcairn
Cape Verde

So sehe ich das eben auch.. Dass natürlich 20nm für Q3 nicht machbar ist, ist einleuchtend. Wäre es dann nicht vllt Sinnvoll einfach nur ein Paper Launch zu machen? Wobei NV hätte ja genug Zeit zu reagieren und mit Maxwell wäre AMD wieder Leistungsmäßig benachteiligt

Andere Theorie:
HD9950 in 28nm und Leistung von Titan +10% und dann HD9970 im Frühjahr 2014? Wäre das überhaupt ökonomisch Sinnvoll? Und dann frage ich mich natürlich auch, was geht denn grade für eine Karte bei den Herstellern rum?

boxleitnerb

2013-07-14, 19:56:23

Ich hab mit dem Kerl, der angeblich was weiß, ein Ratespiel gemacht mit interessantem Resultat:

Meine Annahmen:
40 CUs (2560SP, 160 TMUs)
48 ROPs
7 Gbps memory
Power consumption (not TDP!) between 7970 and 7970 GHz
Performance 7970 GHz +25%
Nvidia-like turbo
MSRP $549-599

Sein Kommentar dazu:
Boxleitnerb is close-ish... but not to the flagship.

Hat die 9970 dann gar mehr als 2560 SP??? Wenn das nur ne 9950 ist in etwa, holy moly. Vielleicht hat AMD seinen eigenen GK110 gemacht. Wirklich groß, nicht ganz so hoch getaktet und überall getweakt.

Hübie

2013-07-14, 20:03:22

Aber Tahiti soll doch bis Mitte 2014 weiterlaufen. Ich stelle mir das Lineup erstmal so vor:

Hawaii
Tahiti
Pitcairn
Cape Verde

Das habe ich auch nicht kategorisch ausgeschlossen, oder? ;)

boxleitnerb

2013-07-14, 20:09:22

Muss deinen Post nicht ganz richtig gelesen haben, hast Recht :)

Duplex

2013-07-14, 21:02:58

Hat die 9970 dann gar mehr als 2560 SP???
Vielleicht 44 oder 48 CUs, 2816 oder 3072 Shader, damit kannste Titan nach unten wegfegen.

Wenn das nur ne 9950 ist in etwa, holy moly. Vielleicht hat AMD seinen eigenen GK110 gemacht. Wirklich groß, nicht ganz so hoch getaktet und überall getweakt.
RV770 war 2,5 mal größer als RV670 bei selber Fertigung, AMD kann es!
Vielleicht braucht AMD für 3072 Shader nur um die 450mm², das wäre immer noch 100mm² weniger als GK110, also nicht so groß.

LSSJBroly

2013-07-14, 21:09:27

Vielleicht 44 oder 48 CUs, 2816 oder 3072 Shader, damit kannste Titan nach unten wegfegen.

Das wage ich zu bezweifeln... Wenn man sich die 680 vs 7970 GHz Ed. anschaut sind beide Karte ähnlich flott bei gleichem Takt - und das bei +33% mehr Shader für die 7970 + 50% mehr Bandbreite.

Eine 9970 mit 3072 Shadern hätte allerdings "nur" 14% mehr Shader als eine Titan, allerdings gleich viel bandbreite. Ich glaube selbst, dass solch ein Chip es gegen eine Titan mit 900MHz durchschnitts-Boost schwer haben würde, egal wie stark man das Frontend verbessern würde...

Hübie

2013-07-14, 21:10:44

Du vergisst dabei dass Tahitis Achillesferse das Frontend ist ;)

boxleitnerb

2013-07-14, 21:11:18

Die Leistungsaufnahme ging auch deutlich nach oben bei RV770. Eine interessante Frage wäre, ob AMD dafür irgendwas geopfert hat an Compute-Kram bzw. wenn ja, was.

Das wage ich zu bezweifeln... Wenn man sich die 680 vs 7970 GHz Ed. anschaut sind beide Karte ähnlich flott bei gleichem Takt - und das bei +33% mehr Shader für die 7970 + 50% mehr Bandbreite.

Die 7970 GHz kann der 680 schon ordentlich davonrennen. Halt nicht durchgehend, aber z.B. Alan Wake mit 8xMSAA, Metro 2033 mit SGSSAA, Anno 2070 usw.

Knuddelbearli

2013-07-14, 21:12:23

natürlich können sie es nur sie hatten ( bisher? ) kein Interesse daran. Wieso sollten sie es auch nicht können?

Wen ich AMD wäre ( XD ) würde ich eine Riskproduktion mit 7870 Größe starten, 3/4 Jahr später dann normale größe sagen wir mal so 350mm² und dann nochmal 1 Jahr später einen 550mm² DIE.

der 550mm² und 250mm² Chip dürfen sich dann auch überlagern ( 550 dürfte ja knapp schneller sein dafür fast doppelte Leistungsaufnahme haben )

Und den preis dann immer ca gleich lassen, topmodell bei 500€ rum, bei 250mm² dürfte damit auch eine sehr frühe Riskproduktion kein Problem sein

Duplex

2013-07-14, 21:13:59

Das wage ich zu bezweifeln... Wenn man sich die 680 vs 7970 GHz Ed. anschaut sind beide Karte ähnlich flott bei gleichem Takt - und das bei +33% mehr Shader für die 7970 + 50% mehr Bandbreite.

Eine 9970 mit 3072 Shadern hätte allerdings "nur" 14% mehr Shader als eine Titan, allerdings gleich viel bandbreite. Ich glaube selbst, dass solch ein Chip es gegen eine Titan mit 900MHz durchschnitts-Boost schwer haben würde, egal wie stark man das Frontend verbessern würde...
Lies mal den Beitrag von Gipsel http://www.forum-3dcenter.org/vbulletin/showpost.php?p=9841551&postcount=344
Mit Quad Frontend & 40 CUs ist der Chip 30-40% schneller als Tahiti XT Ghz, 3072 Shader wäre Keplers Vernichtung (vorrausgesetzt ein breites Frontend).

boxleitnerb

2013-07-14, 21:21:15

Wenn AMD den Takt hochhalten kann auf 1 GHz mindestens, könnte man mit 3072 Shadern 15% vor Titan@max PT/TT liegen schätze ich.

LSSJBroly

2013-07-14, 21:22:07

Du vergisst dabei dass Tahitis Achillesferse das Frontend ist ;)
Gibt es denn genaue testes, die zeigen, wie stark man davon wirklich profitieren würde?

Die 7970 GHz kann der 680 schon ordentlich davonrennen. Halt nicht durchgehend, aber z.B. Alan Wake mit 8xMSAA...

Da ist es aber wieder die Bandbreite, die zu klein geraten ist;) Wenn diese nicht limitiert, sind beide Karten ähnlich flott.

Mit Quad Frontend & 40 CUs ist der Chip 30-40% schneller als Tahiti XT Ghz, 3072 Shader wäre Keplers Vernichtung (vorrausgesetzt ein breites Frontend).

Was ist für dich denn eine vernichtung:freak: Ich würde das so sehen, wenn man über 40% schneller wäre (selbst die Titan "vernichtet" die 7970 GHz Ed. nicht). Nur ist die Titan mit standardboost schon um die 35% schneller als die 7970 GHz. Der Artikel auf der Startseite beschreibt es auch ganz gut. Wenn AMD in 28nm kommt, wird/kann Nvidia mit einem vollen GK110 "ohne" probleme kontern.

boxleitnerb

2013-07-14, 21:24:33

Da ist es aber wieder die Bandbreite, die zu klein geraten ist;) Wenn diese nicht limitiert, sind beide Karten ähnlich flott.

Hm, sehe ich nicht so. Schau dir hohe Auflösungen, OGSSAA an, das geht eher auf die Rechenleistung. Dazu shaderlastige Spiele wie Sleeping Dogs, Anno usw. Kann schon vorkommen ;)

Duplex

2013-07-14, 21:27:03

Wenn AMD den Takt hochhalten kann auf 1 GHz mindestens, könnte man mit 3072 Shadern 15% vor Titan@max PT/TT liegen schätze ich.
Dann gehst du aber von einem Tahiti Frontend aus, warum soll AMD nur die CUs erhöhen und nicht das Frontend anfassen?
Tahiti XT würde mit Quad Frontend schon viel besser skalieren können.

LSSJBroly

2013-07-14, 21:27:07

Hm, sehe ich nicht so. Schau dir hohe Auflösungen, OGSSAA an, das geht eher auf die Rechenleistung. Dazu shaderlastige Spiele wie Sleeping Dogs, Anno usw. Kann schon vorkommen ;)

Ich hab die 680 lange genug gehabt, um zu sehen, dass die Bandbreite das größte problem des Chips war. Und wenn die 7970 mal schneller war, dann aber auch selten mehr als 10, 15% - und nicht wie die deutlich höhere Rechenleistung es vermuten lassen würde (eben in sehr hohen Auflösungen - wo das Frontend eigentlich nicht mehr allzustark limitieren dürfte).

Im Endeffekt bleibt es spannend. Mal abwarten, was AMD letzen endes uns präsentieren wird:D

Hübie

2013-07-14, 22:35:21

Gibt es denn genaue testes, die zeigen, wie stark man davon wirklich profitieren würde?

http://www.forum-3dcenter.org/vbulletin/showpost.php?p=9841551&postcount=344

Aber mal allgemein zu dem Thema: Warum sollte AMD kine Titanperformance in 28nm hinbekommen? Man sollte nicht den Fehler machen, die relativ mäßige Performance von Tahiti (für einen Chip der Größe) als Ausgangspunkt zu nehmen. Tahiti hat 60% mehr ALUs und in etwa auch den gleichen Vorsprung an Speicherbandbreite (die GE sogar mehr als das) gegenüber Pitcairn. Trotzdem plaziert sich der Chip meist nur vielleicht +35% über der Leistung einer 7870. Die Skalierung von CapeVerde zu Pitcairn ist dagegen viel näher am Ideal (+100% Einheiten und grob +90% Leistung). Zudem ist Pitcairn im Verhältnis auch kleiner (kein ECC, geringere DP-Rate).

Gipsel post sagt mehr als tausend Worte.

boxleitnerb

2013-07-14, 22:49:30

Also ich weiß ja nicht, aber die 7970 GHz ist doch ein gutes Stück mehr wie nur 35% vor der 7870. Bis zu 48% sehe ich bei Computerbase im GTX770-Review.
Schauen wir uns mal die 7950 an. 12% mehr Rechenleistung als die 7870 und auch ca. 10% mehr Performance. Entweder limitieren die ROPs ab der 7970 etwas oder das schwache Frontend wirkt sich erst ab ca. 1800 ALUs aus.

Hübie

2013-07-14, 22:51:13

Das ist wieder das Mathematik-Problem.

boxleitnerb

2013-07-14, 22:53:16

Nix für ungut, aber langsam nervts.

Hübie

2013-07-14, 22:55:17

Ohne Worte ;D Ich will da auch nix weiter zu sagen, da sich die meisten eh lernresistent zeigen.

boxleitnerb

2013-07-14, 23:02:46

Mehr wie 10-15% Verbesserungspotential durch die ACEs sehe ich jedenfalls nicht. Und was ich nicht verstehe ist, warum es bei der 7950 noch kein Problem ist.

LSSJBroly

2013-07-14, 23:13:06

Mehr wie 10-15% Verbesserungspotential durch die ACEs sehe ich jedenfalls nicht. Und was ich nicht verstehe ist, warum es bei der 7950 noch kein Problem ist.

Ich hab mir mal ein paar PCGH benchmarks angesehen und interessanter weise war die HD 7970 GHz Ed. meistens um die 45 bis 50% schneller als die 7870, in einigen Fällen sogar bis zu 60% - und das auch schon in 1080p...

OBrian

2013-07-14, 23:21:02

Was ich bei diesem Schema:
Hawaii
Tahiti
Pitcairn
Cape Verdenur nicht einordnen kann: Wofür der weitere neue Chip, wenn Hawaii im Vollausbau "nur" 30-40% schneller ist als Tahiti? Aus jedem Chip werden doch mindestens zwei Varianten geschnitzt, "XT" und "Pro". D.h. Hawaii XT wäre 30-40% schneller als Tahiti, Hawaii Pro dann 15-20%. Damit bleibt Tahiti, wird nur etwas billiger. Pitcairn im Vollausbau ist aber auch schon ziemlich stark. Wo soll denn dann noch ein weiterer Chip hin?

Denkbar wäre, Pitcairn und Tahiti beide abzulösen durch einen einzigen neuen, was Stärkeres als Pitcairn mit immer noch 256-bit-SI, um die Lücke zwischen Bonaire und Hawaii Pro (oder ggf. Hawaii LE) zu füllen. Aber das scheint mir ziemlicher Aufwand zu sein, der neue Chip wäre ja kein wirklicher finanzieller Vorteil. Bonaire mußte immerhin eine große Lücke füllen, die man nicht mit einem stark teildeaktivierten Pitcairn füllen wollte. Aber zwischen Bonaire und Hawaii wäre dann ja keine Lücke.

Nein, ein neuer Performance-Chip macht doch nur Sinn bei einem High-End-Chip, der wirklich so viel zulegt, daß er auch teildeaktiviert noch eine große Lücke nach unten läßt. Aber geht das in 28 nm?

ODER: Es gibt nur Hawaii, sonst keine neuen Chips. Dabei wäre der dann Testballon für die neue Architektur (analog zur 6900, die VLIW4 getestet hat). Die 20-nm-Fertigung könnte man dann tatsächlich erst einsetzen, wenn man alles auf einmal ersetzt.

Und wenn man bis dahin den Namen 9970 schon verbraten hat, kann man eine komplett neue Nomenklatur anfangen, die dann auch z.B. HSA-Eigenschaften widerspiegelt (muß ja dann Kaveri komplementieren).

Aber das paßt alles nicht zu den Gerüchten, z.B. die kryptische Antwort in http://www.forum-3dcenter.org/vbulletin/showthread.php?p=9842717#post9842717 läßt doch auf mindestens zwei Chips schließen, und es waren auch zuviele Codenamen am Rumschwirren.

ODER: Die Gerüchte und Behauptungen von Leuten, die angeblich was wissen, ist alles Käse und ausgedacht, diesem Herbst kommt auch nichts Neues mehr, alle Karten bleiben so unverändert bis Ende 2014. Das wär doch das einfachste, oder?

boxleitnerb

2013-07-14, 23:21:16

Ich hab mir mal ein paar PCGH benchmarks angesehen und interessanter weise war die HD 7970 GHz Ed. meistens um die 45 bis 50% schneller als die 7870, in einigen Fällen sogar bis zu 60% - und das auch schon in 1080p...

Interessant! Ist die Frage, warum das bei denen anders aussieht als sonst. Wobei TechPowerup ähnliche Ergebnisse zeigt, 45-50% im Schnitt.

@OBrian:
Ich sehe da kein Problem. Das komplette Gefüge inkl. 7970 GHz rutscht runter und darüber gibt es mit je 15-20% Abstand zwei Hawaii-GPUs.
Ich denke der Kerl meinte nicht zwei GPUs, sondern zwei SKUs, also Hawaii Pro und XT. Er sprach aber auch von Tonga Curacao als Pitcairn-Nachfolger, was zu deinem zweiten Gedanken passen würde.

Not exactly possible in that order, Curacao is the replacement for Pitcairn and will be ready alongside Hawaii so I don't know where that would leave Tahiti.

Hawaii XT
Hawaii Pro
Curacao XT
Curacao Pro
Bonaire
Cape Verde

LSSJBroly

2013-07-14, 23:29:08

Limitiert das Frontend vllt doch nicht ganz so stark, wie man annimmt? (zumindest ab 1080p ist der Abstand um die 50%, in 1600p dann richtung 55 bis 65%) - möglicherweise würde ein stärkeres Frontend dann in niedrigen Auflösungen helfen, aber in den höheren eher weniger gut skalieren?

boxleitnerb

2013-07-14, 23:33:12

55-65%? Das hab ich jetzt noch nicht gesehen, hast einen Link?

Edit:
Also ich glaube wir müssen hier unterscheiden zwischen AMD vs AMD und AMD vs Nvidia. Im Vergleich zu Nvidia skaliert man mit der Rechenleistung nicht ganz so gut, mit allen GCN-GPUs. Aber wenn man GCN mit GCN vergleicht, ist es ja scheinbar teilweise kein Problem.

LSSJBroly

2013-07-14, 23:37:06

Aktueller PCGH -Leistungsindex
Skyrim (SGSSAA):
1680x1050 64Fps zu 39Fps (+64%)
1920x1080 56Fps zu 35Fps (+60%)
2560x1600 37Fps zu 22Fps (+68%)

Zwar eher die Ausnahme, aber vorhanden. Die meisten anderen Benchmarks der 7970GHz gegenüber der 7870 liegen bei um die 45 bis 55%. Allerding sind auch einige Fälle mit um die 38% (Dirt Showdown) vorhanden...

Duplex

2013-07-14, 23:42:19

Die 7970 non Ghz war Anfangs in FullHD 30-35% schneller als Pitcairn.
Hier hat man gesehen das Frontend von Tahiti ist in Games nicht stark ausgelegt.

reaperrr

2013-07-15, 00:02:26

Mehr wie 10-15% Verbesserungspotential durch die ACEs sehe ich jedenfalls nicht. Und was ich nicht verstehe ist, warum es bei der 7950 noch kein Problem ist.
Wer sagt, dass es bei der 7950 noch kein Problem ist? Es ist wahrscheinlich nur ein geringeres Problem, weil durch die 4 weniger CUs die Auslastung bei gleichem Frontend automatisch besser ist. Müssen halt nur 7 statt 8 Blöcken gefüttert werden.
Die ACEs würden sowieso nur bei Compute was bringen, für was anderes sind die nicht zuständig (jedenfalls bei GCN1/1.1). Bei "Verdoppelung des Frontends" geht es für die reine Grafikleistung primär um Setup/Primitives/Geometrie/Tesselation.

Was hier komischerweise nie von irgendwem erwähnt wird, GCN1 hat auch in den Bereichen Texturfilterung und ROPs noch zwei Bereiche, in denen ein klarer Nachteil gegenüber Kepler besteht.
1) Die FP16-Filterung läuft bei GCN nur mit halber, bei Kepler mit voller Rate.
2) GCN kann nur 4 Z/Stencil-Ops pro ROP, Kepler (wie alle Nvidia-Chips seit G80) dagegen 8.

Dadurch ist ein GK104 im Vollausbau in gleich drei Bereichen, Geometrie/Tesselation, FP16-Filterung und Z/Stencil-Operationen, jeweils mindestens doppelt so stark wie Tahiti (bei Geometrie/Tesselation tendenziell eher mehr als das, GCN skaliert ja verhältnismäßig schwach bei höheren Tesselation-Leveln). Tahiti hat nur bei Compute, reinem ALU-Durchsatz und der Speicherbandbreite Vorteile.

Wenn AMD bei Hawaii neben einem breiteren Frontend auch mal bei der FP-16-Filterung und den Z/Stencil-Ops zu Nvidia aufschließen würde, wären damit gleich drei potenzielle Flaschenhälse beseitigt, dann braucht es vielleicht garnicht so viel mehr Rohleistung, um einen größeren Sprung zu machen.

Edit:
Aktueller PCGH -Leistungsindex
Skyrim (SGSSAA):
1680x1050 64Fps zu 39Fps (+64%)
1920x1080 56Fps zu 35Fps (+60%)
2560x1600 37Fps zu 22Fps (+68%)

Zwar eher die Ausnahme, aber vorhanden. Die meisten anderen Benchmarks der 7970GHz gegenüber der 7870 liegen bei um die 45 bis 55%. Allerding sind auch einige Fälle mit um die 38% (Dirt Showdown) vorhanden...
Die 7870 ist ziemlich durch die Speicherbandbreite limitiert, bei SSAA erst recht. Die 7970 GE hat 87,5% mehr Bandbreite.

Hübie

2013-07-15, 00:29:52

Hä? Die HD7870 hat statt 288 GB/s, 192. Also 66% ggü GHE bzw. 33% weniger.

Edit: HD7870 mit Pitcairn wären 53%.

LSSJBroly

2013-07-15, 00:39:16

Die 7870 ist ziemlich durch die Speicherbandbreite limitiert, bei SSAA erst recht. Die 7970 GE hat 87,5% mehr Bandbreite.

Bei SGSSAA benötigts du keine besonders hohe Speicherbandbreite, die GTX 680 ist da rund 15 bis 20% schneller als die 670 - bei der selben bandbreite. Auch bei OGSSAA zählt in erster linie dir reine rechenleistung - bandbreite wird vor allem bei MSAA benötigt.

Hübie

2013-07-15, 00:49:22

Doch. Aber die ROPs müssen auch in der Lage sein diese auszunutzen. Fermi hatte da ja eine Schwachstelle.

S940

2013-07-15, 01:10:02

Nein, ein neuer Performance-Chip macht doch nur Sinn bei einem High-End-Chip, der wirklich so viel zulegt, daß er auch teildeaktiviert noch eine große Lücke nach unten läßt. Aber geht das in 28 nm?
28nm@GF würde wg. GFirst ja ~30% Flächengewinn bringen, könnte eventuell reichen, Erfahrungswerte sollte es vom Kaveri geben.

@OBrian:
Ich sehe da kein Problem. Das komplette Gefüge inkl. 7970 GHz rutscht runter und darüber gibt es mit je 15-20% Abstand zwei Hawaii-GPUs.
Ich denke der Kerl meinte nicht zwei GPUs, sondern zwei SKUs, also Hawaii Pro und XT. Er sprach aber auch von Tonga Curacao als Pitcairn-Nachfolger, was zu deinem zweiten Gedanken passen würde.
Not exactly possible in that order, Curacao is the replacement for Pitcairn and will be ready alongside Hawaii so I don't know where that would leave Tahiti.
Hmm ... wie wärs wenn Tahiti nur noch für die Firestream-Serverkarten im Programm bleibt, da die neuen kein (oder nur langsames) DP können? Wäre auch noch ne Erklärungsmöglichkeit...

Ohne DP-Logik und mit dem Mini-Schrumpffaktor eines GF-Prozesses käme vielleicht ausreichend Leistungsplus für ne neue Generation raus.

Match-Maker

2013-07-15, 01:22:56

Hä? Die HD7870 hat statt 288 GB/s, 192. Also 66% ggü GHE bzw. 33% weniger.

Edit: HD7870 mit Pitcairn wären 53%.
Die Speicherbandbreite der HD 7870 GHz Edition beträgt "nur" 153,6 GB/s.

Hübie

2013-07-15, 01:25:31

Ja welche denn? ;) Habs noch angehängt. Siehe edit. HD7870 gibt's ja mit Tahiti und Pitcairn. 154 und 192 GB/s.

Match-Maker

2013-07-15, 01:34:10

Achso, du meintest mit den 192 GB/s die HD 7870 XT (Tahiti LE). :wink:

Hübie

2013-07-15, 02:24:19

Na ja für 10 Euro Unterschied, finde ich, gibt es keinen Grund für die Pitcairns. Die XT geht afaik auch besser beim oc. Daher ist die mein Gedankengang wenn wir von einer 7870 reden.
Die 20-nm-Diskussion kann aber wirklich vom Tisch. Apple hin oder her. Zumal ich gerade nicht mal sicher bin ob Apples erste 20-nm-Produkte von Samsung oder TSMC kommen sollen (oder beiden). TSMC hat im Juni erste Anlagen für die 20-Fertigung installiert. Bei Samsung weiß ich das nicht. Die haben ja schon ein paar Produkte (LPDDR/Flash) mit kleinem Maß. Aber wie weit die bei SoC sind weiß wohl hier auch niemand oder?

Duplex

2013-07-15, 10:46:04

28nm@GF würde wg. GFirst ja ~30% Flächengewinn bringen, könnte eventuell reichen, Erfahrungswerte sollte es vom Kaveri geben.

Also wäre ein 28nm TSMC Chip mit 500mm² bei Globalfoundries dann nur ca. 385mm² groß ?
Tahiti statt 365mm² nur noch 280mm².
Wenn das stimmt würde ich die Einheiten um Faktor 1.5 gegenüber Tahiti XT erhöhen, dann würde man für 3072 Shader vielleicht nur noch 400-420mm² Fläche benötigen.

Irgendwie kann ich mir das nicht vorstellen, warum produziert dann niemand HP Chips bei GF? GK110 statt 551mm² nur 425mm² wäre mal ne Ansage!

fondness

2013-07-15, 11:14:51

@OBrian:
Ich sehe da kein Problem. Das komplette Gefüge inkl. 7970 GHz rutscht runter und darüber gibt es mit je 15-20% Abstand zwei Hawaii-GPUs.
Ich denke der Kerl meinte nicht zwei GPUs, sondern zwei SKUs, also Hawaii Pro und XT. Er sprach aber auch von Tonga Curacao als Pitcairn-Nachfolger, was zu deinem zweiten Gedanken passen würde.

Hawaii XT
Hawaii Pro
Curacao XT
Curacao Pro
Bonaire
Cape Verde

Curacao ist jedenfalls keine vulkanische Insel. Aber durchaus möglich das man zu Beginn nur im High-End VI bringt und für die anderen Chips auf 20nm wartet.
Ein VLIW4-Chip kam ja auch nur im High-End in Form der 6900, während die 6800 noch VLIW5 hatte.

boxleitnerb

2013-07-15, 11:20:44

The parts of the island that are of volcanic origin are known to geologists as the Curaçao Lava Formation. The oldest and most extensive rock formations on the island, they have been eroded over the millennia into soft, rounded hills. Local folklore has dubbed these "female hills."
http://www.caribseek.com/Curacao/curacao-geology-and-geography-volcanic-formations.shtml

Heißt ja nicht, dass da ein aktiver Vulkan drauf sein muss.

Btw:
http://abload.de/img/94vfmckpdp2t.jpg (http://abload.de/image.php?img=94vfmckpdp2t.jpg)
http://edc.amdcss.com/course/list/

AnarchX

2013-07-15, 11:55:45

Was ist der Zweck dieser Kurse? AIBs das Design Kit beibringen?
Die Referenz-Karten zum Launch dürfte das wohl eher nicht betreffen. Ende September wäre wohl etwas spät für einen Oktober Launch.

boxleitnerb

2013-07-15, 11:58:36

Keine Ahnung, hab das Bild im Forum von HardOCP gefunden. Wenn die Partnerdesigns später kommen, doch kein Problem?

Was ist übrigens genau der Unterschied zwischen einer Raster Engine und einem ACE? Ist das dasselbe oder ist eine Raster Engine Bestandteil eines ACE? Wo sitzen die Rastereinheiten in der Pipeline? Ich weiß die ROPs sitzen am Ende, aber die heißen ja auch (u.a.) Raster Operations Pipeline laut Wiki. Der Unterschied zwischen den beiden Einheiten ist mir nicht so ganz klar.

AnarchX

2013-07-15, 12:05:08

Bei Semiaccurate hatte es auch jemand gefunden: http://www.semiaccurate.com/forums/showthread.php?p=189014#post189014

Eine Quellenangabe wäre nicht schlecht gewesen. ;)

Bzgl. ACE, Rasterengines:

The GCN command processor is responsible for receiving high-level level API commands from the driver and mapping them onto the different processing pipelines. There are two main pipelines in GCN. The Asynchronous Compute Engines (ACE) are responsible for managing compute shaders, while a graphics command processor handles graphics shaders and fixed function hardware. Each ACE can handle a parallel stream of commands, and the graphics command processor can have a separate command stream for each shader type, creating an abundance of work to take advantage of GCN's multi-tasking.
www.amd.com/us/Documents/GCN_Architecture_whitepaper.pdf

Geometrie- und Raster-Engines sind die Graphics Pipeline.

M4xw0lf

2013-07-15, 13:42:12

Btw:
http://abload.de/img/94vfmckpdp2t.jpg (http://abload.de/image.php?img=94vfmckpdp2t.jpg)
http://edc.amdcss.com/course/list/
Das mit den Bildchen ist ja zu scharf ;D

Gipsel

2013-07-15, 13:53:52

Was ist übrigens genau der Unterschied zwischen einer Raster Engine und einem ACE? Ist das dasselbe oder ist eine Raster Engine Bestandteil eines ACE? Wo sitzen die Rastereinheiten in der Pipeline? Ich weiß die ROPs sitzen am Ende, aber die heißen ja auch (u.a.) Raster Operations Pipeline laut Wiki. Der Unterschied zwischen den beiden Einheiten ist mir nicht so ganz klar.
Was AnarchX sagte. Und wenn Du wissen willst, wo im Ablauf beim Rendern die Rastereinheiten ins Spiel kommen, hilft ein Blick auf die DX11-Pipeline:
http://images.anandtech.com/reviews/video/dx11/dx11pipeline.png
Vor den Rastereinheiten verarbeiten die Shader vereinfacht gesagt Vertexinformationen, die Rasterizer setzen dann die Dreiecke in einzelne Pixel (Fragments) um (die den Vertices zugeordneten Daten werden über das Dreieck interpoliert und stehen dann dem Pixelshader als Ausgangsdaten zur Verfügung [können z.B. Beleuchtungsinformationen oder Texturkoordinaten oder sonstwas sein]), denen dann im Pixelshader irgendwie ein Farbwert zugeordnet wird, die dann am Ende in das (oder die) Rendertarget(s) rausgeschrieben wird (die Output Merger Stage erledigen die ROPs).

Die ACEs haben also mit dem "Frontend" im Sinne der Spieleperformance erstmal nicht so viel zu tun. Das meint zuerst alles, was vor den einzelnen Shaderstages passiert (die ACEs können Teil des Frontends für Computeshader sein, aber wenn ein CS in den Renderprozeß eingebunden ist, sollte der auch über den normalen Graphics Command-Processor laufen, der versteht auch CS). Da heutzutage ja viele Shadertypen hintereinander ausgeführt werden (der Begriff Frontend ist älter), läuft das also nach jeder Stage praktisch wieder zurück zum Frontend. Das kann man im Prinzip so auffassen, daß die Verwaltung der ganzen Shader, die Synchronisation, die Verteilung auf die einzelnen CUs, das Weiterleiten bzw. Routing der Daten zwischen den CUs (die Ergebnisse einer Shaderstage werden ja als Grundlage für spätere Stages benötigt, die aber nicht auf der gleichen CU laufen müssen, sondern auch auf irgendeiner anderen ausgeführt werden können) usw. Aufgabe des somit irgendwie ein wenig erweiterten Frontends ist.

Klassisch (vor T&L) wurden vom Frontend direkt die fertig transformierten Vertexdaten gelesen und vom Rasterizer in Pixel verwandelt, dann kam das Texturing (mit rudimentärer Programmierbarkeit) + ROPs als Backend. Das war's.

Duplex

2013-07-15, 14:00:57

Warum hat AMD bei Tahiti´s Frontend die Basis von Cayman genommen?
Wieso hat man nicht von Anfang an was besseres genommen?

Gipsel

2013-07-15, 14:13:56

Warum hat AMD bei Tahiti´s Frontend die Basis von Cayman genommen?
Wieso hat man nicht von Anfang an was besseres genommen?
Weil das auch irgendwie entwickelt werden will? Warum hat nV ewig lange (bis inklusive G80) bei der Setup-Engine zurückgelegen (nur ein Dreieck alle zwei Takte, während Radeons das Doppelte konnten [1 Dreieck pro Takt])?
Im Übrigen ist das Tahiti-Frontend wohl etwas besser als das von Cayman. Ob da jetzt direkt an dessen Funktionsweise geschraubt wurde oder ob es ein Nebeneffekt der besseren Cachearchitektur ist, läßt sich erstmal schwer sagen.

S940

2013-07-15, 14:21:05

Also wäre ein 28nm TSMC Chip mit 500mm² bei Globalfoundries dann nur ca. 385mm² groß ?
Tahiti statt 365mm² nur noch 280mm².
Wenn das stimmt würde ich die Einheiten um Faktor 1.5 gegenüber Tahiti XT erhöhen, dann würde man für 3072 Shader vielleicht nur noch 400-420mm² Fläche benötigen.

Irgendwie kann ich mir das nicht vorstellen, warum produziert dann niemand HP Chips bei GF? GK110 statt 551mm² nur 425mm² wäre mal ne Ansage!
Naja, 30% sind schon das Maximum im Mittel sinds wohl nur 20. Trotzdem wärs natürlich trotzdem nett, das mitnehmen zu können. Aber warums keiner macht ist auch klar: GF hat bei 28nm bisher grandios versagt. Das läuft erst seit Anfang 2013 einigermaßen rund.

Bei ca. 6Monaten Herstellungzeit könnte damit zwar im Herbst ne GPU von GF vom Fließband fallen, aber es fragt sich dann, ob ein entsprechendes Design schon fertig war. Immerhin wärs wohl keine so große Mehrarbeit gewesen, da ja an Kaveri gearbeitet wurde.

Aber insgesamt sehe ich die Wahrscheinlichkeit nur so bei ~30%.

Duplex

2013-07-15, 14:24:34

@Gipsel
Oder es war umgekehrt, das man bei Cayman auf das Tahiti Frontend gesetzt hat.
GCN war ja länger in Entwicklung, VLIW4 war ja nur ein zwischenschritt weil GCN nicht fertig war.

Gipsel

2013-07-15, 14:39:26

@Gipsel
Oder es war umgekehrt, das man bei Cayman auf das Tahiti Frontend gesetzt hat.
GCN war ja länger in Entwicklung, VLIW4 war ja nur ein zwischenschritt weil GCN nicht fertig war.
Caymans Raster-Engines sind eine natürliche Progression des Weges, der bereits mit Cypress angefangen hat (2 Rasterizer an einem Setup, Cayman hat für jeden Rasterizer ein eigenes Setup). Es war klar, daß man für weitere Steigerungen die Setup/Raster-Stage parallelisieren bzw. skalierbar machen muß. AMD hat offenbar hier den vorsichtigen, schrittweisen Weg gewählt, während nV mit Fermi deutlich vorgeprescht ist. AMDs Hauptproblem ist aber eigentlich gar nicht die Setup-Rate an sich (die Setups funktionieren mit sehr hoher Effizienz [offenbar sogar etwas besser als bei nV]), sondern eigentlich der Einbruch mit hohen Tesselationsgraden. Hier spielt vermutlich das Handling der vom Tesselator erzeugten Daten (die müssen ja irgendwo [L2/Speicher] hin) und die Verteilung auf die Recheneinheiten für den nachfolgenden Domainshader eine entscheidende Rolle und zeigt vermutlich eine Schwäche bei AMDs Lösung in dem Bereich auf. Da (zu Cypress-Zeiten) gab es mal entsprechendes Profiling von Tesselationsszenarios, die gezeigt haben, daß die Daten nicht vernünftig zum Domainshader kommen. Das "Frontend-Problem" bei AMD ist also vermutlich hauptsächlich eins des Schedulings, der Workdistribution bzw. des Routings der Daten zwischen den CUs.

Duplex

2013-07-15, 14:43:10

Aber warums keiner macht ist auch klar: GF hat bei 28nm bisher grandios versagt. Das läuft erst seit Anfang 2013 einigermaßen rund.
Dann würde ich auch keine GPUs von GF erwarten. Richland wurde nachgeschoben weil der 28nm Prozess von GF AMD nicht überzeugt hat, deshalb kommt auch Kaveri so spät.

dargo

2013-07-15, 15:22:49

http://www.forum-3dcenter.org/vbulletin/showpost.php?p=9841551&postcount=344

Gipsel post sagt mehr als tausend Worte.
Einspruch.
http://ht4u.net/reviews/2013/55_directx11_grafikkarten_im_test/index21.php
http://ht4u.net/reviews/2013/55_directx11_grafikkarten_im_test/index19.php

Raff

2013-07-15, 16:06:44

HOT

2013-07-15, 16:14:38

Dann würde ich auch keine GPUs von GF erwarten. Richland wurde nachgeschoben weil der 28nm Prozess von GF AMD nicht überzeugt hat, deshalb kommt auch Kaveri so spät.
Man wird GPUs wohl kaum in 28 SHP fertigen. Das ist Äpfel/Birnen.

aufkrawall

2013-07-15, 16:25:53

dargo

2013-07-15, 16:36:55

Yep. Eine HD 7970 kommt bei modernen Spielen sehr deutlich von einer HD 7870 weg. Zum Launch-Zeitpunkt war das schlimmer, anscheinend haben auch die Treiber etwas gerissen (Auslastung). Das sieht man auch sehr gut im renovierten PCGH-Index (http://www.pcgameshardware.de/Spiele-Thema-239104/Tests/Benchmark-Test-CPU-Grafikkarten-744422/).

MfG,
Raff
Obs an den Treibern liegt sei mal dahingestellt. Eigentlich wollte ich damit nur ausdrücken, dass Alu-Leistung eben nicht alles ist. Denn, es gibt auch sowas:
http://ht4u.net/reviews/2013/55_directx11_grafikkarten_im_test/index17.php

Es ist halt vom Spiel abhängig wie stark sich die 60% höhere Alu-Leistung in mehr fps ummünzt. Mich würde es auch nicht wundern wenn einzelne Szenen vom selben Spiel stark variieren.

Hübie

2013-07-15, 16:37:07

Einspruch.
http://ht4u.net/reviews/2013/55_directx11_grafikkarten_im_test/index21.php
http://ht4u.net/reviews/2013/55_directx11_grafikkarten_im_test/index19.php

In welchem Zusammenhang meinst du jetzt?

dargo

2013-07-15, 16:44:11

In welchem Zusammenhang meinst du jetzt?
Dass sich die 60% höhere Alu-Leistung (HD7970 vs. HD7870) nahezu 1:1 in mehr fps wiederspiegelt. In Metro: LL und SSAA sind es sogar exakt +60%. Es wird immer wieder gerne gesagt das Front-End würde bei Tahiti stark limitieren. Ich sehe es anders, einzelne Spiele limitieren stark da sie die überlegende Alu-Leistung gar nicht entsprechend 1:1 fordern.

PS: da fällt mir gerade ein. HD7970 hat "nur" 48% mehr Alu-Leistung als HD7870. Wer hatte eigentlich die 60% in den Raum geworfen? Oder meinte er damit die HD7970GE?

boxleitnerb

2013-07-15, 16:49:21

Glaub damit war die GHz gemeint.
Interessant ist auch die Frage, ob Tahiti jetzt manchmal ein Problem mit dem Frontend hat oder mit der Pixelfüllrate. So wirklich unterscheiden kann man das nicht, man sieht halt dass die Performance bzgl. der Rechenleistung nicht immer skaliert. Aber woran genau es liegt kann man wohl gar nicht feststellen. Texelfüllrate sollte kein Problem sein, Bandbreite auch nicht, da Tahiti recht gut mit dem GPU-Takt skaliert. Der erhöht aber Rechenleistung und Füllraten, so kommt man auch nicht weiter.

dargo

2013-07-15, 16:51:34

Glaub damit war die GHz gemeint.

Ok... nochmal nachgerechnet. Ja, die HD7970GE kommt auf +60% Alu-Leistung.

boxleitnerb

2013-07-15, 16:58:27

Turbo nicht vergessen, es sind 68% (4300 GFLOPs/2560 GFLOPs).

Btw nochmal kurz zu der Folie mit den Seminaren:
Da wird "Crystal Systems" erwähnt, angeblich eine neue Serie von Mobil-GPUs. Solar Systems, der Vorgänger (?) ist aber doch noch gar nicht richtig draußen? Die Dinger wurden ja gerade erst vor 2 Monaten vorgestellt und Ende diesen Monats will AMD schon die Partner für die Nachfolger briefen?

dargo

2013-07-15, 17:04:05

Turbo nicht vergessen, es sind 68% (4300 GFLOPs/2560 GFLOPs).

Ach... dieser Mist schon wieder. :freak: Dann lieber gleich Vergleiche mit der normalen HD7970 anstellen. Da kann man sich wenigstens 100% sicher sein, dass immer die gleiche Taktrate anliegt. :D

fondness

2013-07-15, 17:08:43

Da wird "Crystal Systems" erwähnt, angeblich eine neue Serie von Mobil-GPUs. Solar Systems, der Vorgänger (?) ist aber doch noch gar nicht richtig draußen?

AFAIK ist die Serie seit der Vorstellung der 8900M komplett. Bis auf die Mars-GPU waren das ja auch nur Umbenennungen.

Die Dinger wurden ja gerade erst vor 2 Monaten vorgestellt und Ende diesen Monats will AMD schon die Partner für die Nachfolger briefen?

Solar Systems wurde bereits am 13. Januar 2013 vorgestellt, nur die 8900 kam später (und die wurde eh nur unbenannt). Wenn VI wirklich deutlich bessere Perf/Watt bringt ist das natürlich vor allem für den Mobilbereich interessant. Es macht auch Sinn das man im Mobilbereich die Infos früher raus rücken muss, denn dort werden die GPUs immerhin direkt ins System integriert. Bei den diskreten GPUs gibt es zu Beginn eh nur Referenzdesigns.

aufkrawall

2013-07-15, 17:47:23

Da kann man sich wenigstens 100% sicher sein, dass immer die gleiche Taktrate anliegt. :D
Lass das Gipsel nicht hören. ;)

Gipsel

2013-07-15, 18:24:15

Ach... dieser Mist schon wieder. :freak: Dann lieber gleich Vergleiche mit der normalen HD7970 anstellen. Da kann man sich wenigstens 100% sicher sein, dass immer die gleiche Taktrate anliegt. :D
Okay, dann schauen wir mal hier bei HT4U (http://ht4u.net/reviews/2013/55_directx11_grafikkarten_im_test/index32.php?dummy=&advancedFilter=true&prod%5B%5D=AMD+Radeon+HD+7870&prod%5B%5D=AMD+Radeon+HD+7970&filter%5B0%5D%5B%5D=1680&filter%5B0%5D%5B%5D=1920&filter%5B2%5D%5B%5D=1&filter%5B2%5D%5B%5D=2&filter%5B2%5D%5B%5D=4&filter%5B3%5D%5B%5D=16&aa=off) (da ja irgendwer dahin verlinkt hat, ich hatte ursprünglich irgendeinen Index bei CB im Kopf).
+48% mehr Shaderleistung, +72% Speicherbandbreite. Im Schnitt sind es dort etwa 32% Mehrleistung. Natürlich hängt es stark vom Spiel ab, was genau limitiert. Bei einigen (Metro, Brink, Hitman: Absolution) schlägt offenbar das Mehr an Shaderleistung und Bandbreite ganz gut durch. Abseits davon, gibt es auch Beispiele, wie man durch die Einstellungen im Spiel das Limit mehr auf Shaderleistung und Bandbreite schieben kann, ein gutes Beispiel ist da z.B. FarCry 3 oder wo nie so richtig viel davon rumkommt (Skyrim, Dirt:Showdown, ohne AA wäre es wohl noch weniger als die 20%). Wenn man über Flaschenhälse der Architektur redet, muß man sich natürlich vor allem Beispiele ansehen, wo diese eine Rolle spielen. Ansonsten kann man (natürlich übertrieben gesprochen) mit irgendeinem synthetischen Test immer zeigen, daß das Frontend da nicht limitiert. Es gibt nunmal einige Spiele, die sich kaum großartig um das Frontend kümmern. Und da zeigt Tahiti eben auch eine gute Performance (und Treiberupdates haben auch geholfen, da die work distribution nicht komplett festverdrahtet ist sondern die Scheduling-/Verteilungsstrategien per Spielprofil beeinflußbar sind). Das ändert aber nichts daran, daß man dort vor allem für noch breitere GPUs was ändern muß.

Ach ja, hier mal genau die gleiche Gegenüberstellung zwischen HD7770 und 7870 (http://ht4u.net/reviews/2013/55_directx11_grafikkarten_im_test/index32.php?dummy=&advancedFilter=true&prod%5B%5D=AMD+Radeon+HD+7770&prod%5B%5D=AMD+Radeon+HD+7870&filter%5B0%5D%5B%5D=1680&filter%5B0%5D%5B%5D=1920&filter%5B2%5D%5B%5D=1&filter%5B2%5D%5B%5D=2&filter%5B2%5D%5B%5D=4&filter%5B3%5D%5B%5D=16&aa=off). Hier sieht man eine deutlich bessere Skalierung für den verdoppelten Chip.
Lass das Gipsel nicht hören. ;)Wieso?

aufkrawall

2013-07-15, 18:30:48

Wieso?
Du warst doch so bedacht auf die Unterschiede zwischen Boost bei AMD/NV und Powertune/Powertarget: Bei AMD zugesicherter Takt (von dem 7950 PT-Gedrossele durch den zu hohen Boost abgesehen) und bei NV halt zugesicherter Verbrauch.

Gipsel

2013-07-15, 18:41:45

Du warst doch so bedacht auf die Unterschiede zwischen Boost bei AMD/NV und Powertune/Powertarget: Bei AMD zugesicherter Takt (von dem 7950 PT-Gedrossele durch den zu hohen Boost abgesehen) und bei NV halt zugesicherter Verbrauch.
Richtig lesen! Das bezog sich immer darauf, daß bei AMD zwei verschiedene Karten eines Modells in irgendeinem Spiel/Benchmark/whatever das gleiche Verhalten und somit Takt zeigen, zwei nV-Karten aber nicht. Da kann die eine Karte schneller sein als die andere, bei AMD sind (waren) alle Karten vom Verhalten her identisch (unabhängig von Kühlung und Temperatur [solange man nicht an die absoluten Limits stößt]).

aufkrawall

2013-07-15, 18:46:26

Ok. Hatte angenommen, der Boost wäre bei der 7970 durch großzügiges Powertune stabil.
Hatte das irgendwie falsch in Erinnerung:
http://ht4u.net/reviews/2012/amd_radeon_hd_7970_ghz_edition_tahiti_xt2_test/index3.php

dargo

2013-07-15, 18:50:20

Das ändert aber nichts daran, daß man dort vor allem für noch breitere GPUs was ändern muß.

Ich behaupte ja nicht das Gegenteil. :wink: Natürlich müssen diverse Bereiche später angepasst werden sonst haben wir unnötige Flaschenhälse.

Ach ja, hier mal genau die gleiche Gegenüberstellung zwischen HD7770 und 7870 (http://ht4u.net/reviews/2013/55_directx11_grafikkarten_im_test/index32.php?dummy=&advancedFilter=true&prod%5B%5D=AMD+Radeon+HD+7770&prod%5B%5D=AMD+Radeon+HD+7870&filter%5B0%5D%5B%5D=1680&filter%5B0%5D%5B%5D=1920&filter%5B2%5D%5B%5D=1&filter%5B2%5D%5B%5D=2&filter%5B2%5D%5B%5D=4&filter%5B3%5D%5B%5D=16&aa=off). Hier sieht man eine deutlich bessere Skalierung für den verdoppelten Chip.

Von HD7770 auf HD7870 hat sich aber auch wirklich alles verdoppelt.
http://www.computerbase.de/artikel/grafikkarten/2012/test-amd-radeon-hd-7870-und-hd-7850/#abschnitt_einleitung

Tahiti hat dagegen genau soviele ROPs wie Pitcairn. Zudem ist ersteres sogar etwas langsamer getaktet wodurch die Pixelfüllrate sogar gegenüber Pitcairn XT etwas geringer ausfällt.
http://www.computerbase.de/artikel/grafikkarten/2011/test-amd-radeon-hd-7970/2/

Ich kann allerdings nicht beurteilen inwiefern ROPs bzw. die Pixelfüllrate heute noch wichtig ist.

AnarchX

2013-07-15, 18:56:34

AFAIK ist die Serie seit der Vorstellung der 8900M komplett. Bis auf die Mars-GPU waren das ja auch nur Umbenennungen.

Und bis Crystal System in Notebooks auftaucht (wohl Anfang 2014), kommen vielleicht in der Zwischenzeit auch noch ein paar Bonaire basierte HD 8000M. Zumal Crystal System wohl auch nicht unbedingt frei von "Altlasten" sein muss. ;)

Gipsel

2013-07-15, 19:38:00

Von HD7770 auf HD7870 hat sich aber auch wirklich alles verdoppelt.Weswegen ich ja bei dem hypothetischen Gaming-only Chip in 28nm von Pitcairn x2 gestartet bin. ;)

Die ROPs selber sind nur selten ein Flaschenhals, die Bandbreite ist da meist wichtiger (deswegen hat z.B. die XB1 nur 16 ROPs oder Tahiti nur 32). Und solange die Rasterizer auch nur unter höchst optimalen Bedingungen (theoretischen Füllratentests) überhaupt so viele Pixel ausspucken, wie die ROPs verarbeiten können, benötigt man schon 8xMSAA und/oder ständig mehrere Rendertargets und relativ einfache Shader, um da hart anzustoßen. Deswegen (und auch weil early-Z-Tests die Pixel erst nach dem Rasterizer verwerfen) meine ich ja auch, ein 4fach Frontend mit 4x16=64Pixel/Takt Rasterleistung und 48ROPs wäre ausgewogener als nVs umgekehrt balancierten Versionen zur Fermi-Zeit (mehr ROPs als Rasterleistung, das haben die vermutlich nur gemacht, weil die Anzahl der ROPs fest an die Breite des Speicherinterfaces gekoppelt war). Die XB1 kombiniert ja offenbar genau wie Bonaire doppelte Rasterengines (bis 32Pixel/Takt) mit nur 16 ROPs. Außerdem erreicht man die 16Pixel/Rasterizer auch nur mit relativ großen Dreiecken (>>16 Pixel pro Dreieck). Bei optimal angeordneten (also genau an bestimmten Pixelgrenzen, hat man real so natürlich nie) 32Pixel-Dreiecken laufen die Rasterizer bestenfalls mit 66% ihrer nominellen Peak-Geschwindigkeit (spucken dabei aber wegen der Quad-Einteilung bereits 83% der Peak-Geschwindigkeit an Quads aus), typischerweise weniger. Bei kleinen Dreicken limitiert also bereits wieder die Setup-Rate solange der Shader nicht mehrere Rendertargets schreibt oder die ROPs z.B. bei 8xMSAA oder 4xFP32 Formaten (sehr selten genutzt) mit niedrigerer Geschwindigkeit arbeiten (selbst 4xFP16 können die wohl noch Fullspeed-Blending, was aber typischerweise an der Speicherbandbreite hängen bleibt).

Aber wie ich oben bereits anmerkte, sind die Rasterengines nur ein Teil des Flaschenhalses. Mindestens genauso wichtig sind die Workdistribution und das Routing der Daten zwischen den CUs.

dargo

2013-07-15, 20:02:28

Die ROPs selber sind nur selten ein Flaschenhals, die Bandbreite ist da meist wichtiger (deswegen hat z.B. die XB1 nur 16 ROPs oder Tahiti nur 32).
Dafür hat die PS4 wiederum 32 ROPs. ;) Soo unwichtig scheinen diese also wohl doch nicht zu sein.

Gipsel

2013-07-15, 20:03:28

Dafür hat die PS4 wiederum 32 ROPs. ;) Soo unwichtig scheinen diese also wohl doch nicht zu sein.Die haben im Zweifelsfall auch mehr Bandbreite und mehr Shader sowieso ;). Für Pitcairn wären 16 ROPs vielleicht ein bißchen wenig, für Bonaire oder den noch kleineren XB1-Chip aber 32 zu viel (bzw. verschenkt). Aber mit den ~100GB/s Bandbreite des XB1-eSRAM (laut letzten Gerüchten bei Blending mit 4xFP16 vielleicht sogar noch etwas mehr nutzbar), können die 16 ROPs der XB1 wohl meist am Anschlag laufen, während die 32 ROPs der PS4 im Zweifelsfall ab und zu mal Däumchen drehen.

dargo

2013-07-15, 20:04:34

Die haben im Zweifelsfall auch mehr Bandbreite und mehr Shader sowieso. ;)
Hat ein Tahiti gegenüber Pitcairn auch. :devil: Im Prinzip ist die Diskussion aber eh sinnlos. Es müsste einen Tahiti mit 48ROPs geben, dann wären wir schlauer.

Gipsel

2013-07-15, 20:10:17

Hat ein Tahiti gegenüber Pitcairn auch. :devil:Was man in entsprechenden Füllratentests auch deutlich sieht.
Deswegen geht die Theorie dahin, daß bei Tahiti nicht unbedingt die ROPs eine bessere Skalierung verhindern.

Edit:
Tahiti könnte mehr ROPs vermutlich nur bei exzessiver Nutzung von MRTs, 8xMSAA oder 128Bit-Farbformaten (:freak:) nutzen.

marc-05

2013-07-15, 22:33:31

Dass sich die 60% höhere Alu-Leistung (HD7970 vs. HD7870) nahezu 1:1 in mehr fps wiederspiegelt. In Metro: LL und SSAA sind es sogar exakt +60%. Es wird immer wieder gerne gesagt das Front-End würde bei Tahiti stark limitieren.
Metro ist aber auch ein Game das sehr stark von höherer Speicherbandbreite profitiert.

aufkrawall

2013-07-15, 22:59:00

Das war bei 2033 so, insbesondere mit dem Compute-DoF.
Bei LL ist das wohl nicht mehr so, mit Downsampling nehmen sich GE und 770 kaum was.

OBrian

2013-07-15, 23:00:54

Man wird GPUs wohl kaum in 28 SHP fertigen. Das ist Äpfel/Birnen.Mal ketzerisch gefragt: Warum eigentlich nicht? Immerhin ist Kaveri praktisch eine GPU mit angebauter CPU, wenn man mal den Flächenverbrauch anschaut. Da jetzt noch die GPU etwas weiter aufzublasen und dafür die CPU und das andere Gerümpel wegzulassen und es in einem anderen Package unterzubringen, ist ja wohl keine Kunst mehr. Mit Llano und Trinity wäre das ja auch schon die dritte Generation von GPUs bei GF. Ich denke, sie könnten das durchaus machen.

HOT

2013-07-15, 23:17:19

Coda

2013-07-16, 00:15:24

hier reichen weit weniger anspruchsvolle Fertigungsprozesse.
Son Quatsch. Der Prozess wird anders ausgelegt, das heißt aber nicht dass es weniger anspruchsvoll ist.

Nakai

2013-07-16, 00:27:20

Was man in entsprechenden Füllratentests auch deutlich sieht.
Deswegen geht die Theorie dahin, daß bei Tahiti nicht unbedingt die ROPs eine bessere Skalierung verhindern.

Edit:
Tahiti könnte mehr ROPs vermutlich nur bei exzessiver Nutzung von MRTs, 8xMSAA oder 128Bit-Farbformaten (:freak:) nutzen.

...also sind mehr asl 48 ROPs wohl Verschwendung.

Achja es gibt Gerüchte, dass der Nachfolger mehr als 2560SPs hat.
Mal folgendes Szenario:
Hawaii ist eine reine Gaming-GPU. Dafür spricht Tahiti-Lebensdauerverlängerung.
Man liefert mehr als 2560SPs bei 1 GHz. Besseres Frontend und sonstige Verbesserungen, welche dazukommen.
Der Chip wäre locker 40% schneller, bei kaum mehr als 400mm². Tahiti ist ja ziemlich inneffektiv, wenns um Performance/mm2 geht. Pitcairn zeigt es wo es lang geht.

Tahiti war ein netter GPGPU-Chip. Nicht umsonst wurde der Chip so populär. Mächtige DP-Leistung bei wenig Kohle. Wie viel macht eigentlich DP bei Tahiti von der Diesize aus?

mfg

Screemer

2013-07-16, 00:37:48

ab hier gibts schon bisschen spekulation dazu: http://www.forum-3dcenter.org/vbulletin/showthread.php?p=9841551#post9841551

horn 12

2013-07-16, 00:40:54

@Nakai

Also dann sollte laut Dir nur eine HD9970 kommen mit deinen prognostizierten Specs und gar keine HD9950, diese könnte eine vielleicht gar eine doch etwas höher getaktete HD7970 Ghz Edition werden mit vielleicht 1,150 Ghz 1,225 Ghz Turbo und wohl selektierte Chips, oder wird es doch 2 Ableger der Neuen HD9000-er Serie geben.
Sprich das TOP Modell und den Kleinen Bruder? (HD9970 und HD9950)

HOT

2013-07-16, 01:25:18

Son Quatsch. Der Prozess wird anders ausgelegt, das heißt aber nicht dass es weniger anspruchsvoll ist.
Ein Prozess, der solche Leistungen bringen muss kostet sicherlich mehr als ein wald-und-wiesen-LP-Prozess. Also ist er auch anspruchsvoller.

mczak

2013-07-16, 03:45:19

Deswegen (und auch weil early-Z-Tests die Pixel erst nach dem Rasterizer verwerfen) meine ich ja auch, ein 4fach Frontend mit 4x16=64Pixel/Takt Rasterleistung und 48ROPs wäre ausgewogener als nVs umgekehrt balancierten Versionen zur Fermi-Zeit (mehr ROPs als Rasterleistung, das haben die vermutlich nur gemacht, weil die Anzahl der ROPs fest an die Breite des Speicherinterfaces gekoppelt war).
Das gibt's bei Kepler ja immer noch wenn auch nicht mehr so extrem wie bei gf106/116 (8 Pixel/Takt Raster, 24 Pixel/Takt ROP). GK107 hat aber immer noch ein Faktor 2 ROP gegenüber Raster, sicher immer noch aus demselben Grund (selbst gk110 hat mehr ROPs allerdings bloss minim).
Ist es eigentlich sicher dass Bonaire 2x16 Pixel rastert und nicht 2x8?

V2.0

2013-07-16, 06:51:59

Ich würde mit Überraschungen rechnen. Alle IHVs im GPU Bereich haben gelernt, dass die Abhängigkeit zu TSMC schlecht ist.

dargo

2013-07-16, 07:18:16

Tahiti ist ja ziemlich inneffektiv, wenns um Performance/mm2 geht. Pitcairn zeigt es wo es lang geht.

Ist er das? Der schnellste Tahiti ist 72% größer als der schnellste Pitcairn bei bis zu ~60% mehr Leistung. Der Vergleich Performance/mm2 hinkt aber ziemlich da Tahiti ein breiteres SI hat/haben muss.

boxleitnerb

2013-07-16, 09:23:27

Bis zu, aber eben im Schnitt nicht. Das breitere Interface bringt auch Performance, ich denke also, dass der Nachteil bei Perf/mm2 hauptsächlich woanders herkommt.

Gipsel

2013-07-16, 09:39:24

Bis zu, aber eben im Schnitt nicht. Das breitere Interface bringt auch Performance, ich denke also, dass der Nachteil bei Perf/mm2 hauptsächlich woanders herkommt.
Zumal man nicht vergessen sollte, daß die ganzen Teile wie das PCI-Express-Interface die Display-Ausgänge, UVD, VCE usw. nicht vergrößert werden. Das sieht man ja auch daran, daß bei der glatten Verdopplung der Einheiten von CapeVerde zu Pitcairn die Fläche nur um 72% steigt (also exakt wie bei Pitcairn zu Tahiti, die Leistung aber mehr als das, ~90% im Schnitt, oft sogar perfekt +100%).

Bei Tahiti kommt eben außer der höheren DP-Rate auch noch ECC btw. Parity (read only Caches) überall dazu. Die CUs selber sind etwa 15% größer als die von Pitcairn, wenn ich das richtig im Kopf habe. Aber das kostet auch außerhalb der CU noch ein paar Prozent Fläche.

boxleitnerb

2013-07-16, 09:45:24

Für wie realistisch hälst du denn einen (fast) dreifachen Bonaire?

2688 SP
168 TMUs
48 ROPs
4 Rasterizer und 4 ACEs (statt 6)
384-bit, 7 Gbps, 6 GB GDDR5
Verbrauch ähnlich der 7970 GHz (81*3=243W laut 3DC-Index)
Performance 7970 GHz +40% (laut 3DC-Performanceindex würde man auf 555/390=142% der 7970 GHz kommen)

Rein rechnerisch sollte man auf 480mm2 kommen, kann aber sicher was sparen, wie du schon vorgerechnet hast. Das sollte reichen, um mit einer Titan@1GHz gleichzuziehen in etwa oder ein paar Prozent vorne zu liegen.

Gipsel

2013-07-16, 09:52:48

Für wie realistisch hälst du denn einen (fast) dreifachen Bonaire?

2688 SP
168 TMUs
48 ROPs
4 Rasterizer und 4 ACEs (statt 6)
384-bit, 7 Gbps, 6 GB GDDR5
Verbrauch ähnlich der 7970 GHz
Performance 7970 GHz +40% (laut 3DC Performanceindex würde man auf 555/390=142% der 7970 GHz kommen)Der einzige Unterschied zu meinem Vorschlag (und ich habe auch so etwa +40% zu Tahiti avisiert) sind doch 42 vs 40 CUs, die nicht so viel ausmachen (<5%). Die Frage wäre dabei, ob AMD das nicht lieber symmetrisch auslegen will (jeder Rasterizer hängt vor der gleichen Menge an CUs, das wären dann 40 oder 44 CUs).
Übrigens hat Bonaire auch schon 4 ACEs, das veröffentlichte Blockdiagramm ist offenbar falsch.

boxleitnerb

2013-07-16, 09:54:09

Ist das nicht Overkill, gleich 4 Stück für so einen kleinen Chip?

AnarchX

2013-07-16, 09:54:20

2688/4/64 =10,5 CU je "Cluster". Bei 2688SPs wären wohl 3 Rasterizer realistischer. Aber vielleicht ist der Schritt von 2 auf 4 einfacher als von 2 auf 3 -> 2816/3072SPs.

Gipsel

2013-07-16, 09:56:58

Ist das nicht Overkill, gleich 4 Stück für so einen kleinen Chip?Sogar Kabini hat 4 ACEs (mit dann 32 Queues [so viel wie GK110] für nur 2 CUs). :freak:
Ich denke mal AMD will eine gewisse Mindestzahl in jedem Chip haben, damit Entwickler sich drauf verlassen können, daß es genug gibt.

Skysnake

2013-07-16, 10:23:22

Sieht so aus, und ist durchaus begrüßenswert.

Raff

2013-07-16, 10:30:17

Das war bei 2033 so, insbesondere mit dem Compute-DoF.
Bei LL ist das wohl nicht mehr so, mit Downsampling nehmen sich GE und 770 kaum was.

Last Light legt in der Tat andere Schwerpunkte als Metro 2033. Ersteres will nun vor allem Rechenleistung – kein Wunder, denn MSAA ist Geschichte, stattdessen enthalten die vorhandenen Modi in jedem Fall FXAA und optionale SSAA-Anteile. Letzteres belastet alle Teile der Grafikarte, wobei natürlich die GPU ausschlaggebend ist. Darüber hinaus legt das Spiel viel Wert auf Tessellationsleistung – das kommt erst ohne SSAA bzw. in Low-Res deutlich raus (natürlich auch szenenabhängig).

MfG,
Raff

Coda

2013-07-16, 10:46:59

Ein Prozess, der solche Leistungen bringen muss kostet sicherlich mehr als ein wald-und-wiesen-LP-Prozess. Also ist er auch anspruchsvoller.
Nein, tut er nicht. Und an "LP" ist nichts "Wald und Wiesen". Da sind nur die Prozessparameter andere um Leakage einzusparen.

S940

2013-07-16, 11:10:32

Kaveri ist eine CPU mit GPU, nicht umgekehrt. Kaveri braucht einen Prozess der 4 GHz Hochleistungstransistoren bringt, das braucht kein Grafikchip. Grafikchips sind nur mit 1GHz getaktet, hier reichen weit weniger anspruchsvolle Fertigungsprozesse. Zudem takten Grafikchips recht weit herunter, was eher eine LP-Prozess erfordert.
Wenn ich mich recht erinnere, dann sind die ganzen GPus von TSMC aber schon immer im HP-Prozess hergestellt. Frag mich nicht warum, irgendeinen wichtigen Grund werden sie aber schon haben. Kabini ist z.B auch HP.

SHP wäre jetzt natürlich dann "witzig". Einerseits deutlich teurer wg. des SOI Substrates, andrerseits können sie so vielleicht die Vcore ggü. HP etwas senken, was bei nem Mammut-Chip auch nicht soo ne schlechte Idee wäre.
Gleichzeitig würde so ein Riesenchip dann auch den SOI-Mehrpreis über den sehr hohen Verkaufspreis reinholen können.

Aber irgendwie glaub ichs trotzdem nicht ^^

Nein, tut er nicht. Und an "LP" ist nichts "Wald und Wiesen". Da sind nur die Prozessparameter andere um Leakage einzusparen.Naja Vereinfachungen gibts aber auch, z.B. PolySi-Gates anstatt die aufwändigeren High-Ks. Außerdem sah ich letztens bei den GF-Prozessen, dass die SRAM-Zellgrößen bei LP deutlich höher sind, als bei HP, kA wieso, eventuell nutzen sie da bei LP wirklich relaxtere, d.h. weitere CGate und/oder Metalgateabstände, so genau hab ichs mir nicht angeschaut. Falls das bei TSMC auch so wäre, wär das wohl der Hauptgrund für die GPU-Hersteller nen HP-Prozess zu nehmen.

Gipsel

2013-07-16, 14:30:14

Naja Vereinfachungen gibts aber auch, z.B. PolySi-Gates anstatt die aufwändigeren High-Ks.Das ist nur bei TSMCs "LP" so, der eigentlich "LC" (low cost) heißen müßte, denn low power ist der nicht wirklich. Das Ding ist leakt so heftig, daß man damit schlicht nichts anderes herstellen kann, als langsame Teile mit niedriger Versorgungsspannung. HPL ist da deutlich besser (und liegt vom Preis zwischen LP und HP) und ist eigentlich der wirkliche low power Prozess bei TSMC in dem Sinn, daß er für einen Chip niedrigeren Verbrauch bei vergleichbarer oder nur leicht niedrigerer Performance im mittleren bis unteren Bereich ermöglicht (für hohe Taktungen ist HP besser, HPM ist eigentlich überall besser [und teurer, ist das Äquivalent zu HPP bei GF]).

S940

2013-07-17, 00:35:27

Das ist nur bei TSMCs "LP" so, der eigentlich "LC" (low cost) heißen müßte, denn low power ist der nicht wirklich. Das Ding ist leakt so heftig, daß man damit schlicht nichts anderes herstellen kann,Das mag stimmen, aber die beiden Kollegen haben um den "LP"-Prozess gestritten und der heißt nunmal so wie TSMC das will, jeder kann bei TSMC nachschlagen, was die unter LP verstehen.

Darum ob diese Bezeichnung gerechtfertigt ist, gings aber nicht.

HOT hat "LP" geschrieben nicht HPL und das kann man ohne die aktuellen fehlenden, modernen Sachen schon "Wald und Wiese" nennen. Das einzig moderne an dem Prozess ist die Strukturbreite. Sicherlich auch schwierig, die so hinzubringen. Relativ gesehen kann das damit schon ne Art "high-tech" sein, aber die "richtigen" 28nm Prozesse sind dagegen quasi "rocket science" :D

Da lag Coda einfach falsch. Wenn Du mit Deiner Leakage Aussage recht hast, dann war die Aussage seines 2. Satzes ("um Leakage einzusparen") ebenfalls nicht korrekt. Da hat er eindeutig was verwechselt, bzw. nicht scharf genug hingeschaut und LP mit HPL in einen Topf geworfen.

Gipsel

2013-07-17, 02:04:18

Ich bezweifle allerdings ein wenig, daß HOT über die sagen wir mal eigenartige Auslegung der Prozesse im Fall von TSMC im Detail Bescheid wußte (@HOT: no offense). ;)
Für die übliche Auslegung (die man z.B. bei GF antrifft [und vor 28nm auch bei TSMC]) treffen Codas Ausführungen eigentlich zu. Bei TSMC ist der LP genannte Prozeß die Ausnahme, da es eben ein komplett anderer Prozeß ist und nicht "nur" eine signifikante Modifikation wie sonst üblich. Und so wie ich das verstanden habe, wurde nicht spezifisch über diese Ausnahme des 28LP-Prozesses von TSMC gesprochen, sondern HOT hat extrem vereinfachte (um nicht zu sagen platte) Statements über die seiner Sicht nach angemesene Prozeßwahl abgegeben, deren Begründung ehrlich gesagt schlicht falsch ist. Die Prozeßwahl hat mit dem Takt erstmal nur sehr indirekt zu tun. Man kann mit einem LP-Prozeß entsprechende Designs auch locker mit 4GHz rausbringen genau wie für andere Designs, die mit <1GHz laufen, ein HP-Prozeß erste Wahl sein kann. Das kann man prinzipiell gar nicht anhand der Taktrate sagen. Ich habe hier irgendwo vor wenigen Wochen schon mal ein längeres Posting ein wenig in die Richtung (FO4 Delay des Designs, Prozeß und finale Taktrate) verfaßt. Zu diesem speziellen Themenfeld müßte man das noch mit Abwägungen zwischen Leakage und Geschwindigkeit der verschiedenen Prozesse und verschiedenen Transistorparameter (die sich wählen lassen, jeder Prozeß bietet 3 bis 4 verschiedene Schwellspannungen für die Transistoren [für jeden einzelnen im Chip getrennt wählbar!], die jeweils andere Leakage und Geschwindigkeit ergeben, darüber hinaus kann auch an anderen Sachen gedreht werden). Das wird sehr schnell sehr komplex (und da traue ich mir auch nicht wirklich zu, das über die Grundlagen hinaus zu erläutern). Nicht umsonst ist die Synthese und das Layout eines Chips mitsamt Flächen-, Timing- bzw. Verbrauchsoptimierungen eine ziemlich diffizile Sache.

Skysnake

2013-07-17, 02:27:37

Wenn ich mich recht erinnere, warst du bei den LP Prozessen (vor 28nm zumindest) aber schon bzgl Takt begrenzt, einfach weil die Transistoren langsamer geschaltet haben. Zumindest habe ich das so verstanden, als ich mal mit jemanden darüber geredet habe, der sich konkret mit Fertigungsprozessen eines Auftragsfertigers auseinander gesetzt hat.

Das Thema ist aber wirklich SEHR schwierig, da man eben nicht die gleichen Standardzellen hat bei den unterschiedlichen Prozessen, und das verändert wie Gipsel schon richtig sagt alles mögliche...

Und wenn man eben pipelineing macht, was man heutzutage eigentlich immer! macht, dann kann das zu komplett anderen Chipdesigns führen, weil man unterschiedlich viele Stufen braucht, um die Timings zu treffen usw usw. Das ist einfach nen riesiger Rattenschwanz...

Gipsel

2013-07-17, 02:58:12

Wenn ich mich recht erinnere, warst du bei den LP Prozessen (vor 28nm zumindest) aber schon bzgl Takt begrenzt, einfach weil die Transistoren langsamer geschaltet haben.Nun ja, das gleiche Design wird in einem LP-Prozeß vermutlich langsamer laufen als in einem HP-Prozeß.
Aber das war ja nicht die Ausgangsfrage. Worauf Coda angesprungen ist, war die Behauptung, daß ein Chipdesign, was mit 4GHz läuft, HP nutzen muß, während ein komplett anders ausgelegtes Design bei ~1GHz besser auf LP setzen sollte. Und das zudem viel einfacher sei, weil das ja ein "Wald- und Wiesen-Prozeß" sei. Mal abgesehen vom letzten Satz ist der erste Teil auch nicht schlüssig, eben weil die Designs deutlich anders ausgelegt sind und dies den Takt tendentiell stärker beeinflußt als die Prozeßwahl. Es kann sehr gute Gründe geben, warum man auch bei einem Chip mit wenigen hundert MHz Takt auf HP angewiesen ist, um die Performance- bzw. Verbrauchsziele zu erreichen. Es kommt halt auf's Design und dessen Auslegung (wieviel wir pro Pipelinestufe gemacht oder anders, wie hoch ist das FO4 Pipelinedelay) an.

Hübie

2013-07-17, 06:39:09

Ein Prozess, der solche Leistungen bringen muss kostet sicherlich mehr als ein wald-und-wiesen-LP-Prozess. Also ist er auch anspruchsvoller.

Meinst du mit kosten Geld, Resourcen oder Mannstunden? Deine Aussage klingt etwas nach Entwertung der Arbeit von hunderten Menschen, welche die ganze Welt bedienen!
Es ist beides komplex genug um - behaupte ich mal - 99% der hier anwesenden Kompetenzen zu übersteigen (mich eingeschlossen!). HPL, HP, LP...alle sind schwierig. Der Schwierigkeitsgrad liegt halt jeweils nur in anderen Bereichen.

@b2t: Ich müsste jetzt nachschauen aber hab keine Zeit daher Frage ich mal einfach: Ist die Anzahl der TMU/TAU fest an die CU gebunden? Hab das gar nicht mehr aufm Schirm :redface:

Skysnake

2013-07-17, 08:28:39

Nun ja, das gleiche Design wird in einem LP-Prozeß vermutlich langsamer laufen als in einem HP-Prozeß.
Aber das war ja nicht die Ausgangsfrage. Worauf Coda angesprungen ist, war die Behauptung, daß ein Chipdesign, was mit 4GHz läuft, HP nutzen muß, während ein komplett anders ausgelegtes Design bei ~1GHz besser auf LP setzen sollte. Und das zudem viel einfacher sei, weil das ja ein "Wald- und Wiesen-Prozeß" sei. Mal abgesehen vom letzten Satz ist der erste Teil auch nicht schlüssig, eben weil die Designs deutlich anders ausgelegt sind und dies den Takt tendentiell stärker beeinflußt als die Prozeßwahl. Es kann sehr gute Gründe geben, warum man auch bei einem Chip mit wenigen hundert MHz Takt auf HP angewiesen ist, um die Performance- bzw. Verbrauchsziele zu erreichen. Es kommt halt auf's Design und dessen Auslegung (wieviel wir pro Pipelinestufe gemacht oder anders, wie hoch ist das FO4 Pipelinedelay) an.
Genau das wollte ich sagen.

Vergleiche zwischen unterschiedlichen Designs sind fürn Poppes.

Es kommt darauf an, wieviele Transistoren man pro Stage schalten muss usw, und da hat der HP Prozess halt vorteil, da wie gesagt die Transistoren quasi "schneller schalten". Kurz um, man bekommt halt einfach mehr in eine Pipelinestage gepackt, und kann damit bei fixem Design tendenziell höhere Taktraten fahren.

Gipsel

2013-07-17, 09:52:27

@b2t: Ich müsste jetzt nachschauen aber hab keine Zeit daher Frage ich mal einfach: Ist die Anzahl der TMU/TAU fest an die CU gebunden? Hab das gar nicht mehr aufm Schirm :redface:
Ja, seit der R700-Serie. Und das wird sich vermutlich auch nicht demnächst ändern.

HOT

2013-07-17, 10:18:51

Hm, das artet ja aus :D.
Ein 28nm GateFirst PDSOI-HighPower-Prozess (= SHP, zumindest ist das bisherige Stand bei 32nm SHP) des Kaveri dürfte schon teurer in der Entwicklung sein als ein "normaler" HP-Prozess und auch länger dauern. Es ist doch einfacher, einen Prozess auf 1GHz anzupassen als auf 4GHz (bei komlexen Strukturen wohlgemerkt)... die Logik sollte doch eindeutig sein oder? Für letzteres brauchts doch erheblich mehr Einlaufzeit, bis das massenproduktionstauglich ist und auch (dank des hohen Taktes) erheblich mehr Testerei des CPU-Herstellers (bedingt durch die Fertigung oder auch nicht). SHP sollte doch auch schlecht für Low Power geeignet sein, weswegen Fusion ja so ein Problem war. Man kombiniert im Grunde zwei Chips mit völlig anderen Anforderungen auf einen einzigen Fertigungsprozess.
Mit FinFETs und FDSOI ist es ja offenbar möglich, variable Transistorgrößen zu verbauen, was die Sache erheblich vereinfacht. Aber so weit sind wir ja noch nicht (nur Intel).

Um die Kurve zu VI zu kriegen: Ein VI-Chip in 28SHP müsste hoch takten um effizient zu sein (2GHz müssten es schon sein), damit das überhaupt Sinn ergibt. Wenn der Chip nur 1GHz hat ist SHP einfach der falsche Prozess. Es sei denn man nimmt eben FDSOI, damit kann man sich das so einstellen wie man es braucht (theoretisch).
Ursprung der Spekulatius war doch, dass AMD evtl. mit Hawaii auf 28nm bei GloFo springen könnte, da der GateFirst-Prozess ja offenbar eine größere Transistordiche ermöglicht als TSMCs GateLast-Prozess. Es geht dabei um einen ganz normalen HP-HKMG-Prozess, den beide Foundries von sich aus anbieten (also kein extra bezahlter und entwickelter Prozess wie bei den ganzen Server-Prozessoren). Bei GloFo könnte als Bonus noch FDSOI hinzukommen.

AnarchX

2013-07-17, 10:55:50

Ja, seit der R700-Serie. Und das wird sich vermutlich auch nicht demnächst ändern.
Könnte man TMU-lose CU implementieren, die der Graphics Pipeline nicht zur Verfügung stehen und für den immer wichtiger werdenden Compute Teil der Workloads genutzt werden können?

Coda

2013-07-17, 11:08:14

Compute kann auch Texturen samplen.

Hübie

2013-07-17, 11:10:51

Afaik werden die kommenden Kaveri mit der GCN-iGPU bei GF gefertigt aber keine Desktop-dGPUs..

AnarchX

2013-07-17, 11:20:06

Compute kann auch Texturen samplen.
Man könnte die Aufgaben entsprechend sortieren. Aber insgesamt wäre der Ansatz wohl wenig sinnvoll?

Coda

2013-07-17, 11:35:29

Nur wenn du Grafik komplett weg lässt wie Intel. Knights Corners hat keine TMUs mehr.

Gipsel

2013-07-17, 11:43:42

Es ist doch einfacher, einen Prozess auf 1GHz anzupassen als auf 4GHz (bei komlexen Strukturen wohlgemerkt)
[..]
Wenn der Chip nur 1GHz hat ist SHP einfach der falsche Prozess.Das ist Dein Grundfehler. Ein Prozeß wird überhaupt nicht auf irgendeine Frequenz angepaßt. Ein Prozeß liefert bestimmte Schaltgeschwindigkeiten (gemessen nicht in GHz sondern in ps) bei bestimmter Leakage (wie gesagt unterschiedlich je nach Transistortyp und vom Design zu wählen), bestimmte Kapazitäten sowie Induktivitäten der Leitungen und kommt mit bestimmten Designregeln daher, wie man die Transistoren anordnen kann (oder sollte). Was man daraus macht, bleibt dem Chipdesigner überlassen. Auch mit relativ langsamen Prozessen kann man sehr hochtaktende Prozessoren bauen, wenn man das Pipelinedelay entsprechend niedrig auslegt. Da mit absoluten Frequenzen anzukommen ist einfach an der Sache vorbei.
Oder um auf die GPU-Frage zurückzukommen: GPUs sind offenbar so ausgelegt, daß sie auch bei 1 GHz besser mit einem HP-Prozeß laufen. Es ist wichtig, möglichst viele Einheiten mit geringem Flächenverbrauch bei niedrigem Stromverbrauch auf einem Die zu vereinen. Dies erreicht man dadurch, daß man im Vergleich zu CPUs weniger Transistoren pro Funktionseinheit verwendet, also einfachere Design benutzt, die dann allerdings den Nachteil haben, daß mehr dieser Transistoren sozusagen hintereinander sitzen, also in einem Takt alle nacheinander schalten müssen. Zusätzlich kann man nicht auf breiter Front die schnellsten Transistoren eines Prozesses einsetzen, weil die zuviel Strom verbrauchen. Hier kann es besser sein die langsamen Transistoren des HP Prozesses zu benutzen als die schnellen eines LP-Prozesses (weil die ein besseres Verhältnis von Geschwindigkeit zu Leakage haben).
Summa Summarum erlaubt der Takt alleine keinen Rückschluß auf den optimalerweise zu verwendenden Prozeß.

Gipsel

2013-07-17, 11:49:01

Könnte man TMU-lose CU implementieren, die der Graphics Pipeline nicht zur Verfügung stehen und für den immer wichtiger werdenden Compute Teil der Workloads genutzt werden können?
Nur wenn du Grafik komplett weg lässt wie Intel. Knights Corners hat keine TMUs mehr.
Aber KnightsCorner hat natürlich immer noch AGUs und LSUs für den Speicherzugriff. Die TMUs bei GPUs sind ja nicht nur die Filtereinheiten, sondern dazu gehören auch die Adressierung und auch der L1-Cache (bei Fermi und Kepler diskutabel, aber wir sind ja im VI-Thread, also beziehe ich mich mal auf AMD GPUs). Die sind bei GPUs zwar historisch optimiert auf die typischen Anforderungen beim Texturieren, sind aber doch in den letzten Modellen durchaus flexibler geworden. Also was man vielleicht rauskicken könnte wären im Prinzip nur die Filtereinheiten der TMUs, aber natürlich nicht den Rest.

boxleitnerb

2013-07-17, 13:45:03

Angeblich gibt es ein neues Namensschema mit R9-xxxx, R8-xxxx usw.
http://videocardz.com/44408/amd-radeon-hd-9000-series-to-feature-new-naming-meet-the-radeon-r9-xxxx

M4xw0lf

2013-07-17, 13:50:03

Angeblich gibt es ein neues Namensschema mit R9-xxxx, R8-xxxx usw.
http://videocardz.com/44408/amd-radeon-hd-9000-series-to-feature-new-naming-meet-the-radeon-r9-xxxx

Ih. Das APU-Namensschema ist aus der Hölle und gehört auch da wieder hin.

boxleitnerb

2013-07-17, 13:52:24

Immerhin kann man wieder von vorne anfangen. Ob das Präfix jetzt X oder HD oder R9 ist, ist doch egal.

M4xw0lf

2013-07-17, 14:00:59

Immerhin kann man wieder von vorne anfangen. Ob das Präfix jetzt X oder HD oder R9 ist, ist doch egal.
Vermutlich wird es aber ja verschiedene Präfixe geben - R9, R8, R7 plus Zahl, in Form von x900, x800 und so weiter (wobei x dann wieder pro Chipgeneration um eins erhöht wird) - so ist es bei den APUs, und deshalb ist es ein einziges grässliches Chaos. ;)

Spasstiger

2013-07-17, 14:02:41

Wenn ich nach der Grafik und den APU-Namensgebungen gehe, würden die High-End-Karten dann wohl z.B. Radeon R9-D100 und Radeon R9-D300 heißen. Und die Nachfolgerkarten z.B. Radeon R9-D150 und Radeon R9-D350.
Und eine Mainstreamkarten heißt dann vielleicht Radeon R5-D800. :freak:

Raff

2013-07-17, 14:05:59

R2-D2, ick hör dir piepsen. Hoffentlich bewahrheitet sich das nicht.

MfG,
Raff

boxleitnerb

2013-07-17, 14:06:08

Ne, wenn schon dann R9-D1xx und der Nachfolger dann R9-D2xx.

Die Frage ist, ob R9 einem SKU voransteht oder mehreren. Also gehen die hypothetischen 9970 und 9950 und 9930 alle in dem R9 auf oder nur die 9970 und 9950 wäre dann R8?

Spasstiger

2013-07-17, 14:09:43

Ich nehme an, dass es die Präfixe R1, R3, R5, R7 und R9 geben wird. So grenzt man die GPUs von den APUs mit geradzahligen Präfixen ab (A4, A6, A8, A10, E2).
/EDIT: Im Prinzip wäre das ja ähnlich wie bei Nvidia mit G, GT und GTX. Nur dass Nvida alles, was auch nur ansatzweise für Gaming taugt, gleich GTX nennt.

AnarchX

2013-07-17, 14:09:49

Sofern man mit "Pirate Islands"? die internen Buffer und Kompressionsalgorithmen anpasst, wäre für zukünftige Generationen "Radeon UHD" nicht so verkehrt. Mit Radeon HD gab es doch auch einige interne Anpassungen die eine sinnvolle Untersützung von ~1920x1080 erst erlaubten. Die sind wohl auch für kommende 4K+ Displays nötig.

Ich nehme an, dass es die Präfixe R1, R3, R5, R7 und R9 geben wird. So grenzt man die GPUs von den APUs mit geradzahligen Präfixen ab (A4, A6, A8, A10, E2).
http://www.forum-3dcenter.org/vbulletin/showthread.php?p=9844578#post9844578
Da gibt es auch eine R2-Graphics und Vermutungen, dass es Codenamen in Richtung von Intels GT1-4 sein könnten.

HOT

2013-07-17, 15:30:10

Das ist Dein Grundfehler. Ein Prozeß wird überhaupt nicht auf irgendeine Frequenz angepaßt. Ein Prozeß liefert bestimmte Schaltgeschwindigkeiten (gemessen nicht in GHz sondern in ps) bei bestimmter Leakage (wie gesagt unterschiedlich je nach Transistortyp und vom Design zu wählen), bestimmte Kapazitäten sowie Induktivitäten der Leitungen und kommt mit bestimmten Designregeln daher, wie man die Transistoren anordnen kann (oder sollte). Was man daraus macht, bleibt dem Chipdesigner überlassen. Auch mit relativ langsamen Prozessen kann man sehr hochtaktende Prozessoren bauen, wenn man das Pipelinedelay entsprechend niedrig auslegt. Da mit absoluten Frequenzen anzukommen ist einfach an der Sache vorbei.
Oder um auf die GPU-Frage zurückzukommen: GPUs sind offenbar so ausgelegt, daß sie auch bei 1 GHz besser mit einem HP-Prozeß laufen. Es ist wichtig, möglichst viele Einheiten mit geringem Flächenverbrauch bei niedrigem Stromverbrauch auf einem Die zu vereinen. Dies erreicht man dadurch, daß man im Vergleich zu CPUs weniger Transistoren pro Funktionseinheit verwendet, also einfachere Design benutzt, die dann allerdings den Nachteil haben, daß mehr dieser Transistoren sozusagen hintereinander sitzen, also in einem Takt alle nacheinander schalten müssen. Zusätzlich kann man nicht auf breiter Front die schnellsten Transistoren eines Prozesses einsetzen, weil die zuviel Strom verbrauchen. Hier kann es besser sein die langsamen Transistoren des HP Prozesses zu benutzen als die schnellen eines LP-Prozesses (weil die ein besseres Verhältnis von Geschwindigkeit zu Leakage haben).
Summa Summarum erlaubt der Takt alleine keinen Rückschluß auf den optimalerweise zu verwendenden Prozeß.
Danke für die Aufklärung ;). Mir ging es jetzt aber auch um die Praxis (also fertige Chips) und da ist mMn der Takt schon relevant für die Fertigungskosten.

Also das Namensschema find ich nicht schlimm, es ist ja der Typ immer vorne und die Generation dahinter. Macht Intel ja auch so (bei Intel würd ich mir nur mehr Konsequenz wünschen, da gibts ja I5 ohne 4 Kerne usw.). Bei AMD ist der Buchstabe immer sehr chaotisch. Toll wäre es gewesen, mit diesem den Einsatzzweck widerzuspiegeln, also D9 für Desktop-Highend beispielsweise oder Radeon N9 für Notebook-Highend - das könnte man noch weiterspinnen; statt A6 gibts dann Athlon D6, aber das ist weiterhin ein Wunschtraum :D.

Coda

2013-07-17, 15:31:41

Nein, ist er nicht. Nur falls du exakt die identische Logik mit unterschiedlichen Taktraten haben möchtest. Für einen Vergleich CPU gegen GPU ist das völliger Quatsch. GPUs sind nicht billiger zu fertigen weil sie einen niedrigeren Takt haben.

Duplex

2013-07-17, 17:33:56

Intels CPUs sind ja auch in Bulk gefertigt, von daher ist SOI keine Vorraussetzung für hohe Taktraten und damit ist die Aussage von "Hot" falsch.

Übrigens glaub ich nach wie vor das die Konsolen Chips von TSMC kommen.

sry für offtopic.

S940

2013-07-17, 18:19:24

GPUs sind offenbar so ausgelegt, daß sie auch bei 1 GHz besser mit einem HP-Prozeß laufen. Es ist wichtig, möglichst viele Einheiten mit geringem Flächenverbrauch bei niedrigem Stromverbrauch auf einem Die zu vereinen.
Wie schon früher gesagt, der HP-Prozess hat auch die dichteren SRAM-Zellen. Eventuell ist das der einzige bzw. der wichtigste Grund. Gilt auch für TSMC, hier in der guten, alten giste gibts deren HP und LP28 Maße:

http://www.realworldtech.com/iedm-2008/10/

150 zu 130nm²
Zusätzlich kann man nicht auf breiter Front die schnellsten Transistoren eines Prozesses einsetzen, weil die zuviel Strom verbrauchen. Hier kann es besser sein die langsamen Transistoren des HP Prozesses zu benutzen als die schnellen eines LP-Prozesses (weil die ein besseres Verhältnis von Geschwindigkeit zu Leakage haben).Jein, bist Du Dir sicher, dass die HP-Transistoren bei HP und LP unterschiedlich sind?
Dazu gibts das Bildchen von TSMC:

http://www.abload.de/img/standard-offerings-v2qzsz6.jpg

Da sind die VTs alle gleichermaßen aufgeführt, die sollten demnach gleich sein. Nur ist da halt die Crux, dass es die HP-Transistoren nicht überall gibt.

Inwiefern sich die Transistoren untereinander im Aufbau unterscheiden hab ich aber auch noch nicht rausgefunden, steht nur überall, dass man für die Critical Paths die HP-Transistoren nimmt, bzw. in einem AMD-Paper waren sie mal stolz, dass ein Critical-Path mit Standard-Transistoren auskam.

Da müsste man mal ein Paper haben, wo aufgeschlüsselt ist, wieviele HP-Transistoren ne GPU hat...

Intels CPUs sind ja auch in Bulk gefertigt, von daher ist SOI keine Vorraussetzung für hohe Taktraten und damit ist die Aussage von "Hot" falsch.Hej, AMD hat gerade nen 5 Ghz Chip in 32nm SOI rausgebracht, während Intel das in 22nm Bulk nicht schafft. HOTs Aussage stimmt also ;D
(Sorry, konnte mir den Kommentar nicht verkneifen ^^)