Diskussion zu: Hardware- und Nachrichten-Links des 16./17. März 2017 [Archiv]

PDA

Archiv verlassen und diese Seite im Standarddesign anzeigen : Diskussion zu: Hardware- und Nachrichten-Links des 16./17. März 2017

Leonidas

2017-03-18, 13:18:20

Link zur News:
https://www.3dcenter.org/news/hardware-und-nachrichten-links-des-1617-maerz-2017

AMD-Gast

2017-03-18, 13:51:39

Happo

2017-03-18, 13:57:49

Das plus an Performance bei Ryzen skaliert zumindest in diesem Rahmen mehr oder weniger linear. Ausgehend von den Messwerten ergibt sich grob
+4% Speichertakt = +1% Performance
DDR4/3000 läge demnach bei +9-10%
Wäre interessant zu sehen ob sich das mit noch schnellerem Speicher weiter fortsetzt. Also ob z.B. DDR4/3600 bei +16-17% Performance liegt.

PacmanX100

2017-03-18, 15:09:59

Leider dürfte das ganze durch die Lizenzbestimmungen gedeckt sein, denn jene sehen nicht zwingend einen Microsoft-Support auf nicht offiziell unterstützter Hardware vor.

Leo, diese Aussage halte ich für fehlerhaft. Es gibt keine "offiziell unterstützte Hardware". Du hast diese Lizenzvereinbarung beim Kauf der Software abgeschlossen. Die hat sich seitdem nicht geändert (höchstens im Service Pack aktualisiert). In 2009 kannte noch niemand die Hardware die 2010-2020 erscheinen wird.

In der Vereinbarung von Windows 7 gibt es nicht einmal einen Punkt zum Thema Hardware. Da heißt es lediglich:

Die Software wird auf der Basis pro Kopie pro Computer lizenziert. Ein Computer ist ein physisches Hardwaresystem mit einer internen Speichervorrichtung, das fähig ist, die Software auszuführen. Eine Hardwarepartition oder ein Blade wird als separater Computer betrachtet.

Es ist also sehr wohl angreifbar. Wir sind hier in Deutschland. Es sind einseitige Änderungen nicht möglich.
Die Frage ist eher, warum bisher noch niemand direkt sich damit befasst hat. Beim Datenschutz ist auch fast nur die Verbraucherzentrale aktiv. ;)

Wäre interessant zu sehen ob sich das mit noch schnellerem Speicher weiter fortsetzt. Also ob z.B. DDR4/3600 bei +16-17% Performance liegt.

Gerade im Multicore Bereich ist Bandbreite knapp. 8 Kerne fressen nunmal mehr als 4. Insbesondere wenn die reale Leistung dann auch fast doppelt so hoch ist. Ist doch logisch, das wenn mehr Bits fließen der Speicher auch mehr beansprucht wird.
Bei 16 Kernen dürfte es nach heutigem Stand auch nochmal zu einem erheblichen Zuwachs kommen und alles unter 3000 dann definitiv Leistungseinbußen geben. In Anwendungen wie RAR/7zip/Verschlüsselung gab es schon immer Differenzen bis zu 10-15%.

Gast

2017-03-18, 16:26:42

Leo der 12nm Prozeß von TSMC ist nichts weiter als ein optimierter 16nm+.
Da es sich um 12FFC handelt ist es eine optimierte Version von 16FFC!
https://www.semiwiki.com/forum/content/6662-tsmc-talks-about-22nm-12nm-7nm-euv.html

Wird also rein für HPC sein, die GPUs werden wohl maximal den Takt ver Vorgänger erreichen, wahrscheinlich aber sogar etwas weniger.
Dafür halt effizienter und bei HPC ist der maximale Takt nicht so wichtig wie bei Gaming!

BlacKi

2017-03-18, 16:29:29

Leo der 12nm Prozeß von TSMC ist nichts weiter als ein optimierter 16nm+. Das sind keine wirklichen 12nm anhand der physischen Größe.;)

Die Fertiger verarschen uns da richtig schön, nur um Fortschritt zu suggerieren und abzukassieren.
wenn der fortschritt nicht vorhanden ist bleiben die kunden weg, ist ein fortschritt vorhanden so ist der aufpreis gerechtfertigt. weiß nicht was du willst...

die können den prozess nennen wie sie wollen, hauptsache es kommt was bei rum.

Gast

2017-03-18, 16:52:36

die können den prozess nennen wie sie wollen, hauptsache es kommt was bei rum.
bei den voltas handelt es sich um xavierkerne fürs automobile segment, was hat das mit desktops gpus zu tun? die kommen mit einem viel niedrigen takt daher und nur weil 10nm bei tsmc eben so beschissen läuft.

ihr hört was von nvidia - volta - 12nm und faselt...das ist als würde ich einen handy soc in einen pc verbauen wollen und damit c3 in 4k spielen.

er hat doch recht! für handys und anderes sind 16nm ffc ala 12nm doch kaum sinnvoll und kostet nur. die nennen die prozesse schon lange wie sie wollen, ohne das diese zu der wirklichen ferftigungsgröße überhaupt einen bezug aufbauen. wenn nur teile einer cpu oder gpu so gefertigt werden, geht der vorteil der kleineren strukturgröße bei der anbindung verloren.

der rest ist nur blubb blubb...von den üblichen fanboys, hurra nvidia. zwischenfertigungsverfahren sind weder sinnvoll noch besonders profitabel, sie überbrücken einfach nur zeit und gaukeln vor was besonderes zu sein. sind sie aber nicht.

Gast

2017-03-18, 17:23:03

https://www.heise.de/newsticker/meldung/Nvidia-Xavier-20-Watt-Kombiprozessor-fuer-autonome-Autos-3336186.html

Mal lesen...!

Gast

2017-03-18, 20:40:41

Einschränkenderweise muß der übernatürlich große Performance-Sprung von DDR4/2666 auf DDR4/3200 notiert werden, welcher eine gewisse Chance auf ein leicht fehlerhaftes Ergebnis übrig läßt – und dennoch: Wenn sich diese Ergebnisse auch nur in der Tendenz halten lassen (unter 720p sollte es sogar deutlicher ausfallen), dann lohnen sich für Ryzen schnellere Speichertaktungen sehr wohl, gerade für Gamer. Dies wäre in jedem Fall bei zukünftigen Ryzen-Reviews genauer zu betrachten – und dann natürlich auch für Kaby Lake und Broadwell-E, nur um sicher zu sein. Eine gewisse technische Grundlage für diese Ergebnisse ergibt sich allerdings schon durch den Umstand, das bei Ryzen das Speicherinterface nicht mit CPU-Takt, sondern nur mit dem Speichertakt arbeitet – und somit bei schnellerem Speicher demzufolge auch das reine Speicherinterface in der CPU selber höher getaktet mitläuft.

Das Speicherinterface läuft logischerweise immer mit Speichertakt, der Takt ist ja dazu da verschiedene Einheiten synchron laufen zu lassen und das Speicherinterface muss logischerweise synchron mit dem Speicher laufen, ansonsten kommt nur Datenmüll raus.
Bei Ryzen ist allerdings auch der Infinity Fabric abhängig vom Speichertakt, und dürfte wohl maßgeblich am Performancegewinn beteiligt sein, den übrigens auch andere Reviews, wenn auch nicht in dieser Breite, festgestellt haben.

AMD-Gast

2017-03-18, 20:57:24

Da es sich um 12FFC handelt ist es eine optimierte Version von 16FFC!
https://www.semiwiki.com/forum/content/6662-tsmc-talks-about-22nm-12nm-7nm-euv.html

Wird also rein für HPC sein, die GPUs werden wohl maximal den Takt ver Vorgänger erreichen, wahrscheinlich aber sogar etwas weniger.
Dafür halt effizienter und bei HPC ist der maximale Takt nicht so wichtig wie bei Gaming!
M31 IP steht für Ultra Low Leakage und war schon bei 28nm HPC+ ULL Thema.;)

Das eignet sich nicht unbedingt für dGPU's, sondern eher für kleinere Dies. Daher wollte ich Leo darauf aufmerksam machen. Er spricht in seiner News im Zusammenhang vom GV100 (rein spekulativ). Ist mir anscheinend nicht gelungen. Soweit es um Green Low Power ginge wäre das denkbar, was beim GV100 als Topdog eher undenkbar ist. MMn aber ich kann mich auch irren, so wie jeder. Das spart nicht unbedingt Waferfläche.

Iscaran

2017-03-18, 22:02:33

Im Hinblick auf die Ergebnisse bei HT4U frage ich mich doch warum ausgerechnet Spiele derart auf diese Erhöhung reagieren.

Ich hätte ja erwartet dass es eher die Anwendungen sind die von erhöhter Speicherbandbreite profitieren.

JEDOCH nach einiger Überlegung zum Design von Ryzen. Die Infinity Fabric ist ja mit dem Speichertakt gekoppelt und der Transport an Daten zwischen CCX'Cores läuft mit dem Speichertakt und nicht der Cache-Frequenz.

Könnte es nun sein dass der höhere Speichertakt die "Probleme" des Schedulings (threadwechsel zwischen CCXen) quasi "auflöst" bzw. reduziert da sich durch den höheren Speichertakt die Cross-CCX Kommunikation beschleunigt ?

Das würde erklären warum gerade in Games diese Speichergeschwindigkeitserhöhung so perfekt die Performance der CPU erhöht ! In den Benchmarks sind es vor allem die Games die besonders schlecht SMT supporten und auch sonst eher Probleme mit dem Multi-threading haben.

Und siehe da nimmt man die "Latenz"-Bremse etwas raus (durch schnelleren Speicher) gewinnt man direkt LINEAR performance ?!?

Kann da mal jemand mit mehr Durchblick zur Ryzen-Architektur was zu diesen Gedankengängen sagen ?

Gast

2017-03-18, 22:25:47

Bie Spielen gibt es mehr Datentransfer zwischen den Threads, deswegen profitiert das so stark.

Mortalvision

2017-03-19, 00:13:23

Wird schon stimmen. Ich bin nur absoluter Laie, aber die Idee der CCX zum Skalieren für die Servermodelle mit 32 Kernen auf den Consumer Markt zu übertragen ist soooo typisch AMD, wie bei den GPUs mit 30-50% mehr Tflops Rechenleistung, die nicht auf die Straße gebracht werden, weil xyz...

Was der Achtkerner für geile Spieleperformanz bräuchte, wäre ein 64 oder 128 GB HBM(?) lvl 3 Cache, der von allen Kernen nutzbar ist. Dann bleibt lvl2 für Rohdaten/ kritische Komponenten und lvl 1 für Instruktionen. Ich tippe auf einen Broadwell Effekt, der RyZen in Games gewaltig nach vorne katapultieren könnte. Zusammen mit 3000+ ddr4 könnte sich AMD trotz nur 4 ghz deutlich auf intels 7700k heranpirschen. Aber das sind wohl leider nur Träume, denn cpu entwicklungszeit>>>>> gpu Entwicklungszeit.

BlacKi

2017-03-19, 00:15:48

bei den voltas handelt es sich um xavierkerne fürs automobile segment, was hat das mit desktops gpus zu tun? die kommen mit einem viel niedrigen takt daher und nur weil 10nm bei tsmc eben so beschissen läuft.

ihr hört was von nvidia - volta - 12nm und faselt...das ist als würde ich einen handy soc in einen pc verbauen wollen und damit c3 in 4k spielen.

er hat doch recht! für handys und anderes sind 16nm ffc ala 12nm doch kaum sinnvoll und kostet nur. die nennen die prozesse schon lange wie sie wollen, ohne das diese zu der wirklichen ferftigungsgröße überhaupt einen bezug aufbauen. wenn nur teile einer cpu oder gpu so gefertigt werden, geht der vorteil der kleineren strukturgröße bei der anbindung verloren.

der rest ist nur blubb blubb...von den üblichen fanboys, hurra nvidia. zwischenfertigungsverfahren sind weder sinnvoll noch besonders profitabel, sie überbrücken einfach nur zeit und gaukeln vor was besonderes zu sein. sind sie aber nicht.
lächerlich, nvidia verlangt auch schon so genug. so hab ich wenigstens einen optimierten prozess (entweder niedrigeren stromverbrauch oder mehr takt).
die produktionskosten stehen bei nv so oder so nicht mehr im verhältniss. da kann ich wenigstens einen optimierten prozess hoffen, wenn die preise schon nicht fallen.

Gast

2017-03-19, 00:25:06

Ich bin nur absoluter Laie, aber die Idee der CCX zum Skalieren für die Servermodelle mit 32 Kernen auf den Consumer Markt zu übertragen ist soooo typisch AMD
Daran ist nichts schlecht.

Wenn du zugibst wenig Ahnung zu haben, warum urteilst du dann über den Aufbau von Zen?

Was der Achtkerner für geile Spieleperformanz bräuchte, wäre ein 64 oder 128 GB HBM(?) lvl 3 Cache
Das meinst du aber nicht ernst?
Was sollen bis zu 128GB Cache bringen?
HBM ist ausserdem als Cache für eine CPU denkbar ungeeignet!

AM4 konkurriert auch nur mit dem S1151.
Als Alternative für den S2011-3 kommt wahrscheinlich Naples, den man dann als Ryzen vermarkten wird.
Rumor: AMD Working on 16 Core/32 Thread Ryzen CPU To Take The Performance Crown In The HEDT Spectrum (http://wccftech.com/amd-working-16-core-ryzen-cpu/)

Gast

2017-03-19, 10:02:49

lächerlich, nvidia verlangt auch schon so genug. so hab ich wenigstens einen optimierten prozess (entweder niedrigeren stromverbrauch oder mehr takt).
die produktionskosten stehen bei nv so oder so nicht mehr im verhältniss. da kann ich wenigstens einen optimierten prozess hoffen, wenn die preise schon nicht fallen.
weisst du denn was sie für das px2 modul verlangen? zz wird das wassergekühlt und verballert bis zu 80w, nv will auf ein viertel runter. mit richtigen gpus hat das nichts zu tun. da hat leo sich völlig verfranzt. der volta anteil in dem modul ist nicht grösser als 512 shader. 2x256 wenn mich nicht alles täuscht. selbst gp100 ist dagegen ein gewaltiges monster. dort mit ultra low power kommen zu wollen ist quatsch. dann bitte einen link der das bestätigt!

tsmcs 16nm ffc senkt die leakagen durch static hervorgerufene verluste und bringt frei programmierbare io register bibliotheken mit. das wars auch schon. dazu wird nicht mal das ganze modul in 12nm hergestellt. auf dem layer sind mehrere einheiten verbaut, darunter auch 8 arm kerne.

es geht dabei ums autonome fahren und nicht um desktops gpus. volta dient dabei als hilfsprozessor oder zur anzeige. ähnliches zeug habe ich in meinem siebener verbaut und der müll wurde schon 2x komplett getauscht inklusive display, wahrscheinlich wegen hitzeproblemen fallen die dinger aus wie die fliegen von der wand. die leute sind langsam genervt. ich glaube nicht das man damit geld verdient.

Gast

2017-03-19, 12:26:58

Im Hinblick auf die Ergebnisse bei HT4U frage ich mich doch warum ausgerechnet Spiele derart auf diese Erhöhung reagieren.

Ich hätte ja erwartet dass es eher die Anwendungen sind die von erhöhter Speicherbandbreite profitieren.

Vermutlich hängt es davon ab wie sehr einzelne Threads auf die selben Daten zugreifen, bzw. wie sehr Thread A von Output von Thread B abhängig ist.

Einerseits hat Ryzen keinen echten Last-Level-Cache auf den alle Kerne Zugriff haben, jeder CCX kann nur auf seinen L3 zugreifen.

Zusätzlich ist der L3 ein reiner Victim Cache, er wird also nicht beim Laden von Daten aus dem DRAM befüllt, sondern erst wenn Cache-Lines aus dem L2 rausfallen.
Selbst bei reinen Lesezugriffen im selben CCX kann es also vorkommen, wenn unterschiedliche Lesezugriffe auf die selben Daten stattfinden, dass diese mehrmals über den DRAM geladen werden müssen.
Wenn ein Kern ein Datum aus dem DRAM lädt landet dieses nämlich erstmal in seinem L2 und schlussendlich L1-Cache. Erst wenn ein weiterer Ladevorgang diese Cacheline aus dem L2 verdrängt werden die Daten in den L3 weitergeschoben, auf welchen dann auch die anderen Kerne des selben CCX zugreifen können.
Wobei das kein großes Performanceproblem darstellen sollte, in der Praxis wird es normalerweise oft genug passieren, dass Daten aus dem L2 rausfallen und anschließend im L3 für die anderen Kerne verfügbar sind.

Problematischer ist es dagegen wenn unterschiedliche Threads auf Output von anderen Threads warten. Das verringert natürlich auf jedem Multicoresystem den Durchsatz.
Bei Ryzen ist es aber besonders problematisch wenn diese Threads auf unterschiedlichen CCX ausgeführt werden. Die Cache-Schreibstrategie von Ryzen ist write-back, Schreibzugriffe landen also erstmal nur im Cache und nicht im DRAM.
Wenn jetzt ein Thread der in einem CCX läuft auf Daten zugreifen will die ein Thread der auf dem anderen CCX läuft zugreifen will muss dieser warten bis diese in den DRAM geschrieben wurden und dann erneut von diesem laden.
Ein direkter Zugriff auf den Cache des anderen CCX ist nicht möglich, auch nicht auf den L3.
Genau diese read-after-write Zugriffe über unterschiedliche CCX kosten Ryzen jede Menge Performance.

Im Extremfall kann es bei vielen Datenabhängigkeiten sogar sein, dass Ryzen trotz ausreichend Threads mit 4 Kernen schneller läuft als mit 8. Bzw. noch seltener, dass es sogar schneller ist Threads über SMT auf dem selben Kern laufen zu lassen, obwohl noch physische Kerne verfügbar wären.

Deshalb sagt AMD auch, dass es keine großartigen Verbesserungen vom OS-Scheduling für Ryzen mehr geben kann, weil das OS kann unmöglich im vorhinein wissen welche Threads welche Daten benötigen werden bzw. wie diese miteinander kommunizieren wollen.
Das kann nur durch Anpassungen der Software selbst verbessert werden, und wenn man zu viele Datenabhängigkeiten hat die man nicht wegbekommt wird das alles nichts nützen, dann wird die entsprechende Software auf Ryzen einfach schlecht skalieren.

Mortalvision

2017-03-19, 12:34:27

Hallo, Gast! a) natürlich prinzipiell nicht schlecht, das Ergebnis kann sich sehen lassen! Aber mein Bauchgefühl sagt mir, dass AMD einfach Kosten bei der Entwicklung sparen musste.
b) vertippt! MB, nicht GB ;) Für einen guten Effekt von großen Caches siehe den Broadwell! HBM war nur eine Idee, Intel hat glaub ich EDRAM beim Intel Broadwell verbaut.
c) das ist hier ein freies Forum für den freien Gedankenaustausch! Ich werde mir von niemandem verbieten lassen, meine Meinung zu sagen. Wenn ich falsch liege, und jemand mich berechtigt kritisiert, habe ich etwas dazugelernt. EoD :)

Kickstart

2017-03-20, 15:16:05

Tja, was soll man noch zu Microsofts neuer Charmeoffensive sagen?
Wie wärs mit: Früher hat sich der User das OS ausgesucht. Heute sucht sich das OS den User aus.