PDA

Archiv verlassen und diese Seite im Standarddesign anzeigen : Wie analysiere ich unerwartete Shutdowns bzw. Blackscreens?/Gigabyte B650E AORUS Mas


Sweepi
2023-10-26, 10:32:51
Hi Forum,



Prozessor (CPU): AMD Ryzen 9 7950X3D
Arbeitsspeicher (RAM,alt): 2x 16 GB DDR5-6000 (https://geizhals.de/teamgroup-t-force-delta-rgb-schwarz-dimm-kit-32gb-ff3d532g6000hc30dc01-a2748917.html)
Arbeitsspeicher (RAM, jetzt): 2x 32 GB DDR5-6000 (https://geizhals.de/patriot-viper-venom-dimm-kit-64gb-pvv564g600c36k-a2998921.html)
Mainboard: GIGABYTE B650E AORUS MASTER (https://geizhals.de/gigabyte-b650e-aorus-master-a2824250.html)
Netzteil: Corsair SF Series Platinum SFX 750 (https://geizhals.de/corsair-sf-series-platinum-sfx12v-v12553.html)
Gehäuse: keins / open bench table
Grafikkarte: PNY XLR8 RTX 4090 VERTO EPIC-X RGB
HDD / SSD: 2x Intel 905 Optane 960 GB (https://geizhals.de/intel-optane-ssd-905p-960gb-ssdpe21d960gax1-a1890106.html)




Die Lage:
nach einen BIOS-Update ist mein bis dahin rockstable PC instabil geworden.
Instabil heist: Während oder kurz nach dem Hochfahren geht das Display auf schwarz,
Lüfter von CPU und GPU drehen weiter (auf idle Geschwindigkeit), die 7 Segmente Anzeige des Mainboards erlischt (Steht im normalen Betrieb ansonsten auf "AA"). Der Rechner muss am NT(Netzteil) ausgeschaltet werden, Power-Button gedrückt halten hat keine Auswirkung.
Wenn ich weiterem Verlauf von crashen, Absturz, shutoff, etc. spreche meine ich genau dieses Verhalten. Ich meine nie eine andere Art von Fehlverhalten, wie z.B. einen Freeze oder Bluescreen.

Vor dem BIOS Update (von Version 7a auf Version 8d) hatte genau ich 0 crashes/shutoffs.

Was habe ich gemacht?

RAM gewechselt (siehe Timeline)
PBO abgestellt (war nach dem BIOS-Update ungewollt aktiv)
EXPO Profil gewechselt (6000 -> 5600, gleiche Timings in Taktzyklen, also "more loose" Timings in ns)


Das Verhalten ist jetzt "unter Kontrolle" aber nicht behoben, vor allem klappt der erste Boot fast nie.

Die Frage:
Wie würdet ihr dieses Problem analysieren?
Welches Programm würdet ihr für RAM-Stabilitäts-Tests nehmen?


Wenn nur mehr Stabilität das Ziel ist, wäre der nächste Schritt auf BIOS 7a downzugraden, auf den alten RAM zu wechseln, und dann, wenn das System stabil erscheint, wieder auf den neuen RAM zu wechseln. Wenn es dann weiterhin keine Probleme gibt, ist BIOS Version 8d als Verursacher isoliert. Das könnte man dadurch bestätigen, wenn nach einem erneuten BIOS Update die gleichen Probleme auftreten.
Mir geht allerdings nicht aus dem Kopf, dass PBO nach dem Update ungewollt aktiv war, was zur Instabilität beitragen hat. Vllt übersehe ich ja noch ein anderes Setting?!
Wo/Wie nachvollziehen, was den "shutoff" auslöst? Nehme an im Event-Viewer gibt es nichts, wenn es "direkt von der Hardware" kommt.





Ich plane auf 64 GiB RAM upzugraden
Zunächst will ich auf 64 GiB ECC updaten, aber er stellt sich raus, das Gigabyte ECC RAM auf AM5 nicht supportet, es gibt zwar BIOS updates für "ECC support", damit meint Gigabyte allerdings, dass das MB jetzt mit ECC-Sticks bootet, aber weiterhin die ECC-Funktionalität nicht unterstützt wird.
Ich bestelle 64 GiB RAM ohne ECC
RAM kommt an
Ich hatte das BIOS update bereits vorbereitet, und spiele es ein (zumal ich das HwInfo feature ausprobieren möchte)

-- Performance optimized for Ryzen 7000X3D series processors
-- Support GIGABYTE BIOS Settings feature under HWiNFO64 (https://www.gigabyte.com/Press/News/2101)

ich stelle meine vorherigen Settings (XMP an, Virtualisierung an, ...)
nach dem Update schafft der Rechner es Windows zu booten, schmiert dann aber ab.
Ich bin irritiert, wechsel dann aber den RAM (schließlich ist in 30 Minuten BG3 Runde!)
Rechner ist sehr instabil (kommt entweder nicht ins Windows oder stürzt nach 1-2 minuten ab)
Ich stelle fest, dass PBO an ist (vor dem BIOS-Update war es definitiv aus), und schalte es ab
Rechner wesentlich stabiler
am nächsten tag wechsele ich das EXPO-Profil von DDR5-6000 auf DDR5-5600
Rechner definitiv wesentlich stabiler aus Ausgangslage, und keinerlei Probleme im Betrieb, allerdings hat das erste Hochfahren am Tag eine 50/50 zu funktionieren, und einmal ist der Rechner direkt nach dem Hochfahren abgeschmiert, als ich in Discord auf einen Text channel geklickt habe. Zusätzlich hatte ich einen spontan shutoff in ca 15h Betriebszeit.




Um Fragen vorweg zu nehmen:
1. Mit ECC Ram meine ich "richtigen" ECC RAM, nicht "on-die ECC", was jeder DDR5 RAM verbaut hat.
2. Ich glaube nicht, dass das NT zu schwach ist. Vor dem Wechsel auf die 4090 habe ich eine 3090@480W (https://www.techpowerup.com/vgabios/227466/asus-rtx3090-24576-201117) ohne Probleme betrieben (für Benchmarks und Stresstests, in Spielen dann @Default). Zudem tritt das Problem genau zeitlich mit BIOS/RAM Wechsel auf, und diese sollten keine relevante Mehrbelastung für das NT darstellen.


Diskussion im CB-Forum (https://www.computerbase.de/forum/threads/wie-analysiere-ich-unexpected-shutdowns-bzw-blackscreens-gigabyte-b650e-aorus-master-geht-aus.2166084/) war interessant, drehte sich aber um RAM-Spannungen und FastBoot, was ignoriert, das Problem bereits mit neuen BIOS + altem RAM auftrat.

Könnte natürlich sein, dass

alter RAM + neues BIOS = instabil aufgrund von PBO ungewollt/unwissentlich aktiv
neuer RAM + neues BIOS = instabil aufgrund von zu geringer Spannung fuer DualRank RAM.

Exxtreme
2023-10-26, 10:42:39
Sieht für mich eher nach dem Netzteil aus. 750 W sind bei der RTX 4090 und einem Ryzen 7950X3D womöglich zu knapp. Bzw. setz mal das BIOS auf Werkseinstellungen zurück und aktiviere mal für die CPU den Eco-Mode. Das senkt den Stromverbrauch stark und für die Grafikkarte kann man das Powertarget auch um 30% senken. Wenn das hilft dann ist es wohl das Netzteil.

Edit: Nvidia empfiehlt mindestens 850 W:
https://www.nvidia.com/en-us/geforce/forums/game-ready-drivers/13/501736/geforce-rtx-40-series-power-specifications/

joe kongo
2023-10-26, 13:38:42
Ich teste immer mit Prime 95 / Memory lastige Settings.
Testmem5 soll gut sein, ich habs aber nur auf einem steinalten System
probiert, es läuft durch, aber nur wenn ich sonst nicht viel auf dem Sys nebenbei mache, sonst freezt die Kiste -> 5sec Power button.
Das Tool maximiert zudem die Leistungsaufnahme beim DRAM, hatte ich mit Prime95 nur stellenweise.

Klingt als ob mit dem Bios Spannungen gesenkt wurden, vlt. um dieses bekannte
aber seltene thermische Durchgehen bei der CPU zu vermeiden, und darum die geringere stabile RAM Frequenz. Die genauen Ursachen dafür und Bios Änderungen bleiben wohl ein Geheimnis.

Wie immer gilt, never change a (good) running system.
Und wie immer verstoße auch ich gegen diesen Grundsatz. :D

Die Frage ist ob du die alte Version aufspielen kannst / willst.

Sweepi
2023-10-26, 14:52:19
Sieht für mich eher nach dem Netzteil aus.
Verstehe ich, würde dann aber nicht das System ausgehen, anstatt in diesen "Limbo-Mode" zu wechseln?

Während oder kurz nach dem Hochfahren geht das Display auf schwarz,
Lüfter von CPU und GPU drehen weiter (auf idle Geschwindigkeit), die 7 Segmente Anzeige des Mainboards erlischt (Steht im normalen Betrieb ansonsten auf "AA"). Der Rechner muss am NT(Netzteil) ausgeschaltet werden, Power-Button gedrückt halten hat keine Auswirkung.



Grafikkarte kann man das Powertarget auch um 30% senken
Mein PowerTarget habe ich im MSI-Afterburner per default nach dem Hochfahren auf 70% gestellt (Bereits vor dem BIOS-Update), ich drehe das nur fuer anspruchsvolle Spiele hoch. Koennte aber mal testen, ob ich mit Hochdrehen den Fehler provozieren kann.
Die groesste Schwierigkeit mit A/B Tests bei diesem Problem ist, dass das Problem so schwer zu reproduzieren ist (50/50 beim ersten Hochfahren und 1x Limbo-Mode in 15h Betrieb.
Deswegen meine Hoffnung/Frage, ob man irgendwie den Grund postmortem bestimmen kann.


Klingt als ob mit dem Bios Spannungen gesenkt wurden, vlt. um dieses bekannte
aber seltene thermische Durchgehen bei der CPU zu vermeiden, und darum die geringere stabile RAM Frequenz. Die genauen Ursachen dafür und Bios Änderungen bleiben wohl ein Geheimnis.

Wie immer gilt, never change a (good) running system.
Und wie immer verstoße auch ich gegen diesen Grundsatz. :D


me2....

Habe noch die alte Bios Version + exportierte Settings gesichert, hoffe nur das wirklich alle Settings uebernommen werden und es keine Probleme beim Downgrade gibt.

Exxtreme
2023-10-26, 15:14:37
Was du noch machen kannst, ist die RAM-Spannung bissl nach oben bringen. Die neuen BIOSse haben die SoC-Spannung und die RAM-Spannung gesenkt gehabt. Die RAM-Spannung kann man wieder erhöhen, die SoC-Spannung aber so lassen wie sie ist! Oder Expo komplett deaktivieren. Ryzen 4 ist für DDR5-5200 spezifiziert und sollte damit OOTB laufen. Und wichtig ist auch den RAM nicht in einem RAM-Channel zu betreiben. Sprich, immer(!) zwischen den Riegeln einen Slot freilassen. Das machen viele Leute auch falsch weil das für sie "falsch" aussieht wenn man so einen Slot ausspart.

Gast
2023-10-27, 19:05:15
XMP bzw. das AMD Äquivalent an? Wenn ja, dann mal ohne testen.

Sweepi
2024-02-05, 17:17:49
Ich habe die Auflösung der Geschichte gar nicht gepostet.


* Ich habe jedes Bauteil ein zweites Mal angeschafft (abgesehen von der SSD)
* D.h. neuer 7950X3D, neues AM5 Motherboard, neues Netzteil, alternatives DDR5 RAMKit hatte ich noch da, bei der GPU habe dich die iGPU der AMD-CPU als Alternative genutzt.
* Ich habe alle Bauteile einzeln A/B getestet, mit Prime95 als Reproducer. Nach jeder Hardwareänderung habe ich alle BIOS Einstellungen auf default zurückgesetzt ("load optimized defaults"). Zudem habe ich einen weiteren Run mit verringerten JEDEC-RAM Einstellungen gemacht und deaktiviertem PBO gemacht.


Das Ergebnis war eindeutig.

Der Schuldige war ... trommelwirbel ... das Motherboard!!
​​​​​Keine andere Änderung machte irgendeinen Unterschied!



Fazit: Die ursprüngliche Frage bleibt leider ungelöst. Abgesehen von der Brute-Force "alle Bauteile A/B testen" Methode hat mir nichts (und niemand!) einen Hinweis auf das Motherboard gegeben. :( .

Dass das MB nach Monaten ohne Probleme auf einmal reproduzierbar unzuverlässig wurde, beunruhigt mich.


Mindfactory hat das MB zurückgenommen, ohne Rückfragen und nach ~48h war das Geld da.
Den zweiten 7950X3D habe ich zurückgegeben (hatte das bei NBB im Laden gekauft und vorher mit dem Mitarbeitern abgesprochen, was ich vorhatte). MB (ist jetzt im Einsatz) und Netzteil (als Ersatzgerät) habe ich behalten.