PDA

Archiv verlassen und diese Seite im Standarddesign anzeigen : Memtest86: Rowhammer-Speichertest


Pixelmonk
2015-08-15, 04:43:39
Memtest86 (6.1) (http://www.memtest86.com/) bietet einen neuen Rowhammer-test.
Scheinbar produzieren viele Speicher (hauptsächlich DDR3) im Test Fehler. Mein Speicher (G.Skill F3-12800CL9-GBRL @2133CL11, 1.4volt) hat über hundert Fehler im Test produziert, obwohl er alle anderen Tests (auch in Windows) bestanden hat und der immer Rechner stabil lief. Selbst eine extreme Erhöhung der Haupt-timings hat keine Verbesserung gebracht.

Geholfen hat letztendlich die Reduktion des Row Refresh-interval (tREFI) auf 4000. Andere Leute berichten dass sie tREFI auf 3500 reduzieren mussten. Durch die Reduktion von tREFI reduziert sich etwas die Bandbreite. Durch die gleichzeitige Reduktion von tRFC auf 200 konnte ich die Bandbreiten-reduktion fast neutralisieren.

Why am I only getting errors during Test 13 Hammer Test?

The Hammer Test is designed to detect RAM modules that are susceptible to disturbance errors caused by charge leakage. This phenomenon is characterized in the research paper Flipping Bits in Memory Without Accessing Them: An Experimental Study of DRAM Disturbance Errors by Yoongu Kim et al. According to the research, a significant number of RAM modules manufacted 2010 or newer are affected by this defect. In simple terms, susceptible RAM modules can be subjected to disturbance errors when repeatedly accessing addresses in the same memory bank but different rows in a short period of time. Errors occur when the repeated access causes charge loss in a memory cell, before the cell contents can be refreshed at the next DRAM refresh interval.

The errors detected during Test 13, albeit exposed only in extreme memory access cases, are most certainly real errors. During typical home PC usage (eg. web browsing, word processing, etc.), it is less likely that the memory usage pattern will fall into the extreme case that make it vulnerable to disturbance errors. It may be of greater concern if you were running highly sensitive equipment such as medical equipment, aircraft control systems, or bank database servers. It is impossible to predict with any accuracy if these errors will occur in real life applications. One would need to do a major scientific study of 1000 of computers and their usage patterns, then do a forensic analysis of each application to study how it makes use of the RAM while it executes. To date, we have only seen 1-bit errors as a result of running the Hammer Test.

There are several actions that can be taken when you discover that your RAM modules are vulnerable to disturbance errors:

Do nothing
Replace the RAM modules
Use RAM modules with error-checking capabilities (eg. ECC)

Depending on your willingness to live with the possibility of these errors manifesting itself as real problems, you may choose to do nothing and accept the risk. For home use you may be willing to live with the errors. In our experience, we have several machines that have been stable for home/office use despite experiencing errors in the Hammer Test.

You may also choose to replace the RAM with modules that have been known to pass the Hammer Test. Choose RAM modules of different brand/model as it is likely that the RAM modules with the same model would still fail the Hammer test.

For sensitive equipment requiring high availability/reliability, you'd replace the RAM without question and would probably switch to RAM with error correction such as ECC RAM. Even a 1-bit error can result in catastrophic consequences for say, a bank account balance. Note that not all motherboards support ECC memory, so consult the motherbaord specifications before purchasing ECC RAM.

http://www.memtest86.com/troubleshooting.htm

Air Force One
2015-08-15, 07:21:45
Danke dir

Annator
2015-08-15, 08:47:17
Interessant werde ich mal testen. Vielleicht kann man hier ja posten welche Module vom Haus aus keine Fehler verursachen bzw. wie man fehlerhafte Module stabil bekommt.

seba86
2015-08-15, 09:00:59
Ist doch wayne. Will sagen, der ganze Aufwand die Fehler zu entdecken, steht in keinem Verhältnis zum Ergebnis

Die CPU macht auch xy von Fehler pro Sekunde.
Hauptsächlich wird es wohl nur Perfomance kosten, da der fehlerhafte Schritt erneut ausgeführt werden muss. Aber sonst...

Air Force One
2015-08-15, 09:09:25
Naja Aufwand ist reaktiv wenn man aus Erfahrung anderer weiß wo man Ansätzen muss.

ux-3
2015-08-15, 13:17:09
Wenn man eine gelegentliche Intstabilität bekämpft, ist das sicher hilfreich.

Gast
2015-08-15, 13:28:20
Erst mal lesen* - und dann wieder alle so einstellen wie bisher. Dieser Test hat nicht smit Stabilität zu tun, sondern mit einer (potentiellen) Sicherheitslücke.

* - https://de.wikipedia.org/wiki/Rowhammer

Pixelmonk
2015-08-15, 13:50:43
Erst mal lesen* - und dann wieder alle so einstellen wie bisher. Dieser Test hat nicht smit Stabilität zu tun, sondern mit einer (potentiellen) Sicherheitslücke.

* - https://de.wikipedia.org/wiki/Rowhammer


Der Fehler kann auch im normalen Betrieb auftreteten, wie wahrscheinlich das ist kann man aber ohne eine genaue Analyse nicht sagen.
Ich bin lieber auf der sicheren Seite, als dass sich über Jahre immer mehr Fehler ins System einschleichen und der Rechner instabil wird.
Zudem ist es kein großer Eingriff, der Speicher wird jetzt ca. doppelt so häufig refreshed. Bei mir kostet es nur ca. 0,5gb/sec Bandbreite.

The errors detected during Test 13, albeit exposed only in extreme memory access cases, are most certainly real errors. During typical home PC usage (eg. web browsing, word processing, etc.), it is less likely that the memory usage pattern will fall into the extreme case that make it vulnerable to disturbance errors. It may be of greater concern if you were running highly sensitive equipment such as medical equipment, aircraft control systems, or bank database servers. It is impossible to predict with any accuracy if these errors will occur in real life applications. One would need to do a major scientific study of 1000 of computers and their usage patterns, then do a forensic analysis of each application to study how it makes use of the RAM while it executes. To date, we have only seen 1-bit errors as a result of running the Hammer Test.

seba86
2015-08-15, 15:23:19
Hmm ok, in Kombination mit der gewonnen Sicherheit scheint sich der Aufwand in einigen Fällen dann doch zu lohnen. Entscheidet eh jeder selbst für sich und man muss auf den Senf anderer nichts geben ;)

mein Benutzername
2015-08-15, 17:49:04
Scheinbar produzieren viele Speicher (hauptsächlich DDR3) im Test Fehler.
Es wird immer eine Möglichkeit geben ein Szenario zu entwickeln, in dem manche Hardware versagt. Maschinen sind oft nicht so zuverlässig, wie man es gerne hätte. Interessant wird es da vor allem, wenn man eine solche Schwäche kennt und von außen versucht ein System gezielt auf diese Weise zu stören.

Even a 1-bit error can result in catastrophic consequences for say, a bank account balance.
Das wäre natürlich der Worstcase.... das Geld der kleinen Online-Banker ist mal wieder in Gefahr! Rennt sofort alle los und kauft euch neue Computer!! :D

Nee mal im Ernst:
Fehler in kritischen Anwendungen werden imo zur Laufzeit korrigiert - und zwar durch die Anwendung selbst. Und wenn das nicht möglich ist, dann läßt man zur Absicherung ein oder mehrere weitere Systeme mitlaufen. Ich denke mir, wenn ein kleines Tool wie Memtest in der Lage ist einen Fehler im Speicher zu erkennen, daß professionelle Software ebenfalls in der Lage ist, solche Fehler zu erkennen. Wichtige Daten werden nach dem Transfer (wohin auch immer) verifiziert. Und wenn sie es nicht werden, dann sind es eben keine wichtigen Daten.
Es sind ja auch vermutlich nicht immer die gleichen Bits, die 'kippen'. Es handelt sich imo mal wieder wie so oft um eine praxisferne und irrelevante Nutzung des Speichers, die in solcher Form nicht vorgesehen war.

Deswegen auf ein System mit ECC umsteigen? Dann kommt doch ein paar Wochen später ein neuer Test der belegt, daß ausgerechnet dieser Speichertyp anfällig ist für ein anderes Szenario. Genau wie bei der Frage Windows/Linux. Erinnert ihr euch noch die Zeiten, wo die Leute tatsächlich mal daran geglaubt haben unter Linux gäbe es keine Exploits/Viren?

Abgesehen davon altert Ram imo genauso wie jede andere Hardware. Man wird also mit Auffälligkeiten leben müssen. Wenn der TS jetzt mit viel Mühe seine Timings so hinbiegt, daß die Module den Test bestehen, dann kann es gut sein, daß in ein paar Monaten schon wieder Fehler auftreten und die Refreshraten noch stärker erhöht werden müssen.

Also - was soll das?

Never touch a running system:

[x] do nothing


Trotzdem Danke an den TS für den Hinweis auf den neuen Test. Er zeigt auf, daß Computer nach wie vor eine Menge Schwachstellen haben. Man kann also nur froh sein, daß die meisten Systeme so stabil laufen, daß man es im Normalfall gar nicht merkt auf was für dünne Bretter man sich stellt, wenn man sich von moderner Technik zu sehr abhängig macht.

Gast
2015-08-22, 20:16:42
Deswegen auf ein System mit ECC umsteigen? Dann kommt doch ein paar Wochen später ein neuer Test der belegt, daß ausgerechnet dieser Speichertyp anfällig ist für ein anderes Szenario.
...
[x] do nothing
Haha, hört sich genauso an, wie die Typen, die gegen die Einführung der Gurt- und Airbagpflicht "argumentiert" haben.

Air Force One
2015-08-23, 16:59:54
Muss mal den Test eigentlich gezielt ausführen oder geht's automatisch?

Tesseract
2015-08-23, 17:05:12
der läuft ganz am ende... test 13 oder so. alternativ kannst du die anderen auch abwählen und nur den laufen lassen.

Air Force One
2015-08-23, 19:13:15
Danke dir =)