PDA

Archiv verlassen und diese Seite im Standarddesign anzeigen : RAID-Systeme sicherer machen: Time Limited Error Recovery (TLER)


rpm8200
2008-12-03, 22:22:33
Ich weiss nicht ganz, ob mein Post hier richtig ist. Ich brauch eigentlich keine Hilfe, ich wollt mit meinem Post ggf. dem einen oder anderen helfen.

Ich bin gerade dabei, mir ein NAS zusammenzustellen und bin dabei über

eine Problematik und auch deren Lösung gestolpert, die jeden Betreiber eines RAID Systems

interessieren könnte. Da ich hier zu dem Thema noch nichts gelesen habe, poste ich meine Erkenntnisse :smile:



Time Limited Error Recovery (TLER) für sicherere RAID Systeme mit Consumer HDDs

Western Digital Information Sheet (http://www.wdc.com/en/library/sata/2579-001098.pdf)

Entsprechende ähnliche Technologien der Mitbewerber:
Seagate: Error Recovery Control (ERC)
Samsung, Hitachi: Command Completion Time Limit (CCTL) (http://www.samsung.com/global/business/hdd/learningresource/whitepapers/LearningResource_CCTL.html)

Im folgenden nenne ich gewöhnliche Festplatten wie sie aus PCs bekannt sind der Einfachkeit halber "ConsumerHDDs" und solche für Servereinsatz "EnterpriseHDDs". Ich beziehe mich in diesem Post nur auf Western Digital. Ob es ähnliche Möglichkeiten für Seagate, Samsung oder Hitachi gibt ist mir nicht bekannt.


Sinn, Zusammenfassung (gilt für alle o.a. Technologien)

in Kurzform:
Grundsätzlich gibt es ConsumerHDDs und EnterpriseHDDs. Sie unterscheiden sich in einigen Punkten voneinander, u.a. auch in der Art wie Schreib/Lese- Fehler korrigiert werden.

RAID Systeme, wie sie in Servern verwendet werden speichern Daten redundant, deswegen werden bei einem festgestellten Plattenfehler die Daten anderweitig rekonstruiert und der Fehler zu einem beliebigen späteren Zeitpunkt behoben. Die EnterpriseHDDs haben deswegen nur rudimentäre eigene Fehlerkorrekturen implementiert (der RAID Controller kümmert sich darum). Wichtig ist hier, die Daten auch in diesem Fall schnell bereit zu stellen.

Normale PCs verfügen nicht über RAID Systeme, wenn hier ein Fehler der ConsumerHDD vorliegt muss diese selbst für Korrektur sorgen. Wichtig ist hier die Daten zu erhalten, egal wie lange es dauert (Fehlerkorrekturen können hier Minuten dauern!).

Konfliktpotential ergibt sich bei Verwendung von ConsumerHDDs zusammen mit RAID Controllern, die einen Reparaturversuch als Totalversagen der Festplatte interpretieren, wenn eine gewisse Timeout Zeit überschritten wird (i.d.R. 7-15s). Die entsprechende Festplatte wird als defekt markiert und aus dem RAID Verbund entfernt (was mindestens zu größeren Unannehmlichkeiten führt, im schlimmsten Fall zum Datenverlust).

Der Sinn von TLER (und den o.a. Technologien der Mitbewerber) ist nun, bei Festplatten die internen Korrekturversuche nach einer bestimmten Zeit abzubrechen, damit die Festplatte nicht aus dem RAID Verbund ausgegliedert wird.


Und hier das Ganze nochmals in etwas ausführlicherer Form:
Ein wesentlicher Unterschied zwischen ConsumerHDDs und EnterpriseHDDs liegt darin, dass EnterpriseHDDs praktisch ausschließlich an RAID Controllern im RAID Verbund benutzt werden (RAID 1,5,10... und auch RAID 0, obwohl es streng genommen kein RAID ist).

RAID Controller besitzen Strategien, wie mit Schreib/Lese- Fehlern umgegangen wird. Sie übernehmen i.d.R. die Korrektur auftretender Fehler. Sie sind daher wenig "geduldig", wenn eine Festplatte in einer bestimmten Zeit nicht antwortet. Die Zeit, ab welcher ein RAID Controller eine Festplatte bei nicht eintreffender Antwort als defekt einstuft liegt zwischen 7 und 15 Sekunden.

EnterpriseHDDs brechen eigene Korrekturversuche deswegen auch nach kürzerer Zeit ab (der RAID Controller wird den Defekt später reparieren). Die gewünschten Daten sind im RAID Verbund (ausser RAID 0) redundant vorhanden und werden vom Controller anderweitig besorgt. Der aufgetretene Fehler der entsprechenden Festplatte wird protokolliert und zu gegebener Zeit (unter geringeren Lastzuständen) vom Controller repariert.

Zu einem unschönen Effekt kann es kommen, wenn ConsumerHDDs im RAID Verbund gruppiert werden, was ja angesichts der sinkenden Preise immer häufiger vorkommt. Diese Festplatten versuchen nach wie vor, auftretende Schreib/Lese- Fehler selbst zu korrigieren. Da im typischen Anwendungsgebiet der ConsumerHDDs nicht von einer Datenredundanz ausgegangen werden kann, sind die Strategien dieser ConsumerHDDs gründlicher und ausführlicher (zeitraubender), eben um das Risiko verlorener Daten zu vermindern.

Dabei kann aber auch viel mehr Zeit verbraucht werden als die oben genannten 7 Sekunden.

Die Konsequenz daraus ist, dass ein RAID Controller, der mit ConsumerHDDs zusammen betrieben wird, den intern bei einer ConsumerHDD gestarteten Korrekturversuch bei einem Schreib/Lese- Fehler als Ausfall dieser Festplatte interpretiert (wenn sie länger als 7 Sekunden nicht reagiert) und die betreffende Festplatte aus dem RAID Verbund ausgliedert.

Die Folge ist im schlimmsten Fall ein vollkommen zerstörtes RAID oder eben die Notwendigkeit, die vermeintlich defekte Festplatte wieder in das RAID zu integrieren (was je nach Festplattengröße viele Stunden dauern kann). Wird während dieser Zeit weiterhin mit dem RAID Verbund nebenbei gearbeitet, so steigt die Wahrscheinlichkeit, dass genau in dieser Integrationsphase ein weiterer Fehler stattfindet stark an (ein RAID 5 verkraftet z.B. nur den Ausfall einer Festplatte, danach sind die Daten verloren).

Man kann diesem Problem natürlich aus dem Weg gehen, indem man nur die entsprechenden EnterpriseHDDs bzw. RAID-Editions der Festplattenhersteller kauft. Allerdings sind sich wohl die wenigsten Anwender dieses Problems überhaupt bewusst. Zudem werden EnterpriseHDDs bzw. die RAID-Editions der ConsumerHDDs zu höheren Preisen verkauft. Die EnterpriseHDDs unterscheiden sich zwar noch in weiteren Kriterien von den ConsumerHDDs, aber zum stabilen Betrieb in einem RAID 1 oder 5 ist das Unterbinden der ausführlichen Fehlerkorrekturen wohl die beste Maßnahme und das ist der Sinn der TLER Technologie (und der ähnlichen Technologien der Mitbewerber).


Abhilfe ist bei einigen Western Digital ConsumerHDDs möglich:

nach meiner Recherche sind diese Typen mit der TLER Technik ausgestattet, diese ist jedoch deaktiviert, da die Platten als Consumer HDDs ausgelegt sind:


WD3200KS
WD5000KS
WD10EACS
WD6400AAKS
WD7500AACS
WD1001FALS
WD5000AAKS


Um die TLER Funktion für RAID Konfigurationen bei Western Digital HDDs zu aktivieren braucht man das DOS tool

WDTLER.EXE (http://rapidshare.com/files/2821776/WDTLER.zip.html)

(alternativer Download) (http://mupfc.marshall.edu/~providenti/WDTLER.zip)


Allgemeine Hinweise:

Wenn kein RAID Verbund vorhanden ist, macht es keinen Sinn TLER zu aktivieren
EnterpriseHDDs lassen sich i.d.R. mit dem WDTLER tool nicht zu ConsumerHDDs (mit ausführlicherer Fehlerkorrektur) umschalten. Sie eignen sich also nur bedingt für den normalen non-RAID Einsatz
Die Nutzung des Tools findet natürlich auf eigene Gefahr statt. Es schaltet allerdings die Funktion TLER lediglich ein oder aus bzw. schreibt die Wartezeiten neu und manipuliert keine Daten
WDTLER funktioniert nur mit Festplatten des Herstellers Western Digital
Nicht alle Western Digital HDDs besitzen die TLER Funktionalität



Benutzung:


WDLTER auf eine Diskette aufspielen und den PC mit einer DOS Startdiskette starten.
Nachdem DOS läuft, die Diskette mit WDTLER einlegen und folgendes Kommando eingeben: A:\>wdtler.exe
Damit wird der derzeitige Status geprüft. Die Ausgabe im DOS Fenster sollte ähnlich wie diese aussehen:


WDTLER Version 1.03
Copyright (C) 2004-2006 Western Digital Corporation
Western Digital Time Limit Error Recovery Utility

Model: WDC WD5000KS-00MNB0 Serial Number: WD-WMANU1234567
Read TLER is disabled.
Write TLER is disabled.

Model: WDC WD5000KS-00MNB0 Serial Number: WD-WMANU1234567
Read TLER is disabled.
Write TLER is disabled.



Das Tool zeigt an, dass TLER Funktionalität in allen Drives "disabled" ist.
Um WDLTER auszuführen ist die exe mit folgenden Parametern aufzurufen (r = read, w = write): A:\>wdtler.exe -r7 -w7

Die Ausgabe dazu sollte dann ähnlich der folgenden aussehen:

WDTLER Version 1.03
Copyright (C) 2004-2006 Western Digital Corporation
Western Digital Time Limit Error Recovery Utility

Model: WDC WD5000KS-00MNB0 Serial Number: WD-WMANU1234567
Read TLER time is 7.000 seconds.
Write TLER time is 7.000 seconds.

Model: WDC WD5000KS-00MNB0 Serial Number: WD-WMANU1234567
Read TLER time is 7.000 seconds.
Write TLER time is 7.000 seconds.
Ergebnis:

Die TLER Funktion ist jetzt aktiv gesetzt und wird Korrekturversuche der Festplatten nach 7s unterbrechen. Die Gefahr, dass eine Festplatte nun fälschlicherweise aus dem RAID geworfen wird, ist damit deutlich minimiert, das RAID System ist ein Stück verläßlicher geworden.

Happy Raiding!

Euer rpm8200 :biggrin:

PS: Morgen hätte ich bei Interesse ggf. noch einen zweiten thread eröffnet, der sich dem Thema
"Western Digital Green Power HDDs -> Erhöhung der Lebensdauer"
widmen soll. Auch da hab ich paar interessante Dinge erfahren können.

kevsti
2008-12-21, 08:08:22
Warum wird nicht die Hauptursache gelöst und den Controller gesagt "Schmeiß die HDD nicht nach 5-7s raus!!! du böser du!!! :)"?

Imho sieht dieses TLER ja eher wie ein Rückschritt aus der unternommen wird, damit es nicht zu Fehlern kommt die eigentlich NICHT direkt was damit zu tun haben... Erinnert mich nen bissl an den TLB Bug von AMD und die ganzen Patches (schalten wir es einfach aus...) *g*

Trotzdem super Guide von dir

Gast
2008-12-21, 19:57:33
Warum wird nicht die Hauptursache gelöst und den Controller gesagt "Schmeiß die HDD nicht nach 5-7s raus!!! du böser du!!! :)"?


Weil dann die Performance völlig im Arsch ist, willst du minutenlang auf die Festplatte warten, bis sie den fehler korrigiert hat?

rpm8200
2008-12-27, 15:57:55
Hallo nochmal,
nein, es ist kein Rückschritt. Es kommt aus der Entwicklung der RAID Systeme heraus und aus der Entwicklung der Consumer Festplatten.

Festplatten für den "Hausgebrauch" brauchen Fehlerbehebungsroutinen. Oberste Priorität hat der Erhalt der Daten, praktisch "egal" wie lange das dauert (deswegen dauern diese hier länger). RAID Systeme waren ursprünglich eben eher für Business-Use gedacht (wo Daten auch schnell herbei geschafft werden müssen, daher wird für Fehlerkorrektur hier weniger Zeit verplempert), nicht für zuhause. Und eben auch für den Betrieb mit dafür vorgesehenen Festplatten. Jetzt hat aber fast jedes Mobo einen RAID Controller mit an Bord und wird eben auch häufig zusammen mit normalen Festplatten benutzt, was sich eben dann manchmal nicht gut verträgt, eben weil Fehler unterschiedlich korrigiert werden. Habs eigentlich oben schon ausführlich geschrieben.

Du kannst inzwischen auch sog. RAID Editions bestimmter SATA Platten kaufen, da tritt das Problem im RAID Verbund auch gar nicht auf. Aber diese Festplatten kosten dann i.d.R. auch einen deutlichen Aufpreis.

Eine WD10EACS bekommst aktuell (Dezember 2008) für 80 Euros. Die Platte kann man mittels TLER problemlos RAIDverträglich machen. Wenn Du ein RAID5 aufbauen willst, dann brachst mindestens 3 Platten, viele günstige NAS erlauben 4 Platten. Da machts nen Unterschied, ob 4x 80 Euro oder 4x 130 Euro.

Ein RAID Controller kann wie der Gast vor mir schon bemerkte nicht warten, bis die Festplatte den Fehler selbst repariert hat, weil die Daten auch bereit gestellt werden sollen (irgendwann).

Deswegen macht es Sinn, die Festplatten entsprechend dem RAID Controller zu kaufen (RAID Editions) oder eben anzupassen (bei WD mit TLER) und eben nicht anders herum dem RAID Controller beizubringen, dass er noch länger warten soll.

drdope
2008-12-27, 16:03:03
Hast du es selbst verifiziert das man das TLER bei den WD10EACS aktivieren kann, oder irgend ne Quelle dafür?
Der WD-Support hatte nämlich gegenteiliges behauptet:
--> http://www.meisterkuehler.de/forum/pc-systeme/10999-drdopes-gentoo-amd64-fileserver-reloaded-stage-1-5-a-6.html#post347294

rpm8200
2009-01-06, 21:14:49
Sorry für meine sehr späte Antwort.

Ich habe das noch nicht selbst verifiziert, da ich die Platten noch nicht habe und ich zudem auch die WD10EADS kaufen werde (3-Platter, 32MB Cache).

Ich habe in amerikanischen Foren gestöbert, in denen die im Eingangspost aufgeführten Platten als kompatibel eingestuft wurden (eigene Erfahrungsberichte). Dass der Support gegenteiliges behauptet wundert mich nicht wirklich und wurde auch in den entsprechenden Foren so beschrieben (dass der Support da gegenteilige Auskünfte gibt). WD ist natürlich daran interessiert, die teureren RE2 und RE3 Platten zu verkaufen.

Für HomeUse denke ich reichen die GreenPower LOCKER aus. Kann man sich ggf. überlegen, wenn das NAS wirklich 24/7 laufen soll (eine RE zu kaufen). Die meisten NAS schicken aber die Platten sowieso schlafen, wenn sie nicht benutzt werden, insofern werden sich zuhause auch nicht die Laufzeiten ergeben und es macht da (IMO) kaum Sinn, den Aufpreis von derzeit etwa 50 Euro pro Platte zu zahlen.

Kann man ja damit rechnen, dass man in 2 oda 3 Jahren neue /größere Platten tauscht. Naja denk ich so.

Das einzige, was man bei den WD10EACS/ WD10EADS noch machen sollte ist die Parkzeit neu einstellen (auch das habe ich aus anderen Foren so raus gelesen). Die machen beim Parken zum einen ziemlich laute Geräusche und zum anderen parken die ständig (alle 10s denk ich per default) was IMO sicher auch nicht gut für die Mechanik ist. Den Wert kann man auch auf 255s stellen, oder ganz aus (0). 255 sollte wohl schon gut sein (gibt da auch welche, die das ausschalten). Nachdem aber nach meinem Post nicht so die Resonanz war dacht ich mir, dass das sowieso keinen interessiert, deswegen hab ich das nicht weiter vertieft.

rpm8200
2009-01-09, 17:47:04
Nur für die, die es interessiert: Ich habe mir nun doch 4 Stück WD10EACS besorgt, da diese explizit auf der Kompatibilitätsliste meines NAS Herstellers stehen (nicht aber die WD10EADS).

Habe gerade eben bei allen 4 HDDs WDTLER benutzt, aktiviert und auf 7s eingestellt. Ebenso habe ich den IDLE3 Timer, der die Zeit bis zum Parken des Lesekopfes festlegt, auf 25,5s gestellt (default war 8s). Das habe ich mit WDIDLE3 gemacht.

Alles wie gesagt problemlos unter DOS gelaufen. Werde die Teile dann bald einsetzen (hoffe NAS kommt morgen) und nochmals kurz berichten.

drdope
2009-01-09, 18:29:23
Thx!
Das klingt hinsichtlich der hoffentlich bald mmenden 2TB GPs sehr interessant.
:)

rpm8200
2009-01-11, 17:23:37
Bei Dir auch die WD10EACS oder die neueren WD10EADS? Die letzteren hätten mir wg. den 32MB Cache besser gefallen, standen aber nicht auf der Liste (wenn ich auch glaube, dass die sehr sehr sicher genauso problemlos gelaufen wären). NAS ist auch schon da, bin aber grad nicht daheim zum Testen. Werd mich nochmal melden dann.

Zidane
2009-01-13, 02:16:26
Mit dem WDTLR Tool kann man auch für die WD-Raptor und WD-VR TLER aktivieren, bei einer WD RE3 konnte ich es deaktivieren, das zur Info.

rpm8200
2009-01-17, 13:35:22
Das stimmt. Bei einer RE Version kann man TLER deaktivieren, soweit ich weiss klappt das bei jeder RE von WD mittels WDTLER.

Anders rum funktioniert es eben nicht immer (siehe erster Beitrag). Liegt wohl daran, ob TLER Teil der Firmware ist oder nicht (meine Vermutung)?

Bei den WD10EACS funtkionierts auf alle Fälle (selbst gemacht) und wohl auch bei den WD10EADS (Forenbeiträge in US Foren dazu existieren).

anker
2009-01-26, 09:11:09
Kannst du mir mal die Links zu den US-Foren geben zwecks den EADS und Tler?

sklave_gottes
2009-01-26, 15:01:05
Hallo rpm8200 und die anderen mitleser/schreiber

als erstes erstmal vielen dank für den sehr informativen beitrag.

Ich habe in meinem "backup" rechner zwei WD6400AACS eingebaut. Also die 640GB WD Caviar Green.

Habe dann mit der diskette erstmal ausgelesen, das ist dabei rausgekommen:

WDTLER Version 1.03
Copyright (C) 2004-2006 Western Digital Corporation
Western Digital Time Limit Error Recovery Utility

Model: WDC WD6400AACS-00G8B1 Serial Number: WD-WCAUF1234567
Read TLER is disabled.
Write TLER is disabled.

Model: WDC WD6400AACS-00G8B1 Serial Number: WD-WCAUF1234567
Read TLER is disabled.
Write TLER is disabled.

Invalid COMMAND.COM

Meine ertse frag wieso steht da immer "Invalid COMMAND.COM" am ende ?

Danach habe ich den befehl A:\>wdtler.exe -r7 -w7 eingegeben und es kam das :

Model: WDC WD6400AACS-00G8B1 Serial Number: WD-WCAUF1234567
Read TLER time is 7.000 seconds.
Write TLER time is 7.000 seconds.

Model: WDC WD6400AACS-00G8B1 Serial Number: WD-WCAUF1234567
Read TLER time is 7.000 seconds.
Write TLER time is 7.000 seconds.

Invalid COMMAND.COM

und wieder mit dem "Invalid COMMAND.COM"

Aber ich denke es scheint mit der 640GB green auch zu funktionieren oder ?

Bin mir da nicht 100% sicher, kann man das irgendwie anders überprüfen ?

mfg martin


PS Es wäre für mich auch noch sehr interesant deine informationen über :

PS: Morgen hätte ich bei Interesse ggf. noch einen zweiten thread eröffnet, der sich dem Thema
"Western Digital Green Power HDDs -> Erhöhung der Lebensdauer"
widmen soll. Auch da hab ich paar interessante Dinge erfahren können.

zu erfahren.

drdope
2009-01-26, 16:50:12
--> Invalid COMMAND.COM
Der DOS-Commando-Interpreter fehlt...

Ist wahrscheinlich nicht auf der Bootdiskette, oder?

sklave_gottes
2009-01-26, 17:39:45
--> Invalid COMMAND.COM
Der DOS-Commando-Interpreter fehlt...

Ist wahrscheinlich nicht auf der Bootdiskette, oder?


Hi, Ich glaube du hast recht, der ist nicht auf der Disk gewesen. Ist der nicht normalerweise mit drauf wenn man eine MSDos Startdiskette erstellt ?

mfg martin

drdope
2009-01-26, 18:24:48
k.A. auf meinen DOS 6.22 Disketten ist er drauf...
Zwingend notwendig ist er aber iirc auch nicht, solange man das flashprog aus der autoexec.bat aufruft, es funktionieren dann halt die typischen Dosbefehle wie dir/cd etc. nicht iirc (schon länger her).

anker
2009-01-29, 17:03:06
Hat hier jetzt keiner einen Link zu den US-Foren für mich?

Ich werde irgendwie nicht fündig über google...

drdope
2009-08-10, 17:58:45
Hat zufällig schon mal jemand versucht TLER bei den "neuen" GPs
WD15EADS (http://geizhals.at/deutschland/a408676.html)
WD20EADS (http://geizhals.at/deutschland/a390770.html)
zu aktivieren?

Gast
2009-09-02, 13:48:47
Hat zufällig schon mal jemand versucht TLER bei den "neuen" GPs
WD15EADS (http://geizhals.at/deutschland/a408676.html)
WD20EADS (http://geizhals.at/deutschland/a390770.html)
zu aktivieren?

Klappt! Nur neuere Intel-Controller führen dazu, dass die Platten nicht erkannt werden... (45-Chipsätze beispielsweise)

Gast
2010-02-10, 18:41:11
Hallo,

das ist ja sehr interessant, hier zu lesen, was es alles gibt, da ich auch schon solche Probleme hatte. Super.

Kann mir einer sagen, ob ich mit der WDTLER.EXE auch eine WD-HDD extern in einem USB-Gehäuse den TLER umstellen kann? Es wäre für mich sehr schwierig, meinen Rechner rauszuziehen, um die Platten dort einzubauen.

Falls es Probleme nach der Umstellung auf 7s gibt, kann man die Modifikation rückgängig machen? Wenn ja, wie?

Würde mich über Antworten sehr freuen.

RavenTS
2010-02-13, 17:09:15
Hallo,

das ist ja sehr interessant, hier zu lesen, was es alles gibt, da ich auch schon solche Probleme hatte. Super.

Kann mir einer sagen, ob ich mit der WDTLER.EXE auch eine WD-HDD extern in einem USB-Gehäuse den TLER umstellen kann? Es wäre für mich sehr schwierig, meinen Rechner rauszuziehen, um die Platten dort einzubauen.

Falls es Probleme nach der Umstellung auf 7s gibt, kann man die Modifikation rückgängig machen? Wenn ja, wie?

Würde mich über Antworten sehr freuen.

Das hängt wohl vom verwendeten Gehäuse bzw. dem genauen Controller dort ab...