TrueNAS SCALE のハードディスク交換手順をアップしました。
FreeNAS のハードディスク交換手順 11.3-U4.1版の焼き直しになります。
TrueNAS のテストをしているマシンで、ディスクに回復不能セクタが出始めました。
ちょうどいいディスクがないので、しばらく放置している間に、回復不能セクタ数が増えています。
画像では /dev/ada0 のディスクのようです。
Storage > Disks
より、対象のデバイスのシリアルナンバーを確認します。
TrueNAS をシャットダウンして、
シリアルナンバー(S/N)をよく確認して対象のディスクを取り外し、
新しいディスクに交換します。
WD WD5000AAKS
今回はテスト用のFreeNASで、500GBのHDDなので、近所の中古パソコンパーツショップで購入してきました。
WD WD5000AAKX
AAKSの6Gb/s版みたいな感じ。
Seagate 教なのですが、 500GBでは手頃なのがありませんでした。隣は予備として買って来た1TBのHDD。ホントはそんなに要らないんだけど…。
交換して TrueNAS を起動します。
Alerts が増えて、
Pool tank state is DEGRADED:
ということです。
Storage > Pools
右上の歯車より Status
デバイス名が何か長い文字列になっていて、
UNAVAIL
となっている行の右端の縦三点から Replace
Member disk
のプルダウンを開くと、使用できるディスクがあれば、それを選ぶことができるようになっているはずです。
今回は ada0
□ Force は他のシステム等で利用していたディスクを強制的に使う場合にチェック。
(危ないので、 Force オプションより、Clean なドライブにしておくのがいいとは思いますが)
今回は、 Windows 10 の Diskpart で clean 済みのディスクなのでそのまま
REPLACE DISK
短時間の進行状況表示のあと、
Replacing Disk
Successfully replaced disk ~
と表示される。
交換成功の表示。
CLOSE
Pool Status
に
RESILVER
と表示されているのが再構築の進行状況。
Status: SCANNING 状態
Completed: 38.43% 完了済%
Time Remaining: 56 seconds 残り時間
Errors: 0 エラー
Date: 2020-11-21 12:40:36 時刻
といったところ。
テスト用でほとんど空っぽなので、1分程度で終わりそうです。
それなりにデータがある場合は、当然それなりに時間がかかります。
Status: FINISHED
で完了です。
Resilver (再構築)中は、全ディスクがフルにアクセスされますので、コレが完了するまでの間にまたどれかのドライブがダウンする恐れもあります。特に同時に購入したハードディスクなどの場合、立て続けに障害が発生することがあります。この待ち時間をハラハラしながら祈るよりは、当初構築する際に、 RaidZ ではなく RaidZ2 を構成したりできるといいですね。
進捗は、ときおり、
Storage > Pool (対象の Volume の)右側の歯車 > Status
を見に来るか、
右上のベルのマークの Alert で確認できるかと思います。
なお、障害が発生していない状態でも、この要領で Pool を構成する全てのハードディスクを順次容量の大きいものに交換していくと、最後のハードディスクを交換したとたんに容量を拡大することができます。
ただし、1台追加して RaidZ → RaidZ2 などの変更や、2台の Mirror → 3台の RaidZ とか、 4台の RaidZ → 5台の RaidZ 、または、4台のRaidZ2 → 1台取り除いて3台でRaidZ1といったことができないのは惜しいところです。
そのため、
Mirrorを複数作成して、それらをStripeする、という方法が堅牢性を多少犠牲にして、容量の拡大ができる構成、ということでアリなのではないか、という話になります。
(FreeNASのVolumeの容量の拡大手順も参照してください)
とまあここまででもいいのですが、今回は中古ドライブですし、
FreeNASハードウェアガイドの「ストレージ・デバイス・バーンイン」を試してみようかと思います。
(といっても、 smartctl でロングテストを実行してみるだけですけど)
Shell
に移動して、黒いウインドウ内の「#」のところに
smartctl -t long /dev/ada0
(ada0 は今回交換したデバイス、上記参照)
Please wait 86 minutes for test to complete.
Test will complete after Sat Now 21 14:09:23 2020 JST
ということで、1時間ちょっとと、完了見込み時刻の表示が出ています。
終わったころに再び
Shell
で
smartctl -a /dev/ada0
いっぱい情報が流れますので、細かいところは smartctl について調べてみてください。
5 Reallocated_Sector_Ct
0
セクタの再割当数0
9 Power_On_Hours
9857
ということで稼働時間 9,857時間
12 Power_Cycle_Count
4438
電源投入回数 4,438回
(割り算すると、1回の電源投入あたり2時間ほどしか使用していないディスクのようです。外付けだったのかな?)
197 Current_Pending_Sector
0
セクターの再割り当て保留中の数0
(※交換した元のドライブはここが24)
199 UDMA_CRC_Error_Count
0
UDMA CRC エラー数0
赤線のところ
# 1 Extended offline Completed without error 00% 9856
が今回実行したロングテストを無事完走した記録です。
とりあえず問題なさそうです。
このあと、48時間とか動作させ続けたりしてもいいのでしょうが、そこは割愛。
DEGRADED の Alerts は自動的に消えましたが、
代替不能セクタの表示は残っているので、
対処完了したので
Dismiss
Alerts 表示も消えて正常に戻ったダッシュボード。