RAID Status : Unconfigured Bad – How to Fix
Ada banyak faktor mengapa RAID disk bisa berubah statusnya dari yang tadinya Configured – good menjadi Unconfigured – bad. Salah satunya yang biasanya ditemui seperti :
- Server mendadak reboot, kemudian state Disk jadi hancur
- Disk server tiba2 ke senggol atau terbuka
- Disk memang failure (faktor pabrikan)
Jika Disk memiliki Media Error cukup banyak (lebih dari 50 (warning) atau lebih dari 100 (mayan darurat) ) bisa dipastikan sudah harus dipersiapkan untuk di replace.
Table of Contents
Ubah State ke Good
Langkah pertama adalah merubah state Drive dari Bad ke Good terlebih dahulu. Secara default syntax sebagai berikut :
/opt/MegaRAID/MegaCli/MegaCli64 -PDMakeGood -PhysDrv [E:S] -aALL
Dimana :
- E adalah Enclosure
- S adalah slot disk ID
Misalnya :
/opt/MegaRAID/MegaCli/MegaCli64 -PDMakeGood -PhysDrv [252:1] -aALL
Locate Enclosure dan Disk ID
Cara untuk locate Enclosure dan Disk bisa menggunakan command ini :
/opt/MegaRAID/MegaCli/MegaCli64 -PDList -a0| less
Dimana yang perlu di highlight adalah baris berikut :
- Enclosure Device ID: xxx
- Slot Number: x
- Slot number disini maksdnya adalah slot number disk yang statusnya Unconfigured – bad
Sebagai Contoh hasil output pada disk yang Unconfigured Bad seperti ini :
Enclosure Device ID: 252 Slot Number: 1 Drive's position: DiskGroup: 0, Span: 0, Arm: 1 Enclosure position: N/A Device Id: 8 WWN: 5000c500672ee0e8 Sequence Number: 5 Media Error Count: 0 Other Error Count: 0 Predictive Failure Count: 0 Last Predictive Failure Event Seq Number: 0 PD Type: SATA Raw Size: 1.819 TB [0xe8e088b0 Sectors] Non Coerced Size: 1.818 TB [0xe8d088b0 Sectors] Coerced Size: 1.818 TB [0xe8d00000 Sectors] Sector Size: 512 Logical Sector Size: 512 Physical Sector Size: 512 Firmware state: Unconfigured - bad Commissioned Spare : Yes Emergency Spare : No Device Firmware Level: SN04 Shield Counter: 0 Successful diagnostics completion on : N/A SAS Address(0): 0x4433221101000000 Connected Port Number: 1(path0) Inquiry Data: Z1X2JHGWST2000NM0033-9ZM175 SN04 FDE Capable: Not Capable FDE Enable: Disable Secured: Unsecured Locked: Unlocked Needs EKM Attention: No Foreign State: None Device Speed: 6.0Gb/s Link Speed: 6.0Gb/s Media Type: Hard Disk Device Drive: Not Certified Drive Temperature :36C (96.80 F) PI Eligibility: No Drive is formatted for PI information: No PI: No PI Drive's NCQ setting : Enabled Port-0 : Port status: Active Port's Linkspeed: 6.0Gb/s Drive has flagged a S.M.A.R.T alert : No
Jadi dari output di atas Enclosure ID adalah 252 dan Slot disk 1
Assign Sebagai Hot Spare
Sekarang kita set disk yang Unconfigured tadi di set sebagai hot spare.
/opt/MegaRAID/MegaCli/MegaCli64 -PDHSP -Set -PhysDrv [252:1] -a0
Jika berhasil maka akan muncul pesan :
Set Physical Drive at EnclId-xxx SlotId-x as Hot Spare Success.
Dimana xxx ada digit number dari Enclosure dan x adalah Slot ID.
Gagal Hot Spare
Jika gagal hot spare atau muncul pesan Hot Spared Failed, maka harus di cek apakah ada Foreign key yang nemplok.
/opt/MegaRAID/MegaCli/MegaCli64 -PDInfo -PhysDrv [252:1] -aALL | grep -i foreign Foreign State: Foreign Foreign Secure: Drive is not secured by a foreign lock key
Oh ternyata ada foreign key yang nemplok, berarti kita harus clear dulu. Caranya :
/opt/MegaRAID/MegaCli/MegaCli64 -CfgForeign -Clear -a0
Kemudian kita ulangi lagi langkah assign sebagai Hot Spare seperti sebelumnya. Jangan salah command.
Cek Firmware State
Langkah terakhir adalah cek Firmware state setelah kita lakukan workaround sebelumnya. Jika terlihat rebuild statusnya, berarti sudah berhasil.
/opt/MegaRAID/MegaCli/MegaCli64 -PDList -a0|grep "Firmware state" Firmware state: Online, Spun Up Firmware state: Rebuild
Sekarang hanya menunggu proses rebuild raid tersebut selesai. Karena rate default adalah 30% bisa memakan waktu kurang lebih 2 jam ~ 6 jam. Tergantung penggunaan disk server tersebut. Jika disk tersebut lowong, biasanya cepat, kurang dari 3 jam.
Monitor Progress Rebuild
Gunakan command ini untuk monitor progress rebuild disk state.
/opt/MegaRAID/MegaCli/MegaCli64 -ProgDsply -physdrv [252:1] -aALL
Live update progress. Untuk keluar menu tersebut pencet Esc
Referensi : https://community.cisco.com/t5/security-documents/megacli-common-commands-and-procedures/ta-p/3114544

