Linux

RAID Status : Unconfigured Bad – How to Fix

Ada banyak faktor mengapa RAID disk bisa berubah statusnya dari yang tadinya Configured – good menjadi Unconfigured – bad. Salah satunya yang biasanya ditemui seperti :

  • Server mendadak reboot, kemudian state Disk jadi hancur
  • Disk server tiba2 ke senggol atau terbuka
  • Disk memang failure (faktor pabrikan)

Jika Disk memiliki Media Error cukup banyak (lebih dari 50 (warning) atau lebih dari 100 (mayan darurat) ) bisa dipastikan sudah harus dipersiapkan untuk di replace.

Ubah State ke Good

Langkah pertama adalah merubah state Drive dari Bad ke Good terlebih dahulu. Secara default syntax sebagai berikut :

/opt/MegaRAID/MegaCli/MegaCli64 -PDMakeGood -PhysDrv [E:S] -aALL

Dimana :

  • E adalah Enclosure
  • S adalah slot disk ID

Misalnya :

/opt/MegaRAID/MegaCli/MegaCli64 -PDMakeGood -PhysDrv [252:1] -aALL

Locate Enclosure dan Disk ID

Cara untuk locate Enclosure dan Disk bisa menggunakan command ini :

/opt/MegaRAID/MegaCli/MegaCli64 -PDList -a0| less

Dimana yang perlu di highlight adalah baris berikut :

  • Enclosure Device ID: xxx
  • Slot Number: x
  • Slot number disini maksdnya adalah slot number disk yang statusnya Unconfigured – bad

Sebagai Contoh hasil output pada disk yang Unconfigured Bad seperti ini :

Enclosure Device ID: 252
Slot Number: 1
Drive's position: DiskGroup: 0, Span: 0, Arm: 1
Enclosure position: N/A
Device Id: 8
WWN: 5000c500672ee0e8
Sequence Number: 5
Media Error Count: 0
Other Error Count: 0
Predictive Failure Count: 0
Last Predictive Failure Event Seq Number: 0
PD Type: SATA

Raw Size: 1.819 TB [0xe8e088b0 Sectors]
Non Coerced Size: 1.818 TB [0xe8d088b0 Sectors]
Coerced Size: 1.818 TB [0xe8d00000 Sectors]
Sector Size: 512
Logical Sector Size: 512
Physical Sector Size: 512
Firmware state: Unconfigured - bad
Commissioned Spare : Yes
Emergency Spare : No
Device Firmware Level: SN04
Shield Counter: 0
Successful diagnostics completion on : N/A
SAS Address(0): 0x4433221101000000
Connected Port Number: 1(path0)
Inquiry Data: Z1X2JHGWST2000NM0033-9ZM175 SN04
FDE Capable: Not Capable
FDE Enable: Disable
Secured: Unsecured
Locked: Unlocked
Needs EKM Attention: No
Foreign State: None
Device Speed: 6.0Gb/s
Link Speed: 6.0Gb/s
Media Type: Hard Disk Device
Drive: Not Certified
Drive Temperature :36C (96.80 F)
PI Eligibility: No
Drive is formatted for PI information: No
PI: No PI
Drive's NCQ setting : Enabled
Port-0 :
Port status: Active
Port's Linkspeed: 6.0Gb/s
Drive has flagged a S.M.A.R.T alert : No

Jadi dari output di atas Enclosure ID adalah 252 dan Slot disk 1

Assign Sebagai Hot Spare

Sekarang kita set disk yang Unconfigured tadi di set sebagai hot spare.

/opt/MegaRAID/MegaCli/MegaCli64 -PDHSP -Set -PhysDrv [252:1] -a0

Jika berhasil maka akan muncul pesan :

Set Physical Drive at EnclId-xxx SlotId-x as Hot Spare Success.

Dimana xxx ada digit number dari Enclosure dan x adalah Slot ID.

Gagal Hot Spare

Jika gagal hot spare atau muncul pesan Hot Spared Failed, maka harus di cek apakah ada Foreign key yang nemplok.

/opt/MegaRAID/MegaCli/MegaCli64 -PDInfo -PhysDrv [252:1] -aALL | grep -i foreign
Foreign State: Foreign
Foreign Secure: Drive is not secured by a foreign lock key

Oh ternyata ada foreign key yang nemplok, berarti kita harus clear dulu. Caranya :

/opt/MegaRAID/MegaCli/MegaCli64 -CfgForeign -Clear -a0

Kemudian kita ulangi lagi langkah assign sebagai Hot Spare seperti sebelumnya. Jangan salah command.

Cek Firmware State

Langkah terakhir adalah cek Firmware state setelah kita lakukan workaround sebelumnya. Jika terlihat rebuild statusnya, berarti sudah berhasil.

/opt/MegaRAID/MegaCli/MegaCli64 -PDList -a0|grep "Firmware state"
Firmware state: Online, Spun Up
Firmware state: Rebuild

Sekarang hanya menunggu proses rebuild raid tersebut selesai. Karena rate default adalah 30% bisa memakan waktu kurang lebih 2 jam ~ 6 jam. Tergantung penggunaan disk server tersebut. Jika disk tersebut lowong, biasanya cepat, kurang dari 3 jam.

Monitor Progress Rebuild

Gunakan command ini untuk monitor progress rebuild disk state.

/opt/MegaRAID/MegaCli/MegaCli64 -ProgDsply -physdrv [252:1] -aALL

Live update progress. Untuk keluar menu tersebut pencet Esc

 

Referensi : https://community.cisco.com/t5/security-documents/megacli-common-commands-and-procedures/ta-p/3114544

Leave a Reply

Your email address will not be published. Required fields are marked *