title | excerpt | updated |
---|---|---|
Sostituire un disco a caldo su un server con RAID Software |
Come sostituire un disco senza interruzione di servizio sul tuo server con RAID Software |
2023-08-21 |
Alcuni server Top Gamma OVH consentono la sostituzione del disco senza interruzione di servizio. Nel caso in cui uno dei dischi del server risulti danneggiato o non funzioni correttamente è possibile sostituirlo a caldo, se il modello attivato è compatibile.
Questa guida ti mostra come sostituire a caldo un disco su una macchina con RAID software.
- Disporre di un server mHG, HG o BHG{.external}
- Disporre di un RAID Software (con scheda LSI)
- Avere accesso al server via SSH (Linux) o RDP (Windows)
- Aver installato l’utility sas2ircu (distribuita da Broadcom{.external})
Le operazioni descritte in questa guida partono dal presupposto che l’utente abbia ricevuto un messaggio di alert per il disco /dev/sdb
che, a causa di un malfunzionamento, richiede la sostituzione a caldo. Ricordati di sostituire i valori generici indicati nella procedura con le informazioni corrispondenti.
Per prima cosa, verifica il Serial Number del disco in questione.
root@ns3054662:/home# smartctl -a /dev/sdb
>>> smartctl 6.4 2014-10-07 r4002 [x86_64-linux-3.14.32-xxxx-grs-ipv6-64] (local build)
>>> Copyright (C) 2002-14, Bruce Allen, Christian Franke, www.smartmontools.org
>>> === START OF INFORMATION SECTION ===
>>> Vendor: HGST
>>> Product: HUS726040ALS210
>>> Revision: A907
>>> Compliance: SPC-4
>>> User Capacity: 4,000,787,030,016 bytes [4.00 GB]
>>> Logical block size: 512 bytes
>>> LB provisioning type: unreported, LBPME=0, LBPRZ=0
>>> Rotation Rate: 7200 rpm
>>> Form Factor: 3.5 inches
>>> Logical Unit id: 0x5000cca25d3155bc
>>> Serial Number: K4GW439B
>>> Device type:
>>> Transport protocol: SAS (SPL-3)
>>> Local Time is: Mon Nov 21 14:23:43 2016 CET
>>> SMART support is: Available - device has SMART capability.
>>> SMART support is: Enabled
>>> Temperature Warning: Enabled
>>> === START OF READ SMART DATA SECTION ===
>>> SMART Health Status: OK
>>> Current Drive Temperature: 34 C
>>> Drive Trip Temperature: 85 C
>>> Manufactured in week 44 of year 2016
>>> Specified cycle count over device lifetime: 50000
>>> Accumulated start-stop cycles: 9
>>> Specified load-unload count over device lifetime: 600000
>>> Accumulated load-unload cycles: 14
>>> Elements in grown defect list: 0
>>> Vendor (Seagate) cache information
>>> Blocks sent to initiator = 2305525022720
>>> Error counter log:
>>> Errors Corrected by Total Correction Gigabytes Total
>>> ECC rereads/ errors algorithm processed uncorrected
>>> fast | delayed rewrites corrected invocations [10^9 bytes] errors
>>> read: 0 572 0 22548 77 4.725 5580
>>> write: 0 0 0 19548 196 17.344 2569
>>> Non-medium error count: 0
>>> SMART Self-test log
>>> Num Test Status segment LifeTime LBA_first_err [SK ASC ASQ]
>>> Description number (hours)
>>> # 1 Background short Completed - 6 - [- - -]
>>> # 2 Background short Completed - 4 - [- - -]
>>> # 3 Background short Completed - 4 - [- - -]
>>> # 4 Background short Completed - 4 - [- - -]
>>> # 5 Background short Completed - 1 - [- - -]
>>> Long (extended) Self Test duration: 34237 seconds [570.6 minutes]
La risposta restituita al comando eseguito mostra che:
- il disco SDB è fuori servizio a causa di errori non corretti (uncorrected errors)
- Il Serial Number coincide con quello dell’alert ricevuto (inviato dal datacenter o altri strumenti di monitoraggio)
Per ottenere soltanto il Serial Number esegui questo comando:
root@ns3054662:/home# smartctl -a /dev/sdb | grep Serial
>>> Serial Number: K4GW439B
A questo punto è necessario identificare lo Slot ID e l’Enclosure ID del disco. Per recuperare queste informazioni utilizza il tool sas2ircu installato sul server.
Per prima cosa, verifica che i dischi siano connessi tramite una scheda LSI.
root@ns3054662:/home# lspci | grep -i LSI
>>> 81:00.0 Serial Attached SCSI controller: LSI Logic / Symbios Logic SAS2004 PCI-Express Fusion-MPT SAS-2 [Spitfire] (rev 03)
In questo caso, identifica l’ID della scheda.
root@ns3054662:/home# ./sas2ircu list
>>> LSI Corporation SAS2 IR Configuration Utility.
>>> Version 5.00.00.00 (2010.02.09)
>>> Copyright (c) 2009 LSI Corporation. All rights reserved.
>>> Adapter Vendor Device SubSys SubSys
>>> Index Type ID ID Pci Address Ven ID Dev ID
>>> ----- ------------ ------ ------ ----------------- ------ ------
>>> 0 SAS2004 1000h 70h 00h:81h:00h:00h 1000h 3010h
>>> SAS2IRCU: Utility Completed Successfully.
L’index corrisponde all’ID. Nel nostro esempio il valore dell’index (e quindi dell’ID) della scheda è pari a 0.
Con questa informazione è possibile recuperare, tramite il Serial Number, lo Slot ID e l'Enclosure ID del disco.
root@ns3054662:/home# ./sas2ircu 0 display | grep -B 7 -A 2 K4GW439B
>>> Device is a Hard disk
>>> Enclosure : 1
>>> Slot : 3
>>> State : Available (AVL)
>>> Manufacturer : HGST
>>> Model Number : HUS726040ALS210
>>> Firmware Revision : A907
>>> Serial No : K4GW439B
>>> Protocol : SAS
>>> Drive Type : SAS_HDD
Questo comando permette di visualizzare le informazioni del disco, il cui Serial Number è K4GW439B.
Nel nostro esempio, abbiamo recuperato l'Enclosure ID (corrispondente a 1) e lo Slot ID (corrispondente a 3).
Con le informazioni recuperate negli step precedenti, accendi il LED del disco da sostituire utilizzando il comando ./sas2ircu 0 locate EncID:SlotID on
(ricordati di sostituire i valori generici “EncID” e “SlotID” con le informazioni recuperate precedentemente):
root@ns3054662:/home# ./sas2ircu 0 locate 1:3 on
>>> LSI Corporation SAS2 IR Configuration Utility.
>>> Version 5.00.00.00 (2010.02.09)
>>> Copyright (c) 2009 LSI Corporation. All rights reserved.
>>> SAS2IRCU: LOCATE Command completed successfully.
>>> SAS2IRCU: Command LOCATE Completed Successfully.
>>> SAS2IRCU: Utility Completed Successfully.
Per disattivare la spia lampeggiante del disco, esegui il comando precedente sostituendo “on” con “off”.
Se questa modalità non è già attiva, passa il disco difettoso in Faulty e verifica lo stato del RAID.
root@ns3054662:/home# cat /proc/mdstat
>>> Personalities : [linear] [raid0] [raid1] [raid10] [raid6] [raid5] [raid4] [multipath] [faulty]
>>> md2 : active raid1 sda2[0] sdb2[1]
>>> 3885385728 blocks super 1.2 [2/2] [UU]
>>> bitmap: 0/29 pages [0KB], 65536KB chunk
>>> md1 : active raid1 sdb1[1] sda1[0]
>>> 20971456 blocks [2/2] [UU]
>>> unused devices: <none>
Nel nostro esempio, il disco malfunzionante fa parte di “md1” e “md2” (“sbd1” e “sdb2”). A questo punto, attiveremo lo stato Faulty rispettivamente su “sdb1” in “md1” e “sdb2” in “md2”.
root@ns3054662:/home# mdadm --manage /dev/md1 --set-faulty /dev/sdb1
>>> mdadm: set /dev/sdb1 faulty in /dev/md1
root@ns3054662:/home# mdadm --manage /dev/md2 --set-faulty /dev/sdb2
>>> mdadm: set /dev/sdb2 faulty in /dev/md2
Una volta completata l’operazione, verifica nuovamente lo stato del RAID.
root@ns3054662:/home# cat /proc/mdstat
>>> Personalities : [linear] [raid0] [raid1] [raid10] [raid6] [raid5] [raid4] [multipath] [faulty]
>>> md2 : active raid1 sda2[0] sdb2[1](/it/dedicated/hotswap-raid-soft/F)
>>> 3885385728 blocks super 1.2 [2/1] [U_]
>>> bitmap: 0/29 pages [0KB], 65536KB chunk
>>> md1 : active raid1 sdb1[2](/it/dedicated/hotswap-raid-soft/F) sda1[0]
>>> 20971456 blocks [2/1] [U_]
>>> unused devices: <none>
Adesso che “sdb1” e “sdb2” risultano in Faulty (F) è possibile rimuovere il disco dal RAID.
root@ns3054662:/home# mdadm --manage /dev/md1 --remove /dev/sdb1
>>> mdadm: hot removed /dev/sdb1 from /dev/md1
root@ns3054662:/home# mdadm --manage /dev/md2 --remove /dev/sdb2
>>> mdadm: hot removed /dev/sdb2 from /dev/md2
Per verificare la corretta rimozione del disco, esegui questo comando:
root@ns3054662:/home# cat /proc/mdstat
>>> Personalities : [linear] [raid0] [raid1] [raid10] [raid6] [raid5] [raid4] [multipath] [faulty]
>>> md2 : active raid1 sda2[0]
>>> 3885385728 blocks super 1.2 [2/1] [U_]
>>> bitmap: 0/29 pages [0KB], 65536KB chunk
>>> md1 : active raid1 sda1[0]
>>> 20971456 blocks [2/1] [U_]
>>> unused devices: <none>
A questo punto il disco malfunzionante è pronto per essere sostituito da un tecnico nel datacenter e, a intervento ultimato, non resta che risincronizzare il RAID. Per effettuare questa operazione, consulta la guida Configurare un RAID software{.external}.
Le operazioni descritte in questa guida partono dal presupposto che l’utente abbia ricevuto un messaggio di alert per il disco /dev/sdb
che, a causa di un malfunzionamento, richiede la sostituzione a caldo. Ricordati di sostituire i valori generici indicati nella procedura con le informazioni corrispondenti.
[!primary]
Per evitare errori è importante avviare il terminale come amministratore.
Per prima cosa, verifica il Serial Number del disco in questione. Nella schermata mostrata qui sotto, lo storage non è realmente danneggiato, ma faremo finta che lo sia.
La risposta restituita al comando eseguito mostra che:
- il disco SDB è fuori servizio a causa di errori non corretti (uncorrected errors)
- Il Serial Number coincide con quello dell’alert ricevuto (inviato dal datacenter o altri strumenti di monitoraggio)
A questo punto è necessario identificare lo Slot ID e l’Enclosure ID del disco. Per recuperare queste informazioni utilizza il tool sas2ircu installato sul server.
Per prima cosa, identifica l’ID della scheda LSI.
Nel nostro esempio il valore dell’index (e quindi dell’ID) della scheda LSI è pari a 0.
Con questa informazione è possibile recuperare, tramite il Serial Number, lo Slot ID e l'Enclosure ID del disco.
Questo comando permette di visualizzare le informazioni del disco, il cui Serial Number è K4GW439B.
Nel nostro esempio, abbiamo recuperato l'Enclosure ID (corrispondente a 1) e lo Slot ID (corrispondente a 1).
Con le informazioni recuperate negli step precedenti, accendi il LED del disco da sostituire utilizzando il comando ./sas2ircu 0 locate EncID:SlotID on
(ricordati di sostituire i valori generici “EncID” e “SlotID” con le informazioni recuperate precedentemente):
Per disattivare la spia lampeggiante del disco, esegui il comando precedente sostituendo “on” con “off”.
Questa operazione può essere effettuata dall’interfaccia Gestione disco del server Windows.
A questo punto il disco malfunzionante è pronto per essere sostituito da un tecnico nel datacenter e, a intervento ultimato, non resta che risincronizzare il RAID. Per effettuare questa operazione, consulta la guida Configurare un RAID software{.external}.
Come configurare il software RAID di un server{.external}
Hot Swap - RAID Hardware{.external}
Gestire il RAID Hardware{.external} (in inglese)
Contatta la nostra Community di utenti all’indirizzo https://community.ovh.com/en/.