Lista incidenti hardware

From Atlmiwiki

Devo rettificare il seriale indicato la volta precedente: quello corretto era ST001120 (come indicato in "system information" nel log che avevo allegato), mentre ST001115 si riferisce a quello che ha dato errore oggi.. Devo eseguire la medesima procedura anche sullo storage fallito oggi? Dato il costo dell'operazione (richiede uno shutdown totale del sito) vorrei evitare, per quanto possibile, di procedere a tentoni...

}
Data Periodo down causato Storage Threads
3 febbraio 2013 52 ore
15-18 febbraio 2013
26 febbraio 2013 0 ? ST001050 e ST001312 ST001050 : controller B offline. ST001312 : due dischi rotti. Sostituzione controller offline.
3 marzo 2013 31 ore ST001190 ST001190 : crash di un controller, l'altro non interviene. ST001050 : il controller B riparte anche senza sostituzione
27 marzo 0 ST001120

- David :

Il controller A e' crashato, apparentemente il controller B ha effettuato il take over ma gli host channel sono rimasti "Down" su entrambi i controller fino al riavvio del controller A.

- risposta E4 :

Il suggerimento di DotHill era quello di spegnere lo storage, scollegare tutti i cavi, ricollegarli e riaccendere

8 aprile 2013 60 ore ( inclusi due downtime) ST001115

- David :

Il controller A e' crashato, apparentemente il controller B ha effettuato il take over ma gli host channel sono rimasti "Down" su entrambi i controller fino al riavvio del controller A.

- risposta E4 :

Il suggerimento di DotHill era quello di spegnere lo storage, scollegare tutti i cavi, ricollegarli e riaccendere

1 maggio 2013 10 giorni!!!! ST001313

- David :

il sistema in oggetto, di cui allego il log, ha avuto un problema ad un disco ieri mattina. In seguito al problema, le lun non sono risultate piu' visibili alle macchine collegate, che continuavano ad inviare senza successo comandi scsi allo storage. Dal momento che non avevo ancora portato i timeout che ci avete indicato a 120 secondi, ho pensato ad un timeout delle schede fiberchannel. Ho quindi provato a riavviare i server, ma al reboot si bloccano nel tentativo di comunicare con lo storage. Ho anche provato a spegnerli completamente e riavviare uno degli storage controller (il B), ma non e' ripartito, e il controller A non ha preso possesso delle LUN, col risultato che ora sono visibili (da interfaccia web) solo le LUN che erano gestite dal controller A. Il controller B ora e' down, e successivi tentativi di restart via console (restart sc b) rimangono bloccati. L'interfaccia di management via ssh del controller B e' ancora accessibile, mentre quella via web si blocca su "Loading license set". Come devo procedere per ripristinare il sistema?

- risposta E4 :

Based on the logs we see all VDISK are now ownered by controller A. Please remove Controller B out of the system, reboot the complete array with Controller A alone. + Plug-out power cable from RAID enclosure. + Plug-out power cable from JBOD enclosure from 1 - 7 next to next.

+ Plug-in power cable to JBOD enclosure from 7 - 1 one after the other with 2 minutes interval. + After 2 minutes, Plug-in power cable to RAID enclosure with controller A alone in the system and update us with new logs for verification.

- David :

ho eseguito la procedura, ora davveri tutti i VDISK sono visibili sul controller A, e nuovamente accessibili dagli host (chiaramente su un solo canale). Allego il nuovo log come richiesto, nel frattempo verifico i danni al file system. Per reinserire il controller B (quello vecchio oppure uno nuovo, a seconda di cosa dira' Dothill) sara' necessario un nuovo shutdown, o e' sufficiente che inibisca la scrittura sullo storage? Questo per capire se devo pianificare un downtime...

- risposta E4 :

Salve, stiamo per procedere alla spedizione del controller e del disco; di seguito la procedura fornita da DotHill

Have the replacement controller inserted to the system, wait for the replacement controller to show up solid green, when solid green we can insert the new replacement drive with the failed one.

In questa fase non รจ necessario un downtime, tuttavia occorre fare l'aggiornamento del vostro controller e per questo sarebbe consigliato non avere traffico. Appena ho la conferma della spedizione vi aggiorno

21 maggio 2013 0 ST001313 Errore su disco ( enclosure 4 slot 9 ) : il problema scompare dopo alcune ora

- Suggerimento E4 : disco da sostituire