Buenas noches
Hemos tenido un grave problema con el conjutno de los RPS que están instalados en la red 197. Hay 167 RPS afectados por este problema.
El RPS más antiguo afectado se instaló hace 18 días. El más reciente, hace 10 días.
Los detalles
http://travaux.ovh.com/?do=details&id=2169
Hemos hecho mantenimientos esta noche, esta mañana y esta tarde en el SAN que gestiona los RPS 196 et 197.
Al final de la tarde, el SAN ha originado un fallo y hemos debido intervenir directamente. Aparentemente el origen del problema era un fallo de Hardware. Hemos cambiado los Shelfs y se ha reiniciado el SAN. El sistema de ficheros 196 no ha tenido problemas.
Todo está de nuevo en funcionamiento. Por el contrario, en el 197 tenemos un problema grave: a pesar del RAID-1 sobre 3 discos, varios discos de datos se habían dañado y el sistema de ficheros no quería montarse.
root@filerz3:~# zpool status -x
pool: filer197
state: FAULTED
status: The pool metadata is corrupted and the pool cannot be opened.
action: Destroy and re-create the pool from a backup source.
see:
http://www.sun.com/msg/ZFS-8000-CS
scrub: none requested
config:
NAME STATE READ WRITE CKSUM
filer197 FAULTED 0 0 4 corrupted data
mirror ONLINE 0 0 0
c1t20d0 ONLINE 0 0 0
c1t21d0 ONLINE 0 0 0
c1t22d0 ONLINE 0 0 0
mirror ONLINE 0 0 2
c1t23d0 ONLINE 0 0 4
c1t24d0 ONLINE 0 0 4
c1t25d0 ONLINE 0 0 4
mirror ONLINE 0 0 2
c1t26d0 ONLINE 0 0 4
c1t27d0 ONLINE 0 0 4
c1t28d0 ONLINE 0 0 4
mirror ONLINE 0 0 0
c1t29d0 ONLINE 0 0 0
c1t30d0 ONLINE 0 0 0
c1t31d0 ONLINE 0 0 0
El checksum del 2º y 3º disco RAID no era correcto, pero sobre todo, ¡ el checksum no es bueno en los 3 discos de 2 RAID-1 !
Vamos a trabajar a partir del backup realizado este domingo, pero cabe el riesgo de que tome varias horas, ver varias decenas de horas, el recuperar el backup y hacer un filesystem.
Actualmente el backup se hace bajo forma de un fichero y por tanto de binarios. Vamos a intentar recuperarlo con los comandos ZFS zreceive/zsend).
Amistosamente
Octave