OVH Community, your new community space.

Unavez mas soporte sobre RAID = 0 patatero

tonysanchez

08/09/2011, 07:34

Como ahora el problema pasa porque no tienen discos del mismo tamaño (1,5 no tienen, asi que te montan uno de 2TB), aparece otro problema:

Código:

mdadm --manage /dev/mdX  --add /dev/sdcX
mdadm: /dev/sdbX not large enough to join array

La solución pasa por reiniciar nuevamente el equipo para que la tabla de particiones nueva sea leida.

NOTA: Curioso. Ya lo he puesto en le ticket. Una maquina, que lleva 8 discos duros en 1 año y medio, y que rompe siempre los dos mismo discos, es cuando menos para analizar el tema.... vamos digo yo... placa, controladora.. lo que sea.. pero la estadistica es penosa.. indica.. no se.. algo.

tonysanchez

23/07/2011, 17:47

Por si no lo has leido....

Un disco de ks307450.kimsufi.com ha sido detectado como
defectuoso y debe ser reemplazado por nuestros
tecnicos. Con el fin de que no pierda los datos que
contiene, le aconsejamos que lo mejor es que realice
una copia de seguridad y responda a este ticket una
vez esta hecha la copia de seguridad.

Que disco?
Simetria de coincidencias en un timeline de incidencia ....

Que puede pensar si se cierra uno se abre otro, no se indica error clarificado?

en fin, tu veras Giner, creo que se puede mejorar MUCHISIMO...

SALUDOS.

tonysanchez

23/07/2011, 17:30

Publicado inicialmente por Giner OVH

Hola,

en el Ticket #775314 nos solicitas un cambio de disco sdc,
cuando se emplaza el servidor en rescue, el técnico reporta errores de SMART en sda, se te abre un ticket para proceder con el cambio en 10 días. Es un ticket nuevo por que es una incidencia nueva que nada tiene que ver que el fallo en sdc.

Responde por favor al Ticket #775382
con el resultado de:
smartctl -a -d ata /dev/sda | egrep 'Serial|Error'

Ya sabes que no nos sirve que nos digas que no hay errores... que nos lo digan los logs.

Si no hay fallo, no habrá problema en parar la intervención.

Gracias, un saludo.

Me pregunto... ¿porque no es posible o mejorable, que si esto es asi, dicha informacion no se detalle en el ticket?

Porque ¿no se sigue el ticket original indicando las cosas de forma correcta en vez de cerrar uno y abrir otro?

Creo y lo exprese la otra vez, que lo correcto es decir.

En la intervencion se ha reemplazdo el disco C (o disco etc etc etc como lo queiras llamar) pero en el arranque el tecnico a detectado un fallo en el disco A, por lo que seria necesaria una nueva intervencion.

Si eso, no lo veis correcto, en vez de un cierre y por activa abrir otro sin aportar datos, teniendo en cuenta de que hablamos de equipos en produccion, pues dejalo, es lo mismo que lo de tomarse unas vacaciones a los que hablan por telefono en vuestra empresa... las necesitais. de verdad.

Un saludo.

Giner OVH

21/07/2011, 16:53

Hola,

en el Ticket #775314 nos solicitas un cambio de disco sdc,
cuando se emplaza el servidor en rescue, el técnico reporta errores de SMART en sda, se te abre un ticket para proceder con el cambio en 10 días. Es un ticket nuevo por que es una incidencia nueva que nada tiene que ver que el fallo en sdc.

Responde por favor al Ticket #775382
con el resultado de:
smartctl -a -d ata /dev/sda | egrep 'Serial|Error'

Ya sabes que no nos sirve que nos digas que no hay errores... que nos lo digan los logs.

Si no hay fallo, no habrá problema en parar la intervención.

Gracias, un saludo.

tonysanchez

20/07/2011, 21:07

Ya en otra ocasion plantea el problema del soporte de OVH en ocasion de un destrozo con una maquina con RAID 10, que se tradujo en la perdida total de datos, dado a una gracia, que ni pude seguirse en el hilo, o por lo menos ante la cabezoneria opte por dejarlo.

Esta vez he tenido tiemp de analizarlo, y con el yuyu en el cuerpo, me pare bien a la jugada.

Efectivamente en el protocolo de OVh falla algo, y por lo que puedo analizar es el factor "humano que confia en un protocolo pero no piensa por si mismo"

Por que es lo mismo.

1.- Se abre ticket de indicencia para un disco (misteriosamente en ese maquina van 4 discos C en menos de dos año) con los datos adecuados (smart log del modo reescue)

2.- El ticket evelocuiona hacia un cambio de disco.

3.- Se produce el cambio. y...... tachin tachin, una vez mas como la otra, se cierra el ticket dando por satisfecho el cambio y automaticamente se abre uno nuevo con una advertencia de que se ha detectado un disco duro roto. En dicho ticket nuevo, ni se dice que disco ni nada, Simplemente esa advertencia tan fea y oscura, del rollo de la perdida de datos, etc.

Llegados a este punto me escamo mucho. Incluso volvi a picar contestando que si, que siguieran adelanta, pero me acorde del mamoneo de la otra vez y para el ticket.

Ja. Que risa, cuando descubro que segun el ssitema no hay ningun disco roto, sino que siemplemente al caer el disco C en el RAID 10, el otro disco se queda fuera de linea, y que a nivel sistema (raid por soft) simplemente hay que recuperar el RAID, primero reconstruyendo o clonando la tabla de particiones de uno de los disco al disco C, y despues comenzando la reconstruccion del RAID.

Ni que decir tiene, que no existe tal disco duro averiado, como no exitio la otra vez, y prueba de ello, es que pese a estar supuestamente "roto" el sistema funciona.

Una vez, mas llamando al telefono de la esperanza, me encontre con algun miembro de oVh que de verdad, le diria que pida unas vacaciones, que le alegren la vida, que le permitan tener una voz mas .. como decirlo, simpatica. Al final opte por simplemente, pasar de él (como siempre) y esperar acontecimientos

Time line

Ticket primario> Fecha : 2011-07-20 16:37:24

El incidente detectado el dia 2011-07-20 14:58:10 esta ya
resuelto.

Hemos cerrado el tiquet. AUn asi, si desea reabrirlo, por
favor utilice la interfaz web.

Ticket nuevo que es INUTIL por INCORRECTO (el unico problema es que el

RAID 10 pierde o desactiva los datos de DOS particiones, en vez de una sola)
Fecha : 2011-07-20 16:37:22
Un disco de ks307450.kimsufi.com ha sido detectado como
defectuoso y debe ser reemplazado por nuestros
tecnicos. Con el fin de que no pierda los datos que
contiene, le aconsejamos que lo mejor es que realice
una copia de seguridad y responda a este ticket una
vez esta hecha la copia de seguridad.

!! ATENCION !! Todo nuevo fallo puede provocar la perdida
irremediable de sus datos

Le podemos proponer la compra y el envio de este disco
por UPS. Para esta operacion, le rogamos se ponga en
contacto
con nuestro servicio comercial en el nUmero
902 106 113

Si no hay una respuesta de su parte, la intervencion sera
realizada en 10 dias a contar desde en envio de este mail.

Si desea mas detalles sobre el informe tecnico de la
intervencion, le rogamos contacte con nuestro soporte

En fin, dejo unas notas por si le valen a alguien con RAID 10
Cambiese la letra en negrita X por lo que corresponda...

Por si no reconoce el dispositivo raid

Código:

mdadm -Ac partitions /dev/mdX -m dev

Para clonar las particiones

Código:

 sfdisk -d /dev/sdX | sfdisk --no-reread --force /dev/sdX

Para añadir las particiones al dispositivo raid

Código:

mdadm --manage /dev/mdX  --add /dev/sdcX

Besitos.