We are in the process of migrating this forum. A new space will be available soon. We are sorry for the inconvenience.

Servidor no reinicia después de sincronizar RAID, y no encuentro solución.


bremen
30/01/2016, 22:57
Hola,

Estoy teniendo un problema muy similar al vuestro.

Conseguí sincronizar el disco reemplazado (sda) sin mucho problema, pero al hacer el reboot no arranca correctamente. Desde soporte me dicen "SDA removed so no boot on sda" pero no sé bien qué significa.

Tras la sincronización con mdadm instalé grub en ambos discos:

root@rescue:/mnt/etc/mdadm# grub-install --recheck --no-floppy --root-directory=/mnt /dev/sda
root@rescue:/mnt/etc/mdadm# grub-install --recheck --no-floppy --root-directory=/mnt /dev/sdb

En este punto, el grub-update me ha dado problemas:

root@rescue:# update-grub
/usr/sbin/grub-probe: error: failed to get canonical path of `aufs'.

También he añadido estas líneas al mdadm.conf:

ARRAY /dev/md/2 metadata=0.90 UUID=c0588c4a:f9f388da:a4d2adc2:26fd5302
ARRAY /dev/md/1 metadata=0.90 UUID=43f23f43:797c64a0:a4d2adc2:26fd5302

Copio fstab y mtab:

root@rescue:/mnt/etc# cat fstab
/dev/md1 / ext3 errors=remount-ro 0 1
/dev/md2 /home ext3 defaults 0 2
/dev/sda3 none swap defaults 0 0
/dev/sdb3 none swap defaults 0 0
proc /proc proc defaults 0 0
sysfs /sys sysfs defaults 0 0


root@rescue:/mnt/etc# cat mtab
/dev/md1 / ext3 rw,errors=remount-ro 0 0
proc /proc proc rw 0 0
none /proc/sys/fs/binfmt_misc binfmt_misc rw,noexec,nosuid,nodev 0 0
sysfs /sys sysfs rw 0 0
none /sys/fs/fuse/connections fusectl rw 0 0
none /dev tmpfs rw,mode=0755 0 0
none /dev/pts devpts rw,noexec,nosuid,gid=5,mode=0620 0 0
none /dev/shm tmpfs rw,nosuid,nodev 0 0
none /var/run tmpfs rw,nosuid,mode=0755 0 0
none /var/lock tmpfs rw,noexec,nosuid,nodev 0 0
none /lib/init/rw tmpfs rw,nosuid,mode=0755 0 0
/dev/md2 /home ext3 rw 0 0

El disco es de 2TB, en vez del original de 1 TB, no sé si esto puede tener algo que ver, aunque como os digo la sincronización no dio problema y el nuevo disco solo usa 1 TB.

Ya no me quedan más ideas de qué probar. Copio salida de más comandos.

root@rescue:~# fdisk -l

Disk /dev/sda: 1.8 TiB, 2000398934016 bytes, 3907029168 sectors
Units: sectors of 1 * 512 = 512 bytes
Sector size (logical/physical): 512 bytes / 512 bytes
I/O size (minimum/optimal): 512 bytes / 512 bytes
Disklabel type: dos
Disk identifier: 0x00000000

Device Boot Start End Sectors Size Id Type
/dev/sda1 * 2048 10487808 10485761 5G fd Linux raid autodetect
/dev/sda2 10487809 1952468992 1941981184 926G fd Linux raid autodetect
/dev/sda3 1952468993 1953520064 1051072 513.2M 82 Linux swap / Solaris

Disk /dev/sdb: 931.5 GiB, 1000204886016 bytes, 1953525168 sectors
Units: sectors of 1 * 512 = 512 bytes
Sector size (logical/physical): 512 bytes / 512 bytes
I/O size (minimum/optimal): 512 bytes / 512 bytes
Disklabel type: dos
Disk identifier: 0x00000000

Device Boot Start End Sectors Size Id Type
/dev/sdb1 * 2048 10487808 10485761 5G fd Linux raid autodetect
/dev/sdb2 10487809 1952468992 1941981184 926G fd Linux raid autodetect
/dev/sdb3 1952468993 1953520064 1051072 513.2M 82 Linux swap / Solaris

Disk /dev/md2: 926 GiB, 994294300672 bytes, 1941981056 sectors
Units: sectors of 1 * 512 = 512 bytes
Sector size (logical/physical): 512 bytes / 512 bytes
I/O size (minimum/optimal): 512 bytes / 512 bytes
Disk /dev/md1: 5 GiB, 5368643584 bytes, 10485632 sectors
Units: sectors of 1 * 512 = 512 bytes
Sector size (logical/physical): 512 bytes / 512 bytes
I/O size (minimum/optimal): 512 bytes / 512 bytes


root@rescue:~# parted -l
Model: ATA HGST HUS724020AL (scsi)
Disk /dev/sda: 2000GB
Sector size (logical/physical): 512B/512B
Partition Table: msdos
Disk Flags:

Number Start End Size Type File system Flags
1 1049kB 5370MB 5369MB primary ext3 boot, raid
2 5370MB 1000GB 994GB primary ext3 raid
3 1000GB 1000GB 538MB primary linux-swap(v1)


Model: ATA Hitachi HUA72201 (scsi)
Disk /dev/sdb: 1000GB
Sector size (logical/physical): 512B/512B
Partition Table: msdos
Disk Flags:

Number Start End Size Type File system Flags
1 1049kB 5370MB 5369MB primary ext3 boot, raid
2 5370MB 1000GB 994GB primary ext3 raid
3 1000GB 1000GB 538MB primary linux-swap(v1)


Model: Linux Software RAID Array (md)
Disk /dev/md1: 5369MB
Sector size (logical/physical): 512B/512B
Partition Table: loop
Disk Flags:

Number Start End Size File system Flags
1 0.00B 5369MB 5369MB ext3


Model: Linux Software RAID Array (md)
Disk /dev/md2: 994GB
Sector size (logical/physical): 512B/512B
Partition Table: loop
Disk Flags:

Number Start End Size File system Flags
1 0.00B 994GB 994GB ext3


root@rescue:~# cat /proc/mdstat
Personalities : [linear] [raid0] [raid1] [raid10] [raid6] [raid5] [raid4] [multipath] [faulty]
md1 : active raid1 sda1[0] sdb1[1]
5242816 blocks [2/2] [UU]

md2 : active raid1 sda2[0] sdb2[1]
970990528 blocks [2/2] [UU]

unused devices:

macius
18/06/2015, 10:40
Finalmente la solución fué actualizar grub (Debia tener una mala configuración) a partir de ahí la máquina arrancó... pero sin iniciar el sistema. Simplemente bastó con actualizar la configuración de /etc/fstab para que en lugar de utilizar /dev/sda1 y /dev/sda2 utilizara /dev/md1 y /dev/md2 (Algo o alguien lo tocó cuando se cambió el disco para que pudiera arrancar con un único disco.

peque
12/06/2015, 08:10
Hola, se lo frustrante que es todo esto, pero aparte de lo que comento en el tema no se que más se pude hacer.
Yo lo solucioné con
[root@rescue /]# grub-install --recheck --no-floppy
/dev/sda

Quizás los de OVH, al igual que hicieron conmigo, puedan echarte una mano, ya que quizás sea una tontería.
Si lo solucionas no olvides pasarte por aquí a contarnos.

macius
12/06/2015, 07:12
Hola,

he tenido tu mismo problema y tras múltiples intentos y pruebas, vi la luz al ver tu post en el foro... pero continua sin arrancar la maldita máquina.

Lo que he hecho

mkdir /hdd1
mount /dev/md1 /hdd1
grub-install --recheck --no-floppy --root-directory=/hdd1 /dev/sda
grub-install --recheck --no-floppy --root-directory=/hdd1 /dev/sdb



Por el camino, tocado de todo (configuración de fstab y mdadm), pero creo que se ha quedado todo al sitio.

Por favor, dime si he fallado en tus instrucciones o por donde puedo seguir

peque
10/04/2015, 18:43
Cita Publicado inicialmente por peque
al final soporte me ha contestado y dicen que han reinstalado el grub.
Por cierto, "es de bien nacido ser agradecido". Así que gracias a soporte.

peque
10/04/2015, 17:54
Gracias por interesarte alvaroag.
Entiendo lo que dices, pero ya me dirás que más hacer a nivel de software. Llega un punto en donde no hay más a donde recurrir.
En fin, dicho lo cual, tomad nota: al final soporte me ha contestado y dicen que han reinstalado el grub. Ya lo había hecho yo, pero sin el comando --no-floppy que han usado ellos.

[root@rescue /]# grub-install --recheck --no-floppy
/dev/sda

alvaroag
10/04/2015, 16:00
Bueno, soporte no va a atender un asunto asi. Para bien o para mal, el servicio brindado por OVH es de servidores no administrados, lo que significa que es tema de cada usuario lo que se haga con el software. En cuanto al error, no tengo ni idea. Me ha pasado una ves con un CentOS que mostraba un error al iniciar, pero si lo reiniciaba iniciaba sin problema. Nunca me puse a indagar.

peque
10/04/2015, 15:05
ESTO ES LA LECHE!
Si alguíen tiene una explicación para esto, soy todo oídos.
El servidor se ha reiniciado el solo en modo HD, y todo parece funcionar perfectamente!
Despues de dejarlo funcionando desde modo RESCUE, de manera provisional, me puse a hacer una copia de seguridad mediante FTP de los datos y de repente... ZAS! Se reinicia en modo normal y todo correcto.
Soporte no contesta, y no se si han hecho algo por su cuenta.

peque
10/04/2015, 13:18
Así está la situación ahora. Soporte no aparece y creo que "ni se le espera".

Por un lado, el sistema RAID está sincronizado y operativo, este es el estado en el que se encuentra:

root@rescue:~# cat /proc/mdstat
Personalities : [linear] [raid0] [raid1] [raid10] [raid6] [raid5] [raid4] [multipath] [faulty]
md1 : active raid1 sda1[0] sdb1[1]
20971456 blocks [2/2] [UU]

md2 : active raid1 sda2[0] sdb2[1]
1932012480 blocks [2/2] [UU]

unused devices:

La información de cada MD es correcta:

root@rescue:~# mdadm --examine /dev/sd[ab]
/dev/sda:
MBR Magic : aa55
Partition[0] : 41943041 sectors at 4096 (type fd)
Partition[1] : 3864025088 sectors at 41947137 (type fd)
Partition[2] : 1051840 sectors at 3905972225 (type 82)
/dev/sdb:
MBR Magic : aa55
Partition[0] : 41943041 sectors at 4096 (type fd)
Partition[1] : 3864025088 sectors at 41947137 (type fd)
Partition[2] : 1051840 sectors at 3905972225 (type 82)


root@rescue:~# mdadm -D /dev/md1

/dev/md1:
Version : 0.90
Creation Time : Fri Apr 10 09:53:06 2015
Raid Level : raid1
Array Size : 20971456 (20.00 GiB 21.47 GB)
Used Dev Size : 20971456 (20.00 GiB 21.47 GB)
Raid Devices : 2
Total Devices : 2
Preferred Minor : 1
Persistence : Superblock is persistent

Update Time : Fri Apr 10 12:59:04 2015
State : clean
Active Devices : 2
Working Devices : 2
Failed Devices : 0
Spare Devices : 0

UUID : d9590eb017e70ca:a4d2adc2:26fd5302 (local to host rescue.ovh.net)
Events : 0.1

Number Major Minor RaidDevice State
0 8 1 0 active sync /dev/sda1
1 8 17 1 active sync /dev/sdb1

root@rescue:~# mdadm -D /dev/md2

/dev/md2:
Version : 0.90
Creation Time : Fri Apr 10 09:53:16 2015
Raid Level : raid1
Array Size : 1932012480 (1842.51 GiB 1978.38 GB)
Used Dev Size : 1932012480 (1842.51 GiB 1978.38 GB)
Raid Devices : 2
Total Devices : 2
Preferred Minor : 2
Persistence : Superblock is persistent

Update Time : Fri Apr 10 12:59:28 2015
State : clean
Active Devices : 2
Working Devices : 2
Failed Devices : 0
Spare Devices : 0

UUID : 75fc717e:aaf02f74:a4d2adc2:26fd5302 (local to host rescue.ovh.net)
Events : 0.1

Number Major Minor RaidDevice State
0 8 2 0 active sync /dev/sda2
1 8 18 1 active sync /dev/sdb2


El estado de las particiones logicas/físicas, también está correcto:

root@rescue:~# parted -l
Model: ATA HGST HUS724020AL (scsi)
Disk /dev/sda: 2000GB
Sector size (logical/physical): 512B/512B
Partition Table: msdos
Disk Flags:

Number Start End Size Type File system Flags
1 2097kB 21.5GB 21.5GB primary ext4 boot, raid
2 21.5GB 2000GB 1978GB primary ext4 raid
3 2000GB 2000GB 539MB primary linux-swap(v1)


Model: ATA HGST HUS724020AL (scsi)
Disk /dev/sdb: 2000GB
Sector size (logical/physical): 512B/512B
Partition Table: msdos
Disk Flags:

Number Start End Size Type File system Flags
1 2097kB 21.5GB 21.5GB primary ext4 boot, raid
2 21.5GB 2000GB 1978GB primary ext4 raid
3 2000GB 2000GB 539MB primary linux-swap(v1)


Model: Linux Software RAID Array (md)
Disk /dev/md1: 21.5GB
Sector size (logical/physical): 512B/512B
Partition Table: loop
Disk Flags:

Number Start End Size File system Flags
1 0.00B 21.5GB 21.5GB ext4


Model: Linux Software RAID Array (md)
Disk /dev/md2: 1978GB
Sector size (logical/physical): 512B/512B
Partition Table: loop
Disk Flags:

Number Start End Size File system Flags
1 0.00B 1978GB 1978GB ext4


Lo único un poco mosqueante es el aviso de que la partición MD1 y MD2 al ejecutar fdisk, alerta de que no es válida:

root@rescue:~# fdisk -l

Disk /dev/sda: 2000.4 GB, 2000398934016 bytes
255 heads, 63 sectors/track, 243201 cylinders, total 3907029168 sectors
Units = sectors of 1 * 512 = 512 bytes
Sector size (logical/physical): 512 bytes / 512 bytes
I/O size (minimum/optimal): 512 bytes / 512 bytes
Disk identifier: 0x00000000

Device Boot Start End Blocks Id System
/dev/sda1 * 4096 41947136 20971520+ fd Linux raid autodetect
/dev/sda2 41947137 3905972224 1932012544 fd Linux raid autodetect
/dev/sda3 3905972225 3907024064 525920 82 Linux swap / Solaris

Disk /dev/sdb: 2000.4 GB, 2000398934016 bytes
255 heads, 63 sectors/track, 243201 cylinders, total 3907029168 sectors
Units = sectors of 1 * 512 = 512 bytes
Sector size (logical/physical): 512 bytes / 512 bytes
I/O size (minimum/optimal): 512 bytes / 512 bytes
Disk identifier: 0x00000000

Device Boot Start End Blocks Id System
/dev/sdb1 * 4096 41947136 20971520+ fd Linux raid autodetect
/dev/sdb2 41947137 3905972224 1932012544 fd Linux raid autodetect
/dev/sdb3 3905972225 3907024064 525920 82 Linux swap / Solaris

Disk /dev/md2: 1978.4 GB, 1978380779520 bytes
2 heads, 4 sectors/track, 483003120 cylinders, total 3864024960 sectors
Units = sectors of 1 * 512 = 512 bytes
Sector size (logical/physical): 512 bytes / 512 bytes
I/O size (minimum/optimal): 512 bytes / 512 bytes
Disk identifier: 0x00000000

Disk /dev/md2 doesn't contain a valid partition table

Disk /dev/md1: 21.5 GB, 21474770944 bytes
2 heads, 4 sectors/track, 5242864 cylinders, total 41942912 sectors
Units = sectors of 1 * 512 = 512 bytes
Sector size (logical/physical): 512 bytes / 512 bytes
I/O size (minimum/optimal): 512 bytes / 512 bytes
Disk identifier: 0x00000000

Disk /dev/md1 doesn't contain a valid partition table

Pero el sistema, cuando desde el Manager de OVH cambiamos el Netboot a Hard Disk, y reiniciamos el equipo desde el modo recue de ssh:

/sbin/reboot

El equipo no arranca, no responde y nos llega el aviso de que no está disponible. Con lo que tenemos que volver al modo rescue-pro nuevamente.

Ya installe grub en ambos discos, pero el problema persiste:

mkdir /hdd1
mount /dev/md1 /hdd1
grub-install --root-directory=/hdd1 /dev/sda

Y lo mismo para el segundo disco.

peque
10/04/2015, 12:57
He iniciado los servicios de manera temporal, montando el sistema de archivos en modo RESCUE.
Grub está instalado en ambos discos pero no hay manera de que se inicie en modo normal.

peque
10/04/2015, 12:16
Bueno, pues sigo sin el servidor. Van para 2 días, y soporte desde ayer están desaparecidos.
En fin...

peque
09/04/2015, 20:13
Otra cosa, añado.
Despues por leer en varios foros, me inclino a pensar que el problema está en el grub, pero no hay narices a instalarlo en el disco primario.

peque
09/04/2015, 19:50
Hola, me han cambiado anteayer el diso sdb, se sincronizó por RAID y sin problema.
También me cambiaron ayer el sda, (si, mala suerte, los dos dañados), pero despues de la sincronización del RAID de este no hay manera de arrancar, ni desde el disco duro ni en modo Netboot, siempre da fallo de reinicio y vuelve a modo RESCUE.
Llevo desde ayer mirando remirando y no hay manera, todo parece estar bien.
Por favor, alguien me puede echar una mano para ver por donde van los tiros. Gracias.
Pongo info actual de los discos.

root@rescue:~# cat /proc/mdstat
Personalities : [linear] [raid0] [raid1] [raid10] [raid6] [raid5] [raid4] [multipath] [faulty]
md2 : active raid1 sda2[0] sdb2[1]
1931881280 blocks super 1.2 [2/2] [UU]

md1 : active raid1 sdb1[2] sda1[0]
20971392 blocks super 1.0 [2/2] [UU]

unused devices:


Por otro lado, la información de cada MD del mismo:

root@rescue:~# mdadm -D /dev/md1
/dev/md1:
Version : 1.0
Creation Time : Thu Apr 9 10:47:44 2015
Raid Level : raid1
Array Size : 20971392 (20.00 GiB 21.47 GB)
Used Dev Size : 20971392 (20.00 GiB 21.47 GB)
Raid Devices : 2
Total Devices : 2
Persistence : Superblock is persistent

Update Time : Thu Apr 9 17:21:05 2015
State : clean
Active Devices : 2
Working Devices : 2
Failed Devices : 0
Spare Devices : 0

Name : rescue.ovh.net:1 (local to host rescue.ovh.net)
UUID : a8b77a5d:210f22de:c6aaae46:aadb2d11
Events : 44

Number Major Minor RaidDevice State
0 8 1 0 active sync /dev/sda1
2 8 17 1 active sync /dev/sdb1


root@rescue:~# mdadm -D /dev/md2
/dev/md2:
Version : 1.2
Creation Time : Thu Apr 9 10:48:17 2015
Raid Level : raid1
Array Size : 1931881280 (1842.39 GiB 1978.25 GB)
Used Dev Size : 1931881280 (1842.39 GiB 1978.25 GB)
Raid Devices : 2
Total Devices : 2
Persistence : Superblock is persistent

Update Time : Thu Apr 9 15:37:13 2015
State : clean
Active Devices : 2
Working Devices : 2
Failed Devices : 0
Spare Devices : 0

Name : rescue.ovh.net:2 (local to host rescue.ovh.net)
UUID : 0075171c:b999a321:9adf22a4:163fa74c
Events : 53

Number Major Minor RaidDevice State
0 8 2 0 active sync /dev/sda2
1 8 18 1 active sync /dev/sdb2


La información que devuelve fdisk:

root@rescue:~# fdisk -l

Disk /dev/sda: 2000.4 GB, 2000398934016 bytes
255 heads, 63 sectors/track, 243201 cylinders, total 3907029168 sectors
Units = sectors of 1 * 512 = 512 bytes
Sector size (logical/physical): 512 bytes / 512 bytes
I/O size (minimum/optimal): 512 bytes / 512 bytes
Disk identifier: 0x00000000

Device Boot Start End Blocks Id System
/dev/sda1 * 4096 41947136 20971520+ fd Linux raid autodetect
/dev/sda2 41947137 3905972224 1932012544 fd Linux raid autodetect
/dev/sda3 3905972225 3907024064 525920 82 Linux swap / Solaris

Disk /dev/sdb: 2000.4 GB, 2000398934016 bytes
255 heads, 63 sectors/track, 243201 cylinders, total 3907029168 sectors
Units = sectors of 1 * 512 = 512 bytes
Sector size (logical/physical): 512 bytes / 512 bytes
I/O size (minimum/optimal): 512 bytes / 512 bytes
Disk identifier: 0x00000000

Device Boot Start End Blocks Id System
/dev/sdb1 * 4096 41947136 20971520+ fd Linux raid autodetect
/dev/sdb2 41947137 3905972224 1932012544 fd Linux raid autodetect
/dev/sdb3 3905972225 3907024064 525920 82 Linux swap / Solaris

Disk /dev/md1: 21.5 GB, 21474705408 bytes
2 heads, 4 sectors/track, 5242848 cylinders, total 41942784 sectors
Units = sectors of 1 * 512 = 512 bytes
Sector size (logical/physical): 512 bytes / 512 bytes
I/O size (minimum/optimal): 512 bytes / 512 bytes
Disk identifier: 0x00000000

Disk /dev/md1 doesn't contain a valid partition table

Disk /dev/md2: 1978.2 GB, 1978246430720 bytes
2 heads, 4 sectors/track, 482970320 cylinders, total 3863762560 sectors
Units = sectors of 1 * 512 = 512 bytes
Sector size (logical/physical): 512 bytes / 512 bytes
I/O size (minimum/optimal): 512 bytes / 512 bytes
Disk identifier: 0x00000000

Disk /dev/md2 doesn't contain a valid partition table


Por si ayuda en algo, el estado de las particiones swaps, no devuelve nada, aunque imagino que tendrá que ver que esté el sistema en modo "rescate"

root@rescue:~# cat /proc/swaps
Filename Type Size Used Priority

El contenido de fstab es este:

root@rescue:~# cat /etc/fstab
# /etc/fstab: Information sur les systèmes de fichiers.
#
#
proc /proc proc defaults 0 0