OVH Community, your new community space.

Fallo de hardware?


Guille
29/08/2013, 17:13
Cita Publicado inicialmente por davisdmg
Dear customer,

We need to make advanced verifications on your server in
order to check the issue, it may take from 1 to 3 days in
to identify the origin of the problem.
Seguro que esas "advanced verification" es que van a traer con todos los gastos pagados a unos técnicos de Intel a Roubaix para que analicen tu servidor. Si no , no me explico lo de los 3 días.

davisdmg
29/08/2013, 17:02
esta nueva es buena, despues de tener en el SLA que tienen que arreglar los problemas de hardware en 1-4h me acaba de llegar este email de soporte:


Dear customer,

We need to make advanced verifications on your server in
order to check the issue, it may take from 1 to 3 days in
to identify the origin of the problem.

Meanwhile your server will be unavailable.

yo_david
29/08/2013, 16:21
vaya tela con los tecnicos..
problema de la RAM por ser incompatible con un S.O.!! es la primera vez que leo algo asi, pero patetica es la respuesta cuando el test se hizo bajo rescue..

de verdad que cada dia estoy mas convencido que OLES ofrece las plazas de empleo por subasta, el que menos quiera cobrar es que el entra y sus conocimientos son lo de menos.. es lamentable tener que lidiar con gente asi.

si en los DATA CENTER estan asi de verdes, imaginar lo que tenemos en OVH Hispano.. uf! q mal

y lo peor de todo es que supuestamente el server se lo dieron despues de ser testeado con no se que test, pero esta claro q el soft test ese deberian devolverlo al paro de soft's porque funciona igual de mal que sus tecnicos y eso en un soft ya no es comprensible.

davisdmg
29/08/2013, 16:06
Es una pena esto, porque mi servidor tiene miles de usuarios y no veas como se me tiran al cuello por estas caidas.

Anoche pensandolo en frio, me di cuenta de que me la había colado el tecnico.

De momento solo tengo una respuesta al ticket diciendo que ha sido asignado un tecnico a mi ticket, pero nada mas.

Lo único bueno que puedo sacar de aqui, es que gracias a esto, he optimizado el server a un nivel que nunca hubiera hecho, para depurar el error

Shelmak
28/08/2013, 21:15
Cita Publicado inicialmente por davisdmg
Bingo...

Pasando el test de RAM, servidor colgado. HAblo con ellos comentandole el problema y me dicen que la ram esta bien pero que no es compatible con ubuntu server 13.04, que la solucion es actualizar la bios (WTF?), vamos que llevo 2 dias comiendome estos marrones porque ellos han puesto a la venta un producto NO testeado con los sistemas operativos que me dan como compatibles.

En fin, actualizaré el post con info una vez me actualicen la bios (valga la redundancia) y os comentaré como va todo.
Cierto, lo que dice Guille es cierto, el modo rescue que yo sepa se ejecuta fuera del SO, por tanto si da fallo de RAM es que si es defectuosa, dudo mucho que sea una incompatibilidad del SO con la RAM, me suena mucho a cuento chino, pero bueno.

De todas formas a mi me paso algo parecido al cuento que te dicen, pero de verdad, los muy estupidos pusieron Ubuntu 12.04 + Plesk 11 + Kernel con Grsec (Incompatible con el panel plesk) y me estuve comiendo el marron medio año porque el Plesk loqueaba y creaba miles de procesos por culpa del kernel con su parchecito de seguridad.

Lo palie realizando un kill cada cierto tiempo al plesk entero, hasta que descubri la incompatibilidad. Lo peor es que me lagueaba el servidor porque tenia los procesadores a tope, tanto que creia que me estaban atacando la web o el panel plesk.

Para que veas que prueban a fondo lo que lanzan.

Guille
28/08/2013, 20:11
Cita Publicado inicialmente por davisdmg
Bingo...
Pasando el test de RAM, servidor colgado. HAblo con ellos comentandole el problema y me dicen que la ram esta bien pero que no es compatible con ubuntu server 13.04
Un cuento muy bonito. Pero el modo rescue-pro no se ejecuta bajo Ubuntu Server 13.04, así que si falla el test de RAM del modo rescue-pro, es que la RAM está defectuosa o no es compatible con cualquier sistema operativo.
En fin, esperemos que la actualización de la BIOS te solucione el problema. Se supone que OVH conoce el hardware que tiene entre manos.

davisdmg
28/08/2013, 17:55
Cita Publicado inicialmente por Guille
Puede ser también un problema de memoria RAM defectuosa que corrompe los datos escritos en los discos.
Yo aconsejaria realizar el test de RAM en modo rescue-pro.
Bingo...

Pasando el test de RAM, servidor colgado. HAblo con ellos comentandole el problema y me dicen que la ram esta bien pero que no es compatible con ubuntu server 13.04, que la solucion es actualizar la bios (WTF?), vamos que llevo 2 dias comiendome estos marrones porque ellos han puesto a la venta un producto NO testeado con los sistemas operativos que me dan como compatibles.

En fin, actualizaré el post con info una vez me actualicen la bios (valga la redundancia) y os comentaré como va todo.

Guille
28/08/2013, 16:58
Puede ser también un problema de memoria RAM defectuosa que corrompe los datos escritos en los discos.
Yo aconsejaria realizar el test de RAM en modo rescue-pro.

davisdmg
28/08/2013, 16:10
Os haré caso y esta noche haré todo eso.

De momento he desactivado algunos servicios que vienen activos por defecto (como el bind9) y el ipv6 (aunque este no se verá afectado hasta que reinicie)...y llevo unas 12h online.

Cruzaré los dedos...

Shelmak
28/08/2013, 15:23
Si es totalmente nueva la instalación y tu no has particionado nada, como bien dices es muy extraño que sea un problema de RAID, igualmente no pierdes nada reiniciando el servidor en modo rescue (Desde el manager) y accediendo a el para realizar los test de hardware, como mucho pierdes algo de tiempo y te aseguras asi de que es un problema de software y no del procesador o la ram.
Si un test da fallo, compruebalo si quieres de nuevo pero informa a OVH para que te reemplacen la pieza defectuosa.

En caso de que no te de fallo, al igual que Siliconworld te recomiendo reinstalar el SO de nuevo, y tambien de paso darle un poco mas de espacio al SO, que por defecto solo tiene 20 gb.

davisdmg
28/08/2013, 14:30
Entiendo, lo que no entiendo es como te pueden dar un servidor instalado por ellos con fallos en el particionamiento (si ese es el caso, que no esta claro aun)

Siliconworld
28/08/2013, 13:24
A primera vista los dos SSD están perfectos y los tienes nuevos, tiene pinta de problema de software y yo diría que algo está mal creado en el soft-raid, tipos de particiones, puntos de montaje, etc... y siendo cosa de software seguramente si que te cobren si OVH te lo soluciona. Yo empezaría de nuevo con ese dedicado poniendo más atención en el particionado, formato de cada particionado y sus puntos de montaje e informándome un poco sobre el uso de SSD's en Raid bajo Linux para un dedicado.

Un Saludo y Suerte.

davisdmg
28/08/2013, 12:41
Código:
root@ns308808:/etc/security# smartctl -a /dev/sda
smartctl 5.43 2012-06-30 r3573 [x86_64-linux-3.10.9-xxxx-grs-ipv6-64] (local build)
Copyright (C) 2002-12 by Bruce Allen, http://smartmontools.sourceforge.net

=== START OF INFORMATION SECTION ===
Device Model:     INTEL SSDSC2BB120G4
Serial Number:    BTWL326504XT120LGN
LU WWN Device Id: 5 001517 8f365c37c
Firmware Version: D2010355
User Capacity:    120.034.123.776 bytes [120 GB]
Sector Size:      512 bytes logical/physical
Device is:        Not in smartctl database [for details use: -P showall]
ATA Version is:   8
ATA Standard is:  ATA-8-ACS revision 4
Local Time is:    Wed Aug 28 13:38:59 2013 CEST
SMART support is: Available - device has SMART capability.
SMART support is: Enabled

=== START OF READ SMART DATA SECTION ===
SMART overall-health self-assessment test result: PASSED

General SMART Values:
Offline data collection status:  (0x02) Offline data collection activity
                                        was completed without error.
                                        Auto Offline Data Collection: Disabled.
Self-test execution status:      (   0) The previous self-test routine completed
                                        without error or no self-test has ever 
                                        been run.
Total time to complete Offline 
data collection:                (    2) seconds.
Offline data collection
capabilities:                    (0x79) SMART execute Offline immediate.
                                        No Auto Offline data collection support.
                                        Suspend Offline collection upon new
                                        command.
                                        Offline surface scan supported.
                                        Self-test supported.
                                        Conveyance Self-test supported.
                                        Selective Self-test supported.
SMART capabilities:            (0x0003) Saves SMART data before entering
                                        power-saving mode.
                                        Supports SMART auto save timer.
Error logging capability:        (0x01) Error logging supported.
                                        General Purpose Logging supported.
Short self-test routine 
recommended polling time:        (   1) minutes.
Extended self-test routine
recommended polling time:        (   2) minutes.
Conveyance self-test routine
recommended polling time:        (   2) minutes.
SCT capabilities:              (0x003d) SCT Status supported.
                                        SCT Error Recovery Control supported.
                                        SCT Feature Control supported.
                                        SCT Data Table supported.

SMART Attributes Data Structure revision number: 1
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME          FLAG     VALUE WORST THRESH TYPE      UPDATED  WHEN_FAILED RAW_VALUE
  5 Reallocated_Sector_Ct   0x0032   093   093   000    Old_age   Always       -       0
  9 Power_On_Hours          0x0032   100   100   000    Old_age   Always       -       163
 12 Power_Cycle_Count       0x0032   100   100   000    Old_age   Always       -       22
170 Unknown_Attribute       0x0033   100   100   010    Pre-fail  Always       -       0
171 Unknown_Attribute       0x0032   100   100   000    Old_age   Always       -       0
172 Unknown_Attribute       0x0032   100   100   000    Old_age   Always       -       0
174 Unknown_Attribute       0x0032   100   100   000    Old_age   Always       -       19
175 Program_Fail_Count_Chip 0x0033   100   100   010    Pre-fail  Always       -       4326228604
183 Runtime_Bad_Block       0x0032   100   100   000    Old_age   Always       -       0
184 End-to-End_Error        0x0033   100   100   090    Pre-fail  Always       -       0
187 Reported_Uncorrect      0x0032   100   100   000    Old_age   Always       -       0
190 Airflow_Temperature_Cel 0x0022   070   070   000    Old_age   Always       -       30 (Min/Max 26/31)
192 Power-Off_Retract_Count 0x0032   100   100   000    Old_age   Always       -       19
194 Temperature_Celsius     0x0022   100   100   000    Old_age   Always       -       30
197 Current_Pending_Sector  0x0032   100   100   000    Old_age   Always       -       0
199 UDMA_CRC_Error_Count    0x003e   100   100   000    Old_age   Always       -       0
225 Load_Cycle_Count        0x0032   100   100   000    Old_age   Always       -       17824
226 Load-in_Time            0x0032   100   100   000    Old_age   Always       -       0
227 Torq-amp_Count          0x0032   100   100   000    Old_age   Always       -       88
228 Power-off_Retract_Count 0x0032   100   100   000    Old_age   Always       -       477
232 Available_Reservd_Space 0x0033   100   100   010    Pre-fail  Always       -       0
233 Media_Wearout_Indicator 0x0032   100   100   000    Old_age   Always       -       0
234 Unknown_Attribute       0x0032   100   100   000    Old_age   Always       -       0
241 Total_LBAs_Written      0x0032   100   100   000    Old_age   Always       -       17824
242 Total_LBAs_Read         0x0032   100   100   000    Old_age   Always       -       27225

SMART Error Log Version: 1
No Errors Logged

SMART Self-test log structure revision number 1
Num  Test_Description    Status                  Remaining  LifeTime(hours)  LBA_of_first_error
# 1  Short offline       Completed without error       00%        56         -
# 2  Short offline       Completed without error       00%        53         -
# 3  Short offline       Completed without error       00%        53         -

SMART Selective self-test log data structure revision number 1
 SPAN  MIN_LBA  MAX_LBA  CURRENT_TEST_STATUS
    1        0        0  Not_testing
    2        0        0  Not_testing
    3        0        0  Not_testing
    4        0        0  Not_testing
    5        0        0  Not_testing
Selective self-test flags (0x0):
  After scanning selected spans, do NOT read-scan remainder of disk.
If Selective self-test is pending on power-up, resume after 0 minute delay.
Código:
root@ns308808:/etc/security# smartctl -a /dev/sdb
smartctl 5.43 2012-06-30 r3573 [x86_64-linux-3.10.9-xxxx-grs-ipv6-64] (local build)
Copyright (C) 2002-12 by Bruce Allen, http://smartmontools.sourceforge.net

=== START OF INFORMATION SECTION ===
Device Model:     INTEL SSDSC2BB120G4
Serial Number:    BTWL326502TC120LGN
LU WWN Device Id: 5 001517 8f365b9ff
Firmware Version: D2010355
User Capacity:    120.034.123.776 bytes [120 GB]
Sector Size:      512 bytes logical/physical
Device is:        Not in smartctl database [for details use: -P showall]
ATA Version is:   8
ATA Standard is:  ATA-8-ACS revision 4
Local Time is:    Wed Aug 28 13:40:51 2013 CEST
SMART support is: Available - device has SMART capability.
SMART support is: Enabled

=== START OF READ SMART DATA SECTION ===
SMART overall-health self-assessment test result: PASSED

General SMART Values:
Offline data collection status:  (0x02) Offline data collection activity
                                        was completed without error.
                                        Auto Offline Data Collection: Disabled.
Self-test execution status:      (   0) The previous self-test routine completed
                                        without error or no self-test has ever 
                                        been run.
Total time to complete Offline 
data collection:                (    2) seconds.
Offline data collection
capabilities:                    (0x79) SMART execute Offline immediate.
                                        No Auto Offline data collection support.
                                        Suspend Offline collection upon new
                                        command.
                                        Offline surface scan supported.
                                        Self-test supported.
                                        Conveyance Self-test supported.
                                        Selective Self-test supported.
SMART capabilities:            (0x0003) Saves SMART data before entering
                                        power-saving mode.
                                        Supports SMART auto save timer.
Error logging capability:        (0x01) Error logging supported.
                                        General Purpose Logging supported.
Short self-test routine 
recommended polling time:        (   1) minutes.
Extended self-test routine
recommended polling time:        (   2) minutes.
Conveyance self-test routine
recommended polling time:        (   2) minutes.
SCT capabilities:              (0x003d) SCT Status supported.
                                        SCT Error Recovery Control supported.
                                        SCT Feature Control supported.
                                        SCT Data Table supported.

SMART Attributes Data Structure revision number: 1
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME          FLAG     VALUE WORST THRESH TYPE      UPDATED  WHEN_FAILED RAW_VALUE
  5 Reallocated_Sector_Ct   0x0032   094   094   000    Old_age   Always       -       0
  9 Power_On_Hours          0x0032   100   100   000    Old_age   Always       -       163
 12 Power_Cycle_Count       0x0032   100   100   000    Old_age   Always       -       22
170 Unknown_Attribute       0x0033   100   100   010    Pre-fail  Always       -       0
171 Unknown_Attribute       0x0032   100   100   000    Old_age   Always       -       0
172 Unknown_Attribute       0x0032   100   100   000    Old_age   Always       -       0
174 Unknown_Attribute       0x0032   100   100   000    Old_age   Always       -       19
175 Program_Fail_Count_Chip 0x0033   100   100   010    Pre-fail  Always       -       4326294152
183 Runtime_Bad_Block       0x0032   100   100   000    Old_age   Always       -       0
184 End-to-End_Error        0x0033   100   100   090    Pre-fail  Always       -       0
187 Reported_Uncorrect      0x0032   100   100   000    Old_age   Always       -       0
190 Airflow_Temperature_Cel 0x0022   070   066   000    Old_age   Always       -       30 (Min/Max 26/32)
192 Power-Off_Retract_Count 0x0032   100   100   000    Old_age   Always       -       19
194 Temperature_Celsius     0x0022   100   100   000    Old_age   Always       -       30
197 Current_Pending_Sector  0x0032   100   100   000    Old_age   Always       -       0
199 UDMA_CRC_Error_Count    0x003e   100   100   000    Old_age   Always       -       0
225 Load_Cycle_Count        0x0032   100   100   000    Old_age   Always       -       38167
226 Load-in_Time            0x0032   100   100   000    Old_age   Always       -       30
227 Torq-amp_Count          0x0032   100   100   000    Old_age   Always       -       0
228 Power-off_Retract_Count 0x0032   100   100   000    Old_age   Always       -       478
232 Available_Reservd_Space 0x0033   100   100   010    Pre-fail  Always       -       0
233 Media_Wearout_Indicator 0x0032   100   100   000    Old_age   Always       -       0
234 Unknown_Attribute       0x0032   100   100   000    Old_age   Always       -       0
241 Total_LBAs_Written      0x0032   100   100   000    Old_age   Always       -       38167
242 Total_LBAs_Read         0x0032   100   100   000    Old_age   Always       -       4466

SMART Error Log Version: 1
No Errors Logged

SMART Self-test log structure revision number 1
Num  Test_Description    Status                  Remaining  LifeTime(hours)  LBA_of_first_error
# 1  Short offline       Completed without error       00%        56         -
# 2  Short offline       Completed without error       00%        53         -
# 3  Short offline       Completed without error       00%        53         -

SMART Selective self-test log data structure revision number 1
 SPAN  MIN_LBA  MAX_LBA  CURRENT_TEST_STATUS
    1        0        0  Not_testing
    2        0        0  Not_testing
    3        0        0  Not_testing
    4        0        0  Not_testing
    5        0        0  Not_testing
Selective self-test flags (0x0):
  After scanning selected spans, do NOT read-scan remainder of disk.
If Selective self-test is pending on power-up, resume after 0 minute delay.
Algo extraño? Y gracias por la ayuda

djbill
28/08/2013, 12:21
Entiendo que le dicen, que si no pasa él los test de hardware le cobran la mano de obra; lo que debe hacer es realizar los test completos de hardware y reportar los errores en un Ticket.

Shelmak
28/08/2013, 12:00
smartctl -a /dev/sda
smartctl -a /dev/sdb

Comprueba los reallocated sector y los power on hours y si quieres pegalo aqui.

Si el SO esta recien instalado es muy probable que sea un fallo de hardware, con smartctl compruebas los HDD (Si quieres pega el resultado), para testear la ram y procesador debes hacerlo iniciando desde modo rescue.

Por cierto, que yo sepa solo te cobran los 20 euros si la incidencia no es de su incumbencia (software), si tienes algo mal en el hardware tienes garantia y te lo deben cambiar, y no te cobran nada.

davisdmg
28/08/2013, 11:15
Hace unos días adquiri un servidor dedicado mSP SSD. Muy buenas prestaciones por un buen precio. Decir que llevo mas de 6 años en ovh pagando una media de 140€ al mes en servidores dedicados. JAMAS tuve un problema con ningun servidor.

Hace 3 o 4 días recibi el nuevo servidor, y me dispuse a migrar todo lo que tenia en el viejo servidor de OVH a este nuevo. Todo fue correc5tamente, todos los servicios funcionando y demas.

A las pocas horas (aleatoriamente parece) empiezo a sufrir congelaciones del servidor. Se queda completmaente congelado y a los minutos me llega un correo de OVH diciendo que le han hecho un hard reset porque no respondia el servidor. Esto pasa 4-5 veces al día.

Llamo a soporte técnico y la única respuesta que me dan es que es problema de hardware, no de software. Que si quiero una revisión de hardware me toca pagar 20€.

La verdad, llevo 6 años corriendo el mismo proceso en todos los dedicados que he tenido en ovh, nunca tuve un problema. Llego al nuevo servidor y congelaciones cada 5-6h.

He leido mil logs y lo uniuco que encuentro raro es esto:

Código:
Aug 28 05:40:23 ns308808 kernel: EXT3-fs (md1): error: couldn't mount because of unsupported optional features (240)
Aug 28 05:40:23 ns308808 kernel: EXT2-fs (md1): error: couldn't mount because of unsupported optional features (244)
Aug 28 05:40:23 ns308808 kernel: EXT4-fs (md1): INFO: recovery required on readonly filesystem
Aug 28 05:40:23 ns308808 kernel: EXT4-fs (md1): write access will be enabled during recovery
Aug 28 05:40:23 ns308808 kernel: EXT4-fs (md1): orphan cleanup on readonly fs
Aug 28 05:40:23 ns308808 kernel: EXT4-fs (md1): ext4_orphan_cleanup: deleting unreferenced inode 794712
Aug 28 05:40:23 ns308808 kernel: EXT4-fs (md1): ext4_orphan_cleanup: deleting unreferenced inode 794612
Aug 28 05:40:23 ns308808 kernel: EXT4-fs (md1): ext4_orphan_cleanup: deleting unreferenced inode 792138
Aug 28 05:40:23 ns308808 kernel: EXT4-fs (md1): ext4_orphan_cleanup: deleting unreferenced inode 787046
Aug 28 05:40:23 ns308808 kernel: EXT4-fs (md1): ext4_orphan_cleanup: deleting unreferenced inode 787044
Aug 28 05:40:23 ns308808 kernel: EXT4-fs (md1): 5 orphan inodes deleted
Aug 28 05:40:23 ns308808 kernel: EXT4-fs (md1): recovery complete
Aug 28 05:40:23 ns308808 kernel: EXT4-fs (md1): mounted filesystem with ordered data mode. Opts: (null)
Aug 28 05:40:23 ns308808 kernel: VFS: Mounted root (ext4 filesystem) readonly on device 9:1.
Alguna idea?

Edito: SO. Ubuntu server 13.04