OVH Community, your new community space.

Caídas de servidores dedicados


FourRoses
17/06/2008, 14:20
Bueno, pues despues de tener la CPU bajo test dos horas y la ram otro tanto de lo mismo no salto ningun error ni en ram ni en CPU.

Llevo 72 horas sin BSOD.

Quizas los resets por hardware desde el manager fueron mano de santo.
Los reinicios en caliente desde el propio SO no son suficientes si algun offset de la ram se queda pillao, de ahi que me saltaran esos errores sin antes hacer un reset de hardware desde el manager.

Segui las indicaciones del soporte de ovh mediante apertura de ticket y de momento todo funciona correctamente.

Recomiendo encarecidamente que los que tengan problemas de cuelgues y sospechen del hardware hagan un diagnostico en modo rescue. Si ahi no sale nada es que el hardware esta bien y ya solo queda investigar en el soft.

Saludos.

TRASGU25
16/06/2008, 18:30
Muy buenas.

Ayer me lie la manta y reinstale mi servidor (Cambio a Ubuntu) y despues de 24 hora todo parece que marcha como la seda.
Conclusion no vuelvo a Windows ni aunque me paguen.


Salu2.
Trasgu

FourRoses
15/06/2008, 11:26
Bien, lo que no sabia es que en el manager hay una opcion de reinicio de server en modo rescue pro por netboot. En esa opcion te cargan un Linux BSD con acceso al puerto 81 con un root temporal en donde carga una pagina de testeo de hardware: CPU, RAM y HD.

El root temporal te lo mandan por e-mail.

En el test de hardware ya te dicen que si se cuelga el servidor haciendo un test al cpu lo que falla es la cpu y si haces un test a la ram y se queda pillao es la ram.

Recomiendan minimo tener la cpu bajo test sobre 30 minutos. Y la ram pues hasta que acabe.
Si tienes sospechas de que falla el disco duro lo mejor es hacer antes un backup y despues meterle el test de disco duro ya que podria haber perdida de datos.

Yo hice un test a la ram por mis propios metodos y me saltaron dos errores. Ahora estoy con el test del modo rescue. LO voy a dejar asi un par de horas a ver si saltan tambien.

Ya os contare....

abse
15/06/2008, 00:53
Excepto algunos ami me suenan mas error de software que de hardware. Adjuntar tambien la distribucion que useis.

Yo en mi experiencia con OVH, tengo 2 Kmsufi y he pasado por otros 5 con Debian y 0 problemas.

Un saludo

ferranvillalba
14/06/2008, 23:29
FourRoses que putada que se te haya cascado la memoria.

Aunque me gustaria saber si los servidores llevan memoria con ECC. Porque en su web, nunca he visto por ningún lado que OVH diga que es memoria con Error Checking and Correction.

FourRoses
14/06/2008, 23:19
Bueno, creo que tengo aislado el problema de las pantallas azules de la muerte.

Despues de varias BSOD en estos dias los minidumps decian cosas muy dispares sobre controladores varios que nada tienen que ver: el primero fue el rtenicxp.sys siguieron win2k.sys, netbt.sys y demas. Asi que por deduccion algo pasa en memoria que no tiene que pasar.

Dicho y hecho. Paso un memtest para win y oh! sorpresa! a los 5 minutos saltan un par de hermosos Memory error detected.

Hago foto y abriendo ticket en ovh. A ver lo que tardan en cambiar los modulos de memoria.

Ya os contare.

MarcosBL
13/06/2008, 20:04
Nada, yo siempre los he tenido desactivados, eso si, con buenas copias dos veces al dia. Liberar espacio, yo creo que con que borres los logs que ya llevaba generados, en principio, eso lo liberas. Ya si hay espacio ocupado por otros ficheros, pues no sabria ayudarte asi a ciegas.

Prueba este comando, te dará un listado de todos los archivos que superen 10 megas, y ya tú controlas lo que veas que puedes eliminar, o nos preguntas:

find / -type f -size +10000k -exec ls -lh {} \; | awk '{ print $9 ": " $5 }'

Shephard
13/06/2008, 15:42
Hola, Marcos.

No moví los logs binarios a /home, simplemente les puse un # delante para deshabilitarlos. ¿Sabes si se puede liberar un poco de espacio de /dev/sda1 (el que está lleno), por si acaso?

Muchas gracias!

PD: De momento no se ha caído el servidor, aunque sí ha entrado en lag en algunas ocasiones.

MarcosBL
13/06/2008, 13:42
Correcto, Shepard, el log binario te permite "volver atrás" en una base de datos paso a paso, si tiene datos muy muy críticos.

Si has movido los logs binarios a /home no deberias tener problema en bastante tiempo, ya que /home viene enorme por defecto, aún asi, quizá en un mes, quizá en 10, epro acabaria llenándose tambien, asi que la solución pasa por, o bien desactivarlo y simplemente llevar una correcta política de copias de seguridad de las de toda la vida, o bien mover ese log a /home como has hecho, y fijar la variable que indica los dias máximos a guardar, que es expire_logs_days para que la cosa no se salga de madre en tamaño.

Más información sobre los ficheros del log binario de mysql en :
Español http://dev.mysql.com/doc/refman/5.0/...intenance.html
Inglés (Más completa) http://dev.mysql.com/doc/refman/5.0/...intenance.html

Shephard
13/06/2008, 11:08
Cita Publicado inicialmente por MarcosBL
Shepard, desactiva el log binario en mysql (my.cnf) y problema solucionado en tu caso.
Hola, Marcos.

Probé a cambiar el basedir a /home en vez de /usr, que cogía /usr/sbin/mysqld para iniciarse. Copié el mysqld a /home/sbin y parece ser que esta mañana no se ha caído.

Voy a, por si acaso, desactivar el log binario en my.cnf, a ver si lo encuentro.

Muchas gracias

EDIT: Puse esto en el my.cnf. ¿Correcto?:

#log-bin
#server-id = 1

mrbarriga
12/06/2008, 22:42
BUeno, hay que tener en cuenta la cantidad de servidores que tiene OVh, y no es que los esté defendiendo, pero si de cada 1.000 se caen 50, es un buen promedio no les parece??

Creo es totalmente normal, sol espero que yo nunca esté dentro de estos 50 porque ahí si me molestaria mucho, pero entiendo que en esto no todo es color de rosa, lo que si no me parece es el soporte post venta de esta empresa, es ya conocido por todos que es pésimo el soporte, así que pues ni modo, creo que tiene que ver mucho con el precio que pagas por estos servidores.

Power
12/06/2008, 22:20
Hola Shephard,

Anoto en el primer mensaje que el problema estaba en el llenado de la partición escasa que viene por defecto en la distribución OVH Release 2.

Saludos

Power
12/06/2008, 22:16
Gracias FourRoses.
Ya te he añadido a la lista de afectados del primer mensaje de este hilo.

Saludos

MarcosBL
12/06/2008, 21:42
Shepard, desactiva el log binario en mysql (my.cnf) y problema solucionado en tu caso.

Shephard
12/06/2008, 19:47
Uhm... he hecho esto:

log # df -h
S.ficheros Tamaño Usado Disp Uso% Montado en
/dev/sda1 2,9G 2,7G 58M 98% /
udev 2,0G 152K 2,0G 1% /dev
/dev/sda2 685G 27G 623G 5% /home
shm 2,0G 0 2,0G 0% /dev/shm

De manera que veo que /dev/sda1 está casi lleno y seguramente se esté intentando almacenar ahí, de manera que da error. Parece ser que el particionado (defecto de OVH Release2) no está bien hecho, no? :S

¿Alguna solución?

Un saludo y gracias!

Shephard
12/06/2008, 19:33
Cita Publicado inicialmente por josu
Mira /var/log/messages y /var/log/syslog a ver si te pone algo.

Josu.
Creo que tiene que ver con esto:
080611 6:14:07 [ERROR] /usr/sbin/mysqld: Disk is full writing '/var/run/mysqld/mysqld-bin.000001' (Errcode: 28). Waiting for someone to free space... Retry $
080611 6:24:07 [ERROR] /usr/sbin/mysqld: Disk is full writing '/var/run/mysqld/mysqld-bin.000001' (Errcode: 28). Waiting for someone to free space... Retry $
080611 6:34:07 [ERROR] /usr/sbin/mysqld: Disk is full writing '/var/run/mysqld/mysqld-bin.000001' (Errcode: 28). Waiting for someone to free space... Retry $
080611 6:44:07 [ERROR] /usr/sbin/mysqld: Disk is full writing '/var/run/mysqld/mysqld-bin.000001' (Errcode: 28). Waiting for someone to free space... Retry $
080611 6:54:07 [ERROR] /usr/sbin/mysqld: Disk is full writing '/var/run/mysqld/mysqld-bin.000001' (Errcode: 28). Waiting for someone to free space... Retry $
080611 7:04:07 [ERROR] /usr/sbin/mysqld: Disk is full writing '/var/run/mysqld/mysqld-bin.000001' (Errcode: 28). Waiting for someone to free space... Retry $
080611 7:14:07 [ERROR] /usr/sbin/mysqld: Disk is full writing '/var/run/mysqld/mysqld-bin.000001' (Errcode: 28). Waiting for someone to free space... Retry $
080611 7:19:54 [Note] /usr/sbin/mysqld: Normal shutdown

Pero el caso es que tengo HD de 750 GB y solo hay 67 usados... Uh :s

Gonzalo
12/06/2008, 19:26
mi opinion:

1 superplanR durante 2 años. Caidas de maquina, 0. Caidas de red, en los 2 años, 3 horas en distintos meses.

FourRoses
12/06/2008, 18:04
Bueno, aqui van mis dos centavos....

Tengo un SuperPlan 08 desde el 1 de Mayo 2008, con 2003 server basico y hay blue screen cada dos dias mas o menos, a veces es mas frecuente dependiendo del trafico.

Viendos los minidumps en el momento del cuelgue parece que todo el problema reside en el driver rtnicxp.sys que usa la tarjeta de red. Cuando hay un trafico abundante es cuando el driver se queda pillao y salta el blue screen.
Quiero aislar bien el problema con mas minidumps y que todos digan lo mismo para entonces ir a OVH y con datos en la mano pedir que cambien la tarjeta de red por otra marca que no sea REaltek. El problema sera si la tarjeta esta onboard de la placa base.

De momento es lo que hay.

Ya ire posteando a ver si consigo aislar por completo el problema pero viendo que en otros SO pasa lo mismo, me inclino a pensar que son tarjetas de red defectuosas y que encima estan dentro de la placa base.

Con Dios.

ferranvillalba
11/06/2008, 10:45
Creo que si se caen tanto me ire a The Planet para el servidor dedicado, de momento el rps para pruebas ya me funciona.

josu
11/06/2008, 09:30
Cita Publicado inicialmente por Shephard
Y otra... yo no sé qué puede ser esto, pero todas las mañanas pasa lo mismo. ¿Sabéis si se puede ver en algún log la fuente del problema?

Un saludo
Mira /var/log/messages y /var/log/syslog a ver si te pone algo.

Josu.

Power
11/06/2008, 08:24
Shephard, añado la nueva caída de hoy en el primer mensaje.
Gracias

Shephard
11/06/2008, 06:14
Y otra... yo no sé qué puede ser esto, pero todas las mañanas pasa lo mismo. ¿Sabéis si se puede ver en algún log la fuente del problema?

Un saludo

Power
10/06/2008, 22:43
Gracias Xkalagan.
Ya te he añadido a la lista de afectados del primer mensaje de este hilo.

Saludos

xkalagan
10/06/2008, 21:35
Hola tengo un servidor kemsirve 08 osea el mas bajo de la gama, estoy dado de alta con ovh desde el dia 30 de mayo, y desde esa fecha hasta hoy 10 de junio he estado 5 dias sin servicio.
1º instale windows+plesk--------no habia forma de entrar a plesk, tardaba hasta 10 minutos en acceder al panel de control. luego me mandaban una serie de email diciendome que habia una intervencion por pARTE DE LOS TECNICOS, aburrido de plesk y la lentitud, me instale la version gentoo con el panel de control webmin, estuve unas cuantas horas intentando acceder al panel por puerto recomendado 10000, no habia forma, así que al final les he mandado un correo y los he mandado a freir gargaras, esta gente son unos chapuzas,
Tengo un reseller el USA que me cuesta 15€ al mes, y va tres veces mas rapido que los servidores dedicados de ovh.

Un Saludo A todos.

Power
10/06/2008, 16:30
Shephard, añado la nueva caída en el primer mensaje.
Gracias

Shephard
10/06/2008, 13:09
Caída hoy de 8 a 14.00, hasta que he reiniciado. Vaya tela, ya van 3 días y no estoy en casa por la mañana...

Power
10/06/2008, 08:51
Gracias Alonso.
Ya te he añadido a la lista de afectados del primer mensaje de este hilo.

Saludos

alonso
10/06/2008, 08:45
Alonso. Kemsirve 0.8 XXL
Caídas: media de tres diarías a 5 diarias durante 2 semanas desde inicio.
El problema siempre es de sfoware.

Power
10/06/2008, 08:34
Gracias TRASGU25.
Ya te he añadido a la lista de afectados del primer mensaje de este hilo.

Saludos

TRASGU25
10/06/2008, 06:33
Yo llevo dos semanas con Un Kimsufi 08 y estoy desesperao.
Se me cae minimo 5 veces al dia.

Y en OVH ni puto caso.
Tengo en mi e-mail mas de 100 post refiriendose a las perturbaciones de los co..........

Perdon por el lenguaje pero no se que hacer.



Salu2.

jmjosebest
10/06/2008, 01:45
Pues A Mi Me Va Perfectísimo!!

Shuugo
09/06/2008, 21:12
Me retracto, el servidor no está arreglado, voy a comprar uno nuevo y solicitar la devolucion del dinero de este

josu
09/06/2008, 20:41
A mí lo que me hace gracia es que como solución a un servidor problemático es abandonarlo y migrar a uno nuevo.

Lo que quiere decir que cuando pillamos un servidor nuevo tenemos posibilidades de pillar uno de esos que van cambiando de mano en mano porque son defectuosos. Da miedo solo pensarlo :-)

Josu.

Shuugo
09/06/2008, 19:54
Cita Publicado inicialmente por jriera
Yo tengo un dedicado que se cae cada semana aproximadamente por problemas en uno de los discos del RAID. Claramente son fallos de hardware, los logs lo demuestran. ¿Solución? Contratar un nuevo servidor y migrar.

OVH hace oídos sordos, según ellos todo está correcto y son problemas de software. Tócate los huevos...

Es el problema de OVH, el trato es muy impersonal y si te toca algún técnico que no tiene experiencia, estás apañado...
Me paso algo similar
http://foros.ovh.es/showthread.php?t=1379

Power
09/06/2008, 19:13
Gracias Jriera.
Ya he añadido tu incidencia en la lista de afectados del primer mensaje de este hilo.
Si me indicas qué tipo de servidor es, lo añado también.

Saludos.

jriera
09/06/2008, 18:56
Yo tengo un dedicado que se cae cada semana aproximadamente por problemas en uno de los discos del RAID. Claramente son fallos de hardware, los logs lo demuestran. ¿Solución? Contratar un nuevo servidor y migrar.

OVH hace oídos sordos, según ellos todo está correcto y son problemas de software. Tócate los huevos...

Es el problema de OVH, el trato es muy impersonal y si te toca algún técnico que no tiene experiencia, estás apañado...

Power
09/06/2008, 18:07
Shuugo, anoto que ya está arreglado.
Gracias.

Shuugo
09/06/2008, 16:38
Aparentemente se ha arregaldo el problema en la nueva maquina que contrate.
He mandado emails a support@ovh.com soporte@ovh.es y he hecho una llamada a Soporte España.

ArteDark
09/06/2008, 15:12
A mi de momento no se me ha caído el servidor y lo tengo 2 semanas. Si sucediera el caso, la única solución es reiniciarlo, verdad? otra pregunta... pq son causadas estas caídas?

Un salutoooon!

Power
09/06/2008, 10:42
Shephard, tomo nota y lo añado en el primer mensaje.
Gracias

Shephard
09/06/2008, 10:26
Hoy se ha caído de nuevo. De 8 a 11.30

Power
08/06/2008, 22:47
Gracias Shephard.
Te añado a la lista del mensaje inicial del hilo.

Saludos

Shephard
08/06/2008, 20:33
Tuve una caída el otro día, pero se solucionó a los pocos minutos. Tengo un Superplan08.

Power
08/06/2008, 19:13
Gracias Shuugo.
Te añado las dos máquinas con caídas a la lista del mensaje inicial del hilo.

Saludos

Shuugo
08/06/2008, 18:48
#1: Superplan 08 Raid - 1 Caida por semana - Desconozco lo que le pasa, intentando migrar a la nueva maquina, pero demomento se cae más que esta.

#2: Superplan 08 Raid - Caida al instnate si hay actividad de red. (Actividad 50-75% unos 75mbps dentro del mismo datacenter. Se bloquea el puerto numero 25 del switch) - Problema aún no solucionado

#3: Kimsufi (viejo) - Sin quejas demomento

#4: Kimsufi (nuevo) - Sin quejas demomento

Power
08/06/2008, 16:03
Gracias MarcosBL. Edito mi mensaje y te añado como primer afectado en la lista.

Cruzbac, si nos pasas tipo de servidor y datos de las caídas, te podré añadir en la lista de afectados. Gracias.

Saludos

cruzbac
08/06/2008, 13:15
se caen mucho

MarcosBL
08/06/2008, 13:14
MG 2008 LARGE +
1 sóla caida en 4 meses, tras el primer reinicio.
Placa madre y tarjeta de red sustituidas, pero no reconfiguradas en el servidor, no pude lograr que me lo solucionasen ni siquiera pidiendo infogerencia de pago, he tenido que contratar otra maquina diferente y empezar a migrar.

Power
08/06/2008, 12:04
Hola,

Por todos los comentarios que vengo leyendo últimamente en este foro, parece que está habiendo un aumento considerable de caidas de servidores de OVH.

No sé si será problema de la velocidad con la que se están montando los nuevos servidores, aunque me parece entender que también está pasando con servidores que venían funcionando hace tiempo.

Estaba pensando trasladar mis servidores que tengo en otro proveedor a OVH, pero creo que visto lo visto, esperaré un tiempo a ver si OVH toma cartas en el asunto y da un explicación clara de por qué están ocurriendo tantas caidas.

¿Podríais los afectados ir contestando en este hilo poniendo el tipo de servidor, el tiempo que lleva en funcionamiento y el número de caídas en los últimos meses?

Saludos
========================================
Lista de afectados:

MarcosBL: MG 2008 LARGE + ... 1 sóla caida en 4 meses, tras el primer reinicio. Placa madre y tarjeta de red sustituidas, pero no reconfiguradas. Problema no solucionado. Contrata nueva máquina.

Shuugo: 1er Superplan 08 Raid ... 1 caída por semana. Intentando migrar a otra máquina que, de momento, se cae más que ésta.

Shuugo: 2º Superplan 08 Raid... caída al instante si hay actividad de red. Problema aún no solucionado.

Shephard: Superplan 08 ... Una caída hace pocos días, pero se solucionó a los pocos minutos. Nueva caída 09/06/2008 ya arreglada. Nueva caída 10/06/2008 hasta que se ha reiniciado. Nueva caída 11/06/2008. Parece ser que se llena una partición (defecto de OVH Release2).

Jriera: Se cae cada semana por problemas en uno de los discos del RAID. Son fallos de hardware como demuestran los logs. Según OVH todo está correcto y son problemas de software.

TRASGU25: Kemsirve 08 ... Se cae un mínimo de 5 veces al día. OVH no hace caso. Tiene más de 100 post refiriendose a esas perturbaciones.

Alonso: Kemsirve 08 XXL ... Media de 3 a 5 caídas diarías durante 2 semanas, desde el principio. Según OVH, el problema siempre es de software.

Xkalagan: Kemsirve 08 ... De 11 días del servidor, 5 días sin servicio. Abandona OVH por aburrimiento.

FourRoses: SuperPlan 08 con Windows 2003 server básico ... Desde el 01/05/2008 pantalla azul cada dos días dependiendo del tráfico. Parece que el problema reside en el driver rtnicxp.sys que usa la tarjeta de red.

========================================