Diagnosticar fallos de hardware en un servidor dedicado

Objetivo

En algún momento de la vida de su servidor, puede experimentar una avería debido a un problema de hardware. Cuando el servidor se inicia en modo de rescate de OVHcloud, dispone de varias herramientas de diagnóstico que permiten identificar los componentes de hardware defectuosos.

Esta guía explica cómo diagnosticar fallos de hardware en un servidor dedicado.

Requisitos

Procedimiento

Esta guía explica los tests que deben realizarse para diagnosticar:

  • procesador(es)
  • conexión de red
  • memoria RAM
  • discos y particiones

Procesadores

La prueba del procesador tarda aproximadamente 30 minutos en analizar el funcionamiento del procesador. Si el servidor se cae durante la prueba, significa que el procesador está defectuoso.

WRKR=$(grep -c "^processor" /proc/cpuinfo)
stress-ng --metrics-brief --timeout 60s --cpu $WRKR --io $WRKR --aggressive --ignite-cpu --maximize --pathological
stress-ng --metrics-brief --timeout 60s --brk 0 --stack 0 --bigheap

Conexión de red

La prueba de conexión de red analiza el ancho de banda interno y externo. Estos datos son orientativos, ya que no se trata de una prueba de rendimiento.

ping -c 10 proof.ovh.net
for file in 1Mb 10Mb 100Mb 1Gb ; do time curl -4f https://proof.ovh.net/files/${file}.dat -o /dev/null; done

Memoria RAM

La prueba de memoria RAM analiza la integridad de los módulos RAM del servidor. Si el servidor se cae durante la prueba, significa que uno o más módulos RAM están defectuosos.

Warning

Atención, este test puede ser muy largo.

RAM="$(awk -vOFMT=%.0f '$1 == "MemAvailable:" {print $2/1024 - 1024}' /proc/meminfo)"
memtester ${RAM}M 1

Disk Health

Puede utilizar Smartmontools para comprobar el estado de sus discos leyendo sus datos SMART. Por ejemplo, para ver todos los detalles del disco denominado nvme1n1, escriba:

smartctl -a /dev/nvme1n1

Para más información sobre el resultado de este comando y su interpretación, consulte la documentación oficial Smartmontools.

Particiones del disco

La prueba de las particiones analiza el acceso al disco y verifica el sistema de archivos. Respecto al acceso al disco, la aplicación comprueba que el sistema pueda comunicarse con los discos duros del servidor. En cuanto a la verificación del sistema de archivos, la aplicación utiliza el comando fsck -fy.

Para comprobar el sistema de archivos, ejecute el siguiente comando:

fsck -fy

Para una prueba de lectura, ejecute el siguiente comando. Sustituya sd(x) por sus propios valores

hdparm -t /dev/sd(x)

Más información

Interactúe con nuestra comunidad de usuarios.

¿Le ha resultado útil esta página?