¡Las unidades fallan y estamos preparados!

Uno de los tipos más comunes de fallas del sistema en el alojamiento web actual es una falla del disco duro y, dado que usamos RAID-10 , eso da como resultado una matriz RAID degradada y ese es el peor de los casos.seagate-barracuda-7200-11-disco-duro-falla-pulgar-200x198

Esto significa que la unidad debe ser reemplazada o la pérdida de datos es muy probable. Es nuestra primera línea de defensa. También usamos RAID-10 por motivos de rendimiento.

El simple hecho es que los discos duros fallan y no es una cuestión de si , sino de cuándo . Aquí hay un artículo de PC World sobre un estudio realizado en discos duros por la Universidad Carnegie Mellon y Google.

La buena noticia es…

Gracias a la experiencia de nuestro equipo de administración y al excelente equipo que tenemos en GreenGeeks, el conocimiento conjunto nos ha permitido combinar la experiencia laboral para garantizar que los datos de los clientes estén seguros y que el tiempo de inactividad se reduzca al mínimo absoluto durante una falla. Nos preocupamos por los procedimientos y políticas adecuados. Tenemos discos duros de reemplazo (incluido otro hardware como RAM, CPU, chasis de servidor, etc.) en espera en caso de falla, podemos reemplazar rápidamente el hardware afectado.

En el caso de que haya una falla en el sistema de archivos/disco duro, es probable que ocurran dos escenarios:

  1. Unidad defectuosa (en el mejor de los casos): simplemente reemplazamos la unidad y la tarjeta RAID de hardware reconstruirá la nueva unidad con la información perdida de los datos en las otras unidades y en unas pocas horas la matriz RAID se reparará todo mientras sus sitios aún están en línea, sin pérdida de datos. El tiempo de inactividad total puede ser inferior a 1 hora.
  2. Corrupción del sistema de archivos (en el peor de los casos): si una tarjeta RAID falla, esto puede resultar en un sistema de archivos corrupto fallido y será necesario realizar una restauración completa del sistema a partir de las copias de seguridad. El tiempo de restauración puede demorar algunas horas, sin embargo, tenemos servidores en espera y nunca volvemos a usar los mismos componentes de hardware.

Cuando hay corrupción en el sistema de archivos, intentamos repararlo dentro de un tiempo de restauración razonable, si esto no se cumple, procedemos a restaurar el servicio desde las copias de seguridad.

¡Sobre nuestras copias de seguridad!

Realizamos una copia de seguridad de todos nuestros servidores, todas las noches y retenemos los datos durante 24 horas en caso de una falla total que requiera la restauración de las copias de seguridad. ¡Nuestro esfuerzo de recuperación ante desastres! También estamos en el proceso de hacer que nuestras copias de seguridad sean redundantes.

La conclusión es que no se trata de si, sino cuándo y ser proactivo/preparado para lo peor es lo que garantizará que los datos no se pierdan como ocurre con otras empresas de alojamiento (¡no daré nombres!). Tenga la seguridad de que nos tomamos muy en serio nuestro negocio y de eso se trata: servicio de calidad y sin atajos.

Karl D.

GreenGeeks / Administrador de sistemas