Nivel de ahorro en HP EVA 4000

Uno de los discos de nuestro EVA4000 murió hoy. Este grupo de discos (todos los volúmenes vraid5 con el nivel de reserva 1 y casi sin espacio para más volúmenes, unidades 1TiB) se está reconstruyendo con "espacio libre" en este momento, y tardará al less 15 horas en realizar la nivelación / reconstrucción.

No podemos conseguir un nuevo disco hasta el viernes. Por lo tanto, la pregunta es, ¿qué pasaría si otro disco muere antes de la nivelación completa? ¿Perderíamos datos? Y después de eso, ¿cuántos discos adicionales podrían morir antes de perder datos? ¿1 o 2?

En el RAID "habitual", seríamos vulnerables a la pérdida de datos mientras se realiza la reconstrucción, pero en este caso el espacio reservado para ahorrar es dos veces el tamaño del disco más grande, por lo que al less el efecto debería ser el mismo de con dos recambios.

Gracias por adelantado.

Actualización : He encontrado algunos hilos interesantes sobre esta pregunta pero todavía no puedo contestar a esta pregunta, así que estoy comenzando un bounty.

http://blog.thestoragearchitect.com/2008/10/27/understanding-eva/

http://www.google.com/url?sa=t&rct=j&q=&esrc=s&source=web&cd=1&url=http%3A%2F%2Fwww.experts-exchange.com%2FStorage%2FStorage_Technology%2FQ_25548177.html (Expert Exchange pregunta de google).

3 Solutions collect form web for “Nivel de ahorro en HP EVA 4000”

Version corta

El nivelado es el process después de la reconstrucción. Si su matriz está nivelando, usted está tan seguro como estaba antes de que el disco fallara.

Versión larga

Cuando pierde un disco, EVA intentará automáticamente utilizar cualquier espacio del rest de los discos sanos para crear una copy networkingundante de los datos que solían estar en ese disco. Si tenía un grupo de volumen con un disco virtual grande con paridad Vraid5 y perdió un solo disco, el EVA regenerará los datos que solían estar en el disco fallido en el espacio libre del primer disco. Si no hay suficiente espacio, utilizará 2, 3 o más discos, pero obtendrá una copy networkingundante de sus datos en el menor time posible. Cuánto time tarda, no puedo decírtelo. Pero volverá al estado "puede perder un disco y no perder sus datos" en muy poco time. Esto es, por supuesto, si tiene suficiente espacio libre en sus discos.

Usted mencionó ahorrar. No estoy familiarizado con este término, pero espero que esté hablando de "nivel de protección contra fallas", que es el espacio que el EVA reservará para una emergencia como la que está describiendo. Un solo nivel de protección significa que reservará el tamaño de dos de sus discos más grandes, y el doble – el tamaño de cuatro discos. EVA no informará este espacio como libre. Por lo tanto, si tiene un nivel de protección único y utiliza un 95% con 16 discos de 1 TB, tendrá 2 TB de reserva y sólo utilizará el 95% de los 14 TB restantes. Eso es 13.3TB utilizado, y 2.7TB libre. Y si usted toma el Vraid5 en count, que es 10.64TB espacio utilizable y 2.66TB desperdiciado para la paridad.

Una vez que el EVA haya hecho una copy networkingundante en como pocos discos como sea posible, comenzará a nivelar (yo personalmente prefiero llamarlo "equilibrio") los datos. Este process implica mover los datos para que todos sus discos terminen con aproximadamente la misma cantidad de datos al final. Este process toma mucho time, especialmente si su uso es bastante alto, pero está seguro si tiene otro error en este momento.

Vaya a Command View y compruebe el estado del grupo de volúmenes. Si dice que está nivelando – usted es tan seguro como solía ser antes del fracaso.

Ahora tienes 15TB de espacio en disco y usas 13.3TB. El EVA quiere mantener un nivel de protección único, pero no puede reservar 2TB (solo tiene 1.7TB no utilizado), por lo que probablemente esté reportando el nivel de protección solicitado como único y el nivel de protección real como ninguno . También puede estar reportando que su uso supera el 100%, ya que está utilizando 13.3 TB y para satisfacer el requisito de protección individual debe ser inferior a 13TB (15TB total – 2TB reservado para una sola protección).

Esto todavía significa que todavía puede perder otro disco, y usted todavía tendrá un almacenamiento saludable. Usted puede perder un segundo disco, y será la networkingundancia Vraid5 que va a proteger sus datos (aunque puede ver una degradación en el performance). Y, por supuesto, si tienes suerte puedes sobrevivir a un tercer y cuarto fracaso de disco, siempre y cuando no estén en la misma raya de Vraid (el Vraid5 de EVA es más como RAID5 + 0, con rayas que abarcan más de 5 discos).

Actualización: Sin relación con su pregunta, pero la última actualización de firmware de FATA tiene una "Solución para reinicios autoiniciados que pueden ocurrir en circunstancias excepcionales". Créanme, no se siente agradable ver discos sacados de un grupo de volumen sin ninguna razón.

Actualización 2: Actualizado porque un solo nivel de protección significa el espacio para dos discos.

Tuve una experiencia similar con mi MSA 4400. Lo mantuvimos funcionando con un 95% de capacidad, pero comenzó a tener unos 9 fallos de unidad al mes, así que estoy un poco familiarizado con el borde desigual del desastre de pérdida de datos.

Tienes varios niveles de espacio de inicio que te pueden impedir perder datos, y es difícil saber en cuál estás actualmente. El espacio de repuesto es grande, obviamente. Además, el nivel de vraid que usas jugará una parte. Además, incluso cuando se cambia la unidad, tendrá que rebuild de nuevo.

Lo principal que debe vigilar es el nivel de protección contra fallas en su piscina. Puede establecer un nivel solicitado (como doble) y luego compararlo con el nivel real (como single o none). Dicho esto, incluso si vas de doble a ninguno en un solo fallo de la unidad (una de las cosas que más odio de esta caja es que permite que), todavía tiene varias maneras de la matriz puede evitar que la pérdida de datos mediante la paridad de la magia negra o otra magia negra.

Para HP EVA:
Nivel 1 = la capacidad de dos de los mayores accionamientos configurados está reservada para ahorrar

Lo que significa que si pierdes 2 de tus discos, te quedarás sin piezas de recambio y solo dependerás de la paridad RAID5. En su situación actual, puede perder 1 disco más sin degradación de la matriz y 2 más sin pérdida de datos, pero con un performance degradado. En nuestras organizaciones tenemos SIEMPRE 2 discos de repuesto fuera de la caja y mantenidos a la misma temperatura (por lo que no se necesita revenido antes de la inserción).

  • ¿Cómo compartir un entorno SAN (Storage Area Network) entre serveres en DMZ y una networking interna?
  • ¿Es mejor elegir 8 x 2,5 '' o 4 x 3,5 '' HDD para un server SAN?
  • VMware ESXi extremadamente lento performance de disco virtual en comparación con RDM
  • Diferencias entre HP y EMC SAN
  • Balanceo de carga iSCSI MPIO con HP P2000 SAN
  • ¿Utilizar discos SAS en lugar de discos SATA tiene sentido sobre NFS para un almacén de datos VMWare?
  • ¿Por qué no puedo usar Servicios o similares como mi nombre de subdominio con SSL?
  • Configurar Windows para leer / escribir SAN compartida
  • Problemas de conectividad Dell Equallogic SAN - Serie 4000 a 6000
  • ¿Qué tan bueno es la conmutación por error del destino iSCSI en un linux san de dos nodos?
  • Decisión del conmutador Cisco FC SAN
  • EMC ScaleIO vs SAN virtual de Starwind
  • Velocidad de grabación / lectura del disco SAN
  • El linux y los temas del servidor de Windows, como ubuntu, centos, apache, nginx, debian y consejos de red.