¿Es seguro utilizar consumibles MLC SSD en un servidor?

Nosotros (y por nosotros me refiero a Jeff) están estudiando la posibilidad de usar discos SSD MLC de consumidor en nuestro centro de datos de respaldo.

Queremos tratar de mantener bajos los costos y el espacio utilizable, por lo que los Intel X25-E están a unos 700 dólares cada uno y 64 GB de capacidad.

Lo que estamos pensando hacer es comprar algunos de los SSD de gama baja que ofrecen más capacidad a un precio más bajo. Mi jefe no cree que el gasto de 5k para los discos en los servidores que se están agotando del centro de datos de respaldo vale la pena la inversión.

Estas unidades se utilizarían en una matriz RAID de 6 unidades en un Lenovo RD120. El controlador RAID es un Adaptec 8k (Lenovo reembrandado).

¿Qué tan peligroso es este enfoque y qué se puede hacer para mitigar estos peligros?

8 Solutions collect form web for “¿Es seguro utilizar consumibles MLC SSD en un servidor?”

Algunos pensamientos;

  • Los SSD tienen memoria "overcommit". Esta es la memoria utilizada en lugar de las células "dañadas" por escrito. Los SSD de gama baja sólo pueden tener un 7% del espacio de overcommit; Rango medio alrededor del 28%; Y los discos empresariales hasta un 400%. Considere este factor.
  • ¿Cuánto le escribirás por día? Incluso los SSDs de mediano alcance como los basados ​​en los 1200 chips de Sandforce raramente aprecian más de unos 35 GB de escritos por día antes de cortar seriamente la memoria sobrecomprada.
  • Normalmente, el día 1 de un nuevo SSD está lleno de escritura, ya sea OS o datos. Si tiene significativamente más de> 35 GB de escrituras en el primer día, considere la posibilidad de copiarlo en lotes para darle al SSD algo de "tiempo de limpieza" entre lotes.
  • Sin soporte de TRIM, el rendimiento de escritura aleatoria puede disminuir en un 75% en cuestión de semanas si hay mucha escritura durante ese período – si es posible, use un sistema operativo que admita TRIM
  • Los procesos internos de recolección de basura que realizan los SSD modernos se realizan muy específicamente durante períodos de silencio, y se detiene en la actividad. Esto no es un problema para un PC de escritorio donde el disco podría estar en silencio durante el 60% de su habitual ciclo de trabajo de 8 horas, pero se ejecuta un servicio de 24 horas … ¿cuándo se iniciará este proceso?
  • Suele ser enterrado profundamente en las especificaciones, pero como cheapo 'regular' discos, SSDs baratos también sólo se espera que tengan un ciclo de trabajo de alrededor del 30%. Usted los usará por casi el 100% del tiempo – esto afectará su tarifa del MTBF.
  • Mientras que los SSD no sufren los mismos problemas mecánicos que los discos regulares, sí tienen errores de un solo bit y de varios bits, por lo que consideramos fuertemente RAIDing a pesar de que el instinto no lo sea. Obviamente, tendrá un impacto en toda esa velocidad de escritura al azar encantadora que acabas de comprar pero considera de todos modos.
  • Sigue siendo SATA no SAS, por lo que su gestión de colas no será tan buena en un entorno de servidor, pero de nuevo el aumento de rendimiento adicional será bastante dramático.

Buena suerte – simplemente no "freír" con las escrituras 🙂

Encontré este acoplamiento, que tiene un análisis interesante y detallado de MLC contra SLC SSDs en servidores

En mi opinión, usar una matriz SSD de flash MLC para una aplicación empresarial sin por lo menos usar los efectos atenuantes (reclamados) de una tecnología como la MFT de Easyco es como saltar de un avión sin un paracaídas.

Tenga en cuenta que algunos vendedores de SSD MLC afirman que sus unidades son "suficientemente organizadas" para sobrevivir a las escrituras:

SandForce aspira a ser la primera compañía con un controlador que soporte chips de flash de celdas de varios niveles para unidades de estado sólido usadas en servidores. Mediante el uso de chips MLC, el SF-1500 prepara el camino para reducir costos y unidades de mayor densidad que los fabricantes de servidores quieren. Hasta la fecha, las unidades flash de los servidores han utilizado chips de celda de un solo nivel. Esto se debe a que la resistencia y la fiabilidad de los chips MLC no han estado generalmente a la altura de los requisitos de los servidores.

Se analizan más a fondo estas afirmaciones en AnandTech .

Además, ahora Intel ha salido en el registro diciendo que SLC podría ser excesivo en los servidores el 90% del tiempo :

"Creíamos que SLC [célula de un solo nivel] era necesaria, pero lo que encontramos a través de estudios con Microsoft e incluso Seagate es que estas aplicaciones de alto uso de computación realmente no escriben tanto como pensaban", dijo Winslow. "Noventa por ciento de las aplicaciones de centros de datos pueden utilizar esta unidad MLC [celda multinivel]".

Durante el último año, los vendedores han llegado a reconocer que mediante el uso de software especial en los controladores de unidad, son capaces de aumentar la fiabilidad y la resistencia de sus SSD MLC de clase consumidor hasta el punto en que las empresas las han adoptado para Servidores de centro de datos de alto rendimiento y arreglos de almacenamiento. Los proveedores de SSD han comenzado a utilizar el término flash NAND eMLC (empresa MLC) para describir esos SSD.

"Desde un punto de vista de volumen, vemos que hay entornos de computación de alto rendimiento y alto rendimiento que pueden necesitar SLC, pero eso está en el 10% de los requisitos de los centros de datos corporativos", dijo Winslow.

Intel está alimentando ese 10% superior del mercado de centros de datos empresariales a través de su empresa conjunta con Hitachi Global Storage Technologies. Hitachi está produciendo la línea SSD400S de Serial Attached SCSI SSDs, que tiene 6Gbit / seg. Rendimiento – el doble de su MLC-basado SATA SSDs.

Intel, incluso para sus unidades SSD orientadas al servidor, ha migrado de SLC a MLC con un muy alto "overprovisioning" de espacio con la nueva serie Intel SSD 710 . Estas unidades asignan hasta un 20% del almacenamiento total para redundancia internamente:

El rendimiento no es la máxima prioridad para el SSD 710. En su lugar, Intel tiene como objetivo proporcionar resistencia a nivel SLC a un precio razonable mediante el uso de un NEC eMLC HET NAND más barato. El SSD 710 también soporta el sobreprovisionamiento configurable por el usuario (20%), lo que aumenta significativamente la resistencia de la unidad. La garantía del SSD 710 es de 3 años o hasta que un indicador de desgaste alcance un cierto nivel, lo que ocurra primero. Esta es la primera vez que vemos la garantía de SSD limitada de esta manera.

Basa siempre este tipo de cosas en hechos más que en suposiciones. En este caso, la recopilación de datos es fácil: grabe perfiles IOPS de largo plazo de lectura / escritura de sus sistemas de producción y, a continuación, averigüe con qué se puede vivir en un escenario de recuperación de desastres. Usted debe utilizar algo como el percentil 99 como su medida. No utilice medias cuando mida la capacidad de IOPS – ¡los picos son lo que importa! Entonces usted necesita comprar la capacidad requerida y IOPS según sea necesario para su sitio de DR. SSDs puede ser la mejor manera de hacer eso, o tal vez no.

Así, por ejemplo, si sus aplicaciones de producción requieren 7500 IOPS en el percentil 99, puede decidir que puede vivir con 5000 IOPS en un desastre. Pero eso es por lo menos 25 discos de 15K requeridos allí mismo en su sitio de DR, por lo que SSD podría ser una mejor opción si sus necesidades de capacidad son pequeñas (suena como son). Pero si sólo mide que haga 400 IOPS en producción, sólo compre 6 unidades SATA, ahorre algo de dinero y utilice el espacio adicional para almacenar más instantáneas de copia de seguridad en el sitio de DR. También puede separar lecturas y escrituras en la recopilación de datos para determinar cuánto tiempo durarán los SSD no empresariales para su carga de trabajo según sus especificaciones.

Recuerde también que los sistemas DR pueden tener una memoria menor que la producción, lo que significa que se necesitan más IOPS (más intercambio y menos caché del sistema de archivos).

Incluso si el MLS SSD sólo duró un año, en un año los reemplazos serán mucho más baratos. ¿Así que puede hacer frente a tener que reemplazar el MLS SSD cuando están fuera?

Si ponemos a un lado el problema de cantidad de escritura (o probamos que los SSD de nivel de consumidor pueden manejarlo), creo que los SSDs son una buena cosa para agregar a entornos de nivel empresarial. Probablemente utilice los SSD en una matriz RAID. RAID5 o RAID6. Y el problema con esto es que después de un solo fallo de la unidad, la matriz se vuelve cada vez más vulnerable al fallo. Y el tiempo para reconstruir depende en gran medida del volumen de la matriz. Un conjunto de varios TB puede tardar días en reconstruirse, mientras se accede constantemente. En el caso de SSDs, las matrices RAID a) serán inevitablemente menores b) el tiempo de reconstrucción disminuye drásticamente.

Un documento sobre las diferencias entre SLC y MLC de SuperTalent pone la resistencia de MLC y un 10mo de la resistencia de un SSD de SLC pero las ocasiones son SSD de MLS sobrevivirán al hardware que usted los está poniendo de todos modos. No estoy seguro de cuán fiables son esas estadísticas / hechos de SuperTalent sin embargo.

Suponiendo que obtiene un nivel similar de soporte del proveedor de los SSD MLC, entonces el punto de precio más bajo hace que valga la pena una inyección.

Sólo debe calcular la cantidad de escrituras diarias que tiene con su configuración actual y comparar con lo que el fabricante garantiza sus unidades SSD puede sostener. Intel parece ser el más adelantado al respecto – por ejemplo, eche un vistazo a las hojas de datos de sus unidades SSD principales: http://www.intel.com/design/flash/nand/mainstream/technicaldocuments.htm

La sección 3.5 (3.5.4, específicamente) del documento de especificaciones dice que está garantizado que su unidad dure al menos 5 años con 20 GB de escrituras por día. Supongo que se está calculando cuando se utiliza toda la capacidad de la unidad y no aprovisionar ningún espacio libre para las escrituras usted mismo.

También es interesante la hoja de datos sobre el uso de SSD mainstream en un entorno empresarial.

Desplegué un par de impulsiones de 32gb SLC hace un par de años como amortiguador para alguna aplicación hideously mal diseñada que estábamos utilizando.

La aplicación era un 90% de escritura pequeña (<4k) y se estaba ejecutando constantemente (24/7) a 14k w / s una vez en las unidades SSD. Se configuraron RAID 1, todo fue rosado, la latencia fue baja!

Sin embargo aproximadamente un mes en y la primera unidad llena, literalmente en 3 horas, la segunda unidad había muerto también. RAID 1 no es un buen plan después de todo 🙂

Estoy de acuerdo con los otros carteles en algún tipo de RAID 6 si nada más se propaga a los que escribe a través de más unidades.

Ahora tenga en cuenta que esto fue hace un par de años y estas cosas son mucho más confiables ahora y es posible que no tenga un perfil de E / S similar.

La aplicación ha sido re-diseñada, sin embargo, como un hueco de parada que puede o no puede ayudarle, hemos creado un disco de RAM grande, creó algunos scripts para reconstruir / copia de seguridad del disco de RAM y tomar el golpe de una hora o así la pérdida de datos /tiempo de recuperación.

Una vez más, el ciclo de vida de sus datos puede ser diferente.

  • Descripción del uso del almacenamiento VMFS
  • ¿Qué son los dominios?
  • Mezcla de HBA en un clúster de conmutación por error?
  • ¿Es mejor RAID 0 o JBOD mejor para el server de medios doméstico?
  • Tamaño del disco direccionable por el sistema operativo
  • Caché de datos (XCache, APC, memcached, etc) sobre alojamiento compartido / consideraciones de privacidad
  • Servidor de almacenamiento - 100 TB +
  • ¿Cómo puedo probar el efecto de ionice (contra un dispositivo usando el planificador cfq)?
  • esx4 vmfs3 raid reconstrucción
  • Linux - ajuste de controller RAID de hardware real (scsi y cciss)
  • ¿Cómo funciona el almacenamiento directo conectado (DAS)?
  • El linux y los temas del servidor de Windows, como ubuntu, centos, apache, nginx, debian y consejos de red.