¿Qué es raid? Las claves del almacenamiento (I)

Las claves del almacenamiento

Las velocidades de los diferentes dispositivos e interfaces en el mercado hoy son causa de los principales cuellos de botella en el manejo de archivos informáticos. De nada sirve tener la mejor velocidad de conexión, como cuando los fabricantes nos dicen que usan Thunderbolt-2 , cuando luego tenemos en el interior un disco cuyo funcionamiento es un cuello de botella muy significativo . Otra de las cosas a tener en cuenta es la seguridad de nuestros datos y elegir para ello el mejor almacenamiento.

Así que varios son los elementos a tener en cuenta ya que de nada sirve estar a la última con la tecnología de captación digital si luego no lo acompañamos con una logística adecuada en el copiado y almacenamiento:

  1. Los datos tienden a crecer y con las nuevas camaras 4k mucho más, así que hay que planear por adelantado ese crecimiento.
  2. No todas las soluciones son adecuadas para el ámbito profesional. Habrá que estar seguros de que nuestras soluciones encajan con nuestras necesidades.
  3. Hay que tener en cuenta el flujo de trabajo todo el tiempo. Las entregas diversas y simultáneas o la posible compartición de archivos.
  4. Considerar los avances tecnológicos y el modo tan rápido en que cambian.
  5. Tener en cuenta los sistemas operativos y sistemas de archivos.
  6. Considerar el Data Recovery como una posibilidad que en algún momento tendremos que utilizar.
  7. Por supuesto buscar soluciones de coste moderado pero de gran productividad. Mejor los que no sean costosos operacionalmente pero que permitan muchos tipos de archivos y un acceso rápido.
  8. Cuidado con quedarnos atascados en soluciones de almacenamiento antiguas aunque tengan una gran capacidad de almacenamiento ya que la velocidad de lectura y escritura hace que nuestro servicio pueda ser más competitivo. No solo cuanto podemos almacenar.

Veamos entonces algunos conceptos importantes dentro de lo que conocemos como almacenamiento para saber si estamos optimizando la lectura y escritura de archivos y por supuesto el simple copiado. Lo más importante identificar los cuellos de botella en tu infraestructura de red y de almacenamiento. Esto es hablar de capacidades de los discos, sistemas diferentes de almacenamiento y conectividad. Y tengamos en cuenta que  los sistemas llegan al límite de su capacidad para poder trabajar, que no es el tope de su capacidad de almacenamiento (nunca debemos superar el 80% de la capacidad total de almacenamiento si queremos evitar muchos problemas) o a veces la copia de archivos es demasiado lenta o incluso la profusión de versiones no identificadas colapsa nuestra estructura. A veces la solución no es invertir en más almacenamiento, sino en saber de que tipo ha de ser ese almacenamiento.

Tipos de protección RAID: Los diferentes niveles explicados

El término RAID fue acuñado en 1987 para definir grupos de varios discos (Conjunto redundante de discos independientes o “inexpensive” (baratos)) y hace referencia a un tipo de almacenamiento que usa un controlador y varios discos entre los que se distribuyen los datos como si fuera un solo volumen, solo que más rápido. Es decir que el sistema operativo no ve cuantos discos son sino una sola unidad lógica. Este Raid se puede configurar de diferentes modos o niveles ofreciendo diferentes beneficios: Seguridad si se usa redundancia en diferentes niveles, mayor tolerancia a los fallos , velocidad o rendimiento lejos de las limitaciones mecánicas de escritura y lectura de un solo disco, y capacidad.

Tipos o Niveles: JBOD (just a bunch of disks, en inglés). Cada disco es un volumen

RAID 0

Screen Shot 2014-12-22 at 18.59.16Que se debería llamar AID ya que no hay redundancia o protección contra perdida de datos, pudiendo ser incluso su fiabilidad casi peor que la de un solo disco. Sin embargo nos dan mucha velocidad ya que la información va a parar d emodo segmentada a los diferentes discos multiplicando la velocidad a la que pueden grabar la información o leerla. Es una magnífica solución para discos de tránsito en el set donde lso copiados han de ser a la máxima velocidad posible.

La técnica usada  es el STRIPING : Sabemos que una de las principales desventajas de los discos es la limitación mecánica de su mecanismo que le otorga un máximo de velocidad de lectura/escritura. Como en el RAID tenemos varios discos, la oportunidad surge de usar varios discos en paralelo, cortando, “chopeando” un archivo en trozos más pequeños y colocando cada una de las piezas en discos diferentes. Es lo que se conoce como Striping. Este troceado puede hacerse a diferentes niveles: bytes o bloques. Es decir, trocear el archivo original en la unidad mínima de información o sectores o en bloques de determinado tamaño según nuestras preferencias para hacerlo más eficaz dependiendo del tipo de archivos que sean. Pero la técnica del Striping no implica protección. No hay redundancia aún. Solo velocidad.

RAID1

Screen Shot 2014-12-22 at 18.58.39Aquí hablamos de Mirroring, que es una de las técnicas de redundancia que se usa en los RAIDS. La otra es la PARIDAD. El principio es que cada archivo está copiado de modo simultáneo en dos ubicaciones. Por supuesto que hablamos siempre de un número par de discos. La seguridad es 100% , pero sin embargo es costoso ya que usamos el doble de discos y no hay ventajas en términos de velocidad en este sistema. Este es el modo en el que se configura un RAID 1.

A partir de ahí se define una paridad. Cada nivel de configuración de RAID utiliza una técnica basada en bytes o en bloques para establecer su paridad. Del 1 al 3 usan bytes y del 4 en adelante , bloques.

 

 

RAID 5

Screen Shot 2014-12-22 at 18.59.02El más usado después del RAID1 es el Raid5 que usando un striping en bloques distribuye todos los datos con paridad entre los discos miembros del volumen. Cada vez que un bloque de datos se escribe se genera un bloque de paridad dentro de la misma división o sector que solo se leerá en caso de fallo en la lectura. Si algo ocurre en un disco, los bloques de paridad de los restantes discos son combinados matemáticamente con los bloques de datos de los restantes discos para reconstruir los datos del disco que ha fallado.

Así, en un RAID5 podemos tener una configuración especial con un disco en “hotspare”, conectado y preparado, que en caso de fallo se puede cambiar. Es lo que llaman configuración RAID5E. Se minimiza así el tiempo de reconstrucción en caso de fallo. Es un disco que no es parte del conjunto hasta que hay un fallo.

En RAID 6 hasta dos discos pueden fallar ya que añade dos bloques de paridad que distribuye entre los discos del conjunto.

Así las configuraciones RAID nos ofrecen seguridad a los fallos mecánicos de los discos (aunque se sigue siendo vulnerable a otros riesgos como borrados accidentales o corrupción de datos por virus por ejemplo) y rendimiento aumentando la tasa de transferencia. Por otro lado tener en cuenta que dado que se reserva un espacio para la paridad, un conjunto de discos en RAID 5 por ejemplo tienen una capacidad de almacenamiento menor que la suma de todas sus capacidades individuales, generalmente de un 20-25% menos, así que debemos tener en cuenta este factor a la hora de calcular el almacenamiento necesario.

Las funciones del DIT y del data manager

 

 

OUTLABS, Training in Caracol, November 2014. Jesus Haro Trainer

Tras el éxito de la reciente capacitación a los técnicos de la cadena de TV Caracol, como fruto de ese trabajo hemos establecido una serie de funciones y protocolos para el Técnico de Imagen Digital y el Data Manager, dos nuevas figuras en el rodaje audiovisual con cámaras de datos.

 

Ver también el artículo: El DIT , ese trabajo malentendido, publicado recientemente en la revista CAMERAMAN.Screen Shot 2014-12-15 at 12.04.08

Leer más