CAS: Tecnologías de Almacenamiento orientadas a retención y localización



Normalmente organizamos el Almacenamiento de datos utilizando dos tipos de tecnologías: los discos destinados a información de trabajo, información que se mantiene viva, y las cintas, pensadas para las labores de copias de seguridad, con la ventaja de que pueden ser duplicadas y trasladadas físicamente a otro enclave. Pero, ¿quién no ha tenido alguna vez la necesidad de localizar un documento o transacción concreta y justificar que no ha sido alterada, frente a auditores o requerimientos legales?. El abaratamiento y mayor capacidad de discos está poniendo en tela de juicio alguno de los usos de las cintas. Uno de ellos tiene que ver con la salvaguarda de datos persistentes y de aquellos que pueden ser usados como evidencias de transacciones. Si se combina la capacidad de asegurar la inalterabilidad de los datos copiados con la facilidad de su localización, se obtiene la tecnología CAS.

CAS (Content-Addressed Storage) es una tecnología para el almacenamiento a largo plazo de documentos electrónicos garantizando la integridad y conservación de los mismos y su localización sin ambigüedades. Para ello, la plataforma CAS genera un identificador único e irrepetible para dicho fichero en función de su contenido gracias a una función hash. Dicho identificador debe ser recordado por las aplicaciones para posterior referencia.

La Tecnología CAS fue introducida en 2002, pero ya existen varias alternativas en el mercado, y típicamente comprenden dos etapas: la parte pura de almacenamiento, donde los datos se escriben y mantienen físicamente, y la etapa de acceso o elaboración, donde se producen los metadatos, identificación del fichero o documento y la localización en la etapa física. Cuando un documento se pasa al sistema CAS, la etapa de elaboración calcula su hash, y es entonces cuando se almacena basado en ese hash, y no en el nombre o entradas de tablas o directorios (como en el caso de sistemas operativos o sistemas de ficheros). Para recuperar el documento, también se utiliza su hash como localizador. De esta forma, el sistema puede contribuir (dependiendo de configuraciones y versiones de fabricantes) a reducir el espacio de almacenamiento, identificando y eliminando la duplicación de documentos, y a la vez favorecer el seguimiento de cambios y versiones, dado que cualquier pequeño cambio en el contenido (aunque no se haya cambiado el nombre del fichero) da lugar a un hash-localizador diferente.

La combinación de estos elementos conlleva toda una serie de ventajas, si bien, también existen contrapartidas. En primer lugar, CAS facilita la localización de documentos y, por lo tanto, reduce el tiempo para recuperar documentos requeridos como evidencias, análisis forenses, requerimientos legales. Esto es debido a la elaboración de los metadatos pero que requiere un trabajo intensivo de CPU. La tecnología CAS permite intrínsecamente la de-duplicación, optimización del espacio de almacenamiento evitando copias idénticas, pero hay que tener cuidado en cuanto a la interoperabilidad. CAS es una tecnología especialmente pensada para información susceptible de normativas en cuanto a sus habilidades de retención de datos, garantías de integridad y no modificación, y localización y descubrimiento de documentos requeridos por auditorias o acciones legales, pero esto puede inducir a almacenar más información de la necesaria, y no es una tecnología barata.

Teniendo todo esto en cuenta, el uso fundamental de CAS es con datos persistentes y archivados. Administraciones Públicas y empresas privadas están iniciando la carrera de eliminar sobrecostes en tiempo, dinero y calidad de atención a sus usuarios y clientes, asociados con el tratamiento de papeles, y digitalizando y almacenando multitud de documentos, facturas, pedidos, reclamaciones,… pero también llamadas de clientes, fotografías, videos, etc. El repositorio ideal para todo este tipo de información es precisamente CAS, porque ahorra espacio, aplica políticas de retención y ayuda a localizar los documentos cuando son necesarios. Además, su garantía de integridad habilita su uso como prueba forense o legal. Precisamente por eso, también se está considerando CAS para archivado de correo electrónico. De hecho, cada vez son más los sistemas de archivado de correo que tienen interfaces con sistemas CAS.

Los vectores de evolución de la tecnología CAS se centran en tres direcciones:

  • Rendimiento: ya se mencionó anteriormente que la elaboración del metadato y el hash del fichero o documento es intensiva en CPU. Para remediar esta limitación algunos fabricantes están asociando la solución a plataformas hardware específicas con procesadores dedicados a esta función.
  • Interoperabilidad: probablemente es uno de los mayores puntos de atención en este momento. Básicamente los sistemas CAS no son interoperables dado que no existe actualmente una estandarización de cómo se generan e intercambian los metadatos y localizadores. Afortunadamente el SNIA (Storage Networking Industry Association) está trabajando en la propuesta de un estándar que permitirá la migración de los metadatos (en formato XML) entre distintos sistemas CAS.
  • En cuanto al abaratamiento de la solución, algunos fabricantes están apostando por soluciones software que permiten combinarse con distintas plataformas servidoras y almacenamiento de propósito general (Linux, Windows, discos SATA).

Otro elemento de evolución está alrededor de la salvaguarda de documentos firmados electrónicamente, dónde las funciones CAS de preservar el documento sin alteración se tienen que completar con la función específica de custodia, dedicada a preservar la cadena de garantía de la validez de la firma y certificados utilizados para firmar el documento. Aquí hay que reconocer que España, debido al impulso de la Administración Pública y el despliegue de certificados y DNIe, está en la vanguardia tecnológica.

De todas formas, CAS es una tecnología en rápida evolución y todos los grandes fabricantes están haciéndose un hueco, casi siempre asociado a sus estrategias de archivado. En prácticamente todas las grandes organizaciones CAS, es una alternativa que se está considerando para el almacenamiento de logs, registros financieros sujetos a normativas, a veces correo electrónico y, en general, todo aquello que suponga una posible evidencia o sujeto de requerimiento legal. Especialmente proclives a sacar rendimiento a la tecnología CAS son las empresas del sector financiero, seguros, y también en el ámbito de la administración pública, sobre todo salud y justicia.

Ahora el desafío es aprovechar no solo sus características de retención legal, sino las de localización de contenidos y, por lo tanto, sus posibilidades en digitalización de contenidos y entornos sin papel. El abaratamiento de la tecnología permitirá superar el ámbito de las grandes organizaciones.

 

Eduardo López
Product Marketing
Área de Gestión de Datos
GRUPO SIA

GRUPO SIA


delivering value
acceso a web de Grupo SIA