Fujitsu ha desarrollado un sistema “ETERNUS CS800” con una función de procesamiento de deduplicación de datos. El proceso de deduplicación de datos de Fujitsu se refiere a un enfoque específico para la reducción de datos basado en una metodología que reemplaza sistemáticamente los punteros de referencia por bloques redundantes de longitud variable dentro de un conjunto de datos determinado.
Fujitsu ha desarrollado un sistema “ETERNUS CS800” con una función de procesamiento de deduplicación de datos. El proceso de deduplicación de datos de Fujitsu se refiere a un enfoque específico para la reducción de datos basado en una metodología que reemplaza sistemáticamente los punteros de referencia por bloques redundantes de longitud variable dentro de un conjunto de datos determinado. Este artículo describe las características, calificaciones y beneficios del proceso de deduplicación de datos de Fujitsu.
Deduplicación de datos: varios conjuntos de datos de un grupo de almacenamiento común
A nivel de resumen, la deduplicación de datos funciona segmentando el conjunto de datos en el entorno de copia de seguridad. Por lo general, divide el flujo de datos de copia de seguridad en bloques y escribe esos bloques en un destino de disco. Para identificar bloques dentro de un flujo transmitido, el motor de deduplicación de datos crea un índice de firmas digitales similares a huellas dactilares para cada segmento de datos y firmas para repositorios específicos. Un índice que se puede reconstruir a partir del segmento de datos almacenado proporciona una lista de referencia para determinar si ya existe un bloque en el repositorio. Los índices se utilizan durante las operaciones de replicación para determinar qué segmentos de datos deben conservarse y qué segmentos de datos deben copiarse. Cuando el software de deduplicación de datos encuentra un bloque previamente procesado, inserta un puntero al bloque original en los metadatos del conjunto de datos en lugar de volver a guardar el bloque. Si el mismo bloque aparece varias veces, se generan múltiples punteros a ese bloque. La tecnología de deduplicación de datos de longitud variable almacena varios conjuntos de imágenes de metadatos independientes. Cada uno representa un conjunto de datos diferente, pero todos los bloques de referencia están contenidos en un grupo de almacenamiento común.
Bloques de longitud fija y segmentos de datos de longitud variable
La división de bloques de longitud fija se puede utilizar para buscar bloques repetidos en los datos transmitidos. Varios proveedores de software de respaldo ahora utilizan ese enfoque para incluir la deduplicación como una característica de su software, y se usa en al menos un dispositivo de respaldo en el mercado. Los sistemas de bloques fijos se utilizan con mayor frecuencia cuando el hardware básico realiza la deduplicación. porque requiere menos poder computacional. Sin embargo, la compensación es que el enfoque de bloques fijos es significativamente menos eficiente que el enfoque de bloques variables. Esto se debe a que la principal oportunidad para la reducción de datos en un entorno de respaldo es encontrar bloques duplicados en dos conjuntos de datos transmitidos que consisten principalmente en el mismo segmento pero no exactamente el mismo segmento. Al dividir el flujo de datos de respaldo en bloques de longitud fija, si el tamaño de cualquier parte del conjunto de datos cambia, todos los bloques posteriores cambiarán la próxima vez que se envíe el conjunto de datos. Por lo tanto, dos conjuntos de datos que difieren solo ligeramente pueden tener pocos bloques idénticos (consulte la Figura 3).
Impacto de cambiar el grupo de almacenamiento de deduplicación
Cuando un conjunto de datos es procesado por primera vez por un sistema de deduplicación de datos, la cantidad de segmentos de datos repetidos varía mucho según la naturaleza de los datos (esto incluye los tipos de archivo y la aplicación). Este efecto puede variar desde un beneficio muy pequeño hasta una mejora del 50 % o más en la eficiencia del almacenamiento. Sin embargo, si se escriben varios conjuntos de datos similares en un grupo de deduplicación común, como una serie de imágenes de respaldo de un volumen de disco en particular, cada nueva operación de escritura solo aumenta el tamaño del grupo total por la cantidad de nuevas operaciones de escritura. suele ser muy grande. El segmento de datos que introduce. Los conjuntos de datos que representan las operaciones comerciales tradicionales suelen tener solo una diferencia del 1 % o el 2 % en el nivel del segmento de datos entre dos eventos de copia de seguridad, pero con frecuencia se observan tasas de cambio más altas.