La dedupliación de datos es conocida también como el almacenamiento de instancia única o compresión inteligente, el cual consiste en eliminar las múltiples copias que existen de los datos reduciendo así la sobrecarga de almacenamiento.
Los bloques de datos duplicados, son reemplazados mediante un enlace a una copia única. De este modo, la deduplicación se alinea de una manera estrecha a una copia de seguridad incrementada, la cual copia sólo los datos que han sido modificados desde la ultima copia de seguridad que se realiza.
Técnicas para la deduplicación de datos.
Hay dos métodos que son los que más se usan para la deduplicación, los cuales son: Inline y la deduplicación post-procesamiento.
- Deduplicación Inline: ésta consiste en analizar los datos a medida que se van incluyendo en el sistema de respaldo. El exceso de datos es removido, a medida que estos se van almacenando en el respaldo o copia de seguridad. Los proveedores de arreglos de almacenamiento, recomiendan que las herramientas de deduplicación de datos Inline se desactiven para proceder con el almacenamiento primario de alto rendimiento.
- Deduplicación Post-procesamiento: éste es un proceso de respaldo no sincronizado que elimina el exceso de datos luego de que son almacenados. Los datos duplicados son eliminados y reemplazados por un puntero en la primera iteración del bloque. El enfoque de esta deduplicación, le da a los usuarios tener la flexibilidad de deduplicar la carga de trabajo de manera que se puedan recuperar de manera rápida las copias de seguridad más recientes.
Deduplicación a nivel de bloque y a nivel de archivos
La deduplicación de datos generalmente trabaja a nivel de archivos o de bloque. Cuando se habla de deduplicación de archivos, este es capaz de eliminar archivos duplicados, pero no es tan eficaz para la eliminación de datos que están duplicados.
- Deduplicación a nivel de archivos. Este compara archivos previamente almacenados en las copias de seguridad y se hace por medio de la comprobación de los atributos con un índice. En caso de que el archivo sea único, este se almacena y se realiza una actualización del índice, en caso contrario, solo una parte del archivo es almacenado. El resultado es que solo una parte de los archivos se guardan, y las copias siguientes son reemplazadas por un apéndice que dirigen al archivo original.
- Deduplicación a nivel de bloque. Busca dentro de cada archivo y va guardando en cada bloque. Cada bloque se separa por fragmentos con la misma longitud, cada uno de estos fragmentos es procesado usando un algoritmo hash tal como MD5 o SHA-1.
Este proceso genera para cada pieza un número único y son guardados posteriormente en un índice. Al momento de actualizar un archivo, solo serán guardados los datos que se hayan modificado, pero estos cambios no representan un archivo totalmente nuevo. Sin embargo, la deduplicación de un bloque, requiere de un índice más grande al momento de realizar el seguimiento de sus piezas individuales.
Imagen cortesía de Bluize (bluize.com.au), todos los derechos reservados.