不同重复数据删除模式，你该如何选择

尽管今天单位存储空间的成本不断走低，但企业需要存储或者备份的数据量仍然在持续上涨，导致了企业在磁盘存储空间方面无止境的成本投入。是否能有一种技术或者解决方案能够10倍甚至20的缩减企业数据量，让磁盘备份在容量空间方面的成本能够被更多的企业承受呢？重复数据删除正是近期的一项热门技术，由于可以大幅压缩和删减用户需要备份的数据量，因此让用户和厂商都对此青睐有加。

但是一旦深入到重复数据删除的采购，这些专家就没有更好的意见了。因为重复数据删除的很多供应商目前仅仅能够实现这项功能，而实现的具体方式则各有不同，适用于一家公司的重复数据删除解决方案，未必就适用于另外一家公司。IT168特邀昆腾资深技术顾问为大家深入解析重复数据删除的底层原理与应用。

主持人：重复数据删除是存储业内近年来比较热门的概念之一，相信对于重复数据删除，有很多网友有这样那样的疑问，今天我们非常有幸请来昆腾公司的王刚先生，为大家对重复数据删除做深入的阐释。前期在论坛上也很多网友提了很多这方面的问题，我们选择了一些有价值的问题，在访谈当中王刚先生会针对这些问题做一些回答。首先我们还是希望王刚先生介绍一下重复数据删除概念。

王刚：好的，重复数据删除实际上是最近几年比较热门的一个话题。那么重复数据删除在大家的印象之中，首先考虑到的是数据删除，所以说比较回避这个话题，觉得数据删除首先会涉及到安全性问题，或者说这个数据删除到底实现的模式是什么样子。

重复数据删除目前有很多叫法，比如说容量优化，或者是复本删除技术，这些技术实际上总体的原理是一样的，就是用户在存储和备份数据的时候，已经存在的数据，比如说昨天或者前天，有同样一份数据，那么今天再往用户的虚拟带库，或者是磁盘上存的时候，这些数据还要不要重复的存上去，如果这个数据继续存上去的话，就会占用多余的存储空间，这就是重复数据删除由来的原因之一。

有些人会比较混淆重复数据删除与数据压缩，我们可以简单的分析一下，在重复数据删除里面它部分借鉴了压缩的模式，但不一样的地方在哪儿呢？

压缩一般是挑选数据类型的，比如说视频文件，这些已经压缩过的数据对压缩技术来讲效率就不高，而对于数据库和文本文件，这些文本的数据文件，压缩的效果一般能达到2比1以上。

重复数据删除不同，重复数据删除对数据进行一些算法的处理。把数据切割成一块一块，比如说4K，或者是16K，32K，然后进行比对，比对完了以后，只有变化过的，唯一的数据块才存到磁盘空间上去，这是基本的原理，如果这样理解了的话，就会发现可以把这个叫做复本删除，或者是容量优化。但是如果用户的数据原来没有发生重复数据删除的话，这个数据会几倍几倍的往磁盘空间上增加，采取了数据删除以后，这个增加的是唯一的数据块。

主持人：现在各个厂商都有重复数据删除的产品，昆腾也是其中一家，您介绍一下这些种类，和不同技术带来的优势和劣势。

王刚：重复数据删除的产品很多，但是我们看这些产品，或者是在挑选这些产品的时候，要搞清楚的一点是：他们的重复数据删除是基于哪种技术的？

一般而言分为三种技术。第一基于字符块的，数据文件在进入重复数据删除设备，或者软件的时候，这个引擎会对这个文件进行字符块的分块，比如说4K，16K，32K，然后把这个输入到一个函数里面得出唯一的值，然后以这个值为比较，如果在函数列表里面发现同一个值的话，那就表明这个数据块是唯一的，这是一种模式。

还有一种就是这个文件先输入到重复数据删除的引擎里面，这时候是对这个文件进行一次扫描，扫描以后有可能对文件进行逐个字节的对比，这是第二种模式。

第三种也是对数据进行分块的分割，但是很明显这个分割的时候，这个字符块大小不是固定的，如果是固定的，这个效率肯定会影响重复数据删除的效率。那么固定与不固定的区别在什么地方呢？不固定的是分割的时候先扫描一下，看看这些块根据哪一个模式，多少长度分割出来以后，这个重复率是最高的，然后进行切割，产生一个唯一的列表值。如果是固定的话，不管这文件输入进来以后，怎么分割重复率都是固定的。

这样从技术上来看就是两大流行：基于文件的与基于数据块的。这两个主流确定下来以后，实际上在选择重复数据删除的时候，还有一点比较重要，就是重复数据删除发生在哪个位置，这一点与用户最终的采购选择以及应用模式有很大关系。

相关文章：

你感兴趣的文章：

标签云：