重复数据删除 释放企业备份资源

鹰仔
+ 关注
2022-11-02 14:30
287次阅读

随着数据的重要性深入人心,数据备份成为企业营运发展的“必需品”,大多数企业都会通过定期备份来预防意外宕机、数据受损等“天灾人祸”。但数据存储规模每12到18个月就会翻一番,这就造成了虚拟服务器的占地空间、虚拟机密度与吞吐量的持续增长。

因此,数据保护基础设施的花费、性能和效率成为了每个企业所关心的问题。正是因为备份和恢复已经成为了企业的基础措施,它的数据量就更值得重视。数据量越大,数据保护处理所花费的时间和资源就越多。

研究表明,如果备份中仅传输和存储唯一数据,则企业最多能够将其存储容量和网络需求降低50倍。如果同一数据多次存储和传输到同一存储设备,就是对时间和资源的浪费,而人工去查验这些重复数据将耗费大量的时间和人力。基于这种需求,数据备份保护过程中的重复数据删除技术应运而生。

什么是重复数据删除?

重复数据删除(data deduplication)是一种通过检测数据重复并将同一数据仅存储一次来最大程度地减少存储空间的技术。本质上讲,重复数据删除就是消除数据集中的非唯一数据段。从这个定义来看,重复数据删除似乎与压缩功能并无二致。不过,它们真正区别在于,重复数据删除还可以缩减历史数据的大小,从而节省大量存储成本,并防止未来从多个来源复制类似数据。

重复数据删除 释放企业备份资源

重复数据删除的逻辑

重复数据删除可优化冗余,而不会损坏数据保真度或完整性。启用重复数据删除后,它可以对数据进行分段,对照之前已写入的数据矩阵进行检查。最终的结果是,它保证发送到存储的数据段都是独一无二的,而重复的部分则引用类似数据段的唯一实例。

除此之外,重复数据删除还能够在文件级、子文件级(文件片段)或块级运行,通常可以与备份解决方案支持的所有操作系统一起使用。

重复数据删除的工作原理

简而言之,重复数据删除首先会将待删除重复内容的数据集分割成数据块。一个数据块包含一个或多个连续的数据片段。一旦流程开始创建数据块,它就会将数据块与重复数据删除系统之前已经创建和发现的全部数据块进行对比。

系统将会通过运行确定性加密哈希(Hash)算法来比较各个数据块。如果两个不同数据块的哈希相匹配,则系统会认为它们完全一致,因为哪怕是最细微的更改,数据块的哈希也会发生更改。

重复数据删除流程可消除重复的数据块,仅存储独一无二的数据块。它依靠指纹 — 数据块独特的数字化签名来识别数据块。因此,内联重复数据删除会在系统写入数据(内存数据结构)时,检查传入的数据块,为每个数据块制定一个指纹,并存储在哈希存储中。

计算指纹后,该流程在哈希存储中进行查询。然后检查数据块是否与缓存中的指纹(供体数据块)有重复。如果在哈希存储中找到匹配项,则会出现如下两种情况:

如果存在匹配,它会将新的数据块(接收数据块)和供体数据块进行比较,这类似于一种验证。系统会在两个数据块间验证数据,但不会将接收数据块写入磁盘。然后更新元数据以跟踪相同部分的细节。

如果缓存中没有供体数据块,则系统会预先从磁盘中提取,然后将其与缓存中的接收数据块进行逐个字节的比较。如果完全匹配,则系统会将接收数据块标记为重复,不写入磁盘,但会更新元数据以跟踪相同部分的细节。

后台复制引擎的工作原理基本相同。它以批量方式搜索所有数据块,然后比较指纹,并进行逐个字节的比较,消除误报,删除重复内容。该流程不会丢失任何数据。

鸿翼备份重复数据删除技术

鸿翼备份的重复数据删除技术能够在备份过程中识别并消除重复的数据块,对Windows、Linux等系统中的所有数据类型实现重复数据删除,从而减少所需的备份存储空间。采用源端去重技术,同时极大程度地节省数据传输带宽和传输时间。

重复数据删除 释放企业备份资源

鸿翼内容保护重删方案的处理流程

同时,鸿翼备份能够保障即使在长距离或网络带宽很低的情况下,远程站点的备份文件在经过去重和压缩后,也能被高效地传输。以往远程分支机构的备份需要数小时,通过充分利用中央备份系统的架构,如今已经能够缩短至几分钟。

随着业务的扩张,每天都有海量数据等待着企业的管理和利用。只有合理地对企业内的数据进行管理,做好备份容灾,才能保障企业运行的长治久安。鸿翼备份的重复数据删除能力能够支持企业以自动、高效的方式处理大量数据,保证数据安全与迅速恢复,助力企业降本增效。

 

[免责声明]

原文标题: 重复数据删除 释放企业备份资源

本文由作者原创发布于36氪企服点评;未经许可,禁止转载。

资深作者鹰仔
鹰仔
0
上海鸿翼软件技术股份有限公司
实力厂商
实力厂商
优质服务
优质服务
及时响应
及时响应
立即询价
相关文章
最新文章
查看更多
关注 36氪企服点评 公众号
打开微信扫一扫
为您推送企服点评最新内容
消息通知
咨询入驻
商务合作