基于采样消除重复数据的系统和方法
提供一种用于消除重复数据的技术。在接收到新数据集时,在所述数据集中识别一个或多个锚点。然后,对于所接收数据集中的锚点周围的区域与模式数据库中存储的锚点周围的区域执行逐个比特的数据比较,以识别前向/后向增量值。然后用存储指示符取代所接收数据集中由锚点、前向和后向增量值所识别的重复数据。
发明专利
CN200780023662.9
2007-04-26
CN101479944
2009-07-08
H03M7/00(2006.01)I
网络装置公司
L·郑;R·斯塔格尔;C·约翰斯顿;D·特林默;Y·弗兰策尔
美国加利福尼亚州
中国专利代理(香港)有限公司
柯广华%张志醒
美国;US
1. 一种用于从数据集中删除重复数据的方法,所述方法包括以下步骤:识别所述数据集中的锚;确定所述已识别的锚是否存在于锚数据库中;响应确定所述锚存在于所述锚数据库中,执行所述数据集与已存储数据集之间的数据比较,以识别相对于所述已识别的锚的前向增量值和后向增量值;以及用存储指示符取代由所述锚、所述前向增量值和所述后向增量值所识别的所述数据集的区域,以形成修改的数据集。