10.3778/j.issn.1673-9418.2010.08.004
面向相似数据的无损压缩技术
对存在于网络信息、观测数据以及生物信息中的大量相似数据,使用传统的压缩方法压缩不能达到更好的效果.对相似度很高的数据采用一种新的无损压缩方法,即基础序列加上一组基于编辑距离的差异量来表示整个数据集,可以只用很少的差异量来表示原本巨大的数据项.针对现实中数据不会整体相似的特点,提出一种先聚类再压缩的思想,在每个聚类中构造聚类中心作为虚拟基础序列,使压缩比最大化.通过大量实际数据集的实验测试与分析,表明提出的无损压缩技术对于相似序列数据具有很好的压缩比.
无损压缩、差异量表示、编辑距离、聚类、基础序列
4
TP311.131(计算技术、计算机技术)
The National Natural Science Foundation of China under Grant No.60828004,60973018;the Fundamental Research Funds for the Central Universities under Grant No.N090504004
2010-10-14(万方平台首次上网日期,不代表论文的发表时间)
共12页
700-711