列存储数据仓库中基于概率的保序字符串压缩方法
数据仓库中采用按列存储的方式更有利于数据的压缩,保留顺序的轻量级压缩方法对列存储的字符串属性压缩显示其优越性,然而现有做法很难兼顾字符串出现的概率对压缩效率的影响,影响了压缩性能.因此,提出一种基于概率的保序字符串压缩方法.首先,提出一种扩展的共用叶子结构,使得编码索引和解码索引共享同一个码表,大大减少了编码和解码索引的维护时间.同时在该结构中,记录字符串出现的概率,并根据概率的高低建立解码索引,有效降低了高频字符串的解压时间.进一步,根据列存储的特点,将用于列连接的行号信息保存在扩展的叶子结构中,从而有效减少了列值索引的存储空间和创建时间.实验结果验证了该方法的有效性.
列存储、字符串压缩、保序轻量级压缩、共享叶子、字符串出现次数
50
TP311.13(计算技术、计算机技术)
"核高基"国家科技重大专项基金项目2010ZX01042-001-003-004;国家自然科学基金项目61070031,61070032,61103046;上海市自然科学基金项目11ZR1401200
2013-09-16(万方平台首次上网日期,不代表论文的发表时间)
共9页
1674-1682