10.3321/j.issn:1000-436X.2009.03.007
HitIct:中文无损压缩算法性能评估测试集
提出了一个基于ANSI编码的中文无损压缩算法性能评估测试集HitIct.按照应用代表性、对现有ASCII编码测试集的补充性、样本公开性的原则从互联网上获取候选样本集,采用平均压缩率、标准差、平均相关系数、压缩率相关系数等技术指标对样本集中的样本进行筛选,并剔除影响压缩率的非文本因素等方法确定的最佳样本组成HitIct Corpus.实验结果表明,该测试集具有良好的代表性及稳定性,可以作为当前主流ASCII编码测试集的补充.
数据压缩、测试集、无损压缩
30
TP309.3(计算技术、计算机技术)
国家重点基础研究发展计划"973"计划基金资助项目2007CB311100;国家自然科学基金资助项目60703021;国家高技术研究发展计划"863"计划基金资助项目2007AA01Z406,2007AA01Z442,2007AA01Z444,2007AA01Z467,2007AA01Z474.2007AA010501
2009-05-08(万方平台首次上网日期,不代表论文的发表时间)
共6页
42-47