一种用于短小自然语言的压缩算法
万方数据知识服务平台
应用市场
我的应用
会员HOT
万方专利
×

点击收藏,不怕下次找不到~

@万方数据
会员HOT

专利专题

一种用于短小自然语言的压缩算法

引用
一种用于短小自然语言的压缩算法:(1)对自然语言中每一个字出现的次数进行大量统计,并计算出每一个字出现的字频;(2)用得到的字频,将自然语言分为高频字符、低频字符和ASCII码字符,对属于累积频率总和为α的高频字符、属于其它频率总和为1-α,看作一个字符Φ的低频字符、看作一个字符Ψ的ASCII码字符组合在一起进行编码,得到初步的编码结果,α的取值范围为97%-99%;(3)调整参数α,使得初步的固定编码的结果小于16个bit,得到最后的固定编码结果表;(4)对输入的短小自然语言采用重编码的方式实现压缩,得到压缩后的二进制串;(5)对第四步已压缩的二进制串进行还原,实现解压缩,还原为自然语言。本发明对于自然语言文本的压缩比在1.5左右且和文本的长度无关,在压缩文本小于800Byte的情况下,比现在通用的LZ算法压缩比高。

发明专利

CN200810239753.2

2008-12-16

CN101534124

2009-09-16

H03M7/30(2006.01)I

北京航空航天大学

赵沁平;杨硕磊;魏 攀;郝爱民

100083北京市海淀区学院路37号

北京科迪生专利代理有限责任公司

成金玉%卢 纪

北京;11

1、一种用于短小自然语言的压缩算法,其特征在于步骤如下:第一步,对自然语言中每一个字出现的次数进行30多万次以上统计,并计算出每一个字出现的字频,得到字频采样表;第二步,基于第一步中获得的字频,将自然语言分为高频字符、低频字符和ASCII码字符,对属于累积频率总和为α的高频字符、属于其它频率总和为1-α,看作一个字符Φ的低频字符、看作一个字符Ψ的ASCII码字符组合在一起进行编码,得到初步的编码结果;所述的编码采用哈夫曼编码方法,a的取值范围为95%-99%;第三步,调整参数a,使得初步的固定编码的结果小于16个bit,得到最后的固定编码结果表,即固定编码字典;第四步,基于第三步得到的固定编码结果表,对输入的短小自然语言采用重编码的方式实现压缩,得到压缩后的二进制串B;第五步,根据第三步得到的固定编码结果表,对第四步已压缩的二进制串进行还原,实现解压缩,还原为自然语言。
相关文献
评论
法律状态详情>>
2009-11-11实质审查的生效
2011-03-23授权
2015-02-04专利权的终止
2009-09-16公开
相关作者
相关机构