一种用于短小自然语言的压缩算法

引用

摘要：

一种用于短小自然语言的压缩算法：(1)对自然语言中每一个字出现的次数进行大量统计，并计算出每一个字出现的字频；(2)用得到的字频，将自然语言分为高频字符、低频字符和ASCII码字符，对属于累积频率总和为α的高频字符、属于其它频率总和为1-α，看作一个字符Φ的低频字符、看作一个字符Ψ的ASCII码字符组合在一起进行编码，得到初步的编码结果，α的取值范围为97％-99％；(3)调整参数α，使得初步的固定编码的结果小于16个bit，得到最后的固定编码结果表；(4)对输入的短小自然语言采用重编码的方式实现压缩，得到压缩后的二进制串；(5)对第四步已压缩的二进制串进行还原，实现解压缩，还原为自然语言。本发明对于自然语言文本的压缩比在1.5左右且和文本的长度无关，在压缩文本小于800Byte的情况下，比现在通用的LZ算法压缩比高。

专利类型：发明专利

申请/专利号：CN200810239753.2

申请日期：2008-12-16

公开/公告号：CN101534124

公开/公告日：2009-09-16

主分类号：H03M7/30(2006.01)I

申请/专利权人:北京航空航天大学

发明/设计人:赵沁平;杨硕磊;魏攀;郝爱民

主申请人地址:100083北京市海淀区学院路37号

专利代理机构:北京科迪生专利代理有限责任公司

代理人:成金玉%卢纪

国别省市代码:北京;11

权利要求：

1、一种用于短小自然语言的压缩算法，其特征在于步骤如下：第一步，对自然语言中每一个字出现的次数进行30多万次以上统计，并计算出每一个字出现的字频，得到字频采样表；第二步，基于第一步中获得的字频，将自然语言分为高频字符、低频字符和ASCII码字符，对属于累积频率总和为α的高频字符、属于其它频率总和为1-α，看作一个字符Φ的低频字符、看作一个字符Ψ的ASCII码字符组合在一起进行编码，得到初步的编码结果；所述的编码采用哈夫曼编码方法，a的取值范围为95％-99％；第三步，调整参数a，使得初步的固定编码的结果小于16个bit，得到最后的固定编码结果表，即固定编码字典；第四步，基于第三步得到的固定编码结果表，对输入的短小自然语言采用重编码的方式实现压缩，得到压缩后的二进制串B；第五步，根据第三步得到的固定编码结果表，对第四步已压缩的二进制串进行还原，实现解压缩，还原为自然语言。

专利专题