DOI：10.3969/j.issn.1000-3428.2014.12.037

基于字频分布的中文网页编码识别算法

引用

摘要：

编码识别是网页内容过滤的必要前提，多种中文编码共存给中文网页的内容过滤带来不便。针对上述问题，提出一种基于字频分布的中文网页编码识别算法。根据汉字的使用频率，选取使用频度较高的字符构成高频字符编码表，以高频字符编码作为关键字，使用改进的模式匹配算法查找待识别网页，并统计匹配次数。将编码的匹配结果作为分析的依据，最终判定待识别网页的真实码制。实验结果证明，与Unigram算法相比，该算法对目前通用的中文编码识别率较高，适合对未知编码的中文网页进行快速编码识别。

关键词：中文编码、网页过滤、高频字符、模式匹配、有限状态自动机

分类号：TP18(自动化基础理论)

资助基金：教育部广东省产学研基金资助项目2009B090200049。

在线出版日期：2014-12-30（万方平台首次上网日期，不代表论文的发表时间）

页数：共6页

页码：199-204

英文信息展示

期刊专题