DOI：10.3969/j.issn.1006-9348.2022.03.086

基于模式识别算法的网页重复信息抽取仿真

引用

摘要：

当前的网页重复信息抽取方法缺少信息分类步骤,导致传统方法存在抽取全面率低、重复信息比例高以及整体性能差的问题.于是提出基于模式识别算法的网页重复信息抽取方法.利用类间平衡因子和词频获取网页信息的互信息特征.在关联规则的基础上根据网页置信度向量化互信息特征,完成网页信息特征的提取.利用模式识别中的支持向量机对网页信息分类,优化惩罚函数,建立软间隔支持向量机分类器.计算不同类别网页信息的结构相似度和语义相似度,结合上述计算结果获得网页信息相似性,完成网页重复信息的抽取.仿真结果表明,所提方法的抽取全面率高、重复信息比例低,且整体应用性能好,实验结果表明所提方法具有理想的应用效果.

关键词：模式识别算法、网页重复信息、特征提取、支持向量机、信息抽取

所属期刊栏目：39

分类号：TP391.1(计算技术、计算机技术)

在线出版日期：2022-04-24（万方平台首次上网日期，不代表论文的发表时间）

页数：共5页

页码：439-443

英文信息展示

期刊专题