DOI：10.3969/j.issn.1006-2475.2016.01.013

基于朴素贝叶斯Web新闻内容的抽取方法

引用

摘要：

针对网页信息自动抽取问题,提出一种将网页按标记分块并根据朴素贝叶斯理论从中识别新闻正文的方法.该方法将各分决的标记信息、文本相似度以及字长特征作为机器学习的特征属性.为提高标记属性的表征作用,减少相关标记之间的干扰,算法采用x2检验法来检验标记属性之间以及标记属性与类别之间的相关性并实现属性约减.新闻正文抽取过程中同时考虑正文与非正文分块的后验概率,以提高抽取准确率.实验结果表明,选取适当的参数值,抽取新闻正文的准确率达到85％.

关键词：朴素贝叶斯、新闻网页、网页分块、正文抽取、相关性检验

分类号：TP391.1(计算技术、计算机技术)

资助基金：山西省高等学校教学改革项目J2014108;山西省教育科学“十一五”规划课题GH-08072

在线出版日期：2016-05-17（万方平台首次上网日期，不代表论文的发表时间）

页数：共6页

页码：59-63,68

英文信息展示

期刊专题