DOI：10.3772/j.issn.1000-0135.2009.02.005

一种基于统计的中文网页正文抽取方法

引用

摘要：

针对抽取中文网页正文的传统方法的不足,提出一种基于统计的中文网页正文抽取方法.该方法首先利用DOM树计算文本结点的文本密度,即文本长度与HTML源码长度之比,再利用贝叶斯判别准则计算密度区分阈值,最后根据文本密度与密度区分阈值的比较结果抽取正文,即大于密度区分阈值的结点就判定为正文文本结点,小于或等于密度区分阈值的结点则判定为非正文文本结点,将所有判定为正文文本结点的文本连接起来即为要抽取的网页正文.通过使用中文新闻类网页对该方法的有效性进行验证,结果表明:该方法虽然简单,但是抽取准确率极高且易于实现.

关键词：文本密度、文本结点、正文抽取、贝叶斯判别准则、DOM树

所属期刊栏目：28

分类号：TP3;TP1

在线出版日期：2009-05-08（万方平台首次上网日期，不代表论文的发表时间）

页数：共8页

页码：187-194

英文信息展示

期刊专题