10.3772/j.issn.1000-0135.2009.02.005
一种基于统计的中文网页正文抽取方法
针对抽取中文网页正文的传统方法的不足,提出一种基于统计的中文网页正文抽取方法.该方法首先利用DOM树计算文本结点的文本密度,即文本长度与HTML源码长度之比,再利用贝叶斯判别准则计算密度区分阈值,最后根据文本密度与密度区分阈值的比较结果抽取正文,即大于密度区分阈值的结点就判定为正文文本结点,小于或等于密度区分阈值的结点则判定为非正文文本结点,将所有判定为正文文本结点的文本连接起来即为要抽取的网页正文.通过使用中文新闻类网页对该方法的有效性进行验证,结果表明:该方法虽然简单,但是抽取准确率极高且易于实现.
文本密度、文本结点、正文抽取、贝叶斯判别准则、DOM树
28
TP3;TP1
2009-05-08(万方平台首次上网日期,不代表论文的发表时间)
共8页
187-194