DOI：10.3969/j.issn.1001-3695.2008.12.011

有效HTML文本信息抽取方法的研究

引用

摘要：

从新闻网页和博客网页中抽取出正文内容是一个非常有意义的研究问题,但是多数网页中含有大量与正文无关的噪声内容,导致很难从网页中获取正确的文本信息.分析了中文新闻与博客网页的正文特征,用实验表明了利用HTML与文本的密度比可以进行文本的识别与抽取.提出了机器学习、统计估计以及FDR三种HLML正文抽取方法,并作了大量的实验比较和分析.实验结果表明,该算法可以有效地过滤噪声而且算法的复杂度很低,效率与效果均达到一个很好的平衡.

关键词：网页、信息抽取、机器学习、统计

所属期刊栏目：25

分类号：TP311(计算技术、计算机技术)

资助基金：北京市教委科技计划面上资助项目KM200810011008

在线出版日期：2009-02-24（万方平台首次上网日期，不代表论文的发表时间）

页数：共5页

页码：3568-3571,3574

英文信息展示

期刊专题