DOI：10.3969/j.issn.1002-1965.2010.08.029

一种基于正文特征的新闻网页抽取方法

引用

摘要：

在统计分析了中文新闻网页的结构和内容特征的基础上,提出一种比较简单实用的基于正文特征的新闻网页抽取方法.该方法首先将HTML网页表示成基于XML的DOM树形式,利用统计的正文特征和节点信息从树中过滤掉噪音数据节点,最后再选取正文节点.该方法相比传统的基于包装器的抽取方法具有简单、实用的特点.实验结果表明,该抽取方法准确率达到94%以上,具有很好的实用价值.

关键词：正文特征、网页抽取、DOM模型

所属期刊栏目：29

分类号：TP391(计算技术、计算机技术)

资助基金：教育部人文社科研究项目"期刊文献知识元挖掘及知识仓库构建"09YJA870005

在线出版日期：2010-10-27（万方平台首次上网日期，不代表论文的发表时间）

页数：共4页

页码：122-124,54

英文信息展示

期刊专题