DOI：10.3969/j.issn.1009-3044.2008.01.036

基于统计的中文网页正文抽取的研究

引用

摘要：

信息抽取技术是一种广泛运用于互联网的数据挖掘技术.其目的是从互联网海量数据中抽取有意义、有价值的数据和信息,从而能更好的利用互联网资源.文中采用一种统计网页特征的方法,将中文网页中的正文部分抽取出来.该方法首先将网页表示成基于XML的DOM树形式,利用统计的节点信息从树中过滤掉噪音数据节点,最后再选取正文节点.该方法相比传统的基于包装器的抽取方法,具有简单,实用的特点,试验结果表明,该抽取方法准确率达到90%以上,具有很好的实用价值.

关键词：中文信息处理、信息抽取、正文抽取

所属期刊栏目：1

分类号：TP393(计算技术、计算机技术)

在线出版日期：2008-05-14（万方平台首次上网日期，不代表论文的发表时间）

页数：共4页

页码：120-123

英文信息展示

期刊专题