DOI：10.3969/j.issn.1671-7597.2010.20.131

基于DOM的网页信息抽取方法

引用

摘要：

随着网络的发展,网页已成为人们获取信息的重要途径.网页中包含着文本,图片,视频,音乐等.不同的人所感兴趣的网页信息不同,那些人们不感兴趣的信息分散在他们感兴趣信息的周围,分散他们对自己感兴趣的信息的注意力,给他们阅读网页带来不便.提出一种基于DOM的网页信息抽取方法,过滤掉人们不感兴趣的网贞信息,只保留人们感兴趣的信息.本文的方法不是机械地查找我们感兴趣的信息,而是尽可能的删除不是我们感兴趣的信息.首先使用Edipse开发工具,利用开源的HTML解析程序NekoHtml将网页解析成DOM树.然后设计抽取算法,使用java语言编程,采用抽取算法,别除我们不感兴趣的网页信息,只保留我们感兴趣的网页信息.

关键词：HTML、信息抽取、DOM、NekoHtml

分类号：TP3(计算技术、计算机技术)

在线出版日期：2011-02-23（万方平台首次上网日期，不代表论文的发表时间）

页数：共2页

页码：172,190

期刊专题