10.3969/j.issn.1673-629X.2011.03.014
基于规则引擎的个性化主题网页爬虫的研究
目前互联网上的信息正在飞速的增长,人们主要依靠搜索引擎查找信息,随着专业化不断加强,垂直搜索引擎成为人们新的工具,但构建专业化搜索引擎过程比较复杂.为了解决垂直搜索引擎中主题爬虫配置不灵活的问题,采用在爬虫上集成规则引擎的方法,通过规则库来控制爬虫运行,并且使用可扩展度较高的开源爬虫项目Heritrix和开源规则引擎项目Drools,构建配置方便、灵活度高的个性化爬虫,从而将原先主题爬虫的设置从紧耦合转变成了松耦合,降低了用户配置难度.
规则引擎、主题爬虫、搜索引擎
21
TP31(计算技术、计算机技术)
信息产业部电子发展基金项目信部运[2006]634号
2011-06-23(万方平台首次上网日期,不代表论文的发表时间)
共5页
56-59,63