10.3969/j.issn.1002-137X.2012.12.033
xScraper:基于Web-Harvest技术批量与深度获取无结构化Web信息
通过分析Web-Harvest数据提取规则的设计原理,设计实现了一个xScraper系统.该系统的主要功能有:(1)定制设计满足不同需求的Web数据提取规则模板,驱动Web-Harvest内核进行无结构化信息提取;(2)批量可控提取同一网址中的Web信息(含图像);(3)跨网站深度提取主题相关信息;(4)提取Web信息元数据并将其转换为XML标签;(5)实现无结构化多媒体信息的数据库管理.应用结果表明,系统提供了超出Web-Harvest的加值功能,可满足不同的信息提取需求,其简单实用,便于扩展.
Web信息提取、xScraper系统、Web-Harvest内核技术
39
TP393.4(计算技术、计算机技术)
中央高校基本科研业务费专项基金云计算与智能技术,SWJTU11ZT08;铁道部科技研究开发计划重大课题2011X007
2013-01-26(万方平台首次上网日期,不代表论文的发表时间)
共4页
145-148