10.3969/j.issn.1673-4513.2010.05.013
基于规则引擎的大规模网页信息抽取平台设计与实现
信息抽取是数据挖掘和知识发掘的重要方法,基于规则自动化或半自动化地从互联网中提取准确有效的数据是知识挖掘的关键.本文构建了一个通用文本信息抽取平台,采用多种信息匹配技术从网络数据源中抽取数据和信息,并采用规则处理方式对网页信息进行智能化抽取.该平台采用Eclipse RCP开发,对其功能可进行插件式扩充,在业务逻辑上采用规则引擎.该平台具有界面友好、易于扩展、使用方便等特点,并能够从大规模网页中自动地获取有效的数据和信息.
信息抽取、规则引擎、富客户端平台、增量爬取
TP3(计算技术、计算机技术)
2011-01-27(万方平台首次上网日期,不代表论文的发表时间)
共4页
67-70