DOI：10.3969/j.issn.1002-1965.2010.05.035

基于Web挖掘的商业信息抽取研究

引用

摘要：

Web商业信息普遍存在互联网HTML文件中,使用传统手工方法来收集这些信息存在很大的局限性,针对Web上存在的大量商业信息,基于Web挖掘技术,提出了使用正则表达式来收集大规模Web商业信息.实现方式是首先获取网页源文件,接着使用设计好的正则表达式对源文件进行编译,从而抽取其中的Web商业信息.实验表明,这种方法抽取的准确率达到93%以上.

关键词：Web商业信息抽取、正则表达式、Web挖掘

所属期刊栏目：29

分类号：TP391.3(计算技术、计算机技术)

资助基金：国家自然科学基金"基于服务管理的移动知识管理模型研究"70871043;广东省自然科学基金"移动知识管理中的上下文感知信息处理研究"7300831

在线出版日期：2010-06-30（万方平台首次上网日期，不代表论文的发表时间）

页数：共4页

页码：159-162

英文信息展示

期刊专题