10.3969/j.issn.1002-1965.2010.05.035
基于Web挖掘的商业信息抽取研究
Web商业信息普遍存在互联网HTML文件中,使用传统手工方法来收集这些信息存在很大的局限性,针对Web上存在的大量商业信息,基于Web挖掘技术,提出了使用正则表达式来收集大规模Web商业信息.实现方式是首先获取网页源文件,接着使用设计好的正则表达式对源文件进行编译,从而抽取其中的Web商业信息.实验表明,这种方法抽取的准确率达到93%以上.
Web商业信息抽取、正则表达式、Web挖掘
29
TP391.3(计算技术、计算机技术)
国家自然科学基金"基于服务管理的移动知识管理模型研究"70871043;广东省自然科学基金"移动知识管理中的上下文感知信息处理研究"7300831
2010-06-30(万方平台首次上网日期,不代表论文的发表时间)
共4页
159-162