10.3969/j.issn.1000-3428.2013.09.043
基于数据富集区域的Web内容自动抽取
对电子商务网站的Web页面进行商品信息自动抽取,可以为进一步的增值服务,如比价、查询等提供有价值的信息。为此,提出一种Web内容自动抽取方法。通过对比标签树对目标页面进行去噪,采用基于树匹配的子树相似度计算方法挖掘目标页面的数据富集区域,从而抽取商品的数据记录。在5个电子商务网站上的实验结果表明,该方法的准确率均高于MDR方法,且召回率较高。
数据富集区域、Web内容抽取、树匹配、标签树、子树相似度、数据记录
TP391(计算技术、计算机技术)
上海自然科学基金资助项目09ZR1409500
2013-11-07(万方平台首次上网日期,不代表论文的发表时间)
共4页
192-195