10.3969/j.issn.1000-3428.2008.05.096
互联网商品信息抽取技术
针对网页信息抽取中格式多样化的问题,提出一种基于路径统计聚类的信息抽取算法.该算法充分利用电子商务网站网页的特点,给出网页统计信息的一般数学表达式,在此基础上,采用基于统计聚类的思想,分割信息块,实现抽取信息.通过对实际电子商务网站网页信息的抽取,证明算法的有效性,分割正确率达92.27%,信息抽取正确率达98.24%.
网页分割、网页信息抽取、包装器、路径聚类
34
TP391(计算技术、计算机技术)
多媒体计算与教育部-微软重点实验室开放基金06120809
2008-05-22(万方平台首次上网日期,不代表论文的发表时间)
共3页
274-276