10.3969/j.issn.1000-3428.2008.22.025
基于重复模式的自动Web信息抽取
互联网上存在很多在线购物网站,抽取这类网站页面里的商品信息可以为电子商务、Web查询提供增值服务.该文针对这类网站提出一种自动的Web信息抽取方法,通过检测网页中的重复模式以及分析主题内容的特征获取网页的主题内容,该方法在抽取过程中不需要人工干预.对10个在线购物网站进行了测试,实验结果表明提出的方法是有效的.
Web信息抽取、DOM树、重复模式
34
TP311(计算技术、计算机技术)
国家自然科学基金资助项目60673043;国家社会科学基金资助项目07BYY051
2009-02-16(万方平台首次上网日期,不代表论文的发表时间)
共4页
73-76