10.3969/j.issn.1000-3428.2013.10.068
基于DOM树和视觉特征的网页信息自动抽取
针对生活信息服务网站的列表式商户信息,提出一种基于文档对象模型(DOM)树和视觉特征的网页信息自动抽取方法。利用商户信息列表页面中数据区域的 DOM 树结构和视觉特征,搜索得到候选目标数据区域,再利用视觉特征识别真正目标数据区域,从而抽取其中的数据记录。对10个生活信息服务网站进行测试,结果表明,有8个网站的召回率和准确率达到100%,取得了较好的结果。
文档对象模型树、视觉特征、自动抽取、数据记录、数据区域、挖掘算法
TP391(计算技术、计算机技术)
国家科技支撑计划基金资助项目2011BAH11B01;中国科学院重点部署基金资助项目KGZD-EW-103-5
2013-12-04(万方平台首次上网日期,不代表论文的发表时间)
共4页
309-312