10.3969/j.issn.1000-3428.2012.02.015
基于相似URL的深层网数据区域识别
针对深层网查询结果页面中噪音信息对数据区域识别的干扰问题,提出一种自动识别深层网查询结果数据区域的方法.该方法利用网页的重复结构和相似URL,将页面划分成不同的语义块,依据不同页面块之间URL的相似性识别出数据区域.实验结果表明,该方法能够提高数据区域识别的召回率和准确率.
深层网、重复结构、相似URL、语义块、数据区域
38
TP311(计算技术、计算机技术)
国家自然科学基金资助项目61003288
2012-04-27(万方平台首次上网日期,不代表论文的发表时间)
共3页
48-50