实时Web内容重复识别及排序系统的设计与实现
为了解决现有Web信息检索结果中存在较多内容相似甚至相同页面的问题,给出了实时Web内容和结构信息提取的算法及内容重复识别的方法.利用Google提供的PageRank查询接口取得各个页面的PageRank值,结合特定用户的特征信息、查询请求及提取的各Web页内容及结构信息,完成了文档相似度比较,实现了实时页面的重复识别及二次排序,实验结果表明该方法达到了较好的效果.
实时Web、结构信息、相似性、重复识别、排序
32
TP311(计算技术、计算机技术)
湖北省自然科学基金项目2009CDB069
2011-07-19(万方平台首次上网日期,不代表论文的发表时间)
共4页
1138-1140,封3