实时Web内容重复识别及排序系统的设计与实现

引用

摘要：

为了解决现有Web信息检索结果中存在较多内容相似甚至相同页面的问题,给出了实时Web内容和结构信息提取的算法及内容重复识别的方法.利用Google提供的PageRank查询接口取得各个页面的PageRank值,结合特定用户的特征信息、查询请求及提取的各Web页内容及结构信息,完成了文档相似度比较,实现了实时页面的重复识别及二次排序,实验结果表明该方法达到了较好的效果.

关键词：实时Web、结构信息、相似性、重复识别、排序

所属期刊栏目：32

分类号：TP311(计算技术、计算机技术)

资助基金：湖北省自然科学基金项目2009CDB069

在线出版日期：2011-07-19（万方平台首次上网日期，不代表论文的发表时间）

页数：共4页

页码：1138-1140,封3

英文信息展示

期刊专题