10.3969/j.issn.1002-137X.2007.07.031
基于超链接的镜像页面比较策略研究
Web中存在大量的镜像页面,这会严重影响分析的结果,并且占据大量的空间和资源,严重影响了计算的效率,因此,如何去除这些镜像页面是社区发现技术中的一个重要的问题.对基于纯链接的镜像页面去除方法[1,2]进行了分析,并证明了只需出度邻近的页面进行比较,并提出了页面邻近区域的比较方法,按照Web页面的分布理论,设计了比较策略的方法.实验结果证明,大大减少了比较的次数,提高了效率.
链接分析、镜像页面、页面相似度
34
TP3(计算技术、计算机技术)
国家"211"工程建设项目
2007-10-22(万方平台首次上网日期,不代表论文的发表时间)
共4页
116-119