10.3969/j.issn.1000-7024.2013.05.034
基于K-means聚类算法和信息熵的页面排序算法研究
针对经典的PageRank算法存在的偏重历史网页、主题漂移、平分网页链接权重等缺陷,引入了向量空间模型和信息论中的信息熵,提出一种改进的PRKE算法.该算法用表征网页特征的关键词构成的向量来表示网页,用关键词在网页中所占的权重作为向量中各个分量的权值;对已存在的网页采用K-means聚类算法进行聚类,以信息熵的形式表征各个簇的权值,完成对网页的宏观排序;融入了时间因子和主题相关度等参数,完成对网页的微观排序.实验结果表明,改进的PRKE算法相对于经典的PageRank算法在首页命中率、检索准确性等方面获得了较大的提高.
搜索引擎、PageRank算法、K-means聚类算法、信息熵、页面排序
34
TP393.03(计算技术、计算机技术)
重庆市教委科技计划基金项目KJ100821
2013-07-04(万方平台首次上网日期,不代表论文的发表时间)
共5页
1695-1699