10.3969/j.issn.1003-0077.2011.01.005
基于权重标准化SimRank方法的查询扩展技术研究
查询扩展是信息检索中的一项重要技术.传统的局部分析查询扩展方法利用伪相关文档作为候选词集合,然而部分伪相关文档并不具有很高的相关性.该文利用真实的搜索引擎查询日志.建立了查询点击图,经过多次图结构的转化得到能够反映词之间关联程度的词项关系图,并在图结构的相似度算法SimRank的基础上,提出了一种基于权重标准化的改进SimRank方法.该方法利用词项关系图中词项的全局和间接关系,能够有效挖掘与原始查询相关联的扩展词.同时,为降低SimRank算法的计算复杂度,该文采用了剪枝等策略进行优化,使得计算效率有大幅提高.在TREC标准数据集上的实验表明,该文的方法可以有效地选择相关扩展词.MAP指标较局部分析查询扩展方法提高了1.81%,在P@10和P@20指标评价中效果分别提高了5.44%和3.73%.
搜索引擎、查询扩展、查询日志、SimRank
25
TP391(计算技术、计算机技术)
国家自然科学基金资助项目60673039,60973068;国家社科基金资助项目08BTQ025;国家863高科技计划资助项目2006AA01Z151;教育部留学回国人员科研启动基金和高等学校博士学科点专项科研基金资助项目20090041110002
2011-06-03(万方平台首次上网日期,不代表论文的发表时间)
共7页
28-34