DOI：10.3969/j.issn.1002-137X.2013.10.036

基于检索结果聚类的XML伪相关文档查找

引用

摘要：

传统伪相关反馈容易产生“查询主题漂移”,有效避免“查询主题漂移”的首要前提是确定高质量的相关文档,形成与用户查询需求相关的伪相关文档集合.在检索结果聚类的基础上,研究了XML伪相关文档查找方法,在充分考虑XML内容和结构特征的前提下,提出了基于均衡化权值的簇标签提取方法,并以此为基础,提出了候选簇的排序模型和基于候选簇的文档排序模型.相关实验数据表明,与初始检索结果相比,排序模型获得了较好的性能,有效地查找到了更多的XML伪相关文档.

关键词：信息检索、XML伪相关反馈、XML检索结果聚类、簇标签、排序模型

所属期刊栏目：40

分类号：TP391(计算技术、计算机技术)

资助基金：国家自然基金项目61173146,61262035,60763001;国家社会科学基金12CTQ042

在线出版日期：2013-11-08（万方平台首次上网日期，不代表论文的发表时间）

页数：共6页

页码：172-177

英文信息展示

期刊专题