10.3969/j.issn.1000-1220.2012.06.006
XML关键字检索系统的数据源选择
随着互联网数据爆炸式的增长,信息检索系统逐步采用分布式多数据源架构存储数据,在关键字检索时,选择与用户查询的关键字相关度大的数据源进行查询对提高检索效率显得格为重要.提出一种基于关键字检索的XML数据源选择方法,针对XML文档结构的层次特性,提出一种递归定义的结果评分模型,将结点的关键字频率与路径长度递归地加入到评分模型中,使得评分模型能够准确地评判结果的优劣.同时,利用评分模型定义并提取了XML数据源的摘要,并给出了摘要存储中涉及的压缩、优化、更新等问题的解决方案及算法.根据摘要信息,提出4种数据源选择的方案,并使用DBLP数据集来验证了文章所提出的数据源选择算法的有效性.
XML、数据源选择、关键字检索
33
TP311(计算技术、计算机技术)
国家“八六三”高技术研究发展计划项目2008AA121705;上海市重点基础研究项目08JC1402500;上海市科技创新项目Xiao-34-1;上海市高新技术产业化重点项目沪经信技2011819
2012-11-16(万方平台首次上网日期,不代表论文的发表时间)
共6页
1183-1188