数据起源在多版本文档检索中的应用

引用

摘要：

随着计算机的普及和大数据时代的来临,个人计算机中文档的版本数急剧增加,用户想要迅速找到所需的文档绝非易事.相关研究表明,文件的起源信息可以为用户提供快速定位目标文档的线索.已有的一些基于数据起源的检索方式,其起源粒度多数是文件级的.但对于内容相关性较高的文档来说,文件级的起源信息无法清晰地描述内容间的关联关系,也就无法给予用户充分的帮助.基于PROV模型,针对文档版本的变化建立内容级的起源概念模型,并给出了起源词汇表.在资源描述框架(resource description framework,RDF)语言的基础上建立了起源信息的查询访问机制,并给出了可视化方案,为用户提供直观的信息表达.结果表明,该方法通过对文档检索结果的扩展和解释,可以为用户提供更有价值的帮助信息,从而达到快速锁定目标文件的目的,提高工作效率.

关键词：多版本文档、文档检索、数据起源、PROV模型

所属期刊栏目：24

分类号：TP391(计算技术、计算机技术)

资助基金：国家自然科学基金资助项目61170306;国家高技术研究发展计划863计划资助项目2012AA09A410

在线出版日期：2018-12-13（万方平台首次上网日期，不代表论文的发表时间）

页数：共15页

页码：730-744

英文信息展示

期刊专题