10.11896/j.issn.1002-137X.2015.7.002
网络表格间的快照关系发现
近年来,互联网上涌现出大量结构化的表格数据,网络表格的价值不仅在于数据本身,还在于数据之间的关系.只有探测出表格之间潜在的关系,方能更好地利用这些结构化数据.因此提出发现网络表格间的快照关系,并给出发现快照关系的框架以及检测与给定表之间满足某种匹配关系的快照表的算法,快照表可用于优化查询以及在大数据环境下实时地返回部分查询结果.提出了基于实体和属性重合度的评分方法,并引入实体新鲜度的概念,使得算法在快照关系的发现过程中更多地关注能提供新鲜实体的表;与此同时,基于Bayes模型的表格内容增强算法能更加准确地判断属性列上值的一致性,从而提高快照关系发现的准确率.大量实验表明,该评分模型能发现高质量的快照表,且在快照的查询精度和召回率上表现出色.
网络表格、关联关系、快照、数据集成、查询优化
42
TP391(计算技术、计算机技术)
国家自然科学基金项目61370060;江苏省自然科学基金项目BK2011454
2016-05-13(万方平台首次上网日期,不代表论文的发表时间)
共7页
5-11