基于冲突依赖消除的网络表格外键检测算法
作为数据库中最重要的约束之一,外键关系对数据分析与集成有着重要的意义.大量的网络表格缺乏显式指定的外键,但外键关系对于理解和利用网络表格至关重要.目前的研究工作主要集中于对属性间包含依赖的查找,一些传统关系表格上的外键关系检测方法无法解决网络表格的异构性而产生的大量冲突外键.综合考虑网络表格间的冲突依赖,提出了一种基于冲突依赖消除的网络表格外键检测算法.首先提出冲突依赖的概念,据此对候选外键关系建立包含依赖图;然后构建包含依赖图的层结构,并给出候选外键关系的强度定义;最后在逐层消除冲突依赖的基础上,筛选出真正的外键关系.为验证算法的有效性,实验数据集分别选择了具有完整模式规范的W IK I数据集,以及缺少模式信息的DWTC数据集和WDC数据集.基于以上数据集,将提出的算法与其他两种外键检测方法进行精确率、召回率以及F值的对比.实验结果表明,提出的算法在WIKI数据集和DWTC数据集上的精确率、召回率和F值均高于现有算法;在最新的大型网络表格数据集WDC中,所提算法的精确率、召回率和F值高达0.89,0.88和0.89,且大大优于其他算法.因此,与现有的方法相比,所提算法更适用于网络表格,同时具备更高的精确率、召回率以及F值.
外键、冲突依赖、网络表格、约束
46
TP391(计算技术、计算机技术)
国家重点研发计划 2018YFC0809800 ,中央高校基本科研业务费专项资金2017YJS065
2019-11-22(万方平台首次上网日期,不代表论文的发表时间)
共7页
195-201