DOI：10.3969/j.issn.1007-130X.2021.09.004

基于神经网络编码的真值发现

引用

摘要：

由于互联网的开放性和多源性,不同互联网平台提供的数据参差不齐,多个数据源对同一实体的描述可能存在冲突,真值发现是消解语义冲突,提高数据质量的重要技术手段之一.传统真值发现算法通常假设数据源可靠度与观测值可信度间的关系可用简单函数表示,设计迭代规则或概率模型进行真值发现,而人工定义的条件通常难以反映数据底层的真实分布,导致真值发现结果不理想.针对此问题,提出基于神经网络编码的真值发现方法TDNNE.首先利用"数据源-数据源""数据源-观测值"关系及真值发现的假设构造双损失深度神经网络;然后利用该网络将数据源与观测值嵌入到高维空间,分别表示数据源可靠度与观测值可信度,使可靠数据源与可信观测值彼此接近(同时,不可靠数据源与不可信观测值彼此接近);最后基于嵌入空间进行真值发现.与传统方法相比,TDNNE方法不需要人工定义迭代规则或数据分布,而是利用神经网络自动学习数据源观测值间复杂的关系依赖.在真实数据集上的实验结果表明,该方法准确率较基于迭代的Accu等方法准确率提高约2％～25％,较基于概率图模型的3-Esti-mates等方法提高约2％～4％,较基于优化的CRH方法提高约2％～5％,较基于神经网络的FFM N方法提高约1％～2％.

关键词：数据质量;数据清洗;冲突消解;真值发现;神经网络

所属期刊栏目：43

分类号：TP311(计算技术、计算机技术)

资助基金：国家自然科学基金;中国博士后科学基金;国家重大科技专项

在线出版日期：2021-09-28（万方平台首次上网日期，不代表论文的发表时间）

页数：共12页

页码：1546-1557

英文信息展示

期刊专题