面向多源关系数据的融合
针对“信息孤岛”中的关系数据融合问题,本文提出并实现了多源关系数据融合的基本框架(multi-source relational data fusion,MSF).框架包含3个主要模块:模式匹配、实体对齐、实体融合.模式匹配面向多源关系数据的属性对齐问题,结合属性值的多维特征,提出基于匈牙利(Hungarian)算法的属性间对齐发现机制,实现了多源关系数据的快速模式匹配.实体对齐连接多源关系中的元组对,通过引入多样性取样策略和实体特征抽取方法,提升了实体对齐的效果.最后将对齐实体进行融合,为数据分析提供统一的数据视图.为了验证MSF的效果和效率,实现了数据融合系统DataPuzzle,并在该系统上,结合真实公开的多领域数据,对提出的方法进行了验证.结果表明,所提出的方法可以高效地实现数据融合,具有较高的查全率、查准率.
多源异构数据、关系数据、信息孤岛、模式匹配、实体对齐、数据融合
50
TP391;TP182;TP274
北京市科技计划;国家自然科学基金;国家自然科学基金;国家自然科学基金
2020-07-29(万方平台首次上网日期,不代表论文的发表时间)
共13页
649-661