一种基于模式的实体解析算法
万方数据知识服务平台
应用市场
我的应用
会员HOT
万方期刊
×

点击收藏,不怕下次找不到~

@万方数据
会员HOT

期刊专题

10.11897/SP.J.1016.2015.01796

一种基于模式的实体解析算法

引用
实体解析是数据融合和数据清洗的关键步骤,旨在从大量的数据集中找出描述相同实体的记录。当前主要有两种基本的解决思路,一种是穷尽式的实体解析,通过两两比较数据集中的所有记录,然后再合并相似的记录,从而找到描述某一个实体的若干记录集合。然而,该方法的计算复杂度比较高(O(n2),其中 n 表示数据集合的规模),难以处理大型数据集合。另一种思路是基于分块的实体解析,它调用特定的分块函数(如哈希函数、滑动窗口技术等)将集合中较为相似的记录划分到同一个块中,再仅对属于同一块中的记录进行两两比较。这种方法显著降低了运行时间,但会损失部分精度,因为某些描述同一实体的记录可能没有被分到同一个块中。文中提出了一种基于模式的实体解析算法,通过将相似的记录合并成记录集合并尝试生成对应的记录模式,然后进行模式之间的两两比较来产生一个边界值,以确定对应的记录集合是否需要进行进一步的精确比较,从而判断是否属于同一个实体。与第一种方法相比,该方法可有效地过滤部分不可能相似的记录,从而避免了针对所有数据记录进行两两比较,显著地降低了时间复杂度;与第二种方法相比,该方法并不损失任何精度。基于真实和模拟数据集合的实验结果验证了新方法的执行效率和有效性。

数据融合、数据清洗、实体解析、编辑距离、字符串相似度

TP311(计算技术、计算机技术)

国家“九七三”重点基础研究发展规划项目基金2012CB316203;国家自然科学基金61370101,61321064;上海市教委科研创新重点项目14ZZ045资助.This work is supported by the National Basic Research Program973 Programof China project2012CB316203;the National Natural Science Foundation of China under Grant.61370101,61321064;the Innovation Program of Shanghai Municipal Education Commission 14ZZ045.

2015-10-08(万方平台首次上网日期,不代表论文的发表时间)

共13页

1796-1808

相关文献
评论
暂无封面信息
查看本期封面目录

计算机学报

0254-4164

11-1826/TP

2015,(9)

相关作者
相关机构

专业内容知识聚合服务平台

国家重点研发计划“现代服务业共性关键技术研发及应用示范”重点专项“4.8专业内容知识聚合服务技术研发与创新服务示范”

国家重点研发计划资助 课题编号:2019YFB1406304
National Key R&D Program of China Grant No. 2019YFB1406304

©天津万方数据有限公司 津ICP备20003920号-1

信息网络传播视听节目许可证 许可证号:0108284

网络出版服务许可证:(总)网出证(京)字096号

违法和不良信息举报电话:4000115888    举报邮箱:problem@wanfangdata.com.cn

举报专区:https://www.12377.cn/

客服邮箱:op@wanfangdata.com.cn