中文个人名称规范记录的实体匹配与聚簇

引用

摘要：

本文尝试解决国内个人名称规范联合数据库检索结果集基于实体匹配的聚簇问题,分析国内名称规范联合库CCCNA的检索服务和数据库记录特点,提出对结果集记录合并聚簇的思路:首先预处理去除重复和明显的名称语义不匹配记录,再根据提取出的个人实体属性名称、出生年、个人关联的书目题名及关联的外部记录,基于个人实体的语义进行个人名称规范记录聚簇.实证统计结果显示,处理后结果集内的簇数都显著低于处理前的记录条数,与VIAF的关联聚簇结果也验证了本文方法的有效性.但本文书目匹配采取题名匹配,这会丢失一些有用的聚簇信息,后续研究将进一步集成图书机构的书目数据库,抽取更多的书目信息进行聚簇.

关键词：虚拟国际规范文档、个人名称规范档、实体匹配、聚簇

分类号：G25;TP3

资助基金：国家社科基金重点项目“基于关联数据的中文名称规范档语义描述及数据聚合研究”项目15ATQ004的研究成果之一

在线出版日期：2017-05-16（万方平台首次上网日期，不代表论文的发表时间）

页数：共8页

页码：79-86

英文信息展示

期刊专题