基于编辑距离的多实体可信确认算法

引用

摘要：

随着自媒体的蓬勃发展,任何人都可以在网上随意发布和转发信息,而这些信息可能是真实的,也可能是道听途说或被故意篡改的.互联网上数据的严重冗余和弱可信问题,导致现有数据的可用性很差.Bi-LSTM-CRF(Bi-Long Short Term Memory with Conditional Random Field Layer)网络虽然能够解决数据中命名实体识别的准确率问题,但不能满足识别出的实体是可信的这一要求.文中提出一种基于编辑距离的多实体可信确认算法,并通过人物命名实体识别实例对该算法进行验证.首先通过分布式爬虫抓取同一个邮箱地址在多个搜索引擎上的 Top N网页记录,然后使用经过双语语料训练后的 Bi-LSTM-CRF模型抽取每个页面内的人物命名实体,最后通过实体多参数融合确定邮箱所对应的人物命名实体.实验结果表明,多实体可信确认算法能够将邮箱地址与邮箱真实主人的匹配准确率MRR(Mean Reciprocal Rank)提高到9 1 .32%,相比只使用词频的算法其 MRR提升了 2 3 .08%.实验数据充分说明,多实体可信确认算法能很好地从弱可信数据中获得强可信度的实体,降低海量数据中的低质特性,从而有效地增强实体数据源的可信度.

关键词：弱可信数据、双向长短时记忆循环-条件随机场网络、多实体可信确认算法、编辑距离

所属期刊栏目：47

分类号：TP311;TP391(计算技术、计算机技术)

资助基金：国家自然科学基金;中国博士后科学基金;江苏省博士后科研基金;江西省经济犯罪侦查与防控技术协同创新中心开放基金资助课题;数字工程与先进计算重点实验室开放课题

在线出版日期：2020-12-28（万方平台首次上网日期，不代表论文的发表时间）

页数：共5页

页码：327-331

英文信息展示

期刊专题