10.13266/j.issn.0252-3116.2022.14.013
数据集成场景下考虑语义信息的高效实体识别方法
[目的/意义]针对当前数据集成场景下,实体识别时未能充分提取文本语义信息导致识别效果不佳以及传统分块方法无法满足高效识别的问题,提出一种考虑语义信息的高效实体识别方法,以提升实体识别的效果与效率.[方法/过程]以需要集成的两个数据集A、B为例,首先,分别对数据集A和B中的所有记录进行分词、去停用词等数据预处理操作,然后基于数据集A中的每一个词,建立数据集A的倒排索引;其次,计算数据集B中记录的每个词在数据集A中的重要度,依据重要度大小选择关键词代表该条记录;最后将关键词与索引词进行比对,基于Sentence-BERT模型依次计算关键词所对应的记录与索引词包含的所有记录之间的相似程度.将超过阈值的记录判定为对同一实体的描述记录,如此往复直至比对完数据集B中的所有记录.[结果/结论]实验结果表明,本文提出的考虑语义信息的高效实体识别方法在精确率、召回率、稳定性和响应时间等评价指标的表现上均优于传统的实体识别方法,为解决数据集成中的实体识别问题提供了方法指导.
实体识别、Sentence-BERT模型、倒排索引、数据集成
66
TP391.1(计算技术、计算机技术)
国家自然科学基金;陕西省创新能力支撑计划
2022-08-19(万方平台首次上网日期,不代表论文的发表时间)
共9页
128-136