10.3969/j.issn.1006-9348.2020.02.080
大数据下数据库引文索引匹配误差检测仿真
为了改善当前数据库引文索引匹配误差检测过程中受语境和歧义词影响,存在检测准确率不高、检测召回率较低、检测耗时较长的缺点,提出了基于APMI的大数据下数据库引文索引匹配误差检测方法.方法 采用基于相对词频语境计算模型对数据库引文索引词语做分词消岐处理;采用TF-IDF方法提取数据库引用文献和被引用文献的特征词,并计算每个提取的特征词在语料库中的上下文概率分布,通过对比两个特征词在数据库中的上下文概率分布情况,将消岐后特征词之间的相对熵作为两篇参考文献中特征词之间的语义相似度;并以两篇参考文献中特征词之间的语义相似度平均值作为特征词和参考文献之间的匹配度;结合TF-IF方法计算大数据下数据库参考文献之间的匹配度,完成引文索引匹配误差检测.仿真测试结果显示,所提方法克服了当前方法受语境和歧义词影响的问题,具有较高的检测准确率、检测召回率,极大地缩短了检测耗时.
大数据、数据库、引文索引、误差检测
37
TP391(计算技术、计算机技术)
2019年山西省高等学校教学改革创新项目“教育信息化2.0背景下《软件工程》课程混合教学模式重构设计与实践”,项目编号:J2019183
2020-05-11(万方平台首次上网日期,不代表论文的发表时间)
共5页
394-397,425