10.19678/j.issn.1000-3428.0056847
多重检验加权融合的短文本相似度计算方法
传统相似度计算方法仅考虑文本结构特征或语义信息,从而导致准确率较低.结合短文本特征稀疏的特性,提出一种多重检验加权融合的短文本相似度计算方法MCWFS.使用基于改进编辑距离、考虑词频、基于Word2vec与LSTM的3种方法分别计算相似度,对满足多重检验标准的文本进行加权因子线性融合,以避免因一种相似度值过大或过小导致加权相似度值异常的问题.在此基础上,通过加权融合计算短文本相似度,使得计算结果更加准确合理.实验结果表明,相比层层检验和无检验融合方法,MCWFS方法的平均准确率分别提高16.01%和7.39%,且其F1值可达70.21%.
短文本相似度、多重检验加权融合、编辑距离、语义信息、词频
47
TP391(计算技术、计算机技术)
中国博士后科学基金;陕西省自然科学基金;陕西省重点研发计划;陕西省博士后基金
2021-02-25(万方平台首次上网日期,不代表论文的发表时间)
共8页
95-102