基于改进编辑距离的相似重复记录清理算法
相似度计算是相似重复记录清理过程中的一个关键问题,编辑距离算法在其中具有广泛应用。在传统编辑距离算法的基础上,通过分析影响相似度计算结果的序列长度、同义词等因素,得到一种同时引入同义词词库和归一化处理思想的改进的基于语义编辑距离的相似重复记录清理算法,适用于相似记录的识别过程。实验分析表明,改进算法计算结果更符合句子的语义信息,绝大部分结果符合人们的认知经验,从而可以有效地提高相似重复记录识别的准确率和精确度。
相似重复记录、编辑距离、语义、同义词词库
G202;TP391.1(信息与传播理论)
国家自然科学基金资助项目70972138;湖北省教育厅人文社会科学基金项目2009b080
2012-04-21(万方平台首次上网日期,不代表论文的发表时间)
82-90