10.3969/j.issn.1000-3428.2009.21.028
一种相似重复元数据记录检测方法
对联邦数字图书馆中重复元数据记录进行检测和管理,是保证元数据质量、提高联邦检索服务质量的关键.针对现有联邦数字图书馆中重复记录检测方法计算集中、准确度不高等缺点,提出一种快速高效的相似重复元数据记录检测方法,该方法基于改进的N-Gram方法,适合较大规模联邦数字图书馆.模拟实验结果表明,该方法能有效提高重复检测的性能,加快重复检测的速度.
元数据、重复记录检测、N-Gram方法、相似度
35
TP311.52(计算技术、计算机技术)
河北省自然科学基金资助项目F2008000877
2010-01-18(万方平台首次上网日期,不代表论文的发表时间)
共3页
85-87