10.3772/j.issn.1000-0135.2016.007.005
基于关键证据与E2LSH的增量式人名聚类消歧方法
搜索引擎中关于人名的相关文档往往数据量庞大,且数据为增量式更新过程,新文档出现的时间与规模都存在不确定性.现有的方法多为全局的人名聚类方法,在处理大规模数据时往往效率较低,且无法实现增量聚类.本文提出了一种基于关键证据与E2LSH的增量式人名聚类消歧方法.对于初始文档集,采用全局的人名聚类方法,保证聚类性能且能有效控制全局聚类的文档规模,提高聚类效率.对于增量文档集,利用提出的关键证据与E2LSH方法生成候选文档集,极大降低了需要计算相似度的文档规模,提高方法效率.实验结果表明,本文提出的增量式人名聚类消歧方法能有效改善人名聚类的效率,且具有良好的性能.
人名消歧、增量聚类、关键证据、E2 LSH、大规模文档
35
TP3;TP2
国家社会科学基金项目“网上舆情斗争系统建模与应对策略研究”14BXW028
2016-10-20(万方平台首次上网日期,不代表论文的发表时间)
共9页
714-722