中文短文本聚合模型研究

引用

摘要：

中文短文本聚合的目的是将两个数据集中属于同一对象的短文本信息进行匹配关联,同时要避免匹配不属于同一对象的短文本信息,这项研究对于多源异构的短文本数据资源整合具有重要的理论和现实意义.提出了一种有效的中文短文本聚合模型,通过快速匹配和精细匹配两个关键步骤可以大幅度降低匹配的候选对数量,并保证匹配的精度.针对传统短文本相似度算法的不足,提出了一种新颖的广义Jaro-Winkler相似度算法,并从理论上分析了该算法的参数特性.通过对不同数据集上的商户信息数据进行聚合实验,结果表明,新算法与传统算法相比,在匹配准确率和稳定性上具有最优的性能.

关键词：中文短文本、聚合模型、文本相似度、广义Jaro-Winkler算法、快速匹配、精细匹配

所属期刊栏目：28

分类号：TP391(计算技术、计算机技术)

资助基金：国家自然科学基金61300018;中国银联-电子科技大学-金融大数据研究项目 National Natural Science Foundation of China61300018;China Unionpay-UESTC-Project of Financial Big Data

在线出版日期：2017-11-08（万方平台首次上网日期，不代表论文的发表时间）

页数：共19页

页码：2674-2692

英文信息展示

期刊专题