基于特征词向量的短文本聚类算法

引用

摘要：

针对互联网短文本特征稀疏和速度更新快而导致的短文本聚类性能较差的问题,本文提出了一种基于特征词向量的短文本聚类算法.首先,定义基于词性和词长度加权的特征词提取公式并提取特征词代表短文本;然后,使用Skip-gram模型(Continous skip-gram model)在大规模语料中训练得到表示特征词语义的词向量;最后,引入词语游走距离(Word mover's distance,WMD)来计算短文本间的相似度并将其应用到层次聚类算法中实现短文本聚类.在4个测试数据集上的评测结果表明,本文方法的效果明显优于传统的聚类算法,平均F值较次优结果提高了56.41％.

关键词：短文本、特征词、词向量、相似度计算、聚类

所属期刊栏目：32

分类号：TP391.1(计算技术、计算机技术)

资助基金：国家社会科学基金14BXW028

在线出版日期：2018-03-02（万方平台首次上网日期，不代表论文的发表时间）

页数：共9页

页码：1052-1060

英文信息展示

期刊专题