改进特征权重的短文本聚类算法

引用

摘要：

短文本的研究一直是自然语言处理领域的热门话题, 由于短文本特征稀疏、用语口语化严重的特点, 它的聚类模型存在维度高、主题聚焦性差、语义信息不明显的问题. 针对对上述问题的研究, 本文提出了一种改进特征权重的短文本聚类算法. 首先, 定义多因子权重规则, 基于词性和符号情感分析构造综合评估函数, 结合词项和文本内容相关度进行特征词选择; 接着, 使用Skip-gram模型(Continuous Skip-gram Model)在大规模语料中训练得到表示特征词语义的词向量; 最后, 利用RWMD算法计算短文本之间的相似度并将其应用K-Means算法中进行聚类.最后在3个测试集上的聚类效果表明, 该算法有效提高了短文本聚类的准确率.

关键词：特征权重、情感分析、词向量、RWMD距离

所属期刊栏目：27

在线出版日期：2018-09-28（万方平台首次上网日期，不代表论文的发表时间）

页数：共5页

页码：210-214

英文信息展示

期刊专题