10.16208/j.issn1000-7024.2019.10.043
基于词向量和增量聚类的短文本聚类算法
由于微博短文本的高维稀疏和传统Single-Pass聚类算法对文本数据顺序敏感等问题,导致短文本聚类准确率较低.针对上述问题提出一种基于词向量和增量聚类的短文本聚类算法(improved single-pass algorithm based on word embedding,ISWE).通过词向量模型得到文本的词向量矩阵,利用金字塔池化(spatial pyramid pooling,SPP)策略对文本词向量矩阵进行处理得到文本表示,使用改进的Single-Pass算法进行微博短文本聚类.实验结果表明,使用SPP策略的文本表示使聚类准确率明显提高,ISWE算法相较于传统的Single-Pass算法有更高的准确率和调整兰德系数,验证了其有效性和准确性.
短文本、词向量、文本表示、空间金字塔池化、增量聚类
40
TP391(计算技术、计算机技术)
国家自然科学基金项目U1603115、61262087;国家自然科学基金重点基金项目U1435215;新疆维吾尔自治区自然科学基会项目2017D01C042
2019-11-11(万方平台首次上网日期,不代表论文的发表时间)
共7页
2985-2990,3055