10.3969/j.issn.1003-3254.2011.03.037
改进的K-means算法在网络舆情分析中的应用
结合网络舆情分析的应用需求背景,首先介绍了文本信息的处理,然后探讨了文本聚类中的K-means算法,针对其对初始聚类中心的依赖性的特点,对算法加以改进.基于文档标题能够代表文档内容的思想,改进算法采用稀疏特征向量表示文本标题,计算标题间的稀疏相似度,确定初始聚类中心.最后实验证明改进的K-means算法提高了聚类的准确度;与基于最大最小距离原则的初始中心选择算法比较,提高了执行效率,同时保证了聚类准确度.
网络舆情、K-means算法、文本聚类、稀疏特征向量
20
TP3;D64
2011-06-28(万方平台首次上网日期,不代表论文的发表时间)
共5页
165-168,196