基于信息理论的网络文本组合聚类

引用

摘要：

尽管近年来针对文本聚类问题进行了大量研究,其仍然是数据挖掘领域的一个富有挑战性的问题,特别在弱相关特征乃至噪声特征的处理上,仍然存在诸多挑战.针对这一问题提出了文本聚类的分解-组合算法框架——DIAS.该方法首先通过简单随机特征抽样将高维文本数据进行分解得到多样化的结构知识,其优点是能够较好地避免产生大量的噪声特征.然后采用基于信息理论的一致性聚类(ICC)将多视角基础聚类知识组合起来,得到高质量的一致性划分.最后通过在8个真实文本数据集上的实验,证明DIAS算法相较于其他被广泛使用的算法具有明显优势,特别在处理弱基础聚类上具有突出效果.由于在分布式计算上的天然优势,DIAS有望成为大规模文本聚类的主流算法.

关键词：文本聚类、分解-组合算法、基于信息理论的一致性聚类、K-均值、大数据聚类

所属期刊栏目：42

分类号：V221+.3;TB55(飞机构造与设计)

在线出版日期：2017-01-18（万方平台首次上网日期，不代表论文的发表时间）

页数：共9页

页码：1603-1611

英文信息展示

期刊专题