DOI：10.11896/j.issn.1002-137X.2015.6.047

一种符号型增量数据标签算法

引用

摘要：

数据标签是一种提高增量数据聚类效率的简单而有效的方法.数据标签就是分配每个新增数据点到与之最相似的簇的过程.符号数据分析的难点之一在于缺少一种恰当的方法来定义数据点与数据簇之间的相似性.为此,将簇代表定义为簇中所有属性的属性值及其在簇中的频率构成的列表,用信息熵的变化来定义“点-簇”不相似性.基于此不相似性度量,设计了一个符号型增量数据标签算法来分配无标记数据到恰当的簇.在公开数据集和文本语料上的对比实验表明,该数据标签算法不但数据标记精度高、时间开销小,而且有较好的可伸缩性.

关键词：聚类、数据标签、增量数据、符号数据、信息熵

所属期刊栏目：42

分类号：TP301.6(计算技术、计算机技术)

资助基金：国家自然科学基金61272095,61175067,61303091,61202365,61100138,61403238;山西省自然科学基金2012061015;山西省科技攻关项目20110321027-02;山西省回国留学人员科研项目2013-014

在线出版日期：2015-07-06（万方平台首次上网日期，不代表论文的发表时间）

页数：共5页

页码：223-227

英文信息展示

期刊专题