10.11896/j.issn.1002-137X.2015.6.047
一种符号型增量数据标签算法
数据标签是一种提高增量数据聚类效率的简单而有效的方法.数据标签就是分配每个新增数据点到与之最相似的簇的过程.符号数据分析的难点之一在于缺少一种恰当的方法来定义数据点与数据簇之间的相似性.为此,将簇代表定义为簇中所有属性的属性值及其在簇中的频率构成的列表,用信息熵的变化来定义“点-簇”不相似性.基于此不相似性度量,设计了一个符号型增量数据标签算法来分配无标记数据到恰当的簇.在公开数据集和文本语料上的对比实验表明,该数据标签算法不但数据标记精度高、时间开销小,而且有较好的可伸缩性.
聚类、数据标签、增量数据、符号数据、信息熵
42
TP301.6(计算技术、计算机技术)
国家自然科学基金61272095,61175067,61303091,61202365,61100138,61403238;山西省自然科学基金2012061015;山西省科技攻关项目20110321027-02;山西省回国留学人员科研项目2013-014
2015-07-06(万方平台首次上网日期,不代表论文的发表时间)
共5页
223-227