DOI：10.3969/j.issn.1006-9348.2023.06.092

基于高维聚类的文本大数据挖掘算法仿真

引用

摘要：

文本数据具有规模大,特征维数高等特点.通常含有大量的冗余、空间维度复杂的数据,导致文本大数据信息挖掘困难.因此,提出一种基于高维聚类算法的文本大数据挖掘方法.采用等距离特征映射算法,将多维数据映射到低维空间.通过相空间重建,提取大数据的关键特征.以平均信息熵作为衡量聚类项目的标准,多次不断更新本文聚类中心,当平均信息熵为小数值时,利用密度函数确定原始本文聚类中心,实现文本大数据挖掘.实验结果证明,所提方法的F1 值在 95%以上,说明文本大数据的聚类精准度高,不会出现过度挖掘问题.

关键词：聚类算法、平均信息熵、降维处理、相空间重建、文本聚类、特征选择

所属期刊栏目：40

分类号：TP118(自动化基础理论)

资助基金：国家自然科学基金;江苏省高校自然科学研究项目;江苏省高校人文社会科学研究项目;全国高等院校计算机基础教育研究会立项课题

在线出版日期：2023-08-02（万方平台首次上网日期，不代表论文的发表时间）

页数：共5页

页码：499-503

英文信息展示

期刊专题