10.3969/j.issn.1006-9348.2023.06.092
基于高维聚类的文本大数据挖掘算法仿真
文本数据具有规模大,特征维数高等特点.通常含有大量的冗余、空间维度复杂的数据,导致文本大数据信息挖掘困难.因此,提出一种基于高维聚类算法的文本大数据挖掘方法.采用等距离特征映射算法,将多维数据映射到低维空间.通过相空间重建,提取大数据的关键特征.以平均信息熵作为衡量聚类项目的标准,多次不断更新本文聚类中心,当平均信息熵为小数值时,利用密度函数确定原始本文聚类中心,实现文本大数据挖掘.实验结果证明,所提方法的F1 值在 95%以上,说明文本大数据的聚类精准度高,不会出现过度挖掘问题.
聚类算法、平均信息熵、降维处理、相空间重建、文本聚类、特征选择
40
TP118(自动化基础理论)
国家自然科学基金;江苏省高校自然科学研究项目;江苏省高校人文社会科学研究项目;全国高等院校计算机基础教育研究会立项课题
2023-08-02(万方平台首次上网日期,不代表论文的发表时间)
共5页
499-503