DOI：10.3969/j.issn.1007-757X.2023.10.046

基于改进TFIDF算法的文本特征选择和聚类分析

引用

摘要：

为了提高大量文本数据的特征选择能力,采用全覆盖粒计算方法对特征选择算法的数据高维性与稀疏性进行分析.针对TFIDF算法存在的缺陷,设计了一种经过改进后的TFIDF_SP算法,以区分文档内处于不同部位的特征词重要性,并根据不同特征选择方法对比结果判断算法有效性.研究结果表明,采用bLDA主题模型提取细主题粒度的时候也无法获得理想聚类效果,此时会对相同主题特征词造成弱化,将其判断为不同主题类型的特征词.在γ取值等于0.8时可以获得最优聚类效果,此时改进TFIDF算法能促进权重的进一步提升.所提出的改进TFIDF算法可以获得比TFIDF和bLDA主题模型更好的结果结合高1.62％的聚类准确率,表明当特征词方式词性与位置变化时会引起文档表达效果的显著影响.

关键词：文本特征选择、改进TFIDF算法、聚类效果、主题模型

所属期刊栏目：39

分类号：TP39(计算技术、计算机技术)

在线出版日期：2023-11-27（万方平台首次上网日期，不代表论文的发表时间）

页数：共4页

页码：181-183,187

英文信息展示

期刊专题