10.3969/j.issn.1001-3695.2018.11.005
基于文档类密度的特征权重算法
面对海量数据的管理和分析,文本自动分类技术必不可少,特征权重计算作为文本分类过程的基础,起到了至关重要的作用.为了提升文本分类的质量,针对传统特征权重算法的不足,提出了基于文档类密度的特征权重算法(TF-IDCD).其中,文档类密度通过类内包含特征的文档数与类内总文档数的比值来度量.最后,在两个中文常见数据集上对五种算法进行实验对比.结果显示,提出的算法相比较其他特征权重算法在F1宏平均和F1微平均上都有较大的提升.
特征权重、文档类密度、文本分类、支持向量机
35
TP391.1(计算技术、计算机技术)
国家自然科学基金资助项目61672002;北京市长城学者资助项目CIT&TCD20170322
2018-12-14(万方平台首次上网日期,不代表论文的发表时间)
共4页
3220-3223