10.16208/j.issn1000-7024.2017.08.050
文档分类中的多特征最大值法及其改进方法
为在每个文档类别中选择更多的特征,解决至少一个特征法(ALOF)的特征不足问题,提出文档特征最大值法(MFT)和改进的文档特征最大值法(IMFT).按照数据处理方式决定选择特征的数量,MFT法解析所有文档,确保训练集中每个文档都用最终特征矢量来表示,IMFT法只分析特征评估函数中特征值高的文档以选择较少的特征,减少选择不相关特征的概率.实验考虑3个文档分类数据库和3个评估函数,实验结果表明,与ALOF法和模糊关联聚类(FRC)法相比,提出的两种方法的F1测度更高,分类效果更好,评估函数对最终的分类结果具有重要影响,不同的特征数会左右最终结果.
文档分类、评估函数、特征最大值、F1测度、特征数
38
TP391(计算技术、计算机技术)
湖南省教育厅基金项目12C1056
2017-10-30(万方平台首次上网日期,不代表论文的发表时间)
共7页
2262-2268