10.16208/j.issn1000-7024.2016.03.046
基于归一化词频贝叶斯模型的文本分类方法
为降低海量文本分类中词频信息和文本长度对分类结果的影响,提出归一化词频的贝叶斯分类模型。基于分布式计算框架M apReduce平台,采用文本中高词频特征的对数平均计算方法进行文本长度的归一化处理,解决朴素贝叶斯模型在文本分类中参数估计的不足。实验结果表明,该方法在分类准确率上优于朴素贝叶斯方法,具有良好的扩展性和伸缩性,能够应用于大数据的文本快速分类。
文本分类、朴素贝叶斯、参数估计、词频特征、并行计算
37
TP391.1(计算技术、计算机技术)
2016-04-22(万方平台首次上网日期,不代表论文的发表时间)
共4页
799-802