10.3969/j.issn.1000-3428.2006.10.002
基于向量空间模型的过滤不良文本方法
就向量空间模型文本表示方法以及归一化技术对不良文本过滤性能的影响进行了研究,并基于平衡样本集和不平衡样本集分别进行了试验.试验和结果分析表明,Na(i)ve Bayes方法由于采用概率模型进行文本表示,在不平衡样本集上显示了较差的准确度,而基于向量空间模型进行文本表示的方法,如中心向量法(VSM)、支持向量机(SVM)等在平衡或非平衡样本上取得了较好的准确度,并用于过滤不良文本的文本内容安全监管中.
文本表示、文本归一化、向量空间模型、支持向量机、Naive Bayes模型
32
TP18;TP309(自动化基础理论)
国家科技攻关项目2003AA142160;中国科学院资助项目60402019
2006-06-13(万方平台首次上网日期,不代表论文的发表时间)
共3页
4-5,8