基于SSk-means聚类指导的邮件SVM分类学习算法

引用

摘要：

邮件分类学习算法需要大量标注样本,人工标记工作费时费力.此外邮件内容因其表达方式上的特殊性,其特征空间一般是稀疏的,这种稀疏性会影响分类处理的效果.为了节省标记训练集的时间和精力,同时更好地处理稀疏的邮件数据,引入自适应选择最佳密度半径球形k-means聚类(SSk-means)算法,作为支持向量机(SVM)的前端处理,将训练集扩展后再送入SVM分类器.实验结果与性能比较表明,在训练集只有极少量标记邮件和一定量未标记邮件的情况下,该分类算法的性能较一般SVM有很大的提高.

关键词：邮件分类算法、球形k-means算法、标记样本、自适应选择最佳密度半径、支持向量机

所属期刊栏目：30

分类号：TP391(计算技术、计算机技术)

在线出版日期：2009-04-01（万方平台首次上网日期，不代表论文的发表时间）

页数：共4页

页码：385-387,391

英文信息展示

期刊专题