基于SSk-means聚类指导的邮件SVM分类学习算法
邮件分类学习算法需要大量标注样本,人工标记工作费时费力.此外邮件内容因其表达方式上的特殊性,其特征空间一般是稀疏的,这种稀疏性会影响分类处理的效果.为了节省标记训练集的时间和精力,同时更好地处理稀疏的邮件数据,引入自适应选择最佳密度半径球形k-means聚类(SSk-means)算法,作为支持向量机(SVM)的前端处理,将训练集扩展后再送入SVM分类器.实验结果与性能比较表明,在训练集只有极少量标记邮件和一定量未标记邮件的情况下,该分类算法的性能较一般SVM有很大的提高.
邮件分类算法、球形k-means算法、标记样本、自适应选择最佳密度半径、支持向量机
30
TP391(计算技术、计算机技术)
2009-04-01(万方平台首次上网日期,不代表论文的发表时间)
共4页
385-387,391