10.3969/j.issn.1006-2475.2006.01.005
一种电子邮件特征信息的压缩算法
主成分分析算法是数据分析的重要方法之一,它通过构造原变量的一系列线性组合,使各线性组合在彼此不相关的前提下尽可能多地反映原变量的信息.针对目前垃圾邮件处理中存在的不足,本文使用主成分分析方法对大量的垃圾邮件样本进行分析,统计出在垃圾邮件中普遍存在的词语和它们对垃圾邮件的贡献率,作为判断未知邮件是否为垃圾邮件的过程中的降维依据;以此压缩邮件信息,得到含信息量大而维数低的向量.
主成分、贡献率、特征值、协方差矩阵、相关矩阵
TP301.6(计算技术、计算机技术)
浙江省教育厅资助项目20030718
2006-02-23(万方平台首次上网日期,不代表论文的发表时间)
共4页
13-15,33