10.3969/j.issn.1005-0523.2014.04.024
基于套索(Lasso)的中文垃圾邮件过滤
使用向量空间模型表示的文本邮件数据高维而稀疏,不利于邮件过滤分类模型的建立,通常需在分类器训练前进行维数约减。Lasso回归是一种基于l1正则化的多元线性模型,其在模型参数估计的同时实现了变量选择。提出使用Lasso回归进行垃圾邮件过滤,建立Lasso回归邮件分类模型、Lasso回归词条选择结合逻辑回归的分类模型,结合中文文本垃圾邮件数据集TREC06C进行垃圾邮件过滤实验。实验结果表明Lasso回归词条选择结合逻辑回归的邮件分类模型性能更佳。
中文文本邮件、垃圾邮件、过滤、Lasso、逻辑回归
TP391(计算技术、计算机技术)
国家自然科学基金项目71361009,61065003;教育部人文社会科学研究项目13YJC630192;华东交通大学校立科研课题09DQ04
2014-09-26(万方平台首次上网日期,不代表论文的发表时间)
共6页
130-135