DOI：10.3321/j.issn:1002-8331.2007.29.051

基于LZ复杂性相似度的垃圾邮件识别

引用

摘要：

提出一个基于符号序列间LZ复杂性相似度的垃圾邮件识别方法.相比基于向量空间模型的邮件识别,邮件文本间的LZ复杂性相似度计算无需对文本进行预处理和特征提取.同时,K近邻规则的延迟学习特性适合于垃圾邮件样本需要动态调整的应用环境.在Ling-Spam邮件语料集上对提出的识别方法进行十重交叉验证,其总体的识别效果优于基于向量空间模型的部分统计和机器学习方法.

关键词：垃圾邮件、LZ复杂性相似度、K近邻规则

所属期刊栏目：43

分类号：TP391(计算技术、计算机技术)

在线出版日期：2007-12-03（万方平台首次上网日期，不代表论文的发表时间）

页数：共3页

页码：176-178

英文信息展示

期刊专题