10.3969/j.issn.1000-3428.2007.09.037
基于通用后缀树模型的垃圾邮件过滤方法
采用通用后缀树模型(GSTM),利用邮件内容的上下文信息,进行每个文本位置的不定长多元统计,从而获得被测邮件与不同训练集的相似程度,确定邮件所属的类别.理论分析和实验表明,在相同语料上,该方法的精确度和召回率均达到或超过了基于向量空间模型的邮件过滤方法;对于长度为N的邮件,过滤时间为O(N);长度为N的新邮件加入训练集,训练时间为O(N),满足了训练集的动态增长;该方法不需进行分词处理,完全独立于语种,适用于多语种邮件同时存在的情况.
文本分类、垃圾邮件、通用后缀树
35
TP393(计算技术、计算机技术)
2007-06-25(万方平台首次上网日期,不代表论文的发表时间)
共3页
100-102