邮件网络协同过滤机制研究

引用

摘要：

基于 Enron邮件集合探索真实邮件网络,揭示出邮件网络的无标度特性和有限小世界特性.在此基础上,依据用户间交互强度设计出垃圾邮件协同过滤机制,通过调整参数λ,用户可以决定主要是依靠自己还是其他用户协同进行垃圾信息过滤.算法即使在没有对用户个人阅读习惯充分训练的情况下,也可以通过基于交互强度的网络协同方式实现良好过滤.同时为了解决Enron数据集缺乏标注的情况,基于训练样本集W和测试样本集T独立同分布的假设,利用改进的EM (Expectation maximization)算法最小化WUT集合上风险函数,给出了未知样本的一个良好标注.真实数据上的实验表明,同单.机过滤和集成过滤方法相比,协同过滤能够提高平均过滤精度且方法简单易行.

关键词：文本分类、邮件过滤、邮件网络、协同过滤

所属期刊栏目：38

分类号：TP393.098(计算技术、计算机技术)

在线出版日期：2012-07-02（万方平台首次上网日期，不代表论文的发表时间）

页码：399-411

英文信息展示

期刊专题