学位论文 > 优秀研究生学位论文题录展示

三维复合型垃圾邮件过滤技术的研究与实现

作 者: 许志佴
导 师: 邹恒明
学 校: 上海交通大学
专 业: 计算机软件与理论
关键词: 反垃圾邮件 贝叶斯过滤 协同过滤 个人邮件网络
分类号: TP393.098
类 型: 硕士论文
年 份: 2008年
下 载: 81次
引 用: 0次
阅 读: 论文下载
 

内容摘要


在垃圾邮件与反垃圾邮件的斗争中,邮件过滤技术是主要手段。当前的邮件过滤技术基本上是基于邮件内容的机器学习,包括支持向量机、K-NN、Boosting、Winnow、贝叶斯过滤等。这些技术存在的问题是:要么召回率等指标不能令人满意,要么训练时间长、误报率高。本文提出并实现了一种三维复合型垃圾邮件过滤系统。该系统采用基于下列三种过滤技术的复合过滤模型:基于用户反馈的协同过滤技术、基于个人邮件网络的白名单过滤技术和自适应贝叶斯过滤技术。协同过滤技术用来过滤群发垃圾邮件,其中使用了改进的Nilsimsa摘要算法判断相似邮件,并采用了显式和隐式反馈收集技术。白名单过滤技术用来过滤群发合法邮件,依据所构建的个人邮件网络的群体相关性进行判断。贝叶斯过滤技术充分使用了前两种过滤的输出结果进行训练,通过特征提取方法、多次迭代训练方法等进行自适应过滤。实验结果分析表明,与当前最普遍使用的简单贝叶斯过滤结果相比,复合过滤系统的召回率提高了4.26个百分点,正确率提高了0.27个百分点,并且用户因垃圾邮件带来的损失可以降低15%以上。

全文目录


摘要  5-6
ABSTRACT  6-11
1 引言  11-15
  1.1 垃圾邮件背景  11-13
  1.2 反垃圾邮件技术  13-14
  1.3 本文内容安排  14-15
2 垃圾邮件过滤技术现状  15-27
  2.1 非机器学习的过滤技术  15-17
    2.1.1 启发式过滤  15
    2.1.2 质询应答  15-16
    2.1.3 黑名单白名单  16-17
    2.1.4 流量分析  17
  2.2 机器学习的过滤技术  17-20
    2.2.1 支持向量机  17
    2.2.2 近邻分类法  17-18
    2.2.3 加权组合分类器  18
    2.2.4 线性分类法  18-19
    2.2.5 贝叶斯过滤  19-20
  2.3 协同过滤技术  20-22
  2.4 其它过滤方法  22-23
    2.4.1 服务器端过滤  22-23
    2.4.2 基于硬件的过滤  23
  2.5 对比实验  23-24
  2.6 相关研究领域  24-25
  2.7 发展趋势  25-26
  2.8 本章小结  26-27
3 三维复合邮件过滤模型  27-45
  3.1 模型层次图  28-29
  3.2 基于用户反馈的协同过滤技术  29-33
    3.2.1 邮件摘要  30-31
    3.2.2 反馈收集  31-32
    3.2.3 协同库  32-33
  3.3 基于个人邮件网络的白名单过滤技术  33-36
    3.3.1 社会网络  33
    3.3.2 个人邮件网络  33-35
    3.3.3 白名单自动生成  35-36
  3.4 自适应贝叶斯过滤技术  36-43
    3.4.1 特征提取方法  37-38
    3.4.2 多次迭代训练方法  38-39
    3.4.3 过滤器的自适应过程  39-40
    3.4.4 修正值的计算  40-43
  3.5 模型特点  43-44
    3.5.1 误报率低  43
    3.5.2 过滤过程自动化  43
    3.5.3 训练时间短  43-44
    3.5.4 针对群发邮件  44
  3.6 本章小结  44-45
4 系统设计与实现  45-59
  4.1 设计目标  45
  4.2 系统架构  45-46
  4.3 详细工作流程  46-57
    4.3.1 协同库管理  47-49
    4.3.2 协同过滤  49
    4.3.3 白名单过滤  49-50
    4.3.4 贝叶斯过滤  50-54
    4.3.5 反馈收集  54-55
    4.3.6 贝叶斯训练  55-57
  4.4 系统环境  57-58
  4.5 本章小结  58-59
5 实验及结果分析  59-69
  5.1 实验语料库  59-61
  5.2 评价指标  61-63
  5.3 实验结果分析  63-68
  5.4 本章小结  68-69
6 全文总结  69-70
  6.1 主要结论  69
  6.2 研究展望  69-70
致谢  70-71
攻读硕士学位期间已发表的论文  71-72
参考文献  72-75

相似论文

  1. 基于自然遗忘的个性化推荐算法研究,TP311.52
  2. 基于蚁群算法的移动商务个性化推荐体系研究,TP391.3
  3. 基于协同过滤的用户兴趣发现,TP391.3
  4. 基于信息型模型的音乐推荐算法,TP391.3
  5. 基于社会化标签体系的个性化推荐引擎技术研究,TP391.3
  6. 基于GPU的图书推荐系统研究与实现,TP391.3
  7. 基于C2C电子商务模式下商品推荐系统应用研究,F724.6
  8. 基于Exchange的中小企业邮件系统的研究与实现,TP393.098
  9. 基于用户兴趣和浏览行为的个性化推荐技术研究,TP391.3
  10. 基于特征向量的个性化推荐算法研究,TP391.3
  11. 基于语用情境的资源推荐研究及应用,TP391.3
  12. 动态推荐技术的研究及在个性化电子警务中的应用,D631.1
  13. “总串分并”四层反垃圾邮件过滤系统研究,TP393.098
  14. 跨系统个性化服务中隐私保持问题研究,TP393.08
  15. Agent电子商务推荐系统下协同过滤技术研究,F713.36
  16. 基于双信息源的协同过滤算法及其应用研究,TP301.6
  17. 基于AJAX的个性化图书馆信息系统的设计与实现,TP311.52
  18. 基于协同过滤的主动推荐系统关键技术研究,TP311.52
  19. 基于协同过滤的电子商务个性化推荐算法研究,F713.36
  20. 基于协同过滤的个性化推荐算法研究,TP301.6
  21. 基于点击数据分析的个性化搜索引擎研究,TP391.3

中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 计算机网络 > 一般性问题 > 计算机网络应用程序 > 电子邮件(E-mail)
© 2012 www.xueweilunwen.com