学位论文 > 优秀研究生学位论文题录展示

数据挖掘在邮件反垃圾系统中的应用

作 者: 马曦
导 师: 过敏意
学 校: 上海交通大学
专 业: 计算机技术
关键词: 垃圾邮件 朴素贝叶斯 机器学习 数据挖掘
分类号: TP393.098
类 型: 硕士论文
年 份: 2012年
下 载: 74次
引 用: 0次
阅 读: 论文下载
 

内容摘要


随着互联网的不断发展和日益普及,电子邮件以其低成本、方便、快捷的特点已成为人们日常交流的重要通讯工具之一和互联网上最重要的应用之一。然而,人们在享受其便利的同时,其副产品圾邮件正在像泛滥的洪水一样侵袭全球互联网。垃圾邮件占用了大量的网络存储空间、网络带宽和计算资源,严重影响了ISP的服务形象,耗费了用户大量时间,甚至影响到整个互联网的发展。甚至威胁到整个互联网的发展。因此,研究如何建立高效地垃圾邮件过滤系统具有重要意义。论文首先对电子邮件的基本协议、垃圾邮件的危害和泛滥的主要原因做了分析,并对基于内容反垃圾邮件和行为反垃圾邮件进行了研究,提出了一个基于行为过滤和内容过滤的多层次垃圾邮件过滤模型,并将其应用到真实的企业邮箱服务中。基于行为特征的垃圾邮件过滤技术主要从单封邮件包括邮件头和邮件体做了特征挖掘,并且通过建立用户关系模型有效解决可能存在的邮件误判问题。同时,基于内容特征的过滤采用多层内容过滤,提出并采用优化版的文本分类算法,从而进一步提高了垃圾邮件的召回率并减少误判率到非常低的程度。论文的主要工作和贡献如下:1.建立整套垃圾邮件过滤系统,包括基于行为特征和内容特征过滤垃圾邮件,并应该用在真实的生产环境中。2.基于发送垃圾邮件的根源出发,利用IP黑名单、实时黑名单和SPF技术在会话阶段过滤掉提前过滤掉明显是垃圾邮件的邮件,减轻邮箱系统负担。3.根据不同企业用户挖掘用户行为特征,建立不同级别的各种频率限制,以最优配置达到有效过滤垃圾邮件的目的。4.建立基于内容的垃圾邮件过滤模块,通过挖掘用户发送邮件内容特征,建立企业用户同域邮件免内容过滤机制、最近联系人机制,在不影响召回率的情况下有效减低垃圾邮件的误判率。5.研究并应用改进版的朴素贝叶斯过滤算法,该算法比支持向量机在三个公共邮件数据集上表现出更好的效果,同时结合建立的用户信誉度模块,采用弹性阈值算法使得垃圾邮件过滤取得更好的效果。实验结果和实际应用经验表明论文中研究和设计的垃圾邮件过滤系统能有效地过滤大部分的垃圾邮件,并且具有很低的误判率,基于行为的过滤和基于内容的过滤都是不可缺少的模块,系统具有处理效率高、准确率高、易维护、扩展性好的优点。

全文目录


摘要  5-7
ABSTRACT  7-9
目录  9-12
表格索引  12-13
插图索引  13-14
第一章 绪论  14-24
  1.1 垃圾邮件介绍  14-18
    1.1.1 垃圾邮件定义  14-15
    1.1.2 垃圾邮件产生的原因  15-17
    1.1.3 垃圾邮件的危害  17-18
  1.2 研究背景和研究意义  18-20
  1.3 垃圾邮件技术  20-21
  1.4 反垃圾邮件技术  21-22
  1.5 论文内容和结构  22-24
第二章 反垃圾邮件的基本知识和相关技术  24-44
  2.1 电子邮件基本知识  24-33
    2.1.1 电子邮件工作原理  24-26
    2.1.2 常用邮件传输协议  26-27
    2.1.3 MIME 邮件格式分析和邮件信息提取  27-33
  2.2 主要垃圾邮件过滤性能指数  33-34
  2.3 反垃圾邮件技术  34-35
    2.3.1 反垃圾邮件技术  34-35
  2.4 垃圾邮件过滤技术  35-44
    2.4.1 基于接入技术过滤  36-37
    2.4.2 基于规则的过滤  37
    2.4.3 基于邮件内容的过滤  37-41
    2.4.4 基于行为的过滤  41-44
第三章 反垃圾邮件系统设计和介绍  44-60
  3.1 行为反垃圾邮件介绍  44-47
  3.2 内容反垃圾邮件介绍  47-52
    3.2.1 直接找出正常邮件  49-50
    3.2.2 邮件预处理  50
    3.2.3 基于内容的过滤  50-52
  3.3 反垃圾邮件系统相关介绍  52-60
    3.3.1 数据来源  52
    3.3.2 语言分词  52-53
    3.3.3 用户信誉度模块  53
    3.3.4 Fingerprint 过滤  53-60
第四章 优化的朴素贝叶斯过滤算法  60-68
  4.1 朴素贝叶斯过滤  61-63
  4.2 Markov n-gram 语言模型  63-64
  4.3 组合朴素贝叶斯和n-Gram 语言模型用于邮件内容反垃圾  64-68
第五章 系统实现和实验结果分析  68-76
  5.1 分布式系统介绍  68-73
    5.1.1 MapReduce 计算模型介绍  68-70
    5.1.2 分布式文件系统介绍  70-71
    5.1.3 分布式数据库介绍  71-72
    5.1.4 mahout 介绍  72-73
  5.2 实验结果分析  73-76
全文总结  76-80
  5.3 总结  76-77
  5.4 展望  77-80
参考文献  80-84
致谢  84-86
攻读学位期间发表的学术论文目录  86-88
攻读学位期间参与的项目  88

相似论文

  1. 基于数据挖掘技术的保健品营销研究,F426.72
  2. 高忠英学术思想与经验总结及运用补肺汤加减治疗呼吸系统常见病用药规律研究,R249.2
  3. 张炳厚学术思想与临床经验总结及应用地龟汤类方治疗慢性肾脏病的经验研究,R249.2
  4. Bicluster数据分析软件设计与实现,TP311.52
  5. 基于变异粒子群的聚类算法研究,TP18
  6. 融合粒子群和蛙跳算法的模糊C-均值聚类算法研究,TP18
  7. 基于遗传算法和粗糙集的聚类算法研究,TP18
  8. 基于数据挖掘的税务稽查选案研究,F812.42
  9. 面向社区教育的个性化学习系统的研究与实现,TP391.6
  10. 基于关联规则挖掘的入侵检测系统的研究与实现,TP393.08
  11. 数据仓库技术在银行客户管理系统中的研究和实现,TP315
  12. 基于Moodle的高职网络教学系统设计与实现,TP311.52
  13. 教学质量评估数据挖掘系统设计与开发,TP311.13
  14. 基于数据分布特征的文本分类研究,TP391.1
  15. 网络隐私权的民法保护,D913
  16. 关联规则算法在高职院校贫困生认定工作中的应用,G717
  17. 基于数据挖掘技术在城市供水的分析与决策,F299.24;F224
  18. 数据挖掘技术在电视用户满意度分析中的应用研究,TP311.13
  19. Web使用挖掘与网页个性化服务推荐研究,TP311.13
  20. 数据挖掘在学校管理和学生培养中的应用,TP311.13
  21. 高校毕业生就业状况监测系统研究,G647.38

中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 计算机网络 > 一般性问题 > 计算机网络应用程序 > 电子邮件(E-mail)
© 2012 www.xueweilunwen.com