学位论文 > 优秀研究生学位论文题录展示
基于云计算的垃圾邮件识别方法的研究
作 者: 杨希
导 师: 张颖; 刘艳秋
学 校: 沈阳工业大学
专 业: 系统工程
关键词: 云计算 海量数据 垃圾邮件 朴素贝叶斯
分类号: TP393.098
类 型: 硕士论文
年 份: 2013年
下 载: 60次
引 用: 0次
阅 读: 论文下载
内容摘要
网络垃圾邮件的防范已经得到了国内外的广泛关注,随着网络垃圾邮件数量的激增及其形式的日益多样,如何快速高效地识别互联网中海量的垃圾邮件成为目前迫切需要解决的问题,由于云计算在存储与处理上优势明显,因此海量邮件数据的计算可以借助云计算有效实现。本文通过研究了当前垃圾邮件经常采用的欺骗手段和发送方法,通过对当前的反垃圾邮件技术进行归纳分析,对基于内容的垃圾邮件过滤方法进行深入的研究。针对垃圾邮件的涌现性、不确定性和生命周期性等等特性,为反垃圾邮件系统添加了反馈再判断的处理过程,从而实现了一个基于主动学习的文本过滤系统,分为训练、过滤、反馈和再过滤四个阶段。实验结果证明,加反馈的过滤系统对关键词的过滤较原有系统有所提高的。基于朴素贝叶斯算法提出了改进,利用邮件标题信息加权判断,进行有效辅助分类,可以减少正常邮件的误判率,提高垃圾邮件判定准确率。通过该邮件相对于垃圾邮件类的偏重值大小为判断依据。测试结果表明,标题加权的过滤方法是可行的且有效的,可以提高文本内容相对较少的垃圾邮件识别度,尤其是对缺少的内容的邮件而言,标题辅助的过滤算法是一种基于内容的过滤方法的有效补充。本文还研究了在虚拟机上基于云计算的垃圾邮件过滤方法,以及在实际实现过程中的编程要点。为了验证过滤系统改进之后的性能,采用由几批邮件样本进行小规模的实验,以运行时间和判定准确度作为衡量优劣的标准,结果证明云上过滤方法的效率比传统的算法要高很多,更能应对随着互联网的继续发展,垃圾邮件的数目和变异速度是向无限数量的趋势发展的情况。
|
全文目录
摘要 5-6 Abstract 6-10 第一章 绪论 10-14 1.1 课题的背景及其意义 10-11 1.2 国内外研究现状 11-12 1.3 本文主要研究工作 12-14 第二章 研究基础 14-28 2.1 邮件过滤系统概述 14-21 2.1.1 垃圾邮件的定义 14-18 2.1.2 过滤系统状况分析 18-21 2.2 云计算特点及应用 21-23 2.3 云上实现邮件过滤系统的可行性研究 23-26 2.3.1 目前主要的反垃圾邮件的相关方法 23-26 2.3.2 垃圾邮件的发送过程及常用干扰因素 26 2.4 智能识别的方法研究 26-28 第三章 反垃圾邮件系统流程的优化研究 28-44 3.1 网络垃圾邮件过滤系统的工作流程 29-33 3.1.1 影响过滤准确度的因素分析 31 3.1.2 评价网络邮件过滤的体系指标 31-33 3.2 反垃圾邮件系统的流程优化设计 33-37 3.2.1 过滤阶段的优化设计 35-37 3.2.2 反馈阶段的优化设计 37 3.3 反垃圾邮件系统在云上的实现方法 37-44 3.3.1 海量邮件文本的特征抽取 39-41 3.3.2 基于云计算的邮件文本分类器模型 41-42 3.3.3 过滤分类器实现的系统结构 42-44 第四章 基于海量邮件的朴素贝叶斯分类的邮件文本过滤研究 44-51 4.1 基于附加信息进行过滤的可靠性研究 44 4.2 特征选择及权重方案的优化分析 44-45 4.3 过滤阈值问题的研究 45-46 4.4 网络邮件环境判定系数的实时最优化 46-48 4.4.1 判定系数的优化 46 4.4.2 智能算法寻解 46-48 4.5 实验结果及其分析 48-51 第五章 结论 51-52 参考文献 52-54 附录A NGA 算法代码 54-68 在学研究成果 68-69 致谢 69
|
相似论文
- 云计算平台下的动态信任模型的研究,TP309
- 基于Eucalyptus的教育知识服务模型设计与实现,TP393.09
- 云网络实验平台研究与实现,TP393.09
- 网络隐私权的民法保护,D913
- 面向云计算的动态模糊测度方法研究,TP274
- 数据挖掘技术在环境保护综合管理系统中的应用,TP311.13
- 云计算技术及其在电子商务物流中心设计与运行中的应用,F724.6;F252
- 构建基于云计算的企业信息系统关键技术研究,TP315
- 基于贝叶斯过滤的文本分类技术的研究与实现,TP393.098
- 基于组合及统计的图像型垃圾邮件检测研究,TP391.41
- 基于相似性测量检测图像型垃圾邮件技术的研究,TP393.098
- 数据挖掘在邮件反垃圾系统中的应用,TP393.098
- 基于Exchange的中小企业邮件系统的研究与实现,TP393.098
- 基于云计算平台的大规模流形学习算法研究,TP311.13
- 基于信息增益的贝叶斯数据挖掘算法在垃圾邮件过滤中的应用,TP393.098
- 基于IaaS云计算的Web应用技术研究,TP393.09
- 基于内容检索的垃圾邮件过滤器研究与实现,TP393.098
- 中小学数字化校园应用集成平台研究及其应用,TP399-C1
- 海量数据存储与全文检索,TP333
- 海量数据压缩、操作和处理方法的研究,TP311.13
- 云计算中MapReduce性能优化及应用,TP3
中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 计算机网络 > 一般性问题 > 计算机网络应用程序 > 电子邮件(E-mail)
© 2012 www.xueweilunwen.com
|