学位论文 > 优秀研究生学位论文题录展示
基于贝叶斯算法的垃圾邮件过滤系统的研究与实现
作 者: 赵凡
导 师: 顾小丰
学 校: 电子科技大学
专 业: 软件工程
关键词: 贝叶斯算法 邮件过滤器 预处理 中文分词 特征词提取
分类号: TP393.098
类 型: 硕士论文
年 份: 2010年
下 载: 126次
引 用: 0次
阅 读: 论文下载
内容摘要
随着网络的发展,电子邮件已经成为人们日常生活中不可或缺的通讯方式,电子邮件以其方便快捷的特点受到广大网民的青睐。电子邮件成为人们的主要通讯方式是一种必然的发展趋势,但是随着电子邮件的日益流行,一些不法分子利用这个机会趁机发送垃圾邮件,向人们传递广告或者非法视频、图片等信息,既浪费用户的时间,又浪费网络流量,给用户的正常工作、生活、学习带来了极大的不便,因此寻找一种切实可行且高效的反垃圾邮件技术变得尤为重要。本文应实验室项目的需求,深入研究了国内外的主要反垃圾邮件技术,设计了一个反垃圾邮件系统。通过分析比较当前的主流反垃圾邮件技术,本系统决定采用过滤效率较好的基于内容的反垃圾邮件技术。在基于内容的反垃圾邮件技术中,贝叶斯算法的分类效果明显优于其他分类算法,所以本文设计并实现了一个基于贝叶斯算法的垃圾邮件过滤器,并针对传统贝叶斯过滤器的不足提出了改进措施,通过将本过滤器改造为基于双层架构的邮件过滤系统来进一步提高系统的准确率,并解决了在实现贝叶斯过滤器增量学习的过程中遇到的问题。主要工作如下:(1)研究最新的邮件过滤技术,并比较各种技术的优缺点,以选择效果最好的过滤技术进行实现。(2)研究并分析了常用的邮件预处理技术(包括邮件解码,中文分词,特征词提取等),并从中选取适用于本系统的技术。(3)实现了邮件预处理过程,包括邮件解码实现,中文分词实现,特征词提取技术的实现等。(4)实现了垃圾邮件过滤器,包括训练过程和测试过程,并通过大量的实验确定了个参数值的最佳状态,从而提高了整个系统的准确率。(5)分析贝叶斯过滤器的优缺点并提出了改进措施,解决了贝叶斯过滤器在实现增量学习时遇到的一些问题。
|
全文目录
摘要 4-5 ABSTRACT 5-10 第一章 引言 10-16 1.1 研究背景 10-11 1.2 国内外反垃圾邮件技术的研究现状 11-13 1.3 本文的主要工作 13-14 1.4 本文章节安排 14-16 第二章 电子邮件相关原理 16-23 2.1 电子邮件工作原理 16-17 2.2 电子邮件组成 17-20 2.3 电子邮件相关协议 20-21 2.3.1 SMTP 协议 20 2.3.2 POP3 协议 20 2.3.3 IMAP 协议 20-21 2.4 电子邮件编码格式 21-22 2.5 本章小结 22-23 第三章 垃圾邮件过滤相关技术 23-32 3.1 常用垃圾邮件过滤方法 23-24 3.2 邮件预处理技术 24-28 3.2.1 文本分词 24-25 3.2.2 文本特征词提取 25-28 3.3 基于内容过滤的文本分类法 28-31 3.3.1 决策树 28-29 3.3.2 支持向量机 29-30 3.3.3 kNN 算法 30 3.3.4 贝叶斯分类算法 30-31 3.4 本章小结 31-32 第四章 邮件过滤系统的总体设计 32-40 4.1 系统设计及流程 32-33 4.2 主要模块设计 33-39 4.2.1 邮件预处理模块 33-39 4.2.2 训练模块 39 4.2.3 分类模块 39 4.3 本章小结 39-40 第五章 预处理模块的实现 40-57 5.1 邮件内容的提取 40-43 5.2 中文邮件解码实现 43-49 5.2.1 邮件解码算法研究 43-45 5.2.2 邮件解码实现 45-49 5.3 中文分词 49-53 5.3.1 分词词典的设计 49-52 5.3.2 分词过程实现 52 5.3.3 去除停用词 52-53 5.4 特征词提取及特征词库的生成 53-56 5.5 本章小结 56-57 第六章 贝叶斯分类器的构造 57-70 6.1 贝叶斯算法 57-60 6.2 垃圾邮件过滤器的构造 60-65 6.2.1 训练过程的设计与实现 60-62 6.2.2 分类过程的设计与实现 62-65 6.3 系统测试 65-68 6.3.1 测试语料 65 6.3.2 测评指标 65-66 6.3.3 实验结果 66-68 6.4 基于贝叶斯原理的过滤系统的改进 68-69 6.5 本章小结 69-70 第七章 总结与展望 70-72 7.1 全文总结 70-71 7.2 展望 71-72 致谢 72-73 参考文献 73-76 在学期间的研究成果 76-77
|
相似论文
- 舌图像中瘀斑瘀点检测技术研究,TP391.41
- Cu2+/Co2+催化漂白桉木浆工艺与机理研究,TS745
- 离子液体预处理纤维素及再生纤维素水解研究,TQ352.1
- 玉米秸秆和牛粪混合厌氧发酵工艺优化研究,S216.4
- 红外图像目标识别及跟踪技术研究,TP391.41
- 基于粗糙集的城市区域交通绿时控制系统研究,TP18
- 化学与生物成因施氏矿物的矿物学特征及其对水中As(Ⅲ)吸附去除效果的研究,X703
- O3高级氧化技术处理黄连素制药废水研究,X787
- 缺氧预处理MSCs移植对心肌梗死区SDF-1/CXCR4轴表达变化的实验研究,R542.22
- 内质网应激预处理提高肾组织对缺血再灌注损伤耐受性的作用及机制,R692.5
- 丁苯酞预处理对大鼠脑缺血再灌注损伤的神经保护作用,R743.33
- 经H2O2预处理的骨髓间充质干细胞移植对急性心梗后心室重构影响的实验研究,R542.22
- 基于车牌识别技术的智能交通系统的设计与实现,TP391.41
- 基于小波分析的掌纹图像识别研究,TP391.41
- 基于高斯过程的在线建模问题研究,TP181
- 五效蒸发法预处理环氧丙烷废水研究,X78
- 基于投影寻踪回归的网络异常检测机制研究,TP393.08
- 基于条件随机场的中文分词技术的研究与实现,TP391.1
- 基于web的通信原理教学信息管理与评估系统的设计与实现,TP311.52
- 基于数字图像处理的手势识别,TP391.41
- 基于数据挖掘聚类技术的我国高校分类研究,TP311.13
中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 计算机网络 > 一般性问题 > 计算机网络应用程序 > 电子邮件(E-mail)
© 2012 www.xueweilunwen.com
|