学位论文 > 优秀研究生学位论文题录展示
基于知识积累型的朴素贝叶斯垃圾邮件过滤算法研究
作 者: 王辉
导 师: 李军义; 潘伟大
学 校: 湖南大学
专 业: 计算机技术
关键词: 文本分类 中文分词 贝叶斯分类 垃圾邮件过滤 消息应用程序编程接口
分类号: TP393.098
类 型: 硕士论文
年 份: 2013年
下 载: 6次
引 用: 0次
阅 读: 论文下载
内容摘要
随着互联网应用的不断深入,电子邮件已经成为人们日常生活中不可或缺的一部分,并发挥着越来越重要的作用。与此同时,伴随着电子邮件的应用,各种广告、成人交友、商品推销等垃圾邮件信息也在网络中蔓延。这些垃圾邮件极大地浪费了互联网资源和用户的时间。因此,研究对于垃圾邮件的自动过滤算法具有非常重要的意义。本文首先针对邮件所具有的文本特点进行了分析,介绍了文本分类中常用的向量空间模型。由于中文语句不存在类似于空格等天然词与词之间的分割符,因此中文分词技术是垃圾邮件过滤的基础,论文针对当前主要的中文文本分词技术进行了相关介绍与分析。其次针对目前常用的垃圾邮件过滤算法进行了分析,探讨了常用的贝叶斯分类模型、原理以及对应算法的特点。同时对其他主要分类器的概况及其优缺点也进行了比较分析。在现有垃圾邮件过滤算法的基础上,针对基于主动学习的分类算法所要求的样本空间全面性的不足之处,提出了一种基于知识积累方法的朴素贝叶斯垃圾邮件过滤算法。算法基于朴素贝叶斯算法的分类原理,利用用户对邮件的分析结果将新型的邮件样本动态加入训练样本集中,从而实现知识的不断积累过程。实验结果表明新算法具有较好的过滤性能。最后,完成了基于知识积累方法的朴素贝叶斯垃圾邮件过滤算法的实现,本文利用Visual Basic工具,结合消息应用程序编程接口MAPI实现了一个垃圾邮件过滤器原型系统。原型系统主要包括邮件获取与用户处理两个主要子系统:邮件获取子系统包括用户登录、邮件获取以及邮件自动分类等功能;用户处理子系统主要实现邮件管理、邮件发送、邮件回复、分词管理等功能。原型系统的运行结果体现了垃圾邮件的自动分类判别以及根据用户操作实现分类模型的自动更新过程的有效性。
|
全文目录
摘要 5-6 Abstract 6-11 第1章 绪论 11-17 1.1 研究背景 11-12 1.2 国内外研究概况 12-15 1.3 本文的研究内容 15 1.4 论文结构 15-17 第2章 邮件文本信息预处理 17-21 2.1 邮件结构 17 2.2 邮件预处理整体流程 17-18 2.3 预处理相关技术 18-20 2.3.1 黑白名单 18-19 2.3.2 主题正文文字处理 19 2.3.3 中文分词技术 19-20 2.3.4 向量空间模型 20 2.4 小结 20-21 第3章 常用邮件过滤算法研究 21-27 3.1 引言 21-22 3.2 贝叶斯分类器 22-23 3.2.1 贝叶斯定理 22-23 3.2.2 朴素贝叶斯分类 23 3.3 神经网络分类方法 23-24 3.4 K近邻法 24-25 3.5 支持向量机 25-26 3.6 小结 26-27 第4章 基于知识积累方法的垃圾邮件过滤算法 27-37 4.1 引言 27-28 4.2 基于知识积累方法的思想 28-30 4.3 基于知识积累的邮件过滤算法 30-31 4.4 实验与性能分析 31-36 4.4.1 性能评价准则 31-32 4.4.2 实验分析 32-36 4.5 小结 36-37 第5章 基于知识积累的邮件系统设计与实现 37-51 5.1 系统设计 37-46 5.1.1 MAPI介绍 37-38 5.1.2 MAPI控件的邮件收发过程 38-39 5.1.3 主要设局结构 39-40 5.1.4 系统组成 40-44 5.1.5 用户处理子系统 44-46 5.2 系统实现 46-50 5.3 小结 50-51 结论 51-53 参考文献 53-56 附录A 56-62 致谢 62
|
相似论文
- 基于仿生模式识别的文本分类技术研究,TP391.1
- 互联网上旅游评论的情感分析及其有用性研究,TP391.1
- 基于数据分布特征的文本分类研究,TP391.1
- 类药性和生物利用度的理论预测研究,R914
- 基于本体的食品投诉文档文本分类研究,TP391.1
- 基于本体的中文科技论文分类研究,TP391.1
- 基于词跨度的中文文本关键词提取及在文本分类中的应用,TP391.1
- 基于粗糙集理论的文本分类研究,TP18
- 面向文本分类的改进K近邻的支持向量机算法研究,TP391.1
- 集合多标签文本分类研究,TP391.1
- 数据挖掘技术在环境保护综合管理系统中的应用,TP311.13
- 全文检索及相关技术研究,TP391.3
- 基于贝叶斯过滤的文本分类技术的研究与实现,TP393.098
- LUCENE中文分词在科研文档全文检索系统的应用研究,TP311.52
- 基于条件随机场的中文分词技术的研究与实现,TP391.1
- 基于改进的非参数回归交通流量预测方法,F570
- 基于内容的中文垃圾短信分类技术的研究,TP391.1
- 基于树型条件随场的特定域事件提取方法研究,TP391.1
- 主观题自动评分技术研究,TP391.1
- 基于Hadoop的文本分类研究,TP391.1
- 基于观点挖掘的产品可用性建模与评价,F274
中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 计算机网络 > 一般性问题 > 计算机网络应用程序 > 电子邮件(E-mail)
© 2012 www.xueweilunwen.com
|