学位论文 > 优秀研究生学位论文题录展示
基于改进K最近邻模型的反馈学习垃圾邮件过滤系统的设计与实现
作 者: 梁好
导 师: 林和平
学 校: 东北师范大学
专 业: 计算机应用技术
关键词: 垃圾邮件过滤 反馈学习 朴素贝叶斯 KNN
分类号: TP393.098
类 型: 硕士论文
年 份: 2010年
下 载: 91次
引 用: 0次
阅 读: 论文下载
内容摘要
电子邮件技术已经成为一种快捷、经济的现代通信手段,几乎每个网络用户都有自己的邮件信箱。然而电子邮件也日益成为商业广告、病毒、木马等内容的重要载体,垃圾邮件的泛滥成灾给人们的正常生活带来了极大的危害和不便,同时极坏地影响了网络安全,占用了宝贵的带宽资源,占用了邮件服务器大量的存储空间。尽管目前已经存在许多的垃圾邮件过滤方法,但是垃圾邮件不降反升的局面表明,已有的垃圾邮件过滤方法并未取得理想的过滤效果。所以,研究新型高效的邮件过滤系统仍具有特别重要的现实意义。在垃圾邮件过滤研究领域已有的算法中,都是基于规则或基于内容的,其中基于规则的过滤算法需要用户长期定制和维护规则,其实质还是生硬的二值判断,局限在二维空间内进行处理,缺少可信度;基于内容的过滤算法大多数是基于向量空间模型的算法,其中广泛使用的是朴素贝叶斯算法和K最近邻(KNN)算法。虽然朴素贝叶斯邮件过滤器计算简便,但召回率和正确率都难以进一步提高。由于KNN算法计算复杂度太高而不适用于大规模场合和实时性要求高的场合。为此,提出邮件的合法属性和非法属性的概率,提出新的分类算法——基于邮件合法属性和非法属性的分类算法SEAFS算法。SEAFS垃圾邮件过滤算法结合KNN模型和朴素贝叶斯模型的优点,克服了KNN模型和朴素贝叶斯模型的缺点,将普通垃圾邮件过滤方法的线性过滤转化为非线性过滤,既提高了过滤准确度,又达到了令人满意的过滤效率,适用于大规模场合和实时性要求高的场合,有利于大规模邮件内容进行实时在线的垃圾邮件过滤。电子邮件的内容是随时间而变化的,用户的个性化需求也在不断改变,所以在对垃圾邮件的研究中加入了反馈学习过程,以捕捉这些变化,解决这一问题。本文设计并实现了一个实用、高效的垃圾邮件过滤系统,进行了大量实验,获得了良好的过滤效果,实验论证了SEAFS算法在垃圾邮件过滤中的可行性和有效性。
|
全文目录
相似论文
- 高中英语教师作业反馈对学生学习动机的影响,G633.41
- 数据挖掘技术在环境保护综合管理系统中的应用,TP311.13
- 近红外光谱技术对于掺假原奶判别的可行性研究,TS252.7
- 基于CT影像的肺裂计算机辅助检测方法研究,TP391.41
- 基于本体的医学命名实体识别技术研究,TP391.1
- 数据挖掘在邮件反垃圾系统中的应用,TP393.098
- 新闻网页中人物实体关系提取技术研究,TP393.092
- 贝叶斯分类算法的研究与应用,TP18
- 基于子空间的人脸识别算法研究,TP391.41
- 面向工程监理的多Agent信息智能检索机制研究,TP391.3
- 基于朴素贝叶斯分类技术的纳税评估模型研究,F812.42
- 基于朴素贝叶斯模型研究语言特征对情态动词MUST语义影响,H313
- 基于概念集合的网页内容过滤方法的研究,TP393.092
- 基于内容的垃圾邮件过滤技术的研究,TP393.098
- 在线组合分类器应用于大规模垃圾邮件过滤的研究,TP393.098
- 基于N-Gram模型的藏文文本分类技术研究,TP391.1
- 基于朴素贝叶斯的中文文本情感倾向分类研究,TP391.1
- 基于改进KNN的文本分类算法的设计与实现,TP391.1
- 空间离群点挖掘算法的研究,TP311.13
- 企业搜索引擎中网页分类技术的研究与实现,TP393.092
- 基于图模型的中文小样本文本分类研究,TP391.1
中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 计算机网络 > 一般性问题 > 计算机网络应用程序 > 电子邮件(E-mail)
© 2012 www.xueweilunwen.com
|