学位论文 > 优秀研究生学位论文题录展示

基于SVM的中文电子邮件过滤方法研究

作 者: 侯岩
导 师: 王文剑
学 校: 山西大学
专 业: 计算机应用技术
关键词: 支持向量机 中文电子邮件 过滤 模型选择 动态特征词典
分类号: TP393.098
类 型: 硕士论文
年 份: 2008年
下 载: 89次
引 用: 1次
阅 读: 论文下载
 

内容摘要


随着互联网的普及,电子邮件以其快捷、方便的优点逐渐发展成为人们工作和生活的重要通信工具之一。然而,随之而来的垃圾邮件问题也日益严峻,它不仅传播有害信息,而且耗费大量的公共资源,侵害电子邮件用户和企业的合法权益。尽管目前已经存在许多的垃圾邮件过滤方法,但是垃圾邮件不降反升的局面表明,已有的垃圾邮件过滤方法并未取得理想的过滤效果。所以,反垃圾邮件问题已成为全球性的具有现实意义的问题。目前的垃圾邮件过滤方法逐渐倾向于采用基于内容的机器学习判别方法,其中基于规则和基于概率统计的方法是其中的典型代表,这些方法实现简单、过滤效果好,但由于对基于内容的垃圾邮件过滤器影响较大的因素主要是邮件的特征表示和分类器的分类速度,这些方法都无法协调过滤速度和精度的关系。支持向量机是近年来得到普遍关注的一类学习机器,它以统计学习理论(Statistical Learning Theory,SLT)为基础,广泛应用于语音处理、图形检索、文本分类等领域,SVM不但分类速度快、精度高,而且可以有效避免“维数灾难”,是一种公认的高效的机器学习方法。本文研究了基于内容的SVM中文电子邮件过滤方法,主要的工作包括以下几个内容:(1)在大规模真实实验数据的基础上,建立了基于支持向量机的垃圾邮件过滤模型。该模型使用动态的方法构造特征词典,既能有效地不断充实垃圾邮件特征词典,又避免了由于词典过大或过小带来的一系列问题,较好地表示了邮件。(2)使用了向量空间模型对电子邮件进行向量化处理。在向量化过程中,针对中文电子邮件的特点,本文使用正向和逆向最大匹配法相结合的方法对中文电子邮件进行分词,另外,对特征项的选择、特征词权重的表示提出了改进方法。(3)使用fisher线性判别法对支持向量机的邮件过滤模型进行优化,并构造了基于高斯核和多项式核的SVM优化模型。(4)在中国教育和科研网紧急响应组公布的中文电子邮件数据集上对本文提出的过滤模型进行验证,并与贝叶斯、决策树邮件过滤器进行比较,实验结果表明本文的方法在各个方面表现优异,虚警率保持在1%左右,正确过滤率达到98.5%,超过了网易免费邮公布的98%的过滤精度。本文将目前通用有效的SVM方法运用于中文电子邮件的过滤,并结合了中文信息处理技术,使得本文提出的方法取得了良好的效果。本文不仅对电子邮件过滤方法的理论研究具有促进作用,而且所获得的成果具有直接的应用价值。

全文目录


中文摘要  4-6
ABSTRACT  6-12
第一章 引言  12-15
  1.1 研究背景  12-14
    1.1.1 全球垃圾邮件现状  12
    1.1.2 垃圾邮件的危害及对策  12-14
  1.2 论文的主要工作及结果  14
  1.3 论文结构  14-15
第二章 邮件过滤基础知识  15-22
  2.1 电子邮件系统原理简介  15-17
    2.1.1 电子邮件的格式  15
    2.1.2 电子邮件的传输协议  15-16
    2.1.3 电子邮件系统的实现原理  16-17
  2.2 电子邮件过滤的类型  17-21
    2.2.1 从电子邮件体系角色结构来分  17-18
    2.2.2 从电子邮件执行方法来分  18-21
  2.3 本章小结  21-22
第三章 支持向量机理论  22-28
  3.1 SVM简介  22-25
    3.1.1 线性硬间隔SVM  22-23
    3.1.2 线性软间隔SVM  23-24
    3.1.3 核映射  24-25
  3.2 SVM模型选择方法  25-27
  3.3 本章小结  27-28
第四章 邮件的特征表示  28-33
  4.1 中文分词  28-29
  4.2 特征项及特征词典的选择  29-31
  4.3 特征项的权重  31-32
  4.4 本章小结  32-33
第五章 基于支持向量机的邮件过滤  33-43
  5.1 模型设计  33-35
    5.1.1 邮件过滤模型  33-34
    5.1.2 基于内容的SVM垃圾邮件过滤模型  34-35
  5.2 实验数据及评价指标  35-36
    5.2.1 实验数据集  35
    5.2.2 评价指标  35-36
  5.3 数据实验及分析  36-42
    5.3.1 动态特征词典构建  36-37
    5.3.2 支持向量机核函数及参数选择  37-40
    5.3.3 支持向量机与其他邮件过滤方法的性能比较  40-42
  5.4 本章小结  42-43
结论与展望  43-44
参考文献  44-47
发表文章目录  47-48
致谢  48-50

相似论文

  1. 基于SVM的常压塔石脑油干点软测量建模研究,TE622.1
  2. 粉末活性炭—超滤工艺处理微污染地表水试验研究,X703
  3. 基于SVM的高速公路路面浅层病害的自动检测算法研究,U418.6
  4. 基于PCA-SVM的液体火箭发动机试验台故障诊断算法研究,V433.9
  5. 上吸式生物质空气气化及焦油低减技术研究,TK6
  6. 空间目标ISAR成像仿真及基于ISAR像的目标识别,TN957.52
  7. 音乐结构自动分析研究,TN912.3
  8. 基于三维重建的焊点质量分类方法研究,TP391.41
  9. 胆囊炎和肾病综合症脉象信号的特征提取与分类研究,TP391.41
  10. 直推式支持向量机研究及其在图像检索中的应用,TP391.41
  11. 个性化检索中相似用户群的获取与更新,TP391.3
  12. 基于SVM的中医舌色苔色分类方法研究,TP391.41
  13. 基于图像的路面破损识别,TP391.41
  14. 基于支持向量机的故障诊断方法研究,TP18
  15. 过程支持向量机及其在卫星热平衡温度预测中的应用研究,TP183
  16. 基于监督流形学习算法的固有不规则蛋白质结构预测研究,Q51
  17. 重组毕赤酵母遗传稳定性的研究及其表达产物猪α干扰素的分离与纯化,S828
  18. 盐霉素颗粒剂工艺的改进研究,S859.79
  19. 基于车载3D加速传感器的路况监测研究,TP274
  20. 高光谱图像技术诊断黄瓜病害方法的研究,S436.421
  21. 肠道病毒71型的层析纯化,R373

中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 计算机网络 > 一般性问题 > 计算机网络应用程序 > 电子邮件(E-mail)
© 2012 www.xueweilunwen.com