学位论文 > 优秀研究生学位论文题录展示

基于图片特征和分类器融合的垃圾邮件过滤技术研究

作 者: 杨华
导 师: 王春东
学 校: 天津理工大学
专 业: 计算机应用技术
关键词: 垃圾邮件过滤 图片特征 D-S合成规则 最大熵模型 SVM SIFT特征提取
分类号: TP393.098
类 型: 硕士论文
年 份: 2012年
下 载: 53次
引 用: 0次
阅 读: 论文下载
 

内容摘要


目前电子邮件获得了广泛应用,与此同时,垃圾邮件却给人们带来了极大的损害。垃圾邮件的新变种不断出现,反垃圾邮件技术面临挑战。如何针对新变种研究新的过滤方法成为该领域的热点。传统的垃圾邮件过滤技术大多是针对文本型垃圾邮件,对层出不穷的图片垃圾邮件束手无策,因此图片垃圾邮件过滤技术研究迫不及待。针对垃圾邮件过滤,特别是图片垃圾邮件过滤,本文主要做了以下工作:(1)在基于内容的过滤技术基础上,针对文本型和图片型垃圾邮件提出一个多种方法相结合的过滤方案。通过D-S合成规则将多个分类器组合,发挥各自优势,从而克服了单分类器失效问题,提高了过滤系统的可靠性和稳定性。为了使组合分类器获得良好的效果,分类算法选择至关重要。为此,本文针对文本型垃圾邮件,融合了最大熵模型和支持向量机(Support Vector Machine,SVM)分类算法,降低由单分类器受影响而引起的误检和漏检风险。(2)本文重点针对图片垃圾邮件,建立了多层过滤体系,融合了基于图片特征的相似度测量和基于后验概率的SVM分类方法。在图片特征提取中,重点分析了两种方法:尺度不变特征变换算法(Scale Invarient Feature Transform,SIFT)、图片底层和高层特征提取技术。通过降低特征向量维数,本文对SIFT算法进行了改进,仿真实验结果表明改进后的方法与基于周长复杂度的噪声检测相结合能够大大减少时间开销,而又不会降低算法性能。此外,在对图片特征进行详细分析的基础上,采用颜色、梯度、元数据等较为稳定的特征作为SVM的输入进行分类。实验结果表明这些特征具有很好的代表性,使得图片分类的准确性有所提高。由于多种分类器的差异性,本文在分析D-S合成规则的基础上,采用改进的规则合成方法。考虑到证据间的冲突性对分类器融合结果的影响,本文使用G c合成规则融合多种分类结果。最后的仿真实验表明Gc合成规则所得决策结果更为合理。

全文目录


摘要  5-6
Abstract  6-10
第一章 绪论  10-16
  1.1 反垃圾邮件技术研究背景及意义  10-11
  1.2 垃圾邮件的特点和分类  11-12
  1.3 反垃圾邮件现状  12-14
    1.3.1 法律手段  12-13
    1.3.2 反垃圾邮件组织  13-14
    1.3.3 反垃圾邮件技术发展  14
  1.4 论文组织结构  14-16
第二章 垃圾邮件过滤技术  16-25
  2.1 文本型垃圾邮件过滤技术  16-19
    2.1.1 基于行为特征的垃圾邮件过滤技术  16
    2.1.2 实时黑名单(RBL)  16-17
    2.1.3 基于规则的过滤方法  17-18
    2.1.4 基于内容的垃圾邮件过滤  18-19
  2.2 图片垃圾邮件过滤技术  19-23
    2.2.1 基于文本提取的研究方法  19
    2.2.2 基于图片特征的研究方法  19-22
    2.2.3 指纹识别技术  22
    2.2.4 重复检测  22-23
  2.3 其它过滤方法  23
  2.4 本文方法的提出  23-24
  2.5 本章小结  24-25
第三章 多层垃圾邮件过滤系统总体设计  25-40
  3.1 垃圾邮件过滤系统总体设计  25-26
  3.2 文本型垃圾邮件过滤设计  26-29
    3.2.1 最大熵模型问题描述  26-27
    3.2.2 最大熵模型问题的求解  27-28
    3.2.3 最大熵模型参数估计算法  28-29
  3.3 SVM 算法  29-33
    3.3.1 SVM 算法的理论基础  29-30
    3.3.2 SVM 算法实现原理  30-32
    3.3.3 基于后验概率的 SVM  32-33
  3.4 图片型垃圾邮件过滤设计  33-37
    3.4.1 噪声检测  34
    3.4.2 SIFT 特征提取算法  34-37
  3.5 多分类器融合  37-39
    3.5.1 D-S 证据理论  37-39
    3.5.2 D-S 合成规则  39
  3.6 本章小结  39-40
第四章 多层垃圾邮件过滤系统详细设计  40-46
  4.1 预处理  40-41
    4.1.1 文本预处理  40
    4.1.2 图片预处理  40-41
  4.2 特征提取  41-44
    4.2.1 改进的 SIFT 算法  42
    4.2.2 图像底层和高层特征提取  42-44
  4.3 基于 D-S 证据理论的合成规则改进  44-45
  4.4 本章小结  45-46
第五章 实验及结果分析  46-56
  5.1 垃圾邮件过滤性能评价指标  46-47
  5.2 实验环境  47-48
  5.3 实验结果与方差分析  48-55
    5.3.1 F 检验  48-49
    5.3.2 基于 SIFT 特征相似度测量实验  49-51
    5.3.3 周长复杂度与 SIFT 算法相结合的实验  51-52
    5.3.4 多种过滤方法相结合的实验测试  52-55
  5.4 本章小结  55-56
第六章 总结与展望  56-58
  6.1 总结  56-57
  6.2 展望  57-58
参考文献  58-62
发表论文和科研情况说明  62-63
致谢  63-64

相似论文

  1. 领域实体属性及事件抽取技术研究,TP391.1
  2. 人物言论抽取与跟踪技术研究,TP391.1
  3. 基于类Harr特征和最小包含球的纸币识别方法的研究,TP391.41
  4. 基于SVM分类算法的主题爬虫研究,TP391.3
  5. 中文缺省识别研究,TP391.1
  6. 基于计算机视觉的柑橘品质分级技术研究,TP391.41
  7. 基于战略采购的供应商选择研究,F426.31
  8. 汉语框架自动识别中的歧义消解,TP391.1
  9. 海南雾的天气气候特征分析及预报方法研究,P457
  10. 基于粗糙集和模糊SVM的车牌识别技术研究,TP391.41
  11. 基于支持向量机的视频目标检测方法研究,TP391.41
  12. 基于改进的SVM模型的肝癌识别方法的研究与实现,TP391.41
  13. WEB个性化信息采集与管理关键技术研究,TP393.09
  14. 基于粒子群优化算法和支持向量机的上市公司财务危机预警研究,F275
  15. 基于SVM和形状特征的电极三维模型分类检索的研究,TP391.41
  16. 心电特征提取及分类方法研究,TN911.7
  17. 基于稀疏表达的人脸识别算法研究,TP391.41
  18. 基于译文特征与译文内容的中英文跨语种抄袭识别技术研究,TP391.1
  19. 基于内容的垃圾邮件过滤技术的研究,TP393.098
  20. 在线组合分类器应用于大规模垃圾邮件过滤的研究,TP393.098
  21. 基于BCI多动作模式的ERD/ERS信号分析及识别方法的研究,TN911.6

中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 计算机网络 > 一般性问题 > 计算机网络应用程序 > 电子邮件(E-mail)
© 2012 www.xueweilunwen.com