学位论文 > 优秀研究生学位论文题录展示

图像型垃圾邮件过滤关键技术研究

作 者: 李鹏
导 师: 崔刚
学 校: 哈尔滨工业大学
专 业: 计算机系统结构
关键词: 图像型垃圾邮件 垃圾邮件图像 近似复制图像检测 敏感关键字发现 分层过滤 干扰噪声
分类号: TP393.098
类 型: 博士论文
年 份: 2013年
下 载: 5次
引 用: 0次
阅 读: 论文下载
 

内容摘要


电子邮件在方便人们便捷通信的同时,也逐渐成为了别有用心的人用作发送广告、传播淫秽色情内容、进行恶意诈骗和宣传反动思想及言论的便捷途径。目前,针对文本型垃圾邮件的过滤已取得较好效果。但自2006年起,为了躲避传统的过滤系统,垃圾邮件发送者开始将邮件文本内容移至图像中进行发送,并且经常以加入形变文字和各种噪声干扰等方式进一步对抗过滤系统,这些手段大大降低了过滤器的性能。相对于传统垃圾邮件而言,图像型垃圾邮件具有更强的隐蔽性,消耗了更多的网络带宽、计算和存储资源,同时给社会带来了更大的安全隐患,对其进行有效地过滤已到了非常迫切的时刻。为了防止图像型垃圾邮件的进一步泛滥,本文针对垃圾邮件图像的不同特征以及实际应用需求,对其中的若干关键问题进行了研究。通过对垃圾邮件的生成与发送方式分析可知,垃圾邮件图像具有批量发送的特征,相同来源的垃圾邮件图像主要利用相同的模板生成,彼此之间通常具有相似的结构或者区域。针对上述特征,本文分析了近似复制图像检测中存在的主要问题,提出了一种结合局部特征点的邻域几何上下文和匹配点之间的全局几何一致性验证来提高近似复制图像匹配准确性的方法。首先,提取对应于每个SIFT局部特征点的弱稳定特征点,用于生成几何上下文信息,以避免特征点量化为视觉单词后导致的可区分性降低问题;然后,判断两幅图像匹配的点对中是否存在满足全局几何关系一致性的子集,以进一步验证潜在匹配图像的正确性。实验结果表明,本方法能够有效地提高部分近似复制图像识别的准确率,这对于有样本时的垃圾邮件图像过滤具有积极意义。垃圾邮件图像的另一个重要特征是其中经常包含大量的文本,因此可以借鉴基于内容检测的传统垃圾邮件过滤方法,同样判断邮件图像中是否包含特定的敏感关键字。本文提出了一种利用字符基元视觉短语进行图像关键字识别的方法。首先,通过提取图像中的最大稳定极值区域用于构造字符基元;然后,根据MSER区域拟合椭圆的邻接特性构造字符基元视觉短语,同一图像关键字中的基元通常位于相同的视觉短语中;最后,结合元素相似性和几何邻接关系进行视觉短语相似性判断。这种方法不需要对图像进行二值化、布局分析和文本区域定位等预处理操作,具有较高的灵活性和鲁棒性。此外,本文还借鉴几何模糊描述符,提出了一种对于复杂干扰场景下的中文图像关键字的识别方法。借助可变核对图像进行高斯模糊,可以有效降低噪声干扰带来的影响。首先,利用几何模糊进行特征点匹配,并通过对匹配特征点的布局特征分析以滤除潜在的误匹配;然后,由于中文关键字中经常存在形状相近的文字,这些文字通常具有相同的偏旁,本文通过分析样本图像中未匹配点的区域范围大小以进一步提高匹配的准确性。实验结果表明,本文方法对于复杂场景中的关键字发现具有较好的效果,并且能够有效地区分形状相似的文字,对于垃圾邮件图像中常用的干扰类型具有较好的抗干扰性。垃圾邮件图像多种多样,不同类型的邮件图像间通常具有较大的特征差异。此外,还需要考虑到实际应用中对于垃圾邮件的漏判具有一定程度的容忍性,而对于正常邮件的误判通常会给用户带来较大的损失。因此,本文提出利用局部和全局特征进行图像特征描述,并借助级联分类器对不同类型的垃圾邮件图像进行分层过滤的方法。同时,为了避免误判造成的影响,利用信息熵对分类结果进行评估,对于分类结果不确定的图像进行多次判断或者直接作为正常图像,以达到尽可能降低垃圾邮件图像的漏报率,同时减少对于正常邮件图像误报的目标。为了对抗过滤器,垃圾邮件图像中经常被加入大量的干扰噪声,因此也可以将其作为垃圾邮件图像判断的重要依据。针对上述特征,本文提出一种对邮件图像背景区域中的噪声进行分析的方法。首先,利用小波变换得到邮件图像非文本区域的噪声特征图像;然后,通过对特征图像中的连通域分析进行噪声的度量和分类。该方法可以作为邮件图像的特征提取模块,其输出用于表示邮件图像中包含的“噪声量”以及“噪声的类型”。虽然图像中的噪声含量不能直接用于判断当前图像是否为垃圾邮件图像,却可以为后续判断提供重要依据。

全文目录


摘要  4-6
Abstract  6-14
第1章 绪论  14-35
  1.1 课题背景及研究的目的和意义  14-17
  1.2 图像型垃圾邮件过滤基础概述  17-21
    1.2.1 常用概念  17-18
    1.2.2 垃圾邮件图像的特征  18-20
    1.2.3 公开的垃圾邮件图像数据库  20-21
    1.2.4 垃圾邮件图像数据收集方法  21
  1.3 国内外研究现状分析  21-31
    1.3.1 基于近似特征的过滤方法  21-24
    1.3.2 基于图像文本的过滤方法  24-26
    1.3.3 基于图像浅层特征的过滤方法  26-29
    1.3.4 基于图像内容分析的色情图像过滤  29-30
    1.3.5 其它过滤方法  30-31
  1.4 图像型垃圾邮件过滤相关产品及开源工具  31-32
  1.5 本文的主要研究内容  32-35
第2章 基于近似复制检测的垃圾邮件图像过滤  35-51
  2.1 引言  35-36
  2.2 近似复制图像检测问题概述  36-39
  2.3 相关工作  39-40
  2.4 局部特征点的几何形状上下文  40-43
    2.4.1 弱稳定局部特征点  40-42
    2.4.2 几何形状上下文  42
    2.4.3 匹配方法  42-43
    2.4.4 倒排文件索引结构  43
  2.5 匹配特征子集的全局几何一致性分析  43-46
    2.5.1 方法原理分析  44-46
    2.5.2 特征点子集的全局几何一致性  46
  2.6 实验验证与分析  46-50
  2.7 本章小结  50-51
第3章 基于字符基元视觉短语的敏感关键字发现  51-65
  3.1 引言  51-52
  3.2 相关工作  52-53
  3.3 关键字识别  53-54
  3.4 字符基元视觉短语  54-58
    3.4.1 字符基元提取  54-55
    3.4.2 利用字符基元构造视觉短语  55-57
    3.4.3 字符基元特征描述  57-58
  3.5 字符基元视觉短语的匹配方法  58-60
  3.6 实验验证与分析  60-64
  3.7 本章小结  64-65
第4章 基于几何模糊的复杂场景敏感关键字发现  65-81
  4.1 引言  65-66
  4.2 相关工作  66-67
  4.3 本章工作概述  67
  4.4 中文文字图像识别  67-71
    4.4.1 几何模糊描述符  67-69
    4.4.2 非严格性误匹配特征点检测  69-70
    4.4.3 共享偏旁的结构相近文字图像区分  70-71
  4.5 图像关键字发现  71-73
  4.6 实验验证与分析  73-80
  4.7 本章小结  80-81
第5章 基于局部和全局特征的垃圾邮件图像分层过滤  81-93
  5.1 引言  81-82
  5.2 图像的局部和全局特征提取  82-84
    5.2.1 局部和全局特征的不同作用  82-83
    5.2.2 利用视觉单词描述图像局部特征  83-84
    5.2.3 图像全局特征提取  84
  5.3 结合局部和全局特征的过滤方法  84-87
    5.3.1 分类器设计  84-86
    5.3.2 垃圾邮件图像的层次化过滤  86-87
  5.4 实验验证与分析  87-91
  5.5 本章小结  91-93
第6章 文本类垃圾邮件图像噪声特征分析  93-105
  6.1 引言  93-94
  6.2 相关工作  94-95
  6.3 图像文本区域定位  95-98
    6.3.1 利用可控滤波器进行特征图像映射  95-97
    6.3.2 形态学文本区域定位  97-98
  6.4 非文本区域图像噪声特征分析  98-101
    6.4.1 噪声特征图像  99-100
    6.4.2 噪声度量及分类  100-101
  6.5 实验验证与分析  101-104
  6.6 本章小结  104-105
结论  105-108
参考文献  108-119
攻读博士学位期间发表的论文及其它成果  119-122
致谢  122-123
个人简历  123

相似论文

  1. 基于组合及统计的图像型垃圾邮件检测研究,TP391.41
  2. 基于相似性测量检测图像型垃圾邮件技术的研究,TP393.098
  3. 利用惯导信息的反舰导弹抗干扰方法,TN974
  4. WiMAX上行链路功率控制关键技术研究,TN929.533
  5. OFDM系统中载波间干扰抑制技术研究,TN919.3
  6. 拖曳式诱饵干扰技术研究,TN974
  7. 垃圾图像过滤系统的实现,TP393.098
  8. 网络层内容过滤防火墙系统的研究,TP393.08
  9. 通化市220kV高集岗变电站及高压输电线路扩建后电磁环境评估,TM726.1
  10. 面向精确Web信息抽取的自动数据记录分析和识别技术研究,TP393.09
  11. 电磁干扰对多波束合成孔径雷达成像的影响研究,TN974
  12. IEEE802.16e OFDMA系统同步及相关技术研究,TN929.5
  13. 短波接收机前端强干扰噪声自适应对消研究,TN851
  14. WiMAX物理层若干关键算法研究与仿真,TN929.5
  15. 湿法磷酸料浆分层过滤新工艺研究,TQ126.35
  16. 激光侦听信号中大气噪声与环境噪声的降噪研究,TN249
  17. 合成孔径雷达干扰及干扰效能评估研究,TN974
  18. 高效可扩展的垃圾邮件过滤系统体系结构,TP393.098
  19. 传导性电磁兼容关键技术研究,TN03
  20. 复杂海洋环境匹配场源定位性能分析,TB566
  21. 基于CFD方法的直升机旋翼桨—干扰气动和噪声特性研究,V211.4

中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 计算机网络 > 一般性问题 > 计算机网络应用程序 > 电子邮件(E-mail)
© 2012 www.xueweilunwen.com