学位论文 > 优秀研究生学位论文题录展示

异常检测方法及其关键技术研究

作 者: 陈斌
导 师: 陈松灿
学 校: 南京航空航天大学
专 业: 计算机应用技术
关键词: 异常检测 支持向量数据描述 鲁棒性 加权平均 可能性C-均值 多视图学习 AUC性能 流形嵌入 AUC正则化
分类号: TP274
类 型: 博士论文
年 份: 2013年
下 载: 65次
引 用: 0次
阅 读: 论文下载
 

内容摘要


所谓异常检测就是检测和发现观测数据中不符合正常(期望)行为的异常数据模式,根据应用领域的不同,这些异常模式也被称为野值点、不一致点、新颖点、离群点或者污点。近年来异常检测已广泛用于故障诊断、疾病检测、入侵检测、信用卡(或保险)欺诈检测及身份辨识等领域。在这些领域中,异常模式常常蕴含了显著的(通常具有很大危害甚至致命的)行为信息,如互联网中网络流量(行为)的异常可能意味着受攻击主机上敏感信息的泄密,信用卡的欺诈行为会导致巨大的经济损失。因此异常检测的研究极具理论意义和实用价值,并已得到了广泛的关注,成为了模式识别领域中一个非常活跃和热门的研究方向。异常检测任务的特殊性往往在于只有符合期望(正常类)行为的数据模式,而罕有或未知违反符合期望(异常类)行为的数据模式,此两类观察样本的极端不平衡性(异常类样本数远小于正常类样本数)使得异常检测非常困难。因而目前对异常检测方法的研究主要集中于无监督学习框架和一些利用极少数有标号异常样本的监督学习方法。本文针对各种异常检测方法的原理、鲁棒性和先验信息嵌入等方面进行了深入研究,主要工作如下:1.提出了基于单簇聚类的数据描述OCCDD (One-cluster Clustering based Data Description),其利用单簇类聚类算法可能性C-均值PCM (Possibilistic C-Means)即P1M(PCM,C=1)进行权值计算并采用加权平均方法求解包含超球,克服了SVDD (Support Vector Data Description)采用极小极大化估计包含大多数正常类样本超球时超球中心对野值点的不鲁棒性,避免了SVDD求解二次规划的高训练复杂性。并从理论上证明了P1M拥有PCM(C>1)一般不具备的全局最优特性。进一步针对文本分类等应用中自然形成的观测数据的多视图特性,对OCCDD进行拓展,提出了一种多视图的异常检测方法,不同于单个视图上的单独训练,其实现了多视图的同时学习和相互促进。2.提出了AUC (Area under the ROC curve)正则化的SVDD,其针对异常类样本分布在正常类样本四周的情形,利用AUC度量对样本分布和错分代价的不敏感性,将AUC度量作为正则化项嵌入到SVDD优化目标中,从而同时优化最小包含球体积和AUC性能,解决了一般异常检测器不能胜任存在极少异常类样本的极端不平衡样本分布问题。此后,针对AUC正则化方法产生的高训练复杂性,提出了两种解决方案进行加速。3.提出了一种流形学习算法的设计框架:mXXX≈ISOMAP+XXX(XXX可为任一基于欧氏距离的学习算法),其仅需将原空间的测地距离近似为ISOMAP降维空间上的欧氏距离,而无需显式ISOMAP降维,即在隐含ISOMAP降维后空间上执行原XXX算法而实现流形结构信息的嵌入。针对观测数据位于或接近于低维非线性流形时欧氏距离难以真实地刻画其几何结构的不足,采用上述框架以SVDD为例设计了流形嵌入的SVDD (mSVDD),算法优点如下:(1)通过对ISOMAP降维空间中欧氏距离的近似计算,解决了前述基于测地距离的SVDD无法直接优化的问题;(2)无需真正执行ISOMAP的MDS (Multidimensional Scaling)和嵌入流形维数的选择(;3)不同于原空间(基于欧氏距离的)SVDD,mSVDD基于测地距离并隐含执行了ISOMAP,故能实现流形嵌入。4.揭示了基于支撑域的异常检测器和密度估计的关系。在综述目前的异常检测方法基础上,重点就两种基于支撑域的单分类器:单类支持向量机(One-class SVM,One-class Support VectorMachine)和支持向量数据描述SVDD,揭示了高斯核核化后它们与密度估计之间的本质性关系:首先,将基于支撑域的单分类器统一到密度估计的框架下;其次,还证明了基于支撑域的单分类器诱导的密度估计和真实密度一致,优化这些单分类器的同时也能减小积分平方误差。

全文目录


摘要  4-6
ABSTRACT  6-8
目录  8-11
图清单  11-13
表清单  13-14
第一章 绪论  14-21
  1.1 异常检测  14-16
  1.2 异常检测评价方法  16-17
  1.3 本文主要工作  17-19
  1.4 本文内容安排  19-21
第二章 异常检测方法分类及其关系揭示  21-47
  2.1 异常检测方法及其分类  21-38
    2.1.1 无监督的异常检测方法  21-34
      2.1.1.1 基于密度估计的方法  21-23
      2.1.1.2 基于重构的方法  23-26
      2.1.1.3 基于支撑域的方法  26-34
    2.1.2 有监督的异常检测方法  34-38
      2.1.2.1 人工生成异常样本的异常检测方法  34-36
      2.1.2.2 利用现有异常样本的异常检测方法  36-38
  2.2 基于支撑域的方法之间的等价性关系  38-40
    2.2.1 SVDD 和 One-class SVM 的等价性  38-39
    2.2.2 One-class SVM 与 Slab SVM 的等价性  39-40
  2.3 基于支撑域的方法之与密度估计之间的本质关系  40-46
    2.3.1 核密度估计(Kernel Density Estimator, KDE)  41
    2.3.2 本质关系  41-43
    2.3.3 本质关系的实验验证  43-46
      2.3.3.1 一维人工数据集  43-44
      2.3.3.2 二维人工数据集  44-46
  2.4 本章小结  46
  本章内容部分出自以下论文  46-47
第三章 基于单簇聚类的数据描述  47-62
  3.1 SVDD 优缺点分析  47-49
  3.2 可能性 1-均值(P1M)聚类算法  49-51
    3.2.1 动机  49-50
    3.2.2 P1M 算法的核化版本  50-51
  3.3 P1M 全局最优性分析  51-53
  3.4 基于单簇聚类的数据描述  53-56
    3.4.1 数据描述的获得  53-54
    3.4.2 隶属度阈值的设置  54
    3.4.3 参数优化  54-55
    3.4.4 和 SVDD 的比较与分析  55-56
  3.5 实验与评估  56-61
    3.5.1 人工数据集  56-57
      3.5.1.1 一维香蕉形数据集  56-57
      3.5.1.2 二维螺旋形曲线数据  57
    3.5.2 真实数据集  57-61
      3.5.2.1 小规模数据集上的实验  57-58
      3.5.2.2 USPS 手写数字识别  58-61
  3.6 本章小结  61
  本章内容部分出自以下论文  61-62
第四章 多视图单簇聚类数据描述  62-80
  4.1 提高分类器推广性能的主要技术  62-65
    4.1.1 模型选择  62-63
    4.1.2 正则化  63
    4.1.3 集成学习  63-64
    4.1.4 多视图学习  64-65
  4.2 多视图单簇聚类数据描述  65-69
    4.2.1 背景与动机  65-66
    4.2.2 文档表示方法  66-67
    4.2.3 多视图的单簇聚类算法  67-68
    4.2.4 多视图单簇聚类数据描述  68-69
  4.3 实验  69-79
    4.3.1 数据集  69-70
    4.3.2 参数设置  70
    4.3.3 实验结果及分析  70-79
  4.4 本章小结  79
  本章部分内容出自以下论文  79-80
第五章 流形嵌入支持向量数据描述  80-91
  5.1 相关工作  80-81
    5.1.1 ISOMAP  80-81
    5.1.2 测地核函数  81
  5.2 流形嵌入的框架 mXXX ≈ ISOMAP + XXX  81-82
    5.2.1 原空间测地距离的实质  81-82
    5.2.2 基于测地距离的 SVDD (gSVDD,Geodesic-Distance-based SVDD)  82
  5.3 流形嵌入的支持向量数据描述(mSVDD,SVDD with Manifold Embedding)  82-83
    5.3.1 mSVDD ≈ISOMAP + SVDD 的验证  82
    5.3.2 mSVDD 算法描述  82-83
    5.3.3 SVDD 和 mSVDD 复杂性比较  83
  5.4 实验  83-89
    5.4.1 人工数据集  83-88
    5.4.2 USPS 手写体数字识别实验  88-89
  5.5 本章小结  89-90
  本章部分内容出自下面的论文  90-91
第六章 AUC 正则化的支持向量数据描述  91-105
  6.1 引言  91-92
  6.2 AUC 正则化的 SVDD  92-100
    6.2.1 主要动机  93
    6.2.2 模型描述  93-94
    6.2.3 核化  94-97
    6.2.4 和 SVDD 及 ROC-SVM 的关系  97
    6.2.5 加速技巧  97-100
  6.3 实验  100-103
    6.3.1 人工数据集  101-102
    6.3.2 UCI 数据集  102-103
      6.3.2.1 数据集描述  102
      6.3.2.2 实验结果  102-103
  6.4 本章小结  103-104
  本章部分内容取自以下论文  104-105
结束语  105-108
参考文献  108-118
致谢  118-120
在学期间的研究成果及发表的学术论文  120-122
攻读博士学位期间主持与参加科研项目情况  122

相似论文

  1. 基于核方法的高光谱图像异常检测算法研究,TP751
  2. 人工免疫分类和异常识别算法的改进,R392.1
  3. 基于甘油跨膜运输混杂动力系统的鲁棒性与辨识,TQ223.162
  4. 用于电子签章图像系统的数字水印技术研究,TP309.7
  5. 基于免疫化学发光等全自动分析仪对正常妊娠全程免疫及其它系统变化观察,R446.6
  6. 交通视频中车辆异常行为检测及应用研究,TP391.41
  7. 基于相似性分析的时间序列异常检测研究,TP311.13
  8. 一种多数据流聚类异常检测算法,TP311.13
  9. 基于模糊区分矩阵的区间信息系统属性约简,O159
  10. 潜艇空间运动的控制问题研究,U674.76
  11. 基于NEL的GTP协议分析及监控系统的设计和实现,TN929.5
  12. 基于支持向量数据描述的说话人识别研究,TN912.34
  13. WSN环境下分布式聚类算法的研究与实现,TN929.5
  14. 面向关系数据库的数字水印技术研究,TP309.7
  15. 基于COCM的除草机视觉定位研究,TP391.41
  16. 军队现役干部考核信息系统的设计与实现,TP311.52
  17. 区间2型模糊逻辑系统的鲁棒性分析,O231
  18. 面向不确定感知数据的异常数据检测技术,TN929.5
  19. 基于数字全息图像的鲁棒数字水印技术研究,TP309.7
  20. 基于投影寻踪回归的网络异常检测机制研究,TP393.08
  21. 基于关键链的多项目鲁棒调度研究,TH186

中图分类: > 工业技术 > 自动化技术、计算机技术 > 自动化技术及设备 > 自动化系统 > 数据处理、数据处理系统
© 2012 www.xueweilunwen.com