学位论文 > 优秀研究生学位论文题录展示

基于分类的复杂数据处理方法研究

作　者: 王惠亚
导　师: 郭鹏江
学　校: 西北大学
专　业: 基础数学
关键词: 模式分类小样本问题维数约简多源特征数据选择集成学习数据结构信息样本空间划分
分类号: TP181
类　型: 博士论文
年　份: 2013年
下　载: 34次
引　用: 0次
阅　读: 论文下载

内容摘要

模式分类是机器学习的核心技术之一。将数据集中属性一致的样本投影到某一给定的类别当中,并模型化为具体的分类器。近年来,模式分类取得了许多重要的研究成果,出现了诸如决策树、Bayes分类、k-近邻、神经网络、遗传算法、支持向量机等经典算法。随着其应用领域的进一步扩大,需要做分类处理的数据也变得复杂多样,分类模型的建立和分类器的设计面临着越来越多的挑战。本文围绕在分类问题中如何处理高维小样本数据、多源特征数据,以及在分类过程中如何利用数据分布的复杂结构信息有效提高分类性能的问题展开了研究。主要内容如下：(1)为解决高维复杂数据的维数约简问题,提出了一种新的基于正交局部判别嵌入(Orthogonal Linear Discriminant Analysis, O-LDE)的维数约简方法,并结合最近邻方法分类。首先,建立两个能够保持数据局部邻域信息的类内和类间邻接图；其次,针对小样本问题,重新定义邻接矩阵,适当修正优化的目标函数；然后,通过构建正交基求解目标函数,完成高维空间到低维流形的嵌入；最后,在低维空间中利用最近邻法进行分类。O-LDE的维数约简方法通过对类内样本的紧密度和类间样本的分离度的保持,达到了抽取有效分类信息和压缩特征空间维数的双重效果。在公共数据集Leukemia的试验结果表明该方法在基因表达谱的肿瘤识别中比LDA、LLDE、LDE等维数约简方法表现出更好的性能。(2)针对复杂数据的多源特征难以集中到一个分类器中做决策的问题,提出了一种基于分组特征子集选择的Bayes集成学习算法(the Bayesian Ensemble Algorithm based on Grouped Feature Selection, EGFS+BC)。首先,将数据特征按来源分组,对于每个特征源随机地从中抽取一部分作为初始化的特征子集；然后,以提高Bayes基分类器的准确率和分类器之间的差异度为目标,完成特征子集的动态选择；最后,根据选择得到的特征子集训练合适的基分类器,在集成学习的框架下,用加权投票的方式进行综合决策。该方法利用了不同源特征之间的差异性和互补性,在公开的DDSM多源数据集上的试验结果显示,该方法比k-NN、 Boost C5、Neural Net等多种分类器都具有更高的分类准确率。(3)为了更好的利用复杂数据中潜在的类内结构信息,提出了基于样本空间结构学习的分组SVM方法,包括基于聚类分组的SVM(Clustered Group SVM, GC-SVM)和基于EM样本空间分割的分组模糊支持向量机方法(Grouped Fuzzy SVM Algorithm with EM-based Partition of Sample Space, EMG-FSVM)。首先,为了清楚的描述类内样本结构信息,按照一定的相似性度量规则(分别采用了聚类和EM技术)对正、负类的样本空间分别进行有效分组；然后,交叉结合不同的正、负类的群组样本,训练出不同的SVM子分类器：最后,对未知的新样本,则根据其与各划分小组中心的Mahalanobis距离选择特定的SVM分类器来判断类别。该方法将复杂的大样本二次规划问题划分为一系列小的、简单的二次规划子问题,缩短了分类器的训练时间,一定程度上还提高了分类速度。仿真和实际乳腺病灶数据的试验结果表明,该方法确实比各种不同核的SVM方法具有更好的分类效果和稳定性。

全文目录

摘要  3-5
Abstract  5-10
第一章绪论  10-18
  §1.1 课题研究背景与意义  10-13
  §1.2 研究现状  13-15
  §1.3 论文主要工作及内容安排  15-17
    1.3.1 本文工作的主要内容  15-17
    1.3.2 论文结构  17
  §1.4 本章小结  17-18
第二章模式分类的理论基础  18-32
  §2.1 模式识别的理论基础  18-21
    2.1.1 模式识别的基本概念  18-20
    2.1.2 模式识别系统的典型构成  20-21
  §2.2 模式分类的主要方法  21-28
    2.2.1 Bayes分类方法  22-23
    2.2.2 k-近邻(k-NN)分类方法  23-25
    2.2.3 支持向量机(SVM)  25-28
  §2.3 模式分类的系统评价  28-31
    2.3.1 训练错误率  28-29
    2.3.2 测试错误率  29-30
    2.3.3 交叉验证  30-31
  §2.4 本章小结  31-32
第三章基于正交局部判别嵌入的k-近邻分类  32-45
  §3.1 引言  32-34
  §3.2 维数约简方法  34-39
    3.2.1 主成分分析(PCA)  34-35
    3.2.2 线性判别分析(LDA)  35-36
    3.2.3 局部线性嵌入(LLE)  36-37
    3.2.4 局部保持映射(LPP)  37-38
    3.2.5 间隔Fisher分析(FMA)  38-39
  §3.3 局部判别嵌入(LDE)及其改进  39-42
    3.3.1 局部判别嵌入(LDE)  39-41
    3.3.2 正交局部判别嵌入(O-LDE)  41-42
  §3.4 试验结果与分析  42-44
  §3.5 本章小结  44-45
第四章基于分组特征子集选择的Bayes集成分类  45-60
  §4.1 引言  45-47
  §4.2 集成学习算法  47-50
    4.2.1 基分类器的产生方式  48-49
    4.2.2 分类器集成的构造方式  49-50
  §4.3 分组特征子集选择的Bayes集成算法  50-55
    4.3.1 集成特征选择  50-52
    4.3.2 分组的集成特征选择  52-54
    4.3.3 分组特征选择的Bayes集成方法  54-55
  §4.4 试验及结果分析  55-58
    4.4.1 多源性试验数据描述  56-57
    4.4.2 试验结果及分析  57-58
  §4.5 本章小结  58-60
第五章基于样本空间学习的分组支持向量机分类  60-76
  §5.1 引言  60-62
  §5.2 基于聚类分组的SVM  62-66
    5.2.1 基于聚类的样本分组训练模型  63-64
    5.2.2 对测试样本选择预测分类算法  64-66
  §5.3 基于EM样本空间分组的fuzzy SVM  66-71
    5.3.1 基于混合模型的训练样本分组  67-68
    5.3.2 混合模型的参数确定  68-70
    5.3.3 分组fuzzy SVM  70-71
  §5.4 试验及结果分析  71-75
    5.4.1 仿真数据及试验结果  72-74
    5.4.2 乳腺数据及试验结果  74-75
  §5.5 本章小结  75-76
第六章总结与展望  76-79
  §6.1 工作总结  76-77
  §6.2 未来工作展望  77-79
参考文献  79-94
致谢  94-95
攻读博士学位期间的研究成果  95-97
作者简介  97

基于分类的复杂数据处理方法研究

内容摘要

全文目录

相似论文