学位论文 > 优秀研究生学位论文题录展示

大规模机器学习理论研究与应用

作 者: 张利军
导 师: 陈纯; 卜佳俊
学 校: 浙江大学
专 业: 计算机科学与技术
关键词: 主动学习 特征选择 联合聚类 在线学习
分类号: TP181
类 型: 博士论文
年 份: 2012年
下 载: 49次
引 用: 0次
阅 读: 论文下载
 

内容摘要


随着信息技术的飞速发展尤其是互联网的广泛应用,各种类型的数据资源与日俱增。如何从浩瀚的“数据海洋”中发现有用的知识成为亟待解决的公共难题,引发了学术界和工业界的广泛关注。为处理海量数据,本文对主动学习特征选择联合聚类在线学习等大规模机器学习技术进行了研究和探索,创造性地提出了一系列机器学习算法,并成功应用于人脸识别、图像分类、生物信息学等领域。主要工作包括:为了减少数据标注的代价,本文提出了一种基于局部线性重构的主动学习算法,能够根据数据空间的局部流形结构选择最具代表性的样本。我们假设每个样本及其近邻组成了一个局部线性块,因此每个样本都可以通过它的近邻线性重构。给定各个样本的局部重构系数和一些样本的坐标,本文提出了局部线性重构算法来重构整个数据集。最具代表性的样本被定义为那些能够最准确地重构整个数据集的样本。由于数据重构算法满足局部线性的约束,这样选择的样本能够保持数据空间的局部流形结构。为了降低数据的维度,本文提出了一种无监督的判别性特征选择算法,旨在找出最能保持聚类结构的特征。由于缺乏标注数据的指导,本文依据判别性聚类的效果衡量特征的质量。具体而言,我们采用一个线性函数来建模特征选择后的数据矩阵和聚类指示矩阵之间的关系。可以证明,该函数的拟合误差依赖于选择的特征和聚类结果。将拟合误差作为目标函数,判别性特征选择算法要求最优的特征能够最小化拟合误差。为了发现不同类型数据之间的关联,本文提出了一种局部判别联合聚类算法,同时对样本和特征进行聚类。为了保持样本和特征之间的关系,局部判别联合聚类算法建立一个包含样本和特征的二分图,要求聚类的结果关于图尽可能地平滑。通过应用局部线性回归模型,局部判别联合聚类能够发现样本空间和特征空间的内在判别结构。为了保持样本之间、特征之间的内部关系,我们寻找能够最小化局部线性回归拟合误差的聚类。这样,局部判别联合聚类能够将相关的样本和特征聚在同一类,同时能够反映数据空间和样本空间的局部判别结构。为了降低核学习的计算复杂度,本文将在线学习应用到核逻辑回归模型。首先,我们根据随机梯度下降法得到一种非保守的在线学习算法。该算法在每一个训练样本到来时都会更新当前的核分类器,导致模型训练和测试的复杂度不断增加。为了生成稀疏的核分类器,本文进一步提出了两种保守在线学习算法来优化核逻辑回归。在每一个训练样本到来时,我们引入一个伯努利随机变量来决定是否更新当前模型。通过设定合适的概率分布,该算法在遇到难以区分的样本时更新的概率较大,反之更新的概率则较小。理论分析表明,这样得到的稀疏核分类器的泛化能力与稠密分类器的泛化能力类似。为了高效地求解相关的优化问题,本文应用了贪心方法、谱分析、凸松弛、随机梯度下降等优化技术来降低计算复杂度,提高算法的可扩展性。在实验中,本文将所提算法分别应用到人脸识别、图像分类、图像码字选择、文本和基因数据联合聚类、大规模在线分类等实际问题中,与其他算法进行了详细地对比,验证了算法的有效性。

全文目录


摘要  3-5
Abstract  5-7
目录  7-10
图目录  10-11
表目录  11-12
标记法  12-13
第1章 绪论  13-22
  1.1 引言  13-15
  1.2 大规模机器学习的研究背景  15-16
  1.3 大规模机器学习的关键技术  16-18
  1.4 本文的主要工作  18-20
  1.5 本文组织结构  20-22
第2章 大规模机器学习研究综述  22-53
  2.1 主动学习  22-29
    2.1.1 不确定抽样  23-25
    2.1.2 最优化实验设计  25-27
    2.1.3 典型抽样  27-29
  2.2 特征选择  29-35
    2.2.1 监督特征选择  30-31
    2.2.2 无监督特征选择  31-35
  2.3 联合聚类  35-43
    2.3.1 基于图分割的联合聚类  36-39
    2.3.2 基于信息论的联合聚类  39-41
    2.3.3 基于矩阵分解的联合聚类  41-43
  2.4 在线学习  43-52
    2.4.1 在线线性学习  44-48
    2.4.2 在线核学习  48-51
    2.4.3 收敛性质  51-52
  2.5 本章小结  52-53
第3章 反映数据空间局部结构的主动学习  53-75
  3.1 基于局部线性重构的主动学习  53-56
    3.1.1 局部线性重构  53-55
    3.1.2 目标函数  55-56
  3.2 问题优化  56-62
    3.2.1 连续贪心算法  57-60
    3.2.2 凸松弛算法  60-62
  3.3 实验分析  62-73
    3.3.1 简单示例  63-64
    3.3.2 实际数据集  64-73
  3.4 本章小结  73-75
第4章 无监督的判别性特征选择  75-92
  4.1 判别性特征选择  75-78
    4.1.1 问题建模  75-76
    4.1.2 目标函数  76-78
  4.2 问题优化  78-82
    4.2.1 估计最优的指示矩阵  78-80
    4.2.2 选择保持聚类结构的特征  80-82
  4.3 实验分析  82-90
    4.3.1 实验设置  82-84
    4.3.2 图像检索  84-85
    4.3.3 图像聚类  85-90
  4.4 本章小结  90-92
第5章 反映多种数据关系的联合聚类  92-110
  5.1 局部判别联合聚类  92-98
    5.1.1 建模样本和特征之间的关系  93-94
    5.1.2 建模样本之间的关系  94-96
    5.1.3 建模特征之间的关系  96-97
    5.1.4 目标函数  97-98
  5.2 问题优化  98-100
  5.3 实验分析  100-109
    5.3.1 实验设置  100-102
    5.3.2 实验结果  102-109
  5.4 本章小结  109-110
第6章 基于在线学习的稀疏核逻辑回归  110-129
  6.1 非保守在线核逻辑回归  110-116
    6.1.1 核逻辑回归问题  110-111
    6.1.2 非保守在线学习  111-116
  6.2 保守在线核逻辑回归  116-122
    6.2.1 基于分类边缘的保守算法  116-119
    6.2.2 基于辅助函数的保守算法  119-122
  6.3 实验分析  122-128
    6.3.1 中等规模数据集上的实验结果  122-127
    6.3.2 大规模数据集上的实验结果  127-128
  6.4 本章小结  128-129
第7章 总结与展望  129-132
  7.1 全文工作总结  129-130
  7.2 未来工作展望  130-132
参考文献  132-141
攻读博士学位期间主要的研究成果  141-144
  学术论文  141-143
  科研项目  143-144
致谢  144-145

相似论文

  1. 基于仿生模式识别的文本分类技术研究,TP391.1
  2. 唇读中的特征提取、选择与融合,TP391.41
  3. 语音情感识别的特征选择与特征产生,TP18
  4. CMC环境下大学生在线学习评价研究,G434
  5. 基于特征选择的入侵检测研究,TP393.08
  6. 基于数据分布特征的文本分类研究,TP391.1
  7. 提高大学生在线学习参与度的策略研究,G434
  8. 基于改进的SVM模型的肝癌识别方法的研究与实现,TP391.41
  9. 不完全信息下在线学习用户特征建模及其在知识推荐中的应用研究,TP391.6
  10. 联合聚类算法研究及应用,TP311.13
  11. 基于文本特征分析的钓鱼邮件检测技术研究,TP393.098
  12. 领域知识指导的半监督学习和主动学习倾向性分类研究,TP181
  13. 实用近红外人脸识别方法研究,TP391.41
  14. 基于脑电信号的疲劳估计和实时监控技术研究,TN911.6
  15. 跨语言文本分类的研究,TP391.1
  16. 随机森林特征选择,TP311.13
  17. 基于半监督回归的多模型在线软测量系统研究,TP274
  18. 面向概念查询的生物医学多文档摘要技术研究,TP391.1
  19. 基于J2EE平台的美术培训企业教学管理系统的设计与实现,TP311.52
  20. 混合式学习活动设计及应用研究,G434
  21. 基于粗糙集属性约简和加权SVM的入侵检测方法研究,TP393.08

中图分类: > 工业技术 > 自动化技术、计算机技术 > 自动化基础理论 > 人工智能理论 > 自动推理、机器学习
© 2012 www.xueweilunwen.com