学位论文 > 优秀研究生学位论文题录展示

基于支持向量机的半监督式分类学习方法

作 者: 廖明桥
导 师: 刘繁明
学 校: 哈尔滨工程大学
专 业: 导航、制导与控制
关键词: 半监督学习 支持向量机 直推式支持向量机 聚类 流形 测地线
分类号: TP181
类 型: 硕士论文
年 份: 2013年
下 载: 39次
引 用: 0次
阅 读: 论文下载
 

内容摘要


随着信息技术的发展,人们需要处理的数据数以亿计,比如工业信息,DNA分析,地理环境信息等。然而并非所有的数据都有明确的标签,当存在海量的无标签数据时,如何从海量无标签数据中获取有用的分类信息引起了研究人员的广泛关注。传统的监督学习和非监督学习处理数据时都没有能够充分利用有标签数据和无标签数据,浪费了宝贵的数据资源。半监督机器学习不仅能有效利用有标签数据,而且能通过无标签数据进行指导训练,提高了分类精度,增强了推广能力。本文研究了基于支持向量机的半监督式学习分类方法。本文首先介绍了直推式支持向量机(Transductive Support Vector Machines, TSVM)的半监督学习的基本原理。分析与比较了现有的改进TSVM方法,这些方法多是基于改变和完善TSVM的优化公式的,大多考虑的是优化方程最小化,而忽略了训练样本点之间的关系,所以对优化公式的改进对于半监督学习算法的性能提高作用有限。本文从数据的角度出发,来实现真正的数据驱动,从而实现数据的分类。基于这种思路,本文提出了两种改进的半监督式支持向量机学习分类算法:1)基于相似度标签传递的半监督支持向量机(Similarity Label Propagation Semi-Supervised Support Vector Machines,SLPS3VM);2)基于测地线标签传递的半监督支持向量机(Geodesic Label PropagationSemi-Supervised Support Vector Machines, GLPS3VM)。理论分析与实验结果表明,本文所提的改进型半监督学习的主要优势体现在:1)两种改进型半监督学习分类算法在数据类别比例不平衡时都依然有效。由于实际中无标签样本中类别的比例往往与有标签样本中的类别比例不一致,本文所提方法采用标签传递的方式逐步标注无标签样本中的类别,自动寻找合适的比例,与现有的采用固定类别比例的算法相比更具有实用意义;2)本文提出的SLPS3VM方法,在处理数据聚类比较突出的学习问题时运算效率明显提高。3)在数据呈高维流形结构时,本文提出的GLPS3VM可以获得较普通聚类方式更好的分类结果。

全文目录


摘要  5-6
Abstract  6-9
第1章 绪论  9-17
  1.1 课题背景与意义  9-10
  1.2 国内外研究现状  10-14
    1.2.1 半监督学习主要类别  11-13
    1.2.2 现有方法以及存在的问题  13-14
  1.3 论文主要工作及章节安排  14-17
第2章 半监督学习理论基础  17-27
  2.1 半监督学习的两个假设  17-18
    2.1.1 半监督机器学习的聚类假设  17
    2.1.2 半监督机器学习的流形假设  17-18
  2.2 支持向量机  18-26
    2.2.1 支持向量机的基本理论  19-20
    2.2.2 线性可分情况  20-22
    2.2.3 线性不可分情况  22-23
    2.2.4 对非线性分类情况引入核函数  23-25
    2.2.5 Mercer 条件  25-26
  2.3 本章小结  26-27
第3章 半监督学习分类方法分析  27-37
  3.1 半监督支持向量机  27-28
  3.2 优化方式分类  28-29
  3.3 直推式支持向量机  29-30
  3.4 直推式支持向量机的成对交换解法  30-32
  3.5 凹-凸优化过程(Concave Convex Procedure,CCCP)  32-33
  3.6 渐进直推式支持向量机(PTSVM)  33-35
  3.7 基于标签传递的分类方法  35
  3.8 本章小结  35-37
第4章 改进的半监督支持向量机学习分类方法  37-49
  4.1 数据的几何结构  37-38
  4.2 基于相似度标签传递的半监督支持向量机  38-43
    4.2.1 相似度构图  39
    4.2.2 目标优化方程  39-40
    4.2.3 标签传递方式  40-42
    4.2.4 主要实现步骤  42
    4.2.5 程序设计部分  42-43
  4.3 基于测地线标签传递的半监督支持向量机  43-48
    4.3.1 ISOMAP 方法构图  44-46
    4.3.2 K-邻近值  46
    4.3.3 最短路径寻找算法  46-47
    4.3.4 标签传递方式和主要实现步骤  47-48
  4.4 本章小结  48-49
第5章 实验结果分析  49-57
  5.1 不平衡样本分析实验  49-53
    5.1.1 样本中正负样本比例平衡情况  49-50
    5.1.2 样本中正负样本比例不平衡情况  50-53
  5.2 聚类数据分析实验  53-55
  5.3 流形数据分析实验  55-57
结论  57-59
参考文献  59-63
攻读硕士学位期间发表的论文和取得的科研成果  63-65
致谢  65

相似论文

  1. 基于SVM的常压塔石脑油干点软测量建模研究,TE622.1
  2. 基于流形学习的高维流场数据分类研究,V231.3
  3. 基于SVM的高速公路路面浅层病害的自动检测算法研究,U418.6
  4. 空间目标ISAR成像仿真及基于ISAR像的目标识别,TN957.52
  5. 音乐结构自动分析研究,TN912.3
  6. 基于三维重建的焊点质量分类方法研究,TP391.41
  7. 直推式支持向量机研究及其在图像检索中的应用,TP391.41
  8. 隐式用户兴趣挖掘的研究与实现,TP311.13
  9. 图像分割中阴影去除算法的研究,TP391.41
  10. 唇读中的特征提取、选择与融合,TP391.41
  11. 基于支持向量机的故障诊断方法研究,TP18
  12. 过程支持向量机及其在卫星热平衡温度预测中的应用研究,TP183
  13. 牡丹EST-SSR引物开发及其亲缘关系分析,S685.11
  14. 高血压前期证候特征研究,R259
  15. 大学生综合素质测评研究,G645.5
  16. 大豆品种对腐竹品质的影响及其品质评价体系的初步构建,TS214.2
  17. 21个荷花品种遗传多样性的ISSR分析,S682.32
  18. 基于聚类分析的P2P流量识别算法的研究,TP393.02
  19. 桃杂交后代(F1)幼苗光合效能评价,S662.1
  20. 基于流形学习的数据降维技术研究,TP311.13
  21. 南通市农业面源污染负荷研究与综合评价,X592

中图分类: > 工业技术 > 自动化技术、计算机技术 > 自动化基础理论 > 人工智能理论 > 自动推理、机器学习
© 2012 www.xueweilunwen.com