学位论文 > 优秀研究生学位论文题录展示

基于集成算法的半监督学习研究

作 者: 葛荐
导 师: 马廷淮
学 校: 南京信息工程大学
专 业: 计算机应用技术
关键词: 半监督学习 集成学习 基分类器 Tri-Trainimg ENSSL算法
分类号: TP181
类 型: 硕士论文
年 份: 2012年
下 载: 138次
引 用: 0次
阅 读: 论文下载
 

内容摘要


随着计算机和互联网技术的飞速发展,人们采集、存储和传输数据的能力得到极大的提高,社会生活各行各业所收集到的数据规模也越来越大。但如何有效使用这些数据资源,通过分析和挖掘其内在联系并发现有用信息,以此来提高劳动效率和改善生活质量,至今仍旧是一个富有挑战性的难题。机器学习、数据挖掘和模式识别就是由此而衍生出来的研究领域。半监督学习集成学习是两种重要的机器学习范式,其目标都是为了提高学习器的泛化性能,主要区别在于前者是利用未标记样本来完成,而后者是利用多分类器组合的方式实现。本文综合考虑半监督学习与集成学习各自的优点,应用了集成学习算法和未标记样本来提升迭代训练分类器的泛化性能。文中结合Bagging与AdaBoost算法改进了Tri-Training,提出了一种新的名为ENSSL算法。将ENSSL算法应用于动作识别领域,实验证明了ENSSL算法的有效性,并取得了较好的效果。主要工作如下:(1)研究基分类器选取问题,以四种基分类器Naive Bayes、Decision Tree、 k-Nearest Neighbor和Support Vecrot Machine通过实验来进行性能评估。对三种半监督学习算法Self-Training、Co-Training和Tri-Training结合不同的基分类器通过实验来进行性能评估。通过实验对四种集成学习算法Bagging、AdaBoost、 Vote和Stacking同样结合不同的基分类器来进行性能评估。(2)重点研究了Tri-Training算法,该算法使用简单重采样技术产生多分类器,从而导致的分类器之间的差异较小,并且最后输出时未考虑多分类器之间的差异性。文中针对这两点不足加以改进,提出了ENSSL法。改进后的算法结合了两种常用的集成学习算法Bagging与AdaBoost来进一步提升分类器的性能,采用基于准确率加权的集成方法输出结果。应用动作识别数据集来验证ENSSL算法,实验表明改进后的ENSSL算法优于之前的三种半监督学习算法Self-Training、Co-Training和Tri-Training。

全文目录


摘要  5-6
Abstract  6-7
第一章 引言  7-13
  1.1 研究背景和意义  7-8
  1.2 国内外研究现状  8-11
    1.2.1 半监督学习研究现状  8-9
    1.2.2 集成学习研究现状  9-11
  1.3 论文研究内容和章节安排  11-13
第二章 机器学习概述  13-24
  2.1 机器学习基础  13-14
    2.1.1 机器学习定义及研究意义  13
    2.1.2 机器学习结构及方法  13-14
  2.2 半监督学习基础  14-19
    2.2.1 半监督学习基本思想  15-17
    2.2.2 半监督学习模型假设  17
    2.2.3 半监督学习分类方式  17-19
  2.3 集成学习基础  19-23
    2.3.1 集成学习基本思想  19-20
    2.3.2 集成学习理论基础  20
    2.3.3 集成学习分类方式  20-23
  2.4 本章小结  23-24
第三章 常用的机器学习算法  24-42
  3.1 常用的基分类器算法  24-27
    3.1.1 Naive Bayes  24-26
    3.1.2 Decision Tree  26
    3.1.3 k-Nearest Neighbor  26-27
    3.1.4 Support Vector Machine  27
  3.2 常用半监督学习算法  27-38
    3.2.1 Self-Training  27-29
    3.2.2 Co-Training  29-30
    3.2.3 Tri-Training  30-33
    3.2.4 Graph-Based Semi-Supervised Learning  33-36
    3.2.5 Semi-Supervised Support Vector Machines  36-38
  3.3 常用集成学习算法  38-41
    3.3.1 Bagging  38
    3.3.2 Boosting  38-40
    3.3.3 Vote  40
    3.3.4 Stacked Generalizaion  40-41
  3.4 本章小结  41-42
第四章 算法性能评估与分析  42-55
  4.1 基分类器的选取  42-44
    4.1.1 问题分析  42
    4.1.2 实验设置与结果分析  42-44
  4.2 半监督学习性能比较  44-53
    4.2.1 问题分析  45
    4.2.2 训练数据的扩展  45-46
    4.2.3 实验设置及结果分析  46-53
  4.3 集成学习性能比较  53
    4.3.1 问题分析  53
    4.3.2 实验设置与结果分析  53
  4.4 本章小结  53-55
第五章 基于集成算法的半监督学习研究  55-66
  5.1 基于集成算法的半监督学习  55-60
    5.1.1 基本思想  55-56
    5.1.2 研究现状  56-58
    5.1.3 研究方向  58-60
  5.2 ENSSL算法及动作识别中的应用  60-64
    5.2.1 ENSSL算法  60-62
    5.2.2 动作识别问题  62
    5.2.3 实验设置及结果分析  62-64
  5.3 本章小结  64-66
第六章 总结与展望  66-68
  6.1 总结  66
  6.2 问题与展望  66-68
致谢  68-69
参考文献  69-78
作者简介  78-79

相似论文

  1. 应用层协议识别和还原方法的研究与实现,TP393.08
  2. 基于半监督模糊聚类的入侵防御技术研究,TP393.08
  3. 李群深层结构学习算法研究,TP181
  4. 基于标记样本和相似度调整的k均值算法在文本聚类中的应用,TP181
  5. 指纹图像分割方法评价与半监督学习在指纹图像分割中的应用研究,TP391.41
  6. 领域知识指导的半监督学习和主动学习倾向性分类研究,TP181
  7. 基于半监督哈希算法的图像检索方法研究,TP391.41
  8. 基于半监督学习的时间序列分类研究与实现,TP181
  9. 基于数据挖掘算法的蛋白质相互作用及其活性位点研究,TP311.13
  10. 基于基因表达谱的肿瘤分类方法研究,R730.2
  11. 半监督学习方法研究,TP181
  12. 基于半监督多示例的径向基函数网络模型及学习算法研究,O242.1
  13. 基于半监督学习的工况识别方法研究及铜闪速熔炼过程中的应用,TF811
  14. 数据挖掘在研究生调剂中的应用研究,TP311.13
  15. 基于集成学习的垃圾短信多级分类技术研究,TN929.53
  16. 集成学习算法研究,TP181
  17. 基于专家委员会的主动学习算法研究,TP181
  18. 半监督学习中协同训练与多视图方法的比较及改进,TP18
  19. 集成学习及其应用研究,TP181
  20. 基于递归神经网络与集成算法的时间序列预测应用研究,TP183
  21. 基于粒子群优化算法的支持向量机集成学习方法研究,TP181

中图分类: > 工业技术 > 自动化技术、计算机技术 > 自动化基础理论 > 人工智能理论 > 自动推理、机器学习
© 2012 www.xueweilunwen.com