学位论文 > 优秀研究生学位论文题录展示

半监督学习方法及应用研究

作 者: 刘伟涛
导 师: 许信顺
学 校: 山东大学
专 业: 计算机系统结构
关键词: 半监督学习 聚类 自训练
分类号: TP181
类 型: 硕士论文
年 份: 2011年
下 载: 60次
引 用: 1次
阅 读: 论文下载
 

内容摘要


传统的机器学习的研究中往往倾向于将有标签的数据和无标签的数据分开研究,但是在现实生活中,这两种情况往往是并存的。半监督学习便由此应运而生,在传统应用中往往将半监督作为一个聚类的改进方法,却没有将聚类的优势应用于半监督学习中,因此本文就此进行了深入探究。半监督学习主要目的是在仅有少量标注数据集和大量未标注数据集的基础上获得一个良好的学习器。自训练算法便是半监督学习的重要算法,然而自训练过程中有两个问题需要解决:首先是如何从无标签数据集中选择合适的样本标记后加入到有标签样本中。其次,在无标签样本标记过程中会出现错标现象。针对自训练的两个问题,在做了有效的研究后,我们提出了一个算法以解决两个问题。大体思想如下,在用分类器标记后,用聚类对新标记的无标签样本数据集进行处理,然后从聚类中选取有效的新数据更新训练集,然后采用数据编辑技术剔除错标的样本,这样就能避免分类器受到错标样本影响。为了衡量该算法的效果,我们在标准数据集上对算法进行了测试,通过与其他算法的对比,结果表明在引入聚类时,算法要比对比算法的效果好,而且算法的收敛速度要比对比算法快的多。

全文目录


摘要  8-9
ABSTRACT  9-10
第1章 绪论  10-14
  1.1 论文背景  10-12
  1.2 研究目的与意义  12
  1.3 主要工作与创新点  12-14
第2章 半监督学习理论  14-28
  2.1 机器学习技术概论  14-18
    2.1.1 无监督学习  15-16
    2.1.2 监督学习  16-17
    2.1.3 半监督学习  17-18
  2.2 半监督学习的分类  18-27
    2.2.1 基于概论的方法  18-20
    2.2.2 基于监督算法的方法  20-21
    2.2.3 基于聚类的方法  21-23
    2.2.4 基于多视图的方法  23-24
    2.2.5 基于图的方法  24-27
  2.3 算法的分析和选择  27
  2.4 本章小结  27-28
第3章 聚类理论基础  28-38
  3.1 聚类分析介绍  28-31
    3.1.1 数据间相似性度量  28-30
    3.1.2 类间距离度量  30-31
  3.2 聚类分析分类  31-36
    3.2.1 无监督中的聚类  31-35
    3.2.2 半监督中的聚类  35-36
  3.3 聚类算法评价准则  36-37
    3.3.1 致密度度量准则  36
    3.3.2 划分评价准则  36-37
    3.3.3 CR准则  37
    3.3.4 David-Bouldin准则  37
  3.4 本章小结  37-38
第4章 利用无标记样本结构信息的自训练算法  38-53
  4.1 引论  38-40
  4.2 自标记样本的选择  40-42
  4.3 错标样本剔除  42-45
  4.4 实验结果及其分析  45-51
    4.4.1 实验环境  45-47
    4.4.2 实验设置  47-48
    4.4.3 实验结果  48-51
  4.5 本章小结  51-53
第5章 总结与展望  53-54
参考文献  54-63
致谢  63-64
攻读学位期间发表的学术论文目录  64-65
学位论文评阅及答辩情况表  65

相似论文

  1. 隐式用户兴趣挖掘的研究与实现,TP311.13
  2. 图像分割中阴影去除算法的研究,TP391.41
  3. 牡丹EST-SSR引物开发及其亲缘关系分析,S685.11
  4. 高血压前期证候特征研究,R259
  5. 高忠英学术思想与经验总结及运用补肺汤加减治疗呼吸系统常见病用药规律研究,R249.2
  6. 大学生综合素质测评研究,G645.5
  7. 大豆品种对腐竹品质的影响及其品质评价体系的初步构建,TS214.2
  8. 21个荷花品种遗传多样性的ISSR分析,S682.32
  9. 基于聚类分析的P2P流量识别算法的研究,TP393.02
  10. 基于混合自适应遗传算法的动态网格调度问题研究,TP393.09
  11. 桃杂交后代(F1)幼苗光合效能评价,S662.1
  12. 南通市农业面源污染负荷研究与综合评价,X592
  13. 土壤环境功能区划研究,X321
  14. 基因表达谱数据聚类分析方法比较与大豆疫霉基因的网络构建,S435.651
  15. 大豆杂种优势及其遗传基础研究,S565.1
  16. 象草自交后代无性系的饲用价值及生物质能特性初步评价,S543.9
  17. 细菌聚类算法及其在图像分割问题中的研究与应用,TP391.41
  18. 基于变异粒子群的聚类算法研究,TP18
  19. 融合粒子群和蛙跳算法的模糊C-均值聚类算法研究,TP18
  20. 基于遗传算法和粗糙集的聚类算法研究,TP18
  21. 基于同化能力杂种优势早期评价的桃光合特性研究,S662.1

中图分类: > 工业技术 > 自动化技术、计算机技术 > 自动化基础理论 > 人工智能理论 > 自动推理、机器学习
© 2012 www.xueweilunwen.com