学位论文 > 优秀研究生学位论文题录展示

基于半监督学习的随机森林算法研究与应用

作 者: 刘孝良
导 师: 丁香乾
学 校: 中国海洋大学
专 业: 计算机软件与理论
关键词: 半监督学习 分类 随机森林 近红外 感官评估
分类号: TP181
类 型: 硕士论文
年 份: 2013年
下 载: 1次
引 用: 0次
阅 读: 论文下载
 

内容摘要


机器学习是人工智能的核心研究内容之一,它包含三个重要的研究领域:监督学习,半监督学习和无监督学习。监督学习需要利用带标签样本进行训练,以保证其泛化能力。而无监督学习不需要利用带标签数据,但不能保证其模型准确率。随着计算机应用技术的发展,企业信息化建设水平日益提高,传统的质量控制手段难以满足实际生产的需要。随着新检测技术的引进,容易获取的是大量无标记数据,而对数据进行人工标记的代价很高。因此,将少量带标记数据和大量无标记数据结合的半监督学习成为研究热点。传统的分类算法在少量标记数据上难以得到精确的分类模型,因此,难以在实际应用中发挥作用。本文将半监督学习引入到传统的分类算法中,尝试利用无标签数据具有的额外信息指导分类模型的建立,提高分类性能。通过实验验证将半监督学习应用到近红外光谱数据的分类中具有重要的理论和实际应用价值。不仅减少了人工标注样本的成本和时间,而且有效提高分类精度。本文的研究成果包括:(1)提出了一种基于数据剪辑的半监督随机森林算法。将半监督学习和数据剪辑方法引入到传统的随机森林算法中,利用决策树的对等分类器集合对无标签样本进行预测,选取置信度大于默认阈值的样本加入到训练集合中。为了防止错误标记的样本影响分类器性能,对新标记样本进行收敛性分析和数据剪辑操作。收敛性分析判断新标记的样本能够使分类器性能逐渐提升。数据剪辑方法使用RemoveOnly方法进一步移除错误标记样本。通过实验证明,基于数据剪辑的半监督随机森林具有较好的泛化性能,解决了标记样本不足时建模困难的问题。(2)将本文提出的算法用于使用近红外光谱进行卷烟产品感官评估的实际应用中。通过对比实验,验证了该算法在近红外数据上能够建立性能较好且稳健的分类模型。证明了该算法具有实际的工程应用价值,在实际生产中具有很好的指导意义。

全文目录


摘要  5-6
Abstract  6-10
1. 绪论  10-16
  1.1. 选题背景与研究意义  10-11
  1.2. 国内外研究现状  11-13
    1.2.1. 半监督学习  11-12
    1.2.2. 随机森林算法研究现状  12-13
  1.3. 论文主要研究内容  13-14
  1.4. 论文组织结构  14-16
2. 半监督分类算法理论基础  16-30
  2.1. 半监督学习  16-17
  2.2. 分类相关的概念与原理  17-19
  2.3. 随机森林算法  19-22
  2.4. 半监督分类理论  22-28
    2.4.1. 基于生成式模型的方法  22-24
    2.4.2. 基于协同训练的方法  24-25
    2.4.3. 基于图的方法  25-26
    2.4.4. 半监督支持向量机  26-28
  2.5. 本章小结  28-30
3. 半监督随机森林算法的设计与实现  30-42
  3.1. 算法的提出  30-31
  3.2. 算法收敛性分析  31-34
  3.3. 数据剪辑策略  34-36
  3.4. 基于数据剪辑的半监督随机森林算法  36-38
  3.5. 实验结果及分析  38-41
    3.5.1. 实验数据  38-39
    3.5.2. 实验结果及讨论  39-41
  3.6. 本章小结  41-42
4. 半监督随机森林在近红外卷烟感官评估中的应用  42-48
  4.1. 卷烟感官评估的研究背景和意义  42
  4.2. 近红外光谱分析技术  42-44
  4.3. 近红外卷烟感官评估的研究现状  44
  4.4. 卷烟感官评估的流程  44-46
    4.4.1. 数据准备  44-45
    4.4.2. 数据离散化  45
    4.4.3. 分类及实验结果分析  45-46
  4.5. 本章小结  46-48
5. 总结与展望  48-50
  5.1. 总结全文  48-49
  5.2. 下一步工作  49-50
参考文献  50-53
致谢  53-54
个人简历  54
在校期间发表的学术论文  54-55

相似论文

  1. K公司计划及预测改进对于合理库存配置的研究,F224
  2. 空间目标ISAR成像仿真及基于ISAR像的目标识别,TN957.52
  3. 基于词义及语义分析的问答技术研究,TP391.1
  4. 基于三维重建的焊点质量分类方法研究,TP391.41
  5. 基于串核的蛋白质分类算法的研究与实现,TP301.6
  6. 统计与语言学相结合的词对齐及相关融合策略研究,TP391.2
  7. 上下文相关的词汇复述研究,TP391.1
  8. 基于仿生模式识别的文本分类技术研究,TP391.1
  9. 互联网上旅游评论的情感分析及其有用性研究,TP391.1
  10. 基于SVM的中医舌色苔色分类方法研究,TP391.41
  11. 基于图像的路面破损识别,TP391.41
  12. 运动特征及地形约束的感知网目标跟踪算法及系统研究,TP212.9
  13. 葡萄籽原花青素制备工艺及真菌毒素检测,TQ461
  14. 铋掺杂硅磷酸盐玻璃近红外发光性质及机理研究,TQ171.1
  15. 基于随机森林的植物抗性基因识别方法研究,Q943
  16. 计算智能在数字化卷烟叶组配方中的应用研究,TS44
  17. 基于中国土壤系统分类的土壤类型和界线确定研究,S155
  18. 基于视觉的番木瓜外观品质检测技术研究,S667.9
  19. 面向公众的教育视频共建共享平台的设计与实践研究,G434
  20. 基于土壤系统分类的土壤调查方法研究,S155
  21. 西藏生防芽孢杆菌鉴定及其脂肽化合物分析,S476.1

中图分类: > 工业技术 > 自动化技术、计算机技术 > 自动化基础理论 > 人工智能理论 > 自动推理、机器学习
© 2012 www.xueweilunwen.com