学位论文 > 优秀研究生学位论文题录展示

基于云计算平台的代价敏感集成学习研究

作 者: 张伶卫
导 师: 李云
学 校: 南京邮电大学
专 业: 计算机应用技术
关键词: 不平衡学习 PAC学习 代价敏感 集成学习 云计算平台
分类号: TP311.13
类 型: 硕士论文
年 份: 2013年
下 载: 129次
引 用: 0次
阅 读: 论文下载
 

内容摘要


现实生活中存在着很多不平衡类数据分类问题,同时计算机和互联网技术的快速发展,使得现实生活领域的数据膨胀速度异常迅猛,因而大数据时代的不平衡学习面临着更为严峻的挑战,如何快速高效地对海量不平衡数据进行分析处理,历来是数据挖掘领域的研究热点。本文首先对不平衡学习中的PAC学习模型进行了研究,针对传统PAC学习模型边界不受样本不平衡率和错误分类代价影响的问题,提出了基于代价敏感的PAC学习模型。实验结果表明,可PAC学习所需的训练样本数目随着错分代价比例的增大而增大,随着正类样本比例的减小而增大,说明了基于代价敏感的PAC学习模型的正确性和有效性。此外,针对现实生活中海量不平衡数据的分类问题,本文设计了一种基于云计算平台的代价敏感集成学习分类算法。首先Hadoop云计算平台对海量数据进行划分用于并行学习,同时结合代价敏感的思想对学习得到的基分类器进行加权集成,实现了云计算平台上的代价敏感集成学习模型。仿真实验表明该模型能够明显提高少数类的查全率,同时Hadoop的并行机制使得云平台坏境下的集成学习时间较集中式环境有大幅度的缩减,进一步提高了海量不平衡数据分类问题的学习效率。

全文目录


摘要  4-5
Abstract  5-8
第一章 绪论  8-14
  1.1 课题研究的背景和意义  8-9
  1.2 国内外研究现状  9-12
  1.3 论文主要工作  12
  1.4 章节安排  12-14
第二章 云计算简述  14-24
  2.1 初始云计算  14-17
    2.1.1 计算模式的发展  14-15
    2.1.2 云计算定义  15
    2.1.3 云组件模型  15-16
    2.1.4 云服务  16-17
  2.2 三大主流商业化云计算平台  17-20
    2.2.1 Google App Engine  17-18
    2.2.2 Microsoft Windows Azure  18-19
    2.2.3 Amazon Web Services  19-20
  2.3 Hadoop 开源云计算平台  20-23
  2.4 本章小结  23-24
第三章 不平衡学习简述  24-37
  3.1 不平衡学习的本质  24
  3.2 不平衡学习方法简述  24-32
    3.2.1 采样方法  24-26
    3.2.2 代价敏感学习方法  26-30
    3.2.3 核方法和主动学习方法  30-32
  3.3 不平衡学习评价指标  32-35
  3.4 本章小结  35-37
第四章 基于代价敏感的 PAC 学习模型研究  37-48
  4.1 PAC 学习模型简述  37-38
  4.2 不平衡学习中的 PAC 学习模型  38-39
  4.3 基于代价敏感的 PAC 学习模型  39-43
  4.4 仿真实验及分析  43-47
  4.5 本章小结  47-48
第五章 云计算平台上的代价敏感集成学习研究  48-63
  5.1 集成学习  48-49
  5.2 代价敏感集成学习模型  49-51
    5.2.1 分类器加权集成  49-50
    5.2.2 分类器权值确定策略  50-51
  5.3 基于 MapReduce 的代价敏感集成学习模型  51-52
  5.4 仿真实验及分析  52-62
    5.4.1 实验系统简介  52-57
    5.4.2 实验结果及分析  57-62
  5.5 本章小结  62-63
总结和展望  63-65
  6.1 工作总结  63
  6.2 工作展望  63-65
参考文献  65-68
附录 1 攻读硕士学位期间撰写的论文  68-69
附录 2 攻读硕士学位期间参加的科研项目  69-70
致谢  70

相似论文

  1. 基于数据挖掘算法的蛋白质相互作用及其活性位点研究,TP311.13
  2. 基于基因表达谱的肿瘤分类方法研究,R730.2
  3. 集成学习算法研究,TP181
  4. 基于专家委员会的主动学习算法研究,TP181
  5. 集成学习及其应用研究,TP181
  6. 基于递归神经网络与集成算法的时间序列预测应用研究,TP183
  7. 基于粒子群优化算法的支持向量机集成学习方法研究,TP181
  8. 基于多任务的多层次选择性集成学习的研究,TP181
  9. 朴素贝叶斯分类器的集成学习方法研究,TP181
  10. 决策森林的子空间选择和集成优化,TP181
  11. 移动公司云计算平台原型的构建与测试,TP3
  12. 基于集成代价敏感分类方法的客户流失预测研究,F274
  13. 基于混沌和SVR的短时交通流预测方法研究,U491.112
  14. 基于组合抽样技术的集成学习算法研究与应用,TP181
  15. PU数据流挖掘研究,TP18
  16. 人脸图像特征提取和分类算法研究,TP391.41
  17. 基于集成学习的语音信息隐藏分析技术研究,TP309
  18. 基于特征空间邻域结构分析的故障识别方法,TH165.3
  19. 面向不平衡数据的结构化支持向量机集成方法研究,TP18
  20. 半监督降维和分类算法研究,TP181
  21. 随机森林的特征选择和模型优化算法研究,TP181

中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机软件 > 程序设计、软件工程 > 程序设计 > 数据库理论与系统
© 2012 www.xueweilunwen.com