学位论文 > 优秀研究生学位论文题录展示
不完整数据集成分类算法的研究
作 者: 吕靖
导 师: 赵姝
学 校: 安徽大学
专 业: 计算机应用技术
关键词: 集成学习 信息熵 互信息 不完整数据
分类号: TP181
类 型: 硕士论文
年 份: 2013年
下 载: 17次
引 用: 0次
阅 读: 论文下载
内容摘要
分类被广泛的应用于生产、科学研究、日常生活等领域的方方面面。随着机器学习应用范围的扩大,信息技术以及互联网的迅速发展,每天都有大量的数据被收集,新的挑战和问题也随之出现。在心理学研究中经常出现研究对象可能由于对自己隐私的保护,而没有填写某些实验数据。在医学研究当中经常由于观察对象死亡而丢失后续实验的数据,这些情况都造成了最后的实验结果不完整。目前主流的分类算法都是针对完整的数据集,对不完整的数据集则束手无策。如何有效的利用这些不完整的数据,成为机器学习中又一个研究热点。集成学习由于其简单的算法和良好的泛化性能得到了广泛的应用。近年来也有人使用集成学习的方法解决不完整数据的分类问题,并取得了良好的效果。但目前针对不完整数据的集成分类算法在衡量各个子分类器的权重时只考虑了相应数据子集的维数和大小,而没有考虑到不同的属性对最终类别的贡献程度不同。信息量是个很抽象的概念,一个系统中信息量多或者信息量少,都是感性的认识,那么如何量化一个系统中信息的多与少呢?1948年克劳德·艾尔伍德·香农第一次用数学公式描述了一个系统中信息量的多少。本文利用条件熵和互信息的概念来衡量不同缺失属性之间对于类别贡献的差异,进而计算出各个子分类器的权重,使得最终的加权投票更加公平,结果更加准确。本文的主要工作如下:1.阐述了研究不完整数据的背景和意义,介绍了当前处理不完整数据的主要方法以及优缺点。阐述了弱可学习理论以及集成学习的相关概念、原理、优势和其两个主要算法:Bagging和Boosting。介绍了信息熵、联合熵、条件熵以及互信息的概念、意义和相关公式。2.针对当前集成学习处理不完整数据的不足,提出了基于条件熵的不完整数据的集成分类算法。给出了使用条件熵计算各个子分类器权值的方法。详细论述了算法的有效性和正确性。本文使用UCI的数据集,利用Bagging和AdaBoost集成学习算法进行了实验。实验结果表明该算法比简单的使用缺失属性的多少来计算子分类器的权重更有效,最终的集成结果准确度更高。3.提出了基于互信息的不完整数据的集成分类算法。该算法利用互信息衡量各个缺失属性与类别属性之间的紧密程度,进而评估各个子分类器的权重。本文使用UCI的数据集,利用Bagging和AdaBoost集成学习算法进行了实验,结果证明了该算法的有效性。4.最后对本文做出了总结以及下一步的工作。
|
全文目录
摘要 3-5 Abstract 5-7 目录 7-9 第一章 绪论 9-15 1.1 研究背景及意义 9-10 1.2 研究现状 10-13 1.2.1 不完整数据的类型 10-11 1.2.2 不完整数据的处理方法 11-13 1.3 本文的研究内容及章节安排 13-15 第二章 集成学习及信息熵 15-25 2.1 集成学习 15-22 2.1.1. 弱可学习理论 15-16 2.1.2. 集成学习简介 16-17 2.1.3. Bagging和Boosting 17-22 2.1.4. 集成学习和不完整数据 22 2.2 信息论 22-24 2.2.1 信息熵 22-23 2.2.2 联合熵 23 2.2.3 条件熵 23-24 2.2.4 互信息 24 2.3 本章总结 24-25 第三章 条件熵集成分类算法 25-41 3.1 引言 25-27 3.1.1 问题的提出 25-26 3.1.2 条件熵衡量缺失属性的重要程度 26-27 3.2 算法描述 27-35 3.3 算法验证及分析 35-40 3.3.1 实验参数 35 3.3.2 实验结果 35-40 3.3.3 实验分析 40 3.4 本章小结 40-41 第四章 互信息集成分类算法 41-51 4.1 信息衡量缺失属性的重要程度 41-42 4.2 算法描述 42-50 4.2.1 实验参数 45-46 4.2.2 实验结果 46-50 4.2.3 实验分析 50 4.3 本章小结 50-51 第五章 总结与展望 51-53 5.1 总结 51-52 5.2 展望 52-53 参考文献 53-57 附录A 图索引 57-58 AppendixA Figure Index 58-59 附录B 表索引 59-60 AppendixB Table Index 60-61 致谢 61-62 攻读硕士学位期间发表的论文 62
|
相似论文
- 基于信息熵的课堂观察量化评价模型研究,G632.4
- 词义消歧语料库自动获取方法研究,TP391.1
- 基于多特征和人工免疫优化算法的医学图像配准方法研究,TP391.41
- RBF神经网络在城市空气质量评价中的应用研究,X823
- 非刚性医学图像准算法研究和实现,TP391.41
- 多图像源信息融合与增强技术研究,TP391.41
- 基于数据挖掘算法的蛋白质相互作用及其活性位点研究,TP311.13
- 基于基因表达谱的肿瘤分类方法研究,R730.2
- 基于不同偏好信息的多属性群决策熵模型及其应用研究,C934
- 基于未确知测度理论的高技术企业组织柔性评价研究,F224
- 基于EWQR预测法的CPFR供应系统成本模型,F274
- 基于未确知测度的施工现场安全管理评价研究,TU714
- 地塞米松治疗婴幼儿毛细支气管炎的Meta分析,R725.6
- 贝叶斯网络在质量管理分类中的应用研究,TP18
- 基于支持向量机与集成学习的纹理合成及分类,TP391.41
- 基于VSM模型和特征选择算法的中文文本自动分类研究,TP391.1
- 基于互信息与小波变换的医学图像配准方法研究,TP391.41
- 文本分类的特征选择和分类方法研究,TP391.1
- 基于新策略改进优化算法的医学图像配准研究,TP391.41
- CT与MRI医学图像融合方法研究,TP391.41
- 基于信息熵的高维分类型数据子空间聚类算法研究,TP311.13
中图分类: > 工业技术 > 自动化技术、计算机技术 > 自动化基础理论 > 人工智能理论 > 自动推理、机器学习
© 2012 www.xueweilunwen.com
|