学位论文 > 优秀研究生学位论文题录展示

基于核函数的集成学习算法研究与应用

作 者: 康凯
导 师: 张化祥
学 校: 山东师范大学
专 业: 计算机软件与理论
关键词: 集成分类 核函数 核模糊隶属度 样本分布特征 集成聚类 共识函数 动态协作 文本分类
分类号: TP391.41
类 型: 硕士论文
年 份: 2009年
下 载: 144次
引 用: 2次
阅 读: 论文下载
 

内容摘要


集成学习(Ensemble Learning)是为某个问题训练一组学习器,并将这些学习器联合起来执行一定预测任务的一种机器学习技术。由于该技术能够显著地提高学习系统的泛化能力,受到很多学者的极大关注,并且很快成为了机器学习研究中的一个热点。集成学习技术已经广泛的应用于生物认证、传感器故障容错、字符识别、辐射源识别、语言学、医学、交通、管理学等各个领域。集成学习旨在充分利用每个成员学习器的不同优势,提高整体的泛化性能。现在一般认为,有效地产生泛化能力强、差异大的多个成员学习器,是集成学习算法的关键。传统集成学习算法不能充分利用数据集和成员学习器的特点提高成员学习器的多样性,主要表现在两个方面:第一,在对数据集进行采样时,没有充分利用局部空间的不同特性;第二,在学习器的训练过程中,没有很好的利用过程信息。近年来一些学者将核函数应用到集成学习中,取得了良好的效果。本文的研究目标是将核函数充分地应用到集成学习中,解决传统集成学习算法存在的这两个问题,在保证单个学习器高性能的前提下,实现成员学习器的多样性。具体来说,本文开展并完成了以下方面的工作:(1)简要介绍了集成学习的起源和基本概念;介绍了集成学习中具有代表性的算法Boosting、Bagging和Stacking的基本思想和理论证明;介绍了当前集成学习中的新思想-选择性集成学习;介绍了核函数的历史、基本思想和理论基础。(2)提出了一种基于核函数分割数据集的分类器组合算法(Ensemble Classifiers Algorithm based on Kernel Dataset Partition, KFMCE)。该算法利用基于核的模糊隶属度将原始空间依据局部特征的不同进行分解,然后分别进行有针对性的训练,获得局部性能最优的成员学习器,最后进行集成来提高整体的性能。基于核的模糊隶属度是对基于距离隶属度的扩展,它在映射后的高维空间中求解样本的隶属度,消除了数据集在表征数据分布上的偏差。以机器学习Weka软件为平台在20个不同的UCI数据集上进行实验,结果表明,该算法与AdaBoost和Bagging算法相比,具有更高的分类准确性和更好的泛化能力。(3)提出了一种动态协作的聚类集成算法(Clusterer Ensemble Algorithm Based on Dynamic Cooperation ,DCCE)。该算法同时训练多个基本聚类器,在训练期间,令所有聚类器通过迭代过程中产生的中间信息进行动态协作调整,从而提高集成聚类器的泛化性能和计算效率。协作过程中,算法使用基于核函数的共识函数对多个聚类器的中间结果进行共识,并利用冲量项对中间结果进行调整,达到聚类学习器之间相互协作的目的,完成对基本聚类器的多样性的控制。DCCE算法在15个不同的UCI数据集上进行实验,结果表明该算法具有更高聚类能力。(4)将KFMCE算法应用于文本分类,选择20Newsgroup作为文本数据集进行实验,结果表明该算法在文本分类方面具有良好的效果。

全文目录


摘要  6-8
Abstract  8-10
第一章 绪论  10-15
  1.1 选题背景及研究意义  10-11
  1.2 集成学习的产生和现状  11-13
  1.3 本文的主要研究工作  13
  1.4 本文的内容安排  13-15
第二章 集成学习与核函数  15-28
  2.1 集成学习的基本概念  15-16
  2.2 为什么集成学习有效  16-17
  2.3 集成学习的典型方法介绍  17-21
    2.3.1 Boosting 算法  17-18
    2.3.2 Bagging 算法  18-20
    2.3.3 Stacking 算法  20-21
  2.4 选择性集成学习  21-23
  2.5 核函数的理论基础  23-27
    2.5.1 核方法的基本概念  24-25
    2.5.2 核的性质  25-26
    2.5.3 再生核Hilbert 空间  26-27
  2.6 本章小结  27-28
第三章 基于核函数分割数据集的集成学习算法  28-37
  3.1 核距离和模糊隶属度  28-30
    3.1.1 核距离  28-29
    3.1.2 基于欧式距离的隶属度  29-30
  3.2 基于核的模糊隶属度函数  30
  3.3 基于核函数分割数据集的集成学习算法  30-33
    3.3.1 标识和问题描述  30-31
    3.3.2 基于核分割数据集的集成学习的基本思想  31-33
    3.3.3 基于核分割数据集的集成学习的算法  33
  3.4 实验设计和结果分析  33-36
    3.4.1 实验设计  33-34
    3.4.2 实验结果分析  34-36
  3.5 本章小结  36-37
第四章 基于动态协作的聚类集成算法  37-45
  4.1 基本模糊聚类器  37-38
  4.2 基于动态协作的聚类集成算法(DCCE)  38-42
    4.2.1 标识和问题描述  38-39
    4.2.2 DCCE 算法思想  39-42
    4.2.3 DCCE 算法实现  42
  4.3 实验设计和结果分析  42-44
    4.3.1 实验设计  42-43
    4.3.2 实验结果分析  43-44
  4.4 本章小结  44-45
第五章 文本分类应用  45-51
  5.1 文本分类简介  45
  5.2 文本预处理  45-46
    5.2.1 文本特征选取及表示  45-46
    5.2.2 维数约减  46
  5.3 文本分类算法  46-48
  5.4 应用实验设计和分析  48-50
    5.4.1 实验设计  48-50
    5.4.2 实验结果分析  50
  5.5 本章小结  50-51
第六章 总结与展望  51-53
  6.1 总结  51
  6.2 下一步的工作  51-53
参考文献  53-56
攻读硕士学位期间发表的论文和参与的项目  56-57
致谢  57

相似论文

  1. 基于仿生模式识别的文本分类技术研究,TP391.1
  2. 互联网上旅游评论的情感分析及其有用性研究,TP391.1
  3. 基于数据分布特征的文本分类研究,TP391.1
  4. 面向文本分类的改进K近邻的支持向量机算法研究,TP391.1
  5. 基于树型条件随场的特定域事件提取方法研究,TP391.1
  6. 网络教育新闻文本分类系统的设计与实现,TP391.1
  7. 一种于经验数据的软件缺陷修复工作量预测模型研究,TP311.53
  8. 跨语言文本分类的研究,TP391.1
  9. 基于分类模型监测电子商务违禁信息的研究与实现,TP393.09
  10. 基于语义分析的文本挖掘研究,TP391.1
  11. 网络舆情分析关键技术研究与实现,TP393.09
  12. 结合本体HowNet的中文文本分类研究,TP391.1
  13. 基于集成学习的垃圾短信多级分类技术研究,TN929.53
  14. 互联网新闻热点挖掘系统的研究与实现,TP393.09
  15. 中文文本分类方法研究,TP391.1
  16. 基于改进KNN的文本分类算法的设计与实现,TP391.1
  17. 文本分类中特征降维方法的研究,TP391.1
  18. 基于RS-SVM的Web中文文本自动分类研究,TP391.1
  19. Web文本分类方法研究与系统实现,TP391.1
  20. 面向新闻领域的文本数据获取系统的设计与实现,TP391.1
  21. 基于Android的垃圾短信处理系统的研究与设计,TP391.1

中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工) > 模式识别与装置 > 图像识别及其装置
© 2012 www.xueweilunwen.com