学位论文 > 优秀研究生学位论文题录展示

粒计算分类知识发现算法及其应用

作　者: 罗建宏
导　师: 陈德钊
学　校: 浙江大学
专　业: 化工过程信息工程
关键词: 粒计算分类知识发现信息粒非均衡数据自适应共振网络关键特征分析知识粒差异性选择性集成自适应集成学习
分类号: TP18
类　型: 博士论文
年　份: 2010年
下　载: 126次
引　用: 0次
阅　读: 论文下载

内容摘要

人类正在步入一个以知识生产、应用为最重要因素的知识经济时代。以知识发现为核心的智能信息处理技术在知识的生产过程中具有越来越重要的作用。分类具备一般知识发现的数据预处理、数据挖掘、模型评估和知识表示的基本流程,是一项重要的知识发现任务。由于分类的广泛应用及其在化学化工领域的重要意义,对分类方法展开研究不仅可以促进数据挖掘技术的发展,还能极大地开拓化学化工领域中知识发现的应用前景。目前,分类知识发现的研究和技术已有长足进步,各种挖掘方法层出不穷,但一些有待研究的问题也日趋突出。尤其在化学化工领域,由于采集和积累的数据往往具有多因子、非线性、高噪音和非均匀分布等特点,常规的分析和处理方法不仅耗时,而且难以有效地挖掘和发现其中所隐含的知识,相关的分类知识发现方法和技术有待改进和发展,对之展开深入的研究,对促进化学化工学科的发展具有重要的意义,也会产生巨大的经济价值。粒计算是信息处理的一种新的概念和计算范式,覆盖了所有与粒度相关的理论、方法、技术和工具。粒计算的基本思想是模拟人类智能的特点,在求解复杂问题时,通过选择合适的粒度,降低问题求解的难度,有助于找到一种较好的解决方案。粒计算原理为知识发现的研究提供了新途径。但是,目前有关粒计算的研究大多还以理论研究为主,粒计算的应用研究较少,尤其在化学化工领域,更鲜见文献报道。本文归纳提出了粒计算用于知识发现的四项基本原理,利用此原理,对当前分类知识发现方面的若干挑战问题进行了研究,提出了相应的策略和方法,以用于化学化工领域中的相关问题。本文的主要研究工作和成果可归纳如下：1.粒化和聚类是一种对知识进行总结概括的方法,聚类生成的类刻画了数据所蕴涵的类知识。聚类分析,是软科学研究的重要的基础性方法,也是一种有效的手段。自适应共振(Adaptive Resonance Theory, ART)网络ART2用于聚类,具有许多优点。同时也存在对输入的渐变模式不敏感,抗噪音性能有限的缺点。为此,本文提出了改进的自适应共振网络(ART2 with Enhanced Triplex Matching mechanism, ETM-ART2),加强了内部检测机制,以提高ART2网络的性能,对橄榄油样本进行聚类分析试验,其聚类性能优良,尤适用于海量数据的聚类问题。ETM-ART2还可为分类问题构建信息粒,有助于知识发现,并提高分类性能。2.粒的构建是应用粒计算的基本步骤之一。本文根据粒度求解近似原理,提出了采用ART网络构建信息粒,可为分析对象方便、快速地建立合适的信息粒；又由GrC(Granularcomputing, GrC)问题简化原理,提出了基于信息粒的分类知识发现的求解方案。开发了两个算法：其一,基于信息粒的模糊分类知识发现算法(Information Granulation based Fuzzy Classification Knowledge Discovery Method, IG-FCKDM);其二,基于粒的关键特征分析(Key Feature Analysis based on Granulation, KFAG)、由C4.5实施分类规则挖掘的算法KFAG-C4.5。IG-FCKDM侧重于求解非均衡两分类问题和分类误差敏感问题,即分类判定错误可能带来巨大损失。它采用Fuzzy ART构建信息粒,继而通过模糊处理,提取分类规则。对疾病诊断的试验表明,IG-FCKDM处理此类问题效果较好,且其预测正确性和可信度对用户有更重要的意义。KFAG-C4.5可用于一般分类问题和多类非均衡分类问题。它采用ETM-ART2构建信息粒,再进行本文提出的基于粒的关键特征分析,并将各属性合理地划分为具有较强的类别区分能力的若干子属性,子属性数不致过多。使信息粒由子属性描述,并以离散值0或1表示。便于最后采用C4.5实施分类规则挖掘。对玻璃两分类和多类非均衡问题的试验表明,KFAG-C4.5具有较好的分类识别能力。IG-FCKDM和KFAG-C4.5这两个算法挖掘所得知识虽然表现形式有所不同,但都很简洁,可理解性好,易于各类专业人员分析,且较好地解决了非均衡数据的分类问题。3.集成学习常可提高单个分类器的性能,随着研究的深入,选择性集成学习逐渐成为研究热点。当前,基于随机优化算法的选择性集成算法,大多以泛化误差为目标,基本忽略了个体分类器本身的特性,尤其是差异性度量。这些方法也取得了一些成果,但计算复杂度较高,效率偏低。为解决个体分类器差异性度量的难题,本文基于GrC问题的等价原理,将选择性集成问题转换到较简单的关联空间,研究了一种简单而高效的选择机制,开发了基于知识粒、兼顾正确率和差异性的选择集成(Correctness and Diversity based Selective Ensemble, CDSE)算法。将其用于毒性作用机制的分类试验,其性能优于集成算法Bagging、AdaBoost.M1,以及单个C4.5分类器。CDSE从优选个体分类器的角度出发,为提高集成分类的泛化性能和效率提供了有效的解决方案。4.在集成分类器的构建生成和预测判定这两个层面上,提出了自适应的新思路,将CDSE拓展为自适应集成(Correctness and Diversity based Adaptive Selective Ensemble, CDASE)学习算法,进一步提高了集成分类的泛化性能。CDASE针对每一类别,自适应地生成特定适用的集成分类器,组合为集成分类器组AE-Group,其中各个集成分类器间存在包容性,故其占用的计算资源甚少,有效地减少了存储空间和计算时间。AE-Group又以自适应方式,即从集成分类器组中选用最适合的集成分类器对检测数据实施分类判定。用于多种模式分类问题的试验表明,CDASE算法以较少的个体分类器,即能实现较好的集成学习效果。与其它多种算法相比,CDASE具有良好的泛化性能,更为高效,且稳定性好。CDASE算法突破常规单一集成学习机适用性较窄的局限性,为进一步提高集成学习的泛化能力提供了新的思路。

全文目录

致谢  5-6
摘要  6-9
Abstract  9-13
目录  13-16
1 绪论  16-26
  1.1 引言  16-17
  1.2 分类知识发现的研究背景及面临的挑战  17-21
    1.2.1 知识发现概述  17-18
    1.2.2 分类与知识发现  18-19
    1.2.3 面临的挑战  19-21
  1.3 粒计算与知识发现  21-23
    1.3.1 粒计算概述  21-22
    1.3.2 粒计算用于知识发现的基本原理  22-23
  1.4 本文的主要工作  23
  1.5 本文的内容安排  23-26
2 分类及粒计算相关研究工作综述  26-46
  2.1 分类方法研究概述  26-30
    2.1.1 决策树方法  26-27
    2.1.2 贝叶斯分类  27-28
    2.1.3 神经网络方法  28-29
    2.1.4 支持向量机  29-30
    2.1.5 分类技术面临的挑战  30
  2.2 分类器集成研究综述  30-36
    2.2.1 集成学习的理论基础  31-33
    2.2.2 集成学习的主要算法及其不足  33-34
    2.2.3 选择性集成学习研究进展综述  34-36
  2.3 粒计算  36-44
    2.3.1 粒计算的基本概念  36-38
    2.3.2 粒计算的研究方法与方向  38-39
    2.3.3 主要的粒计算模型及其关系  39-43
    2.3.4 粒计算的应用  43-44
  2.4 小结  44-46
3 基于信息粒的模糊分类知识发现算法  46-60
  3.1 引言  46-47
  3.2 IBC问题特点及评价标准  47
  3.3 模糊集的基本概念  47-50
    3.3.1 模糊集合和隶属度函数  48
    3.3.2 隶属函数的确定方法  48-49
    3.3.3 模糊集合的几种运算  49
    3.3.4 语言变量  49-50
  3.4 基于信息粒的模糊分类知识发现算法  50-56
    3.4.1 构建信息粒  51-53
    3.4.2 从信息粒决策表提取分类规则  53-55
    3.4.3 分类模糊推理  55-56
  3.5 疾病诊断试验结果分析  56-58
    3.5.1 癌症诊断问题  56-57
    3.5.2 试验方法  57
    3.5.3 试验结果与分析  57-58
  3.6 小结  58-60
4 改进的ART2算法——ETM-ART2  60-78
  4.1 ART网络概述  61-63
  4.2 ART2网络简介  63-68
    4.2.1 ART2网络结构  63-66
    4.2.2 ART2工作原理  66-68
  4.3 ART2网络对模式渐变过程的不敏感性  68-71
  4.4 三重检测机制的ART2网络ETM-ART2  71-74
    4.4.1 网络结构  71-73
    4.4.2 ETM-ART2工作过程  73-74
  4.5 ETM-ART2用于橄榄油聚类分析  74-77
    4.5.1 化学模式聚类分析的难点  74-75
    4.5.2 橄榄油样本简介  75
    4.5.3 试验分析  75-77
  4.6 小结  77-78
5 基于粒的关键特征分析的分类规则挖掘算法  78-92
  5.1 引言  78
  5.2 非均衡数据分类问题  78-81
    5.2.1 非均衡数据分类难点  78-79
    5.2.2 解决策略  79-81
  5.3 一种分类规则挖掘算法  81-87
    5.3.1 算法思路及流程  81-82
    5.3.2 粒度选择值  82-84
    5.3.3 ETM-ART2构建信息粒  84
    5.3.4 KFAG表示信息粒  84-86
    5.3.5 分类规则挖掘及应用  86-87
  5.4 KFAG-C4.5在非均衡化学模式分类中的应用  87-89
    5.4.1 玻璃识别问题  87-88
    5.4.2 评价指标  88
    5.4.3 试验结果和分析  88-89
  5.5 小结  89-92
6 兼顾正确率和差异性的选择性集成算法  92-108
  6.1 引言  92
  6.2 集成性能与差异度  92-98
    6.2.1 集成性能与差异度的关系  92-95
    6.2.2 差异度与集成方法  95-98
  6.3 选择性集成学习理论  98-100
  6.4 知识与知识粒  100
  6.5 兼顾正确率和差异性的选择性集成算法  100-103
    6.5.1 算法思路及流程  100-101
    6.5.2 信息表和知识粒  101-102
    6.5.3 兼顾正确率和差异性的筛选指标  102-103
    6.5.4 集成判定  103
  6.6 对毒性作用机制的分类  103-107
    6.6.1 酚类化合物梨形四膜虫毒性作用机制分类  103-104
    6.6.2 有关参数的影响分析  104-107
  6.7 小结  107-108
7 自适应集成分类算法CDASE  108-116
  7.1 引言  108
  7.2 CDASE算法的设计和实现  108-110
    7.2.1 AE-Group的自适应生成  108-110
    7.2.2 自适应分类预测  110
  7.3 三个模式分类问题试验  110-113
    7.3.1 分类问题简介  110-111
    7.3.2 试验方式  111
    7.3.3 试验结果和分析  111-113
  7.4 橄榄油产地判别  113-114
    7.4.1 问题简介  113
    7.4.2 试验结果与比较分析  113-114
  7.5 小结  114-116
8 总结与展望  116-120
  8.1 工作总结  116-118
  8.2 未来研究工作展望  118-120
参考文献  120-130
作者简历  130

粒计算分类知识发现算法及其应用

内容摘要

全文目录

相似论文