学位论文 > 优秀研究生学位论文题录展示
基于动态代价敏感的机器学习研究
作 者: 陈晓林
导 师: 宋恩民
学 校: 华中科技大学
专 业: 计算机应用技术
关键词: 代价敏感机器学习 动态误分类代价 遗传算法 支持向量机 集成学习
分类号: TP181
类 型: 博士论文
年 份: 2010年
下 载: 32次
引 用: 0次
阅 读: 论文下载
内容摘要
传统的机器学习算法是以追求精度为目的,并假定不同类别间的错误分类代价是相同的。但事实并非如此,在很多现实应用中,将一个类别错误分成其他类别的代价有时比将其他类别错误分成该类别的代价高出很多。代价敏感机器学习充分考虑误分类代价,更关注感兴趣类别的正确识别率,在提高该正确识别率的同时,使得错误分类付出的代价尽可能少。目前,代价敏感机器学习方法使用静态误分类代价,容易产生数据集或应用域依赖,不能较好地解决类分布不均衡的问题,得到的分类器的泛化性能不强。为此,提出一种基于动态误分类代价的机制,该机制充分结合应用域专家的知识,形成客观的具有代表性的误分类代价空间,对不同数据子集灵活地选择更合适的误分类代价,能够更好地逼近应用域数据集真实的误分类代价。定义了一个最优误分类代价函数,该函数可以保证少数类与多数类之间、类别内部的反馈率与精确率之间达到最佳折中;提出了自适应误分类动态代价寻优方法,该方法根据应用域数据集的不同,自动在其可行误分类代价空间里,搜索适合于不同数据子集的最优误分类代价,形成一个代价敏感分类器。以前机器学习的评价指标体系不再适合代价敏感分类器的性能评价。为解决这一问题,定义了多个评价代价敏感分类器性能的度量指标,反映分类器在不同类别之间关于精确率、反馈率、Kappa值和F-measure的均衡程度。这些指标旨对各类的反馈率和精确率进行几何平均并最大化,以达到二者之间的最佳折中,充分提高代价少数类的正确识别率,同时尽可能少地牺牲分类器的整体性能。依据动态误分类代价机制和动态代价自适应算法,提出了三种单一分类器的代价敏感构造算法:(1)自适应动态代价优化决策树算法(ADODT),该算法以决策树为基础,采用最速梯度上升误分类代价寻优方法,在较快的时间内达到算法收敛;(2)基于遗传算法的代价敏感分类器算法(CSC-SGA),该算法以最优误分类代价函数作为适应度函数,用遗传算法来搜寻不均衡数据集的最优误分类代价;(3)自适应动态代价敏感SVM分类器算法(ADC-SVM),该算法以SGA作为最优误分类代价的搜寻算法,以代价敏感SVM作为个体构造分类器,在面对不均衡数据集时,所得分类器的性能比当前的代价敏感SVM有着显著提升。基于动态误分类代价机制和自适应代价寻优方法,结合bagging技术,提出了一个新颖的代价敏感集成分类器算法----自适应动态代价优化集成分类器(ADOE)。该方法利用重采样技术(有放回和无放回两种形式),并对每个不同类别的实例进行误代价加权,结合误分类代价寻优算法,利用不稳定的学习算法训练多个子分类器,用投票方式对原始数据集实例重新赋予代价敏感性的类别标志,得到的代价非敏感的集成分类器具有代价敏感的分类能力。该分类器在面对类分布严重偏斜的数据集时,分类精度高且性能稳定。利用真实的数据集做了大量实验,实验结果表明,提出的方法比当前一些方法在性能上有显著提高,特别是自适应动态代价优化集成分类器,能很好地解决类分布严重不均衡数据集的分类问题。并以论文提出的自适应动态代价优化集成分类器设计了一个乳腺癌辅助诊断原型系统,取得了较好的辅助诊断效果。
|
全文目录
摘要 4-6 Abstract 6-10 1 绪论 10-24 1.1 课题来源及目的 10 1.2 研究背景及研究意义 10-11 1.3 课题的国内外研究概况 11-21 1.4 主要研究内容及创新 21-22 1.5 论文组织结构 22-24 2 代价敏感机器学习研究基础 24-35 2.1 相关概念 24 2.2 代价及分类 24-26 2.3 代价敏感机器学习 26-27 2.4 几种常用的技术方法 27-31 2.5 分类器的评价 31-34 2.6 本章小结 34-35 3 自适应动态代价敏感分类算法 35-53 3.1 动态代价 35-39 3.2 代价的动态自适应 39-44 3.3 实验分析 44-51 3.4 本章小结 51-53 4 动态代价在相关算法上的拓展 53-81 4.1 自适应动态代价敏感决策树 53-59 4.2 基于遗传算法的代价敏感分类器 59-70 4.3 动态代价敏感SVM 70-75 4.4 动态代价敏感集成学习 75-79 4.5 本章小结 79-81 5 动态代价敏感的机器学习实验及系统 81-105 5.1 实验设计 81-83 5.2 实验结果及分析 83-98 5.3 基于动态代价敏感学习的疾病诊断系统 98-103 5.4 本章小结 103-105 6 总结及展望 105-107 致谢 107-109 参考文献 109-121 附录1 攻读博士学位期间发表及录用的论文目录 121-122 附录2 攻读博士学位期间从事的科研项目及成果 122
|
相似论文
- 天然气脱酸性气体过程中物性研究及数据处理,TE644
- 基于SVM的常压塔石脑油干点软测量建模研究,TE622.1
- 压气机优化平台建立与跨音速压气机气动优化设计,TH45
- 基于SVM的高速公路路面浅层病害的自动检测算法研究,U418.6
- 基于PCA-SVM的液体火箭发动机试验台故障诊断算法研究,V433.9
- 空间目标ISAR成像仿真及基于ISAR像的目标识别,TN957.52
- 音乐结构自动分析研究,TN912.3
- 基于三维重建的焊点质量分类方法研究,TP391.41
- 胆囊炎和肾病综合症脉象信号的特征提取与分类研究,TP391.41
- 直推式支持向量机研究及其在图像检索中的应用,TP391.41
- 基于SVM的中医舌色苔色分类方法研究,TP391.41
- 基于图像的路面破损识别,TP391.41
- 基于支持向量机的故障诊断方法研究,TP18
- 过程支持向量机及其在卫星热平衡温度预测中的应用研究,TP183
- 基于遗传算法的模糊层次综合评判在高职教学评价中的应用,G712
- 部队人员网上训练与考核系统的开发,TP311.52
- 基于并行算法的模糊综合评价模型的设计与应用,TP18
- 基于神经网络的牡蛎呈味肽制备及呈味特性研究,TS254.4
- 基于遗传算法的中短波磁天线的设计及实现,TN820
- 基于遗传算法的柑橘图像分割,TP391.41
- 基于混合自适应遗传算法的动态网格调度问题研究,TP393.09
中图分类: > 工业技术 > 自动化技术、计算机技术 > 自动化基础理论 > 人工智能理论 > 自动推理、机器学习
© 2012 www.xueweilunwen.com
|