学位论文 > 优秀研究生学位论文题录展示

组特征选择算法及其应用研究

作 者: 崔春燕
导 师: 杨明
学 校: 南京师范大学
专 业: 计算机应用技术
关键词: 特征选择 组特征选择 基因选择 微阵列数据分析
分类号: Q811.4
类 型: 硕士论文
年 份: 2013年
下 载: 2次
引 用: 0次
阅 读: 论文下载
 

内容摘要


在生物信息学中,基于基因表达微阵列数据的分类模型以及特征选择算法已成为机器学习和数据挖掘领域的研究热点。由于基因存在共调控现象,即存在一系列共同发挥作用的基因,从而导致微阵列数据中存在特征组。目前,领域专家希望能够发现这些相关基因组成的特征组以进行深入研究,因此本文重点研究组特征选择算法,在降低特征个数提高分类精度的同时,发现数据中存在的关键特征组,为领域专家提供更多的底层数据关系信息。根据特征组发现方式的不同,组特征选择算法一般分为两类:显式组特征选择和隐式组特征选择。显式组特征选择先根据一定准则将特征划分为若干个特征组,且组内特征彼此高度相关,然后在特征组的层次上进行选择。隐式组特征选择则不直接找出特征组,而是根据其特征选择的结果识别特征组。围绕上述两类组特征选择算法,本文的主要工作如下:1.提出了一个基于特征聚类的显式组特征选择算法FC-gRFE (Feature Clustering based Group SVM-RFE)。该算法首先对样本进行特征聚类,将每个聚类看作一个特征组,然后在特征组的层次上利用SVMRFE进行特征选择,得到最后的组特征选择结果。考虑到样本个数变化对特征聚类的影响,提出了SW-gRFE算法(Sample Weighting FC-gRFE),该算法首先根据样本重要性计算样本权重,然后在加权样本集上进行FC-gRFE组特征选择。微阵列数据集上的实验结果表明,该算法可以在不牺牲分类精度的前提下,有效发现数据中存在的特征组。2.提出了一个基于改进权重的隐式组特征选择算法CW-groupS (Coefficient Weight group feature Selection)。该算法首先利用稀疏模型Elastic Net对每一个特征在原始训练样本的特征集上进行稀疏编码,然后根据这些判别性比原始特征更强的编码来计算特征之间的相关性,最后求解基于特征相关性加权的Fused Lasso模型,得到具有组效应的稀疏特征系数,即为组特征选择结果。本文利用FISTA算法实现了CW-groupS算法的快速求解。仿真数据集上以及微阵列数据集上的实验结果验证了该算法的有效性。3.提出了一个集成的显式组特征选择算法EN-gRFE (ENsemble FC-gRFE)。该算法将在多个采样数据集上的FC-gRFE组特征选择结果归并为一个有重复特征的特征集,找出其中重复次数最多的若干个特征并进行聚类,从而得到最后的组特征选择结果。微阵列数据集上的实验结果验证了该算法的有效性。

全文目录


摘要  4-5
Abstract  5-9
第1章 绪论  9-15
  1.1 课题研究背景及意义  9-10
  1.2 国内外研究现状  10-13
  1.3 论文的主要工作  13
  1.4 论文的组织结构  13-15
第2章 两种经典的组特征选择算法介绍  15-20
  2.1 预备知识  15-16
    2.1.1 特征选择的概念  15
    2.1.2 特征选择方法的基本步骤  15-16
    2.1.3 特征选择方法的分类  16
  2.2 两种组特征选择方法介绍  16-19
    2.2.1 组特征选择的概念  16
    2.2.2 显式组特征选择  16-17
    2.2.3 隐式组特征选择  17-19
  2.3 本章小结  19-20
第3章 基于特征聚类的显式组特征选择算法FC-gRFE和SW-gRFE  20-31
  3.1 引言  20
  3.2 预备知识  20-23
    3.2.1 SVMRFE算法介绍  20-21
    3.2.2 基于间隔向量的样本加权算法介绍  21
    3.2.3 基于均值漂移的聚类算法介绍  21-23
  3.3 基于特征聚类的显式组特征选择算法FC-gRFE和SW-gRFE  23-25
    3.3.1 算法思想  23-24
    3.3.2 算法描述  24-25
  3.4 实验  25-30
    3.4.1 实验数据及参数设置  25-27
    3.4.2 实验结果及分析  27-30
  3.5 本章小结  30-31
第4章 基于改进权重的隐式组特征选择算法CW-groupS  31-46
  4.1 引言  31
  4.2 Weight Fusion模型介绍  31-32
  4.3 CW-groupS模型及其快速求解算法  32-36
    4.3.1 算法思想  32-35
    4.3.2 算法描述  35-36
  4.4 实验  36-45
    4.4.1 实验数据及参数设置  36-37
    4.4.2 实验结果及分析  37-45
  4.5 本章小结  45-46
第5章 集成的组特征选择算法EN-gRFE  46-52
  5.1 引言  46-47
  5.2 集成的组特征选择算法框架  47-48
  5.3 集成的组特征选择算法EN-gRFE  48
    5.3.1 算法思想  48
    5.3.2 算法描述  48
  5.4 实验  48-51
    5.4.1 实验数据与设置  48
    5.4.2 实验结果及分析  48-51
  5.5 本章小结  51-52
第6章 总结与展望  52-54
  6.1 工作总结  52-53
  6.2 工作展望  53-54
参考文献  54-58
附录  58-59
致谢  59

相似论文

  1. 基于仿生模式识别的文本分类技术研究,TP391.1
  2. 唇读中的特征提取、选择与融合,TP391.41
  3. 语音情感识别的特征选择与特征产生,TP18
  4. 泥鳅Dmrt1基因的克隆、表达和选择性剪接分析,Q78
  5. 基于特征选择的入侵检测研究,TP393.08
  6. 基于数据分布特征的文本分类研究,TP391.1
  7. 数据流特征选择策略的研究,TP311.13
  8. 面向概念查询的生物医学多文档摘要技术研究,TP391.1
  9. 基于数据挖掘算法的蛋白质相互作用及其活性位点研究,TP311.13
  10. 基于粗糙集属性约简和加权SVM的入侵检测方法研究,TP393.08
  11. 结合本体HowNet的中文文本分类研究,TP391.1
  12. 基于最小风险的贝叶斯邮件过滤算法研究,TP393.098
  13. 基于特征选择和支持向量机的纹理图像分类,TP391.41
  14. 聚类技术及其应用研究,TP311.13
  15. 多标签文本分类算法研究,TP391.1
  16. 基于粗糙集的启发式属性约简特征选择方法研究,TP18
  17. 基于内容解析的垃圾邮件过滤技术研究,TP18
  18. 车辆识别系统动态特征选择算法的研究与实现,TP391.41
  19. 基于改进的SVM模型的肝癌识别方法的研究与实现,TP391.41
  20. 领域间适应性情感分类方法研究,TP391.1
  21. 纹理图像的特征选择技术研究,TP391.41

中图分类: > 生物科学 > 生物工程学(生物技术) > 仿生学 > 生物信息论
© 2012 www.xueweilunwen.com