学位论文 > 优秀研究生学位论文题录展示
基因表达谱数据特征选择算法研究
作 者: 朱钦平
导 师: 祁云嵩
学 校: 江苏科技大学
专 业: 模式识别与智能系统
关键词: 微阵列基因数据 特征选择 稳健统计 支持向量机 聚类 遗传算法
分类号: Q78
类 型: 硕士论文
年 份: 2011年
下 载: 71次
引 用: 0次
阅 读: 论文下载
内容摘要
基因芯片技术是一种新型的分子生物学技术,也是一项具有深远影响的重大科学成就。基因芯片技术可以快速准确的生成大量的微阵列基因表达谱数据,使人们从分子水平上了解基因的表达模式和微观层面上研究生命现象。由于基因表达谱数据具有样本小、维数高、噪声大、冗余基因大量存在、分布不平衡等特点。所以,采用合适的方法降低特征维数,选择具有代表性的特征基因就成为一项重要的数据处理的工作。针对基因表达谱数据样本小,分布不平衡,噪声大,不符合正态模型的特点。提出了两种基于稳健统计思想的估计量,这两种统计量即考虑了样本总体的信息,但同时避免过于依赖对正态模型的假设。实验表明,将这些统计量应用到T统计量算法选择差异表达基因的问题中,获得了较好的分类效果。支持向量机技术是一种基于结构风险最小化的分类技术,L-J算法是一种通过研究支持向量机分类提出的特征选择算法。根据K-L变换理论,任意向量都可以写成正交空间中投影到各个坐标的分量的和的形式。因此,改进后的L-J算法用分类超平面的梯度向量在各坐标轴的分量取代了梯度向量与各坐标轴的夹角计算,同时能获得与L-J算法相同的效果。针对基因表达谱数据含有大量冗余基因,冗余基因的存在影响分类效果的问题,提出了一种基于相关系数的方法将基因表达谱数据的每个基因映射成为特征空间的向量,然后在特征空间将映射后的向量按某种规则聚类,聚类完成后,在每一子类中选取一个代表向量组成特征子集。实验表明,该算法降低了特征维数,提高了分类效果。遗传算法是一种智能化的大规模搜索算法。本文在充分考虑基因表达谱数据的特点的基础上,提出了一种应用于特征选择的改进型遗传算法。该算法将遗传算法,免疫算法,过滤法,启发式方法,支持向量机分类技术相结合,获得了较小的,分类能力较强的特征子集。
|
全文目录
摘要 6-7 Abstract 7-13 第1章 绪论 13-21 1.1 生物信息学 13-16 1.2 生物芯片与基因微阵列信息处理 16-19 1.2.1 生物芯片技术 16-17 1.2.2 基因芯片的基本概念 17 1.2.3 微阵列数据的获取与数据标准化 17-18 1.2.4 基因表达谱数据的特点与研究意义 18-19 1.3 论文主要内容的安排 19-21 第2章 特征选择 21-27 2.1 特征选择的概念及其在生物信息学中的应用 21 2.2 特征选择策略 21-26 2.2.1 按搜索策略划分特征选择算法 21-25 2.2.2 按特征集合评价策略划分特征选择算法 25-26 2.3 本章小结 26-27 第3章 基于稳健统计思想的参数估计 27-37 3.1 稳健统计(robust statistic)思想 27-28 3.2 提出基于稳健统计思想的两种统计量 28-36 3.2.1 第一种稳健统计量 28-29 3.2.2 实验分析第一种稳健统计量的性质 29-30 3.2.3 第二种稳健统计量 30-33 3.2.4 实验分析第二种稳健统计量 33-36 3.3 本章小结 36-37 第4章 基于K-L 变换的改进支持向量机特征选择算法 37-49 4.1 支持向量机基本原理 37-41 4.1.1 线性支持向量机 37-39 4.1.2 非线性支持向量机 39-40 4.1.3 软间隔优化 40-41 4.2 L-J 特征选择算法 41-42 4.3 K-L 展开式 42-44 4.3.1 傅里叶级数展开式 42-43 4.3.2 K-L 展开式 43-44 4.4 基于K-L 展开式的改进L-J 特征选择算法 44-47 4.5 实验 47-48 4.6 本章小结 48-49 第5章 冗余基因处理 49-65 5.1 非监督学习 49-59 5.1.1 类分离的直接方法 49-53 5.1.2 基于样本间相似性的间接聚类法 53-56 5.1.3 分级聚类算法 56-58 5.1.4 模糊聚类分析 58-59 5.2 相关系数 59 5.3 基于聚类算法的冗余基因约简 59-64 5.4 实验 64 5.5 本章小结 64-65 第6章 基于改进遗传算法的特征选择 65-79 6.1 遗传算法 65-70 6.1.1 遗传算法的特点 66 6.1.2 遗传算法的理论研究问题 66-70 6.2 模拟退火算法 70-71 6.3 免疫规划算法 71 6.4 一种改进遗传算法的特征选择算法 71-77 6.4.1 遗传算法的改进策略 71-76 6.4.2 一种改进遗传算法的特征选择算法 76-77 6.5 实验 77-78 6.6 本章小结 78-79 结论 79-81 1. 对本文研究的总结 79-80 2. 对未来工作的展望 80-81 参考文献 81-85 攻读硕士学位期间发表的学术论文 85-86 致谢 86-87 大摘要 87-91
|
相似论文
- 天然气脱酸性气体过程中物性研究及数据处理,TE644
- 基于SVM的常压塔石脑油干点软测量建模研究,TE622.1
- 压气机优化平台建立与跨音速压气机气动优化设计,TH45
- 基于SVM的高速公路路面浅层病害的自动检测算法研究,U418.6
- 基于PCA-SVM的液体火箭发动机试验台故障诊断算法研究,V433.9
- 空间目标ISAR成像仿真及基于ISAR像的目标识别,TN957.52
- 音乐结构自动分析研究,TN912.3
- 隐式用户兴趣挖掘的研究与实现,TP311.13
- 基于仿生模式识别的文本分类技术研究,TP391.1
- 图像分割中阴影去除算法的研究,TP391.41
- 唇读中的特征提取、选择与融合,TP391.41
- 基于图像的路面破损识别,TP391.41
- 过程支持向量机及其在卫星热平衡温度预测中的应用研究,TP183
- 牡丹EST-SSR引物开发及其亲缘关系分析,S685.11
- 高忠英学术思想与经验总结及运用补肺汤加减治疗呼吸系统常见病用药规律研究,R249.2
- 基于遗传算法的模糊层次综合评判在高职教学评价中的应用,G712
- K-均值聚类算法的研究与改进,TP311.13
- 大学生综合素质测评研究,G645.5
- 基于并行算法的模糊综合评价模型的设计与应用,TP18
- 基于神经网络的牡蛎呈味肽制备及呈味特性研究,TS254.4
- 大豆品种对腐竹品质的影响及其品质评价体系的初步构建,TS214.2
中图分类: > 生物科学 > 分子生物学 > 基因工程(遗传工程)
© 2012 www.xueweilunwen.com
|