学位论文 > 优秀研究生学位论文题录展示

基于优化算法的蛋白质质谱数据分析

作 者: 李义峰
导 师: 刘毅慧
学 校: 山东轻工业学院
专 业: 计算机应用技术
关键词: 质谱技术 模拟退火 遗传算法 特征选择 模式分类 早期癌症诊断
分类号: Q51
类 型: 硕士论文
年 份: 2009年
下 载: 69次
引 用: 1次
阅 读: 论文下载
 

内容摘要


本文研究了基于优化算法的蛋白质质谱数据的特征选择问题。蛋白质质谱技术对于早期癌症的诊断和识别生物标记物是一种革命性的研究工具。但是数据的高维性和小样本问题对于模式识别方法提出了很大的挑战。因此为了解决质谱数据的维灾难问题,在模式分类之前特征选择是必须的降维步骤。特征选择最重要的两个因素是搜索策略和特征评价度量。在生物信号的特征选择领域,单变元特征评价度量已经在文献中提出应用,但是多变元度量却极少使用。本文提出了两个有效的智能优化算法——遗传算法模拟退火算法来进行特征选择,并且提出了5个多变元特征子集评价函数——包括基于封装器的度量和基于过滤器的度量。k-fold交叉验证用来划分数据成训练样本集和测试样本集。基于线性判别式分析的模式分类器被用来验证特征选择的子集。通过实验表明,马氏距离及经验分类错误率和后验概率的线性组合是2个很好的特征子集评价函数。同其他方法的比较结果证明,本文提出的基于智能优化算法特征选择模型和特征子集评价度量的结合可以获得比其他文献中已提方法更好的性能。在由FDA-NCI临床蛋白组学计划数据库和弗吉尼亚前列腺中心得到的5个权威数据库上的实验表明,这个方法可以得到具有显著的类区分特性的特征子集,这些子集为发现生物标记物和癌症的早期诊断提供了重要的参考。

全文目录


摘要  8-9
ABSTRACT  9-10
第1章 绪论  10-18
  1.1 蛋白质质谱技术  11-14
  1.2 特征选择  14-15
    1.2.1 基本概念  14-15
    1.2.2 特征选择在生物信息学中的应用  15
  1.3 模式分类  15-16
    1.3.1 模式分类的概念  15-16
    1.3.2 模式分类应用  16
  1.4 蛋白质质谱分析的研究现状  16
  1.5 本文研究内容  16-18
第2章 基于遗传算法的特征选择  18-32
  2.1 遗传算法  18-22
    2.1.1 遗传算法的起源与发展  18-19
    2.1.2 遗传算法基本原理  19-21
    2.1.3 遗传算法的特点及应用  21-22
  2.2 本文提出的基于遗传算法的蛋白质质谱特征选择模型  22-32
    2.2.1 编码和解码  25
    2.2.2 适应度函数  25-28
    2.2.3 选择和再生  28
    2.2.4 均匀交叉  28-29
    2.2.5 基于自适应变异率的均匀变异  29-30
    2.2.6 群体规模  30
    2.2.7 终止条件  30-32
第3章 基于模拟退火算法的特征选择  32-40
  3.1 模拟退火算法  32-35
    3.1.1 模拟退火算法的起源与发展  32
    3.1.2 模拟退火算法基本原理  32-34
    3.1.3 模拟退火算法特点及应用  34-35
  3.2 本文提出的基于模拟退火算法的蛋白质质谱特征选择模型  35-40
    3.2.1 解和解空间  37
    3.2.2 目标函数  37
    3.2.3 新解的产生  37-38
    3.2.4 添加记忆  38
    3.2.5 冷却进度表设置  38-40
第4章 数据预处理与模式分类  40-44
  4.1 预处理  40-41
    4.1.1 重采样、对齐、背景调整和去噪  40
    4.1.2 滤除缺乏变化的特征  40-41
    4.1.3 规范化  41
  4.2 线性判别式分析分类器  41-42
  4.3 支持向量机分类器  42-43
  4.4 交叉验证  43
  4.5 分类性能度量  43-44
第5章 实验结果与分析  44-60
  5.1 数据集  44-45
    5.1.1 OvarianCD_PostQAQC 数据集  44
    5.1.2 8-7-02 数据集  44
    5.1.3 4/3/02 数据集  44-45
    5.1.4 7-3-02 数据集  45
    5.1.5 PC-IMAC-Cu 数据集  45
  5.2 基于遗传算法的特征选择和模式分类结果  45-51
    5.2.1 遗传算法参数的设置  45-46
    5.2.2 遗传算法在五组数据集上的结果  46-48
    5.2.3 遗传算法在五组数据集上发现的显著类可分特征子集  48-50
    5.2.4 遗传算法的不同变异策略的比较  50
    5.2.5 LDA 与SVM 对于相同特征子集的分类性能的比较  50-51
  5.3 基于模拟退火算法的特征选择和模式分类结果  51-54
    5.3.1 模拟退火算法参数的设置  51-52
    5.3.2 模拟退火算法在前列腺质谱数据集上的结果  52-53
    5.3.3 模拟退火算法发现的显著类可分特征子集  53-54
  5.4 在五组数据集上的比较结果  54-56
  5.5 模拟退火算法与遗传算法的比较  56-57
  5.6 讨论  57-60
第6章 结论  60-63
  6.1 结论  60-61
  6.2 今后工作  61-63
参考文献  63-68
致谢  68-69
在学期间主要科研成果  69

相似论文

  1. 天然气脱酸性气体过程中物性研究及数据处理,TE644
  2. 压气机优化平台建立与跨音速压气机气动优化设计,TH45
  3. 基于仿生模式识别的文本分类技术研究,TP391.1
  4. 唇读中的特征提取、选择与融合,TP391.41
  5. 基于遗传算法的模糊层次综合评判在高职教学评价中的应用,G712
  6. 部队人员网上训练与考核系统的开发,TP311.52
  7. 基于并行算法的模糊综合评价模型的设计与应用,TP18
  8. 基于神经网络的牡蛎呈味肽制备及呈味特性研究,TS254.4
  9. 有源电力滤波器及其在配电网中的应用,TN713.8
  10. 基于遗传算法的中短波磁天线的设计及实现,TN820
  11. 基于遗传算法的柑橘图像分割,TP391.41
  12. 基于混合自适应遗传算法的动态网格调度问题研究,TP393.09
  13. 基于遗传—牛顿算法的公交优化调度,TP18
  14. 基于遗传算法优化的BP网络对生物柴油制备工艺的优化,TE667
  15. 基于云理论和蜜蜂进化型遗传算法的纹理合成研究,TP391.41
  16. 基于遗传算法和粗糙集的聚类算法研究,TP18
  17. 正常肝细胞系Chang Liver和肝癌细胞系HepG2的定量蛋白质组学研究,R735.7
  18. 尿液修饰核苷检测在膀胱移行细胞癌诊断及其生物学行为相关性的研究,R737.14
  19. 基于遗传算法的淠史杭灌区渠系配水优化编组模型的研究,S274
  20. 遗传算法在物流仓储优化中的应用研究,F259.2
  21. 基于遗传算法的矿山资源优化调度模型的研究,O224

中图分类: > 生物科学 > 生物化学 > 蛋白质
© 2012 www.xueweilunwen.com