学位论文 > 优秀研究生学位论文题录展示

基于线性回归模型的基因调控网络重构算法的研究

作 者: 刘佳宝
导 师: 季春光
学 校: 哈尔滨工业大学
专 业: 计算机科学与技术
关键词: 基因调控网络 变量筛选 线性回归 偏最小二乘 LASSO
分类号: Q75
类 型: 硕士论文
年 份: 2009年
下 载: 66次
引 用: 0次
阅 读: 论文下载
 

内容摘要


随着基因组学和蛋白质组学相关技术的发展,产生了大量的表达谱和生物大分子相互作用的网络图谱信息。生物信息学为储存、处理、分析和整合这些海量数据提供了强有力的技术支持,而系统的研究基因之间的相互作用关系以及建立基因调控网络,已成为当前生物信息学研究的热点。基因在转录过程中,转录因子(蛋白质)与DNA结合以激活基因的转录,而基因表达的产物可能是转录因子,它又能激活或抑制其它基因的转录。如此继续下去,就形成一个基因调控路径。所谓基因调控网络研究就是基于微阵列数据,结合生物信息学的方法和技术对基因之间表达关系的一种重建。微阵列技术的发展使得人们系统的、大规模的研究基因调控关系成为可能。基因调控网络构建中最具挑战性的问题之一就是系统中包含的基因数目远远大于样本数,即小样本问题。许多比较成熟的算法不能处理小样本情况或者效果较差。小样本问题给基因调控网络算法的研究和实际应用带来了巨大的困难。本文侧重小样本情况,主要研究了基于线性回归模型的基因调控网络重构算法,明确提出在线性回归模型中应该把基因调控网络的重构问题转化为的变量筛选问题来处理。本文结合基因调控网络的稀疏性特点,提出了基于稀疏度的变量筛选准则,并给出了小样本情况下偏F检验的替代方法。基于以上工作,本文创新性的采用了后向剔除筛选法,提出了基于偏最小二乘的后向筛选法;基于变量筛选准则,本文提出了基于LASSO的变量筛选法。基因间的调控关系是复杂的,有些时候用线性模型难以刻画。故本文进一步研究了非线性情况,提出了基于核偏最小二乘法的变量筛选法。为了证明本文提出方法的有效性,本文在模拟数据和真实的基因表达数据上都进行了实验。模拟实验的结果表明本文提出的基于偏最小二乘的后向筛选法不管是在小样本还是在大样本条件下一直占据优势,是参与比较的多种算法中表现最好的方法;而本文提出的基于LASSO变量筛选法,仅在小样本条件表现的较好,这说明该算法更适合处理小样本情况。在接着的酵母菌表达数据实验中,本文提出的全部算法都较其他方法准确率高。由于贝叶斯方法一直被广泛的研究,因此最后本文和Banjo提供的动态贝叶斯方法做了比较,在该实验中本文提出的基于偏最小二乘的后向筛选法效果最好。

全文目录


摘要  4-6
Abstract  6-10
第1章 绪论  10-20
  1.1 课题背景  10-11
  1.2 生物学知识  11-13
    1.2.1 基本概念  11
    1.2.2 基因芯片  11-13
  1.3 国内外研究现状及存在的问题  13-16
    1.3.1 国内外研究现状  13-16
    1.3.2 存在的问题  16
  1.4 研究的目的和意义  16-17
  1.5 本文主要的研究内容  17-20
    1.5.1 基因调控网络线性回归模型的对应关系  17-18
    1.5.2 变量筛选问题  18-19
    1.5.3 本文结构  19-20
第2章 多元线性回归与变量筛选  20-35
  2.1 多元线性回归  20-24
    2.1.1 多元线性回归模型  20-21
    2.1.2 回归参数的最小二乘估计  21-22
    2.1.3 拟合优度  22-23
    2.1.4 多重共线性的情况及处理  23-24
  2.2 改进的参数估计方法  24-30
    2.2.1 偏最小二乘估计  24-27
    2.2.2 LASSO估计  27-29
    2.2.3 核偏最小二乘估计  29-30
  2.3 变量筛选方法  30-34
    2.3.1 所有子集法  31
    2.3.2 逐步回归法  31-33
    2.3.3 LASSO筛选法  33-34
  2.4 本章小结  34-35
第3章 基因调控网络重构算法的研究  35-51
  3.1 基因表达数据及其预处理  35-38
    3.1.1 基因表达数据介绍  35-37
    3.1.2 缺失值处理和过滤  37-38
  3.2 基因调控网络与线性回归模型的对应关系  38-41
  3.3 基因调控网络的拓扑结构  41-43
    3.3.1 度与度分布  41
    3.3.2 网络的分类  41-42
    3.3.3 BA模型及其生成算法  42-43
    3.3.4 基因调控网络的稀疏性  43
  3.4 本文定义的概念  43-47
    3.4.1 稀疏度  43-44
    3.4.2 基于稀疏度的变量筛选准则  44-45
    3.4.3 小样本下偏F检验的替代算法  45-46
    3.4.4 全局选网  46-47
  3.5 基因调控网络重构算法  47-50
    3.5.1 基于偏最小二乘(PLS)的后向变量筛选法  47-48
    3.5.2 基于LASSO方法的变量筛选法  48-49
    3.5.3 基于KPLS的前向变量筛选法  49-50
  3.6 本章小结  50-51
第4章 实验设计与结果分析  51-61
  4.1 算法评价机制  52
  4.2 实验一:模拟实验  52-57
  4.3 实验二:酵母菌实验  57-59
    4.3.1 数据来源  57-58
    4.3.2 有效性的证明  58-59
    4.3.3 结果分析  59
  4.4 实验三:与动态贝叶斯模型的比较  59-60
  4.5 本章小结  60-61
结论  61-63
参考文献  63-68
致谢  68

相似论文

  1. 基因调控网络模型描述语言研究,Q78
  2. 基于函数型数据分析方法对心电图中T波和RR间期之间关系的研究,R444
  3. 线性回归与灰关联在山西老陈醋质量体系检测中的相关性研究,TS264.22
  4. 朝阳地区参考作物腾发量演变特征与预测模型研究,S161.4
  5. 灰色系统理论及相关模型的分析比较,N941.5
  6. 酮类化合物的3D-QSPR研究,O641
  7. 海南雾的天气气候特征分析及预报方法研究,P457
  8. Logistic回归多重共线性的诊断与改进及其在医学中的应用,R195
  9. 商业银行贷后风险预警系统的设计和实现,TP311.52
  10. 基于声学特性检测西瓜糖度和空心的声学检测系统,TS255.7
  11. 完全叠接管节点局部刚度的数值分析,TU392.3
  12. 中长期负荷预测方法研究,TM715
  13. 基于气味分析的设备异常检测方法研究,TB17
  14. 往复式压缩机故障诊断技术研究,TH45
  15. 乙肝病毒性肝硬化的血清代谢轮廓分析,R512.62
  16. 数据缺失及相关因素对逐步回归变量筛选的影响,R181.3
  17. 广义加性模型在医疗费用控制的应用,R197.1
  18. 基因调控网络鲁棒稳定性分析,TP13
  19. 基于增值税转型的企业经营绩效研究,F224.32
  20. 气温的统计分析及短期预测,P457.3
  21. 在内部参数波动和外部噪声干扰下的基因调控网络鲁棒控制器的设计,Q75

中图分类: > 生物科学 > 分子生物学 > 分子遗传学
© 2012 www.xueweilunwen.com