学位论文 > 优秀研究生学位论文题录展示

基于混合线性模型和条件变量分析的DNA微阵列数据分析方法研究

作 者: 陆燕
导 师: 朱军
学 校: 浙江大学
专 业: 作物遗传育种
关键词: DNA微阵列 基因表达 混合线性模型 蒙特卡罗模拟 条件变量分析
分类号: Q523
类 型: 博士论文
年 份: 2003年
下 载: 216次
引 用: 0次
阅 读: 论文下载
 

内容摘要


近年来DNA芯片技术日益成为研究大量基因表达连续变化的实验室工具。芯片技术的发展使得同时获得成千上万个基因的表达谱成为可能。DNA芯片在产生的短短几年时间已经显现出在基因序列分析、基因诊断、基因表达研究、基因组研究、发现新基因及各种病原体的诊断等生物医学领域中的应用价值。利用芯片数据,“癌变基因”的发现以及对飞速增长的基因组数据库增加功能注释等难题将迎刃而解。DNA芯片数据具有高维(成千上万个基因)和样本小(通常小于30)的特点,为了避免对伪结果进行分析,准确估计抽样方差很重要。在微阵列试验中既要包括真实的变化,又需要随机的变异。大量研究表明,聚类分析及其相关技术对于挖掘基因表达的相关模式非常有用。但是仅用这些方法不能对分析结果进行统计推断,难以得到具有生物学意义的结论,尤其是不适合分析前后时间点数据高度相关的动态基因表达数据。 本文描述的统计框架包含了基因表达分析的众多目标,与现有的分析方法完全一致,同时提高了这些方法的效用。本文着重研究差别表达基因的鉴定。本研究提出了基于混合线性模型的分析微阵列数据的方法,并将其应用于差别表达基因的鉴定、在动态或静态过程中估算基因主效应以及预测基因与环境的互作效应。用蒙特卡罗模拟对该方法的有效性和可靠性进行了比较系统的研究。这种方法可以有效地将基因表达水平根据变异来源的不同剖分为几个组成部分。主要研究内容和结论概述如下: 1.提出了分析芯片数据的一般模型,其中包括了基因、阵列效应、染料、处理效应以及基因×阵列、基因×染料、基因×处理互作效应。根据不同的试验设计,该模型可以做适当的调整。本文提出的方法主要分为两步来进行:首先,将芯片数据通过噪音过滤消除大的试验系统误差,然后在一个比较宽松的标准下通过单基因模型初步判断差异表达基因;其次,用多基因模型分析这些初定的差异表达基因以便在较严的标准下控制假阳性。用MINQUE法估计各项效应的方差和协方差分量,用AUP法预测随机效应。基因和处理的互作效应作为鉴定差异表达基因的具体指标。 2.对新提出的基于混合线性模型分析DNA芯片数据的方法用蒙特卡罗模拟进行了验证。模拟结果表明该方法在绝人多数情况下忧于传统的t检验和 WOlfinger提出的混合模型方法。验证了基因和处理的互作效应可以作为鉴定差异表达基因的更为恰当的指标。 3.研究表明我们提出的基于混合线性模型的方法可以无偏或近无偏地估算固定效应和预测随机效应。对基因主效应的无偏估计值和基因与处理互作效应的无偏预测值进行聚类可以获得具有统计学和生物学意义的结果。 4.将我们提出的混合线性模型进行拓展,可以用来分析动态的基因表达数据。我们定义了一个新变量度量给定卜1时刻的基因表达量来确定1时刻的基因表达情况,用条件变量的方法来估计条件方差、预测条件遗传效应,可以揭示在特定时间段基因表达的变异情况。 5.对新提出的基于条件变量的分析芯片数据的方法进行了蒙特卡罗模拟研究。结果表明基于条件变量的分析方法在大多数情况下表现得比差值法更有效。同时结果还进一步显示了将基囚和环境的互作效应作为鉴定差异表达基因的指标是非常有效的。 6.为了适应实际分析的需要,用C/C++语言编写了软件,可以用于分析基因芯片的表达数据,估算基因表达变异来源的方差组成和预测遗传效应,同时寻找差异表达基因。 7.以几种药物处理特异癌症细胞系的实际芯片实验数据的分析为例,说明了本研究所提方法的分析过程及分析所得结果的生物学意义。

全文目录


英文摘要  9-11
中文摘要  11-13
Chapter 1 INTRODUCTION  13-16
  1.1 The utilization of microarray  13-14
  1.2 The importance of statistical methods for gene expression data  14-15
  1.3 Objective of this research  15-16
Chapter 2 LITERRATURE REVIEW  16-42
  2.1 The development of microarray technology  16-20
    2.1.1 Biological background on microarray technology  16-18
    2.1.2 Microarray systems  18-20
      2.1.2.1 Oligonucleotide arrays  18-19
      2.1.2.2 cDNA microarrays  19
      2.1.2.3 Microarray production variants  19-20
  2.2 Procedures in cDNA Microarray technology  20-21
  2.3 Design of studies using Microarray  21-26
    2.3.1 Objectives of DNA microarray studies  21-22
      2.3.1.1 Class Comparison  21-22
      2.3.1.2 Class Discovery  22
    2.3.2 Variation source and replication level of Microarray  22-23
    2.3.3 Experimental design of Microarray  23-26
  2.4 Statistical methods of microarray data analysis  26-39
    2.4.1 Normalization  26-28
    2.4.2 Identifying different expressed genes  28-31
      2.4.2.1 Methods for identifying different expressed genes  28-30
      2.4.2.2 False positive and false negative  30-31
    2.4.3 Dimension reducing  31-32
    2.4.4 Cluster and classification  32-39
      2.4.4.1 Unsupervised method: Cluster analysis  33-37
      2.4.4.2 Supervised grouping: discrimination analysis and classification  37-39
  2.5 Application of microarray technology  39-42
Chapter 3 METHODS FOR MICROARRAY DATA ANALYSIS  42-58
  3.1 Introduction  42-43
  3.2 Models and Methodology  43-49
    3.2.1 t-test method  43-44
    3.2.2 Wolfinger's method  44-45
    3.2.3 Mixed linear model approach  45-49
      3.2.3.1 Mixed linear model for nficroarray data analysis  45-46
      3.2.3.2 Noise filtering model and single gene model  46-47
      3.2.3.3 Multi-gene model  47-49
  3.3 Simulation  49-51
    3.3.1 Experimental design  49
    3.3.2 Generating gene expression data  49-50
    3.3.3 Efficiency of identification of differentially expressed genes  50
    3.3.4 Efficiency of predicting random effects and estimating fixed effects  50-51
  3.4 Simulation Results  51-54
    3.4.1 Effects of identification of differential expressed genes  51-53
    3.4.2 Efficiencies of predicting random effects and estimating fixed effects  53-54
  3.5 Discussion  54-58
Chapter 4 A CONDITIONAL VARIABLE APPROACH TO ANALYZE DYNAMIC GENE EXPRESSION DATA  58-70
  4.1 Introduction  58-60
  4.2 Models and Methodology  60-63
  4.3 Simulation  63-64
    4.3.1 Experimental design  63
    4.3.2 Generating gene expression data  63
    4.3.3 Constructing new variable  63-64
    4.3.4 Comparison of conditional variable approach with difference approach  64
  4.4 Simulation Results  64-67
    4.4.1 Efficiencies of identification of differentially expressed genes  64-66
    4.4.2 Efficiencies of predicting random effects and estimating fixed effects  66-67
  4.5 Discussion  67-70
Chapter 5 WORKED EXAMPLE OF MICROARRAY DATA ANALYSIS FOR CANCER CELL LINE TREATED BY MEDICAMENT  70-83
  5.1 Description of data set  70-71
  5.2 Analysis for data of single cell line and single treatment by mixed model approach  71-72
  5.3 Comparing three methods for analysis data of multiple cell lines and treatments  72-74
  5.4 Conditional analysis with two time point data of multiple cell lines and treatments  74-75
  5.5 Discussion  75-83
SUMMARY  83-85
REFERENCES  85-100

相似论文

  1. 多转录因子组合调控研究,Q78
  2. BMP通路关键因子在人类牙胚组织中的表达检测,R78
  3. 基于RNA测序技术的马氏珠母贝珍珠囊转录组及数字基因表达谱分析,Q786
  4. 调和玉米油对肉仔鸡抗氧化应激、脂质代谢酶及免疫基因表达的影响,S831.5
  5. N-氨甲酰谷氨酸合成及其生理功能研究,R914
  6. 水稻硝转运蛋白基因OsNRT1.1a和OsNRT1.1b的功能研究,S511
  7. 河南和云南烤烟碳氮代谢比较研究,S572
  8. 鸡Δ~6脂肪酸脱氢酶基因启动子区域多态性及基因时空表达的研究,S831
  9. 犬细小病毒2型VP2基因在昆虫细胞中的表达及血清抗体间接ELISA检测方法的建立,S852.65
  10. 基因表达谱数据聚类分析方法比较与大豆疫霉基因的网络构建,S435.651
  11. 番茄磷转运蛋白基因LePT1和LePT2在水稻中的功能鉴定,S511
  12. 水稻pib基因内含子1、2对Pib启动子活性影响的转基因分析,S511
  13. 四川会理烤烟叶片生长发育及物质代谢特性研究,S572
  14. 甘蓝型油菜线粒体DNA提取及基因表达分析研究,S565.4
  15. 小麦Na~+/H~+逆转运蛋白TaNHX2的功能验证及功能域分析,S512.1
  16. 抗倒伏油菜根、茎解剖结构及木质素含量和木质素合成关键基因的表达研究,S565.4
  17. 蝴蝶兰花序分生组织基因LFY表达载体构建及对蝴蝶兰的遗传转化,S682.31
  18. 萝卜霜霉病抗性遗传标记与Rs-AFPs基因表达分析,S631.1
  19. 萝卜镉胁迫响应相关基因克隆及其表达分析,S631.1
  20. 牛SYCP3基因的克隆、表达与启动子区甲基化分析,S823
  21. 不同品种鸡蛋胆固醇沉积规律和相关基因表达的研究,S831

中图分类: > 生物科学 > 生物化学 > 核酸 > 脱氧核糖核酸(DNA)
© 2012 www.xueweilunwen.com