学位论文 > 优秀研究生学位论文题录展示

生物统计中模型和方法的若干研究

作 者: 房云
导 师: 朱力行;武虎林
学 校: 华东师范大学
专 业: 概率论与数理统计
关键词: 艾滋病数据 数据扩张法 基因调控网络 极大拟似然估计 基因芯片数据 混合效应模型 矩估计法 常微分方程模型 重置模拟反推 拟最小二乘估计 两步估计法
分类号: Q-3
类 型: 博士论文
年 份: 2010年
下 载: 133次
引 用: 0次
阅 读: 论文下载
 

内容摘要


近年来,随着生物学的迅猛发展,对生物数据的分析研究也吸引了越来越多统计学家的目光。在本文中,我们对生物数据中使用的一些统计模型、方法及相关理论进行了研究,并通过数据模拟和实例分析验证了我们所提方法的效果和适用性。艾滋病(AIDS)是危害人类健康的一大杀手。目前对艾滋病病毒(HIV)的动态研究是AIDS研究领域的热门问题。HIV病毒动态研究可以给AIDS致病机理以及药效评估提供重要的依据。本文首先对描述HIV病毒纵向动态变化的随机系数常微分方程模型提出了两步估计法。在第一步中,我们对非参数混合效应模型利用局部多项式核估计得到状态变量及其导数的值,第二步中我们把第一步中的估计值代入随机系数常微分方程,并提出极大拟似然估计法得出常微分方程中未知参数的估计值。并且,我们对总体参数的估计推导了大样本性质。经过模拟研究和临床AIDS数据的实例分析,我们证实了该方法良好的估计效果和实用价值。同时,我们指出这里的两步估计法并不仅可用于HIV动态研究,还可用于流感病毒、药物代谢动力学等其他领域的随机系数常微分方程模型。基因芯片(也称作DNA microarray)技术可以同时测量大量基因的表达值。基因调控网络是基因表达值数据的一个重要研究内容。常微分方程系统是研究基因调控网络的常用工具之一。本文第三章研究了用于常微分方程系统的基于数据扩张法的拟最小二乘估训(DA-PLS)。我们推导了估计值的相合性,渐近正态性以及均方误差,并在最小化参数估计均方误差的前提下,给出了选取窗宽和扩张数据样本量的建议。对于基因数据的重复观察次数较少,即样本量小的缺憾,我们认为数据扩张法可以从原始数据中挖掘出更多的信息,提高估计效果。在模拟和数据分析中,我们将该方法用到基因调控网络中去,证实了该方法的估计值确实比拟最小二乘估计法(Liang & Wu 2008)有明显改进。本文在理论和模拟双方面都说明了DA-PLS法的优点。当然,DA-PLS法也可用于其他领域的常微分方程系统。此外,基因芯片数据研究中的一个重要方面是检验在不同条件下表达值有显著差异性的基因。而基因表达值的方差估计对这一检测起着重要作用。本文的第四章研究了重置模拟反推法(PSIMEX)估计microarray数据方差的大样本性质,包括参数和非参数方差函数两种情形。对参数情形,我们研究的问题更具一般性。我们研究了在不能确定使用的模型是否为真实模型的情况下,参数估计相合到何值,以及是否具有渐近正态性等问题。对于非参数方差模型,我们研究了PSIMEX核估计的渐近正态性,给出了最优窗宽的选取。并且,利用蒙特卡罗法,我们构造了参数方差模型中参数的置信区间以及非参数方差模型下方差函数的联合置信带。通过模拟,我们验证了置信区间和置信带令人满意的效果。同时,我们分析了两个microarray实际数据来说明PSIMEX法估计方差的实用性。另一方而,纵向数据是多个个体随着时间推移重复观察的数据,在生物、医药、农业等众多领域出现。混合效应模型是研究纵向数据的一个常用工具。然而常用的随机效应和误差正态分布的假设不具有稳健性。另外,非正态分布假设下,随机效应及误差的高阶矩估计也是值得关注的一个问题。在第五章,我们提出了用于纵向数据的混合效应模型的矩估计方法。该方法在随机效应和误差非正态性分布时,能够对模型参数以及随机效应和误差的高阶矩作估计。我们证明了矩估计具有强相合性和渐近正态性。经模拟,我们核实了该方法的估计效果,并构造了参数的置信区间的置信域。

全文目录


插图目录  8-9
表格目录  9-10
摘要  10-12
Abstract  12-14
主要符号对照表  14-15
第一章 引言  15-25
  1.1 艾滋病数据常微分方程模型  15-18
  1.2 基因芯片数据与相关问题  18-21
  1.3 纵向数据与混合效应模型  21-22
  1.4 本文的主要工作  22-25
第二章 随机系数常微分方程的两步估计以及在纵向动态艾滋病(AIDS)数据的应用  25-46
  2.1 引言  25-26
  2.2 估计方法  26-33
  2.3 渐近性质  33-34
  2.4 实际数据分析  34-36
  2.5 模拟研究  36-37
  2.6 总结与讨论  37-38
  2.7 附录  38-46
第三章 基于数据扩张法的拟最小二乘估计并在基因调控网络(GRN)中的应用  46-63
  3.1 引言  46-47
  3.2 基于数据扩张法的拟最小二乘估计  47-51
  3.3 窗宽h以及扩张数据的样本量m的阶  51-53
  3.4 模拟研究  53-55
  3.5 实际数据分析  55-56
  3.6 总结和讨论  56-58
  3.7 附录  58-63
第四章 重置模拟反推法对基因微阵列(microarray)数据方差估计的渐近性质  63-80
  4.1 引言  63-64
  4.2 PSIMEX方法的回顾  64-66
  4.3 渐近理论  66-69
  4.4 Monte Carlo置信区间和置信带  69-72
  4.5 模拟研究  72-73
  4.6 实例分析  73-76
  4.7 总结与讨论  76
  4.8 附录  76-80
第五章 随机设计混合效应模型的统计分析  80-95
  5.1 引言  80-81
  5.2 估计方法和步骤  81-84
  5.3 大样本性质  84-85
  5.4 置信区间和置信域  85-86
  5.5 模拟研究  86-89
  5.6 附录  89-95
结论以及未来的工作  95-96
参考文献  96-107
后记  107-109
博士期间的研究成果及发表的论文  109

相似论文

  1. 中国股票市场的一些统计学研究,F832.5
  2. GEE方法在可信度模型结构参数估计中的应用,F224
  3. 常微分方程理论在数学建模中的简单应用,O141.4
  4. 常微分方程在数学建模的应用,O175.1
  5. 金融自由化改革对企业融资约束的作用研究,F272;F224
  6. 我国金融发展与经济增长:基于联立方程计量模型的研究,F832;F124
  7. 批准兽药数据库的建立与恩诺沙星的回顾性药动数据分析,S851.66
  8. 群体PK中的非线性混合效应模型及SDE模型研究,R911
  9. 异位妊娠患者甲氨蝶呤的群体药动学及治疗结果预测因素分析,R969.1
  10. GLMM与考虑重复效应的ANOVA在重复测量数据中应用,R195
  11. 基因芯片数据处理方法及在乳腺癌数据中的应用,TN492
  12. 特征提取及分类算法在膜蛋白分类预测问题中的应用,TP18
  13. 机器学习及数据挖掘在生物信息学中的应用研究,TP311.13
  14. 基于样本子集差异基因表达检测的统计方法研究,R730.2
  15. 生存迁移算法及在重构基因调控网络中的应用,TP18
  16. 基于基因芯片数据统计分析的寒热辨证机理研究,R254
  17. 基于基因芯片的基因表达模式分析,Q78
  18. 拟南芥雄性不育突变性tdf1的基因克隆和功能分析,Q943.2
  19. 非线性模型中极大拟似然估计的性质,O212
  20. 关于无失效数据的统计分析,O212

中图分类: > 生物科学 > 生物科学的研究方法与技术
© 2012 www.xueweilunwen.com