学位论文 > 优秀研究生学位论文题录展示

生存分析中删失数据比例对Cox回归模型影响的研究

作 者: 钱俊
导 师: 陈平雁
学 校: 南方医科大学
专 业: 流行病与卫生统计学
关键词: Cox回归 生存分布 删失比例 协变量
分类号: O212
类 型: 博士论文
年 份: 2009年
下 载: 498次
引 用: 3次
阅 读: 论文下载
 

内容摘要


目的和意义在生存数据研究中,Cox回归能处理不同生存时间分布的删失数据,无疑是生存分析中最常用最经典的方法。在实际应用中,删失比例很大并应用Cox回归进行生存分析的情形并不鲜见。此时,Cox估计结果的可靠性和准确性如何?Cox模型是否对删失比例没有任何限制?这些问题国内外尚无系统研究的报道。本课题旨在研究删失比例大小对Cox模型分析结果的影响,继而确定应用Cox模型进行生存分析时删失比例的限度。这一问题的解决不仅对删失数据研究具有重要影响,还将为生存分析应用领域提供一个可参考的标准,从而增强危险因素分析的可靠性,提升科学研究结论的质量。方法根据Cox的偏似然算法,回归系数由事件和删失发生的秩序确定,而并非具体的生存时间取值,删失数据的信息只体现在偏似然函数的风险集中。但若删失比例很大,必然导致回归结果的偏倚。本研究将从随机模拟的角度探讨删失数据对Cox模型分析结果的影响,考察Cox回归模型在不同删失比例条件下结果的偏倚性、准确性和有效性。一、参数设置1.协变量个数:单因素和多因素情形,多因素情形考虑协变量个数为2、4和8。在多因素情形下,设置部分协变量为无关因素,以考察Cox模型筛选影响因素的能力。2.生存分布:在已知的生存分布中,只有指数分布、Weibull分布、Gompertz分布满足Cox比例风险假定。分别设置生存时间的分布为以上这3种类型。3.删失分布:考察Ⅰ型删失和Ⅲ型删失(随机删失)。Ⅰ型删失设置为截尾分布,Ⅲ型删失设置为指数分布和均匀分布。4.协变量类型:离散型和连续型随机变量,取值分布有两点分布、正态分布、均匀分布、Gamma分布等。5.样本量大小:以协变量个数的倍数来设置,单因素情形设置为协变量个数的20,40,80……200倍;多因素情形还考虑10倍以及500倍。以样本量和协变量个数倍数的大小来划分,可将样本大小分为3个等级:样本量为协变量个数的20倍以下,定义为小样本;样本量为协变量个数的20倍~100倍,定义为中等样本;样本量为协变量个数的100倍以上,定义为大样本。6.模拟重复次数:所有参数组合条件下重复抽样500次。二、评价指标设置1.偏倚性:回归系数的相对误差(MAD)和回归系数正负性改变的比率(BIAS)。不同删失比例条件下回归系数估计值的相对误差称为MAD,而回归系数估计值的正负号发生改变的比例,以评价指标BIAS标志。MAD和BIAS数值越小,偏倚就越小。2.准确性:回归系数标准差比率(Stdratio)。不同删失比例条件下回归系数标准差的大小与完整数据下的相比,比值以评价指标Stdratio标志。Stdratio越小(越接近1),结果的准确性越高。3.有效性:回归结果显著性比率(Propower)。以完整数据的Cox回归结果显著性为前提条件,计算不同删失比例条件下回归结果显著性所占的比例,以指标Propower标志。Propower数值越大,结果的有效性越高。三、模拟研究过程1.根据生存时间的分布规律构造出完整数据。根据不同的生存分布类型,求出累积基准风险函数的反函数,设置不同的分布参数和协变量,产生相应条件下生存时间的完整数据。2.从完整数据中根据删失数据的分布随机抽样,产生不同删失比例的若干数据集。先根据删失分布类型和删失比例的设置,运用迭代计算,确定删失分布中参数的取值,然后生成删失时间数据。结合生存时间和删失时间,继而产生不同删失比例下含删失的生存数据集。3.再以完整数据建立的Cox模型为金标准,从参数估计、显著性检验等方面评价不同删失比例下Cox结果的准确性和可靠性,计算不同删失情形下评价指标数值。4.对不同删失比例条件下评价指标的变化趋势进行分析。各项评价指标都是删失比例的单调函数,为了研究单调的特性,引入了差分的概念。一阶差分的正负性代表函数的增减性。二阶差分代表单调变化的加速度,其数值围绕0附近表示函数近似呈线性单调;偏离0越远则函数递增(递减)趋势越大。结果一、结果的偏倚性。以回归系数的相对误差(MAD)和回归系数正负性改变的比率(BIAS)指标来刻画。1.在不同生存分布类型和协变量类型下评价指标MAD和BIAS结果类似。2.在删失分布为Ⅰ型删失(截尾分布)情形下偏倚略小,在Ⅲ型删失各种分布类型下结果近似。3.受回归系数大小的影响,回归系数越小,MAD数值会越大。4.随着删失比例的增大,MAD和BIAS数值逐渐增大,在删失较大时会出现加速增大(加速偏倚)的现象。加速偏倚的位置和样本量大小有关:小样本情形,删失比例在70%后偏倚加速增大;中等样本情形,删失比例在80%后偏倚加速增大;大样本情形,删失比例在90%后偏倚加速增大。二、结果的准确性。以回归系数标准差的比率(Stdratio)来刻画。Stdratio的变化主要和删失比例有关:其随着删失比例的增大而不断增大,在删失比例70%时中位数数值达到1.7以上且这种增大趋势会“加速”。Stdratio的增大和加速增大的趋势不受样本量大小的影响,在各种参数条件下数值接近。三、结果的有效性。以回归结果显著性比率(Propower)来刻画。Propower与协变量的标准差、样本量的大小等因素都有关,但它总是随着删失比例的增大而不断下降。四、极端值的分布在小样本和大删失的情形下,比较容易出现极端值的现象。取Stdratio数值大于100做为极端值来描述其分布,此时MAD最小值达到4.5,最大值超过1000,Cox回归的估计毫无意义可言。与Ⅲ型删失相比,Ⅰ型删失较少出现极端值现象。在小样本情形下,极端值的出现应引起重视。在单因素情形下,若事件数(死亡例数)小于10,极端值出现的可能性达到5%,若事件数小于6,极端值出现可能性上升到20%。结论删失比例的增大会造成Cox模型分析结果的准确性、有效性下降,偏倚性增大。在删失比例超过70%后,Stdratio中位数数值超过1.7且加速增大,结果的准确性大大下降。指标Propower数值总是随着删失比例的增大而不断下降。在小样本情形下,删失比例超过70%后,偏倚加速增大且极端值的可能出现应引起重视。中等样本情形下,删失比例超过80%后,偏倚加速增大。大样本情形下,删失比例超过90%后,偏倚加速增大。为了提高结论的准确性和可靠性,在应用Cox模型进行生存分析时,应检查删失比例是否超过最大限度:样本量为协变量个数20倍以内,删失比例不宜超过70%;样本量为协变量个数20~100倍之间,删失比例不宜超过80%;样本量为协变量个数100倍以上,删失比例不宜超过90%。总而言之,本研究揭示了删失比例对Cox模型结果的影响,根据课题的研究结果确定了应用Cox模型进行生存分析时删失比例的限度,为实际应用提供了参考依据。

全文目录


相似论文

  1. 有缺失协变量的相对危险率模型的估计理论及其渐近性质,O212.1
  2. 我国上市公司治理风险预警研究,F276.6
  3. ER-β在乳腺癌组织中的表达及与预后的关系,R737.9
  4. 缺血性脑卒中复发危险因素分析,R743.3
  5. 121例结肠癌患者预后因素的Cox回归分析,R735.35
  6. BNIP3在人髓母细胞瘤中的表达及其与预后的关系,R739.4
  7. 有监督的主成分分析及偏Cox回归模型在基因数据生存预测中的应用,R195
  8. 高血压脑出血CT特征与预后的多因素相关性分析,R816.1
  9. 中国A股上市公司财务困境分析和预警模型的实证研究,F275
  10. 影响胃癌术后预后及复发的多因素分析,R735.2
  11. 停用依那西普后强直性脊柱炎病情复发相关因素分析及骨灵汤对其病情复发的影响,R593.23
  12. 区间删失数据下比例风险回归模型的贝叶斯半参数分析,O212.8
  13. Copula函数在精算数学中的应用,F224
  14. 随机删失数据下常用生存分布的参数估计,O212
  15. 儿童乙型肝炎发病影响因素的研究,R725.1
  16. 经肛门Ⅰ期根治小儿先天性巨结肠的近期疗效及影响因素研究,R726.5
  17. 同单调相依结构下的多元生命模型,F224
  18. CIS演变为多发性硬化的影响因素研究及干扰素干预效果Meta分析,R744.51
  19. 163例患者胃癌组织中FAF1蛋白的表达及其临床意义,R735.2
  20. 地下水管理模型中互馈协变关系理论和方法研究,P641.8

中图分类: > 数理科学和化学 > 数学 > 概率论与数理统计 > 数理统计
© 2012 www.xueweilunwen.com